Facebook M2M-100 (система перевода текста)

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Meta Platforms
Технологии: Речевые технологии

2020: Раскрытие исходников Facebook M2M-100 - системы перевода текста

В середине октября 2020 года Facebook раскрыла исходники первой системы машинного обучения, которая переводит текст с одного языка на другой, не полагаясь на промежуточный перевод на английском. Инструмент M2M-100 стал первой многоязычной моделью машинного перевода, которая может работать с любой парой из 100 языков напрямую.

До сих пор многоязычные модели машинного перевода полагались на английский язык как на своего рода посредника из-за широко доступных данных для обучения. Такие модели в большинстве случаев неплохо справляются с заданием, но, когда дело касается более сложных фраз, перевод часто бывает неточен. Facebook заявляет, что M2M-100 лучше сохраняет значение, поскольку переводит напрямую без обращения к английскому подстрочнику.

Facebook раскрыла исходники первой системы машинного обучения, которая переводит текст с одного языка на другой напрямую - M2M-100

Перевод между таким количеством разных языковых пар - непростая задача, поскольку моделям требуется доступ к большому объему высококачественных данных для обучения. Исследователь ИИ в Facebook Анджела Фан (Angela Fan) объяснила, что ее команда создала огромный набор данных, содержащий более 7,5 млрд предложений на 100 различных языках.

Эти данные собирались с помощью инструментов интеллектуального анализа данных с открытым исходным кодом, таких как ccAligned, ccMatrix и LASER, а затем подразделялись на 14 различных языковых групп на основе таких параметров, как лингвистическая классификация, география и культурное сходство. В каждой из этих 14 языковых групп Facebook определил от одного до трех «языков-мостов», которые служат основой для перевода на другие языки этой группы. Команда Фан также использовала технику, известную как «обратный перевод», для создания синтетических данных в дополнение к уже добытым параллельным переводам.TAdviser выпустил Гид по российским операционным системам 10.1 т

Facebook желает заменить все существующие модели на M2M-100, чтобы улучшить качество переводов в своих приложениях.[1][2]

Примечания



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (44)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (15)
  Другие (191)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  SteadyControl (4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  3iTech (ранее 3i Technologies) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Naumen (Наумен консалтинг) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3)
  Robovoice (Робовойс) (3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (3)
  Другие (26)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl (1, 23)
  SteadyControl HoReCa (1, 23)
  Другие (351, 210)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl HoReCa (1, 4)
  SteadyControl (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (17, 29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 5)
  SteadyControl (1, 5)
  Ростелеком (2, 4)
  СалютДевайсы (ранее SberDevices) (2, 4)
  Другие (20, 33)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  SteadyControl Система контроля и управления персоналом - 23
  BSS Digital2Speech - 21
  Voice2Med Система распознавания речи в медицине - 14
  Naumen Erudite - 13
  Другие 199

  BSS Digital2Speech - 5
  SteadyControl Система контроля и управления персоналом - 4
  Voice2Med Система распознавания речи в медицине - 4
  3i TouchPoint Analytics - 2
  МТТ VoiceBox - 2
  Другие 11

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  Naumen Erudite - 3
  VS Robotics: VS Робот-оператор - 3
  SteadyControl Система контроля и управления персоналом - 3
  Другие 14

  МТТ VoiceBox - 9
  SteadyControl Система контроля и управления персоналом - 7
  EXpress Защищенный корпоративный мессенджер - 6
  BSS Digital2Speech - 6
  SmartLogger II - 4
  Другие 23

  SteadyControl Система контроля и управления персоналом - 5
  BSS Digital2Speech - 4
  YandexGPT (YaLM 2.0) - 3
  EXpress Защищенный корпоративный мессенджер - 3
  BSS: Виртуальный голосовой ассистент - 3
  Другие 25