Google Tacotron (синтезатор речи)

Продукт
Разработчики: Google
Дата последнего релиза: декабрь 2017 г
Отрасли: Интернет-сервисы
Технологии: Речевые технологии

2017: Разработка алгоритма Tacotron 2

В конце декабря 2017 года компания Google анонсировала систему синтеза речи, которая способна преобразовывать текст в речь, максимально приближенную к человеческой. Алгоритм получил название Tacotron 2.

Система способна читать любые предложения, игнорировать грамматические ошибки и менять тональность речи. Алгоритм говорит пока только на английском

Отмечается, что Tacotron 2 использует контекст, чтобы произносить абсолютно одинаковые слова. Он также реагирует на пунктуационные правила в тексте, а также может подчеркивать конкретные слова. Технология способна различить разные формы глагола или определить, выполняет ли слово роль глагола или существительного.

Google разработала систему синтеза речи, не отличимой от человеческой

Google давно занимается технологиями синтеза речи при помощи искусственного интеллекта. В 2016 году компания представила синтезатор, звучащий близко к человеческой речи. Он использует ИИ-систему WaveNet, которая обучается соответствию текста определенным формам колебаний волны и затем на основании этой базы знаний формирует из текстовых отрывков отдельные звуковые волны.

Tacotron 2 подключили к нейросети WaveNet, которая создает необходимые звуки на основе данных из другой системы глубинного обучения, которая преобразовывает текст в спектрограмму (изображает аудиочастоты в зависимости от времени).Рынок ИТ-услуг в России: оценки, тренды, крупнейшие участники. Обзор и рейтинг TAdviser 299.3 т

В Google отмечают, что в целом Tacotron 2 работает отлично, но все-таки испытывает сложности с произношением некоторых сложных слов, а также иногда случайным образом выдает странные шумы. Кроме того, система не способна работать в реальном времени, и авторам пока не удается взять движок под контроль, то есть задать ему нужную интонацию, например, счастливый или грустный голос. 

Как полагают разработчики Tacotron 2, алгоритм может быть использован для улучшения работы голосовых помощников, которые получают все более широкое распространение.[1]

Примечания



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (43)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (24)
  Naumen (Наумен консалтинг) (14)
  Voice Systems Robotics (VSR, VS Robotics) (9)
  Другие (147)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  Voice Systems Robotics (VSR, VS Robotics) (2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  3iTech (ранее 3i Technologies) (2)
  Другие (15)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  Naumen (Наумен консалтинг) (4)
  Unlimited Production (Анлимитед Продакшен) (4)
  Другие (18)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1)
  Наносемантика (Nanosemantics Lab) (1)
  Ростелеком (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (16, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 25)
  Яндекс (Yandex) (9, 14)
  Avaya (4, 13)
  Другие (300, 144)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Neuro.net (Нейро) (1, 2)
  3iTech (ранее 3i Technologies) (1, 2)
  Другие (7, 9)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Voximplant (Фастком) (2, 2)
  Другие (9, 11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Unlimited Production (Анлимитед Продакшен) (1, 6)
  Naumen (Наумен консалтинг) (2, 4)
  Другие (12, 13)

  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 2)
  Napoleon IT (Наполеон Айти) (1, 1)
  Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  Другие (6, 6)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  BSS Digital2Speech - 19
  Voice2Med Система распознавания речи в медицине - 14
  Naumen Erudite - 12
  SmartLogger II - 12
  Другие 159

  BSS Digital2Speech - 5
  Voice2Med Система распознавания речи в медицине - 4
  Neuro.net Голосовой робот - 2
  3i TouchPoint Analytics - 2
  Naumen Erudite - 2
  Другие 9

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  Naumen Erudite - 3
  VS Robotics: VS Робот-оператор - 3
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
  Другие 12

  МТТ VoiceBox - 9
  BSS Digital2Speech - 7
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Naumen Erudite - 3
  Другие 17

  BSS Digital2Speech - 1
  Napoleon IT отзывы - 1
  СберБизнесБот - 1
  Сбер SaluteSpeech (SmartSpeech) - 1
  YandexGPT (YaLM 2.0) - 1
  Другие 7