RHVoice Система синтеза речи

Продукт
Дата последнего релиза: 2022/04/11
Технологии: Речевые технологии

Основные статьи:

RHVoice - это бесплатный многоязычный синтезатор речи с открытым исходным кодом.TAdviser Security 100: Крупнейшие ИБ-компании в России 56.6 т

2022: RHVoice 1.8.0

11 апреля 2022 года стало известно, что состоялся выпуск открытой системы синтеза речи RHVoice 1.8.0, изначально развивавшейся для обеспечения поддержки русского языка, но затем адаптированной и для других языков, включая английский, португальский, украинский, киргизский, татарский и грузинский. Код написан на C++ и распространяется под лицензией LGPL 2.1. Поддерживается работа в GNU/Linux, Windows и Android. Программа совместима с типовыми TTS-интерфейсами (text-to-speech) для преобразования текста в речь: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) и Android Text-To-Speech API, но также может использоваться в экранном ридере NVDA. Создателем и основным разработчиком RHVoice является Ольга Яковлева, которая развивает проект несмотря на полную слепоту.

Иллюстрация: selectel.ru

В версии 1.8.0 для платформы Android предложена оптимизированная система управления голосовыми и языковыми данными, позволяющая загружать обновления голосовых данных без обновления мобильного приложения. Проверка появления обновлений данных для добавленных голосов и языков производится автоматически. Кроме того, в представленном выпуске реализована поддержка польского языка и добавлен голос для македонского языка. Обеспечена совместимость со свежими альфа- и бета-выпусками экранного ридера NVDA. Устранены проблемы со сборкой на платформе Linux, возникавшие при отсутствии Speech Dispatcher.

В RHVoice применяются наработки проекта HTS (HMM/DNN-based Speech Synthesis System) и параметрический метод синтеза со статистическими моделями (Statistical Parametric Synthesis на базе HMM - Hidden Markov Model). Плюсом статистической модели являются низкие накладные расходы и нетребовательность к мощности CPU. Все операции выполняются локально на системе пользователя. Поддерживается три уровня качества речи (чем ниже качество - тем выше производительность и меньше время реакции).

Минусом статистической модели является относительно низкое качество произношения, которое не достигает уровня синтезаторов, генерирующих речь на основе комбинации фрагментов естественной речи, но тем не менее результат вполне разборчив и напоминает трансляцию записи с громкоговорителя. Для сравнения, проект Silero, предоставляющий открытый движок для синтеза речи на основе технологий машинного обучения и набор моделей для русского языка, по качеству превосходит RHVoice.

Для русского языка доступно 14 вариантов голосов, для английского - 6. Голоса формируются на основе записей естественной речи. В настройках можно изменять скорость, высоту и громкость. Для изменения темпа может применяться библиотека Sonic. Возможно автоматическое определение и переключение языка на основе анализа входного текста (например, для слов и цитат на другом языке может использоваться родная для данного языка модель синтеза). Поддерживаются голосовые профили, определяющие сочетания голосов для разных языков.[1]

Примечания



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (44)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (15)
  Другие (195)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  SteadyControl (4)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  Voice Systems Robotics (VSR, VS Robotics) (2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Naumen (Наумен консалтинг) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Robovoice (Робовойс) (3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (3)
  Другие (29)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl (1, 23)
  SteadyControl HoReCa (1, 23)
  Другие (365, 216)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl HoReCa (1, 4)
  SteadyControl (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (18, 30)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Ростелеком (2, 4)
  Другие (23, 37)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  SteadyControl Система контроля и управления персоналом - 23
  BSS Digital2Speech - 21
  Voice2Med Система распознавания речи в медицине - 14
  Naumen Erudite - 13
  Другие 203

  BSS Digital2Speech - 5
  SteadyControl Система контроля и управления персоналом - 4
  Voice2Med Система распознавания речи в медицине - 4
  МТТ VoiceBox - 2
  Neuro.net Голосовой робот - 2
  Другие 11

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  SteadyControl Система контроля и управления персоналом - 3
  Naumen Erudite - 3
  VS Robotics: VS Робот-оператор - 3
  Другие 14

  МТТ VoiceBox - 9
  SteadyControl Система контроля и управления персоналом - 7
  BSS Digital2Speech - 6
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Другие 23

  SteadyControl Система контроля и управления персоналом - 5
  BSS Digital2Speech - 4
  EXpress Защищенный корпоративный мессенджер - 4
  BSS: Виртуальный голосовой ассистент - 3
  Сбер: GigaChat - 3
  Другие 28