Название базовой системы (платформы): | Искусственный интеллект (ИИ, Artificial intelligence, AI) |
Разработчики: | Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) |
Дата последнего релиза: | 2024/09/24 |
Технологии: | Речевые технологии |
Содержание |
Основные статьи:
Digital2Speech – платформа для автоматизации омниканального обслуживания клиентов, обратившихся в службу поддержки.
2024
Реализация суммаризации на нейросети Т5
BSS реализовала суммаризацию для речевой аналитики и базы знаний на нейросети Т5, не требующей GPU. Об этом компания сообщила 24 сентября 2024 года.
Решение реализовано на нейросети T5, умеющей обрабатывать вводную информацию и генерировать новые тексты. В отличии от других LLM-моделей она работает на обычных CPU (центральный процессор) и не требует подключения GPU-карты. Для обучения нейросетей обычно используются серверы на базе GPU, т. к. они обладают высокой производительностью и эффективно справляются с обработкой больших данных. При этом нейросеть T5 практически не уступает в качестве моделям на базе GPU.Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг
Благодаря суммаризации в речевой аналитике появляется возможность прочитать краткое содержание диалога, не изучая полную расшифровку. Также суммаризация используется как один из этапов автоматической кластеризации диалогов (разбивке всей массы диалогов на группы-кластеры с присвоением смыслового названия). А это в свою очередь дает возможность увидеть тематики обращений, которые не входили в изначальный список отчетности контакт-центра. Например, можно заметить увеличение количества заявок о сбоях в системе и оперативно принять меры, или обнаружить негативную обратную связь по новому продукту.
В Базе знаний функция суммаризации дает возможность делать краткий обзор одной статьи или нескольких. Это ускоряет бизнес-процессы, поскольку специалистам могут по основным тезисам освежить свои знания, быстро найти нужный кусок информации и не тратить время на прочтение всего текстового материала. Ранее команда BSS улучшила возможности GPT-поиска в Базе знаний Inknowledge от компании L2U. Этого удалось добиться за счет внедрения новой модели векторизации и за счет изменения разбивки файлов на чанки. Также была добавлена возможность распознавать информацию из таблиц в PDF-документах. Такой ИИ-поиск с RAG позволяет строить точные ответы на основе информации, содержащейся в доверительном хранилище Базы знаний.
Суммаризация относится к одной из сложных задач NLP, поскольку модель должна обрабатывать длинные тексты, а также генерировать связанные запросы на основе вводной информации. На сентябрь 2024 года мы поддерживаем суммаризацию на основе двух базовых технологий: LLAMA-3 и T5. Нейросеть T5 работает на обычных CPU, она более легкая, но при этом обладает достаточно высоким качеством, поэтому является привлекательной для заказчиков. Мы доработали модель T5, добавив конкурентоспособную функцию и сохранив количество используемых мощностей сервера, — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский. |
Внедрение генеративного интеллекта
Компания BSS расширила возможности речевой аналитики за счет анализа диалогов с помощью генеративного интеллекта. Заказчикам и партнерам компании доступны инструменты, позволяющие выводить на новый уровень качество обслуживания и способствующие росту бизнеса. Об этом разработчик сообщил 25 июня 2024 года.
Команда BSS продолжает внедрять инновации в области генеративного искусственного интеллекта в свои продукты. Ранее база знаний InKnowledge от компании L2U, встроенная в омниканальную диалоговую платформу Digital2Speech, получила интеллектуальный поиск, реализованный с использованием нейросети GPT и технологии RAG.
Применение больших языковых моделей (LLM) в речевой аналитике обогатило ее новой продвинутой функциональностью:
- Суммаризация – краткое резюме диалогов
- Автоклассификация обращений
- Автооценка качества обслуживания
- Аудит и выявление достижений и зон роста сотрудников
- Определение эмоциональной температуры и настроения оператора и клиента
- Формирование рекомендаций для улучшений
- Интерактивный анализ в режиме естественного диалога с GPT-сервисом
GPT-анализ позволяет выстраивать непрерывный цикл улучшений процессов обслуживания и продаж, снижая стоимость обслуживания, повышая его качество и увеличивая продажи продуктов и услуг.
Мы обладаем всем необходимым инструментарием и экспертизой по внедрению и развертыванию GPT-анализа в коммуникации с клиентами — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский. |
Переход на архитектуру Zipformer
Компания BSS улучшила производительность своего модуля автоматического распознавания речи (ASR), используемого в диалоговой платформе Digital2Speech. Обновленная версия ASR работает более чем в три раза быстрее, сохраняя при этом высокое качество распознавания. Об этом компания сообщила 7 июня 2024 года.
Благодаря недавнему обновлению скорость реакции голосового робота увеличилась более чем в три раза. Это означает, что голосовой ассистент теперь отвечает на запросы пользователей ощутимо быстрее, поэтому взаимодействие с ним стало более плавным и естественным. Несмотря на значительное увеличение скорости, качество распознавания речи не только не пострадало, но и улучшилось.
Основным фактором, позволившим реализовать эти улучшения и достичь результата, стал переход на архитектуру нейросети Zipformer. Эта архитектура существенно ускоряет процесс распознавания и увеличивает его точность за счет уменьшенного количества слоев нейросети, специальных методов сжатия данных и ряда других механик. Ранее компания использовала технологию Conformer.
Обновленная архитектура позволяет значимо снизить требования к аппаратному обеспечению и экономить на вычислительных мощностях благодаря увеличению эффективности.
Оптимизированное решение адаптировано для использования в контуре заказчика. Поэтому обновленный ASR по-прежнему можно запускать как на GPU картах для обеспечения максимальной производительности, так и на более доступных x86 серверах.
Скорость отклика голосового робота является одной из трех важнейших характеристик, по которым пользователи оценивают "человечность" и "приятность" голосового ассистента. И мы смогли, как минимум, в три раза ускорить распознавание вопроса абонента, сделав взаимодействие с нашим голосовым роботом еще более комфортным. Zipformer это эффективная архитектура для задач распознавания речи, которая появилась только год назад. Я рад, что мы одни из первых смогли представить ее своим клиентам и подготовить надежное решение Enterprise уровня, — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский. |
Повышение качества распознавания речи за счет улучшения диаризации
BSS повысила качество распознавания речи за счет улучшения диаризации. Об этом разработчик сообщил 29 февраля 2024 года.
Улучшение технологии определения спикеров в монозаписях, позволяет получать более качественную транскрибацию разговоров для последующего анализа.
В ходе анализа аудиозаписей могут возникать проблемы с путаницей источника речи – кто и что говорит. Это влияет на результаты речевой аналитики, и в целом на эффективность работы виртуальных помощников.
Диаризация позволяет разделить аудиопотоки при общении и определить, кто именно говорит в конкретный момент диалога. Применяется для анализа монозаписей и записей с аудиобеджей, а также для улучшения качества распознавания записи с направленных стереомикрофонов при проникновении посторонних звуков.
На февраль 2024 года разработчики BSS сконцентрировались на трех основных направлениях по улучшению диаризации, которые позволят устранить недочеты при распознавании речи и повысить эффективность речевой аналитики.
Во-первых, добавили классификатор каналов. Диалоги с клиентами обычно начинают операторы. Поэтому первый канал, как правило, присваивается оператору, что раньше приводило к путаницам, так как не всегда разговор начинал оператор. Теперь записи речи клиента и оператора определяются двумя моделями. Первая разделяет реплики говорящих по биометрическим признакам (голосу). Вторая – по характерной лексике понимает кто из говорящих оператор, а кто клиент. В результате принадлежность канала определяется корректно.
Во-вторых, аудиозаписи проходят через верификацию каналов. Например, курьер в течение дня развозит заказы, и все это время ведется аудиозапись. Для анализа важны только те фрагменты, где курьер разговаривает с клиентами. Именно эти части записи с помощью технологии верификации каналов вычленяются из всего аудиопотока для диаризации. Это позволяет существенно снизить нагрузку на ИТ-инфраструктуру и сократить время обработки и анализа аудио.
В-третьих, существенно улучшено качество работы технологии по исключению дублирования реплик. Обычно консультации в банках записываются с помощью двух направленных микрофонов: один записывает клиента, другой – консультанта. Но нередко речь клиента записывается микрофоном консультанта и наоборот. Это приводит к дублированию информации в текстовой расшифровке и усложняет анализ диалога с помощью речевой аналитики. Добиться исключения дублей реплик в аудиофайле удалось за счет соединения обеих звуковых дорожек в одну стереозапись. Только после этого проводится транскрибация аудиофайла. Этот инструмент уже показал свою эффективность в нескольких банках.
Диаризация повышает качество текстов при транскрибации и значительно улучшает качество речи при использовании с системой распознавания. Этой технологией пользуются многие разработчики, но мы смогли ее существенно улучшить и продолжаем постоянно развивать. Она востребована, так как делает речевые технологии более доступными. Многие компании записывают разговоры с клиентами на устаревшем оборудовании в формате моно. Диаризация позволяет таким заказчикам внедряет ту же речевую аналитику без необходимости замены дорогостоящего оборудования, – прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский. |
В составе решения для управления контакт-центром
САТЕЛ и BSS создали программный продукт, позволяющий оптимизировать работу с обращениями клиентов во всех каналах цифровых коммуникаций. Данная система помогает ускорить обслуживание и работу операторов контакт-центра, сокращая и автоматизируя рутинные операции. Решение построено на базе ядра омниканального контакт-центра РТУ-Атмосфера и интеллектуальной диалоговой платформы Digital2Speech. Об этом САТЕЛ сообщил 17 января 2024 года. Подробнее здесь.
2022
Включение в «Каталог взаимозаменяемости ПО для финансового сектора»
Компания BSS 11 августа 2022 года сообщила о включении собственных решений по дистанционному банковскому обслуживанию, речевым технологиям и информационной безопасности в «Каталог взаимозаменяемости ПО для финансового сектора». В частности от BSS в Каталог включена омниканальная диалоговая платформа Digital2Speech. Подробнее здесь.
Функционал, позволяющий оптимизировать процесс первичной разметки
1 июня 2022 года компания BSS объявила о завершении первого этапа проекта разработки диалоговых технологий на базе искусственного интеллекта и машинного обучения при грантовой поддержке Российского фонда развития информационных технологий (РФРИТ).
По информации компании, целью проекта является создание российского конкурентного вендорского решения на основе речевых технологий, которое станет основой импортонезависимости. Его задача — обеспечить бизнес и госструктуры России, СНГ и других стран комплексом речевых услуг с использованием искусственного интеллекта и машинного обучения.
Полный стек собственных технологий будет усилен использованием end-to-end (E2E) подхода в распознавании речи и few-shot обучением в понимании естественного языка. Это позволит сократить время и ресурсы на создание прикладных решений в области диалоговых технологий (текстовых и голосовых интеллектуальных помощников, текстовой и голосовой аналитики и т. д.).
На первом этапе проекта реализованы возможности в рамках омниканальной диалоговой платформы Digital2Speech, касающиеся распознавания речи, речевой аналитики и инструментов поддержания диалогов. В частности:
- Модели распознавания голоса в текст, основанные на технологиях искусственного интеллекта, что позволяет оптимизировать качество распознавания речи с преобладанием лексики запросов к государственным учреждениям через использование адаптированной e2e ASR модели (дает более надлежащую точность распознавания речи и понимания естественного языка) в проектах по голосовым виртуальным ассистентам.
- Функционал, позволяющий оптимизировать процесс первичной разметки и проверки существующей разметки реплик перед обучением моделей классификаторов, используя разбивку набора на семантические кластеры.
- Возможности, позволяющие обеспечить пользователям речевой аналитики функции быстрой фильтрации и оценки анализируемых диалогов с настройкой значений фильтрации и оценки, с указанием условий по количественно-временным и лексико-семантическим параметрам, а также возможности по построению и выгрузке отчётов по результатам проведенного речевого анализа.
- Механики свободного диалога, использование которых позволяет оптимизировать архитектуру разработки сценариев обслуживания, повысить гибкость приложений по обработке клиентского запроса виртуальными ассистентами: обработка на уровне функциональных элементов слотов, исключений, смены основного намерения без необходимости написания кода.
В ходе уже стартовавшего второго этапа продолжается реализация обновленного функционала речевых решений BSS: совершенствование распознавания речи, инструментов поддержки диалогов и речевой аналитики. Окончание второго этапа планируется в январе 2023 года.
Интеграция с L2U InKnowledge
16 мая 2022 года компания BSS сообщила, что База знаний InKnowledge от компании L2U, партнера BSS, встроена в технологический стек омниканальной диалоговой платформы Digital2Speech. Она расширяет возможности платформы, выступая единым источником информации, обеспечивающим синхронизацию и поддержание актуальности информации у интегрированных с ней «потребителей» данных (CRM, сайты, порталы, АРМ операторов контакт-центров и т. п.).
Это отечественное решение, по утверждению компании, по качеству, быстродействию и функциональным возможностям не уступает актуальным зарубежным системам хранения и управления знаниями, таким как Confluence, Notion, SharePoint, KMS Lighthouse и другим.
Основное отличие L2U InKnowledge состоит в том, что эта База знаний (БЗ) обеспечивает омниканальность знаний, поддерживающая работу с операторами, роботами, а также в формате самообслуживания. Она может служить платформой для организации единого справочного центра компании и информационной поддержки обслуживания клиентов во всех каналах коммуникации.
Особенности L2U InKnowledge:
- Входит в реестр отечественного ПО (свидетельство № 2021617316).
- Быстро устанавливается, в том числе в закрытом контуре заказчика.
- Гибко интегрируется с инфраструктурой заказчика.
- Легко масштабируется, повышая эффективность работы служб поддержки клиентов, service-desk, маркетинга, HR и других подразделений.
- No-code. Позволяет самостоятельно без программирования настраивать интерфейсы из набора виджетов под разные задачи пользователей.
- Позволяет осуществлять быструю миграцию контента из разных систем.
Возможности L2U InKnowledge:
- Хранение структурированной и неструктурированной информации.
- Удобный ввод информации в структуры данных.
- Управление жизненным циклом статей в БЗ.
- Поддержка нескольких информационных доменов в одной инсталляции.
- Гибкий поиск по информации в БЗ с различными вариациями выдачи поисковых результатов.
- Гибкий пользовательский интерфейс.
«Пользователи нашей омниканальной диалоговой платформы Digital2Speech высоко оценивают возможности базы знаний InKnowledge. Они отмечают, что в сложившейся геополитической ситуации эта российская разработка - оптимальная альтернатива иностранным аналогам. Возможности базы знаний позволяют быстро интегрировать продукт в инфраструктуру компании, добиться снижения операционных расходов, легко масштабировать решение, фокусируясь на развитии и росте бизнеса», - |
«Приобретая пакетное решение, включающее виртуального ассистента, который интегрирован с полноценной базой знаний, заказчик снижает затраты на внедрение и получает комплексное предложение с омниканальным источником знаний, которое закрывает как текстовый, так и голосовой канал взаимодействия с клиентами и предоставляет информацию из единого источника роботам, операторам и любым другим потребителям знаний», - подчеркнул генеральный директор L2U Кирилл Кузнецов. |
2021: Модули Digital2Speech
Омниканальная диалоговая платформа Digital2Speech основана на технологиях собственной разработки BSS.
На февраль 2021 года Digital2Speech состоит из ряда интегрированных между собой модулей, работающих на едином ядре:
- Модуль выявления намерений клиента, в том числе извлечение ключевых атрибутов из речи, включая инструмент тренировки и настройки моделей.
- Самообучающийся виртуальный помощник.
- Распознавание речи, включая инструмент тренировки и настройки моделей.
- Модуль голосовой биометрии, включающий идентификацию и верификацию говорящего в течение всего разговора.
- Модуль речевой аналитики, включая распознавание настроений и степени удовлетворенности говорящего с инструментом по управлению и настройке продуктом.
- Инструмент создания и управления сценариями диалогов и сервисов самообслуживания.
- Предиктивный синтез текста в живую речь.
Платформа позволяет обслуживать клиентов по всем каналам, включая наиболее естественный для человека — речевой. При этом используются все возможности омниканальности — можно начать диалог в голосовом канале и продолжить в текстовом чате и наоборот. Простые в использовании инструменты позволяют оперативно менять и создавать новые сценарии диалогов без привлечения специалистов.
2020
Прохождение тестирования на совместимость со Скала-Р
13 августа 2020 года компания СКАЛА-Р сообщила о том, что сразу три системы, связанные с организацией работы контакт-центров, прошли успешное тестирование на совместимость с гиперконвергентной платформой СКАЛА-Р: контакт-центр производства ООО «НТЦ ПРОТЕЙ», диалоговая платформа Digital2Speech производства компании BSS, система управления рабочей нагрузкой на контакт-центр АРГУС WFM CC производства ООО «НТЦ АРГУС». Подробнее здесь.
Описание возможностей Digital2Speech
По информации на июнь 2020 года Digital2Speech – это единая омниканальная платформа на базе искусственного интеллекта, которая включает в себя сервисы распознавания речи, смысла и эмоций, а также речевую аналитику и голосовую биометрию. Голосовые помощники и чат-боты платформы отвечают на обращения клиентов, что снижает нагрузку на контакт-центр и обеспечивает поддержку обращений в круглосуточном режиме. Если роботы не могут ответить на вопрос, они переводят звонки на сотрудников компании.
Нейронные сети позволяют роботам постоянно совершенствоваться: берут на себя все больше задач, анализируют интонации, тембр и паузы, что повышает точность понимания запросов. В случае типовых обращений Digital2Speech способна обеспечить полную автоматизацию взаимодействия с клиентами. Это особенно актуально в пиковые периоды – обслуживание клиентов происходит без длительного ожидания на линии, и только часть звонков переводится на операторов.
Digital2Speech позволяет масштабировать клиентский сервис до организации полноценного омниканального обслуживания с возможностями голосового управления приложениями на мобильных устройствах и веб-сайтах. ИТ-решение помогает перевести коммуникации из голосового канала в текстовый и обратно и обладает функциями аутентификации и идентификации по голосу. Набор гибких инструментов позволяет компаниям самостоятельно обучать роботов и адаптировать к различным индустриям.
AI-роботы учитывают особенности, техническую терминологию, характерные вопросы и типичные диалоги конкретной организации. Платформа может быстро подстраиваться под узкие требования компании и ее клиентов, в том числе на основе предоставленной компанией базы диалогов, что делает ее применимой для любой индустрии коммерческих и государственных предприятий, В2В- и В2С-сегментов.
Digital2Speech от BSS безопасно: решение разработано в соответствии с принципами и правилами обработки персональных данных, предусмотренных федеральным законом (152-ФЗ).
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (45)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
SteadyControl (18)
Naumen (Наумен консалтинг) (15)
Другие (196)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
SteadyControl (4)
3iTech (ранее 3i Technologies) (2)
Naumen (Наумен консалтинг) (2)
Другие (17)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Naumen (Наумен консалтинг) (3)
Voice Systems Robotics (VSR, VS Robotics) (3)
Мегапьютер Интелидженс (Megaputer Intelligence) (2)
Другие (14)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (18, 47)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
SteadyControl HoReCa (1, 23)
SteadyControl (1, 23)
Другие (381, 217)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SteadyControl (1, 4)
SteadyControl HoReCa (1, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Другие (9, 13)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Naumen (Наумен консалтинг) (1, 3)
SteadyControl (1, 3)
SteadyControl HoReCa (1, 3)
Другие (12, 16)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl (1, 7)
SteadyControl HoReCa (1, 7)
Другие (18, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Сбербанк (3, 5)
SteadyControl HoReCa (1, 5)
SteadyControl (1, 5)
СалютДевайсы (ранее SberDevices) (2, 4)
Другие (25, 39)
Распределение систем по количеству проектов, не включая партнерские решения
МТТ VoiceBox - 24
SteadyControl Система контроля и управления персоналом - 23
BSS Digital2Speech - 21
Voice2Med Система распознавания речи в медицине - 14
Naumen Erudite - 13
Другие 205
BSS Digital2Speech - 5
SteadyControl Система контроля и управления персоналом - 4
Voice2Med Система распознавания речи в медицине - 4
МТТ VoiceBox - 2
Neuro.net Голосовой робот - 2
Другие 11
МТТ VoiceBox - 11
BSS Digital2Speech - 6
SteadyControl Система контроля и управления персоналом - 3
Naumen Erudite - 3
VS Robotics: VS Робот-оператор - 3
Другие 14