2022/08/01 21:51:27

Решения на базе искусственного интеллекта: технологии и внедрения

Ежегодные темпы роста рынка решений искусственного интеллекта в России эксперты оценивают на уровне 20-30%. Какие технологии обеспечивают такое ускоренное развитие? В каких практических задачах эти технологии находят массовое применение? Где находятся точки роста, которые определяют векторы развития интеллектуальных систем в ближайшей перспективе? Искать ответы на эти вопросы TAdviser помогли российские эксперты в области интеллектуальных технологий и решений

Статья входит в обзор TAdviser "Технологии искусственного интеллекта"

Исследователи компании IDC полагают, что российский рынок решений искусственного интеллекта (ИИ) будет демонстрировать среднегодовой рост на уровне 18,5% до 2024 г. В 2023 г. он преодолеет отметку в 500 млн. долл., и к 2024 г. его объем составит 555,1 млн. долл. Центр компетенций МФТИ «Искусственный интеллект» оценивает объемы этого рынка в рублевом выражении. Его оценки гораздо более оптимистичные: по итогам 2021 г. рынок ИИ в России составил приблизительно 550 млрд. руб. (или 6,9 млрд. долл., если считать по курсу 1 $ = 80 ₽). При этом рост рынка составил 28% относительно 2020 г.

Размер ИИ рынка РФ, млрд. руб.

Источник: «Искусственный интеллект 2021». МФТИ, Центр компетенций «Искусственный интеллект», сборник №10, апрель 2022 г.

При этом инвестиции государства в ИИ через федеральный проект «Искусственный интеллект» составили в 2021 г. 4,7 млрд. руб., что приблизительно в два раза больше, чем годом ранее. Из них 960 млн. руб. было потрачено на государственные закупки в сфере ИИ-решений.

Закупки в области ИИ в соответствии с 44-ФЗ и 223-ФЗ, млн. руб.

Согласно оценкам IDC, сделанным весной 2021 г., крупнейшим потребителем ИИ на российском рынке остается финансовый сектор. А фокусе внимания потребителей здесь - технологии анализа и расследования мошенничества, а также автоматизированный анализ и предотвращение киберугроз. На второе место среди отраслей, наиболее активно внедряющих решения ИИ, IDC ставит организации розничной и оптовой торговли: они используют ИИ для обслуживания клиентов и повышения доходов в цифровых каналах продаж за счет планирования спроса и оптимизации цен, рекомендательных сервисов и чат-ботов.Витрина данных НОТА ВИЗОР для налогового мониторинга 2 т

Сегмент виртуальных помощников аналитики Gartner называют крупнейшим сегментом на мировом рынке ИИ. Расходы на них в глобальном масштабе по итогам 2021 г. оцениваются на уровне 6,21 млрд. долл., что на 12% больше значения годом ранее. Более высокие темпы роста – выше 13,7% - ожидаются в сегментах умного ПО для беспилотных автомобилей и цифровых рабочих мест: 5,7 млрд. и 3,59 млрд. долл. соответственно.

Оценки роста рынка ИИ-решений по различным сегментам, млн. долл.

В августе 2021 г. аналитическая компания Statista выпустила свой отчет о состоянии рынка ИИ в прошлом году. В этом исследовании специалисты приходят к выводу, что наибольшие темпы роста ожидаются в сфере коллаборативных роботов (этот сегмент, по расчетам Statista, вырастет более, чем в два раза к 2026 г.), автоматизация бизнес-процессов с использованием ИИ, беспилотный транспорт и обработка естественного языка.

Санжар Досов, ML-разработчик компании Globus, согласен с аналитиками:

Действительно, современный мир невозможно представить без таких инструментов, как чат-боты технической поддержки, автоматизированные ответы на вопросы и сообщения клиентов, автоматизированный перевод текста на любой существующий язык и другие. Большого успеха удалось достичь в этой области благодаря развитию технологий машинного и глубокого обучений в области обработки естественного языка (Natural Language Processing, NLP).

Компания Gartner подготовила летом прошлого года свою «кривую хайпа» технологий ИИ.

Эта картинка наглядно показывает, что сегодня на вершине интереса разработчиков и исследователей – графы знаний, появившаяся в 2017 г. архитектура глубоких нейронных сетей Transformers, которая показывает хорошие результаты конструирования по описанию в области машинного перевода и автоматического реферирования текстов. Организации все чаще используют решения ИИ для создания собственных новых продуктов, комбинируя методы NLP и новых технологий, находящихся на пике хайпа: графы знаний, а также генеративный и составной ИИ, говорят аналитики Gartner.

В то же время к выходу на плато продуктивности приближаются технологии чат-ботов, компьютерного зрения и семантического поиска. Здесь речь идет уже об операционном аспекте ИИ, то есть массовом эффективном внедрении интеллектуальных приложений в рабочие процессы.

В среднем требуется около восьми месяцев, чтобы модель на основе искусственного интеллекта была интегрирована в бизнес-процесс и принесла ощутимую пользу, - говорит Шубханги Вашистх, старший главный аналитик Gartner.

Он полагает, что организации будут вынуждены уделять внимание эффективности архитектуры ИИ-систем и их эксплуатации для того, чтобы снизить риски неудач проектов ИИ из-за проблем на операционном уровне.

В этой связи аналитики Gartner ожидают, что к 2025 г. 70% организаций модернизируют архитектурные подходы к реализации ИИ-систем для того, чтобы достичь оптимальной оркестровки технологий и приложений ИИ. На этом пути подвергаются переосмыслению такие базовые понятия для приложений ИИ, как, например, данные.

Системы искусственного интеллекта становятся «умнее» пропорционально объему потребляемых данных, утверждают аналитики IDC. По их оценкам, объем больших данных нарастает со скоростью приблизительно 40% ежегодно. Такие темпы роста связаны, в том числе, с распространением умных устройств, Интернета вещей и использованием данных социальных сетей для функционирования разнообразных приложений ИИ в различных отраслях экономики. К 2025 г. совокупный мировой объем больших данных достигнет 163 трлн. Гб.

Данные для ИИ

По оценкам Центра компетенций «Искусственный интеллект» МФТИ, в 2021 г. в России произведено 1,7 зеттабайт данных.

Объем данных, произведенных в мире и в России, зеттабайт

Примером больших данных, которые обрабатываются в современных умных системах, может служить цифровой экспедитор Agorafreight, разработанный в компании «Рексофт». Фактически это агрегатор логистических услуг, который обеспечивает мультимодальные перевозки (могут использовать несколько видов транспорта: автомобильный, железнодорожный, морской или авиационный) между РФ и 150 странами мира. Цифровой экспедитор решает сложнейшую оптимизационную задачу: работая с миллионами тарифов на различные перевозки, он в течение нескольких секунд выбирает сред сотен маршрутов и тарифов наилучшие для клиента, с точки зрения времени и стоимости доставки груза.

Система реализована на основе MongoDB, документно-ориентированной NoSQL СУБД с поддержкой гео-запросов, полнотекстового поиска на 15 языках и иерархической структурой данных. Система масштабируется горизонтально и может быть использована в качестве файлового хранилища с балансировкой нагрузки и репликацией данных, отвечают в компании «Рексофт».

Большие объемы используемых данных и необходимость оптимизации их хранения и обработки приводит к появлению новых классификаторов данных. Так, например, появились «малые данные» (Small Data) и «широкие данные» (Wide Data). Если Small Data - это, образно говоря, привычные объемы данных, которые человек способен изучать и анализировать и без применения высокопроизводительной вычислительной техники, то Wide Data – это неструктурированные табличные данные, состоящие из большого количества столбцов и переменных, которых обычно их более ста, рассказывают в компании Megaputer. Это свойство данных создает существенные проблемы с их интеллектуальной обработкой:

Если мы хотим создать модель машинного обучения с «широкими данными», то она может столкнуться с проблемой роста сложности. Большое количество входящей информации в обучаемой модели приведет к тому, что обучение модели будет или нестабильным, или потребует очень много времени.

Выход – в снижении размерности (уменьшении количества столбцов в данных) при условии минимизации потери полезной информации.

Это процедура особенно полезна при отделении «мусора» от ценной информации,- добавляют специалисты Megaputer.

Аналитики Gartner в своем исследовании «The 4 Trends That Prevail on the Gartner Hype Cycle for AI», опубликованном в сентябре 2021 г., ожидают, что к 2025 г. до 70% организаций будут вынуждены переключить свое внимание с больших на малые и широкие данные, потому что это, с одной стороны, делает механизм ИИ менее требовательным к используемым данным, а с другой стороны, предоставляет больше цифрового контекста для аналитических исследований.

Вместе они способны более эффективно использовать имеющиеся данные, либо работая с небольшими объемами данных, либо извлекая больше пользы из неструктурированных, разнообразных источников данных,- говорят авторы исследования.

А еще появляется понятие Smart Data («умные данные») — это фактически результат некоторой предварительной обработки собранной информации, имеющий определенную ценность для дальнейшей обработки. Другой вариант ценных данных - Fast Data. Так называются выявленные в потоке больших данных те из них, которые имеют ценность для решения той или иной задачи.

В то же время Дмитрий Лапин, руководитель направления группы Data Science JSA Group, говорит о недостатке данных как основной проблеме, с которой приходится сталкиваться промышленным предприятиям при попытках внедрения интеллектуальных ИТ-решений: непросто получить данные, генерируемые умными станками и механизмами, и к тому же их еще нужно уметь профессионально интерпретировать.

Перспективно такое направление, как покупка внешних данных (или обогащение внутренних) у специализированных компаний, например, приобретение как сервис (Data Brokers, Data as a Service), покупка и продажа данных на специализированных площадках (B2B Data Marketplaces),- говорит Александр Хледенев, директор по цифровым решениям компании «ВС Лаб».

Аналитики Gartner в своем исследовании главных тенденций в обработке данных и аналитике Gartner Top 10 Trends in Data and Analytics for 2020, предсказывали, что к 2022 году 35% крупных организаций станут либо продавцами, либо покупателями данных на специализированных маркетплейсах и биржах данных. (В 2020 г., доля таких предприятий составляла 25%).

На западном рынке такие компании существуют давно, замечает Александр Хледенев:

Интеллектуальная обработка при помощи ИИ придает дополнительные стимулы для его развития. Яркие примеры: Acxiom, Epsilon, Equifax, Experian, Oracle. Среди бирж данных можно назвать Nikkei Asia, Google BigQuery, Snowflake и Adobe.

В России, по оценкам Центра компетенций «Искусственный интеллект» МФТИ, рынок данных стабильно растет с 2010 г., несмотря кризисы и пандемию COVID. В 2021 г. его размер достиг 46 млрд. руб.

В России известными поставщиками данных являются компании myTarget, Яндекс, GetIntent. Лидером в сегменте Data as a Service, наверное, можно назвать CleverDATA,- рассказывает Александр Хледенев.

Компании CleverData принадлежит платформа Hermann.AI, предназначенная для автоматизации маркетинговых коммуникаций и биржа данных 1DMC, крупнейшая в Рунете независимая площадка для обмена внешними данными между поставщиками и потребителями данных. Сегодня на ней представлено более двух десятков поставщиков данных (с суточной аудиторией более 90 млн. человек), свыше 9 тыс. источников данных.

В числе поставщиков данных – компании, владеющими большими объемами разнообразных данных о пользователях (поисковые сервисы, приложения, платежные сервисы, платформы сбора данных о пользователях).

Потребители могут, например, обогащать имеющиеся у них данные внешними данными от поставщиков в виде профилей или сегментов. Сервис обеспечивает периодические выгрузки профилей, а также возможность получать профили в реальном времени через API. Есть также возможность доставки данных: доставка сегментов, построенных на внешних данных, в рекламные различных платформ: myTarget (Mail.ru), DoubleClick (Google), «Яндекс». Можно также сформировать уникальные сегменты целевой аудитории, скажем, по интересам и поведению, используя все доступные данные на бирже. В компании говорят, что заказчик, скажем, может обогатить данные о своих клиентах, имеющиеся в корпоративной CRM-системе, дополнительной информацией по 3000 и более атрибутам.

По заказу НП «ГЛОНАСС» создан маркетплейс «Биржа данных», который играет роль независимой торговой площадки данных автотранспортной сферы в рамках федеральной сервисной навигационно-телематической платформы «Автодата».

При помощи «Биржи данных» наши соотечественники первыми в мире смогут использовать информацию, генерируемую автомобилем, продавать и распоряжаться ею по своему усмотрению, — отметил президент НП «ГЛОНАСС» Александр Гурко, рассказывая о завершении разработки в июне прошлого года.

По сути, «Биржа данных» - это инструмент коммерциализации сервисов платформы «Автодата»: на этой коммерческой площадке можно анонимно размещать данные, снятые с реальных автомобилей, сопровождая их подробной информацией о возможных областях применения и сценариях использования. И эта возможность потенциально востребована.

По оценкам НП «ГЛОНАСС», более 70% коммерческого транспорта уже подключено к различным телематическим платформам. Что касается частных лиц, то НТИ «Автонет» совместно с консалтинговой компанией Roland Berger провели опрос россиян, который показал: более 60% россиян выразили готовность делиться данными об эксплуатации автомобиля с возможностью продавать их на бирже данных, созданной в рамках проекта «Автодата».

Игорь Кравченко, заместитель директора по инновационным рынкам компании «Рексофт», которая участвовала в создании платформы, подчеркивает:

Национальная Платформа «Автодата» предназначена для сбора, верификации, обогащения, обработки, анализа и дальнейшего практического применения автомобильных «больших данных» с использованием самых передовых технологий: алгоритмов и технологий искусственного интеллекта и машинного обучения.

По предварительным расчетам, объем данных платформы за шестой год эксплуатации превысит 15 ПБ. Для их хранения с учетом резервирования потребуется более 170 Пб емкости хранения. Информация, получаемая из десятков внешних систем, будет обогащена и обработана методами искусственного интеллекта, предиктивной и рекомендательной аналитики. Потребители в формате услуги будут получать данные высокой степени обработки. Причем, на старте промышленной эксплуатации платформы буде сформировано несколько сотен услуг для различных категорий заказчиков.

Еще один аспект эффективного управления большими и широкими данными на стороне компании – применение систем управления мастер-данными (MDM), которые позволяют минимизировать усилия по минимизации хаоса в клиентских данных.

Хорошая MDM-система — это гибко настраиваемая платформа для стандартизации и валидации данных, построения эталонных профилей на основе исходных разрозненных данных. Базовая функциональность такой платформы - возможность для любого поля задавать правила очистки, поиска дубликатов, правила объединения и обновления,- рассказывает Михаил Берёзин, руководитель продукта «Единый клиент», эксперт по MDM-решениям компании HFLabs.

Он подчеркивает, что такая система должна изначально содержать готовые правила обработки сырых данных

Может показаться, что процессы работы с данными во всех компаниях разные и полная свобода в первоначальной настройке — это как раз и есть возможность соответствовать уникальным бизнес-процессам. Но, по нашему опыту, это приводит лишь к затягиванию проектов,- поясняет Михаил Берёзин.- Быстрая во внедрении и надежная MDM-система должна содержать максимум знаний о типовой работе с данными в конкретной отрасли (банк, страховая, телеком, ритейл и т.п.), чтобы сразу из коробки давать бизнес-результат. А уже после этого предоставлять возможность тонкой настройки под уникальность бизнес-процесса.

В целом, движение в сторону хранения все большего количества полезных знаний, а не бездумно накопленных «больших» данных, кажется неизбежным, полагает эксперт. Правда, пока нельзя выделить устоявшиеся универсальные технологии и подходы решению этой задачи. Впрочем, и технологий интеллектуальной обработки данных на рынке представлено немало.

Один из вариантов классификации интеллектуальных информационных систем по типам используемых технологий

Источник: Интеллектуальные информационные системы и технологии: Монография / А.В. Остроух, Н.Е. Суркова. – Красноярск: Научно-инновационный центр, 2015. – 370 с.

С точки зрения принципов организации работы с данными, в области ИИ выделяется два больших направления: системы, основанные на знаниях (формализованных и неформализованных), и искусственные нейронные сети. Причем, аналитики Gartner в исследовании Gartner Hype Cycle for Artificial Intelligence, 2021 высказывают мнение, что в ближайшие годы лидером по динамике развития станет сегмент решений в сфере управления знаниями. Посмотрим далее, как развиваются оба этих направления, совместно формируя облик современных ИИ-решений.

Следующий материал обзора >>>
Главная страница обзора >>>