2024/10/09 15:27:35

Обучение искусственного интеллекта


Содержание

Основная статья: Искусственный интеллект (ИИ, Artificial intelligence, AI)

Машинное обучение

Основная статья: Машинное обучение (Machine Learning)

Хроника

2024

Минпромторг РФ закупает ИИ-серверы на 665 млн рублей для обучения нейросетей

11 ноября 2024 года ФГАУ «Федеральный центр прикладного развития искусственного интеллекта» (ФЦПР ИИ), обеспечивающий поддержку цифровой трансформации Минпромторга России, объявил конкурс по закупке серверного и телекоммуникационного оборудования для обучения нейросетей. Начальная стоимость контракта составляет около 665 млн рублей. Подробнее здесь.

Представлена нейросеть Pixtral Large c поисковиком, которая мощнее GPT-4

В середине ноября 2024 года французский стартап Mistral представил нейросеть Pixtral Large, способную конкурировать с GPT-4. Нейросеть на основе бесплатного чат-бота Le Chat способна генерировать изображения, проводить веб-поиск и служить интерактивным «холстом». Подробнее здесь.

«Пузырь немного сдувается»: Bloomberg узнал о проблемах OpenAI и Google c новыми моделями ИИ

В середине ноября 2024 года стало известно о том, что OpenAI, Google и Anthropic столкнулись со сложностями при создании моделей искусственного интеллекта следующего поколения. Эти трудности могут негативно отразиться на разработке так называемого общего ИИ (AGI) — системы, обладающей автономным самоконтролем, достаточной степенью самосознания и способностью осваивать новые навыки. Подробнее здесь

В России впервые на практике применили федеративное машинное обучение. ИИ-модели обучают без передачи данных

8 октября 2024 года стало известно о том, что компания «Яндекс» совместно с Институтом системного программирования имени В. П. Иванникова РАН и Сеченовским университетом впервые в России успешно применили на практике технологию федеративного машинного обучения. Этот инновационный подход позволяет организациям совместно обучать модели искусственного интеллекта без необходимости обмена конфиденциальными данными.

По информации пресс-службы компании «Яндекс», федеративное обучение предназначено для проектов с несколькими участниками, каждый из которых обладает собственным набором данных. Технология позволяет коллективно обучать модели, не передавая при этом исходные данные другим участникам проекта. Это открывает новые возможности для сотрудничества в сфере искусственного интеллекта, особенно для компаний из отраслей, работающих с чувствительной информацией, таких как финансы, медицина и промышленность.

В России применили федеративное машинное обучение. ИИ-модели обучают без передачи данных

В рамках проекта была создана нейросеть для выявления фибрилляции предсердий по данным электрокардиограмм. Для обучения использовались два независимых набора данных: от Сеченовского университета и от ИСП РАН. Каждый партнер провел обучение на своей стороне, после чего передал результаты в общий контур без раскрытия исходных данных.Витрина данных НОТА ВИЗОР для налогового мониторинга 2.1 т

Техническую реализацию проекта осуществили эксперты Центра технологий для общества Yandex Cloud совместно с инженерами ИСП РАН. Специалисты Yandex Cloud разработали этапы реализации, предложили стек технологий и создали унифицированную среду для обучения. ИСП РАН адаптировал модель под открытый фреймворк федеративного обучения, а Сеченовский университет предоставил экспертную оценку качества модели.

В будущем технология федеративного машинного обучения станет доступна клиентам Yandex Cloud. Это позволит организациям, которые ранее не могли сотрудничать из-за рисков, связанных с передачей чувствительных данных, участвовать в совместных проектах. Такой подход не только повысит качество итоговых моделей за счет увеличения объема данных для обучения, но и упростит трансграничное сотрудничество.[1]

OpenAI выпустила ИИ-модели со способностью рассуждать

В середине сентября 2024 года OpenAI выпустила новую ИИ-модель o1, которая, по словам разработчиков, демонстрирует превосходные результаты в сложных рассуждениях, превосходя людей в тестах по математике, кодированию и естественным наукам. Подробнее здесь

В России выпустили технологию ReBased для работы с длинным текстом. Она поможет быстрее запускать коммерческие нейросети

Российские ученые из лаборатории T-Bank AI Research разработали новую технологию ReBased для ускоренной обработки длинных текстов искусственным интеллектом. Эта инновация позволит значительно сократить расходы на использование ИИ в обработке текстов практически без потерь в качестве, сообщили в августе 2024 года в пресс-службе Т-Банка. Подробнее здесь.

Linux Foundation запустила проект бесплатных открытых ИИ-моделей

12 августа 2024 года некоммерческая организация Linux Foundation анонсировала проект Open Model Initiative (OMI). Он направлен на содействие созданию и внедрению высококачественных моделей искусственного интеллекта с открытой лицензией. Подробнее здесь.

Выпущена самая крупная в мире открытая ИИ-модель. В ней 405 млрд параметров

23 июля 2024 года компания Meta (признана экстремистской организацией; деятельность на территории Российской Федерации запрещена) объявила о выпуске самой крупной в мире открытой модели искусственного интеллекта — Llama 3.1. Она насчитывает 405 млрд параметров и, как утверждается, по некоторым характеристикам превосходит GPT-4o и Anthropic Claude 3.5 Sonnet. Подробнее здесь

8 млрд параметров, быстрее ChatGPT 3.5. Вышла самая мощная открытая русскоязычная языковая ИИ-модель

В июле 2024 года Т-Банк анонсировал выход самой мощной русскоязычной языковой модели T-lite. Она предназначена для создания ИИ-решений в области анализа данных, поиска и разработки чат-ботов. Подробнее здесь.

Вышел глобальный рейтинг самых мощных ИИ-моделей с открытыми исходниками

26 июня 2024 года американская компания Hugging Face, разрабатывающая инструменты для создания приложений с использованием машинного обучения, обнародовала глобальный рейтинг самых мощных ИИ-моделей с открытыми исходниками. Возглавляет список одно из решений семейства Qwen китайской компании Alibaba.

Большие языковые модели (LLM) с открытым кодом способствуют развитию ИИ и ускорению инноваций. Благодаря открытости разработчики получают возможность адаптировать модели к своим задачам. Кроме того, открытые LLM обеспечивают более высокую прозрачность ИИ. Плюс к этому снижаются входные барьеры для частных лиц и компаний, реализующих те или иные проекты, связанные с искусственным интеллектом.

Опубликован рейтинг самых мощных ИИ-моделей с открытыми исходниками

Новый рейтинг Hugging Face сформирован на основе результатов шести бенчмарков. Это MMLU-Pro (Massive Multitask Language Understanding — Pro), GPQA (Google-Proof Q&A), MuSR (Multistep Soft Reasoning), MATH (Mathematics Aptitude Test of Heuristics), IFEval (Instruction Following Evaluation) и BBH (Big Bench Hard). На первом месте в списке находится модель Alibaba Qwen/Qwen2-72B-Instruct с 72 млрд параметров. Она признана лучшей за «эффективность в математике, дальновидность рассуждений и знания».

Второе место в рейтинге досталось модели meta-llama/Meta-Llama-3-70B-Instruct, которая разработана компанией Meta (признана экстремистской организацией; деятельность на территории Российской Федерации запрещена). Замыкает тройку microsoft/Phi-3-medium-4k-instruct корпорации Microsoft. В целом, Тор-10 выглядит следующим образом:

  1. Qwen/Qwen2-72B-Instruct;
  2. meta-llama/Meta-Llama-3-70B-Instruct;
  3. microsoft/Phi-3-medium-4k-instruct;
  4. 01-ai/Yi-1.5-34B-Chat;
  5. CohereForAI/c4ai-command-r-plus;
  6. abacusai/Smaug-72B-v0.1;
  7. Qwen/Qwen1.5-110B;
  8. Qwen/Qwen1.5-110B-Chat;
  9. microsoft/Phi-3-small-128k-instruct;
  10. 01-ai/Yi-1.5-9B-Chat.[2]

Выпущена открытая ИИ-модель для генерации кода на 80 языках программирования

В конце мая 2024 года французская компания Mistral AI подтвердила запуск новой открытой ИИ-модели Codestral – первой большой языковой модели (LLM), которая должна помочь разработчикам в написании кода. Подробнее здесь.

SberDevices выпустила открытую ИИ-модель машинного обучения для распознавания речи и эмоций

В начале апреля 2024 года компания SberDevices представила набор открытых (Open Source) моделей машинного обучения для распознавания речи и эмоций. Доступная всем бесплатно разработка получила название GigaAM (Giga Acoustic Model). Подробнее здесь.

Основанная выходцами из OpenAI компания Anthropic выпустила языковую модель для обучения ИИ. Она оказалась мощнее систем Google и OpenAI

4 марта 2024 года компания Anthropic, основанная выходцами из OpenAI, анонсировала модели искусственного интеллекта семейства Claude 3. Говорится, что они превосходят аналоги как самой OpenAI, так и Google. Подробнее здесь.

Появление малых языковых моделей (МЯМ)

К февралю 2024 г многие уже испытали на себе мощь больших языковых моделей (БЯМ, large language models, LLM), используя в т.ч. ChatGPT для ответов на сложные вопросы. Эти модели настолько велики, что для их запуска могут потребоваться значительные вычислительные ресурсы, поэтому появление малых языковых моделей (МЯМ, small language models, SLM) стало большой сенсацией.

МЯМ все еще достаточно велики и имеют несколько миллиардов параметров — в отличие от сотен миллиардов параметров в БЯМ — но они достаточно малы, чтобы работать на телефоне в автономном режиме. Параметры — это переменные, или настраиваемые элементы, которые определяют поведение модели.

"Небольшие языковые модели могут сделать ИИ более доступным благодаря своему размеру и дешевизне, — говорит Себастьен Бубек, возглавляющий группу Machine Learning Foundations в Microsoft Research. — В то же время мы открываем новые способы сделать их такими же мощными, как и большие языковые модели".

Ученые Microsoft разработали и выпустили две МЯМ — Phi и Orca, которые в некоторых областях работают не хуже или даже лучше больших языковых моделей, опровергая мнение, что для производительности необходим масштаб.

В отличие от БЯМ, обученных на огромных объемах данных из Интернета, более компактные модели используют специально подобранные высококачественные обучающие данные, и ученые находят новые пороговые значения для размера и производительности. В 2024 году можно ожидать появления усовершенствованных моделей, призванных способствовать развитию инноваций.

Появление мультимодального ИИ, понимающего информацию не только из текста, но и из изображений, аудио и видео

Большинство больших языковых моделей (БЯМ) могут обрабатывать только один тип данных — текст, но мультимодальные модели, такие как Google Gemini или Microsoft Copilot, способны понимать информацию из разных типов данных — текста, изображений, аудио и видео. Эта возможность делает технологии, от поисковых инструментов до приложений для творчества, более насыщенными, точными и бесшовными.

Вы можете узнать в Copilot, что происходит на загруженном изображении, благодаря мультимодальной модели, которая может обрабатывать изображения, естественный язык и данные поиска Bing. Copilot может генерировать, например, релевантную информацию об историческом значении памятника на вашей фотографии.

Мультимодальный ИИ также используется в Microsoft Designer, приложении для графического дизайна, которое может генерировать изображения на основе описания того, что вы хотите. Он также позволяет создавать собственные нейронные голоса, или естественные голоса, полезные для чтения текстов и инструментов для людей с нарушениями речи.

Google выпустила доступную всем желающим модель для обучения искусственного интеллекта

21 февраля 2024 года компания Google анонсировала модели искусственного интеллекта с открытым исходным кодом Gemma 2B и Gemma 7B, которыми могут воспользоваться все желающие. Возможно решение таких задач, как анализ документов, создание чат-ботов и пр. Подробнее здесь.

Выпущена первая в мире открытая модель с поддержкой 100 языков для обучения искусственного интеллекта

13 февраля 2024 года некоммерческая исследовательская лаборатория Cohere for AI, созданная компанией Cohere в 2022 году, представила открытую большую языковую модель (LLM) под названием Aya. Утверждается, что это первое решение данного класса с поддержкой более 100 языков. Подробнее здесь.

2023: Российские ученые создали алгоритм, который обучает ИИ в 4 раза быстрее мировых аналогов

Ученые лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research создали алгоритм для обучения и адаптации искусственного интеллекта. По утверждению ученых, метод под названием ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением) обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу. Такие результаты были получены в рамках тестирования алгоритма на робототехнических симуляторах, сообщили TAdviser 21 декабря 2023 года представители Тинькофф Банка. Подробнее здесь.

Примечания