Разработчики: | Калифорнийский технологический институт (Caltech), Массачусетский технологический институт (MIT) |
Дата премьеры системы: | май 2024 г |
Отрасли: | Информационные технологии |
2024: Создание нейросети
В конце апреля 2024 года американские исследователи из ряда научных организаций сообщили о разработке принципиально новой архитектуры нейросетей — Kolmogorov-Arnold Networks (KAN). В основу платформы положены труды советских академиков Андрея Колмогорова и Владимира Арнольда.
Традиционно в основе систем глубокого обучения, в том числе платформ компьютерного зрения и больших языковых моделей (LLM), лежит многослойный перцептрон (MLP). Это архитектура взаимосвязанных нейронов, которые выступают в качестве единиц для вычислительных операций в сети.
Как сообщается, ученые из США предложили более эффективное решение. В работе приняли участие специалисты из Массачусетского технологического института (MIT), Калифорнийского технологического института (Caltech), Северо-Восточного университета (Northeastern University) и Института искусственного интеллекта и фундаментальных взаимодействий Национального научного фонда США (IAIFI). В то время как MLP имеют фиксированные функции активации на узлах («нейроны»), системы KAN используют обучаемые функции активации на ребрах («веса»). В KAN вообще нет линейных весов — каждый весовой параметр заменяется одномерной функцией, параметризованной в виде сплайна.Помощник или конкурент? Чем ИИ может быть полезен в HR-процессах
Утверждается, что архитектура KAN способна превзойти MLP как по точности, так и по интерпретируемости. Теоретически KAN обладают более быстрыми законами нейронного масштабирования, чем MLP. В целом, KAN — многообещающая альтернатива MLP, открывающая новые возможности для дальнейшего совершенствования моделей глубокого обучения. Вместе с тем у новой технологии есть определенные недостатки: это, в частности, более низкая скорость обучения. Иными словами, для задач, в которых приоритет отдается скорости, MLP остаются более практичным вариантом.[1]