Разработчики: | Яндекс (Yandex), Yandex B2B Tech |
Отрасли: | Информационные технологии |
Технологии: | Big Data |
Содержание[Свернуть] |
Основная статья: Большие данные (Big Data)
2025: Запуск единой платформы обработки данных любого объема для бизнеса
Yandex B2B Tech открыла доступ бизнесу к платформе собственной разработки для хранения и обработки больших данных YTsaurus. Об этом разраотчик сообщил 28 мая 2025 года. С ее помощью можно анализировать эксабайты данных в компаниях и обучать сложные модели машинного обучения с миллиардами параметров. YTsaurus доступна в двух форматах поставки: в облаке и в инфраструктуре заказчика (on-premise). В облаке решение доступно как управляемый сервис, то есть поддержкой платформы будут полностью заниматься специалисты Яндекса.
В Яндексе YTsaurus разрабатывают с 2010 года – на май 2025 года ее используют для хранения данных большинства сервисов, обучения YandexGPT и других нейросетей, задач поискового индекса. Например, Яндекс.Маркет с помощью платформы разрабатывают систему промоакций, а автономный транспорт обрабатывают данные о поездках и улучшает алгоритмы. Ранее платформа была доступна в опенсорсе – ее уже применяют большие технологические компании в России и за рубежом.
YTsaurus подходит для обработки небольшого количества данных и для работы с миллионом CPU и десятками тысяч GPU. Платформу можно использовать как классическую MapReduce-систему, так и применять внутри платформы другие популярные решения для обработки данных, в том числе ClickHouse и Apache Spark. C помощью YTsaurus можно строить корпоративные хранилища данных, ETL-системы, обрабатывать как структурированные, так и неструктурированные или полуструктурированные данные, в том числе логи или финансовые транзакции.
![]() | Для нас важно, чтобы у компаний были сервисы и инструменты для работы с данными под любой сценарий. Для этого мы, с одной стороны – создаем и развиваем сервисы для облачной платформы на базе открытых решений. С другой – тестируем и адаптируем для бизнеса собственные наработки, такие как платформы YTsaurus, YDB, BI-решение DataLens, которые применяются во внутренней инфраструктуре компании, – рассказал Иван Пузыревский, CTO платформы Yandex Cloud. | ![]() |
2023: Публикация исходного кода
«Яндекс» раскрыл исходники своей главной платформы для работы с большими данными YTsaurus. Об этом пресс-служба компании сообщила 20 марта 2023 года.
Как рассказали в «Яндексе», платформа подходит для широкого круга задач, от аналитики до обучения сложных моделей с миллиардами параметров. Например, «Поиск» строит с помощью YTsaurus поисковый индекс, а беспилотные автомобили используют платформу, чтобы обрабатывать данные о поездках и улучшать свои алгоритмы. YTsaurus управляет суперкомпьютерами «Яндекса», распределяя нагрузку так, чтобы их вычислительные мощности использовались наиболее эффективно.
К марту 2023 года в «Яндексе» платформа YTsaurus развернута на десятках тысяч серверов и обрабатывает экзабайты данных; с ней работает каждый второй сотрудник компании. YTsaurus можно использовать как классическую MapReduce-систему, но при этом она поддерживает и другие популярные подходы к обработке данных — например, у нее есть интеграции с ClickHouse и Apache Spark.
Исходный код и документация YTsaurus доступны на GitHub. Код распространяется под лицензией Apache 2.0. Использовать платформу или доработать ее под себя может любой желающий.
![]() | Яндекс ведет разработку YTsaurus — или YT, как мы называем ее внутри — с 2010 года. Мы начали строить собственную экосистему для больших данных, потому что ни одно из имевшихся на рынке решений не удовлетворяло всем нашим требованиям. Сейчас YTsaurus — один из ключевых элементов внутренней инфраструктуры «Яндекса». Над платформой работают десятки разработчиков, и ее возможности постоянно расширяются, — сказал руководитель отдела технологий распределенных вычислений Максим Бабенко, чьи слова приводит пресс-служба «Яндекса» 20 марта 2023 года.[1] | ![]() |
Подрядчики-лидеры по количеству проектов


















Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров





























Распределение систем по количеству проектов, не включая партнерские решения

















