Проект

Новолипецкий металлургический комбинат, НЛМК (ADH - Arenadata Hadoop)

Заказчики: Новолипецкий металлургический комбинат, НЛМК

Новолипецк; Металлургическая промышленность

Подрядчики: Инфосистемы Джет

Продукт: ADH - Arenadata Hyperwave (ранее Arenadata Hadoop)
На базе: Apache Hadoop

Второй продукт: Apache Kafka

Третий продукт: Apache Hive

Дата проекта: 2018/08 — 2019/08

Количество лицензий: 20

Технология: СУБД

подрядчики - 283
проекты - 832

системы - 319
вендоры - 154

Технология: BI

подрядчики - 471
проекты - 3221

системы - 1203
вендоры - 592

Технология: Data Mining

подрядчики - 294
проекты - 962

системы - 361
вендоры - 255

2019: Построение Data Lake

Масштаб проекта:

7840 человеко-часов
20 автоматизированных рабочих мест

Использованное ПО:

Решение реализовано на базе отечественного дистрибутива распределенной платформы хранения Arenadata Hadoop. Для решения задач сбора, передачи, трансформации и накопления данных были использованы сервисы Apache Kafka, Apache NiFi и Apache Hive.Алексей Остроушко, CIO клиник «Будь Здоров»: Не хотелось бы зависеть от вендоров 9.4 т

Компания НЛМК определила стратегию, затем специалисты ИТ-компании разработали и реализовали техническое решение на платформе Arenadata Hadoop. Внедренная платформа САДиМ класса решений Data Lake собирает данные, предоставляя информацию о производственных и технологических процессах моделям машинного обучения.

Специалисты настроили регулярную выгрузку данных в «озеро данных» из 70 источников (датчиков, а также MES и АСУ ТП), а также загрузили исторические данные за последние несколько лет работы предприятия и разработали карты данных технологических и производственных процессов отдельных цехов. Емкость построенного «озера данных» составляет 300 терабайт.

В рамках проекта команда подрядчика разработала для НЛМК модель унифицированной витрины данных, реализовала управление мета-данными средствами Apache Atlas (тэгирование, поиск и т.д.) и настроила централизованную ролевую модель, интегрировав ее со службой каталогов Active Directory. Это дало возможность дата-саентистам максимально оперативно получать в Data Lake доступ к нужным им данным.

Для контроля работы Data Lake настроен комплексный мониторинг состояния сервисов системы в Zabbix, а также автоматизирован контроль целостности и полноты данных. Для особо важных и уязвимых данных создана возможность резервного копирования: то есть, в случае непреднамеренного уничтожения данных пользователем их можно будет восстановить.

Источник — «https://fin.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B5%D0%BA%D1%82:%D0%9D%D0%BE%D0%B2%D0%BE%D0%BB%D0%B8%D0%BF%D0%B5%D1%86%D0%BA%D0%B8%D0%B9_%D0%BC%D0%B5%D1%82%D0%B0%D0%BB%D0%BB%D1%83%D1%80%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D0%BE%D0%BC%D0%B1%D0%B8%D0%BD%D0%B0%D1%82,_%D0%9D%D0%9B%D0%9C%D0%9A_(ADH_-_Arenadata_Hadoop)»