Разработчики: | DataLine (ДатаЛайн) |
Технологии: | ЦОД |
Содержание |
Дата-центр OST на ул. Боровая — самый первый ЦОД DataLine. В 2009 году с открытием двух машинных залов в этом ЦОДе компания вышла на рынок услуг коммерческих дата-центров.
2019
Как бороться с пожаром в ЦОДе: горький опыт Dataline
Подробности инцидента в дата-центре на ул. Боровая
В октябре 2019 года в DataLine рассказали подробности обстоятельств пожара, произошедшего летом в их ЦОДе на ул. Боровая, а также извлеченном из этого инцидента опыте и уроках. Компания решила это сделать в связи с большим количеством поступающих на эту тему вопросов.
Кирилл Шадский, начальник управления внешними ЦОД Dataline, который был одним из участников восстановления после пожара рассказал, что сначала локализовать возгорание пытались ручными огнетушителями. Но поскольку оно началось под металлической крышей здания ЦОДа, потушить его таким способом оказалось невозможно.
После эвакуации людей из здания и отгона автомобилей компания встретила пожарные расчеты.
Возгорание началось 5 июня в 14:10. Через 15-20 минут после начала возгорания стали слышны хлопки: это взрывались фреонопроводы систем холодоснабжения, пояснил Кирилл Шадский. Всего полностью вышло из строя 5 кондиционеров, а у части кондиционеров только сгорели кабели питания внешних блоков, и один кондиционер не пострадал.
В ЦОДе на Боровой всего 16 машинных залов, из них пострадал один, привели данные в компании. В нем после взрывов фреонопроводов начала повышаться температура. Поняв, что быстро восстановить систему холодоснабжения не получится, Dataline приняла решение отключать этот машзал по питанию, чтобы сохранить клиентское оборудование от перегрева.
В пострадавшем машзале находились кластеры виртуализации, и 781 клиентская виртуальная машина в результате пожара оказалась недоступна. Частично не работала и система управления виртуальными машинами vCloud Director и к остальным виртуальным машинам не было доступа, несмотря на то, что они работали. Помощник или конкурент? Чем ИИ может быть полезен в HR-процессах
По словам представителя Dataline, их компания, согласно условиям SLA, впоследствии выплатила штрафы за все неработающие сервисы, проблемы и простои, предоставила заказчикам место для резервирования и помогла восстановиться.
Помимо отключения оборудование в машзале возникли и другие проблемы. Это коснулось и внутренних сервисов Dataline: «можно сказать, что сапожник остался без сапог», заметил Шадский. Это коснулось службы ServiceDesk, частично – доступа в интернет, управления телефонией и др. Сильно пострадали некоторые офисы, включая тот, где сидела служба эксплуатации.
В компании подчеркивают, что при этом само оборудование не пострадало ни от огня, ни от большого объема воды, которой заливали здание пожарные.
Все помещения машинных залов и инженерной инфраструктуры у нас находятся в отдельных гермозонах. Гермозона нас спасла. Для дата-центра это одна из важнейших систем, - отметил Кирилл Шадский. |
В 16:45 пожар был ликвидирован и компания приступила к восстановлению. Требовалось восстановить систему холодоснабжения, перевести часть критичного оборудования из пострадавшего машзала в соседние, восстановить клиентские и свои сервисы, а также откачать воду из коридоров.
При этом по вопросам предстоящего восстановления фреонопроводов компания начала звонить своим подрядчикам еще до завершения пожара. Для восстановления кондиционеров в Dataline сначала просто вырезали сгоревшие участки и на их место впаивали целые трубки, т.к. первостепенной задачей был запуск машзала. Потом компания купила резервные компрессоры, опасаясь, что починенные таким образом охлаждающие системы могут выйти из строя. За три месяца с момента пожара уже сгорело три компрессора, привел данные представитель компании.
Выученные уроки
После произошедшего пожара в Dataline был составлен огромный аварийный отчет. Кирилл Шадский выделил несколько основных главных моментов. Первое – это причина возгорания. Ей стало короткое замыкание кабеля от внутреннего блока до внешнего блока кондиционеров. После инцидента в список инфраструктуры, подлежащей регулярному осмотру по графику, добавили и кабели внешних блоков. Ранее они в этот список не входили.
Полностью спастись от коротких замыканий нереально, но Dataline делает все, чтобы этого больше не повторялось, заявил представитель компании.
Часть проблем была связана с тем, что крыша дата-центра содержала деревянные элементы, хотя сама и была металлической, и имела сложную конструкцию. Теперь запущен технически сложный проект по созданию новой крыши с негорючими материалами. На время проекта была возведена временная крыша по технологии консервации объектов и еще одна временная крыша над гермозоной.
Потеря каналов связи из-за пожара внутри компании и с клиентами усугубила ситуацию. После пожара Dataline задублировала все каналы связи и внутренние сервисы в своих дата-центрах Nord и Ost.
В момент пожара компания также столкнулась с ситуацией, что камеры видеонаблюдения в ЦОДе использовались только для безопасности, для защиты от злоумышленников, и охватывали не все технологическое оборудование. После инцидента компания добавила дополнительные камеры в пострадавшем дата-центре и пересмотрела политики относительно видеонаблюдения и на других своих объектах.
Также после пожара были добавлены резервные рабочие места для сотрудников, т.к. во время инцидента столкнулись с их нехваткой, и была расширена зона системы раннего пожаротушения. Ранее в пространстве между гермозоной и крышей не было датчиков обнаружения дыма.
Были проведены не только технические изменения, но и регламенты, говорит Кирилл Шадский. Один из них – регламент посещения ЦОД. Например, ранее в компании не было регламента доступа в машинные залы во время ЧП. Теперь он есть, а также ответственные лица, ответственные за авторизацию подрядчиков и заказчиков в подобных случаях.
Отдельная работа была проведена в области учений по пожарной безопасности. В момент инцидента оказалось, что не все знали, как действовать при пожаре.
Данная ситуация дана нам много нового опыта и сделала нас сильнее. Мы справились с этой ситуацией, вышли из нее, - отметил Шадский. |
Источник изображений - презентация Кирилла Шадского.
Пожар в дата-центре
5 июня 2019 года в дата-центре DataLine в Москве произошёл пожар. TAdviser получил фотографию с места события от человека, работающего в одном из соседних офисов.
Как сообщили в пресс-службе ГУ МЧС по Москве, загорелось двухэтажное административно-производственное здание, расположенное по адресу: ул. Боровая, дом 7, строение 10. Именно в этом здании находится центр обработки данных OST, указывается на официальном сайте DataLine.
Сообщение о пожаре в оперативную дежурную смену Центра управления в кризисных ситуациях Главного управления МЧС России по Москве поступило в 14 часов 29 минут. К 15:22 возгорание удалось локализовать. Площадь пожара составила около 200 квадратных метров. По словам очевидцев, на месте произошедшего были слышны хлопки.
Там что-то взрывается, — рассказал собеседник TAdviser. |
К 16:30 по мск сведений о пострадавших нет. Также не названа причина пожара. По предварительной информации загорелся деревянный обрешетник кровли здания. На месте работают пожарно-спасательные подразделения.
В связи с пожаром обслуживаемые дата-центром сайты и сервисы могут быть недоступны. Из-за пожара в дата-центре DataLine произошел сбой в работе всех сервисов Qiwi. Проблемы наблюдались примерно с 15:50 по московскому времени. Сначала на главной странице сайта Qiwi появилась ошибка 403. Позже посетителей стали перенаправлять на status.qiwi.ru, где сообщается о том, что проблемы есть во всех сервисах.
TAdviser запросил комментарии в DataLine, но на момент выхода публикации (16:30 мск) не получил ответа.
Помимо дата-центра, в загоревшемся здании находятся различные магазины и турагентство, свидетельствуют данные из открытых источников.
Из-за возгорания в административном здании движение по улице Боровая было перекрыто, говорится в Twitter-блоге ГКУ «Центр организации дорожного движения» (ЦОДД).
Движение полностью перекрыто от дома 6 до дома 20. На месте работают оперативные службы. Объезжайте!, — сообщили в ЦОДД. |
6 июня 2019 года в TAdviser поступило сообщение от DataLine, в котором компания поделилась предварительным заключением экспертов о причине пожара. По их оценкам, возгорание произошло вследствие короткого замыкания в кабеле внешнего блока системы кондиционирования OST-2.
5 июня около 14.00 на улице Боровая произошло возгорание кровли дата-центра OST. Для тушения пожара на место происшествия прибыло более 10 пожарных расчетов, так как площадь возгорания составила около 200 кв м. Система оповещения сработала в штатном режиме. Все сотрудники компании и клиенты, работавшие на момент начала пожара в дата-центре, были своевременно эвакуированы. Пострадавших нет, — говорится в заявлении DataLine. |
Как рассказали TAdviser в DataLine, в ходе пожара были повреждены некоторые фреонопроводы, находящиеся на крыше вблизи очага возгорания. В результате пострадала система кондиционирования одного из залов OST-2.
Во избежание потерь клиентского оборудования по перегреву руководством DataLine было принято решение о частичном отключении оборудования в зале. Все клиенты, чье оборудование размещалось в данном зале, были оперативно оповещены и по возможности переведены на резервные площадки. Оборудование некоторых клиентов было перенесено в другие залы дата-центра OST. Сам машинный зал не был задет огнем и не пострадал от воды при тушении, — заверили в компании. |
Восстановительные работы системы кондиционирования стартовали сразу после ликвидации пожара в 16.45. К 4.45 утра зал заработал в штатном режиме.
По состоянию на 6 июня DataLine работает в обычном режиме, за исключением службы капитального строительства, которая уже приступила к восстановительным работам на крыше здания.
2014: Запуск двух новых залов
В июне 2014 года на площадке OST на ул. Боровая заработали два новых машинных зала. В залах Golf и Nadazero площадью 204 и 80 кв.м разместятся 100 и 34 стойки соответственно.
Залы располагаются в новой части дата-центра OST - OST 3, которая спроектирована как независимый дата-центр. Он обладает автономными системами энергоснабжения (два ввода электропитания, отдельные помещения ИБП, аккумуляторные, ДГУ) и кондиционирования. В ближайшем будущем в ЦОДе OST 3 будут запущены еще несколько залов и Meet-Me-Room Elba.
2010: 2-я серьезная авария в Дата-Центре DataLine за последние 3 месяца
20.03, произошла авария в Дата-Центре DataLine. Вследствие шквалистого ветра чиллеры, размещенные на крыше ЦОД, были завалены металлическими конструкциями с соседнего здания и выведены из строя. В результате аварии, некоторые клиенты смогли восставить работу только утром[1].
Ситуация для Дата-Центра, позиционирующего себя как TIER-3, мягко сказать не приятная. Почему чиллеры, установленные на крыше пристройки, небыли защищены специальными решетчатыми кожухами, при условии существования явных рисков от расположенных в блажащей доступности старых заводских построек. Еще один интересный факт — показатели состояний климатических условий в залах ЦОД на Боровой, опубликованные на главной странице сайта, оставались на протяжении всей аварии в рамках нормы, что явно не соответствовало действительности. Это несоответствие наводит на размышление о том, что цифры взяты не из системы мониторинга Дата-Центра, а введены контент-менджером сайта и могут быть далеки от реальных и сейчас. Нельзя не отдать должное представителям DataLine, весьма подробно осветившим произошедшую аварию и опубликовавшим фото-отчет о результатах разбушевавшейся бури, приведенный ниже. Таким подробным описание аварии и сроков ее устранения представители Дата-Центров России балуют своих клиентов крайне редко, хотя с другой стороны, сухими строчками о происшествия, да еще и не из официального источника, авторы могли бы подлить последнюю каплю масла в давно разгорающийся огонь недовольства качеством услуги размещения оборудования в ЦОД DataLine.
УРАГАН НА БОРОВОЙ И ЕГО ПОСЛЕДСТВИЯ
20.07.2010 в 18.18 часов вследствие шквального ветра, вызванного ураганом, внешние блоки системы кондиционирования (чиллеры) были завалены тяжелыми металлическими конструкциями (по нашим оценкам более 10 тонн стального профлиста и двутавровых балок), рухнувшими на крышу ЦОДа с крыш соседних зданий. В результате все три чиллера получили физические повреждения: в частности, пробиты и разгерметизированы радиаторы с этиленгликолем, что привело к резкому снижению давления в системе охлаждения. Кроме того, двутавровыми балками повреждены 10 вентиляторов на двух из трех холодильных машин. Все эти факторы привели к быстрому повышению температуры в машинных залах.
Для восстановления давления в системе были использованы имеющиеся у нас запасы этиленгликоля. Мы смогли запаять один из поврежденных участков гликолевого контура и в 19.50 запустить в эксплуатацию первый чиллер, что привело к снижению температуры в залах примерно на 5 градусов.
В дальнейшем проводились работы по реанимации остальных чиллеров, что и было достигнуто в 23.30 через 4 часа восстановительных работ. После чего ЦОД перешел в работу в штатном режиме. Температура в залах стабилизировалась к 4 часам утра следующего дня (21.07.2010).
В настоящее время работают 2 чиллера, температура в залах стабилизирована, ЦОД работает без резервного чиллера. Для его восстановления производятся необходимые закупки запасных частей, ведутся ремонтные работы его фреонового контура. Восстановление системы резерва происходит силами сервисной компании.
По нашим прогнозам в течение 24 часов ЦОД перейдет в штатный режим работы с наличием резерва.
Примечания
Название решения | Разработчик | Количество проектов | Технологии |
---|---|---|---|
Гарс Телеком: «облачные» сервисы | Гарс Телеком (Gars Telecom) | 0 | Cloud Computing, IaaS - Инфраструктура как услуга, SaaS - Программное обеспечение как услуга, ИБ - Резервное копирование и хранение данных |
Подрядчики-лидеры по количеству проектов
IXcellerate (Икселерейт) (28)
Крок (27)
Linx (Связь ВСД) ранее Linxdatacenter (19)
DataSpace (ДатаСпейс Партнерс) (15)
Инфосистемы Джет (15)
Другие (474)
Талмер (Talmer) (2)
Тегрус (Tegrus) ранее - Merlion Projects (2)
Технодинамика (1)
DataDome (ДатаДом) (1)
Тринити (1)
Другие (15)
IXcellerate (Икселерейт) (3)
Селектел (Selectel) (2)
Linx (Связь ВСД) ранее Linxdatacenter (2)
Н-ком (1)
Aerodisk (Аеро Диск) (1)
Другие (18)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
IXcellerate (Икселерейт) (5, 35)
Linx (Связь ВСД) ранее Linxdatacenter (3, 17)
ТрастИнфо (2, 17)
DataSpace (ДатаСпейс Партнерс) (2, 17)
Inoventica (Коммуникации для инноваций) (1, 14)
Другие (265, 117)
Ростелеком (2, 2)
Linx (Связь ВСД) ранее Linxdatacenter (2, 1)
DataSpace (ДатаСпейс Партнерс) (1, 1)
DataPro (ДатаПро) (1, 1)
Другие (0, 0)
IXcellerate (Икселерейт) (2, 3)
Селектел (Selectel) (1, 2)
Linx (Связь ВСД) ранее Linxdatacenter (1, 2)
Центр взаимодействия компьютерных сетей Московский Internet Exchange (ЦВКС MSK-IX, МСК-IX) (1, 1)
DataSpace (ДатаСпейс Партнерс) (1, 1)
Другие (2, 2)
Equinix (1, 2)
ММТС-9 (М9) Московская междугородная телефонная станция N9 (1, 1)
Селектел (Selectel) (1, 1)
Казтелепорт (Kazteleport) (1, 1)
ОБИТ (1, 1)
Другие (2, 2)
IXcellerate (Икселерейт) (2, 4)
Селектел (Selectel) (1, 1)
Ростелеком (1, 1)
Equinix (1, 1)
ММТС-9 (М9) Московская междугородная телефонная станция N9 (1, 1)
Другие (0, 0)
Распределение систем по количеству проектов, не включая партнерские решения
ЦОД IXcellerate Moscow One - 32
ЦОД ТрастИнфо - 17
ЦОД DataSpace - 17
ЦОД Inoventica - 14
ЦОД КРОК Компрессор - 12
Другие 127
ЦОД Ростелеком Москва - 1
ЦОД Linx Datacenter Москва - 1
ЦОД DataSpace - 1
ЦОД Linx Datacenter СПб - 1
ЦОД Ростелеком Новосибирск - 1
Другие 1
ЦОД Селектел - 2
ЦОД IXcellerate Moscow One - 2
ЦОД Linx Datacenter Москва - 2
ЦОД IBS DataFort - 1
ЦОД IXcellerate Moscow South - 1
Другие 3
ЦОД Equinix SP3 Сан-Паулу - 2
ЦОД ММТС-9 (М9) - 1
ЦОД IXcellerate Moscow One - 1
ЦОД Селектел - 1
ЦОД Kazteleport в Алматы - 1
Другие 2