Uptime Institute
США
Нью-Йорк
20 West 37th Street NY 10018
Топ-менеджеры:
Солодовников Алексей Леонардович
Содержание |
Uptime Institute – один из наиболее известных и пользующихся доверием международных сертификационных институтов, разработавший собственный стандарт надежности центров обработки данных. Данный стандарт вбирает в себя лучший международный опыт построения и эксплуатации ЦОД. В отличие от других принятых в мире квалификаций, стандарты Uptime Institute учитывают, прежде всего, интересы корпоративных клиентов и ориентированы на защиту инвестиций в строительство ЦОД. Такой подход позволяет на этапе проектирования заложить необходимые требования к надежности и безопасности будущего дата-центра, создать оптимальные условия его эксплуатации и тем самым добиться эффективной экономики проекта.
Московский офис
Компания Uptime Institute, классифицирующая дата-центры по уровню надежности, открыла в начале 2013 года московский офис. Помимо сертификации ЦОДов компания занимается консультированием заказчиков при их создании. Именно это станет основной задачей небольшой технической команды под руководством Алексея Солодовникова.
2020: Как поддержать работоспособность ЦОДа, если ключевые сотрудники заразились COVID-19 или сидят на карантине
В марте 2020 года Uptime Institute подготовил рекомендации о том, как реагировать на пандемию коронавируса COVID-19 индустрии ЦОД. Отчет был выпущен с целью помочь операторам объектов критической инфраструктуры подготовиться и ответить на влияние нового коронавируса. TAdviser ознакомился с документом.
Согласно отчету, в таких ситуациях, как пандемия, критически важные объекты сталкиваются с особыми трудностями как из-за риска отсутствия ключевых сотрудников по причине болезни или карантина, так и в силу других продолжительных факторов, которые могут повлиять на способность оператора поддерживать непрерывную работу.
Старение персонала в некоторых регионах означает, что, несмотря на все усилия, отрасль центров обработки данных может быть более уязвимой к COVID-19, нежели другие отрасли. Это представляет проблему, учитывая существующую и хорошо документированную нехватку персонала, с которой сталкивается отрасль. Текущие события усиливают необходимость активизации усилий со стороны индустрии, учебных заведений и торговых организаций по укреплению программ подготовки и обучения персонала, - заявляют авторы отчета |
Сходным образом, по их мнению, использование автоматизации и удаленного мониторинга может позволить объектам работать эффективнее и дольше, с меньшей численностью необходимого персонала на объекте.
Пандемия может ускорить долгосрочную тенденцию в этом направлении. То же относится к производительности и инструментам удаленной совместной работы, - отмечается в отчете |
Первым шагом бизнеса в условиях пандемии авторы отчета обозначают защиту площадки предприятия и его персонала. Речь о следующих действиях:
- пересмотре эксплуатационных процессов;
- максимальном устранении доступа всех поставщиков, присутствие которых не является необходимым, и отслеживании тех, кто должен присутствовать;
- пересмотре программы обучения поставщиков и включении в нее обсуждения расширенных процедур охраны здоровья и безопасности и правил работы площадки;
- приостановке всех несущественных проектов строительства и координации работы с подрядчиками, гарантирующей применение субподрядчикями/поставщиками адекватных мер предосторожности в случае необходимости продолжения проекта;
- создании отдельного, безопасного входа для всех участвующих в проекте сторон и введении изоляции персонала проекта от эксплуатирующего персонала;
- обновлении базовых материалов;
В то время, когда исполнение проектов и проведение технического обслуживания сокращены, используйте замедленный цикл работ как возможность для пересмотра и обновления планов и технической библиотеки. Это может быть выполнено вне места работы. Поощряйте документирование и передачу знаний от опытного персонала. Это может выполняться в форме аннотированных процедур и руководств видеоконференций между соответствующими сторонами, и т.д., - говорится в отчете |
- усилении санитарной обработки;
- ограничении доступа на критический объект;
- тестировании всех соединений виртуальной частной сети (VPN) для обеспечения надежного доступа и последующий перевод всего персонала, не отвечающего за критические процессы в ЦОД, на надомную работу;
- обеспечении доступа через VPN к системе управления зданием (BMS) для удалённого мониторинга ЦОД;
- предоставлении персоналу подробных инструкций по подключению к VPN-серверам;
- обеспечении доступа к стандартным эксплуатационным процедурам (SOP) и аварийным эксплуатационным процедурам (EOP) для обеспечения возможности удаленного совместного управления в случае необходимости;
- проверке точности описания процедур SOP/EOP, а также возможности их корректного исполнения лицами, для которых это не является повседневной деятельностью.
- рассмотрении возможности отсрочки/отмены всех личных встреч и использовании, в связи с этим, электронной почты, телефонной и аудио/видео конференц-связи;
- напоминании сотрудникам с помощью вывесок и ежедневных инструктажей об их ответственности за санитарную обработку, а также содействии в этом;
- готовности к сложностям, вызванным работой со сниженным числом персонала;
Разработайте матрицу угрозы недостаточности персонала для различных сценариев невыхода сотрудников на работу. Например, менее чем 25%, 25-50%, 50-75%, 75-99%, 100%. Для каждого сценария суммируйте следующее: влияние на критические и некритические функции бизнеса, элементы реагирования на эксплуатацию ЦОД, воздействие на уровень сервиса и на групповые метрики, - рекомендуется в отчете |
- исследовании и тестировании технологий удаленного мониторинга/управления, автоматизации и т.д.;
- направлении сотрудников с симптомами заболевания на самоизоляцию с указанием работать удаленно в течение последующих 14 дней;
- рекомендации ухода на самостоятельный карантин на необходимый срок сотрудникам, имевшим тесный контакт с подтвержденным носителем COVID-19;
- пересмотре назначения критически важных сотрудников и их заместителей и проверке знаний последних о ролях и обязанностях тех, кого им может потребоваться временно заменить;
- запрете/сокращении всех поездок, не являющихся неотложными;
Организациям необходимо составить полную ясность о характере перемещений. Например, короткие местные поездки против более длинных/международных поездок и разработка соответствующих указаний, - пишут авторы отчета |
- запрете/сокращении перемещения между площадками;
Если такая поездка необходима, предпримите шаги, чтобы убедиться, что вероятность перекрестного заражения минимизирована, поскольку одна площадка может резервировать другую, - советуют авторы отчета |
- планировании необходимых визитов для технического обслуживания;
Операторы должны заранее спланировать пути реализации технического обслуживания и получить необходимые разрешения, если таковые требуются. Разрешения могут зависеть от приложений/сервисов, выполняемых в ЦОД, - обращают внимание авторы отчета |
- пересмотре приоритетов технического обслуживания;
Пересмотрите планы обслуживания и расположите по приоритетам: определите, какие задачи могут быть понижены в приоритете, выполнены в последнюю очередь или не выполнены вообще, если эксплуатационный персонал будет сокращен до минимума, - отмечают авторы отчета |
- рассмотрении последствий отложенного обслуживания в силу возможного увеличения им риска выхода из строя компонентов или систем;
Всегда имейте в распоряжении план реагирования на любую значительную проблему, по мере необходимости координируя работу с поставщиками, чтобы быть уверенными, что проблемы могут быть решены. Если проблему выхода оборудования из строя нельзя решить своевременно, убедитесь, что процедуры безопасного отключения и изолирования оборудования и цифровой инфраструктуры достаточно надежны для нейтрализации потерь из-за отказавшего оборудования. По мере хода времени и остающихся ограничений пересматривайте отложенные задачи и определяйте, повышают ли продолжающиеся задержки риски вышеобоснованных допусков, - пишут авторы отчета |
- создании команд ответственного персонала основной и резервной площадки и запрет перекрестных контактов между их членами;
- запрете близкого взаимодействия между сменами;
- рассмотрении назначения по крайней мере одного самоизолированного человека по каждой позиции для каждой смены для вызова при чрезвычайной ситуации;
- двухнедельной ротации для рабочих групп, работающих в смену;
- избегании совместного использования рабочего пространства.
Большинство ЦОД ограничило доступные рабочие пространства для персонала. Если возможно, назначайте конференц-залы или иные помещения для использования персоналом смены на переменной основе. Настройте пульты системы управления зданием (BMS) и доступ к сети так, чтобы смены не входили в рабочие пространства друг друга, - рекомендуется в отчете |
- избегании совместного использования оборудования;
- рассмотрении возможности внедрения системы отслеживания контактов;
- подготовке к экстренному размещению персонала в ЦОД;
Ежедневно регистрируйте информацию о состоянии здоровья и местонахождении персонала, представителей поставщиков и прочих вовлеченных лиц с целью отслеживания возможного воздействия вируса или любых симптомов, - говорят авторы отчета |
Вторым шагом бизнеса в условиях пандемии авторы отчета обозначают его готовность к данному явлению. Она включает в себя следующие действия:
- разработку конкретного плана готовности к пандемии.
Данный план должен включать многоуровневое реагирование и четко определять действия, которые необходимо предпринять на каждом уровне, а также обстоятельства, ведущие к реализации следующего уровня. Помимо того, план должен предусматривать ситуации, когда персонал может оказаться неспособен получить доступ или, напротив, покинуть площадку в кратчайший срок.
- консультацию со страховыми компаниями и юристами по таким вопросам, как требования к уборке, соглашения об уровне оказания сервиса (SLA), оповещения и т.д.
- оценку влияния на ИТ-сервисы;
Реагирование на COVID-19 может влиять на интернет-трафик, рабочие нагрузки и требования доступности для некоторых клиентов. Операторам рекомендуется обсудить с клиентами, как внутренними, так и внешними, любые возможные влияния на их работу, в особенности при планируемых обновлениях или миграциях систем, наращивании мощностей, а также вероятные задержки тех проектов, которые могут повлиять на работу бизнес-подразделений и исполнение задач, - говорится в отчете |
- поддержку коммуникаций с персоналом, клиентами и партнерами;
- отслеживание общественных информационных ресурсов с целью информирования персонала о текущем состоянии пандемии и лучших практиках поддержания безопасной и здоровой рабочей среды;
- обеспечение персонала четкими указаниями по политике компании и официальным положениям в отношении проявления симптомов заболевания возможного заболевания, порядка и продолжительности самостоятельного карантина, предоставления отпуска по болезни/регулярного оплачиваемого отпуска, страховому покрытию и т.п.;
- информирование персонала о текущем уровне реагирования и его влиянии на повседневную деятельность;
- готовность к нарушениям в цепочке поставок;
В дополнение к ресурсам, основным для бизнес-функций, обеспечьте соответствующий уровень поставок продукции, сокращающей распространение возбудителей инфекции: дезинфицирующие салфетки, дезинфицирующее средство для рук, маски, перчатки, бесконтактные термометры, подходящие чистящие средства для различных типов оборудования и т.д. Также рассмотрите потенциальное долгосрочное нарушение в цепочке поставок критических запчастей и предметов потребления. Компоненты, производящиеся в Китае или других регионах, на которые значительно повлиял вирус, могут оказаться малодоступными в течение многих месяцев, - рекомендуют авторы отчета |
2015: Uptime Institute отменил «бумажную» сертификацию
13 июля 2015 стало известно об изменении правил сертификации для коммерческих дата-центров. Этим организация пытается бороться с неправомерным использованием ее дипломов в маркетинговых целях.
Uptime Institute оценивает уровень надежности ЦОДов на разных этапах их существования: можно отдельно получить сертификат для проекта строительства (Tier Certification of Design Documents) и готовой площадки (Constructed Facility). Проблема в том, что в ходе работ многое может измениться и результат строительства будет сильно отличаться от проектной документации. В итоге дата-центр, проект которого (на основании только документов) получил уровень надежности Tier III, далеко не соответствует этому уровню в реальности. TAdviser выпустил новую Карту «Цифровизация промышленности»: свыше 250 разработчиков и поставщиков услуг
Но наличие сертификата Uptime Institute на проект дает ему основание гордо заявить об уровне Tier III ради привлечения клиентов и улучшения продаж (разумеется, речь идет о коммерческих ЦОДах, предоставляющих облачные сервисы или услуги колокации). Таким образом, компания вводит в заблуждение заказчиков, не понимающих разницы между сертификатами, заставляя их платить за то, чего они не получают. По мнению ряда экспертов, такая практика – открытый обман, поскольку заказчики считают построенный дата-центр соответствующим критериям сертификации, что на самом деле не так.
Сложившаяся ситуация вызывала критику Uptime Institute со стороны отрасли: по словам спикера организации Мэтта Стэнсберри, в Uptime получали массу жалоб от провайдеров услуг дата-центров, которые потратились на дорогостоящую сертификацию и были вынуждены конкурировать на рынке с теми, кто не провел эту процедуру для площадки, но заявлял о высоком уровне надежности. И первым шагом в борьбе с злоупотреблениями стал установленный в 2014 г. двухлетний «срок годности» для сертификатов на проект. Это означало, что после сертификации Design Document компания должна была в течение двух лет построить дата-центр и подтвердить уровень готовой площадки – в противном случае она теряла сертификат на проект.
Следующий шаг, по словам Стэнсберри, отмена с 1 июля 2015 года сертификатов на проект для коммерческих дата-центров. «Основная цель этого, – поясняет он, – не дать использовать сертификат проекта в маркетинговых целях, не пройдя сертификацию реальной площадки. Ведь между планом и итогом строительства может быть множество расхождений».
Uptime Institute не будет выдавать документов или размещать на своем сайте список коммерческих ЦОДов, сертифицирующих проект строительства. Речь идет только о компаниях, предоставляющих услуги хостинга, облаков, колокации и т.д. сторонним заказчикам, и только о дата-центрах в Северной Америке. Изменения вступают с силу с 1 июля 2015 года, и они не затронут сертификатов, полученных до этой даты (точно так же сертификаты, выданные до введения ограничений на срок их действия, не аннулируются).