Разработчики: | Nvidia (Нвидиа) |
Отрасли: | Электротехника и микроэлектроника |
Технологии: | Процессоры |
Содержание |
История
2024: Брак новых процессоров, который приводит к перегреву и может стать причиной пожара в дата-центре
В середине ноября 2024 года стало известно о том, что ИИ-ускорители Nvidia поколения Blackwell при использовании в серверных стойках высокой плотности могут сталкиваться с перегревом. Это создает риск возгорания в центре обработки данных.
Как сообщает ресурс The Information, ссылаясь на данные, полученные от осведомленных источников, проблема затрагивает так называемые суперсистемы GB200 NVL72 на базе ускорителей Blackwell. Они объединяют в одной стойке 18 узлов 1U, каждый из которых содержит два решения GB200 для работы с ресурсоемкими приложениями ИИ и высокопроизводительными вычислениями. Таким образом, в общей сложности стойка насчитывает 72 чипа Nvidia B200 и 36 процессоров Grace.
По словам сотрудников Nvidia, которые работали над проблемой перегрева, а также клиентов и поставщиков, осведомленных о ней, производитель графических чипов несколько раз просил своих партнеров изменить конструкцию стоек, чтобы минимизировать риски. Подчеркивается, что дорабатывать архитектуру серверных систем на базе Blackwell партнеры Nvidia будут вынуждены на последних этапах их производства.
Nvidia взаимодействует с ведущими поставщиками облачных услуг, и это неотъемлемая составляющая нашего сотрудничества. Инженерные корректировки являются частью данного процесса, а поэтому вполне ожидаемы, — заявил представитель компании Nvidia агентству Reuters. |
Вместе с тем Dell, Foxconn и Quanta заверяют, что поставки систем GB200 идут по графику, несмотря на информацию о перегреве ИИ-ускорителей. В частности, основатель и глава Dell Technologies Майкл Делл сообщил, что компания уже начала отгружать соответствующие решения заказчикам. В этих серверных продуктах применяется эффективная система жидкостного охлаждения.[1]
Примечания
Подрядчики-лидеры по количеству проектов
Lenovo (4)
Т1 Интеграция (ранее Техносерв) (4)
МЦСТ (4)
Микрон (Mikron) (4)
Национальный центр информатизации (НЦИ) (3)
Другие (48)
Базальт СПО (BaseALT) ранее ALT Linux (1)
Байкал Электроникс (Baikal Electronics) (1)
МЦСТ (1)
Cloud4Y (ООО Флекс) (1)
Huawei Россия (Хуавэй) (1)
Другие (4)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
МЦСТ (8, 22)
Микрон (Mikron) (2, 9)
Oracle (1, 7)
Nvidia (Нвидиа) (18, 6)
Intel (36, 5)
Другие (195, 15)
Байкал Электроникс (Baikal Electronics) (1, 2)
Huawei (1, 1)
Nvidia (Нвидиа) (1, 1)
Микрон (Mikron) (1, 1)
Intel (1, 1)
Другие (0, 0)
Распределение систем по количеству проектов, не включая партнерские решения
Микрон Интегральные микросхемы MIK - 9
Эльбрус - 8
Oracle SPARC - 7
Intel Xeon Scalable - 5
Эльбрус 4.4 - 4
Другие 23
Baikal-M - 2
Intel Xeon Scalable - 1
Микрон Интегральные микросхемы MIK - 1
Huawei Kunpeng (процессоры) - 1
Nvidia Tesla - 1
Другие 0