
Базовая плата NVIDIA HGX B200 с 4x графическими процессорами и свитчами NVLink
На выставке Computex 2024 наша команда увидела кое-что действительно интересное. Печатная плата NVIDIA HGX B200 на стенде Ingrasys. Ingrasys — это подразделение Foxconn, которое, возможно, также принимает активное участие в сборке GB200 NVL72. На стенде компании на Computex 2024 была представлена плата NVIDIA HGX B200 без радиатора, что указывает на значительные конструктивные изменения. Количество чипов NVIDIA NVLink Switch (ранее назывались "NVSwitch") уменьшили с четырёх до двух и переместили на базовую плату HGX.
Изменения в чипах NVIDIA NVLink для платформы HGX B200
Небольшое отступление. Начну историю о платах на 8-GPU от NVIDIA с поколения P100/ V100. В том поколении на 8-канальной базе SXM были установлены PCIe-коммутаторы. Между GPU был свитч NVLink, но коммутаторы были PCIe. Когда мы собирали DeepLearning12 в 2018 году, нам пришлось устанавливать собственные радиаторы, а базовую плату произвела компания Gigabyte.
DeepLearning12 Half Heatsinks Installed 800
Сборка DeepLearning12 стоила немало. Например, нам пришлось приобрести driver torque стоимостью $350 (примечание переводчика: специальный динамометрический ключ, который позволяет точно контролировать усилие, прикладываемое к крепежу), чтобы избежать повреждения GPU NVIDIA P100. Я начал устанавливать их в дата-центре, и один из наших добрых читателей, который работал над исследовательским кластером Baidu AI в том же дата-центре, предупредил меня, что GPU можно повредить, если крутящий момент будет неправильным. Я слышал неудачную историю, когда HPE повредила несколько GPU поколения V100 из-за неправильного крутящего момента / толщины термопасты.
Одним из следующих значительных достижений стала плата NVIDIA HGX-2. Вместо того чтобы позволять партнерам по производству плат делать базовые платы и затем устанавливать системы охлаждения, NVIDIA сделала всё это в виде прединтегрированного решения со своими NVLink Switch чипами, которые тогда назывались «NVSwitch». Здесь вы можете увидеть относительно небольшие радиаторы, необходимые в эпоху NVIDIA V100.
Радиатор для платы Inspur NF5488M5 HGX 2
В эпоху NVIDIA A100 радиаторы NVLink Switch/ NVSwitch стали больше, но вся платформа HGX A100 была создана NVIDIA и отправлялась поставщикам в собранном виде. Обратите внимание, мы рассматриваем 8-GPU базовую плату, а не 4-GPU базовую плату "Redstone", которую мы рассматривали в таких системах, как Dell EMC PowerEdge XE8545.
Inspur NF5488A5 NVIDIA HGX A100 8 GPU Assembly NVSwitch Heatsinks To A100
В поколении H100 воздуховоды вокруг коммутаторов NVLink и графических процессоров стали лучше, но, как вы видите, четыре свитча NVLink находятся на одном конце базовой платы HGX H100.
ASUS ESC N8A E12 NVIDIA HGX H100 3
Теперь о том, что мы увидели на стенде Ingrasys на выставке Computex 2024. Во-первых, там была представлена базовая плата NVIDIA HGX H200.
NVIDIA HGX H200 Baseboard Zoom Out
Судя по всему, она имеет тот же дизайн, что и базовая плата NVIDIA HGX H100 8-GPU с одновременным подключением коммутаторов NVLink.
NVIDIA HGX H200 Baseboard
На выставке мы увидели платформу NVIDIA HGX B100 с 8 GPU и ещё большим количеством брендинга NVIDIA.
NVIDIA HGX B100 With Heatsinks
Для сравнения — вот та же платформа HGX B100 на момент запуска.
NVIDIA Blackwell HGX B100
Следует отметить, что рядом с краевыми разъемами установлены PCIe ретаймеры, а не NVLink Switch.
Примечание переводчика: PCIe ретаймеры — это специализированные компоненты для улучшения сигнала PCIe. Они восстанавливают и усиливают сигнал, позволяя передавать данные на большие расстояния и с меньшими потерями.
NVIDIA HGX B100 PCIe Retimers
Хотя голой платы NVIDIA HGX B100 не существует, была плата NVIDIA HGX B200 без радиаторов. Мы спросили у NVIDIA, и конфигурация NVLink Switch должна быть такой же.
NVIDIA HGX B200 Baseboard Top Without Heatsinks
Здесь мы видим PCIe ретаймеры без радиаторов. Обычно они имеют меньшие радиаторы, так как их TDP составляет около 10-15 Вт, в зависимости от того, о чьих версиях мы говорим: от Astera Labs, Broadcom или Marvell, использующих этот типоразмер.
NVIDIA HGX B200 Baseboard PCIe Retimers
Обратите внимание, что свитчи NVLink находятся в центре платы, а не по краям. Кроме того, их на плате два, а не четыре.
NVIDIA HGX B200 Baseboard 4x GPUs And NVLink Switches
Мы обратились к NVIDIA с просьбой подтвердить, что это новые NVSwitches, и получили ответ по электронной почте: «Мы не разглашаем расположение чипов, но мы перешли от 4 чипов к 2». В то же время компания также исправила нашу терминологию, когда мы назвали эти два чипа «NVSwitches», так как «... два чипа в центре называются чипами NVLink Switch».
Хотя NVIDIA не раскрыла местоположение чипов NVLink Switch, два таких чипа находятся в центре базовой платы HGX B200, и это также было подтверждено на HGX B100.
В заключение
Микросхемы NVLink Switch стали больше, а их перемещение в центр платы, вероятно, позволило уменьшить расстояние, которое сигналы должны пройти по проводникам (трассам), что в свою очередь способствует улучшению качества и скорости передачи данных в системе. Это даёт преимущества при передаче высокоскоростных сигналов.
Кроме того, GPU NVIDIA B200 размещены группами по четыре на обеих сторонах, что, скорее всего, также сделано для дополнительного сокращения длины трасс до NVLink Switch.
NVIDIA HGX B200 Baseboard Angle Ingrasys
Было здорово увидеть это на выставке.
Автор: Патрик Кеннеди