
Последние тесты MLPerf от MLCommons подтверждают доминирование Nvidia в AI-инференсе благодаря новой архитектуре Blackwell, в то время как AMD с GPU Instinct MI325X приближается к производительности Nvidia H200. Тесты, сравнивающие эффективность машинного обучения на разном оборудовании, показывают, что хотя Nvidia сохраняет лидерство, AMD сокращает разрыв — особенно в тестах с языковой моделью Llama2 70B.
Чтобы успевать за стремительным развитием ИИ, MLPerf в этом году добавил три новых теста, увеличив их общее число до 11. Среди них:
-
Llama2-70B Interactive — более строгая версия существующего теста, требующая от систем генерации минимум 25 токенов в секунду и ответа менее чем за 450 мс, чтобы имитировать работу чат-бота в реальном времени.
-
Llama3.1 405B — более продвинутая модель с контекстным окном в 128 000 токенов (в 30 раз больше, чем у Llama2 70B), предназначенная для тестирования сложных логических задач.
-
RGAT (Graph Attention Network) — тест для классификации взаимосвязей в больших наборах данных, например в научных статьях.
Blackwell B200 превосходит Hopper, AMD MI325X приближается к H200
GPU Nvidia Blackwell B200 показал наилучшие результаты - на 36% больше высокоскоростной памяти (HBM), чем H200, и поддержка 4-битных вычислений (против 8-битных у Hopper), что ускоряет работу ИИ.
В тестах:
-
Система Supermicro с 8× B200 выдала в 4 раза больше токенов в секунду, чем 8× H200 (Cisco) в тесте Llama3.1 405B.
-
Та же система оказалась в 3 раза быстрее лучшей конфигурации H200 в Llama2-70B Interactive.
-
Nvidia использовала комбинацию своих GPU Blackwell и CPU Grace под названием GB200, чтобы продемонстрировать, насколько эффективно её технология NVL72 может объединять несколько серверов в одной стойке, заставляя их работать как один гигантский GPU. В итоге, связка продемонстрировала результат в 869 200 токенов/сек на Llama2 70B. Для сравнения, самая быстрая система в этом раунде тестов MLPerf — сервер Nvidia B200 — выдавала 98 443 токена в секунду.
AMD Instinct MI325X, улучшенная версия MI300, получила 256 ГБ HBM (+33%) и пропускную способность 6 ТБ/с (+13%). При той же архитектуре оптимизация ПО позволила увеличить скорость инференса DeepSeek-R1 в 8 раз.
В тестах:
-
Система с 8× MI325X отстала от H200 всего на 3-7% в Llama2 70B.
-
В генерации изображений разница составила менее 10%.
-
Партнёр Mangoboost добился ускорения в 4 раза, распределив нагрузку Llama2 70B на четыре системы.
Intel Xeon 6 прогрессирует, но всё ещё отстаёт от GPU
Процессоры Intel Xeon 6 (ранее Granite Rapids, 3 нм) показали рост, но остаются слабее GPU:
-
Двухпроцессорная система Xeon 6 выдала 40 285 кадров/сек в распознавании изображений — примерно треть скорости в сравнении со связкой из двух H100.
-
По сравнению с Xeon 5 (2024) новые чипы дают +80% в распознавании и ещё больший прирост в детекции объектов.
-
Если сравнивать с Xeon 3 (2021), Intel увеличила производительность ResNet в 11 раз.
При этом, AI-ускоритель Gaudi 3 не участвовал в тестах MLPerf, а новый CEO Лип-Бу Тан на конференции Intel Vision 2025 признал: «Я недоволен нашей текущей позицией… Мы работаем над конкурентоспособной системой».
Google TPU v6e демонстрирует рост
Google TPU (Tensor Processing Unit) v6e тестировался только в генерации изображений, где система с 4 TPU показала 5,48 запросов/сек — в 2,5 раза быстрее TPU v5e (2024) и примерно на уровне системы Lenovo с H100.
Nvidia лидирует, AMD догоняет, Intel отстаёт
Blackwell B200 укрепляет лидерство Nvidia, в то время как AMD MI325X становится серьёзным конкурентом H200. Intel же, несмотря на прогресс CPU, пока не может угнаться за GPU в AI. По мере роста моделей ИИ ключевыми факторами станут объём памяти и эффективность — области, где Blackwell и Instinct вне конкуренции.