
На этой неделе AMD представила 7-ю версию своего программного стека ROCm (Radeon Open Compute) для ускоренных вычислений, которая существенно улучшает производительность ИИ-вывода (inference) на существующем оборудовании по сравнению с ROCm 6, а также добавляет поддержку распределённых рабочих нагрузок и расширяет совместимость до Windows и графических процессоров Radeon. Кроме того, ROCm 7 добавляет поддержку низкоточных форматов FP4 и FP6 для новейших процессоров Instinct MI350X/MI355X. Подробнее рассказываем обо всех изменениях и нововведениях далее.
Поддержка Windows и улучшенная производительность
Самое значительное изменение, которое приносит ROCm 7 для клиентских ПК — это расширение поддержки ROCm на Windows и графические процессоры Radeon, что позволяет использовать дискретные и интегрированные GPU для ИИ-задач - но только на ПК на базе Ryzen. Начиная со второй половины 2025 года разработчики смогут создавать и запускать ИИ-программы на настольных ПК и ноутбуках Ryzen с графическими процессорами Radeon, что может стать важным преимуществом для тех, кто хочет запускать более продвинутые языковые модели ИИ (LLM) локально.
Источник изображений: AMD
Одной из причин слабых позиций AMD на рынке аппаратного обеспечения для ИИ является несовершенство программного обеспечения. Но похоже, ситуация улучшается: по данным AMD, Instinct MI300X с ROCm 7 обеспечивает прирост производительности инференса более чем в 3,5 раза, и в три раза большую пропускную способность при обучении моделей в сравнении с ROCm 6. Компания провела тесты на системе с восемью ускорителями Instinct MI300X, запуская модели Llama 3.1-70B, Qwen 72B и Deepseek-R1 с размерами батча (batch size) от 1 до 256, и единственным отличием было использование ROCm 7 вместо ROCm 6. AMD заявляет, что такие улучшения стали возможны благодаря оптимизации использования GPU и перемещения данных, хотя более подробных деталей компания пока не приводит.
Источник изображений: AMD
Поддержка распределенного инференса и низкоточных типов данных
Новый релиз также вводит поддержку распределённого вывода (distributed inference) за счёт интеграции с открытыми фреймворками, такими как vLLM, SGLang и llm-d. AMD сотрудничала с этими партнёрами для создания общих компонентов и примитивов, позволяющих ПО эффективно масштабироваться на нескольких GPU.
Кроме того, ROCm 7 добавляет поддержку низкоточных типов данных, таких как FP4 и FP6, что принесёт ощутимые улучшения для новейших процессоров Instinct MI350X/MI355X на базе CDNA 4, а также для предстоящих продуктов на базе CDNA 5 — MI400X и процессоров следующего поколения серии Instinct MI500X, которые придут на смену серии Instinct MI300 в 2026 и 2027 годах соответственно.
Enterprise AI MLOps и Developer Cloud
Помимо ROCm 7, AMD также представила свое корпоративное решение ROCm Enterprise AI MLOps, предназначенное для использования в бизнес-среде. Платформа предлагает инструменты для дообучения моделей с использованием отраслевых наборов данных и поддерживает интеграцию как в структурированные, так и в неструктурированные рабочие процессы. AMD заявила, что сотрудничает с партнерами экосистемы для создания эталонных реализаций (reference implementations) для таких приложений, как чат-боты и суммаризация документов, стремясь сделать оборудование AMD подходящим для быстрого развертывания в производственных средах.
И последняя, но не менее важная новость - AMD также запустила свою платформу Developer Cloud для разработчиков, предоставляющую доступ к оборудованию MI300X с конфигурациями от одной GPU MI300X с 192 ГБ памяти до восьмипроцессорных (8x GPU) установок MI300X с 1536 ГБ памяти. Для начала AMD предоставляет 25 часов бесплатного использования. Также запланирована ранняя поддержка систем на базе Instinct MI350X.