
Компания Kioxia разработала прототип высокопроизводительного модуля флеш-памяти объемом 5 ТБ с пропускной способностью 64 ГБ/с. По сути, это память на основе NAND для графических процессоров. High Bandwidth Flash (HBF, высокоскоростная флеш-память) предлагает в 8–16 раз большую емкость, чем HBM на основе DRAM, при этом скорость и энергоэффективность HBF позволяют эффективно работать с большими наборами данных ИИ при меньшем энергопотреблении. Давайте подробнее разберем все, что известно о новом прототипе от Kioxia на данный момент.
Технологические преимущества новой разработки Kioxia
Когда вы слышите слова «флеш-накопитель», скорее всего, в первую очередь вы думаете о емкости, а уже затем — о скорости. Даже самые быстрые на сегодняшний день SSD PCIe 5.0 — накопители класса 14 ГБ/с, такие как Samsung 9100 Pro, — не способны приблизиться к требованиями пропускной способности современных GPU и CPU. Новый прототип от Kioxia стремится перевернуть это представление с ног на голову: один флеш-модуль обеспечивает емкость 5 ТБ и устойчивую пропускную способность 64 ГБ/с по интерфейсу PCIe 6.0. Для понимания масштаба: это более чем в 4 раза быстрее, чем самые скоростные коммерческие накопители PCIe 5.0.
Ключевым моментом является масштабируемость системы; вместо одного центрального контроллера, пытающегося управлять всем массивом NAND (что быстро становится узким местом по мере добавления чипов и каналов), Kioxia оснащает каждый модуль собственным контроллером. Этот контроллер расположен прямо рядом со своим NAND и соединяется с другими по цепочке (daisy-chain). Это уменьшает перекрестные помехи и устраняет проблему широких параллельных шин, управление которыми становится все более трудной задачей с ростом скоростей. Вместо этого данные передаются последовательно, причем каждое соединение передает 128 Гбит/с с использованием сигналов PAM4.
Источник изображений: Kioxia
PAM4 (импульсно-амплитудная модуляция с четырьмя уровнями) удваивает скорость передачи данных по сравнению с традиционным кодированием NRZ, но она также и более чувствительна к помехам и битовым ошибкам. Для поддержания целостности сигнала Kioxia использует эквалайзинг и коррекцию ошибок, которые аналогичны тем, что требует стандарт PCIe 6.0.
Это помогает объяснить переход на PCIe 6.0 в качестве интерфейса хоста, поскольку 16 линий PCIe 6.0 теоретически могут обрабатывать около 128 ГБ/с в двунаправленном режиме. Целевой показатель Kioxia в 64 ГБ/с составляет чуть менее половины этого лимита, оставляя достаточный запас для коррекции ошибок и других задач без полной загрузки шины.
Источник изображений: Kioxia
Возможные ограничения и потенциальные возможности флеш-модуля
Как можно было предположить, ключевым вопросом становится задержка. Память HBM работает с задержками в сотни наносекунд. NAND-память — даже с продвинутыми контроллерами — все еще обращается к данным за десятки микросекунд, что на порядок медленнее. Kioxia стремится компенсировать это с помощью агрессивного префетчинга и кэширования на уровне контроллера. Это не делает NAND такой же быстрой, как DRAM, но заметно сужает разрыв, в том числе для того, чтобы при потоковой передаче наборов данных пропускная способность имела большее значение, чем чистая задержка.
Энергопотребление — еще один важнейший фактор, поскольку Kioxia заявляет об уровне потребления менее 40 Вт на модуль. Несомненно, это звучит впечатляюще по сравнению с традиционными SSD Gen5, которые могут потреблять до 15 Вт для достижения ~14 ГБ/с. С точки зрения ГБ/с на Ватт этот модуль значительно эффективнее. Это важно, потому что в ситуации, когда речь идет о масштабной стойке в несколько сотен накопителей, такая разница в энергопотреблении может сыграть заметную роль. Центры обработки данных, поддерживающие работу ИИ, уже потребляют огромное количество энергии из-за кластеров на H100, и им просто необходима экономия каждого возможного ватта на уровне систем хранения.
Эти модули также открывают новые возможности для проектирования систем. Благодаря контроллерам, соединенным по цепочке, производительность масштабируется линейно с увеличением емкости. Полный набор из 16 модулей может достигать 80 ТБ флеш-памяти и пропускной способности свыше 1 ТБ/с. Это позволяет рассматривать хранилище скорее как память, расположенную непосредственно на шине PCIe вместе с ускорителями.
Источник изображения: Micron
Можно ли говорить о дорожной карте?
На самом деле, это не первый случай, когда Kioxia стремится покорить область высокоскоростной флеш-памяти. Компания уже экспериментировала с SSD на PCIe с удлиненным соединением и прямыми связями между GPU и флеш-памятью (peer-to-peer), включая исследования (совместно с NVIDIA) накопителей XL-Flash c производительностью 10 миллионов операций ввода-вывода в секунду (IOPS). Если объединить этот факт с новостями о том, что компания планирует расширение производственных мощностей в Японии (которое также обусловлено ожиданием, что спрос на флеш-память почти утроится в ближайшие 2-3 года), становится ясно, что этот прототип точно не назовешь разовой акцией. С куда большей вероятностью, это намек на дорожную карту, согласно которой NAND будет не только больше по емкости, но ещё и быстрее — настолько быстрее, чтобы располагаться ближе к вычислительному стеку.
Заключение
Пока что модуль остается на стадии прототипа, и есть много вопросов без ответов: как он справляется со различными случайными нагрузками, как масштабирование коррекции ошибок (ECC) влияет на задержку и какова реальная пропускная способность в условиях обучения ИИ. Однако более важный посыл заключается в том, что флеш-память вырывается из своей роли медленного, глубокого хранилища и поднимается по иерархии. Если видение Kioxia (изложенное в их пресс-релизе) оправдается, следующее поколение центров обработки данных окажется в реальности, где модули хранения данных будут конкурировать за право хвастаться своей пропускной способностью с самими GPU.