
Когда речь заходит о роли графических процессоров (GPU) в центрах обработки данных, на первый план выходят два ключевых момента. Первый - GPU критически важны для обеспечения работы и непрерывного развития искусственного интеллекта, поскольку они обеспечивают огромные вычислительные ресурсы, необходимые для обучения ИИ и логического вывода (инференса). Именно с этим связан невероятно активный рост центров обработки данных, заполненных GPU и предназначенных для рабочих нагрузок ИИ. Второй момент - GPU стоят очень больших денег. И связано это не только с их ценой, которая зачастую может составлять десятки тысяч долларов за одно устройство, но ещё и с количеством энергии, которую потребляют GPU в процессе работы.
В совокупности эти факторы означают одно - развертывание работы ИИ может стать весьма дорогостоящим мероприятием. Тем не менее, в некоторых случаях есть способ избежать чрезмерных трат. Вместо развертывания GPU в собственных ЦОД организации могут использовать облачные GPU. Такой подход позволяет сэкономить и платить только за потребленные ресурсы GPU, что идеально подходит для бизнеса, которому требуется временный доступ к графическим процессорам - или же необходимость использования GPU носит непостоянный характер. Напротив, для организаций, которые планируют использовать GPU постоянно и в течение длительного периода, установка серверов на базе GPU в собственном ЦОД, скорее всего, будет более выгодной. Это также может дать другие преимущества, например, больший контроль над конфигурацией аппаратного обеспечения GPU. Однако, у обоих вариантов есть свои нюансы, и далее мы подробнее разберемся, в каких ситуациях использование облачных GPU как услуги (GPU-as-a-Service) перевешивает преимущества прямой покупки оборудования с GPU, а когда все обстоит ровно наоборот.
Аргументы в пользу облачных GPU
Источник изображения: NVIDIA
Исторически облако обычно не считалось хорошим решением для нагрузок, требующих специализированного оборудования, такого как GPU, даже если оно было нужно лишь изредка. Хотя крупные известные облачные сервисы, такие как Amazon Web Services (AWS) и Microsoft Azure, предлагают облачные серверные инстансы с GPU уже более десяти лет, ранее они были недорогими и не особенно гибкими. Стандартной рекомендацией для бизнесов, которым требовались GPU для задач, не связанных с ИИ (например, рендеринг видео), было развертывать их в собственном частном ЦОД.
Но, очевидно, что бурное развитие искусственного интеллекта и рост связанных с ним нагрузок сильно изменили подход, по двум главным причинам. Первая - ИИ требует беспрецедентного уровня вычислительных ресурсов на базе GPU, такого большого, что покупка GPU для развертывания в частном ЦОД может стать неосуществимой задачей. Установить серверы с GPU локально - это вполне разумный выбор, если вам нужно несколько десятков таких серверов. Однако, это начинает терять смысл, если речь идет о сотнях и тысячах.
Другое важное изменение заключается в том, что облачные предложения с GPU стали куда более гибкими. Вместо выбора всего из нескольких инстансов с GPU клиенты облачных платформ, таких как AWS, могут выбирать из десятков вариантов. Цены на инстансы также снизились по сравнению с другими типами облачных серверов. И помимо крупных облачных сервисов, на рынке появилось множество более мелких провайдеров, которые также готовы предложить различные опции GPU как услуги (GPU-as-a-Service).
Если вам необходимо большое количество GPU, то обращение к облачным решениям вместо покупки собственных графических процессоров зачастую будет оправданным. Это простой и гибкий способ решить вопрос с обеспечением мощностей для актуальных сегодня ИИ-задач.
Когда строить собственный ЦОД с GPU-серверами
Источник изображения: ASUS
Однако, тот факт, что облачные GPU могут быть удобным вариантом для множества организаций, не делает их идеальным выбором в любых обстоятельствах. В определенных ситуациях, бизнесу будет выгоднее и логичнее приобретать собственные GPU для работы с ИИ (или другими задачами, требующими высокопроизводительных решений) и развертывать их локально или в частном дата-цетре. К таким случаям относятся следующие обстоятельства:
-
ИИ-нагрузки непосредственно связаны с конфиденциальными данными, и организация хочет держать данные вне инфраструктуры третьих сторон.
-
Приоритетом является доступ к самым новейшим GPU, которые не всегда доступны у облачных провайдеров.
-
Организации требуется полный контроль над своим оборудованием с GPU. Хотя в облаке доступны "bare metal" инстансы с GPU (физические серверы), варианты конфигурации, доступные клиентам, все еще ограничены, тогда как собственный сервер вы можете сконфигурировать любым желаемым образом.
-
Проблемы с задержкой (latency) в сетях могут вызвать проблемы с производительностью, если будет необходимо перемещать данные между облачной инфраструктурой и внешними ЦОД или клиентскими устройствами. Задержка может стать проблемой для приложений на базе ИИ, требующих работы в реальном времени - например, к таким относится аналитика видео на стримингах.
-
Затраты на исходящий трафик (egress costs), связанные с перемещением данных из облачных серверов ИИ, сделают облако менее выгодным с экономической точки зрения.
Эти факторы могут сделать развертывание серверов с GPU в собственном ЦОД более предпочтительным подходом, даже если нагрузки, связанные с работой ИИ, не требуют постоянного доступа к GPU.
Гибридный вариант использования GPU
Стоит также отметить, что нет веских причин, по которым бизнес не мог бы использовать оба подхода одновременно. Вполне возможно диверсифицировать нагрузки на инфраструктуру, связанные с ИИ, используя облачные решения и в то же время устанавливая серверы с GPU в дата-центрах.
Гибридная стратегия использования GPU часто хорошо работает для организаций, чьи потребности в использовании графических процессоров разнятся - так, например, может иметь смысл использовать облачные GPU для обучения ИИ, поскольку обучение является не постоянным, а периодическим процессом, или же для нагрузок ИИ, не предполагающих обработку конфиденциальных данных. При этом, для постоянных и беспрерывных рабочих нагрузок, а также для задач, которые подпадают под более строгие требования соответствия (комплаенс) или безопасности стоит выбрать именно собственные GPU-серверы.