Выберите ваш город

Сервер Dell R760 с процессором Xeon 5-го поколения и Cloudera Data Platform для задач на основе ИИ

02.11.2024
11 мин на чтение
186

Краткое описание

Cloudera — это гибридная платформа данных, созданная для абсолютной свободы выбора: любое облако, любая аналитика, любые данные. Платформа состоит из двух продуктов: Cloudera Private Cloud Base (локальная часть, развернутая на серверах Dell PowerEdge) и Cloudera Private Cloud Data Services. Эти сервисы данных предлагают контейнерные вычислительные и аналитические приложения, которые динамически масштабируются и могут обновляться независимо друг от друга. Платформа упрощает управление растущими объемами и разнообразием данных, повышая гибкость и адаптивность бизнеса за счет дезагрегации вычислительных ресурсов и ресурсов хранения при поддержке среды на основе контейнеров. Она также включает функции безопасного доступа пользователей и управления данными.

Cloudera Data Platform (CDP) diagram | Cloudera

Рисунок 1. Обзор решения Cloudera Data Platform

В документе описаны рекомендуемые конфигурации для базового кластера CDP Private Cloud Base Cluster и кластера CDP Private Cloud Data Services Cluster.

Конфигурации для Cloudera Data Platform

Dell PowerEdge R760 — это масштабируемое решение, которое остается доступным по цене. Компании, которым нужен доступный стоечный сервер, способный масштабироваться для решения задач корпоративного класса, получат значительные преимущества от этого решения.


Базовый кластер частного облака Cloudera Data Platform (CDP)


Узел Edge (1 узел) +1 Управляющий узел (рекомендуется минимум три управляющих узла)

Рабочие узлы для использования с внешней системой хранения данных (минимум три узла)

Рабочие узлы с локальным хранилищем All-Flash (минимум три узла)

Рабочие узлы с локальными HDD (минимум три узла)

Функции

Узел Edge: клиенты Hadoop, Name Node, Resource Manager, ZooKeeper

Узел данных, диспетчер узлов, рабочие нагрузки CDP DC (YARN)

Платформа

Dell PowerEdge R760

Dell PowerEdge R760

ЦПУ

2 x Intel Xeon Gold 6542Y (16 ядер, 2,8 ГГц) или лучше

2 процессора Intel Xeon Gold 6548Y+ (32 ядра, 2,5 ГГц)

Память

256 ГБ (16 x 16 ГБ DDR5-4800 МТ/с)

512 ГБ (16 x 32 ГБ DDR5 5600 MT/с [5200 MT/с])

Устройство перезагрузки

2 x 480 ГБ SATA SSD

Хранилище HDFS

2 x (до 4x) 3.2 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5

Не требуется. Используйте вместо этого внешнюю систему хранения данных.

4 x (до 8x) 3.2 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5

12 x (до 16x) 3.84 ТБ SSD SATA Read Intensive 2.5in AG Drive, 1DWPD

Хранилище быстрого кэша (Yarn)

1 x накопитель 1.6 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5 

1x накопитель 3.2 TB Enterprise NVMe Mixed Usage Gen4/Gen5 

Сетевой интерфейс

Сетевой контроллер Intel Ethernet E810-C для QSFP (двухпортовый, 100 Гбит/с)    

Таблица 1. Рекомендуемая конфигурация CDP Private Cloud Base



Кластер CDP Private Cloud Data Services (Red Hat OpenShift Kubernetes)/Embedded Container Service (ECS)


1 узел для администрирования Container Services + 1 узел Bootstrap для OpenShift

1 не HA-узел для ECS

Узлы управления для OpenShift (требуется три узла)

3 узла HA для ECS

Рабочие узлы (минимум 10 узлов для OpenShift или минимум 10 узлов для ECS)

Функции

Сервисы администрирования OpenShift

Сервисы OpenShift, службы Kubernetes

Операторы Kubernetes, рабочие нагрузки Cloudera Data Platform (CDP) Private Cloud

ЦПУ

2 x Intel Xeon Gold 6542Y (16 ядер, 2,8 ГГц) или лучше

2 процессора Intel Xeon Gold 6548Y+ (32 ядра, 2,5 ГГц)

ОЗУ

128 ГБ (16 х 8 ГБ DDR5-4800)

Стандартная конфигурация: 512 ГБ (16x 32 ГБ DDR5 5600 МТ/c [5200 MT/s])

Конфигурация с увеличенной памятью: 1024 ГБ (16 x 64 ГБ DDR5 5600 MT/с [5200 MT/с])

Устройство перезагрузки

2 x 480 ГБ SATA SSD

Адаптер хранения данных

Не требуется конфигурация All-NVMe

Хранилище (NVMe)

1 x 1,6 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5

1 x 3,2 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5

1 x 6,4 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5

Сетевой интерфейс

Сетевой контроллер Intel Ethernet E810-C для QSFP (двухпортовый, 100 Гбит/с)

Таблица 2. Рекомендуемая конфигурация частных облачных служб данных CDP

 

Серверы Dell R760

Dell PowerEdge R760xa 8SFF
CPU:
2x Intel Xeon
Silver 4410Y (12C 30M Cache 2.00 GHz)
2x Intel Xeon Silver 4410Y (12C 30M Cache 2.00 GHz)
RAM:
2x 16GB DDR5
RDIMM 4800MHz
2x 16GB DDR5 RDIMM 4800MHz
RAID:
RAID Dell H745 (4GB+BBU)
БП:
DELL 1100W Hot-Plug x2
Net:
2 port 1Gb/s
(Integrated)
2 port 1Gb/s (Integrated)
HDD:
noHDD (до 8 HDD 2.5'' SFF)
Dell PowerEdge R760xs 8SFF
CPU:
2x Intel Xeon
Silver 4410Y (12C 30M Cache 2.00 GHz)
2x Intel Xeon Silver 4410Y (12C 30M Cache 2.00 GHz)
RAM:
2x 16GB DDR5
RDIMM 4800MHz
2x 16GB DDR5 RDIMM 4800MHz
RAID:
RAID Dell H745 (4GB+BBU)
БП:
DELL 1100W Hot-Plug x2
Net:
2 port 1Gb/s
(Integrated)
2 port 1Gb/s (Integrated)
HDD:
noHDD (до 8 HDD 2.5'' SFF)
Dell PowerEdge R760 8SFF
CPU:
2x Intel Xeon
Silver 4410Y (12C 30M Cache 2.00 GHz)
2x Intel Xeon Silver 4410Y (12C 30M Cache 2.00 GHz)
RAM:
2x 16GB DDR5
RDIMM 4800MHz
2x 16GB DDR5 RDIMM 4800MHz
RAID:
RAID Dell H745 (4GB+BBU)
БП:
DELL 1100W Hot-Plug x2
Net:
2 port 1Gb/s
(Integrated)
2 port 1Gb/s (Integrated)
HDD:
noHDD (до 8 HDD 2.5'' SFF)

Протестированные конфигурации

Компания Dell Technologies оценивала потенциальные преимущества перехода с серверов PowerEdge R650 на более новые серверы PowerEdge R760 (как показано в таблице 3). Для сравнения производительности обеих моделей серверов были развернуты два кластера. Для обеспечения сопоставимости стек программного обеспечения на обоих поколениях серверов был одинаковым. Клиенты могут рассчитывать на значительные преимущества при переходе от устаревших версий CDP к новым версиям, которые работают на более современных версиях операционных систем с JDK 11 или выше. Подробности см. в  Cloudera Support Matrix — https://supportmatrix.cloudera.com/.

На двух кластерах выполнялся набор сквозных (end-to-end) конвейеров обработки данных, адаптированных к отраслевому эталону. Эти варианты использования включают в себя некоторые из наиболее широко используемых алгоритмов машинного и глубокого обучения, работающих на распределённом Spark. Каждый рабочий процесс имеет свои характеристики набора данных, как показано в таблице 4. Показателем производительности рабочего процесса является время, необходимое для обучения конкретных моделей (время обучения / Training Time), и время, необходимое для выполнения вывода с использованием модели, созданной в процессе обучения (время обслуживания / Serving Time).

Рисунок 2. Обзор архитектуры решения для протестированных конфигураций



PowerEdge R650 с процессором Intel Xeon 3-го поколения

PowerEdge R760 с процессором Intel Xeon 5-го поколения

Количество узлов

1 управляющий узел + 3 рабочих

1 управляющий узел + 3 рабочих

Система

PowerEdge R650

PowerEdge R760

Процессор (ЦПУ)

Процессор Intel Xeon Gold 6348 с тактовой частотой 2,60 ГГц

INTEL XEON Gold 6548Y+ 2.50GHz

Количество ЦПУ на узле

2

2

Ядер на сокет

28

32

Базовая частота

2.6 ГГц

2.5 ГГц

Максимальная частота всех ядер

3.5 ГГц

4.1 ГГц

Максимальная турбочастота

3.4 ГГц

3.5 ГГц

Общее количество ядер

56

64

Установленная память на узле

1024 ГБ (16x64 ГБ DDR4 2933 MT/с [2933 MT/с])

1024 ГБ (16x64 ГБ 5200 МТ/с [5200 МТ/с])

Сетевой адаптер (NIC)

Ethernet-контроллер Intel E810-C для QSFP

Ethernet-контроллер Intel E810-C для QSFP

Хранилище на узле

4x Dell Ent NVMe P5600 MU 3.2 ТБ для HDFS, 1x 900 ГБ DELL BOSS VD

4x Dell Ent NVMe P5600 MU 3.2 ТБ для HDFS, 2x Dell Ent NVMe CM6 MU 3.2 ТБ

Операционная система

CentOS 7.9

CentOS 7.9

Рабочая нагрузка

Все случаи использования в ритейле

Все случаи использования в ритейле

Распределение Hadoop

Платформа данных Cloudera Частное облако База 7.1.8

Платформа данных Cloudera Частное облако База 7.1.8

Ява

Cloudera OpenJDK 1.8

Cloudera OpenJDK 1.8

Дополнительное ПО

Spark v2.4, Python v3.7, Хоровод v0.25, TensorFlow v2.9.1

Spark v2.4, Python v3.7, Хоровод v0.25, TensorFlow v2.9.1

Общий размер набора данных

1 Терабайт

1 Терабайт    

Таблица 3. Тестовая конфигурация для CDP Private Cloud Data Services


Сценарий использования

Описание

Класс

Data

Алгоритм

Сегментация клиентов

Найдите сегменты клиентов на основе их поведения. Кластеризация/сегментация клиентов на основе показателей доходности (частота возвратов, коэффициент доходности/заказа…) и покупательского поведения (частота покупок, давность покупок…).

Кластеризация

Числовые

К-средние

Транскрипция звонков

Точная транскрибация аудиозаписей разговоров клиентов в тексте.

Классификация

Аудио

RNN

Прогнозирование продаж

Прогнозировать еженедельные продажи для каждого отдела и каждого магазина в розничной сети с несколькими магазинами на основе ограниченной истории данных по продажам.

Regressia

Числовые

Holt-Winters

Обнаружение спама

Найдите комментарии, отзывы или описания товаров в розничном бизнесе со спамом. Задача — определить отзывы, которые являются спамом.

Классификация

Текст

Naïve Bayes

Предсказание отказов оборудования

Прогнозировать неизбежный отказ оборудования на основе реальных событий оборудования.

Классификация

Числовые

Метод опорных векторов

Рекомендации по продуктам

На основе ранее купленных продуктов рекомендуйте товары, которые также могут заинтересовать покупателя. Эти рекомендации находятся путем сравнения клиентов (по их продуктам) и/или продуктов (по их клиентам).

Рекомендация

Числовые

Коллаборативная фильтрация

Классификация посещений

Классификация категорий и типовых посещений на основе данных о текущих покупках клиентов.

Классификация

Числовые

Градиентный бустинг

Распознавание лиц

Точное распознавание клиентов.

Классификация

Изображение

CNN + Логистическая регрессия

Обнаружение мошенничества

Определить, является ли финансовая транзакция мошеннической или нет.

Классификация

Числовые

Логистическая регрессия    

Таблица 4. Описание случаев использования II


На рисунке 2 показано, что платформа Dell PowerEdge, оснащенная процессорами Intel Xeon Scalable 5-го поколения, обеспечивает прирост производительности до 60 % по сравнению с сервером Dell PowerEdge с процессорами Intel Xeon Scalable 3-го поколения. Разные варианты использования демонстрируют разные результаты в зависимости от особенностей реализации, характеристик времени выполнения и требований к вычислениям, которые нагружают различные компоненты системы на разных этапах обработки данных. Такие сценарии использования, как сегментация клиентов с помощью K-средних из категории классического машинного обучения и расшифровка звонков из категории глубокого обучения, смогли в полной мере воспользоваться преимуществами новых возможностей процессоров благодаря модулям памяти с более высокой пропускной способностью и производительностью.

Рисунок 3. Производительность обучения на примере использования ИИ на Dell PowerEdge R760

Рисунок 4. Производительность обслуживания примеров использования ИИ на Dell PowerEdge R760

Заключение 

Платформа Cloudera Data Platform, развернутая на Dell PowerEdge R760, позволяет ускорить, повысить эффективность и масштабируемость рабочих нагрузок машинного обучения. Существенный прирост производительности (до 55 %) наблюдается при обучении на 1-терабайтном наборе данных с использованием некоторых из наиболее популярных алгоритмов ИИ. Также наблюдается значительный прирост производительности (до 60 %) при получении выводов из 1-терабайтного набора данных, развернутого на распределенном стеке Cloudera.

Использование Cloudera Data Platform на новейших серверах Dell PowerEdge, оснащенных процессорами Intel Xeon Scalable пятого поколения, позволяет повысить производительность центров обработки данных и удовлетворить растущие корпоративные рабочие нагрузки в области машинного обучения, ускорить выход на рынок и сократить общую стоимость владения. Разделение систем хранения и вычислений позволяет независимо масштабировать каждую из них в соответствии с потребностями пользователей, ростом данных или моделями использования — это ключевое преимущество Cloudera Data Platform.

Вы можете ожидать дополнительных улучшений при модернизации своей экосистемы управления данными. Платформа Cloudera также совершенствовалась с течением времени, предлагая следующие преимущества через частные облачные службы данных CDP:

  • Упрощенная мультиарендность и изоляция: контейнерное развертывание приложений в CDP Private Cloud гарантирует, что каждое приложение достаточно изолированно и может работать независимо от других на той же инфраструктуре Kubernetes, чтобы исключить нехватку ресурсов.

  • Упрощенное развертывание приложений: CDP Private Cloud обеспечивает более быстрое развертывание приложений с общим хранилищем данных по сравнению с монолитными кластерами, где для каждого отдельного приложения потребовались бы отдельные копии данных безопасности и управления.

  • Более эффективное использование инфраструктуры: подобно CDP Public Cloud, CDP Private Cloud позволяет предоставлять ресурсы в режиме реального времени при развертывании приложений. Кроме того, возможность масштабирования или приостановки приложений по мере необходимости в CDP Private Cloud обеспечивает оптимальное использование локальной инфраструктуры.

Современная платформа Cloudera Data Platform позволяет превратить любые данные в топливо для двигателя цифровой трансформации благодаря современным архитектурам данных петабайтного масштаба, сетям данных и открытым озерам данных на базе Apache Iceberg.

Источник.


Нужна помощь в подборе?

Автор

СЕРВЕР МОЛЛ

Поделиться
Комментарии
(0)
Ещё не добавлено ни одного комментария
Написать комментарий
Поля, отмеченные *, обязательны для заполнения

Больше статей

Подписаться на новости

Нажимая кнопку «Подписаться», я даю согласие
на обработку и хранение персональных данных и принимаю соглашение
icon-recall
Отправить ТЗ
client consultations icon-delivery discount icon-facebook franchise icon-google_plus it-solutions icon-jivosite icon-menu icon-up icon-message payment icon-recall shops-local shops-network icon-solutions icon-support tasks icon-twitter Group 8 icon-user icon-viber icon-vk icon-watsup icon-watsup-2
Мы используем файлы 'cookie', чтобы обеспечить максимальное удобство пользователям.