Краткое описание
Cloudera — это гибридная платформа данных, созданная для абсолютной свободы выбора: любое облако, любая аналитика, любые данные. Платформа состоит из двух продуктов: Cloudera Private Cloud Base (локальная часть, развернутая на серверах Dell PowerEdge) и Cloudera Private Cloud Data Services. Эти сервисы данных предлагают контейнерные вычислительные и аналитические приложения, которые динамически масштабируются и могут обновляться независимо друг от друга. Платформа упрощает управление растущими объемами и разнообразием данных, повышая гибкость и адаптивность бизнеса за счет дезагрегации вычислительных ресурсов и ресурсов хранения при поддержке среды на основе контейнеров. Она также включает функции безопасного доступа пользователей и управления данными.
Рисунок 1. Обзор решения Cloudera Data Platform
В документе описаны рекомендуемые конфигурации для базового кластера CDP Private Cloud Base Cluster и кластера CDP Private Cloud Data Services Cluster.
Конфигурации для Cloudera Data Platform
Dell PowerEdge R760 — это масштабируемое решение, которое остается доступным по цене. Компании, которым нужен доступный стоечный сервер, способный масштабироваться для решения задач корпоративного класса, получат значительные преимущества от этого решения.
|
Базовый кластер частного облака Cloudera Data Platform (CDP) |
|||
|
Узел Edge (1 узел) +1 Управляющий узел (рекомендуется минимум три управляющих узла) |
Рабочие узлы для использования с внешней системой хранения данных (минимум три узла) |
Рабочие узлы с локальным хранилищем All-Flash (минимум три узла) |
Рабочие узлы с локальными HDD (минимум три узла) |
Функции |
Узел Edge: клиенты Hadoop, Name Node, Resource Manager, ZooKeeper |
Узел данных, диспетчер узлов, рабочие нагрузки CDP DC (YARN) |
||
Платформа |
Dell PowerEdge R760 |
Dell PowerEdge R760 |
||
ЦПУ |
2 x Intel Xeon Gold 6542Y (16 ядер, 2,8 ГГц) или лучше |
2 процессора Intel Xeon Gold 6548Y+ (32 ядра, 2,5 ГГц) |
||
Память |
256 ГБ (16 x 16 ГБ DDR5-4800 МТ/с) |
512 ГБ (16 x 32 ГБ DDR5 5600 MT/с [5200 MT/с]) |
||
Устройство перезагрузки |
2 x 480 ГБ SATA SSD |
|||
Хранилище HDFS |
2 x (до 4x) 3.2 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5 |
Не требуется. Используйте вместо этого внешнюю систему хранения данных. |
4 x (до 8x) 3.2 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5 |
12 x (до 16x) 3.84 ТБ SSD SATA Read Intensive 2.5in AG Drive, 1DWPD |
Хранилище быстрого кэша (Yarn) |
1 x накопитель 1.6 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5 |
1x накопитель 3.2 TB Enterprise NVMe Mixed Usage Gen4/Gen5 |
||
Сетевой интерфейс |
Сетевой контроллер Intel Ethernet E810-C для QSFP (двухпортовый, 100 Гбит/с) |
Таблица 1. Рекомендуемая конфигурация CDP Private Cloud Base
|
Кластер CDP Private Cloud Data Services (Red Hat OpenShift Kubernetes)/Embedded Container Service (ECS) |
|||
|
1 узел для администрирования Container Services + 1 узел Bootstrap для OpenShift 1 не HA-узел для ECS |
Узлы управления для OpenShift (требуется три узла) 3 узла HA для ECS |
Рабочие узлы (минимум 10 узлов для OpenShift или минимум 10 узлов для ECS) |
|
Функции |
Сервисы администрирования OpenShift |
Сервисы OpenShift, службы Kubernetes |
Операторы Kubernetes, рабочие нагрузки Cloudera Data Platform (CDP) Private Cloud |
|
ЦПУ |
2 x Intel Xeon Gold 6542Y (16 ядер, 2,8 ГГц) или лучше |
2 процессора Intel Xeon Gold 6548Y+ (32 ядра, 2,5 ГГц) |
||
ОЗУ |
128 ГБ (16 х 8 ГБ DDR5-4800) |
Стандартная конфигурация: 512 ГБ (16x 32 ГБ DDR5 5600 МТ/c [5200 MT/s]) Конфигурация с увеличенной памятью: 1024 ГБ (16 x 64 ГБ DDR5 5600 MT/с [5200 MT/с]) |
||
Устройство перезагрузки |
2 x 480 ГБ SATA SSD |
|||
Адаптер хранения данных |
Не требуется конфигурация All-NVMe |
|||
Хранилище (NVMe) |
1 x 1,6 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5 |
1 x 3,2 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5 |
1 x 6,4 ТБ Enterprise NVMe Mixed Usage Gen4/Gen5 |
|
Сетевой интерфейс |
Сетевой контроллер Intel Ethernet E810-C для QSFP (двухпортовый, 100 Гбит/с) |
Таблица 2. Рекомендуемая конфигурация частных облачных служб данных CDP
Серверы Dell R760
Протестированные конфигурации
Компания Dell Technologies оценивала потенциальные преимущества перехода с серверов PowerEdge R650 на более новые серверы PowerEdge R760 (как показано в таблице 3). Для сравнения производительности обеих моделей серверов были развернуты два кластера. Для обеспечения сопоставимости стек программного обеспечения на обоих поколениях серверов был одинаковым. Клиенты могут рассчитывать на значительные преимущества при переходе от устаревших версий CDP к новым версиям, которые работают на более современных версиях операционных систем с JDK 11 или выше. Подробности см. в Cloudera Support Matrix — https://supportmatrix.cloudera.com/.
На двух кластерах выполнялся набор сквозных (end-to-end) конвейеров обработки данных, адаптированных к отраслевому эталону. Эти варианты использования включают в себя некоторые из наиболее широко используемых алгоритмов машинного и глубокого обучения, работающих на распределённом Spark. Каждый рабочий процесс имеет свои характеристики набора данных, как показано в таблице 4. Показателем производительности рабочего процесса является время, необходимое для обучения конкретных моделей (время обучения / Training Time), и время, необходимое для выполнения вывода с использованием модели, созданной в процессе обучения (время обслуживания / Serving Time).
Рисунок 2. Обзор архитектуры решения для протестированных конфигураций
|
PowerEdge R650 с процессором Intel Xeon 3-го поколения |
PowerEdge R760 с процессором Intel Xeon 5-го поколения |
Количество узлов |
1 управляющий узел + 3 рабочих |
1 управляющий узел + 3 рабочих |
Система |
PowerEdge R650 |
PowerEdge R760 |
Процессор (ЦПУ) |
Процессор Intel Xeon Gold 6348 с тактовой частотой 2,60 ГГц |
INTEL XEON Gold 6548Y+ 2.50GHz |
Количество ЦПУ на узле |
2 |
2 |
Ядер на сокет |
28 |
32 |
Базовая частота |
2.6 ГГц |
2.5 ГГц |
Максимальная частота всех ядер |
3.5 ГГц |
4.1 ГГц |
Максимальная турбочастота |
3.4 ГГц |
3.5 ГГц |
Общее количество ядер |
56 |
64 |
Установленная память на узле |
1024 ГБ (16x64 ГБ DDR4 2933 MT/с [2933 MT/с]) |
1024 ГБ (16x64 ГБ 5200 МТ/с [5200 МТ/с]) |
Сетевой адаптер (NIC) |
Ethernet-контроллер Intel E810-C для QSFP |
Ethernet-контроллер Intel E810-C для QSFP |
Хранилище на узле |
4x Dell Ent NVMe P5600 MU 3.2 ТБ для HDFS, 1x 900 ГБ DELL BOSS VD |
4x Dell Ent NVMe P5600 MU 3.2 ТБ для HDFS, 2x Dell Ent NVMe CM6 MU 3.2 ТБ |
Операционная система |
CentOS 7.9 |
CentOS 7.9 |
Рабочая нагрузка |
Все случаи использования в ритейле |
Все случаи использования в ритейле |
Распределение Hadoop |
Платформа данных Cloudera Частное облако База 7.1.8 |
Платформа данных Cloudera Частное облако База 7.1.8 |
Ява |
Cloudera OpenJDK 1.8 |
Cloudera OpenJDK 1.8 |
Дополнительное ПО |
Spark v2.4, Python v3.7, Хоровод v0.25, TensorFlow v2.9.1 |
Spark v2.4, Python v3.7, Хоровод v0.25, TensorFlow v2.9.1 |
Общий размер набора данных |
1 Терабайт |
1 Терабайт |
Таблица 3. Тестовая конфигурация для CDP Private Cloud Data Services
Сценарий использования |
Описание |
Класс |
Data |
Алгоритм |
Сегментация клиентов |
Найдите сегменты клиентов на основе их поведения. Кластеризация/сегментация клиентов на основе показателей доходности (частота возвратов, коэффициент доходности/заказа…) и покупательского поведения (частота покупок, давность покупок…). |
Кластеризация |
Числовые |
К-средние |
Транскрипция звонков |
Точная транскрибация аудиозаписей разговоров клиентов в тексте. |
Классификация |
Аудио |
RNN |
Прогнозирование продаж |
Прогнозировать еженедельные продажи для каждого отдела и каждого магазина в розничной сети с несколькими магазинами на основе ограниченной истории данных по продажам. |
Regressia |
Числовые |
Holt-Winters |
Обнаружение спама |
Найдите комментарии, отзывы или описания товаров в розничном бизнесе со спамом. Задача — определить отзывы, которые являются спамом. |
Классификация |
Текст |
Naïve Bayes |
Предсказание отказов оборудования |
Прогнозировать неизбежный отказ оборудования на основе реальных событий оборудования. |
Классификация |
Числовые |
Метод опорных векторов |
Рекомендации по продуктам |
На основе ранее купленных продуктов рекомендуйте товары, которые также могут заинтересовать покупателя. Эти рекомендации находятся путем сравнения клиентов (по их продуктам) и/или продуктов (по их клиентам). |
Рекомендация |
Числовые |
Коллаборативная фильтрация |
Классификация посещений |
Классификация категорий и типовых посещений на основе данных о текущих покупках клиентов. |
Классификация |
Числовые |
Градиентный бустинг |
Распознавание лиц |
Точное распознавание клиентов. |
Классификация |
Изображение |
CNN + Логистическая регрессия |
Обнаружение мошенничества |
Определить, является ли финансовая транзакция мошеннической или нет. |
Классификация |
Числовые |
Логистическая регрессия |
Таблица 4. Описание случаев использования II
На рисунке 2 показано, что платформа Dell PowerEdge, оснащенная процессорами Intel Xeon Scalable 5-го поколения, обеспечивает прирост производительности до 60 % по сравнению с сервером Dell PowerEdge с процессорами Intel Xeon Scalable 3-го поколения. Разные варианты использования демонстрируют разные результаты в зависимости от особенностей реализации, характеристик времени выполнения и требований к вычислениям, которые нагружают различные компоненты системы на разных этапах обработки данных. Такие сценарии использования, как сегментация клиентов с помощью K-средних из категории классического машинного обучения и расшифровка звонков из категории глубокого обучения, смогли в полной мере воспользоваться преимуществами новых возможностей процессоров благодаря модулям памяти с более высокой пропускной способностью и производительностью.
Рисунок 3. Производительность обучения на примере использования ИИ на Dell PowerEdge R760
Рисунок 4. Производительность обслуживания примеров использования ИИ на Dell PowerEdge R760
Заключение
Платформа Cloudera Data Platform, развернутая на Dell PowerEdge R760, позволяет ускорить, повысить эффективность и масштабируемость рабочих нагрузок машинного обучения. Существенный прирост производительности (до 55 %) наблюдается при обучении на 1-терабайтном наборе данных с использованием некоторых из наиболее популярных алгоритмов ИИ. Также наблюдается значительный прирост производительности (до 60 %) при получении выводов из 1-терабайтного набора данных, развернутого на распределенном стеке Cloudera.
Использование Cloudera Data Platform на новейших серверах Dell PowerEdge, оснащенных процессорами Intel Xeon Scalable пятого поколения, позволяет повысить производительность центров обработки данных и удовлетворить растущие корпоративные рабочие нагрузки в области машинного обучения, ускорить выход на рынок и сократить общую стоимость владения. Разделение систем хранения и вычислений позволяет независимо масштабировать каждую из них в соответствии с потребностями пользователей, ростом данных или моделями использования — это ключевое преимущество Cloudera Data Platform.
Вы можете ожидать дополнительных улучшений при модернизации своей экосистемы управления данными. Платформа Cloudera также совершенствовалась с течением времени, предлагая следующие преимущества через частные облачные службы данных CDP:
-
Упрощенная мультиарендность и изоляция: контейнерное развертывание приложений в CDP Private Cloud гарантирует, что каждое приложение достаточно изолированно и может работать независимо от других на той же инфраструктуре Kubernetes, чтобы исключить нехватку ресурсов.
-
Упрощенное развертывание приложений: CDP Private Cloud обеспечивает более быстрое развертывание приложений с общим хранилищем данных по сравнению с монолитными кластерами, где для каждого отдельного приложения потребовались бы отдельные копии данных безопасности и управления.
-
Более эффективное использование инфраструктуры: подобно CDP Public Cloud, CDP Private Cloud позволяет предоставлять ресурсы в режиме реального времени при развертывании приложений. Кроме того, возможность масштабирования или приостановки приложений по мере необходимости в CDP Private Cloud обеспечивает оптимальное использование локальной инфраструктуры.
Современная платформа Cloudera Data Platform позволяет превратить любые данные в топливо для двигателя цифровой трансформации благодаря современным архитектурам данных петабайтного масштаба, сетям данных и открытым озерам данных на базе Apache Iceberg.