Привет!
Статей про выбор систем хранения данных (далее СХД) много, но толковых днём с факелом не сыщешь.
Часть информации сильно устарела, везде обрывки информации: чтобы найти утраченный ковчег разобраться, нужно прочесть штук 10 статей, желательно на английском, а потом на практике пройти все круги ада и стадии принятия неизбежного:
-
Отрицание: "Выбор СХД не может быть таким сложными. Это же просто коробки для дисков!"
-
Гнев: "Почему все так запутано?! Почему производители не могут сделать простые решения, как Apple?! АЛЁ!"
-
Торг: "Может, если я выберу самое дорогое хранилище, оно будет работать без сбоев и проблем?"
-
Депрессия: "Я никогда не разберусь в этом всем."
-
Принятие: "Ну что ж, системы хранения данных — это сложно, но я научусь их выбирать. Что тут у нас, статья в блоге СЕРВЕР МОЛЛ? Вот тут и найду ответ."
Когда ищешь годную статью в интернете.
Да, хорошее оборудование сложно подобрать. В довесок СХД нужно подключить и настроить на оптимальную работу. Стоит это всё недёшево, а если ошибиться в выборе или настройке, то столкнётесь с денежными и/или репутационными потерями.
Итак, чтобы избавить вас от проблем, я собрал всю актуальную на 2024 год информацию воедино + приправил опытом инженера, который много лет работает с серверным оборудованием и ПО (программным обеспечением).
Присаживайтесь, заваривайте чай, кофе, нарезайте бутерброды с колбаской — и начнём :)
СХД для бизнеса: что это и какая связь с потребностями организации
СХД (системы хранения данных) — это большие библиотеки для компьютерных данных. Если жёсткий диск в ПК — это книжный шкаф, то СХД — это архив.
В английском языке их называют “data storage systems" или просто "storage systems", а в русском бывает путаница, так как СХД можно расшифровать как “сеть хранения данных”, а это уже совсем другая история. Поэтому условимся, что будем употреблять в меру в значении “система хранения данных”.
Теперь техническое определение СХД — это специализированные устройства (по сути серверы) или комплексы устройств (много серверов), которые выполняют функции хранения, резервирования, восстановления, управления и распределения большого объёма данных.
Если сравнивать с обычными потребительскими компьютерами, то СХД выдают огромную скорость доступа, высочайшую надёжность и безопасность данных. Чаще всего СХД можно найти в корпоративных сетях и центрах обработки данных, где необходим совместный доступ к информации для сотен, тысяч и миллионов пользователей и приложений.
Правильный выбор СХД критически влияет на эффективность всей IT-инфраструктуры, а значит на бизнес-процессы и рентабельность.
Пару слов об архитектуре СХД.
В основе многих СХД лежит принцип избыточности — важные элементы дублируются и используются либо в режиме active-standby (при сбое одного элемента в ход идёт запасной, без каких-либо простоев), либо в active-active (нагрузка распределяется, износ меньше, доступность больше).
Это как несколько колёс на грузовиках на одной оси — пробил шину на ходу, а всё равно едешь.
-
Дисковые контроллеры и кэширование: Большинство СХД использует не один, а несколько контроллеров с кэш-памятью. Это временное хранилище (энергозависимое), в котором сохраняются часто запрашиваемые данные, что позволяет ускорить доступ к ним. Как понимаете, если контроллеров несколько, система продолжит работать даже при отказе одного из них.
-
Диски: Они часто объединены в RAID-массивы (Redundant Array of Independent Disks), что обеспечивает защиту данных при выходе из строя одного или нескольких накопителей.
-
Горячая замена: Многие компоненты СХД могут быть заменены на горячую, без остановки работы системы: диски, блоки питания и даже контроллеры.
В итоге, благодаря этой избыточной и сложной архитектуре, СХД обеспечивают высокую производительность и надёжность, что делает их идеальным решением для хранения критически важных данных.
Какая связь у СХД с потребностями бизнеса
Производительность СХД.
Для онлайн-магазинов или сферы услуг важна высокая скорость обработки транзакций и запросов. По статистике человек ждёт несколько секунд загрузку сайта или приложения, если не дожидается — уходит к конкурентам.
Надёжность и доступность СХД.
Банкам, интернет-магазинам или соцсетям важно, чтобы данные были доступны пользователю 24/7. Сбои или потеря данных могут привести к остановке бизнес-процессов, убыткам или репутационным рискам. Никто не хочет терять доступ к банковскому приложению или свои фоточки в запрещённограмме.
Масштабируемость СХД.
Скажем, в компании работает 10 человек. Бизнес идёт в гору — через пару лет уже 50 сотрудников. С ростом бизнеса растёт и ответственность объём данных. СХД можно легко масштабировать (добавить несколько накопителей или подключить дисковую полку), чтобы поспевать за растущим бизнес-потребностям без замены всего оборудования.
Безопасность СХД и соответствие закону.
Конфиденциальность, целостность и доступность данных — главные аспекты безопасности. Бизнес, особенно в сферах, где нужно следовать законам (например, медицинские учреждения или банки должны хранить данные в течение определенного времени и обеспечивать их защиту), нуждается в СХД с высоким уровнем защиты. У производителей СХД есть отдельные линейки с упором на безопасность, но и обычные решения могут в это.
Стоимость владения СХД.
Опытный предприниматель учитывает не только начальные вложения, но и общую стоимость владения + окупаемость: обслуживание, энергопотребление, лицензирование и др. Правильно подобранные СХД могут снизить общие расходы бизнеса. Про экономическую эффективность и окупаемость инвестиций будет дальше — подробно и с примерами.
Интеграция СХД.
Современные бизнес-среды — это сложные системы с различными приложениями и оборудованием. СХД должны легко интегрироваться в вашу IT-инфраструктуру и поддерживать используемые протоколы и стандарты.
Управление данными СХД.
Бизнесам нужны инструменты для управления данными: резервное копирование, восстановление после сбоев, дедупликация, архивация и другие. У СХД их есть.
Типы систем хранения данных
В IT-инфраструктурах в основном используют 3 типа хранилищ, но на деле их больше. Выбор, как и полагается, зависит от потребностей бизнеса и бюджета. Для наглядности сравню всё это дело в таблице.
Сравнение типов хранилищ: советы по выбору
|
Файловые хранилища (File-Based Storage) |
Блочные хранилища (Block-Based Storage) |
Объектные хранилища (Object-Based Storage) |
Когда выбирать |
Если вашей компании нужно хранилище для общего доступа к файлам, документам, изображениям или другим файлам, которые должны быть легко доступны для сотрудников. Например, для общих сетевых папок, документооборота или совместной работы над файлами. |
Если у вашей компании есть приложения, которые требуют высокой производительности, такие как базы данных или системы электронной коммерции. Также подходит для виртуализации серверов, где несколько виртуальных машин может обращаться к одному и тому же блочному хранилищу. |
Если у вашей компании большой объём неструктурированных данных (например, изображения, видео, бэкапы) и не требуется быстрый произвольный доступ к данным. Объектные хранилища также хорошо подходят для облачных решений или географически распределенных систем. |
Примеры |
NAS (Network-Attached Storage): Synology DiskStation, NetApp FAS, Western Digital My Cloud. Серверы документов, медиасерверы, шаринг файлов. |
SAN (Storage Area Network), дисковые массивы: HPE 3PAR StoreServ, Dell EMC VMAX (или PowerMax). Виртуализация, кластеризация, резервирование и восстановление данных, размещение баз данных. |
Amazon S3, Google Cloud Storage, OpenStack Swift. Хранение Big Data и аналитика, архивация, облачное хранение (соцсети), геораспределённое хранение. |
Описание |
Данные организуются в файлы и каталоги. Предоставляют доступ к данным на уровне файловой системы. |
Данные разбиваются на блоки и адресуются по их номеру. Предоставляют доступ на уровне блоков, что делает их идеальными для баз данных и дисковых систем. |
Данные хранятся в виде объектов, каждый из которых имеет уникальный идентификатор, а также метаданные. Масштабируемость и управление данными на уровне объекта. |
Применение |
Совместное использование файлов между множеством пользователей. Системы документооборота, хранилища файлов. |
Базы данных, которым требуется высокая производительность и низкая задержка. |
Хранение огромных объемов неструктурированных данных. Хранение мультимедиа, бэкапы, архивы. Облачные хранилища. |
Протоколы |
NFS (Linux), SMB/CIFS, NFS, FTP, SFTP, HTTP, WebDAV, DC, BitTorrent и др. |
iSCSI, Fibre Channel (FC), Fibre Channel over Ethernet (FCoE), ATA over Ethernet (AoE) и др. |
S3 (от Amazon), Swift (от OpenStack) и др. |
Преимущества |
Простота использования и управления, интуитивно понятный интерфейс, возможность совместного использования данных между множеством пользователей. |
Высокая производительность и низкая задержка, идеально подходит для приложений, требующих быстрого доступа к данным, например, базы данных. |
Высокая масштабируемость, поддержка географически распределенных данных, устойчивость к ошибкам (репликация и устойчивая к сбоям архитектура). |
Недостатки |
Ограничения по масштабируемости и производительности, особенно при большом объеме и разнообразии данных. |
Обычно дороже и сложнее в управлении, требует специализированного оборудования. |
Неидеально для приложений, требующих высокой производительности на блочном уровне. |
Также есть и другие типы хранилищ:
-
Гибридные системы хранения: Комбинируют характеристики блочных и файловых или блочных и объектных хранилищ.
-
In-memory хранилища, например, RAM-disk или распределенные in-memory системы, такие как Redis (Remote Dictionary Service): Данные хранятся в оперативной памяти для максимально быстрого доступа.
-
Многоуровневые системы хранения (Tiered Storage): Данные автоматически перемещаются между разными типами накопителей (например, SSD, HDD, ленточные) на основе их важности и частоты использования. Идея в том, что корпоративные данные не требуют одинаковой степени доступности/производительности.
Чтобы не хранить все данные на дорогом высокопроизводительном оборудовании, можно разместить данные на разных типах хранилищ, учитывая их важность, частоту доступа и другие критерии. SSD (Tier 0) дороже HDD (Tier 1 или Tier 2), а магнитные ленты (Tier 3) дешевле HDD в пересчёте на ГБ данных. Так и экономят, и оптимизируют производительность, разделяя данные между разными уровнями Tier.
-
Программно-определяемые хранилища (Software-Defined Storage, SDS): Это скорее подход к хранению данных, когда создание, управление и организация хранилища (абстракция) основаны на софте, а не на железе. Подход SDS позволяет абстрагировать и/или объединять различные ресурсы хранения данных (диски, SSD и облачные ресурсы) в одно централизованное управляемое хранилище.
Небольшая аналогия:
Повар — это софт; кухня, холодильники, ингредиенты и сковороды — это ресурсы хранения данных.
Традиционные системы хранения данных — вы заказали блюдо, а повар готовит его исключительно на одной конкретной сковороде с определёнными ингредиентами, которые именно для этого блюда хранятся в отдельном холодильнике. То есть всё очень негибко, ведь традиционные хранилища часто связаны с конкретным оборудованием.
SDS — повар может взять любую сковороду и ингредиенты из любого холодильника, чтобы приготовить ваше блюдо. Повар решает на основе текущих потребностей и доступности, какие ингредиенты и какая сковорода ему подходят. SDS даёт решение без привязки к конкретному оборудованию, что делает его идеальным для гетерогенных и облачных сред.
Преимущества SDS: гибкость, масштабируемость, снижение затрат на инфраструктуру и автоматизация управления ресурсами хранения.
Недостатки: стоимость обслуживания (требуются более квалифицированные специалисты и более дорогие решения), также за счёт дополнительных прослоек повышается задержка (latency) доступа к данным, так что при использовании в High-load решениях нужно быть начеку.
Советы по выбору подходящей системы хранения данных
Масштабируемость и потенциал будущего роста СХД
Каждый отсек — это накопитель в СХД.
Задача сисадмина сделать так, чтобы корпоративные данные были всегда доступны, надёжно хранились, а объём хранилища мог расширяться вместе с ростом компании.
Поиграем немного в Sim City. Представьте, что ваша компания — это растущий город. Сначала это маленькая деревня с несколькими домами и центральным водоснабжением (данными). Но со временем деревня растёт, появляются новые улицы, высотки, инфраструктура. Ваша задача — предусмотреть, чтобы этот город мог расти и развиваться. Если у вас изначально маленький резервуар с водой, то когда город превратится в мегаполис, у вас будут проблемы с водоснабжением.
Так же и с СХД. Если вы изначально выберете систему, которая не может масштабироваться, то рано или поздно вы столкнётесь с проблемами.
Масштабируемость СХД, если очень кратко, это способность системы расти и адаптироваться к увеличивающемуся объёму данных. Это не просто добавление дополнительных дисков или хранилищ — система должна обрабатывать большие объёмы данных так же эффективно, как и при малой нагрузке.
Чтобы масштабируемость была не в теории, а на деле, нужно учитывать потенциал будущего роста ещё на этапе закупки оборудования. Подумайте не только о текущих потребностях, но и о том, что будет через 5 или 10 лет. Не экономьте на возможностях системы в ущерб будущему росту. Помните, что закупка масштабируемых СХД — это инвестиция, а не просто расход. То есть оборудование окупится и сэкономит деньги в будущем, если вы всё правильно рассчитаете.
Побудьте архитектором, который планирует развитие города на десятилетия вперед, учитывая потребности жителей, инфраструктуры, транспорта и т.д. А пример того, как это сделать и как рассчитать экономическую эффективность и окупаемость (ROI) для СХД, будет в конце статьи.
Требования к производительности и пропускной способности СХД
При выборе СХД важен не только объём данных, который она может хранить, но и то, как организован доступ к этим данным. Это критично для компаний, которые работают с большим объёмом трафика или с приложениями в реальном времени.
Давайте представим, что система хранения данных — это большой водоём, а вода — это данные, которые постоянно двигаются по трубе. Если труба в город одна и небольшая, то проблемы с водоснабжением города будут — это вопрос времени.
Максимальный объём воды, который наша труба может пропускать — это и есть аналог нашей пропускной способности (MB/s) в СХД: количество данных, которое можно передать за определённое время.
Идём дальше. Количество воды, которое водозабор может отдать трубе в секунду — это производительность СХД (IOPS, количество операций ввода-вывода в секунду).
Если у СХД плохая производительность, то даже при отличной пропускной способности будут проблемы с доступом к данным.
Поясню: если у вас старый или маленький водозабор (низкая производительность), то даже при широкой трубе горожанам не будет хватать воды.
Если ваш бизнес растёт или у вас много пользователей, которые одновременно обращаются к СХД, то система должна быть готова к этому.
Требования к производительности СХД:
-
Определите требования к IOPS. Если у вас уже есть рабочая система, то можно промониторить текущий уровень нагрузки и оттолкнуться от этих данных. Но учитывайте будущие рабочие нагрузки и тип приложений, ведь СХД берут на годы вперёд.
Формула для расчета IOPS для конкретного диска (а не всей системы):
IOPS = 1000/(Seek Latency + Rotational Latency).
Точные значения задержек зависят от типа диска, его качества, количества пластин и т.д. Этот параметр можно посмотреть в технических характеристиках большинства дисков на рынке. В качестве примера я выбрал диск Seagate Cheatah 15k.7 SAS со следующими характеристиками:
— Средняя (rotational) задержка: 2,0 мс
— Среднее время поиска при чтении (latency): 3,4 мс
— Среднее время поиска при записи (latency): 3,9 мс
Если использовать задержку при чтении, то получим следующее:
1000 / 2.0+3.4 = 185 максимальных IOPS при чтении.
Но реальная цифра будет немного меньше (так как запись медленнее, чем чтение). Каждый раз считать не нужно, ориентируйтесь на общепринятые цифры:
RPM (скорость вращения, об/мин) |
IOPS |
7,200 |
80 |
10,000 |
130 |
15,000 |
180 |
SSD (твердотельные накопители без вращающихся дисков) |
2500 – 6000 |
Теперь для всей системы. Например, два диска со скоростью вращения 15 тыс. об/мин, работающие вместе, могут выдать теоретические 360 IOPS (180 + 180). Десять дисков могут выдать 1800 IOPS, а 100 дисков теоретические 18 000 IOPS.
-
Примеры рабочих нагрузок.
Базы данных: обычно нужен высокий IOPS из-за большого количества небольших операций чтения и записи. Пропускная способность тоже важна, но меньше.
Файловые серверы: если работаете с большими файлами, то нужен упор на пропускную способность, а вот требования к IOPS меньше.
Виртуализация: зависит от количества и типа виртуальных машин. Серверы виртуализации обычно требовательны и к высокому IOPS, и к хорошей пропускной способности.
Требования к пропускной способности СХД:
-
Тип рабочей нагрузки. Последовательное чтение/запись: некоторые рабочие нагрузки, например, потоковое видео или резервное копирование, требуют высокой пропускной способности для последовательного чтения или записи.
Случайное чтение/запись: базы данных и веб-серверы могут работать с большим количеством операций случайного чтения или записи.
-
Объём данных и количество пользователей. Системы с большим объёмом данных и/или пользователей могут требовать большой пропускной способности для нормальной работы.
-
Требования к задержке. Для некоторых приложений (базы данных, системы реального времени) нужна и высокая пропускная способность, и низкая задержка (время отклика).
-
Распределённые системы. Распредёленные системы могут предложить улучшенную пропускную способность по сравнению с одноплатформенными решениями.
И ещё несколько важных моментов, которые влияют на производительность и пропускную способность.
Сетевые соединения для СХД:
-
Ethernet: Обычно используют в IP-сетях, а современные версии (10 GbE, 40 GbE и даже 100 GbE) могут выдавать высочайшую пропускную способность.
-
Fibre Channel (FC): Используют для сетей хранения данных с высокой пропускной способностью и низкой задержкой.
-
InfiniBand: Используют в некоторых сценариях с высокой производительностью — суперкомпьютеры или среды HPC (высокопроизводительных вычислений).
-
SAS SAN: Фантастическая тварь, но в корпоративных средах она обитает, а потому тоже упомяну. SAS SAN — это сети на базе дискового интерфейса SAS, со специальными SAS-коммутаторами для соединения СХД и серверов. Получаем высокую пропускную способность и низкую задержку. Это нечто среднее между DAS (прямое подключенное хранилище) и сетью хранения — расширяемой и гибкой.
-
И другие: NVMe over Fabrics (NVMe-oF), Fibre Channel over Ethernet (FCoE), ATA over Ethernet (AoE), вариантов много.
Рассмотрите тип СХД (подробнее здесь):
-
SAN (Storage Area Network): Обычно использует Fibre Channel или iSCSI (поверх Ethernet) для подключения к системам хранения.
-
NAS (Network Attached Storage): Обычно использует Ethernet и протоколы файлового уровня (например, NFS или SMB/CIFS).
-
DAS (Direct Attached Storage): Подключение напрямую к серверу и, как правило, без сетевых соединений.
Типы дисков для СХД:
-
HDD (жёсткие диски): Хороши для больших объёмов данных, где высокая производительность — не основной приоритет. У них относительно небольшая цена за ГБ. Серверные HDD крайне надёжны и выдают отличную скорость в RAID-массивах. Есть много видов RAID: с разной стоимостью, интерфейсами и скоростью работы. В общем, выбор огромный.
При этом бывают разные уровни HDD:
Быстрые (SAS 15K RPM, 150-250 MB/с) — под “горячие” и “тёплые” данные.
Средние (SAS 10K RPM, 100-200 MB/с) — под “тёплые”, реже — “холодные”.
Относительно медленные (SATA, SAS 7.2K RPM, 50-150 MB/с) — под “холодные” и архивные (например, записи с видеокамер годичной давности). Также под эти цели используют ленточные библиотеки, но это другая история :)
Ранжирование от “горячих” к архивным данным идёт по следующему принципу: как часто эти данные запрашиваются и какая скорость доступа к ним нужна. И да, в бюджетных сборках под частоиспользуемые данные используют те накопители, на на которые хватило денег, а не те, которые нужны.
-
SSD (твердотельные накопители): Они в разы быстрее HDD (и дороже), у них высокая производительность и меньшее время отклика. Из минусов — сложнее прогнозировать отказ (HDD, поскольку являются механическими устройствами, чаще предупреждает заранее, мол, Хьюстон, у нас проблемы, памагити, а у SSD более вероятен внезапный сбой в электронике, хотя метрики износа тоже есть). SSD также различаются по интерфейсам подключения), что влияет на их производительность, например, SATA SSD или NVMe SSD.
-
All-Flash СХД (Системы хранения с SSD): Тип систем хранения, где установлены только твердотельные накопители (SSD) для хранения данных. All-Flash СХД дают максимальную производительность и пропускную способность, они потребляют меньше энергии, меньше шумят и выделяют меньше тепла (если сравнивать с HDD). Идеальны для требовательных приложений, где важна скорость передачи и обработки данных, минимальные задержки и быстрое время отклика при доступе к данным. Из недостатков — высокая стоимость в пересчёте на ГБ.
-
Гибридные СХД (Hybrid Storage Arrays): Гибридные СХД комбинируют HDD и SSD. Твердотельные накопители используют для хранения “горячих” данных, к которым нужен быстрый доступ (частоиспользуемые данные), а HDD для хранения больших объёмов данных (“тёплые”, “холодные” и архивные данные), где производительность не всегда на первом месте. Получаем решение, где есть место под недорогое хранение больших объёмов данных, а также место под данные с высокими требованиями к производительности СХД. Стоимость гибридных систем выше, чем у классических HDD СХД, но скорость доступа к отдельным категориям данных уступает более дорогим All-Flash СХД, плюс место на SSD меньше. Но гибридные СХД наиболее сбалансированы с точки зрения затрат и производительности.
-
HDD СХД (Системы хранения с жёсткими дисками): Классические СХД, полностью работающие на HDD. Подходят для сценариев, где высокая производительность не так критична (то же архивирование или работа с холодными данными), но если использовать производительные RAID-массивы и диски SAS 10-15k, то можно достичь приличной производительности, которой достаточно для большинства рабочих задач.
Типы СХД по используемым накопителям:
HDD СХД стоят дешевле гибридных и All-Flash решений, идеальны для недорогого, но надёжного хранения больших объёмов данных. В целом более предсказуемы в отказах, чем решения на SDD (из-за специфики технологии жёстких дисков). Но такие СХД потребляют больше электричества, выделяют больше тепла и сильнее шумят. Производительность и время отклика ниже, чем на SSD.
Интерфейсы дисков:
-
SAS/SATA: Традиционные протоколы для серверных накопителей (а SATA распространён и в обычных ПК). SAS выигрывает у SATA в скорости и надёжности, в том числе за счёт поддержки MPIO (одновременное подключение диска по разным путям), но стоит дороже.
-
NVMe: Протокол, разработанный специально для SSD, который превосходит SAS/SATA в десятки раз по пропускной способности и времени отклика. Один из самых дорогих вариантов.
-
IDE (PATA): Один из самых старых интерфейсов для подключения жёстких дисков. В своё время был стандартом в ПК, но со временем был заменён более современными интерфейсами, вроде SATA.
-
SCSI: Другой старый интерфейс, который использовали в первых серверах и рабочих станциях. В отличие от IDE, SCSI позволял подключать много устройств к одному порту. Сейчас SCSI устарел, а на замену пришли более современные варианты, вроде SAS (расшифровывается как Serial-Attached SCSI).
-
Fibre Channel (FC): Здесь нужно небольшое уточнение. FC — это высокоскоростной сетевой протокол, который можно встретить в корпоративных средах, например, в сетях хранения данных (SAN). Со временем разработали жёсткие диски, которые можно напрямую (через FC-интерфейс) подключать к СХД и серверам. Сейчас есть и более эффективные технологии, вроде NVMe over Fabrics (NVMe-oF), поэтому использование FC-дисков — редкость, почти экзотика.
RAID для СХД:
-
Технология RAID позволяет объединять несколько накопителей в один логический массив, что повышает производительность и отказоустойчивость СХД. Разные уровни RAID (например, RAID 0, 1, 5, 6, 10) дают различные сочетания производительности, отказоустойчивости и полезного дискового пространства. Выбирают под конкретные нужды и бюджет.
Кэширование в СХД:
-
СХД могут работать с кэш-памятью, чтобы оптимизировать производительность. Кэширование — это временное хранение частоиспользуемых данных на быстрых (обычно твердотельных) носителях информации. Например, в процессоре есть несколько уровней кэш-памяти (Multi-level Cache) L1, L2, L3 b и т.д., чтобы быстрее обмениваться информацией с оперативной памятью.
В СХД есть разные уровни кэширования:
1) Read-Ahead Cache (кэш предварительного чтения):
Когда система читает блок данных, СХД может прочитать и следующие блоки с расчётом на то, что они скоро понадобятся. Это уменьшает задержки на чтение.
2) Write-Back Cache (кэш с отложенной записью):
Данные записываются сначала только в кэш. Запись в память начинается, когда кэш переполнен и ему нужно место для новых данных. Операция записи считается завершенной, как только данные попадают в кэш, что ускоряет процесс. Но при таком подходе необходимо обеспечить запись в память из энергозависимого (как оперативная память) кэша при сбое питания — поэтому такие СХД часто идут с отдельными батарейками или суперконденсаторами.
Даже если пробки выбьет, батарейка (а в современных решениях — конденсатор) обеспечивает сохранение данных. За счёт батарейки данные копируются из кэша, а после устройство отключается. Если батарейка тоже выходит из строя, то кэш переключается на Write-Through, а в Write-Back доступен не будет.
3) Write-Through Cache (кэш со сквозной записью):
В этом методе кэширования данные записываются одновременно и в кэш, и на диск. Это надёжно, но медленнее, чем отложенная запись
6) Multi-level Cache:
Некоторые системы используют многоуровневое кэширование, где есть несколько уровней кэша с разной производительностью и стоимостью. Например, первый уровень использует быструю, но дорогую DRAM, а следующие уровни основаны на памяти помедленнее и подешевле.
Многоуровневая система кэша разработана для оптимизации доступа к данным: чем чаще данные требуются обработчику данных (процессору, почти как обычный CPU в компьютере), тем ближе они должны находиться к нему (в более быстром кэше). Когда обработчик запрашивает данные, он сначала проверяет L1-кэш, затем L2, затем L3 и так далее, пока не найдёт нужные данные или не обратится к основной оперативной памяти.
7) Global Cache:
Это кэш, который доступен для всех контроллеров в среде СХД. Он обеспечивает более эффективное использование ресурсов памяти по сравнению с отдельными кэшами для каждого контроллера.
8) Mirrored Cache:
Данные в кэше дублируются на другом кэше для обеспечения высокой доступности и защиты от сбоев.
Некоторые СХД используют кэш-память для повышения производительности. Кэширование может быть реализовано на уровне диска или на уровне всей системы (или даже нескольких систем). Идём дальше.
Резервирование данных и возможности аварийного восстановления СХД
Выбор подходящей системы хранения данных — это не только вопрос её производительности или масштабируемости, но и способности эффективно резервировать информацию и быстро восстанавливать её при необходимости.
Представим, что информация в вашей системе — это бесценное произведение искусства, которое выставлено в музее. Экспонаты в музее надёжно защищены, но также есть и копии этих произведений, которые выставляют вместо оригинала (да-да, не факт, что вы Апофеоз войны увидели в Третьяковке, а не искусную копию). Обычно это делают для реставрации или для защиты от кражи и порчи.
Резервирование данных — это как создание этих копий для вашего бизнеса.
Однако резервирование данных — это только половина дела. Важно уметь быстро и корректно восстанавливать данные в случае их потери или повреждения. Да, если в музее всё сгорит при пожаре, то копия картины не заменит оригинал. Но нам повезло, что мы работаем с данными — здесь резервная копия ничем не отличается.
Итак. Время и точность здесь критически важны: каждая секунда простоя может стоить компании больших денег, именно поэтому быстрое восстановление — одна из ключевых характеристик хорошей системы. И здесь вступает в игру понятия «времени восстановления» или RTO (Recovery Time Objective) и «точки восстановления» или RPO (Recovery Point Objective). RTO — это время, за которое данные должны быть восстановлены после сбоя, а RPO — это максимально допустимый промежуток времени, за который можно потерять данные.
Давайте посмотрим на проблему глазами админа. Помните я говорил, что не все данные одинаково важны? Некоторую информацию можно восстановить из еженедельных резервных копий, а другую информацию, например, финансовые транзакции банка могут требовать синхронного резервного копирования, так как за секунду происходят тысячи и миллионы транзакций.
Также стоит учесть и место, где хранятся резервные копии. Травмированные опытные сисадмины хранят несколько копий в разных физических местах по стратегии 3-2-1. Если ваши данные и их резервная копия хранятся в одном помещении, то вы рискуете потерять всё при пожаре, потопе или краже.
Неважно, насколько мощная и современная у вас СХД — она уязвима для внешних угроз, а потому без надёжных механизмов резервирования и восстановления нельзя. Особенно крупному бизнесу.
Интеграция с существующей инфраструктурой и совместимость СХД
Итак, плавно подходим к концу. Осталось ещё парочка важных моментов: интеграция с существующей инфраструктурой и совместимость.
Если вы купите СХД, которая не работает с вашими текущими программами и оборудованием, то это будет как покупка PlayStation 5 к старому кинескопному телевизору — даже подключить не получится без костылей.
С СХД такое возможно, если ваше IT-оборудование разных производителей, поколений и/или назначений. При этом для устаревшей IT-инфраструктуры очень сложно подобрать современную СХД (и раскрыть её потенциал). Придётся сидеть со своим кинескопным ТВ и PlayStation 1, пока не модернизируете всё это добро.
Оффтоп: эх, сейчас бы Crash Bandicoot на PS1, проводной геймпад и старый добрый телевизор для подзарядки воды, а не вот это вот всё.
Что сделает опытный сисадмин для совместимости и нормальной интеграции СХД? Проведёт предварительный аудит IT-инфраструктуры до покупки нового оборудования. Определит, какие технологии, стандарты и интерфейсы есть в IT-среде, а какие устарели и требуют апгрейда. Прикинет все за и против, взвесит бюджет и примет решение.
Последнее: IT-индустрия быстро меняется. Выбрав систему, которая идеально подходит сейчас, через 5-7 лет она устареет. А значит цикл обновления можно повторять, но перед этим нужно рассчитать экономическую эффективность и окупаемость инвестиций.
Экономическая эффективность и окупаемость инвестиций (ROI) в СХД
Мысленный эксперимент. Компания "Peace Data" специализируется на анализе данных для благотворительных компаний. Она собирается заменить свою старую СХД на современное и эффективное решение. Но есть важные критерии выбора: экономическая эффективность и окупаемость инвестиций (ROI).
Исходные данные:
-
Старая система стоила компании $50 000 и служила 5 лет. За это время на обслуживание и ремонт было потрачено еще $10 000.
-
Новая система будет стоить $80 000 долларов, но ожидается, что срок её службы составит не менее 8 лет, а обслуживание будет стоить всего $1 000 в год.
Как рассчитать экономическую эффективность и окупаемость (ROI) для СХД:
Я приведу простые денежные расчёты. Однако новая система подтянет уровень сервиса, скорость и надёжность системы. Можно получить не только прямую денежную выгоду, но и больше довольных клиентов, как новых (привлечение), так и старых (удержание). Да, выбор подходящей СХД влияет и это.
Расчёт экономической эффективности СХД:
-
Расчёт среднегодовых затрат на старую систему: (50 000 (начальные затраты) + 10 000 (обслуживание))/ 5 (лет) = $12 000 в год.
-
Прогноз затрат на новую систему за 8 лет: 80 000 (начальные затраты) + 1000 (обслуживание) x 8 (лет) = $88 000 за 8 лет.
-
Расчёт среднегодовых затрат на новую систему: 88 000 / 8 = $11 000 в год.
Сравнивая эти числа, "Peace Data" видит, что новая система будет стоить на $1 000 в год дешевле.
Расчет окупаемости инвестиций (ROI) для СХД:
Допустим, благодаря новой системе, компания сможет обрабатывать больше заказов и увеличит свою прибыль на $17 000 в год. И вдобавок смогла продать старую систему за $20 000. Формула: ROI = (Доход– Затраты) / Затраты х 100%.
ROI:
(17 000 (доп. прибыль) x 8 (лет) - 60 000 (стоимость новой системы после продажи старой)) / 60 000 x 100% = 126,6%
За 8 лет "Peace Data" полностью окупит дополнительные инвестиции в новую систему и получит прибыль 26,6% от вложенных средств.
Проанализировав экономическую эффективность и ROI, компания "Peace Data" купила новую СХД, учитывая не только её стоимость, но и будущие экономические выгоды.
Выводы
Не стоит идти на компромисс, выбирая дешёвую систему здесь и сейчас, которая невыгодна на длинных дистанциях.
Скупой сисадмин не тратит деньги на надёжный СХД — он тратит деньги на психотерапевтов :) Но на практике админ — это просто исполнитель, которому достаётся от разъярённых сотрудников с факелами и вилами, а деньги экономит предприниматель. Не надо так :)
Но и не переплачивайте за функции или характеристики, которые вам не нужны. Тут как раз сисадмин ваш друг. Грамотный баланс между ценой, производительностью и потребностями — вот ключ к правильному подбору СХД с хорошей окупаемостью.
Если штатного админа, который подберёт оптимальное решение, нет, то обращайтесь к менеджерам СЕРВЕР МОЛЛ. Наши ребята всё сделают за вас и отправят КП за час.