В этой статье хочу немного рассказать о внутренней кухне Сервер Молл и о том, как происходит тестирование и восстановление серверов. Постараюсь наглядно показать отличие обыкновенного
Допустим, вы решили продать сервер
Сделать это может не только организация, но и физическое лицо, обратившись в Сервер Молл (СМ) за оценкой. На Хабре уже была подробная статья о процессе покупки, поэтому расскажу о том, что происходит дальше.
По полученным в ходе телефонной беседы сведениям специалисты принимают решение о целесообразности покупки, обычно положительное. Все же, приобретение какого-нибудь ProLiant второго поколения вряд ли окажется полезным, поэтому первичная оценка перспектив железа довольно важна. Если все хорошо, то специально обученный экспедитор приезжает к продавцу, проводит визуальный осмотр сервера, проверяет явные ошибки в работе и забирает железо с собой. Покупка серверов проводится компанией по всей России.
Осмотр позволяет примерно оценить затраты на восстановление сервера: тот же крупный скол на корпусе запросто может быть вызван падением, с последующим возникновением плавающих ошибок из-за микротрещин в текстолите материнской платы. Серверы роняют вообще не часто, но зато очень метко. Сам был свидетелем перевозки тройки машин DL380 в багажнике седана, из которого одну из железок неловко извлекли. Визуально у сервера лишь отвалилось ухо и помялся уголок, но при старте мы получили ошибки по системе охлаждения и периодические перезагрузки.
Еще при осмотре сервер включают, смотрят на индикаторы самодиагностики и ошибки консоли. Если ничего критичного, то совершается сделка и машина передается далее по инстанциям.
Серверное ТО
Все новоприбывшие серверы проходят обязательный цикл тестирования и очистки. Кроме того, восстанавливаются серьезные физические дефекты, вроде погнутых монтажных «ушей».
Совсем косметические вещи, вроде царапин на металле и потертостей, остаются как есть. К слову, металл серверных систем покрыт на заводе специальным антистатическим лаком, восстановить который не так просто. Состав самого вещества точно не известен – почти как приправа в KFC, – поэтому приносим эстетику в жертву защите от статики.
При повреждении так называемых «ушей», за которые сервер удобно выдвигать из стойки, их обычно меняют на новые. В случае с пластиковыми деталями HP они просто меняются на новые, как и петли блоков питания. Монтажные салазки просто заказываются заново. При значительных повреждениях самого корпуса (глубокие и сложные вмятины, например), он просто в сборе меняется на новый.
Повреждений металлических креплений IBM за весь опыт инженеров Сервер Молл не встречалось ни разу. Видимо, широко известная «неубиваемость» систем этого производителя проявляется даже в мелочах.
К слову, время наработки на отказ для корпуса довольно велико.
Например, вот пример данных по MTBF одного из производителей:
-
Показатель самого корпуса составляет 5 000 000 часов;
-
Дисковая корзина и IMPI-модули отработают 700 000 часов;
-
Светодиоды рассчитаны на 2 000 000 часов.
Однажды поступил запрос на продажу сервера, который охлаждался табачным дымом несколько лет. Он просто стоял в серверной, забор воздуха в которую производился из соседней курилки. Ароматы продуктов горения табакосодержащей продукции ощущались уже на подходе к пациенту. Модель была актуальной, поэтому решили рискнуть. Вы когда-нибудь отмывали ровный слой табачной смолы? А инженеры Сервер Молл отмывали — один даже курить бросил. Правда, железо в продажу все же не пошло и использовалось для внутренних нужд.
После осмотра инженер снимает крышку корпуса и запускает машину, чтобы послушать звуковой фон вентиляторов, блоков питания и дисков. Некоторые кулеры не выдают никаких ошибок в систему диагностики, но их звук не оставляет никакой веры в дальнейшее будущее подшипников. Такие кулеры просто меняем на новые. Показатель MTBF для систем охлаждения Intel составляет всего 100 000 часов, поэтому замена вентиляторов на новые – обычное явление.
Не менее популярный звук – писк конденсаторов системы питания, которая до последнего светится зеленым в мониторинге. В относительно свежих серверах используются блоки питания с твердотельными конденсаторами, но модели с электролитическими элементами все еще актуальны и поэтому требуют внимательной диагностики.
Время наработки на отказ современных блоков питания может составлять 967 300 часов, если верить данным OEM-производителя Intel. В случае свистов и подозрений на неполадки весь БП меняется на новый, потому что любые работы по пайке нецелесообразны экономически и чреваты для будущего покупателя.
Свето-цифровая диагностика
Большинство современных серверов оснащены системами самодиагностики. Это могут быть LED-индикаторы на передней панели, отдельные модули с перечнем и статусом всех компонентов, просто указатель на наличие какой-либо ошибки. В любом случае, серьезные проблемы с компонентами видны сразу.
После беглого взгляда на индикаторы начинается долгая программная проверка с использованием штатных диагностических инструментов:
-
IBM Dynamic System Analysis
-
Dell Hardware Diagnostics
-
HPE Insight Diagnostics
Все эти программы запускаются локально или при помощи средств IMM, DRAC, iLO. Если диагностика не "вшита" в управляющий контроллер сервера, то просто загружаемся с фирменного диагностического диска от производителя. Полная диагностика занимает 2 – 3 часа и находит большинство проблем с памятью, процессором, диагностическим контроллером, вентиляторами, блоками питания и дисковыми контроллерами. Жесткие диски в процессе не участвуют, так как при продаже практически всегда ставятся новые.
Традиционно слабым местом системных плат являлись электролитические конденсаторы. Они вздувались, перегревались, взрывались и приводили к полной неработоспособности. При максимальном температурном режиме MTTF таких элементов составлял до 8 000 часов, что чревато внеплановым ремонтом уже через пару лет эксплуатации. Поэтому в современных серверных системах используются твердотельные конденсаторы, которых хватит на несколько "жизней" сервера. Общий MTBF материнской платы на примере Intel S1200V3RPM это подтверждает и составляет 371 523 часа.
После вдумчивой проверки сервер полностью разбирается до состояния "голый корпус и комплектующие на столе", после чего все компоненты тщательно чистятся и промываются спиртом. Спирт не вредит токопроводящим дорожкам, элементной базе и лаку материнской платы, а потому широко используется для придания платам первозданного вида. Во избежание накладных расходов и в качестве меры борьбы с пьянством, спирт используется изопропиловый.
Пристальное внимание уделяется разъемам материнской платы. В частности, инженер рассматривает через увеличительное стекло сокет процессора на предмет загнутых пинов, ведь даже одна испорченная ножка может вызвать самые непредсказуемые последствия. Не остаются без внимания слоты PCI и оперативной памяти, проверяются линки сетевых портов. В качестве "вишенки на торт" меняем батарейку BIOS, на всякий случай.
После купания сервер передают на склад, где со всех комплектующих считываются штрих-коды для внутренней складской базы. Потом железо ждет на полке своего покупателя вместе с логами тестирования и гарантийным листом, куда занесены серийные номера всех комплектующих.
И вот пришел заказ именно на этот сервер
Редко когда заказчик выбирает конфигурацию "как есть" и не хочет ничего добавить. Поэтому заказанное железо доукомплектовывают новыми дисками, процессорами, блоками питания определенной мощности, памятью и необходимыми контроллерами. После этого сервер снова передают инженерам по тестированию для предпродажной проверки.
Из инструментов используется встроенное диагностическое ПО производителя сервера и пара утилит с внешнего диска. Предпродажная проверка занимает около десяти часов и проводится в стрессовом режиме:
-
Процессоры и память работают на максимуме своих возможностей;
-
Блоки питания отдают всю мощность, даже если их несколько;
-
Под нагрузкой выявляется большинство бракованных жестких дисков;
-
Вся элементная база сервера работает так, как вряд ли будет работать в повседневной эксплуатации.
На этом этапе, кстати, обнаруживаются "тонкие" изъяны блоков питания. Так что одной их проверкой на свист в Сервер Молл не ограничиваются. На этом же этапе возможна безусловная замена блока питания на новый, если заказчик решил приобрести сервер с одним блоком питания, несмотря на перспективы использования отказоустойчивых вариантов.
Для полноценной проверки всех сетевых интерфейсов машина грузится с внешнего диска в специально подготовленной среде на базе Windows 2012R2. Сервер подключается к локальной сети и инженер последовательно запускает копирование одного большого файла и множества мелких. Если потери пакетов превышает 1% – сетевая карта подлежит диагностике и замене.
С помощью Memtest дополнительно тестируется память на всех системах, кроме IBM. Дело в том, что проверки Memtest на машинах IBM практически всегда находят несуществующие ошибки на одном из слотов. Такая вот техническая особенность.
При сбое любого из компонентов сервера все тестирование начинается заново, что позволяет избежать возможных проблем с совместимостью замененных комплектующих.
Один раз всплыла любопытная проблема с контроллером RAID в сервере Dell: все тесты были пройдены успешно, но после перезагрузки BIOS начал показывать ошибки уже довольно редкого контроллера H710. Из-за поисков равноценной замены отгрузку сервера пришлось задержать на один день, который был компенсирован заменой на более современный адаптер H330 с вдвое большей пропускной способностью.
Итого, на каждый сервер уходит около 16 часов:
-
2 – 3 часа первичное тестирование;
-
3 часа на чистку и купание;
-
10 часов отнимает предпродажное тестирование.
В комплекте с прошедшим все испытания железом покупатель получает флеш-накопитель с журналом тестирования, инструкцию к серверу, полезные ссылки и оффлайн-версию статьи о распространенных ошибках именно этого производителя.
Отдельного упоминания заслуживает подготовка сервера к отправке. Упаковка разработана самостоятельно и, по отзывам, превосходит качеством оригинальную. Сервер запаивают в пленку с силикагелем (поглотителем влаги), оборачивают вспененным полиэтиленом, упаковывают в прочный картон и отправляют заказчику.
Вместо заключения
На восстановленные вышеописанным образом машины Сервер Молл дает собственную гарантию 3 года. Причем, в стандартный набор услуг входит как замена отказавших компонентов в течении пары дней, так и полная замена всего сервера при критических неполадках.
К слову, за время существования компании полная замена потребовалась только один раз. Глюк оказался невоспроизводимым и в присутствии инженеров Сервер Молл все работало как часы. Вот она, админская аура в действии!