Регламент обслуживания любых серверов

ARTICLES 05.04.22 05.04.22 220
Бесплатные курсына главную сниппетов

Джейкоб Акерман, технический директор ЦОДа SkyLink, утверждает: “Серверы, расположенные в правильно обслуживаемом дата-центре, никогда не должны открываться для очистки даже после 5-7 лет использования”. 

Но далеко не все серверы работают в ЦОДах. Иногда они располагаются в обычных бытовых помещениях, иногда в импровизированных серверных, где чистоту и влажность воздуха сложно поддерживать в идеальных диапазонах. По той же причине мы периодически чистим свои ПК, а иногда и ноутбуки.

В 2009-ом году был опубликован отчёт, в котором говорится, что если не удалять пыль регулярно, то рабочая температура электроники может повыситься на 16.5°C, что в конечном итоге может способствовать отказу оборудования.

При этом даже дата-центры не гарантируют стопроцентной чистоты. Однажды компания Spec-Clean, занимающаяся чисткой ЦОДов, разобрала и почистила 500 совершенно новых серверов, после инцидента с разлетевшимся повсюду строительным мусором.

Общие положения

Важно понимать, что уникального регламента нет. Новые серверы в ЦОДах требуют меньше внимания, чем старые в плохо оборудованных серверных. Серверы отличаются как конфигурациями, так и внутренней архитектурой в зависимости от поколений и вендоров. Во многих серверных количество оборудования нарастает со временем, а значит надо учитывать, когда сервер был введён в эксплуатацию. Поэтому за основу берётся комплекс базовых мероприятий, который адаптируется под частные случаи.

Пример, как не забыть периодичность обслуживания конкретных серверов.

ТАБЛИЦА №1. РЕГЛАМЕНТНОЕ ОБСЛУЖИВАНИЕ СЕРВЕРОВ.

№ сервера, название

Наименование услуги

Введение в эксплуатацию

Последнее обслуживание

Периодичность

1. LENOVO X3550

Осмотр, профилактическая чистка, замена термопасты.

14.12.2017

14.12.2019

 

1 раз в 2 года

2. DELL R740XD

Осмотр, профилактическая чистка, замена термопасты.

06.04.2018

06.04.2020

 

1 раз в 2 года

3. HP DL180 Gen10

Осмотр, профилактическая чистка, замена термопасты.

12.07.2019

12.07.2021

 

1 раз в 2 года

4. DELL R740XD

Осмотр, профилактическая чистка, замена термопасты.

12.07.2019

12.07.2021

1 раз в 2 года

Поскольку сервер – это программно-аппаратный комплекс, то ваш личный полноценный регламент должен затрагивать обслуживание и железа и софта. Но в этой статье мы рассмотрим техническое обслуживание (ТО) только аппаратной части. Несмотря на различия у производителей, фундаментально аппаратная часть во многом устроена одинаково.

ТАБЛИЦА №2. ПЕРИОДИЧНОСТЬ И ВИД РЕГЛАМЕНТНОГО ОБСЛУЖИВАНИЯ КОМПЛЕКТУЮЩИХ СЕРВЕРА.

ПРИМЕЧАНИЯ!

Периодичность проверки.

A – каждый день.

B – раз в полгода, год или два*.

* Зависит от того, как часто вы решили разбирать сервер для обслуживания. Если к этому подготовились заранее, и есть аналогичный сервер в запасе (а лучше – работающий кластер, в котором отключение одного сервера не прерывает работу), а сервер работает не в самой чистой серверной, то проводить обслуживание можно почаще. Если же ваш сервер стоит в ЦОДе с фильтрацией воздуха и контролем влажности, то чистка сервера вообще может не понадобиться. Нужно отталкиваться от ситуации.

Вид обслуживания.

П – проверка.

О – обслуживание.

Ч – чистка, продувка.

З – замена.

Нештатные ситуации.

Помимо плановых процедур с комплектующими могут возникать нештатные ситуации. В таком случае обслуживание проводится по мере необходимости в ближайшее время.

ЧТО ОБСЛУЖИВАЕТСЯ

ПРИМЕЧАНИЕ

A

B

Расходники (термопаста, батарейки, аккумуляторы и т.д.)

1

П

З

Корпус

 

 

Ч

Блок питания

2

 

Ч

Вентиляторы охлаждения, радиаторы

 

 

Ч

Дисковые корзины

3

 

 

Накопители

4

П

Ч

ОЗУ

 

 

Ч

Материнские платы

 

 

П, Ч

CPU, GPGPU (если имеется)

 

 

П, О, Ч

PCIe-платы, райзеры и другие платы

 

 

П, Ч

1. Замена расходников всегда происходит по необходимости. Пока сервер работает, невозможно визуально определить, набухли ли аккумуляторы на контроллере. Если что-то пошло не так, то софт об этом скажет – тогда и делаем замену. Поэтому важна ежедневная проверка журналов.

2. Самостоятельный разбор БП может привести к будущим коротким замыканиям, пожарам и выходу из строя всего сервера. Внутренняя компоновка серверного БП очень плотная, поэтому его обслуживание ограничивается продувкой.

3. Чистку дисковых корзин лучше делать по мере необходимости, так как бывает, что всё работает, но если достать диски и снова вставить – перестаёт. Тот случай, когда работает – не трогай.

4. Накопители выходят из строя достаточно часто. По данным нашего сервисного отдела – это 12% от всех гарантийных случаев у клиентов. Или 0,048% от всех отгрузок за 2020 год. RAID-контроллер постоянно анализирует диски и сигнализирует о прогнозируемом сбое задолго до его возникновения. Поэтому ваша задача – как можно быстрее заменить проблемные комплектующие.

ТАБЛИЦА №3. КАТЕГОРИИ РЕГЛАМЕНТНОГО ОБСЛУЖИВАНИЯ КОМПЛЕКТУЮЩИХ В СЕРВЕРЕ.

Часть комплектующих может обслуживаться на горячую, без прерывания работы сервера, но если на сервере запущены критические приложения, то правильнее будет остановить работу для любого обслуживания, чтобы избежать сбоев. Это в меньшей степени касается накопителей и в большей — блоков питания. 

Обслуживание / замена на горячую

Элемент

Примечание

Накопитель

Требуется предварительная подготовка. (см. подготовка перед заменой диска в массиве при прогнозируемом сбое.)*.

 

Блок питания

Обслуживание / замена на холодную

Элемент

Примечание

Батареи на платах

Если журналы IPMI указывают на неисправность батарей, замените их.

  

Вентиляторы

Модули ОЗУ

GPGPU, CPU

 

 

Перенесите конфигурацию системы PROM (англ. Programmable Read-Only Memory, программируемое ПЗУ, ППЗУ) на новую материнскую плату.

 

 

 

PCIe-платы, райзеры и другие

Материнская плата

Backplane плата дисковой корзины

Оптический привод

Всё остальное

*Подготовка перед заменой диска в массиве при прогнозируемом сбое.

Процедура отличается у разных вендоров и разного оборудования, поэтому рассмотрим общие принципы.

  1. Основная причина прогнозируемых сбоев — на дисках появляются повреждённые секторы (не читающиеся). Сисадмины в разговорно называют их „бэды“ от англ. bad sector. Есть несколько причин их появления.

  2. Когда дисковый контроллер обнаруживает сбойные секторы, он присваивает диску в массиве статус “Прогнозируемый сбой”, но не отключает его. Это лишь предупреждение, что вероятность сбоя увеличилась и диск требует немедленной замены.

  3. Перед физической заменой диска его нужно безопасно исключить из RAID-массива, присвоив статус “Автономный режим”. Для этого у вендоров зачастую есть специальный софт. Например, у Dell — пакет управления Modular Disc Storage Manager (MDSM). По ссылке можете ознакомиться подробнее.

Этапы обслуживания сервера:

  1. Подготовка рабочего места и необходимого оборудования.

  2. Отключение и демонтаж сервера из стойки.

  3. Обслуживание.

  4. Сборка, тестирование и установка сервера в стойку.

1) Подготовка рабочего места и необходимого оборудования.

Обслуживание сервера – процесс, требующий остановки оборудования, аптайм которого должен стремиться к бесконечности. Лучше подготовить всё необходимое заранее, чтобы сократить время простоя.

✔  Чистое просторное место.

Серверная или ЦОД – это места, где работают серверы. Если выдувать пыль внутри, то она снова попадёт в оборудование. Подумайте заранее о месте, где будете работать. Да, можно всё делать в темноте на коленях или на полу, но зачем, а главное, для чего?

✔  Уберите всё лишнее и отвлекающее.

У вас есть местный корпоративный котик? Вокруг рабочего места заставлены проходы, из-за чего можно споткнуться или удариться? Убираем всё лишнее на время работ. Будет очень печально, если в ответственный момент вы дернете рукой с отверткой и повредите материнскую плату. Самое частое – повреждение контактов в сокете.

✔  Что может понадобится?

Всё необходимое (конкретно для этого обслуживания) удобно расположите под рукой, чтобы не бегать в поисках: термопасту, набор отверток или одну со сменными битами, этиловый спирт, баллончик для выдува, кисточки и т.д.

Также есть и напольные коврики, которые не только снимают статику, но и защищают людей от электрических разрядов. Бахнуть током не должно и так, но техника безопасности есть техника безопасности. Для этого даже разработан СП 29.13330.2011 для полов, в котором закреплены требования по удельному объемному электрическому сопротивлению (Rv) и по удельному поверхностному электрическому сопротивлению (Rs).

WARNING! Ремешок должен плотно прилегать к коже, а провод не должен мешать работе. Не подключайте клипсу к окрашенным и неметаллическим поверхностям. Иначе браслет станет гиковским аксессуаром.

Салфетки,CLEANROOM WIPERS
Салфетки,CLEANROOM WIPERS

Также можно использовать влажные салфетки для сбора пыли с поверхностей (крышка сервера), очистки термопасты и т.д. Принцип аналогичен – безворсовые с антистатическим эффектом. 

Подобного набора должно хватить. Несколько бит находились в работе :)
Подобного набора должно хватить. Несколько бит находились в работе :)
Например, Atrix VACOMEGASLFH Omega
Например, Atrix VACOMEGASLFH Omega

Такие пылесосы используют для профилактической очистки ЦОДа или серверной. Устанавливаемый HEPA-фильтр имеет эффективность 99,97% для частиц от 0.3 мкм. Из минусов – высокая цена. Во многих дата-центрах регламент запрещает уборку без HEPA-фильтров.

2) Отключение и извлечение сервера из стойки.

WARNING! Есть риск повреждения оборудования, а также ваших ног/рук и других продолговатых конечностей. Серверное оборудование может весить больше, чем кажется на первый взгляд. Заранее уточните массу сервера. Чтобы избежать травм, демонтируйте и переносите оборудование вдвоём. Даже если вы на практике знаете, что такое становая тяга, БЦАА и углеводное окно.

 Перед началом работ уведомите пользователей, которых затронет остановка, что сервер вскоре отключат на обслуживание. Будет очень неприятно, если важная работа внезапно встанет.

 1. Подготовка к обслуживанию.

2. Отключите кабель(и) питания.

3.  Отключите всю периферию и оборудование.

4.  Извлеките сервер из стойки.

5. Перенесите сервер на заранее подготовленное рабочее место.

3) Обслуживание.

WARNING! Перед началом работ убедитесь, что сервер обесточен. Человек – отличный проводник.

WARNING! Печатные платы и другие комплектующие состоят из транзисторов и интегральных схем, которые чрезвычайно чувствительны к статическому электричеству. Обычное прикосновение одеждой или рукой может привести к повреждениям или к выходу оборудования из строя. Прочитайте руководство по работе с чувствительными к статическому электричеству комплектующими.

WARNING! Сервер, который находился под нагрузкой, может оставаться горячим ещё некоторое время после отключения. Избегайте контакта, если не хотите золотистой корочки на руках.

Самое сложное позади :) Сервер на столе перед вами, готовый ко всему. Под рукой предварительно подготовленные инструменты и икона Гейба Ньюэлла, а значит можно приступать к обслуживанию, пока сервер ещё тёпленький.

a. Разборка.

У разных вендоров крышка снимается по-разному. На одних серверах нужно вставить пальцы под защёлки, поднять их и снять крышку.

 На других защёлка может быть одна.

На некоторых это могут быть замок и кнопки.

Когда вы сняли крышку, сразу же протрите пыль (но не над сервером!), чтобы не забыть это сделать на этапе сборки. Потом поставьте в безопасное место рядом со столом – не стоит класть крышку на стол, так как можно случайно уронить её и повредить. Запаски в комплекте нет.

b. Чистка.

Перед дальнейшей разборкой сервера нужно провести первичную очистку. Если у вас сервисный пылесос, то вперёд. Если кисточки, то очищайте пыль, стараясь собирать её, а не поднимать в воздух.

c. Осмотр.

Далее внимательно проводим визуальный осмотр. Самое время проверить все интерфейсы, платы, аккумуляторы, радиаторы, модули памяти, лопасти вентиляторов, воздуховоды и материнскую плату.

С конденсаторами в современных серверах практически никогда не бывает проблем. Наши мастера по гарантийному ремонту и сборке последний раз видели набухший конденсатор лет 10 назад. Но всё же стоит знать врага в лицо, как выглядит набухший из-за выкипания или испарения электролита конденсатор, так как это приведёт к отказу оборудования. Лотерею же кто-то выигрывает, в конце концов.

Слева направо – от нормального состояния до набухшего
Слева направо – от нормального состояния до набухшего

 P.S. Если вытекший электролит попал на любую печатную плату, сервер это или нет, то всегда очищайте загрязнение спиртом или другими средствами. Не стоит самостоятельно пытаться перепаивать конденсаторы, если вы не обладаете нужными знаниями, навыками и оборудованием. Для этого существуют сервисные центры.

d.     Снятие всех комплектующих.

Для того, чтобы провести качественное обслуживание и дополнительную чистку, нужно разобрать сервер, отсоединив все комплектующие: воздушную перегородку, вентиляторы, радиаторы, платы, планки RAM, GPGPU, CPU и т.д.

e.     Тщательная чистка.

WARNING! Изопропиловый спирт отлично очищает и обезжиривает поверхности, а также безвреден для электроники. Но саму протирку нужно проводить предельно аккуратно, чтобы механически не повредить оборудование.   Учтите, что попадание спирта внутрь организма вызывает отравление и ожоги. В том числе через слизистые глаз.

Остаточную пыль со всех элементов нужно ещё раз продуть баллончиком или пропылесосить. Такие комплектующие, как БП или GPGPU, лучше продувать подальше от сервера, чтобы пыль снова не оседала на него.

После нужно протереть контакты процессора (без резких движений, ковбой, дёрнешься и процессор — труп), различных плат салфеткой, пропитанной изопропиловым спиртом. Термопаста, если профи до вас выдавил от души, может оставаться как на контактах CPU, так и на контактной базе материнской платы.

Разумеется, в таком виде оставлять нельзя.

f. Замена вышедших из строя комплектующих и расходников.

Если что-то вышло из строя (или есть предпосылки), то замените неисправные комплектующие и расходники на новые.

Замена батареек и аккумуляторов – простейшая процедура, не требующая профессиональных навыков. Однако расположение элементов на платах может отличаться в зависимости от моделей и вендоров, поэтому, если меняете впервые на незнакомом оборудовании, лучше изучите техническую документацию

g. Нанесение термопасты.

WARNING! Металлическая крышка и контакты процессора должны быть хорошо очищены и обезжирены. Термопасту нужно наносить очень тонким слоем и равномерно распределять, чтобы она покрывала всю поверхность крышки.

WARNING! Не используйте термопасту повторно, если отсоединили радиатор от термораспределителя процессора. Это может привести к появлению пузырьков воздуха и значительному ухудшению охлаждения.

Если вы анализируете показатели работы сервера, то через определённое время (зависит от нагрузок, условий эксплуатации и качества термопасты) заметите увеличение рабочих температур CPU и GPU. Отклонения могут быть всего в несколько градусов, но это первый звоночек, что пора обновить термопасту.

Тут пара советов. Если вы отключаете сервер на профилактику каждые полгода, то менять качественную термопасту вряд ли понадобится. Что уж там, в хороших условиях она может прослужить несколько лет. Поэтому анализируйте нагрузки и показатели, а чтобы не доводить ситуацию до вынужденной остановки, меняйте термопасту при профилактических остановках.

Если рассмотреть крышку процессора под микроскопом, то на поверхности можно увидеть неровности и ямки. А воздух, как известно, плохой проводник тепла. Главная задача термопасты – заполнить эти неровности и осуществлять теплообмен между радиатором и процессором.

Если говорить о цифрах, то слой должен быть совсем небольшой: 0,5-1 мм. Замерять линейкой не нужно, визуально поверхность процессора будет слегка видна через такой слой.

Процесс нанесения термопасты на примере Dell PowerEdge R740 Rack Server. На других сокетах процесс может отличаться.

1. Снимаем радиатор.

2. Устанавливаем заглушку в сокет.

3. Аккуратно отсоединяем процессор от радиатора, повернув отвертку вдоль своей оси.

4. Кладём процессор на безопасную подложку.

5. Удаляем старую термопасту с CPU и радиатора салфеткой, пропитанной изопропиловым спиртом.

6. Равномерно наносим новую термопасту и распределяем по поверхности.   

7. Соединяем процессор с радиатором и устанавливаем в сокет.

Перед закреплением с материнской платой убедитесь, что снаружи не появилось избытков термопасты. Иногда для этого очень кстати камера телефона или стоматологическое зеркало. Если избытка много, значит вы нанесли слишком толстый слой. Пробовали когда-нибудь очистить залитый сокет?

 Также из-за избытка термопасты рамка может не зафиксироваться на радиаторе, и тогда процессор при установке может упасть на сокет. А это уже смерть материнской плате и, возможно, процессору. Ещё один неприятный сценарий может возникнуть, если вам удалось зафиксировать это безобразие и возник перекос процессора. Избыток термопасты не даст процессору встать правильно в рамке и в сокете, а когда вы начнёте прикручивать винты крепления, может надломиться угол процессора.

 Чтобы не допустить поломок, нужно повторить всё с шага №3.

 Если же вы всё сделали правильно, то термопаста почти не будет вытесняться с краёв, а крышка процессора будет плотно и равномерно прилегать к радиатору.

h. Соберите сервер и запустите диагностику.

ATTENTION! Не запускайте самодиагностику в том же месте, где чистили сервер от пыли. Если воздух в помещении не фильтруется (или не успел профильтроваться), то это приведёт к попаданию пыли внутрь оборудования. В таком случае лучше тестировать сервер в серверной или ЦОДе.

 Здесь всё просто: устанавливаем комплектующие в соответствующие слоты и интерфейсы и закрепляем их. Де-факто это обратная процедура от разборки. Но пару слов о том, что может вызвать сложности.

https://ark.intel.com/content/www/ru/ru/ark.html#@PanelLabel595
https://ark.intel.com/content/www/ru/ru/ark.html#@PanelLabel595

Далее открыть окно со спецификациями и найти соответствующий пункт.

После этого переходите на другую страницу и смотрите подробную инструкцию по установке процессора. Или же сразу переходите на этот пункт, если знаете сокет.

https://www.intel.ru/content/www/ru/ru/support/topics/desktop-server-processor-installation.html
https://www.intel.ru/content/www/ru/ru/support/topics/desktop-server-processor-installation.html

Часто в серверах используются не все разъемы под память, как на фото выше. В таком случае лучше использовать специальные заглушки, чтобы циркуляция воздуха внутри была равномерной. Даже если вы устанавливаете заглушки, а не память, фиксаторы с боков должны полностью закрываться – до щелчка. Я же знаю, что вы всё равно будете переворачивать сервер при переносе :)

Черные заглушки. Красным выделены фиксаторы.
Черные заглушки. Красным выделены фиксаторы.

Наконец сервер собран, но прежде чем запускать ОС и вводить сервер в полноценную работу, нужно запустить встроенную самодиагностику POST (Power-On Self-Test). Она позволит проверить аппаратное обеспечение и понять, всё ли работает, правильно ли подключены комплектующие, не было ли что-то повреждено при обслуживании.

 Важно, что встроенные утилиты самодиагностики берут данные из датчиков, а потому могут выявлять неполадки на аппаратном уровне, которые пропустит ОС и сторонний софт.

 У всех вендоров утилиты реализованы по-разному, а процедура тестирования зависит от поколения сервера. Детальную инструкцию можно найти на сайте вендора.

Hardware Diagnostics от Dell
Hardware Diagnostics от Dell

4) Установка в стойку и возврат сервера к работе.

Когда всё необходимое в сервере заменено, а комплектующие очищены от пыли и протестированы инструментами самодиагностики, можно выпить пива похвалить себя за проделанную работу и вернуть сервер в работу.

  1. Подготовка к работе.

  2. Подключите всю периферию и оборудование.

  1. Подключите кабель(и) питания. (ПРИМЕЧАНИЕ: Сразу после подключения кабелей на сервер может пойти питание с ИБП. В зависимости от преднастроек ПО сервер может автоматически запуститься).

  2. Запустите сервер.

WARNING! Эксплуатируйте сервер только со всеми вентиляторами, радиаторами, воздушной перегородкой и установленной крышкой. Неправильная работа системы охлаждения может привести к серьезным нарушениям и поломкам оборудования.

Регламент должен быть

Серверы во многом напоминают работу авиации – всё должно быть проверено, отточено, продублировано и отшлифовано до блеска. Авиадиспетчер не может прекратить работу из-за того, что выключился свет в аэропорту; сотни самолётов не станут ждать в небе. Также и банк не может ждать, пока кто-то придёт и починит серверную инфраструктуру, на которой всё держится. Потенциальные потери, как денежные, так и репутационные, несоизмеримы с затратами на превентивные меры.

Поэтому любой технике — инопланетному Мегатрону-3000 или обычному серверу за 50 т.р. — требуется обслуживание, профилактика и ремонт. Вы бы полетели через Тихий океан на Боинге 747-100, который не был на обслуживании несколько лет? Для бизнеса ситуация с серверами аналогичная.

Надеюсь, что этот регламент будет полезен и станет базой для вашего собственного. Если вы считаете, что что-то забыто или стоит дополнить какой-то момент – welcome в комментарии.

И напоследок хочется добавить, что всегда можно улучшить среду, в которой сервер работает: специальные серверные шкафы для неблагоприятных условий, фильтры воздуха, кондиционеры с контролем температуры и влажности, регулярная уборка ЦОДа или серверной (главное, без уборщицы с мокрой шваброй или бытовым пылесосом!). И тогда не придётся отключать сервер только для чистки, скорее чистка станет сопутствующей процедурой при обслуживании сервера.

 

на главную сниппетов
Курсы