Джейкоб Акерман, технический директор ЦОДа SkyLink, утверждает: “Серверы, расположенные в правильно обслуживаемом дата-центре, никогда не должны открываться для очистки даже после 5-7 лет использования”.
Но далеко не все серверы работают в ЦОДах. Иногда они располагаются в обычных бытовых помещениях, иногда в импровизированных серверных, где чистоту и влажность воздуха сложно поддерживать в идеальных диапазонах. По той же причине мы периодически чистим свои ПК, а иногда и ноутбуки.
В 2009-ом году был опубликован отчёт, в котором говорится, что если не удалять пыль регулярно, то рабочая температура электроники может повыситься на 16.5°C, что в конечном итоге может способствовать отказу оборудования.
При этом даже дата-центры не гарантируют стопроцентной чистоты. Однажды компания Spec-Clean, занимающаяся чисткой ЦОДов, разобрала и почистила 500 совершенно новых серверов, после инцидента с разлетевшимся повсюду строительным мусором.
Важно понимать, что уникального регламента нет. Новые серверы в ЦОДах требуют меньше внимания, чем старые в плохо оборудованных серверных. Серверы отличаются как конфигурациями, так и внутренней архитектурой в зависимости от поколений и вендоров. Во многих серверных количество оборудования нарастает со временем, а значит надо учитывать, когда сервер был введён в эксплуатацию. Поэтому за основу берётся комплекс базовых мероприятий, который адаптируется под частные случаи.
Пример, как не забыть периодичность обслуживания конкретных серверов.
№ сервера, название |
Наименование услуги |
Введение в эксплуатацию |
Последнее обслуживание |
Периодичность |
1. LENOVO X3550 |
Осмотр, профилактическая чистка, замена термопасты. |
14.12.2017 |
14.12.2019 |
1 раз в 2 года |
2. DELL R740XD |
Осмотр, профилактическая чистка, замена термопасты. |
06.04.2018 |
06.04.2020 |
1 раз в 2 года |
3. HP DL180 Gen10 |
Осмотр, профилактическая чистка, замена термопасты. |
12.07.2019 |
12.07.2021 |
1 раз в 2 года |
4. DELL R740XD |
Осмотр, профилактическая чистка, замена термопасты. |
12.07.2019 |
12.07.2021 |
1 раз в 2 года |
Поскольку сервер – это программно-аппаратный комплекс, то ваш личный полноценный регламент должен затрагивать обслуживание и железа и софта. Но в этой статье мы рассмотрим техническое обслуживание (ТО) только аппаратной части. Несмотря на различия у производителей, фундаментально аппаратная часть во многом устроена одинаково.
ПРИМЕЧАНИЯ! |
Периодичность проверки. A – каждый день. B – раз в полгода, год или два*. * Зависит от того, как часто вы решили разбирать сервер для обслуживания. Если к этому подготовились заранее, и есть аналогичный сервер в запасе (а лучше – работающий кластер, в котором отключение одного сервера не прерывает работу), а сервер работает не в самой чистой серверной, то проводить обслуживание можно почаще. Если же ваш сервер стоит в ЦОДе с фильтрацией воздуха и контролем влажности, то чистка сервера вообще может не понадобиться. Нужно отталкиваться от ситуации. |
Вид обслуживания. П – проверка. О – обслуживание. Ч – чистка, продувка. З – замена. |
Нештатные ситуации. Помимо плановых процедур с комплектующими могут возникать нештатные ситуации. В таком случае обслуживание проводится по мере необходимости в ближайшее время. |
ЧТО ОБСЛУЖИВАЕТСЯ |
ПРИМЕЧАНИЕ |
A |
B |
Расходники (термопаста, батарейки, аккумуляторы и т.д.) |
1 |
П |
З |
Корпус |
|
|
Ч |
Блок питания |
2 |
|
Ч |
Вентиляторы охлаждения, радиаторы |
|
|
Ч |
Дисковые корзины |
3 |
|
|
Накопители |
4 |
П |
Ч |
ОЗУ |
|
|
Ч |
Материнские платы |
|
|
П, Ч |
CPU, GPGPU (если имеется) |
|
|
П, О, Ч |
PCIe-платы, райзеры и другие платы |
|
|
П, Ч |
1. Замена расходников всегда происходит по необходимости. Пока сервер работает, невозможно визуально определить, набухли ли аккумуляторы на контроллере. Если что-то пошло не так, то софт об этом скажет – тогда и делаем замену. Поэтому важна ежедневная проверка журналов.
2. Самостоятельный разбор БП может привести к будущим коротким замыканиям, пожарам и выходу из строя всего сервера. Внутренняя компоновка серверного БП очень плотная, поэтому его обслуживание ограничивается продувкой.
3. Чистку дисковых корзин лучше делать по мере необходимости, так как бывает, что всё работает, но если достать диски и снова вставить – перестаёт. Тот случай, когда работает – не трогай.
4. Накопители выходят из строя достаточно часто. По данным нашего сервисного отдела – это 12% от всех гарантийных случаев у клиентов. Или 0,048% от всех отгрузок за 2020 год. RAID-контроллер постоянно анализирует диски и сигнализирует о прогнозируемом сбое задолго до его возникновения. Поэтому ваша задача – как можно быстрее заменить проблемные комплектующие.
Часть комплектующих может обслуживаться на горячую, без прерывания работы сервера, но если на сервере запущены критические приложения, то правильнее будет остановить работу для любого обслуживания, чтобы избежать сбоев. Это в меньшей степени касается накопителей и в большей — блоков питания.
Обслуживание / замена на горячую |
|
Элемент |
Примечание |
Накопитель |
Требуется предварительная подготовка. (см. подготовка перед заменой диска в массиве при прогнозируемом сбое.)*.
|
Блок питания |
|
Обслуживание / замена на холодную |
|
Элемент |
Примечание |
Батареи на платах |
Если журналы IPMI указывают на неисправность батарей, замените их.
|
Вентиляторы |
|
Модули ОЗУ |
|
GPGPU, CPU |
Перенесите конфигурацию системы PROM (англ. Programmable Read-Only Memory, программируемое ПЗУ, ППЗУ) на новую материнскую плату.
|
PCIe-платы, райзеры и другие |
|
Материнская плата |
|
Backplane плата дисковой корзины |
|
Оптический привод |
|
Всё остальное |
*Подготовка перед заменой диска в массиве при прогнозируемом сбое.
Процедура отличается у разных вендоров и разного оборудования, поэтому рассмотрим общие принципы.
Основная причина прогнозируемых сбоев — на дисках появляются повреждённые секторы (не читающиеся). Сисадмины в разговорно называют их „бэды“ от англ. bad sector. Есть несколько причин их появления.
Программные. Код, корректирующий ошибки записи, не соответствует содержимому кластера.
Физические. Чаще всего происходит износ жёсткого диска после интенсивной эксплуатации. Это касается и HDD и SSD. Реже, но критичнее: производственный брак, механическое повреждение, попадание воздуха и пыли в корпус и т.п.
Когда дисковый контроллер обнаруживает сбойные секторы, он присваивает диску в массиве статус “Прогнозируемый сбой”, но не отключает его. Это лишь предупреждение, что вероятность сбоя увеличилась и диск требует немедленной замены.
Перед физической заменой диска его нужно безопасно исключить из RAID-массива, присвоив статус “Автономный режим”. Для этого у вендоров зачастую есть специальный софт. Например, у Dell — пакет управления Modular Disc Storage Manager (MDSM). По ссылке можете ознакомиться подробнее.
Обслуживание сервера – процесс, требующий остановки оборудования, аптайм которого должен стремиться к бесконечности. Лучше подготовить всё необходимое заранее, чтобы сократить время простоя.
✔ Чистое просторное место.
Серверная или ЦОД – это места, где работают серверы. Если выдувать пыль внутри, то она снова попадёт в оборудование. Подумайте заранее о месте, где будете работать. Да, можно всё делать в темноте на коленях или на полу, но зачем, а главное, для чего?
Помещение. По нашему опыту минимальные размеры стола и пространства вокруг него – (Ш х Г) 1500 х 700 мм и проходы минимум по 600 мм.
1500 + 600 + 600 = 2700 мм – одна стена. 700 + 600 = 1300 мм – другая стена. Получаем минимальную комнату в 3,51 м². Но мы же не чулан для Гарри Поттера подготавливаем, так что лучше выбирать помещение побольше. Я бы советовал не меньше 1 метра от стола, а это уже около 6 м² — минимум.
Фильтрация воздуха. В идеале в сервисном помещении должны быть хорошая циркуляция и фильтрация воздуха, так как при обслуживании серверного оборудования пыль будет неизбежно подниматься вверх, а потом снова оседать. Лучше всего использовать комплекс из фильтров грубой и тонкой очистки + вытяжку прямо над столом.
Да будет свет. Нужно организовать общий рассеянный свет с достаточной яркостью. Если над столом организован локальный свет, то он не должен мешать работе мастера – без резких теней и избыточной ослепляющей яркости. Для определения точных характеристик можно ориентироваться на свод правил СП 52.13330.2016 (таблица 4.1, стр. 19).
✔ Уберите всё лишнее и отвлекающее.
У вас есть местный корпоративный котик? Вокруг рабочего места заставлены проходы, из-за чего можно споткнуться или удариться? Убираем всё лишнее на время работ. Будет очень печально, если в ответственный момент вы дернете рукой с отверткой и повредите материнскую плату. Самое частое – повреждение контактов в сокете.
✔ Что может понадобится?
Всё необходимое (конкретно для этого обслуживания) удобно расположите под рукой, чтобы не бегать в поисках: термопасту, набор отверток или одну со сменными битами, этиловый спирт, баллончик для выдува, кисточки и т.д.
Органайзер для мелочей. Все теряли болты, винты, саморезы и прочее при сборке мебели – мелочь, а неприятно. Но мы обслуживаем серверы, а не мебель ИКЕА, а значит ничего лишнего или недостающего оказаться не должно. Органайзер стоит недорого, а экономия нервов и времени на поиск упавшего со стола болтика – колоссальная. А если ещё подписать и пронумеровать ячейки, то вы никогда не ошибётесь, что и в какой момент использовать при сборке.
Антистатический коврик. Есть варианты с отделениями для мелких деталей. Это одновременно закроет вопрос с органайзером, но не так надёжно. Подобные коврики помимо антистатических свойств зачастую устойчивы к высоким температурам (можно паять), не скользят и долговечны.
Также есть и напольные коврики, которые не только снимают статику, но и защищают людей от электрических разрядов. Бахнуть током не должно и так, но техника безопасности есть техника безопасности. Для этого даже разработан СП 29.13330.2011 для полов, в котором закреплены требования по удельному объемному электрическому сопротивлению (Rv) и по удельному поверхностному электрическому сопротивлению (Rs).
Антистатический браслет. Ещё одной антистатической мерой может стать браслет. Он не даст электростатического разряду (ESD) и электрическому напряжению (EOS) повредить оборудование. Профессиональные столы имеют клеммы заземления, но если у вас обычный стол, то можно подключить браслет к корпусу сервера или антистатическому коврику. В кругах сисадминов обычно пренебрегают антистатическими браслетами — не буду комментировать этот момент, но в нашем регламенте браслет нужен.
WARNING! Ремешок должен плотно прилегать к коже, а провод не должен мешать работе. Не подключайте клипсу к окрашенным и неметаллическим поверхностям. Иначе браслет станет гиковским аксессуаром. |
Термопаста. От качества термопасты зависит теплообмен между радиатором и процессором. Отсюда все вытекающие. Берите хорошие термоинтерфейсы с высоким уровнем теплопроводности. Мы используем Arctic MX-4 c 8.5 Вт/(м·K), не реклама, но если вы из Arctic, готов стать амбассадором :)
Главное – не наткнитесь на подделку и не забудьте лопатку или пластиковую карту, чтобы распределить термопасту равномерно. Мазать пальцами нинада.
Абсолютированный изопропиловый спирт 99+% (WARNING – не внутрь! Вкус не очень, а отравление и ожоги отличные. Даже нюхать не надо). Спирт хорошо подходит, чтобы обезжирить и очистить загрязнения или легкую окись с поверхности и контактов процессора, памяти и других комплектующих. Используется для очистки загрязнений и обезжиривания контактов.
Текстильные безворсовые салфетки. Ткань из микроволокна по свойствам и характеристикам отлично подходит для протирки электроники. Главное, чтобы салфетки были мягкими, прочными, антистатическими и не оставляли после себя ворсинок.
Также можно использовать влажные салфетки для сбора пыли с поверхностей (крышка сервера), очистки термопасты и т.д. Принцип аналогичен – безворсовые с антистатическим эффектом.
Отвертки. У разных вендоров разные типы головок крепежей. Для одних серверов достаточно крестовой отвертки, для других понадобится комбинация нескольких. Поэтому самым удачным выбором станет отвёртка со сменными битами – в серверной никогда лишней не будет. И лучше иметь ещё одну с длинным стержнем.
Кисточки и щётки. Также полезный инструмент, чтобы очистить сервер от накопившейся пыли. Покупайте антистатические варианты разных размеров и жёсткости, чтобы эффективно избавляться как на больших поверхностях, так и в труднодоступных местах. Щетка от вашего триммера не подойдет.
Пневматический очиститель для продувки труднодоступных мест. Ассортимент пневматических очистителей в магазинах большой. Неплохая альтернатива дорогим пылесосам и воздуходувкам, если над столом стоит хорошая вытяжка. Нам подойдут баллончики с антистатическим эффектом и высоким давлением, предназначенные для электроники.
Или сервисный пылесос — идеальный вариант.
Сервисные пылесосы с антистатическими шлангами создавались специально для обслуживания профессионального оборудования, а потому минимизируют риск его повреждения. Они мощные, компактные, отлично фильтруют пыль и легко переносятся. Бытовые пылесосы и воздуходувки – не самый лучший вариант, в них нет статического электричества и нужной нам фильтрации.
Такие пылесосы используют для профилактической очистки ЦОДа или серверной. Устанавливаемый HEPA-фильтр имеет эффективность 99,97% для частиц от 0.3 мкм. Из минусов – высокая цена. Во многих дата-центрах регламент запрещает уборку без HEPA-фильтров.
WARNING! Есть риск повреждения оборудования, а также ваших ног/рук и других продолговатых конечностей. Серверное оборудование может весить больше, чем кажется на первый взгляд. Заранее уточните массу сервера. Чтобы избежать травм, демонтируйте и переносите оборудование вдвоём. Даже если вы на практике знаете, что такое становая тяга, БЦАА и углеводное окно. |
Перед началом работ уведомите пользователей, которых затронет остановка, что сервер вскоре отключат на обслуживание. Будет очень неприятно, если важная работа внезапно встанет.
1. Подготовка к обслуживанию.
Наденьте антистатический браслет на запястье (если есть в серверной). Если браслета нет, снимите статику другим способом. Например, прикоснитесь к заземленному оборудованию.
Если выключение вынужденное, вы можете запустить диагностику перед выключением, проверить состояние сервера и логи.
Сохраните необходимые файлы и закройте активные программы.
Завершите работу ОС и сервера.
2. Отключите кабель(и) питания.
3. Отключите всю периферию и оборудование.
4. Извлеките сервер из стойки.
Вытяните сервер в положение „для обслуживания“.
Разблокируйте рельсовые фиксаторы.
Снимите антистатический браслет (если есть).
Спереди потяните сервер, пока он не выйдет из стойки.
5. Перенесите сервер на заранее подготовленное рабочее место.
Запланируйте маршрут до места заранее, откройте необходимые двери и т.д., так как лишней руки может не оказаться.
В идеале упаковать сервер в пузырчатую плёнку с антистатическими свойствами.
Переносите оборудование вдвоём. Это поможет избежать ударов и падений. Это касается не только сервера, но и вас.
Для переноса лучше использовать прорезиненные перчатки, чтобы сервер случайно не выскользнул из потеющих рук.
Не переворачивайте сервер вверх ногами. Это не смертельно, но нежелательно. Некоторые компании, например Sun, устанавливает специальные датчики наклона и встряски в ящики с серверами. А переворот ведёт к потере гарантии. Всё, чтобы дорогостоящее оборудование не повредилось.
WARNING! Перед началом работ убедитесь, что сервер обесточен. Человек – отличный проводник. |
WARNING! Печатные платы и другие комплектующие состоят из транзисторов и интегральных схем, которые чрезвычайно чувствительны к статическому электричеству. Обычное прикосновение одеждой или рукой может привести к повреждениям или к выходу оборудования из строя. Прочитайте руководство по работе с чувствительными к статическому электричеству комплектующими. |
WARNING! Сервер, который находился под нагрузкой, может оставаться горячим ещё некоторое время после отключения. Избегайте контакта, если не хотите золотистой корочки на руках. |
Самое сложное позади :) Сервер на столе перед вами, готовый ко всему. Под рукой предварительно подготовленные инструменты и икона Гейба Ньюэлла, а значит можно приступать к обслуживанию, пока сервер ещё тёпленький.
У разных вендоров крышка снимается по-разному. На одних серверах нужно вставить пальцы под защёлки, поднять их и снять крышку.
На других защёлка может быть одна.
На некоторых это могут быть замок и кнопки.
Когда вы сняли крышку, сразу же протрите пыль (но не над сервером!), чтобы не забыть это сделать на этапе сборки. Потом поставьте в безопасное место рядом со столом – не стоит класть крышку на стол, так как можно случайно уронить её и повредить. Запаски в комплекте нет.
Перед дальнейшей разборкой сервера нужно провести первичную очистку. Если у вас сервисный пылесос, то вперёд. Если кисточки, то очищайте пыль, стараясь собирать её, а не поднимать в воздух.
Далее внимательно проводим визуальный осмотр. Самое время проверить все интерфейсы, платы, аккумуляторы, радиаторы, модули памяти, лопасти вентиляторов, воздуховоды и материнскую плату.
С конденсаторами в современных серверах практически никогда не бывает проблем. Наши мастера по гарантийному ремонту и сборке последний раз видели набухший конденсатор лет 10 назад. Но всё же стоит знать врага в лицо, как выглядит набухший из-за выкипания или испарения электролита конденсатор, так как это приведёт к отказу оборудования. Лотерею же кто-то выигрывает, в конце концов.
P.S. Если вытекший электролит попал на любую печатную плату, сервер это или нет, то всегда очищайте загрязнение спиртом или другими средствами. Не стоит самостоятельно пытаться перепаивать конденсаторы, если вы не обладаете нужными знаниями, навыками и оборудованием. Для этого существуют сервисные центры.
Для того, чтобы провести качественное обслуживание и дополнительную чистку, нужно разобрать сервер, отсоединив все комплектующие: воздушную перегородку, вентиляторы, радиаторы, платы, планки RAM, GPGPU, CPU и т.д.
WARNING! Изопропиловый спирт отлично очищает и обезжиривает поверхности, а также безвреден для электроники. Но саму протирку нужно проводить предельно аккуратно, чтобы механически не повредить оборудование. Учтите, что попадание спирта внутрь организма вызывает отравление и ожоги. В том числе через слизистые глаз. |
Остаточную пыль со всех элементов нужно ещё раз продуть баллончиком или пропылесосить. Такие комплектующие, как БП или GPGPU, лучше продувать подальше от сервера, чтобы пыль снова не оседала на него.
После нужно протереть контакты процессора (без резких движений, ковбой, дёрнешься и процессор — труп), различных плат салфеткой, пропитанной изопропиловым спиртом. Термопаста, если профи до вас выдавил от души, может оставаться как на контактах CPU, так и на контактной базе материнской платы.
Разумеется, в таком виде оставлять нельзя.
Если что-то вышло из строя (или есть предпосылки), то замените неисправные комплектующие и расходники на новые.
Замена батареек и аккумуляторов – простейшая процедура, не требующая профессиональных навыков. Однако расположение элементов на платах может отличаться в зависимости от моделей и вендоров, поэтому, если меняете впервые на незнакомом оборудовании, лучше изучите техническую документацию
WARNING! Металлическая крышка и контакты процессора должны быть хорошо очищены и обезжирены. Термопасту нужно наносить очень тонким слоем и равномерно распределять, чтобы она покрывала всю поверхность крышки. |
WARNING! Не используйте термопасту повторно, если отсоединили радиатор от термораспределителя процессора. Это может привести к появлению пузырьков воздуха и значительному ухудшению охлаждения. |
Если вы анализируете показатели работы сервера, то через определённое время (зависит от нагрузок, условий эксплуатации и качества термопасты) заметите увеличение рабочих температур CPU и GPU. Отклонения могут быть всего в несколько градусов, но это первый звоночек, что пора обновить термопасту.
Тут пара советов. Если вы отключаете сервер на профилактику каждые полгода, то менять качественную термопасту вряд ли понадобится. Что уж там, в хороших условиях она может прослужить несколько лет. Поэтому анализируйте нагрузки и показатели, а чтобы не доводить ситуацию до вынужденной остановки, меняйте термопасту при профилактических остановках.
Если рассмотреть крышку процессора под микроскопом, то на поверхности можно увидеть неровности и ямки. А воздух, как известно, плохой проводник тепла. Главная задача термопасты – заполнить эти неровности и осуществлять теплообмен между радиатором и процессором.
Если говорить о цифрах, то слой должен быть совсем небольшой: 0,5-1 мм. Замерять линейкой не нужно, визуально поверхность процессора будет слегка видна через такой слой.
Процесс нанесения термопасты на примере Dell PowerEdge R740 Rack Server. На других сокетах процесс может отличаться.
1. Снимаем радиатор.
2. Устанавливаем заглушку в сокет.
3. Аккуратно отсоединяем процессор от радиатора, повернув отвертку вдоль своей оси.
4. Кладём процессор на безопасную подложку.
5. Удаляем старую термопасту с CPU и радиатора салфеткой, пропитанной изопропиловым спиртом.
6. Равномерно наносим новую термопасту и распределяем по поверхности.
7. Соединяем процессор с радиатором и устанавливаем в сокет.
Перед закреплением с материнской платой убедитесь, что снаружи не появилось избытков термопасты. Иногда для этого очень кстати камера телефона или стоматологическое зеркало. Если избытка много, значит вы нанесли слишком толстый слой. Пробовали когда-нибудь очистить залитый сокет?
Также из-за избытка термопасты рамка может не зафиксироваться на радиаторе, и тогда процессор при установке может упасть на сокет. А это уже смерть материнской плате и, возможно, процессору. Ещё один неприятный сценарий может возникнуть, если вам удалось зафиксировать это безобразие и возник перекос процессора. Избыток термопасты не даст процессору встать правильно в рамке и в сокете, а когда вы начнёте прикручивать винты крепления, может надломиться угол процессора.
Чтобы не допустить поломок, нужно повторить всё с шага №3.
Если же вы всё сделали правильно, то термопаста почти не будет вытесняться с краёв, а крышка процессора будет плотно и равномерно прилегать к радиатору.
ATTENTION! Не запускайте самодиагностику в том же месте, где чистили сервер от пыли. Если воздух в помещении не фильтруется (или не успел профильтроваться), то это приведёт к попаданию пыли внутрь оборудования. В таком случае лучше тестировать сервер в серверной или ЦОДе. |
Здесь всё просто: устанавливаем комплектующие в соответствующие слоты и интерфейсы и закрепляем их. Де-факто это обратная процедура от разборки. Но пару слов о том, что может вызвать сложности.
Установка процессора.
Сокеты CPU могут отличаться. А как следствие – методы установки процессоров разные. Чтобы узнать, какой сокет у вас, нужно зайти на сайт Intel и найти свою модель.
Далее открыть окно со спецификациями и найти соответствующий пункт.
После этого переходите на другую страницу и смотрите подробную инструкцию по установке процессора. Или же сразу переходите на этот пункт, если знаете сокет.
Установка планок ОЗУ.
Часто в серверах используются не все разъемы под память, как на фото выше. В таком случае лучше использовать специальные заглушки, чтобы циркуляция воздуха внутри была равномерной. Даже если вы устанавливаете заглушки, а не память, фиксаторы с боков должны полностью закрываться – до щелчка. Я же знаю, что вы всё равно будете переворачивать сервер при переносе :)
Если вы впервые в жизни разбирали сервер для профилактики, то можете фиксировать сложные и непонятные моменты на камеру, чтобы при сборке в точности повторить процедуру в обратном порядке и ничего не перепутать.
Наконец сервер собран, но прежде чем запускать ОС и вводить сервер в полноценную работу, нужно запустить встроенную самодиагностику POST (Power-On Self-Test). Она позволит проверить аппаратное обеспечение и понять, всё ли работает, правильно ли подключены комплектующие, не было ли что-то повреждено при обслуживании.
Важно, что встроенные утилиты самодиагностики берут данные из датчиков, а потому могут выявлять неполадки на аппаратном уровне, которые пропустит ОС и сторонний софт.
У всех вендоров утилиты реализованы по-разному, а процедура тестирования зависит от поколения сервера. Детальную инструкцию можно найти на сайте вендора.
Когда всё необходимое в сервере заменено, а комплектующие очищены от пыли и протестированы инструментами самодиагностики, можно выпить пива похвалить себя за проделанную работу и вернуть сервер в работу.
Подготовка к работе.
Принесите сервер вдвоем в серверную или ЦОД.
Снимите статику.
Установите сервер в рельсы (желательно вдвоём).
Заблокируйте рельсовые фиксаторы.
Медленно задвиньте сервер внутрь стойки.
Подключите всю периферию и оборудование.
Подключите кабель(и) питания. (ПРИМЕЧАНИЕ: Сразу после подключения кабелей на сервер может пойти питание с ИБП. В зависимости от преднастроек ПО сервер может автоматически запуститься).
Запустите сервер.
Автоматически при включении.
Удалённо через IPMI.
На месте через кнопку питания.
WARNING! Эксплуатируйте сервер только со всеми вентиляторами, радиаторами, воздушной перегородкой и установленной крышкой. Неправильная работа системы охлаждения может привести к серьезным нарушениям и поломкам оборудования. |
Серверы во многом напоминают работу авиации – всё должно быть проверено, отточено, продублировано и отшлифовано до блеска. Авиадиспетчер не может прекратить работу из-за того, что выключился свет в аэропорту; сотни самолётов не станут ждать в небе. Также и банк не может ждать, пока кто-то придёт и починит серверную инфраструктуру, на которой всё держится. Потенциальные потери, как денежные, так и репутационные, несоизмеримы с затратами на превентивные меры.
Поэтому любой технике — инопланетному Мегатрону-3000 или обычному серверу за 50 т.р. — требуется обслуживание, профилактика и ремонт. Вы бы полетели через Тихий океан на Боинге 747-100, который не был на обслуживании несколько лет? Для бизнеса ситуация с серверами аналогичная.
Надеюсь, что этот регламент будет полезен и станет базой для вашего собственного. Если вы считаете, что что-то забыто или стоит дополнить какой-то момент – welcome в комментарии.
И напоследок хочется добавить, что всегда можно улучшить среду, в которой сервер работает: специальные серверные шкафы для неблагоприятных условий, фильтры воздуха, кондиционеры с контролем температуры и влажности, регулярная уборка ЦОДа или серверной (главное, без уборщицы с мокрой шваброй или бытовым пылесосом!). И тогда не придётся отключать сервер только для чистки, скорее чистка станет сопутствующей процедурой при обслуживании сервера.
на главную сниппетов