HPE Smart Array P408i-p SR замена в RAID массиве физического диска в статусе Predictive Failure

Имеется сервер HPE ProLiant поколения Gen10 c RAID контроллером HPE Smart Array P408i-p SR. На контроллере собран массив RAID 60 из множества накопителей большого объёма. В конфигурации контроллера активирован механизм "Spare Drive" для автоматической "горячей" подмены при отказе любого из накопителей в рабочей RAID группе. И вроде бы всё хорошо и контролируемо. Но однажды может наступить момент, когда в работающем RAID массиве один из накопителей поменяет свой статус на "Predictive Failure". То есть накопитель ещё продолжает работу, но из-за накапливающихся ошибок вероятность его отказа в обозримой перспективе становится весьма неиллюзорной.

Predictive Failure disk status in Smart Array Storage Administrator

Проблема в этой ситуации заключается в том, что нет ясности в вопросе, когда же именно произойдёт этот отказ проблемного накопителя и его переход в состояние "Failed". Ведь мы понимаем, что в этот самый момент нагрузка на весь RAID массив возрастёт, так как контроллер автоматически включит в работу Spare накопитель и запустит процедуру реструктуризации массива. В такие периоды из-за возросшей нагрузки на все накопители массива повышается риск возникновения проблем с каким-либо другим накопителем. В такие моменты необходимо быть на готове к возникновению ситуаций, требующих вмешательства администратора. Но иногда некоторые обстоятельства или наши планы расходятся с требуемой готовностью к быстрому реагированию. Например, может подходить к окончанию срок гарантийного обслуживания на накопители, а в "холодный" ЗиП таких накопителей ещё не приобретено (хочется успеть попасть в гарантийную замену накопителя). Или администратор собирается в отпуск с выездом за Полярный круг, а заменить его для быстрой реакции на потенциальные проблемы некому. В такие моменты может возникнуть желание побыстрей провести замену проблемного накопителя. Но как же это можно сделать, ведь накопитель фактически ещё в работе? Можно, конечно, банально вытащить накопитель из дисковой корзины и контроллер Smart Array расценит это как внезапный отказ накопителя и запустит перестройку массива с подключением Spare накопителя. Но, как бы не был хорош Smart Array, такая ситуация - это стресс.

Есть более "мягкий" и контролируемый способ оперативного вывода из работы накопителя в состоянии "Predictive Failure". Современные контроллеры Smart Array снабжены механизмом "Predictive Spare Activation". Например, в документации к контроллеру это упоминается в документе: "HPE SR Gen10 Plus Controller User Guide - Predictive Spare Activation". И здесь следует обратить внимание на преимущества, которые по мнению производителя даёт данный механизм:

This method has the following benefits:

* It is up to four times faster than a typical rebuild.
* It can recover bad blocks during spare activation.
* It supports all RAID levels including RAID 0.

Включить этот механизм можно с помощью утилиты управления Smart Storage Administrator (SSA), используя в свойствах интересующего нас контроллера кнопку "Modify Spare Activation Mode".

Modify Spare Activation Mode in the Smart Array Storage Administrator utility

В конфигурации по умолчанию используется режим "Failure Spare Activation", то есть Spare накопитель включается в работу только при условии, что какой-либо из накопителей массива окончательно перешёл в состояние "Failed". Здесь мы можем переключить контроллер на альтернативный режим "Predictive Spare Activation", при котором активация Spare накопителя происходит даже в случае, если какой-либо из накопителей массива получил статус "Predictive Failure".

Switching Spare Activation Mode to Predictive Spare Activation in Smart Array Storage Administrator

Если вы уже имеете в массиве накопитель в состоянии "Predictive Failure", то после изменения режима сразу должен активироваться Spare Disk с последующим перестроением массива, а проблемный накопитель будет переведёт в статус "Failure due to Predictive Spare Activation". Уже после этого можно физически извлечь проблемный диск из дисковой корзины сервера и заменить его на новый.

Disk status Failure due to Predictive Spare Activation in Smart Array Storage Administrator utility

Помимо графической утилиты SSA мы можем управлять режимом Spare Activation Mode с помощью консольной утилиты "Smart Storage Administrator CLI" (ssacli). На Windows эта утилита по умолчанию устанавливается в каталог "C:\Program Files\Smart Storage Administrator\ssacli\bin\". Помимо Windows эта утилита доступна для других ОС типа Linux или VMware ESXi.

Получим перечень всех контроллеров в системе, чтобы узнать номер слота интересующего нас контроллера:

ssacli ctrl all show

HPE Smart Array P408i-p SR Gen10 in Slot 2  (sn: PFJ11JHD0D52H6)

Обратимся к контроллеру по номеру слота и получим текущее значение атрибута "spareactivationmode", а также увидим перечень допустимых вариантов этого значения:

ssacli ctrl slot=2 modify spareactivationmode=?

Available options are:
   failure (current value) (default value)
   predictive

Переключим контроллер в режим "Predictive Spare Activation", подтвердив запрос:

ssacli ctrl slot=2 modify spareactivationmode=predictive

Warning: Enabling Predictive Spare Activation Mode on an array that contains
         physical drives in predictive failure state will trigger an immediate
         rebuild of the spare drive.

         Continue? (y/n) y

В случае необходимости можем вернуть контроллер в исходное состояние с режимом "Failure Spare Activation":

ssacli ctrl slot=2 modify spareactivationmode=failure

Warning: Disabling Predictive Spare Activation Mode will remove all spare
         drive(s) from arrays that contain only RAID 0 logical drives.  Any
         spare rebuilds currently under way will complete and the predictive
         failure drive will be put offline, even after Predictive Spare
         Activation Mode is disabled.

         Continue? (y/n) y

Поразмыслив на тему выбора оптимального режима, я пришёл к выводу, что лучше оставить всё как есть в конфигурации по умолчанию. То есть для постоянной эксплуатации использовать режим "Failure Spare Activation", а режим "Predictive Spare Activation" включать лишь временно в исключительных ситуациях, когда нужно оперативно вывести из работы накопитель в состоянии "Predictive Failure".

Похожее

Алексей Максимов к Увеличение маски сети и пула адресов для области DHCP в Windows Server 201625.03.2026
Здравствуйте, Игорь. Процедура, описанная в статье, теоретически применима и для Windows Server 2019. Ошибка с кодом 87 "Параметр задан неверно"…
Игорь к Увеличение маски сети и пула адресов для области DHCP в Windows Server 201624.03.2026
Добрый день. Подскажите пожалуйста, а на Windows Server 2019 есть какие-то особенности по данной процедуре? почему-то по инструкции не сработало.…

HPE Smart Array P408i-p SR замена в RAID массиве физического диска в статусе Predictive Failure

Похожее

Добавить комментарийОтменить ответ

Последние комментарии

E-mail подписка на блог

RSS подписка

Архив записей

Мета

Статистика

HPE Smart Array P408i-p SR замена в RAID массиве физического диска в статусе Predictive Failure

Поделиться ссылкой на эту запись:

Похожее

Добавить комментарийОтменить ответ

Последние комментарии

E-mail подписка на блог

RSS подписка

Облако меток

Архив записей

Мета

Статистика