Серверы HPE ProLiant DL380 G9 и режим охлаждения в конфигурации по умолчанию

Настраивая контроллеры iLO4 на партии серверов HPE ProLiant DL380 G9 обратил внимание на пару моментов, касающихся режима охлаждения. Серверы поколения G9 обладают широким набором температурных сенсоров и позволяют в реальном режиме времени наглядно получать картину распределения нагрева в разных зонах серверной платформы. В моём случае все серверы установлены в одном серверном помещении (в разных шкафах) и имеют на входе (в районе лицевой панели) примерно одинаковую температуру в пределах 16-17С. Однако посмотрев на 3D-модель температурного графика я заметил, что ситуация выглядит так, как будто вентиляторы не справляются со своей работой и в некоторых зонах сервера нагрев достигает 68-70С.

Чтобы не быть голословным, приведу пример такого графика с информацией по температурным датчикам. Здесь хорошо видно, что в зоне дискового контроллера 27-HD Controller самый приличный нагрев. И это на системе, где к контроллеру подключены только два SAS диска в RAID1, на которых нет никакой тяжёлой нагрузки (выполняется только хостовая ОС Windows Server 2012 R2).

Здесь же можно увидеть ещё одну странность. Нагрев в зоне 03-CPU 2 ощутимо выше, чем в зоне 02-CPU 1. Самое интересное, что этот перекос был обнаружен абсолютно на всех серверах партии в независимости от их текущей нагрузки. А версии Firmware везде, разумеется, установлены одинаковые и самые актуальные.

Любопытным в этой ситуации оказалось также то, что при таком, казалось бы, неслабом нагреве, вентиляторы работают с крайне скромной отдачей, не выдавая даже пятой части своей скорости:

Выяснилось, что на серверах HPE ProLiant DL380 G9 в настройках BIOS в конфигурации по умолчанию используется схема, так называемого "оптимального охлаждения" - Optimal Cooling, которая и приводит к такому результату. Помимо данного режима охлаждения, имеются ещё два режима – Increased Cooling и Maximum Cooling.

Режим Maximum Cooling использует самый агрессивный режим работы вентиляторов (100% скорости всех вентиляторов) и, как, видимо, предполагалось архитекторами этой системы, должен быть самым эффективным в плане снижения нагрева сервера. Однако практические тесты показали, что на фоне несущественного снижения температуры нагрева (датчик того же контроллера HD ни на одном сервере не выдал ниже 45-46С) вентиляторы начинают так неистово орать, что возникает ощущение того, что шкаф сейчас оторвётся от пола и пойдёт на взлёт. А одновременная работа сразу нескольких серверов в этом режиме порождает стойкое желание убежать куда-нибудь подальше от серверной.

Наиболее оптимальным вариантом мне показался режим Increased Cooling, который неплохо согнал температурный режим (по сравнению с Optimal Cooling) на всех серверах и ликвидировал проблему неравномерного нагрева процессорных зон, не давая при этом ощутимого прироста в генерации шума.

Чтобы задействовать желаемый режим работы вентиляторов, в процессе загрузки сервер дождёмся появления меню в нижней части и нажмём F9:

Попав в меню System Configuration, выберем пункт BIOS/Platform Configuration (RBSU), затем Advanced Options > Fan and Thermal Options. В опции Thermal Configuration вместо заданного по умолчанию режима Optimal Cooling выберем режим Increased Cooling.

Для сохранения выбранного режима нажмём F10, после чего вернёмся на верхний уровень меню в System Utilities. Здесь выберем пункт перезагрузки сервера Reboot the System (новый режим работы вентиляторов начнёт работу только после перезагрузки):

В результате смены режима охлаждения, самая горячая зона остыла примерно на 20C:

Здесь же видно, что теперь нет перекоса в охлаждении процессорных зон и нет такого нагрева, как прежде, в зоне LOM:

При этом вентиляторы работают в динамическом режиме, выжимая на разных серверах в районе 40-45% своей полной скорости и не создавая избыточного шума:

Как бы там ни было, но по прошествии n-ого времени эксплуатации этих серверов производить замену (учитывая возможности горячей замены) более активно работающих вентиляторов представляется более вменяемой перспективой, чем замена контроллеров, работающих в режиме постоянно греющейся "печки".

Всего комментариев: 15 Комментировать

  1. odarchuk /

    Глянул на ProLiant DL360p Gen8 - такая же картина. Попробую подтюнить!

    1. Алексей Максимов / Автор записи

      Да, на форуме HPE находил ветку с обсуждением G8. Там на ровном месте у людей нагрев идёт вообще до 85C.

      1. odarchuk /

        у меня тоже 85 ))

        ProLiant Gen8 Sensors

        1. Алексей Максимов / Автор записи

          Это прекрасно.

  2. odarchuk /

    а почти рядом есть HP DL360e Gen8 - там ваще странно.
    В таблице сенсор 29-PCI 1 вроде как 85С а на 3Д-карте его вообще нет и сама карта вроде "нормальная"
    карта - http://dl3.joxi.net/drive/2018/04/19/0002/3592/171528/28/61c3a84ab2.png

    1. Алексей Максимов / Автор записи

      Эта карта может перестраиваться и меняться во время перезагрузки сервера. Из таблицы могут пропадать и появляться показания. Смотреть лучше именно на работающем и загруженном сервере.

  3. Михаил /

    В 380e греется датчик 30-PCI 2 до 77. Учитывая что значение caution 100 - думается это вполне нормально.

  4. Samart Ost /

    Поменял на Dl 360 gen 8 на increase шум значительно больше стал. Вернул на optimal пока максимальная температура датчиков 60с.

  5. Виктор /

    На самом деле температурные показатели меняются при обновления биоса.
    Там где было 70, после обновления может стать 60

  6. Станислав /

    столкнулся с такой же проблемой. При замене термопасты заметил, что на одном проце паста высохла, на втором нормальная. Полез смотреть температуру, начал гуглить тупо по HD Controller и все как в статье один в один.
    Поменял настройки биоса и вуаля!! Автор спасибо тебе за сэкономленное время!

  7. Андрей /

    Автору огромное спасибо. Долго искал решение данного вопроса.

  8. netlink755 WORLD /

    КПТ-8 и все норм. и на контролере тоже намазал.
    Front of server

    Sensor Data ( show missing sensors )
    Show values in Fahrenheit
    01-Inlet Ambient Ambient 15 0 OK 11C Caution: 42C; Critical: 50C
    02-CPU 1 CPU 11 5 OK 40C Caution: 70C; Critical: N/A
    04-P1 DIMM 1-6 Memory 9 5 OK 20C Caution: 89C; Critical: N/A
    05-P1 DIMM 7-12 Memory 14 5 OK 20C Caution: 89C; Critical: N/A
    08-HD Max System 10 0 OK 35C Caution: 60C; Critical: N/A
    10-Chipset System 13 10 OK 27C Caution: 105C; Critical: N/A
    11-PS 1 Inlet Power Supply 1 10 OK 17C Caution: N/A; Critical: N/A
    13-VR P1 System 10 1 OK 26C Caution: 115C; Critical: 120C
    15-VR P1 Mem System 9 1 OK 20C Caution: 115C; Critical: 120C
    16-VR P1 Mem System 13 1 OK 19C Caution: 115C; Critical: 120C
    19-PS 1 Internal Power Supply 1 13 OK 40C Caution: N/A; Critical: N/A
    27-HD Controller I/O Board 8 8 OK 42C Caution: 100C; Critical: N/A
    30-Front Ambient Ambient 9 0 OK 16C Caution: 65C; Critical: N/A
    31-PCI 1 Zone. I/O Board 13 13 OK 18C Caution: 70C; Critical: 75C
    32-PCI 2 Zone. I/O Board 13 13 OK 18C Caution: 70C; Critical: 75C
    33-PCI 3 Zone. I/O Board 13 13 OK 18C Caution: 70C; Critical: 75C
    37-HD Cntlr Zone I/O Board 11 7 OK 22C Caution: 75C; Critical: N/A
    38-I/O Zone System 14 11 OK 20C Caution: 75C; Critical: 80C
    39-P/S 2 Zone System 3 7 OK 16C Caution: 70C; Critical: N/A
    40-Battery Zone System 7 10 OK 20C Caution: 75C; Critical: 80C
    41-iLO Zone System 9 14 OK 25C Caution: 90C; Critical: 95C
    43-Storage Batt System 5 1 OK 15C Caution: 60C; Critical: N/A
    44-Fuse Power Supply 3 14 OK 16C Caution: 100C; Critical: N/A

  9. Александр /

    на дворе 21-й год, и вдруг ни с того ни с сего каааак взвыли...
    Перенастроил биос, но пока положительного результата нет. Вот думаю реально поменять термопасту и воткнуть доп.вентилятор именно на контроллер.
    А то впереди лето, тяжко может стать в какой-то момент и сервер взлететь захочет...
    Может кто-то поделиться свежими прошивками на DL380pG8 ?

    1. Александр /

      А подскажите еще. Может ли перегреваться контроллер, если в него воткнуты диски в не очень хорошем состоянии? Я бы даже сказал в плохом состоянии?

      1. Алексей Максимов / Автор записи

        Если диски в плохом состоянии, тогда и нагреве можно не переживать. Гори оно всё синим пламенем :)

Добавить комментарий