Настраивая контроллеры iLO4 на партии серверов HPE ProLiant DL380 G9 обратил внимание на пару моментов, касающихся режима охлаждения. Серверы поколения G9 обладают широким набором температурных сенсоров и позволяют в реальном режиме времени наглядно получать картину распределения нагрева в разных зонах серверной платформы. В моём случае все серверы установлены в одном серверном помещении (в разных шкафах) и имеют на входе (в районе лицевой панели) примерно одинаковую температуру в пределах 16-17С. Однако посмотрев на 3D-модель температурного графика я заметил, что ситуация выглядит так, как будто вентиляторы не справляются со своей работой и в некоторых зонах сервера нагрев достигает 68-70С.
Чтобы не быть голословным, приведу пример такого графика с информацией по температурным датчикам. Здесь хорошо видно, что в зоне дискового контроллера 27-HD Controller самый приличный нагрев. И это на системе, где к контроллеру подключены только два SAS диска в RAID1, на которых нет никакой тяжёлой нагрузки (выполняется только хостовая ОС Windows Server 2012 R2).
Здесь же можно увидеть ещё одну странность. Нагрев в зоне 03-CPU 2 ощутимо выше, чем в зоне 02-CPU 1. Самое интересное, что этот перекос был обнаружен абсолютно на всех серверах партии в независимости от их текущей нагрузки. А версии Firmware везде, разумеется, установлены одинаковые и самые актуальные.
Любопытным в этой ситуации оказалось также то, что при таком, казалось бы, неслабом нагреве, вентиляторы работают с крайне скромной отдачей, не выдавая даже пятой части своей скорости:
Выяснилось, что на серверах HPE ProLiant DL380 G9 в настройках BIOS в конфигурации по умолчанию используется схема, так называемого "оптимального охлаждения" - Optimal Cooling, которая и приводит к такому результату. Помимо данного режима охлаждения, имеются ещё два режима – Increased Cooling и Maximum Cooling.
Режим Maximum Cooling использует самый агрессивный режим работы вентиляторов (100% скорости всех вентиляторов) и, как, видимо, предполагалось архитекторами этой системы, должен быть самым эффективным в плане снижения нагрева сервера. Однако практические тесты показали, что на фоне несущественного снижения температуры нагрева (датчик того же контроллера HD ни на одном сервере не выдал ниже 45-46С) вентиляторы начинают так неистово орать, что возникает ощущение того, что шкаф сейчас оторвётся от пола и пойдёт на взлёт. А одновременная работа сразу нескольких серверов в этом режиме порождает стойкое желание убежать куда-нибудь подальше от серверной.
Наиболее оптимальным вариантом мне показался режим Increased Cooling, который неплохо согнал температурный режим (по сравнению с Optimal Cooling) на всех серверах и ликвидировал проблему неравномерного нагрева процессорных зон, не давая при этом ощутимого прироста в генерации шума.
Чтобы задействовать желаемый режим работы вентиляторов, в процессе загрузки сервер дождёмся появления меню в нижней части и нажмём F9:
Попав в меню System Configuration, выберем пункт BIOS/Platform Configuration (RBSU), затем Advanced Options > Fan and Thermal Options. В опции Thermal Configuration вместо заданного по умолчанию режима Optimal Cooling выберем режим Increased Cooling.
Для сохранения выбранного режима нажмём F10, после чего вернёмся на верхний уровень меню в System Utilities. Здесь выберем пункт перезагрузки сервера Reboot the System (новый режим работы вентиляторов начнёт работу только после перезагрузки):
В результате смены режима охлаждения, самая горячая зона остыла примерно на 20C:
Здесь же видно, что теперь нет перекоса в охлаждении процессорных зон и нет такого нагрева, как прежде, в зоне LOM:
При этом вентиляторы работают в динамическом режиме, выжимая на разных серверах в районе 40-45% своей полной скорости и не создавая избыточного шума:
Как бы там ни было, но по прошествии n-ого времени эксплуатации этих серверов производить замену (учитывая возможности горячей замены) более активно работающих вентиляторов представляется более вменяемой перспективой, чем замена контроллеров, работающих в режиме постоянно греющейся "печки".
Глянул на ProLiant DL360p Gen8 - такая же картина. Попробую подтюнить!
Да, на форуме HPE находил ветку с обсуждением G8. Там на ровном месте у людей нагрев идёт вообще до 85C.
у меня тоже 85 ))
Это прекрасно.
а почти рядом есть HP DL360e Gen8 - там ваще странно.
В таблице сенсор 29-PCI 1 вроде как 85С а на 3Д-карте его вообще нет и сама карта вроде "нормальная"
карта - http://dl3.joxi.net/drive/2018/04/19/0002/3592/171528/28/61c3a84ab2.png
Эта карта может перестраиваться и меняться во время перезагрузки сервера. Из таблицы могут пропадать и появляться показания. Смотреть лучше именно на работающем и загруженном сервере.
В 380e греется датчик 30-PCI 2 до 77. Учитывая что значение caution 100 - думается это вполне нормально.
Поменял на Dl 360 gen 8 на increase шум значительно больше стал. Вернул на optimal пока максимальная температура датчиков 60с.
На самом деле температурные показатели меняются при обновления биоса.
Там где было 70, после обновления может стать 60
столкнулся с такой же проблемой. При замене термопасты заметил, что на одном проце паста высохла, на втором нормальная. Полез смотреть температуру, начал гуглить тупо по HD Controller и все как в статье один в один.
Поменял настройки биоса и вуаля!! Автор спасибо тебе за сэкономленное время!