Настраивая контроллеры iLO4 на партии серверов HPE ProLiant DL380 G9 обратил внимание на пару моментов, касающихся режима охлаждения. Серверы поколения G9 обладают широким набором температурных сенсоров и позволяют в реальном режиме времени наглядно получать картину распределения нагрева в разных зонах серверной платформы. В моём случае все серверы установлены в одном серверном помещении (в разных шкафах) и имеют на входе (в районе лицевой панели) примерно одинаковую температуру в пределах 16-17С. Однако посмотрев на 3D-модель температурного графика я заметил, что ситуация выглядит так, как будто вентиляторы не справляются со своей работой и в некоторых зонах сервера нагрев достигает 68-70С.
Чтобы не быть голословным, приведу пример такого графика с информацией по температурным датчикам. Здесь хорошо видно, что в зоне дискового контроллера 27-HD Controller самый приличный нагрев. И это на системе, где к контроллеру подключены только два SAS диска в RAID1, на которых нет никакой тяжёлой нагрузки (выполняется только хостовая ОС Windows Server 2012 R2).
Здесь же можно увидеть ещё одну странность. Нагрев в зоне 03-CPU 2 ощутимо выше, чем в зоне 02-CPU 1. Самое интересное, что этот перекос был обнаружен абсолютно на всех серверах партии в независимости от их текущей нагрузки. А версии Firmware везде, разумеется, установлены одинаковые и самые актуальные.
Любопытным в этой ситуации оказалось также то, что при таком, казалось бы, неслабом нагреве, вентиляторы работают с крайне скромной отдачей, не выдавая даже пятой части своей скорости:
Выяснилось, что на серверах HPE ProLiant DL380 G9 в настройках BIOS в конфигурации по умолчанию используется схема, так называемого "оптимального охлаждения" - Optimal Cooling, которая и приводит к такому результату. Помимо данного режима охлаждения, имеются ещё два режима – Increased Cooling и Maximum Cooling.
Режим Maximum Cooling использует самый агрессивный режим работы вентиляторов (100% скорости всех вентиляторов) и, как, видимо, предполагалось архитекторами этой системы, должен быть самым эффективным в плане снижения нагрева сервера. Однако практические тесты показали, что на фоне несущественного снижения температуры нагрева (датчик того же контроллера HD ни на одном сервере не выдал ниже 45-46С) вентиляторы начинают так неистово орать, что возникает ощущение того, что шкаф сейчас оторвётся от пола и пойдёт на взлёт. А одновременная работа сразу нескольких серверов в этом режиме порождает стойкое желание убежать куда-нибудь подальше от серверной.
Наиболее оптимальным вариантом мне показался режим Increased Cooling, который неплохо согнал температурный режим (по сравнению с Optimal Cooling) на всех серверах и ликвидировал проблему неравномерного нагрева процессорных зон, не давая при этом ощутимого прироста в генерации шума.
Чтобы задействовать желаемый режим работы вентиляторов, в процессе загрузки сервер дождёмся появления меню в нижней части и нажмём F9:
Попав в меню System Configuration, выберем пункт BIOS/Platform Configuration (RBSU), затем Advanced Options > Fan and Thermal Options. В опции Thermal Configuration вместо заданного по умолчанию режима Optimal Cooling выберем режим Increased Cooling.
Для сохранения выбранного режима нажмём F10, после чего вернёмся на верхний уровень меню в System Utilities. Здесь выберем пункт перезагрузки сервера Reboot the System (новый режим работы вентиляторов начнёт работу только после перезагрузки):
В результате смены режима охлаждения, самая горячая зона остыла примерно на 20C:
Здесь же видно, что теперь нет перекоса в охлаждении процессорных зон и нет такого нагрева, как прежде, в зоне LOM:
При этом вентиляторы работают в динамическом режиме, выжимая на разных серверах в районе 40-45% своей полной скорости и не создавая избыточного шума:
Как бы там ни было, но по прошествии n-ого времени эксплуатации этих серверов производить замену (учитывая возможности горячей замены) более активно работающих вентиляторов представляется более вменяемой перспективой, чем замена контроллеров, работающих в режиме постоянно греющейся "печки".
Глянул на ProLiant DL360p Gen8 - такая же картина. Попробую подтюнить!
Да, на форуме HPE находил ветку с обсуждением G8. Там на ровном месте у людей нагрев идёт вообще до 85C.
у меня тоже 85 ))
Это прекрасно.
а почти рядом есть HP DL360e Gen8 - там ваще странно.
В таблице сенсор 29-PCI 1 вроде как 85С а на 3Д-карте его вообще нет и сама карта вроде "нормальная"
карта - http://dl3.joxi.net/drive/2018/04/19/0002/3592/171528/28/61c3a84ab2.png
Эта карта может перестраиваться и меняться во время перезагрузки сервера. Из таблицы могут пропадать и появляться показания. Смотреть лучше именно на работающем и загруженном сервере.
В 380e греется датчик 30-PCI 2 до 77. Учитывая что значение caution 100 - думается это вполне нормально.
Поменял на Dl 360 gen 8 на increase шум значительно больше стал. Вернул на optimal пока максимальная температура датчиков 60с.
На самом деле температурные показатели меняются при обновления биоса.
Там где было 70, после обновления может стать 60
столкнулся с такой же проблемой. При замене термопасты заметил, что на одном проце паста высохла, на втором нормальная. Полез смотреть температуру, начал гуглить тупо по HD Controller и все как в статье один в один.
Поменял настройки биоса и вуаля!! Автор спасибо тебе за сэкономленное время!
Автору огромное спасибо. Долго искал решение данного вопроса.
КПТ-8 и все норм. и на контролере тоже намазал.
Front of server
Sensor Data ( show missing sensors )
Show values in Fahrenheit
01-Inlet Ambient Ambient 15 0 OK 11C Caution: 42C; Critical: 50C
02-CPU 1 CPU 11 5 OK 40C Caution: 70C; Critical: N/A
04-P1 DIMM 1-6 Memory 9 5 OK 20C Caution: 89C; Critical: N/A
05-P1 DIMM 7-12 Memory 14 5 OK 20C Caution: 89C; Critical: N/A
08-HD Max System 10 0 OK 35C Caution: 60C; Critical: N/A
10-Chipset System 13 10 OK 27C Caution: 105C; Critical: N/A
11-PS 1 Inlet Power Supply 1 10 OK 17C Caution: N/A; Critical: N/A
13-VR P1 System 10 1 OK 26C Caution: 115C; Critical: 120C
15-VR P1 Mem System 9 1 OK 20C Caution: 115C; Critical: 120C
16-VR P1 Mem System 13 1 OK 19C Caution: 115C; Critical: 120C
19-PS 1 Internal Power Supply 1 13 OK 40C Caution: N/A; Critical: N/A
27-HD Controller I/O Board 8 8 OK 42C Caution: 100C; Critical: N/A
30-Front Ambient Ambient 9 0 OK 16C Caution: 65C; Critical: N/A
31-PCI 1 Zone. I/O Board 13 13 OK 18C Caution: 70C; Critical: 75C
32-PCI 2 Zone. I/O Board 13 13 OK 18C Caution: 70C; Critical: 75C
33-PCI 3 Zone. I/O Board 13 13 OK 18C Caution: 70C; Critical: 75C
37-HD Cntlr Zone I/O Board 11 7 OK 22C Caution: 75C; Critical: N/A
38-I/O Zone System 14 11 OK 20C Caution: 75C; Critical: 80C
39-P/S 2 Zone System 3 7 OK 16C Caution: 70C; Critical: N/A
40-Battery Zone System 7 10 OK 20C Caution: 75C; Critical: 80C
41-iLO Zone System 9 14 OK 25C Caution: 90C; Critical: 95C
43-Storage Batt System 5 1 OK 15C Caution: 60C; Critical: N/A
44-Fuse Power Supply 3 14 OK 16C Caution: 100C; Critical: N/A
на дворе 21-й год, и вдруг ни с того ни с сего каааак взвыли...
Перенастроил биос, но пока положительного результата нет. Вот думаю реально поменять термопасту и воткнуть доп.вентилятор именно на контроллер.
А то впереди лето, тяжко может стать в какой-то момент и сервер взлететь захочет...
Может кто-то поделиться свежими прошивками на DL380pG8 ?
А подскажите еще. Может ли перегреваться контроллер, если в него воткнуты диски в не очень хорошем состоянии? Я бы даже сказал в плохом состоянии?
Если диски в плохом состоянии, тогда и нагреве можно не переживать. Гори оно всё синим пламенем :)