Погружайтесь в мир ИТ: новости, тренды, статьи и советы от специалистов DAScorp
Погружайтесь в мир ИТ:
новости, тренды, статьи и советы
от специалистов DAScorp
Погружайтесь в мир ИТ:
новости, тренды,
статьи и советы
от специалистов
DAScorp
Блог DAScorp

Забытые уроки мониторинга

Почему xClarity Administrator – это единственное правильное решение для мониторинга серверов Lenovo

Когда речь заходит о мониторинге серверов, многие администраторы стремятся использовать популярные системы, такие как Zabbix или Grafana. Эти инструменты широко применяются в ИТ-инфраструктуре благодаря своей бесплатной основе и гибкости настройки. Однако, когда дело касается серверов Lenovo, выбор Zabbix или Grafana для мониторинга может привести к ряду проблем и негативно сказаться на стабильности инфраструктуры, если не обладать пониманием архитектуры сервисного процессора Lenovo ХСС.
Рассмотрим, почему это так, и объясним, почему xClarity Administrator от Lenovo является не только оптимальным решением для мониторинга серверов Lenovo, но и может служить идеальным промежуточным звеном между Lenovo XCC и другими системами мониторинга.

Проблема ложных ожиданий от xClarity Controller

Многие администраторы считают, что xClarity Controller (XCC) — это просто аналог IPMI, как у серверов Dell или HP, и поэтому не ожидают от него активного оповещения, считая его «молчаливой» системой. По этой причине они отдают предпочтение таким решениям, как Zabbix и Grafana, которые популярны благодаря постоянному опросу IPMI на предмет доступности устройств. Однако такой подход приводит к значительной нагрузке на сервисные процессоры и сеть управления, что может нарушить стабильную работу инфраструктуры.
В отличие от IPMI, XCC от Lenovo сам оповещает внешние системы мониторинга о сбоях, только когда это действительно необходимо, устраняя лишние запросы и сохраняя пропускную способность сети управления (обычно 1 ГБ). Это позволяет системе мониторинга Lenovo xClarity поддерживать до 10 000 устройств в одной сети без перегрузок и необходимости делить ее на сегменты, чтобы разгрузить потоки запрашиваемой информации.
Преимущество XCC в том, что пакеты данных передаются только по важным событиям: когда выходит из строя диск, нарушается работа вентилятора или превышена температура. В противоположность этому, сторонние мониторинговые системы вроде Zabbix и Grafana постоянно собирают огромный объем информации: всё в порядке с дисками, температура нормальная, вентиляторы работают. Эта тонна данных запрашивается с сотен серверов каждые 10–15 секунд.
Когда у заказчика 30–40 серверов, нагрузка сети кажется незначительной, и система мониторинга функционирует без видимых задержек. Но по мере роста инфраструктуры — например, когда серверов становится больше 100 — администраторы начинают замечать проблемы. Сеть управления перестаёт справляться с объемом трафика, и тогда требуется полностью пересмотреть её архитектуру, что может затянуться на месяцы, если не годы экспериментов, и повлечь за собой риск пропуска реальных сбоев.
При этом надо понимать, что использование XCC требует специфических знаний и навыков.

Чем грозит использование Zabbix и Grafana для серверов Lenovo?

Когда администраторы начинают настраивать сторонние системы мониторинга, такие как Zabbix или Grafana, возникает множество проблем:
Ложные срабатывания. Из-за некорректной интеграции и высокой частоты запросов такие системы мониторинга могут не дожидаться ответа от xClarity Controller (XCC) и подставлять максимальное значение по умолчанию, интерпретируя его как серьёзное предупреждение. Например, в случае с Lenovo это может приводить к тому, что Zabbix сигнализирует о перегреве процессора до 255 градусов — значении, которое является ошибочным и фактически отражает не реальную температуру, а реакцию на перегрузку сети запросами. С официальной информацией по этой ошибке можете ознакомиться на сайте производителя.
Когда XCC запрашивают слишком часто, особенно на старых версиях микрокода, контроллер может на короткий момент отразить максимальную температуру, например, 255 градусов по Цельсию, хотя физически температура процессора остаётся в пределах нормы. Если бы использовалась интеллектуальная система мониторинга Lenovo, такие аномальные всплески были бы отброшены как ложные, поскольку невозможно, чтобы процессор резко нагрелся до 255 градусов и тут же вернулся к 40-50 градусам. Однако простые системы мониторинга, такие как Zabbix и Grafana, воспринимают это как критическую ошибку и мгновенно сигнализируют о неисправности, что может ввести администратора в заблуждение.
Именно поэтому Lenovo была вынуждена выпустить обновление микрокода, чтобы уменьшить вероятность таких ложных срабатываний для тех, кто не использует родные инструменты Lenovo и не знаком с архитектурой XCC. Пытаясь сделать системы мониторинга универсальными, сторонние разработчики, такие как Zabbix и Grafana, часто не учитывают специфику оборудования от разных производителей. В результате такие системы не распознают архитектурные особенности Lenovo, реагируют на несуществующие проблемы и, в лучшем случае, используют лишь 5% функциональных возможностей, которые заложены производителем.
  • Зависание xClarity Controller.
Некорректная настройка мониторинга и слишком частые запросы к IPMI перегружают сервисный процессор, заставляя его обрабатывать только эти запросы. В результате xClarity Controller зависает и не успевает выполнять свою основную задачу — следить за работоспособностью сервера и его компонентов, что приводит к пропущенным сигналам о реальных проблемах.
  • Сбои при обновлении микрокодов.
Чрезмерные запросы от сторонних систем мониторинга могут мешать обновлению прошивок серверов. Например, после обновления карта PCI должна отправить XCC уведомление об успешной установке. Если XCC перегружен запросами, это уведомление может не обработаться вовремя, и по истечении таймаута XCC пометит карту как нерабочую. В итоге это вызывает ложные сигналы о неисправности и потенциальные простои.

Почему xClarity Administrator – лучшее решение для серверов Lenovo?

xClarity Administrator – это специальное решение для мониторинга и управления серверами Lenovo, которое обеспечивает интеграцию на уровне архитектуры и имеет следующие преимущества:
  1. Глубокая интеграция с оборудованием Lenovo. xClarity Administrator поддерживает все специфические функции серверов Lenovo и способен корректно обрабатывать сигналы от xClarity Controller, обеспечивая точные и своевременные оповещения.
  2. Бесплатное решение от Lenovo. В отличие от сторонних платных систем, xClarity Administrator предоставляется бесплатно, и его можно быстро развернуть на виртуальной машине. Это снижает затраты на внедрение и настройку мониторинга.
  3. Оптимизация производительности серверов. xClarity Administrator не перегружает контроллер запросами и не создает дополнительных проблем при обновлении микрокодов, что позволяет поддерживать стабильную работу всей инфраструктуры.

Учитесь правильно настраивать мониторинг с xClarity

Чтобы эффективно использовать xClarity Administrator и избежать проблем, связанных с неправильной интеграцией мониторинга, важно пройти обучение. На курсе «xClarity Administrator» вы узнаете, как правильно настраивать мониторинг, управлять инфраструктурой и избегать распространённых ошибок. Этот курс разработан с учётом реального опыта специалистов, которые сталкивались с проблемами некорректной интеграции Zabbix и других систем.
xClarity Administrator — это не просто один из инструментов, а жизненно необходимое решение для эффективного управления серверной инфраструктурой Lenovo. Применение сторонних систем мониторинга, таких как Zabbix или Grafana, без знаний специфики архитектуры Lenovo, ведёт к ложным срабатываниям, сбоям и остановкам системы. Чтобы избежать подобных проблем, важно обучаться и внедрять решения, которые действительно подходят для вашей инфраструктуры.
Хотите узнать больше и улучшить свои навыки в области мониторинга серверов Lenovo? Ознакомьтесь с курсом «xClarity Administrator» на нашем сайте и узнайте, как настроить мониторинг правильно и избежать типичных ошибок.