Администраторы vs интеллектуальная СХД Lenovo DM7100F: ошибки внедрения, выводы и результат

Введение

Один клиент приобрел у компании Lenovo мощную систему хранения DM7100F, ожидая от неё самую высокую производительность, которую могла дать на тот момент СХД, при этом поддерживающая не только блочный доступ, но также и файловый.

Особенности системы хранения DM7100F

Универсальность системы
Система хранения DM7100F уникальна на рынке благодаря своей универсальности и возможности гибкого подхода к СХД. В большинстве систем хранения с блочным доступом для организации файлового доступа требуется установка дополнительных серверов, которые преобразуют блочный доступ в файловый. Другие производители создают аналогичные решения, но их архитектура часто включает несколько устройств, работающих в связке. Это усложняет обслуживание данной системы, увеличивает количество кабелей и усложняет интеграцию системы в инфраструктуру.

СХД семейства DM от компании Lenovo выделяется тем, что объединяет весь необходимый функционал в одной контроллерной полке. Эта архитектура способна удовлетворить любые требования: от поддержки различных типов доступа до нативной интеграции с облачными решениями или создания облачных хранилищ данных.

Контейнеризация и преимущества
Встроенная контейнеризация системы DM7100F обеспечивает высокий уровень защиты данных при минимальных накладных расходах. Этот механизм не только повышает безопасность хранения, но и предоставляет возможность отказаться от использования традиционных ленточных библиотек. Такие библиотеки ранее применялись для долгосрочного хранения и архивирования данных, но контейнеризация предлагает более эффективное и современное решение, которое позволяет сократить затраты и упростить управление данными.

Ошибки при внедрении: кейс заказчика

Неправильная настройка
После приобретения системы хранения DM7100F, администраторы заказчика внимательно изучили её характеристики. Эти специалисты обладают глубокими знаниями в области блочных систем хранения и успешно управляют стабильной ИТ-инфраструктурой компании, минимизируя риски простоев. Однако заказчик не учёл, что Lenovo DM7100F — это интеллектуальная система хранения с расширенным функционалом, значительно превосходящим возможности стандартных блочных решений.

Уверенные в своей квалификации, администраторы самостоятельно установили и настроили систему, опираясь на доступные в интернете материалы. Однако после пуско-наладочных работ, уже на этапе тестирования оборудования, они столкнулись с неожиданной проблемой. Проведённые тесты показали крайне низкую производительность: задачи, которые на традиционных блочных СХД выполнялись за 10–15 секунд, на DM7100F занимали до 40 минут. Это вызвало серьезные сомнения в корректности работы системы.

Обращение к производителю
Озадаченные результатами тестирования, администраторы заказчика обратились за помощью к представителям компании Lenovo. Они предположили, что проблема могла быть связана с техническими неисправностями оборудования или некорректной конфигурацией системы.

Почему тесты оказались некорректными?

Описание теста
Тестирование заключалось в создании LUN (логического устройства) по протоколу Fiber Channel в VMWare ESXi и дальнейшем создании Datastore с опцией ThickEagerZero на объём 100 гигабайт. Этот процесс подразумевает последовательную операцию, при которой каждый блок диска размечается и заполняется нулями. В теории, такая операция напрямую зависит от скорости работы дисков и не должна занимать значительное время.

Однако тестирующие администраторы обнаружили, что форматирование заняло значительно больше времени, чем ожидалось. Если на стандартных блочных системах эта операция выполнялась за считанные секунды, то на DM7100F она могла длиться до 40 минут. Это вызвало у администраторов вопросы о корректности работы системы.

Разбор результатов тестирования
Один из тестов показал следующие результаты: на массиве дисков, собранном в RAID-TEC (который имеет тройную четность, допускает выход из строя до трёх дисков одновременно), процесс длился около 15 минут. При этом RAID-TEC увеличивает накладные расходы на расчёт контрольных сумм, что может повлиять на производительность:

Изображение выглядит как текст, снимок экрана, диаграмма, График

Автоматически созданное описание

На диаграммах видно, что:

Хотя количество записываемых нулей достигало 5000 операций одновременно, скорость записи не превышала 220 мегабайт в секунду.
Задержка отклика дисков оставалась в пределах 1 микросекунды.
Операция не нагружала систему, и у неё оставалось достаточно ресурсов для ускорения.

Возник логичный вопрос: если ресурсы системы были доступны, почему они не использовались для ускорения выполнения операции?

Анализ проблемы: На уровне томов и дисков

Том: ограничение скорости
Для ответа на вопрос о низкой производительности теста необходимо перейти от аппаратного уровня на уровень логической организации данных. На RAID-группе дисков в системе хранения создаются тома, которые делят группу дисков на виртуальные пространства. Это позволяет системе использовать диски более эффективно. В тесте форматируемый том показал следующие результаты (см скрины):

Изображение выглядит как текст, диаграмма, снимок экрана, График

Автоматически созданное описание

Как видно на скринах:

На самом томе скорость записи составила всего до 10 мегабайт в секунду.
Количество операций сократилось до 1500 вместо ожидаемых 5000.
При этом задержка отклика достигла 20 микросекунд, что является пороговым значением для большинства задач.

Возникают вопросы:

Почему скорость записи оказалась столь низкой?
Куда делись остальные операции в секунду?
Почему том показал высокую задержку отклика, если диски практически не были нагружены?
Что не учли администраторы при данном тесте?

Чтобы найти ответы, необходимо проанализировать логический диск (LUN), расположенный внутри этого тома.

Логический диск: Повтор анализа
Анализ логического диска показал ту же картину, что и тест тома. Это объясняется тем, что на указанном томе находился только один логический диск. Он не конкурировал с другими задачами и мог использовать все доступные ресурсы тома:

Изображение выглядит как текст, диаграмма, линия, График

Автоматически созданное описание

Изначально администраторы размещали несколько логических дисков на одном томе, что привело к ухудшению производительности. Это связано с тем, что в интеллектуальной системе хранения Lenovo DM7100F архитектура организована таким образом, что каждый том может использовать только часть ресурсов системы хранения. Такой подход позволяет размещать в системе сразу несколько задач, которые в традиционных блочных СХД конкурировали бы за одни и те же ресурсы. В Lenovo DM7100F задачи изолированы друг от друга, что предотвращает взаимное влияние на производительность.

Теперь вернёмся к вопросу: почему тест, проведённый администраторами, оказался некорректным и не подходит для оценки производительности данной СХД?

Уроки из тестирования: Что учесть?

Особенности интеллектуальных СХД
Ключевое отличие DM7100F от традиционных систем хранения заключается в её интеллектуальной архитектуре. Эта система распознаёт характер операций, например, заполнение тома нулями — это однотипные данные с последовательной записью. Если бы это была классическая блочная СХД, она использовала бы все доступные ресурсы для максимально быстрого выполнения операции, даже в ущерб другим задачам и данным, с которыми система должна работать.

Поэтому классические блочные системы часто строятся по принципу «одна СХД, одна задача». Форматирование томов в таких системах выполняется только на этапе пуско-наладочных работ и не влияет на другие операции.

Принцип «одна СХД, много задач»
Система хранения Lenovo DM7100F, благодаря контейнеризации и механизму ограничения ресурсов, поддерживает принцип «одна СХД, много задач». Это позволяет выстраивать сложные архитектуры, где одна система хранения может одновременно выполнять множество разных задач, не снижая производительность критически важных операций.

Основная ошибка администраторов в данном тесте заключалась в том, что СХД распознала выполняемую операцию, которую проводил заказчик, как низкоприоритетную. Так как она не несёт какие-либо критические данные и не должна своей загрузкой помешать работать остальным задачам, критичным к задержкам (например, такие как базы данных), поэтому она была отправлена в сервисный поток с минимально выделенными ресурсами. Это привело к искусственному замедлению логического диска до 20 микросекунд, и картина этих потоков выглядит следующим образом:

Изображение выглядит как текст, снимок экрана

Автоматически созданное описание

Как видно из графика тест «пробросить LUN по протоколу Fiber Channel в VMWare ESXi и создать Datastore с опцией ThickEagerZero на 100 гигабайт» не предназначен для оценки производительности интеллектуальной системы Lenovo DM7100F. Ожидать от него высоких результатов изначально было ошибочным подходом.

Финал: итоги и рекомендации
Объяснив это администраторам, сотрудник компании ДАСКОРП помог составить релевантный тест, который продемонстрировал высокие показатели производительности системы Lenovo DM7100F. В результате заказчик убедился, что приобретённое оборудование полностью удовлетворяет его ожиданиям и соответствует всем требованиям к системам хранения данных.

Для дальнейшей успешной эксплуатации и максимального раскрытия потенциала интеллектуальной СХД DM7100F, а также других систем хранения Lenovo, ДАСкорп рекомендует пройти углублённые курсы обучения. Эти курсы включают как теоретическую, так и практическую подготовку, охватывая следующие ключевые темы:

Архитектура и управление системами Lenovo DM серии и ONTAP Cluster.
Конфигурирование, управление сетями и доступом к данным (NAS / SAN).
Передовые функции: дедупликация, компрессия, компакция данных.
Disaster Recovery и Continuous Availability (SnapMirror, SnapVault, MetroCluster).
Дополнительные функции ONTAP: SnapLock, Quality of Service, FabricPool.
Поддержка и обслуживание кластеров.

Форматы обучения:

Онлайн: 2 полных дня (с 10:00 до 16:00 по МСК).
Оффлайн: 2 полных дня (с 11:00 до 17:00 по МСК).

Программа обучения:

Каждый день обучения включает теоретические лекции и практические лабораторные занятия, такие как создание и управление кластерами, настройка SAN/NAS, управление снапшотами и эффективностью хранилищ, работа с FlexClone Volumes и многое другое.

Присоединяйтесь к обучению ДАСКОРП, чтобы получить все необходимые знания и навыки для эффективного управления современными интеллектуальными системами хранения данных.

Обучение подойдёт как для опытных специалистов, так и для тех, кто только начинает работать с системами хранения Lenovo. Оставьте заявку на обучение прямо сейчас и максимально используйте потенциал вашего оборудования

https://dascorp.com/education/tproduct/795972141-379079864331-sdm-01-tehnicheskoe-obuchenie-po-shd-len