Про что курс Курс посвящен основам установки, настройки и администрирования высокопроизводительных вычислительных кластеров (HPC — High-Performance Computing). Он охватывает ключевые этапы развертывания HPC-кластера, начиная с его архитектуры и базовых компонентов и заканчивая тестированием производительности и устранением неисправностей. Обучение включает теоретические основы, знакомство с инструментами управления и практическую настройку кластера.
Что будет уметь успешно окончивший его участник:
Развертывать и настраивать HPC-кластеры с нуля
Понимать архитектуру HPC-систем, компоненты и их взаимодействие
Использовать планировщик задач SLURM для управления вычислительными ресурсами
Работать с системой хранения данных NFS (Network File System)
Настраивать и запускать тесты производительности, включая LINPACK
Диагностировать и устранять неисправности в вычислительном кластере
Оптимизировать ресурсы и тестировать надежность кластера
Что включает курс
Теоретическая часть:
Введение в HPC-кластеры: назначение, компоненты, принципы работы
Обзор аппаратной архитектуры кластера: вычислительные узлы, сети, хранилище
Файловые системы для HPC: локальные и распределенные решения (NFS)
Планировщик задач SLURM: концепция, настройки, распределение вычислительных ресурсов
Основы производительности HPC: LINPACK и другие тестовые утилиты
Практическая часть:
Установка и базовая настройка HPC-кластера
Развертывание системы хранения на базе NFS
Настройка и работа с SLURM для управления задачами в HPC
Запуск тестов производительности (LINPACK) и анализ результатов
Поиск узких мест в кластере и способы их устранения
Мониторинг работы кластера, диагностика и устранение неисправностей
Программа обучения (онлайн/оффлайн) Этот курс поможет участникам получить практические навыки работы с HPC-кластерами и подготовит их к внедрению вычислительных систем в различных отраслях.
Длительность обучения: Онлайн: 2 полных дня (с 10:00 до 16:00 по МСК) Оффлайн: 2 полных дня (с 11:00 до 17:00 по МСК)
День 1 (10:00 – 16:00)
09:30 - 10:00 — Регистрация участников 10:00 - 11:30 — НРС и области его применения 11:30 - 11:45 — Перерыв на кофе 11:45 - 13:15 — Из каких частей состоит HPC 13:15 - 14:15 — Перерыв на обед 14:15 - 15:45 — Лабораторные работы:
Лабораторная 1: Подготовка управляющего узла Лабораторная 2: Установка и настройка Confluent Лабораторная 3: Инсталляция вычислительных узлов
Лабораторная 4: Инсталляция, настройка и тестирование SLURM Лабораторная 5: Инсталляция, настройка и тестирование LINPACK
15:45 - 16:00 — Подведение итогов обучения
Определение (Что такое HPC?) HPC (High-Performance Computing) — это метод вычислений, использующий мощные суперкомпьютеры и вычислительные кластеры для решения сложных задач, требующих больших объемов обработки данных. HPC позволяет выполнять миллиарды и триллионы операций в секунду (флопс), что делает его незаменимым в научных и инженерных вычислениях.
Основные характеристики:
Высокая производительность — HPC-системы используют параллельную обработку данных, позволяя распределять задачи между сотнями или тысячами процессоров.
Масштабируемость — можно увеличивать вычислительные мощности, добавляя узлы к кластеру.
Гибкость хранения данных — поддержка различных систем хранения, в том числе сетевых файловых систем.
Устойчивость к сбоям — продвинутые механизмы резервирования и балансировки нагрузки
Применение
Наука и исследования: моделирование молекулярных процессов, климатических изменений, физических явлений.
Инженерия: расчет аэродинамики, моделирование конструкций, создание новых материалов.
Медицина: обработка геномных данных, разработка лекарств, моделирование биологических процессов.
Финансы: моделирование рисков, анализ больших массивов данных, предсказание трендов.
Государственные проекты: защита данных, анализ разведывательной информации, оборонные исследования.
Кому подойдет курс
Инженерам по развертыванию вычислительных систем
Системным администраторам, работающим с HPC-инфраструктурой
Разработчикам и аналитикам, работающим с высоконагруженными вычислениями
ИТ-специалистам, желающим освоить основы управления суперкомпьютерами
Требования к кандидату на обучение
Базовые знания Linux (работа в командной строке)
Понимание принципов работы компьютерных сетей
Опыт работы с серверами или системами хранения данных (желательно, но не обязательно)