[PVE-03] Хранилища ZFS и Ceph

124200,00
Запросить консультацию

Про что курс
Двухдневный курс, посвящённый подсистеме хранения данных в Proxmox VE 8.x на двух ключевых open-source-технологиях: ZFS (локальный пул с CoW, снимками, репликацией) и Ceph (распределённый объектно-блочно-файловый storage для гиперконвергентной архитектуры). Участники научатся проектировать дисковые подсистемы под нагрузку, разворачивать ZFS-пулы и Ceph-кластеры, обслуживать их в production, мониторить здоровье, действовать при сбоях OSD/диска/узла и восстанавливать данные. Уделяется внимание реальным сценариям: PG/replica/EC планирование, BlueStore DB на отдельных SSD, ceph osd reweight, ZFS scrub, rolling upgrade Ceph между мажорными версиями.

Что будет уметь успешно окончивший его участник
  • Проектировать ZFS-пулы с учётом нагрузки (RAID-Z1/2/3, mirror, special vdev для metadata).
  • Настраивать ZFS-репликацию между узлами Proxmox через pvesr.
  • Развёртывать Ceph cluster на 3+ узлах в гиперконвергентной конфигурации (HCI).
  • Создавать и обслуживать пулы Ceph: replicated (size=3/min_size=2), erasure-coded.
  • Управлять CRUSH-rules: device classes (ssd/hdd), failure domain (host/rack/dc).
  • Подключать Ceph RBD как Proxmox storage и Ceph FS для совместного доступа.
  • Мониторить здоровье: ceph -s, ceph osd df tree, scrub/deep-scrub.
  • Корректно заменять умерший OSD/диск без потери данных.
  • Выполнять rolling upgrade Ceph (например, Quincy → Reef).
  • Восстанавливать ZFS-пул из частичного отказа дисков.
  • Балансировать PG-распределение через ceph balancer и upmap.

Что включает курс
Теоретическая часть
  • ZFS: CoW, ARC/L2ARC, ZIL/SLOG, snapshots, clones, ashift, recordsize.
  • ZFS RAID-уровни: mirror, RAID-Z1/Z2/Z3, special vdev для metadata/dedup.
  • ZFS Replication в Proxmox (pvesr): RPO, async/sync, network-bandwidth.
  • Сценарии деградации ZFS: degraded pool, suspended, lost vdev, recovery.
  • Ceph: MON, MGR, OSD, MDS, RGW — компоненты и их роли.
  • BlueStore vs FileStore (исторически), BlueStore DB/WAL на SSD-партициях.
  • CRUSH-map, device classes, failure domain, placement groups (PG).
  • Replicated vs Erasure-coded pools — когда что выбрать.
  • Ceph health, statuses (HEALTH_OK/WARN/ERR), типичные WARN’и и их причины.
  • Procedure: добавление/удаление OSD, замена диска, замена ноды.
  • Rolling upgrade Ceph: совместимость версий, порядок обновления MON→MGR→OSD.
  • Мониторинг через Prometheus + ceph_exporter + Grafana-дашборды.

Практическая часть
  • Создание ZFS-пула из 4 дисков в RAID10 + special vdev для metadata.
  • Настройка pvesr-репликации ВМ между двумя узлами с RPO=5 мин.
  • Развёртывание 3-узлового Ceph-кластера в HCI-режиме на учебном стенде.
  • Создание replicated-пула (size=3/min_size=2) и erasure-coded (k=4,m=2).
  • Создание CRUSH-rules для разделения SSD/HDD по device class.
  • Подключение Ceph RBD как storage Proxmox + Live-migration ВМ.
  • Развёртывание CephFS + точка монтирования на каждом узле.
  • Симуляция отказа OSD: ceph osd down, recovery, балансировка.
  • Замена «умершего» диска: ceph osd destroy → pveceph osd create.
  • Rolling upgrade Ceph Quincy → Reef (на учебных нодах).
  • Настройка мониторинга через Prometheus + Grafana-дашборд «Ceph Cluster».

Программа обучения (онлайн / оффлайн)
После прохождения курса участники смогут профессионально проектировать и сопровождать подсистему хранения Proxmox VE на ZFS и Ceph, обеспечивая её отказоустойчивость и предсказуемое восстановление после сбоев.

Длительность обучения:
онлайн: 2 полных дня (с 10:00 до 16:00 по МСК)
оффлайн: 2 полных дня (с 11:00 до 17:00 по МСК)

День 1 (10:00 — 16:00). ZFS
09:30 — 10:00 — Регистрация участников
10:00 — 11:30 — Архитектура ZFS: CoW, ARC, ZIL, snapshots. RAID-уровни и vdev’ы
11:30 — 11:45 — Перерыв на кофе
11:45 — 13:15 — ZFS Replication в Proxmox (pvesr). Эксплуатация и восстановление
13:15 — 14:15 — Перерыв на обед
14:15 — 15:45 — Лабораторные работы:
  • Лабораторная 1: Подключение к учебному стенду, обзор имеющихся дисков
  • Лабораторная 2: Создание ZFS-пула RAID10 из 4 дисков + special vdev для metadata
  • Лабораторная 3: Создание ВМ на ZFS, настройка pvesr-репликации на второй узел
  • Лабораторная 4: Симуляция отказа vdev: degraded → resilver → recovery
15:45 — 16:00 — Подведение итогов первого дня

День 2 (10:00 — 16:00). Ceph
09:30 — 10:00 — Регистрация участников
10:00 — 11:30 — Архитектура Ceph: MON, MGR, OSD, BlueStore, CRUSH, PG
11:30 — 11:45 — Перерыв на кофе
11:45 — 13:15 — Replicated vs EC-пулы. Health, recovery, rolling upgrade
13:15 — 14:15 — Перерыв на обед
14:15 — 15:45 — Лабораторные работы:
  • Лабораторная 5: Развёртывание 3-узлового Ceph-кластера (MON+MGR+OSD)
  • Лабораторная 6: Создание replicated и erasure-coded пулов, CRUSH-rules по device class
  • Лабораторная 7: Подключение Ceph RBD как Proxmox storage + live-migration ВМ
  • Лабораторная 8: Симуляция отказа OSD, замена диска через pveceph osd create
  • Лабораторная 9: Rolling upgrade Ceph Quincy → Reef
  • Лабораторная 10: Настройка мониторинга Ceph (Prometheus + Grafana)
15:45 — 16:00 — Перерыв на кофе
16:00 — 17:00 — Тестирование по курсу и заключительные моменты обучения

Определение (что такое ZFS и Ceph?)
ZFS (Zettabyte File System) — open-source файловая система с copy-on-write-семантикой, мгновенными снимками, встроенной интегритностью данных (checksums) и поддержкой RAID без отдельного контроллера. В Proxmox VE используется как локальный storage с возможностью асинхронной репликации между узлами кластера через pvesr.
Ceph — распределённое объектно-блочно-файловое хранилище с автоматическим самовосстановлением и горизонтальной масштабируемостью. В Proxmox VE Ceph разворачивается через CLI pveceph и предоставляет три интерфейса: RBD (блочное устройство для ВМ), CephFS (POSIX-совместимая ФС), RGW (S3-совместимый объектный шлюз). Ключевое преимущество — HCI-архитектура: вычислительные мощности и storage живут на одних и тех же физических узлах, без выделенной SAN.

Основные характеристики
ZFS: - Copy-on-write — мгновенные snapshots без накладных расходов на запись. - Целостность данных — checksums на каждом блоке, автоматическое исправление через redundant copies. - Без RAID-контроллера — программный RAID-Z1/2/3 заменяет hardware-RAID. - Сжатие на лету (LZ4, ZSTD) — экономия 30–60% на типичных данных. - pvesr-репликация — async с RPO от 1 минуты.
Ceph: - Распределённость — данные равномерно размазаны по OSD через CRUSH. - Самовосстановление — автоматическое replication при потере OSD/узла. - Replicated (size=3) и Erasure-coded (k+m) пулы — выбор по trade-off space vs IO. - CRUSH с device classes — раздельные правила для SSD и HDD. - Горизонтальная масштабируемость — добавление узлов без downtime.

Применение
  • Гиперконвергентная инфраструктура (HCI) — Ceph на тех же узлах что и ВМ.
  • Высоконагруженные базы данных — ZFS RAID10 + ZSTD-сжатие.
  • DR-площадки — pvesr-репликация ВМ на удалённый узел.
  • Хранилище для backup’ов — Ceph erasure-coded pool, дешевле на бит чем replicated.
  • Multi-petabyte storage — Ceph cluster на десятки/сотни узлов.

Кому подойдёт курс
  • Инженерам, которые отвечают за подсистему хранения Proxmox-инфраструктуры.
  • Архитекторам, проектирующим HCI-решения на open-source стеке.
  • Storage-администраторам, изучающим переход с коммерческих SAN на Ceph.
  • DevOps/SRE, обслуживающим production-кластеры с высокими требованиями к данным.
  • Специалистам, которые занимаются disaster recovery и репликацией ВМ.

Требования к кандидату на обучение
  • Прохождение курса PVE-01 или эквивалентный самостоятельный опыт работы с Proxmox VE.
  • Базовое знание подсистемы хранения Linux: LVM, mdadm, mount, разделы.
  • Понимание концепций RAID и репликации.
  • Опыт работы с SAN/NAS приветствуется, но не обязателен.

Направление: Хранение данных, ZFS, Ceph, HCI, Proxmox VE

Направление: СХД, SAN, FC