LEKCJA 1 (rozszerzona)
Czym jest Failover Cluster i po co się go stosuje
Cel lekcji
Po tej lekcji kursant ma rozumieć:
-
czym naprawdę jest Windows Server Failover Clustering (WSFC)
-
jakie problemy rozwiązuje, a jakich nie
-
czym jest failover, role, zasób, węzeł
-
dlaczego bez quorum i storage klaster „nie ma sensu”
-
różnicę między: HA vs backup vs replikacja
1.1 Wysoka dostępność – co to znaczy w praktyce
Wysoka dostępność (High Availability, HA) oznacza, że usługa ma działać nawet wtedy, gdy coś się zepsuje.
Najczęstsze awarie:
-
padł serwer (hardware / VM crash)
-
system się zawiesił
-
padła usługa (np. SQL, File Server)
-
ktoś zrobił update i serwer nie wstał
HA nie oznacza braku awarii.
HA oznacza, że awaria ma jak najmniejszy wpływ na użytkowników.
Przykład:
-
Firma ma pliki na serwerze (udziały SMB).
-
Serwer się wyłącza.
-
Bez HA: użytkownicy tracą dostęp do plików na godziny.
-
Z HA: po chwili usługa startuje na drugim węźle → użytkownicy wracają do pracy.
1.2 Co to jest Failover
Failover = automatyczne przełączenie roli/usługi na inny serwer (węzeł), gdy aktualny przestaje działać.
W uproszczeniu:
-
Klaster ma węzeł A i węzeł B
-
Usługa działa na A
-
A pada
-
Klaster wykrywa problem
-
Usługa startuje na B
To przełączenie odbywa się według zasad:
-
co jest monitorowane
-
co jest krytyczne
-
jak długo czekamy
-
w jakiej kolejności uruchamiamy zasoby
1.3 Kluczowe pojęcia (muszą być jasne)
Węzeł (Node)
Serwer należący do klastra.
W praktyce:
-
fizyczny serwer (bare metal)
-
albo maszyna wirtualna
Zasób (Resource)
Najmniejszy element, który klaster potrafi kontrolować, np.:
-
adres IP
-
nazwa sieciowa (DNS/Computer Object)
-
dysk
-
usługa (np. SQL Server)
-
udział plików
Rola (Role / Clustered Role)
Zestaw zasobów, który ma działać jako „jeden serwis”.
Przykład roli File Server:
-
IP
-
Nazwa serwera plików
-
Dysk
-
Usługa File Server
Rola jest tym, co przełącza się między węzłami.
Owner Node
Węzeł, który aktualnie „posiada” rolę i na którym ona działa.
1.4 Co WSFC daje, a czego nie daje (bardzo ważne)
WSFC daje:
✅ automatyczne przełączenie usług (failover)
✅ centralne zarządzanie zasobami HA
✅ kontrolę nad dyskami wspólnymi (przejęcie, blokada dostępu)
✅ mechanizm quorum (zapobieganie split-brain)
✅ możliwość pracy na 2+ węzłach
WSFC NIE daje:
❌ backupu danych
❌ ochrony przed skasowaniem plików
❌ ochrony przed ransomware
❌ ochrony przed błędem użytkownika (np. usunięcie udziału)
❌ replikacji danych z automatu (to osobny temat)
Klaster utrzymuje dostępność, a backup chroni dane.
To są dwa różne światy.
1.5 Najprostszy model działania klastra (logika monitorowania)
Klaster „pilnuje”:
-
czy węzły żyją (heartbeat)
-
czy zasoby działają (resource health)
-
czy quorum jest spełnione (prawo do działania)
Jeśli coś siada:
-
klaster najpierw próbuje naprawić zasób
-
jak się nie uda → restart roli
-
jak się nie uda → przeniesienie roli na inny węzeł (failover)
To ważne w praktyce:
-
nie każdy błąd powoduje natychmiastowy failover
-
czasem to tylko restart usługi
1.6 Przykłady ról, które realnie klastruje się w firmach
1) File Server (udziały plików)
Najprostszy i najczęstszy scenariusz.
Działa dobrze, ale wymaga wspólnego storage.
2) SQL Server (Failover Cluster Instance)
Bardzo popularne w ERP (np. bazy dla systemów firmowych).
Tu storage i quorum muszą być zrobione „na tip-top”.
3) DHCP (failover)
Można zrobić w klastrze, ale częściej robi się failover DHCP w samej usłudze (bez WSFC).
4) Hyper-V
Klasyka: klaster Hyper-V + CSV (Cluster Shared Volumes).
1.7 Dlaczego bez wspólnego storage klaster często nie ma sensu
Failover = przenosimy rolę.
Ale rola zwykle potrzebuje danych:
-
plików
-
bazy
-
VHDX
Jeśli dane są tylko na węźle A, to po przeniesieniu na B:
-
usługa wstanie, ale nie będzie miała danych
-
albo nie wstanie wcale
Dlatego:
-
albo masz wspólny storage (SAN/iSCSI/CSV)
-
albo masz inną technologię (replika/DFS-R/replication)
To prowadzi do kolejnej lekcji: storage i quorum.
1.8 Split-brain (dlaczego quorum jest obowiązkowe)
Split-brain to sytuacja, w której:
-
oba węzły myślą, że są „główne”
-
oba próbują używać tego samego dysku/zasobu
Efekt:
-
korupcja danych
-
chaos
-
nieodwracalne błędy
Quorum ma temu zapobiegać:
klaster działa tylko wtedy, gdy ma „większość głosów”.
1.9 Przykład z życia (krótka historia do kursu)
Wyobraź sobie hotel/firmę:
-
system ERP i pliki pracują 24/7
-
jeden serwer to single point of failure
-
awaria dysku/Windows Update = przestój
Failover cluster pozwala:
-
podnieść usługę na drugim serwerze
-
skrócić przestój do minut
-
utrzymać pracę recepcji/księgowości/magazynu
Ale:
-
trzeba to dobrze zaprojektować (storage, quorum, sieci)
-
inaczej kończy się jak u Ciebie: „dysk widoczny, ale nie przyjmuje” 🙂
1.10 Sekcja „Najczęstsze błędne wyobrażenia” (do kursu)
-
„Jak mam klaster, to nie muszę robić backupu”
→ błąd. -
„Wystarczy, że podłączę dysk do dwóch serwerów”
→ błąd (PR, blokady, certyfikacja storage). -
„Jak jest iSCSI, to każdy iSCSI działa tak samo”
→ błąd (SCSI-3 PR). -
„Jak nie mam storage, to zrobię klaster i jakoś będzie”
→ zwykle nie będzie.