Podstawy

Czym jest Failover Cluster i po co się go stosuje

4 min czytaniaPostęp: 54/78Nieukończona

LEKCJA 1 (rozszerzona)

Czym jest Failover Cluster i po co się go stosuje

Cel lekcji

Po tej lekcji kursant ma rozumieć:

  • czym naprawdę jest Windows Server Failover Clustering (WSFC)

  • jakie problemy rozwiązuje, a jakich nie

  • czym jest failover, role, zasób, węzeł

  • dlaczego bez quorum i storage klaster „nie ma sensu”

  • różnicę między: HA vs backup vs replikacja


1.1 Wysoka dostępność – co to znaczy w praktyce

Wysoka dostępność (High Availability, HA) oznacza, że usługa ma działać nawet wtedy, gdy coś się zepsuje.

Najczęstsze awarie:

  • padł serwer (hardware / VM crash)

  • system się zawiesił

  • padła usługa (np. SQL, File Server)

  • ktoś zrobił update i serwer nie wstał

HA nie oznacza braku awarii.
HA oznacza, że awaria ma jak najmniejszy wpływ na użytkowników.

Przykład:

  • Firma ma pliki na serwerze (udziały SMB).

  • Serwer się wyłącza.

  • Bez HA: użytkownicy tracą dostęp do plików na godziny.

  • Z HA: po chwili usługa startuje na drugim węźle → użytkownicy wracają do pracy.


1.2 Co to jest Failover

Failover = automatyczne przełączenie roli/usługi na inny serwer (węzeł), gdy aktualny przestaje działać.

W uproszczeniu:

  • Klaster ma węzeł A i węzeł B

  • Usługa działa na A

  • A pada

  • Klaster wykrywa problem

  • Usługa startuje na B

To przełączenie odbywa się według zasad:

  • co jest monitorowane

  • co jest krytyczne

  • jak długo czekamy

  • w jakiej kolejności uruchamiamy zasoby


1.3 Kluczowe pojęcia (muszą być jasne)

Węzeł (Node)

Serwer należący do klastra.
W praktyce:

  • fizyczny serwer (bare metal)

  • albo maszyna wirtualna

Zasób (Resource)

Najmniejszy element, który klaster potrafi kontrolować, np.:

  • adres IP

  • nazwa sieciowa (DNS/Computer Object)

  • dysk

  • usługa (np. SQL Server)

  • udział plików

Rola (Role / Clustered Role)

Zestaw zasobów, który ma działać jako „jeden serwis”.
Przykład roli File Server:

  • IP

  • Nazwa serwera plików

  • Dysk

  • Usługa File Server

Rola jest tym, co przełącza się między węzłami.

Owner Node

Węzeł, który aktualnie „posiada” rolę i na którym ona działa.


1.4 Co WSFC daje, a czego nie daje (bardzo ważne)

WSFC daje:

✅ automatyczne przełączenie usług (failover)
✅ centralne zarządzanie zasobami HA
✅ kontrolę nad dyskami wspólnymi (przejęcie, blokada dostępu)
✅ mechanizm quorum (zapobieganie split-brain)
✅ możliwość pracy na 2+ węzłach

WSFC NIE daje:

❌ backupu danych
❌ ochrony przed skasowaniem plików
❌ ochrony przed ransomware
❌ ochrony przed błędem użytkownika (np. usunięcie udziału)
❌ replikacji danych z automatu (to osobny temat)

Klaster utrzymuje dostępność, a backup chroni dane.
To są dwa różne światy.


1.5 Najprostszy model działania klastra (logika monitorowania)

Klaster „pilnuje”:

  1. czy węzły żyją (heartbeat)

  2. czy zasoby działają (resource health)

  3. czy quorum jest spełnione (prawo do działania)

Jeśli coś siada:

  • klaster najpierw próbuje naprawić zasób

  • jak się nie uda → restart roli

  • jak się nie uda → przeniesienie roli na inny węzeł (failover)

To ważne w praktyce:

  • nie każdy błąd powoduje natychmiastowy failover

  • czasem to tylko restart usługi


1.6 Przykłady ról, które realnie klastruje się w firmach

1) File Server (udziały plików)

Najprostszy i najczęstszy scenariusz.
Działa dobrze, ale wymaga wspólnego storage.

2) SQL Server (Failover Cluster Instance)

Bardzo popularne w ERP (np. bazy dla systemów firmowych).
Tu storage i quorum muszą być zrobione „na tip-top”.

3) DHCP (failover)

Można zrobić w klastrze, ale częściej robi się failover DHCP w samej usłudze (bez WSFC).

4) Hyper-V

Klasyka: klaster Hyper-V + CSV (Cluster Shared Volumes).


1.7 Dlaczego bez wspólnego storage klaster często nie ma sensu

Failover = przenosimy rolę.
Ale rola zwykle potrzebuje danych:

  • plików

  • bazy

  • VHDX

Jeśli dane są tylko na węźle A, to po przeniesieniu na B:

  • usługa wstanie, ale nie będzie miała danych

  • albo nie wstanie wcale

Dlatego:

  • albo masz wspólny storage (SAN/iSCSI/CSV)

  • albo masz inną technologię (replika/DFS-R/replication)

To prowadzi do kolejnej lekcji: storage i quorum.


1.8 Split-brain (dlaczego quorum jest obowiązkowe)

Split-brain to sytuacja, w której:

  • oba węzły myślą, że są „główne”

  • oba próbują używać tego samego dysku/zasobu

Efekt:

  • korupcja danych

  • chaos

  • nieodwracalne błędy

Quorum ma temu zapobiegać:

klaster działa tylko wtedy, gdy ma „większość głosów”.


1.9 Przykład z życia (krótka historia do kursu)

Wyobraź sobie hotel/firmę:

  • system ERP i pliki pracują 24/7

  • jeden serwer to single point of failure

  • awaria dysku/Windows Update = przestój

Failover cluster pozwala:

  • podnieść usługę na drugim serwerze

  • skrócić przestój do minut

  • utrzymać pracę recepcji/księgowości/magazynu

Ale:

  • trzeba to dobrze zaprojektować (storage, quorum, sieci)

  • inaczej kończy się jak u Ciebie: „dysk widoczny, ale nie przyjmuje” 🙂


1.10 Sekcja „Najczęstsze błędne wyobrażenia” (do kursu)

  1. „Jak mam klaster, to nie muszę robić backupu”
    błąd.

  2. „Wystarczy, że podłączę dysk do dwóch serwerów”
    błąd (PR, blokady, certyfikacja storage).

  3. „Jak jest iSCSI, to każdy iSCSI działa tak samo”
    błąd (SCSI-3 PR).

  4. „Jak nie mam storage, to zrobię klaster i jakoś będzie”
    → zwykle nie będzie.

Notatki (opcjonalnie)