E07
Verteller Mos

Het Vangnet

Backup en failover. De 3-2-1 regel, age-encrypted off-site, en waarom geautomatiseerde failback gevaarlijk is.

Transcript (18 fragmenten)
Verteller

De Smidse. Aflevering zeven: Het Vangnet.

Verteller

Er is een vraag die elke systeembeheerder zichzelf zou moeten stellen. Niet af en toe. Elke dag.

Verteller

Wat als alles uitvalt?

Verteller

Niet: wat als één service crasht. Niet: wat als een schijf uitvalt. Maar: wat als de hele server weg is. Brand. Stroomstoring. Hardware die het begeeft. Wat dan?

Mos

Het antwoord begint met een regel die zo oud is als de IT-industrie: drie-twee-één. Drie kopieën van je data. Op twee verschillende media. Waarvan één op een andere locatie.

Mos

In de praktijk: de data staat op Horeb. De eerste backup gaat naar de NAS in hetzelfde netwerk — een Synology met meerdere schijven in een redundante configuratie. De tweede backup gaat versleuteld naar een server in een datacenter, driehonderd kilometer verderop.

Mos

Die versleuteling is belangrijk. We gebruiken age — een modern, simpel encryptietool. De backup verlaat het netwerk versleuteld. De sleutel verlaat het netwerk nooit. Zelfs als iemand de backup onderschept, heeft diegene niets.

Verteller

Maar backup is slechts de helft van het verhaal. Backup beschermt tegen dataverlies. Het beschermt niet tegen uitval.

Verteller

Daarvoor is er failover. Een tweede server, op een compleet andere locatie, die klaarstaat om het over te nemen.

Mos

Elke dertig seconden stuurt die tweede server een signaal naar Horeb. Een hartslag. Leef je nog? En Horeb antwoordt. Ja, ik ben er.

Mos

Drie gemiste hartslagen — negentig seconden stilte — en de failover activeert. Automatisch. De DNS-records worden omgeschakeld. Het verkeer gaat naar de tweede server. De kritieke services starten op. En er gaat een melding uit: Horeb is niet bereikbaar. Failover actief.

Verteller

En als Horeb weer online komt?

Mos

Dan schakelen we handmatig terug. En dat is een bewuste keuze.

Mos

Want geautomatiseerde failback — automatisch terugschakelen wanneer de primaire server weer beschikbaar is — is waar de echte rampen gebeuren. Stel je voor: Horeb komt half online. Sommige services draaien, andere niet. De automatisering ziet een hartslag en schakelt terug. En nu zit je met een halfwerkende primaire server en een uitgeschakelde failover.

Mos

Nee. Failback is mensenwerk. Je controleert of alles echt werkt. Je verifieert de data. En pas dan schakel je terug. Twee tot drie minuten downtime bij een failover is acceptabel. Een corrupte database door gehaaste failback is dat niet.

Verteller

Het vangnet is niet spectaculair. Het is geen technologie waar je opschept. Het is een verzekering die je hoopt nooit nodig te hebben.

Mos

Maar het verschil tussen een amateurinfrastructuur en een professionele is niet de hardware. Het is het antwoord op die ene vraag: wat als alles uitvalt? Als je dat antwoord niet hebt, bouw je op zand.

Verteller

Dit was Het Vangnet. Volgende keer: De Nieuwe Berg — de toekomst van deze infrastructuur. De Smidse.