Het Vangnet
Backup en failover. De 3-2-1 regel, age-encrypted off-site, en waarom geautomatiseerde failback gevaarlijk is.
Transcript (18 fragmenten)
De Smidse. Aflevering zeven: Het Vangnet.
Er is een vraag die elke systeembeheerder zichzelf zou moeten stellen. Niet af en toe. Elke dag.
Wat als alles uitvalt?
Niet: wat als één service crasht. Niet: wat als een schijf uitvalt. Maar: wat als de hele server weg is. Brand. Stroomstoring. Hardware die het begeeft. Wat dan?
Het antwoord begint met een regel die zo oud is als de IT-industrie: drie-twee-één. Drie kopieën van je data. Op twee verschillende media. Waarvan één op een andere locatie.
In de praktijk: de data staat op Horeb. De eerste backup gaat naar de NAS in hetzelfde netwerk — een Synology met meerdere schijven in een redundante configuratie. De tweede backup gaat versleuteld naar een server in een datacenter, driehonderd kilometer verderop.
Die versleuteling is belangrijk. We gebruiken age — een modern, simpel encryptietool. De backup verlaat het netwerk versleuteld. De sleutel verlaat het netwerk nooit. Zelfs als iemand de backup onderschept, heeft diegene niets.
Maar backup is slechts de helft van het verhaal. Backup beschermt tegen dataverlies. Het beschermt niet tegen uitval.
Daarvoor is er failover. Een tweede server, op een compleet andere locatie, die klaarstaat om het over te nemen.
Elke dertig seconden stuurt die tweede server een signaal naar Horeb. Een hartslag. Leef je nog? En Horeb antwoordt. Ja, ik ben er.
Drie gemiste hartslagen — negentig seconden stilte — en de failover activeert. Automatisch. De DNS-records worden omgeschakeld. Het verkeer gaat naar de tweede server. De kritieke services starten op. En er gaat een melding uit: Horeb is niet bereikbaar. Failover actief.
En als Horeb weer online komt?
Dan schakelen we handmatig terug. En dat is een bewuste keuze.
Want geautomatiseerde failback — automatisch terugschakelen wanneer de primaire server weer beschikbaar is — is waar de echte rampen gebeuren. Stel je voor: Horeb komt half online. Sommige services draaien, andere niet. De automatisering ziet een hartslag en schakelt terug. En nu zit je met een halfwerkende primaire server en een uitgeschakelde failover.
Nee. Failback is mensenwerk. Je controleert of alles echt werkt. Je verifieert de data. En pas dan schakel je terug. Twee tot drie minuten downtime bij een failover is acceptabel. Een corrupte database door gehaaste failback is dat niet.
Het vangnet is niet spectaculair. Het is geen technologie waar je opschept. Het is een verzekering die je hoopt nooit nodig te hebben.
Maar het verschil tussen een amateurinfrastructuur en een professionele is niet de hardware. Het is het antwoord op die ene vraag: wat als alles uitvalt? Als je dat antwoord niet hebt, bouw je op zand.
Dit was Het Vangnet. Volgende keer: De Nieuwe Berg — de toekomst van deze infrastructuur. De Smidse.