Facebook und der große Ausfall: Was wir wissen und was wir davon lernen können
Facebook goes dark. Am Montag dem 04. Oktober 2021 ist Facebook kurz von der Bildoberfläche verschwunden. Der Browser zeigte nur ein langweiliges „Hmmm…diese Seite ist leider nicht erreichbar.“ an. 6 Stunden war Facebook offline. Weitere Services wie Instagram und Whatsapp hatten auch Ausfälle. Was ist passiert und was können wir davon lernen?
Vom Cyberangriff bis zum interner Fehler - Was zur Hölle ist bei Facebook los?
Quasi die gesamte Weltbevölkerung rätselte mit. Der Anbieter für Internetsicherheitsdienste Cloudflare meldete sich dann schnell zu Wort:
“Today, the directions for how to get to Facebook’s DNS server’s addresses weren’t available. Without being able to contact the DNS servers, visitors trying to reach a Facebook property, like facebook.com, will not get an answer and so the page won’t load. In our experience, these usually are mistakes, not attacks.”
Cloudflare sollte recht behalten.
Facebook klärte in einem Blog-Beitrag auf, was passiert ist. Ingenieure bei Facebook warteten das System. Laut Facebook kam es zu der Ausführung eines Softwarebefehls, der fehlerhaft war.
Das Ergebnis: Globaler Shutdown. Das führte zu einem Problem mit den DNS-Servern. Das DNS ist wie ein Telefonbuch. Es übersetzt Namen in Zahlen, die als IP-Adresse bezeichnet werden. Facebook war deshalb nicht mehr erreichbar.
Bei Facebook konnten Techniker nicht auf ihr System zugreifen. Die Software für eine Remote-Wiederherstellung funktionierte nicht mehr. Man musste direkt ins Datencenter. Das dauerte.
Der Ausfall betraf aber nicht nur die Services von Kunden. Es kam viel schlimmer. Sogar die interne Kommunikationsplattform und das Sicherheitssystem funktionierten nicht mehr. Mitarbeiter konnten nicht mehr kommunizieren, kamen nicht mehr in Gebäude, waren aus dem eigenen Unternehmen ausgesperrt.
Die Folgen und der Schaden
Für Facebook war das ein herber Reputationsverlust. Für Unternehmen, die auf Facebook, Instagram und Whatsapp angewiesen sind bedeutete der Ausfall potenzielle Verluste. Laut Netblocks kostete der Ausfall der globalen Wirtschaft ca. 160 Millionen Dollar pro Stunde.
Was wir davon lernen können
Per Werngren veröffentlichte konkrete Takeaways für die IT und das Management von solchen Ereignissen (Übersetzung):
- Segmentieren Sie Ihre Infrastruktur, damit sich ein Problem nicht über Ihre gesamte Umgebung ausbreitet. Ihr Verwaltungsnetzwerk sollte von dem Netzwerk getrennt sein, in dem sich Ihre kundenseitigen Systeme befinden. Auch wenn Sie nicht so groß sind wie Facebook, sollten Sie Ihre verschiedenen Dienste in mehrere Netzwerke aufteilen. Dies dient auch der Sicherheit, da es für Angreifer viel schwieriger ist, Ihre gesamte Umgebung lahmzulegen.
- Planen Sie Ihr Update. Stellen Sie sicher, dass sie gründlich analysiert und geprüft wurde. Je größer die potenziellen Auswirkungen auf das Geschäft sind, desto mehr sollten Sie planen und analysieren, bevor das Upgrade tatsächlich durchgeführt wird. Vergewissern Sie sich, dass Sie über ein angemessenes Änderungsverwaltungsprogramm verfügen.
- Führen Sie niemals ein komplettes Update durch, wenn sich dies vermeiden lässt. Simulieren Sie das Update in einer Testumgebung und beginnen Sie dann mit einem weniger geschäftskritischen System als einem, das von 3,5 Milliarden Benutzern genutzt wird. Das "Big Bang"-Modell für Upgrades schlägt viel zu oft fehl.
- Stellen Sie sicher, dass Sie wissen, wie Sie ein Update schnell und sicher zurücknehmen können. Lernen Sie die richtigen Verfahren, um dies zu bewerkstelligen.
- Üben Sie häufig, damit Sie wissen, was zu tun ist, wenn etwas schief geht. Es ist wie bei einer Feuerwehrübung: Sie sollten Verfahren und Protokolle haben, die Sie befolgen können.
- Wenn alle Ihre Dienste wieder funktionieren, sollten Sie einen schriftlichen Bericht über den Vorfall erstellen und die Ergebnisse innerhalb Ihres Unternehmens besprechen. Auf diese Weise hat mein altes Unternehmen aus vergangenen Fehlern gelernt. Unser Mantra war, dass sich ein solches Problem nie wiederholen sollte.
Zusätzlich und ganz allgemein: Der Ausfall einer Technologie oder die Zugangsverweigerung zu einem Gebäude ist als Risiko einzukalkulieren. Ein Takeaway sticht im Case von Facebook aber hervor: Seien Sie sich auch internen Abhängigkeiten bewusst.
Überlegen Sie auch, welche Tools im Krisenmangement eingesetzt werden. Denn was bedeutet es, wenn gerade während dem Ausfall auf einen Service von Facebook – bspw. Whatsapp - gesetzt wurde? Keine Kommunikationsmöglichkeit. Wir berichteten schon einmal, warum Whatsapp für die 2-Way-Kommunikation im Not- und Krisenfall ungeeignet ist. Kurz und knapp: Es ist kein dediziertes System, das genau für diesen Einsatz gemacht ist.