[Incidentreport] Total-Ausfall aller Systeme – Nick in Recovery-Mode


#1

Update Do 11:55: Das Recovery-System hat in der Nacht aufgrund von Verbindungsproblemen das Recovery unterbrochen und wurde am morgen fortgesetzt, zeigt aber keine neuen Erkenntnisse und daher wird der Recovery abgebrochen und wir starten das System im normal-modus neu. Die Dienste sollten bald wieder verfügbar sein.
Update 17:01: Wir mussten erneut in den Recovery-Modus gehen. Dieser hält weiterhin an

Am heutigen Nachmittag haben wir den Hauptserver (nick) vorrübergehend in den Recovery-Mode versetzt um eine massiven Vorfall des Vormittags zu behandeln. Aufgrund dieser Sofort-Maßnahmen waren fast alle Services von DiB für etwas über eine Stunde nicht erreichbar.

Was war betroffen?

Der Server nick und damit so gut wie alle unsere wichtigsten Systeme. Unter anderem: Webseite, E-Mail, Abstimmungssystem, Wolke/Nextcloud (Dokument-Verwaltung, Kalendar, etc), Mattermost (Chat), Support-Plattform (Zammad), Mautic (E-Mail Verteiler), Umfragen, etc.

Nicht betroffen waren: Marktplatz, Zoom, FundraisingBox, Github.

Wie ist es zu dem Problem gekommen?
Am Vormittag stellte die Technik fest, dass unser E-Mail-Verteiler-System “Mautic” mal wieder die E-Mails nicht versendet. Bei dem Versuch dies zu beheben wurden die üblichen Tricks versucht (es ist schon mehrfach ungeklärt vorgekommen), unter anderem wurde versucht ein Cache-Verzeichnis der Anwendung zu löschen. Dabei ist aber das ganze Anwendungsverzeichnis gelöscht worden. Das ist ärgerlich, aber da die Daten getrennt davon in einer Datenbank liegen, kein großes Problem: das Mautic-App muss einfach nur neu installiert werden.

Bei diesem Installationsversuch stellte sich Mautic aber quer und erkannte die bestehende Datenbank nicht. Bei einigem Kämpfen mit dem Installer hat Mautic irgendwann klein beigegeben und endlich die normale Oberfläche gezeigt - aber Login funktionierte nicht und die Fehlermeldung suggerierte, dass wichtige Datenbank-Tabellen fehlten. Eine genauere Untersuchung des Vorfall zeigte, dass in dem Installations-Hickhack scheinbar die ganze Mautic Datenbank (mit all unseren Newsletter-Abonnentinnen) vom Installer gelöscht worden war. Aber dafür haben wir ja Backups. Also wurde Mautic gestoppt und versucht über das Backup-Recovery-System die Datenbank-Dateien wieder herrzustellen. Dies stellte sich als vergebens herraus, als wir feststellten, dass das Backup – aus uns nicht erfindlichen Gründen – diese Dateien nicht mit abgespeicherte hatten: Die Daten sind weg.

Aber, wie jede Computer-Expertin weiß, werden Daten nicht auch sofort auf der Festplatte überschrieben, sondern der Bereich nur “freigestellt”. Insbesondere in Anbetracht des außerhalb dessen verfügbaren Speicherplatz ist es also nicht unwahrscheinlich, dass die Daten noch da sind und gehoben werden können. Damit diese Daten aber nicht ausversehen überschrieben werden muss das System aber umgehend gestoppt und in einen Wartungszustand gebracht werden, von dem aus wir mit Nur-Lesezugriff versuchen können die Daten zu heben.

Also haben wir um 14:41 den Server in den Wartungszustand versetzt um den Recovery anzugehen. Da auf dem Server aber auch alle anderen Dienste laufen, hieß das für den Zeitraum des Recovery, dass diese Dienste nicht erreichbar sein werden. Dies haben wir umgehend (durch den Post hier auf dem Marktplatz) publik gemacht.

Nachdem das Recovery-Programm eine Reihe von Dateien identifiziert und gehoben hat (circa 15GB) und wir diese auf dem System zwischen gespeicher haben, haben wir das System wieder normal gebootet und die meisten Dienste waren wieder vollständig verfügbar. Um 15:55 Uhr haben wir das Recovery Incident für vorrüber erklärt, bis auf Mautic sind alle Dienste wieder verfügbar. Falls ihr irgendwo Probleme habt, meldet euch bitte bei support@bewegung.jetzt.

Leider stellten wir bei der Untersuchung der Dateien fest, dass wir offensichtlich nicht alle Dateien geborgen hatten, die wir brauchten - das beim Recovery-Verwendete Tool war scheinbar veraltet, hatte bestimmte Signature nicht mit dabei und konnte deswegen notwendige Dateien nicht finden. Daher Wir haben nick um 16:55 wieder in den Recovery-Modus versetzt um diese Dateien zu bergen. Aufgrund von Platzproblemen auf dem Rechner mussten wir für die geborgenen Daten auf eine Netzverbindung zu unserem Ausweich-Rechner (judy) herstellen, was aber den Recovery-Modus verlangsamte und letztlich mitten in der Nacht, vermutlich aufgrund von Verbindungsproblemen, vorrüber gehend pausierte. Dies stellten wir am Donnerstag morgen fest und setzten diesen umgehen fort. Da der Recovery aber scheinbar keine neuen (sinnvollen) Daten mehr lieferte (wir näherten uns dem “Ende” der Platte) haben wir diesem um 11:55 abgebrochen und das System neu gestartet.

Ab 12:10 Uhr am Donnerstag standen alle Dienste wie gewohnt wieder zur Verfügung (ausgenommen Mautic/Newsletter-Verteiler), inkl. Webseite, E-Mail, Chat, Abstimmungsplattform und Umfrage-Tool. Bei Problemen mit irgendeinem davon, meldet euch bitte direkt bei support@bewegung.jetzt

Was passiert jetzt?

  1. Zunächst werden jetzt die Daten gesichtet, in der Hoffnung, dass möglichst viel der E-Mail-Liste gerettet werden kann. Mautic wird dementsprechend bis auf weiteres nicht zur Verfügung stehen.
  2. Wird umgehend das Backup Verfahren überprüft darauf überprüft, ob es wirklich alle relevanten Daten einsammelt und vorhält. Darüber hinaus wird testweise das Backup-Recovery ausprobiert um sicherzustellen, dass die Daten auch eingespielt werden können.
  3. Es wird ein weiteres Backup-System eingerichtet, welches für die Organisation höchst-relevante Daten (wie den Newsletter von dem wir hoffentlich viel zurück bekommen) außerhalb des Datei-Verfahrens regelmäßig als Roh-Daten extrahiert und außerhalb des bisherigen Verfahrens zusätzlich sichert.

Wir bitten diesen Vorfall zu entschuldigen.


hat dieses Banner erstellt, . Es wird oberhalb jeder Seite angezeigt, bis es vom Benutzer weggeklickt wird. #2

Incident-Report: Verlust und Wiederherrstellung des E-Mail-Newsletter
hat dieses Banner entfernt, . Es wird nicht mehr oberhalb jeder Seite angezeigt. #3

#4

Sieht so aus als sei dies noch nicht vorbei. Sorry, muss nochmal in recovery gehen :frowning: .


#5

Ich finde es super dass ihr euch die Zeit nehmt und das Problem schildert
damit wir wissen was los ist.
Dafür ein dickes DANKE.
Und natürlich viel Erfolg.


#6

Ich verstehe, was passiert ist und habe sowas auch schon öfter mitgemacht. Vielen Dank für die Arbeit und viel Erfolg! :+1:


#7

@ben, gut dass wir eine so super Techniktruppe haben. Danke für den Einsatz.


#8

Laut dem Tool dauert dieser Scan - wir suchen nach mehr und größeren Dateien - wohl noch mehrere Stunden (haben eine große Festplatte). Die Dienste werden also auf jeden Fall bis Donnerstag vormittag nicht erreichbar sein.


#9

Oh je, gut dass wir euch haben. Viel Glück und Erfolg und ein großes Dankeschön!


#10

Das Recovery-System hat in der Nacht aufgrund von Verbindungsproblemen das Recovery unterbrochen und wurde am morgen fortgesetzt, zeigt aber keine neuen Erkenntnisse und daher wird der Recovery abgebrochen und wir starten das System im normal-modus neu. Die Dienste sollten bald wieder verfügbar sein.


#11

Sieht so aus, als seien alle Dienste wieder erreichbar - inkl Wolke, Chat, Webseite, Abstimmungsplattform.

Der Vorfall ist damit vorerst vorbei.

Danke für eure Geduld und die lieben Worte!


#12

Zur Info: Da Mautic auch weiterhin nicht zur Verfügung steht, es aber das Ziel des Newsletter-Anmelde-Formular auf der Webseite ist, haben wir dies vorrüber gehend durch ein Mailtrain-basiertes Setup ausgetauscht um weiterhin den vollen double-opt-in machen und Adressen annehmen zu können. Leider heißt dies aktuell auch, dass das Formular durch einen weiteren Sprung von der Webseite geht.


#13

Wie sieht es denn aus, wie viel der Adressdatenbank konnte gerettet werden? Oder ist es zu früh für Wasserstandsmeldungen?


#14

Wir sichten noch und können noch keine konkrete Aussage machen. Aber es sieht so aus, als ob wir die Liste der letzten Iris, die Spender*innen, Mitglieder und Beweger*innen (diese dank FundraisingBox) sicher haben. Es gibt auch erste Verlautbarungen, dass wir das Log der letzten Newsletter-Email haben und wir daraus und mit Hilfe der Unsubscribes seit dem einen (hoffentlich großen) Teil wieder herrstellen können.


#15

Auch, wenn ihr Klingonisch sprecht für mich, ich finde euch klasse


#16

Hallo @ben, es geht mir ähnlich wie ulrik,

???¿¿¿??? Fachchinsisch? :exploding_head: :thinking:

Deine letzten beiden Posts habe ich nicht verstanden und es ist sinnlos, mir das erklären zu wollen, mir fehlen die Grundlagen.

Ich bin froh, dass es hier Menschen wie dich gibt, die sich damit auskennen.


#17
  • Mautic: unsere bisherige E-Mail-Newsletter Software --> https://www.mautic.org/
  • Mailtrain: die neue E-Mail-Newsletter Software --> https://mailtrain.org/
  • Double-Opt-In: Ein E-Mail-Angaben-Zustimmungsverfahren:

    Beim „Double-Opt-in“ (auch „Closed-Loop-Opt-in“ genannt) muss der Eintrag der Abonnentenliste in einem zweiten Schritt bestätigt werden. Meist wird hierzu eine E-Mail-Nachricht mit Bitte um Bestätigung an die eingetragene Kontaktadresse gesendet. Diese Nachricht wird auch als „DOI-Mail“ oder „Checkmail“ bezeichnet. Handelt es sich um ein echtes, das heißt erwünschtes Opt-in, bekommt der Abonnent eine Bestätigung seiner angegebenen Kontaktdaten. – https://de.wikipedia.org/wiki/Opt-in#Double-Opt-in/Closed-Loop-Opt-in

  • FundraisnigBox: Unsere Spenden-Verwaltungs-Software --> https://www.fundraisingbox.com/
  • Unsubscribe: Sich von einem Verteiler wieder abmelden

#18

Auch von mir noch ein paar “liebe” Worte. Ich hatte zwar dank Englisch-Kenntnissen und praktischen Erfahrungen alles verstanden (bzw. konnte mir bei Mautic und Mailtrain vorstellen, worum es sich handelt), habe mir Deinen Text aber dennoch kopiert und gespeichert, denn so toll hätte ich das nie erklären können. wenn mich jemand gefragt hätte. Ein besonderes Dankeschön dafür, dass Du, obwohl Du sicherlich auch so schon mehr als genug zu tun hast, die Mühe zu diesen Erläuterungen auf Dich genommen hast :hugs:


#19

Viel Erfolg und nen kühlen Kopf bei den Arbeiten jetzt!


#20

Update:

wir sind mit dem geplanten Recovery durch und haben jetzt circa 80GB Rohdaten in denen hoffentlich die Logs vom Mail-Versand stecken. Eine erste Sichtung hat bereits erste Ergebnisse geliefert, aber wir können aktuell noch nicht sagen, wieviele Adressen wir sicher wieder herrstellen können.