Webseite Plenum

Incidentreport: Ausfall des E-Mail Dienst, Di, 20. März 2018

transparenz
incident-report

#1

Was war betroffen?
Der interne Server, nick, kurzzeitig dadurch alle internenen Services (Mattermost, Wekan, Piwik, Mautic, Wolke) und die Webseiten (bewegung.jetzt, bmdt-bund.de, harriet, iris), länger andauernd beim Mail-Dienst

Wann war der Ausfall?
Von circa 13:30-14:40 Uhr MEZ

Was war passiert?
Bei der Einrichtung eines neuen Dienstes fiel uns auf, dass der Mail-Server ein reihe von Zombie-Containern hatte, die aus nicht nachvollziehbaren Gründen nicht verschwinden wollen. Daher wurde kurzfristig der Upgrade des Mail-Servers für die folgende Nacht vorbereitet. Bei dem anschließenden Versuch die Zombie-Container zu beseitigen sind aufgrund eines Bedienfehlers kurzzeitig alle Dienste gestoppt wurde. Diese wurden umgehend wieder gestartet, waren aber dennoch für wenige Minuten nicht erreichbar.

Weil aber der Mail-Server im Zuge der Vorbereitungen des Upgrades schon neue Konfigurations-Dateien bekommen hatte, sprang dieser nicht wieder ordnungsgemäß an. Daher musste kurzfristig der eigentlich für die folgende Nacht geplante Mail-Server Upgrade umgehend statt finden. Dies dauert etwa eine halbe Stunde, weshalb der Mail-Dienst erst um kurz nach halb drei wieder voll verfügbar war.


#2

Dieses Thema wurde automatisch 7 Tage nach der letzten Antwort geschlossen. Es sind keine neuen Nachrichten mehr erlaubt.