Incidentreport: Serverausfall von "Judy", Mo 30. Okt 2017

Was war betroffen?
Der interne Server, damit alle internenen Services (Mattermost, Wekan, Piwik, Mitgliedsantragstool)
Wann war der Ausfall?
Von circa 14-16:15 Uhr MEZ

Was war passiert?
Auf dem Server („Judy“) sollte ein neuer Services zur Verfügung gestellt werden, damit das IT-Support-Team ihre Arbeit aufnehmen kann. Dabei ist nicht bedacht worden, dass dieser Server, der mit der kleineren Ausstattung und schon wesentlich größer belastet ist.

Die Installation des neuen Service hat dann zu einer Überlastung des Servers geführt. Leider war diese so eingerichtet, dass der neue Services auch nach einem Neustart anspringt und somit war nach einem Neustart der Server gänzlich nicht erreichbar. Da dies zu dem Zeitpunkt nicht klar war, der Server aber nicht erreicht wurde, ist der Notfall-Plan angegangen worden, das letzte Backup auf einem anderen verfügbaren Server („Nick“) einzuspielen um die Services wieder anzubieten, während Judy untersucht wird. Dafür wurden die Domains auf Nick umgestellt. Als Judy dann wieder online war und sich herausstellte worin der Fehler lag, war der Domain-Update schon im Gange und musste zurück gestellt werden – Domain updates dauern immer mind. 1 Stunde - und erst dann konnten die Services wieder hergestellt werden.

Was passiert in der Folge dessen?

  1. Das sich neu aufstellenden Sys-Admin-Team hat bereits auf der Agenda die Server Struktur neu zu überdenken und die Services auf den Servern besser der Auslastung nach zu verteilen.
  2. Um solche Überlastungsprobleme in Zukunft früher zu erkennen, wird ein Monitoring eingerichtet.
  3. Des weiteren wird die Installation neuer Services nur in Absprache mit dem restlichen Team gemacht.
11 „Gefällt mir“