Incidentreport: Ausfall des Marktplatzes, Mo. 26. März 2018

Was war betroffen?
Der Server des Marktplatzes

Wann war der Ausfall?
Von circa 05:10-12:00 Uhr MESZ

Was war passiert?
Nach dem Einspielen der Betriebssystem Updates lief auf dem Server ein Zombie Prozess und die Marktplatz Software lief nicht mehr. Daher wurde versucht, den Server über den ssh Zugriff neu zu starten (reboot), wie es in der Vergangenheit schon öfters gemacht wurde. Allerdings hat der Server den Reboot nicht durchgeführt sondern ist hängen geblieben.

Es musste daher über den speziellen Zugang mittels Droplet zugegriffen werden, diesen Zugang hatte allerdings bislang nur eine Person des Sysadmin Teams auf einem persönlichen Account. Es wurde daher nun auch gleich der Server in ein neues Team-Account umgezogen, womit nun auch andere Mitglieder des Sysadmin-Teams die Möglichkeit haben, über diese spezielle Konsole des Server ggf. „hart“ neu zu starten, falls ein normaler Linux OS reboot mal wieder nicht funktionieren sollte.

17 „Gefällt mir“

Ich habe ungefähr das hier verstanden:
„Wir haben Xrstlpok angestubst, dann passierte !!!111! und Nogglkok brunzte. Weil Schnörkköks noch im Brumble-Status war, mussten wir Tee trinken.“

Ich glaube … nein ich weiss, Ihr habt alles im Griff.
Danke für euren tollen Job, den ich nicht eine halbe Minute lang machen möchte. :zukunftsorientierung::dib_spirit::luv:

+++ nicht als Moderator +++

8 „Gefällt mir“