großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU

0 Mitglieder und 1 Gast betrachten dieses Thema.

Offline Bloodsurfer

  • diagonally parked in a parallel universe...
  • Administrator
  • *****
    • Pfälzer mit saarländischem Migrationshintergrund
      • Show all replies
    Life sucks.

    Heute morgen stehe ich nichtsahnend auf, um halb zwölf halbwegs ausgeschlafen, mit einer Tasse Kaffee in der Hand setze ich mich an den Rechnen und will wie an jedem (freien) Morgen hier reinschauen.

    Forum down. Augenbraue wandert nach oben. Ich versuche mich per SSH einzuloggen. Timeout. Ein unangenehmes Gefühl macht sich breit. Ich will das Wartungspanel öffenen - "geplante Auszeit bis etwa 22 Uhr". :confused: Erstmal ein ungläubiges Staunen - man kann nicht wirklich den Server über zehn Stunden offline nehmen ohne den Kunden darüber zu informieren, denke ich mir... :staun: Kurze Recherche im Netz bringt mich weiter, scheinbar sind fast alle Server4You-Kunden von mysteriösen Ausfällen betroffen. Erste Mails und SMS treffen bei mir ein.

    Nach kurzer Zeit erscheint dann die erste Meldung auf der Site des Hosters:

    Zitat
    Wichtige Information

    Sehr geehrte Kunden,

    aufgrund einer unangekündigten Wartungsarbeit unseres Rechenzentrumsbetreibers Avaya-Tenovis kam es heute gegen 9.50 Uhr zu einem Stromausfall in einem Teil unserer Rechenzentrumsfläche in der Avaya Databurg in Frankfurt. Da ein Leistungsschalter bei der Wartung nicht wie erwartet ausgelöst hat, haben vorhandene USV-Anlagen und Diesel-Generatoren nicht gegriffen und ein Stromausfall entstand. Zwar hat dieser Stromausfall nur ca. 10 Minuten gedauert, aber dennoch dafür gesorgt, dass alle Systeme in dem betroffenen Bereich neu starten mussten. Betroffen sind ca. 20 % unserer Kunden.

    Zurzeit arbeiten alle verfügbaren Mitarbeiter mit Hochdruck daran, dass Ihre Server schnellstmöglich wieder erreichbar sind.

    Der Großteil der betroffenen Server ist bereits jetzt wieder erreichbar. Alle verbleibenden Root-Server sollten innerhalb der nächsten 2-3 Stunden wieder verfügbar sein, alle vServer im Laufe des Tages.

    Wir können leider nicht ausschließen, dass es bis in die späten Abendstunden zu Beeinträchtigungen bei internen Systemen wie z.B. dem PowerPanel kommen kann.

    Wir werden Sie jederzeit über den Stand der Dinge der Recovery-Maßnahmen auf dem Laufenden halten und Ihnen auch kurzfristige Rückmeldungen zu Ihrem Server-Status geben.

    Wir möchten Sie bitten, die aus diesem Vorfall resultierenden Unannehmlichkeiten zu entschuldigen und versichern Ihnen nochmals, dass wir alles daran setzen, um zügig in den Normalzustand zurückzukehren. Darüber hinaus wird unser Rechenzentrumsbetreiber alle Leistungsschalter nochmals überprüfen, um derartige Vorfälle in Zukunft auszuschließen.

    Mit freundlichen Grüßen
    Ihr SERVER4YOU-Team 

    Soviel zur "geplanten Wartungsauszeit". Ein paar Stunden später wird die Meldung ergänzt:

    Zitat
    Seit 14:30 laufen alle Root-Server und alle internen Systeme (z.B. Powerpanel) wieder im Regelbetrieb, für Kunden mit Root-Servern sollte es deshalb keine weiteren Beeinträchtigungen geben.

    Auch ein großer Teil der vSERVER Systeme ist zwischenzeitlich wieder verfügbar, hier rechnen wir aber mit Beeinträchtigungen einzelner Kunden bis in die späten Abendstunden.

    Einzelne Kunden, am Arsch. Laut meinen Netzrecherchen waren fast alle vServer bis weit nach 22 Uhr down. Erst danach kamen langsam einige Systeme nach und nach wieder hoch.

    Als ich endlich dann gegen 24 Uhr bemerkte dass mein Wartungspanel wieder erreichbar war, kam langsam wieder Freude auf, die war jedoch nur von kurzer Dauer. Status des Hostsystems: Offline.

    Ein paar Minuten später war es dann plötzlich wieder da, und auch der Server wieder erreichbar. Doch das sollte noch nicht alles gewesen sein. Nach den ersten Checks und Wartungsarbeiten per SSH gehe ich ins Forum - und schon bombardiert es mich mit Datenbankfehlern. Klar, die DB mag es nicht wenn sie im Betrieb unsanft beendet wird.

    Ich schaue nach, welche Tabellen betroffen sind, mache mich an die Reparaturarbeiten, und plötzlich, während die Reparatur der größten Tabelle durchläuft - "The system is going down for halt NOW!". Ich bekomme die ersten grauen Haare und denke mir, welcher grenzdebile Volldepp fährt von aussen meinen Server runter während ich die verdammte Tabelle repariere?!? OMGWTF?!? :staun:  :confused:

    Da war es endgültig vorbei. Klar, im Reparaturzustand gekillt zu werden mag die DB noch weniger. Nach dem Reboot sieht es düster aus, Datenbank halb zerstört. Ich gebe auf, lösche die DB komplett, und spiele das letzte Backup der vorherigen Nacht wieder ein. Fehler endlich verschwunden, Forum wieder benutzbar.

    Fazit: Die Beiträge von heute morgen, etwa zwei bis drei Stunden vor dem Ausfall, sind verloren. Ich konnte es leider nicht ändern, das Schicksal war gegen mich wie auch der §$%&'§$%&'§$&-Hoster. Das gleiche gilt für Bilder, die heute morgen evtl. hochgeladen wurden - die Bilder sind evtl. noch da, aber der Zugriff darauf über das Uploadscript sollte nicht mehr möglich sein.

    Dieser Ausfall wird als spektakulärer FAIL in die Geschichte eingehen. Meine Motivation, den Hoster zu wechseln, wird immer größer.
    « Letzte Änderung: 17. Juli 2008, 00:50:09 von Bloodsurfer »


    Offline Bloodsurfer

    • diagonally parked in a parallel universe...
    • Administrator
    • *****
      • Pfälzer mit saarländischem Migrationshintergrund
        • Show all replies

      Offline Bloodsurfer

      • diagonally parked in a parallel universe...
      • Administrator
      • *****
        • Pfälzer mit saarländischem Migrationshintergrund
          • Show all replies
        Das wird hauptsächlich die Arbeitssurfer betreffen die von 7 Uhr an bis zum Ausfall um 9:50 gepostet haben, die Beiträge sind weg. Ich hoffe auch dass das nicht allzu viel war.


        Offline Bloodsurfer

        • diagonally parked in a parallel universe...
        • Administrator
        • *****
          • Pfälzer mit saarländischem Migrationshintergrund
            • Show all replies
          Zumindest haben wir jetzt auch einen "Worst Case"-Test hinter uns.
          Selbst wenn die Maschine direkt während der Datenbankreperatur abkackt und wir also ein total zerstörtes Forum haben, funktioniert immer noch das Backup vom Vortag!  :biggrin:
          Also alles Bestens!  :D

          Vielen Dank Andi.

          Also angesichst solch einen Asfalls finde ich dass wir echt gut weggekommen sind und Du hast prima Arbeit geleistet!

          Außerdem ist dies der Beweis wie wichtig es ist ein gescheites Backup zu haben. Früher wäre wahrscheinlich alles weg gewesen, oder das Backup 3 Monate alt.

          Bitte, bitte. :)
          Ja, da zahlt es sich aus, dass man ein gescheites Backupscript geschrieben hat, welches jede Nacht um vier durchläuft, und dieses auch mal ab und zu auf korrekte Funktion überprüft anstatt sich blind darauf zu verlassen 8)
          Darauf lege ich wirklich viel Wert, alles zu sichern von der Datenbank über hochgeladene Pics bis zu sämtlichen Konfigurationen - so kann ich selbst im schlimmsten Fall, wenn ich den Server ganz neu aufsetzen müsste, dies in ein bis zwei Stunden tun ohne Probleme. Es kostet Zeit, das einzurichten, aber im Ernstfall ist es Gold wert.

          Ich weiß genau wie einem, in der von dir beschriebenen Situation, der Herzschlag aussetzt und man 2 Liter kalten Schweiß in 5 Sekunden produziert.  :D

          Ohja, du sagst es... Ich hab ja zuerst, als ich weder per Web noch per SSH reinkam, mit dem schlimmsten gerechnet und gedacht jemand hätte den Server gecrackt, da war ich schon fast erleichtert als ich dann herausfand dass der Hoster Schuld war und net sonstwas passiert ist :D


          Offline Bloodsurfer

          • diagonally parked in a parallel universe...
          • Administrator
          • *****
            • Pfälzer mit saarländischem Migrationshintergrund
              • Show all replies
            Im Übrigen funzt seit dem Ausfall der URL-Upload nemmer ;)

            In der Tat, du hast Recht. Ich bin gerade am Knobeln was da lost ist, das sollte eigentlich gehen :confused:


            Offline Bloodsurfer

            • diagonally parked in a parallel universe...
            • Administrator
            • *****
              • Pfälzer mit saarländischem Migrationshintergrund
                • Show all replies
              Ah, Fehler im Upload ist jetzt auch behoben, obwohl ich lange gegrübelt habe.

              Die Namensauflösung hat nicht funktioniert, allerdings nur in PHP. Überall sonst ging sie einwandfrei. Die /etc/resolv.conf war nach dem Neustart des Systems gestern leer, da hatte ich wieder zwei Nameserver von Hand eingetragen - allerdings lief da schon der Apache. Der schaut scheinbar nur beim Start einmal in die Datei, daher hat er die Nameserver erst nach einem Reload gerade eben übernommen. Da muss man auch erstmal drauf kommen :confused:

              Egal, jetzt geht alles wieder.









              Ich habe schon gedacht, ich könnte das Bild von dieser süßen Pussy gar nicht mehr hochladen...








































































































              :D
              « Letzte Änderung: 17. Juli 2008, 19:18:11 von Bloodsurfer »


              Offline Bloodsurfer

              • diagonally parked in a parallel universe...
              • Administrator
              • *****
                • Pfälzer mit saarländischem Migrationshintergrund
                  • Show all replies
                Gerade eben habe ich eine offizielle Stellungnahme per Mail erhalten, die wollte ich der Vollständigkeit halber noch hier posten:

                Zitat
                Sehr geehrte Kunden,
                wir möchten heute die Gelegenheit ergreifen, zu dem Stromausfall in Teilen unseres Rechenzentrums vom 16. Juli 2008 Stellung zu nehmen.
                SERVER4YOU mietet von der Betreibergesellschaft Avaya GmbH & Co. KG Rechenzentrumsfläche, die mit modernsten Sicherheits- und Versorgungsanlagen ausgestattet ist, selbstverständlich auch mit mehrfach redundanten unterbrechungsfreien Stromversorgungen und entsprechenden Dieselgeneratoren. Der Betrieb und die Wartung der Anlagen obliegt der Avaya und wird in Absprache mit SERVER4YOU durchgeführt. Die Avaya GmbH & Co. KG ist Teil des global operierenden Avaya-Konzerns und wir haben das Unternehmen über viele Jahre als sehr zuverlässigen Dienstleister kennengelernt. Leider unterlaufen aber auch dem zuverlässigsten Dienstleister Fehler, die in diesem Fall zu dem bedauerlichen Ausfall geführt haben. Auf Grund unseres stetigen Wachstums hat Avaya in den letzten Wochen zwei zusätzliche USV-Anlagen installiert, um die Kapazität der Notstromversorgung zu erweitern. Diese Anlagen wurden ausgiebig getestet und zeigten in allen Tests eine technisch einwandfreie Funktion. Bei der Installation dieser Anlagen wurde durch menschliches Versagen versäumt, die Leistungsschalter innerhalb der Anlagen auf die für den Betrieb notwendige Leistung einzustellen. Am 2. Juli 2008 sind die Anlagen dann in den Regelbetrieb übernommen und bis zum Stromausfall ohne Auffälligkeiten betrieben worden.
                Bei der ersten turnusmäßigen Wartung der betreffenden USV-Anlagen, die am 16. Juli stattfand, wurde eine USV-Anlage abgeschaltet. Als die Last durch eine andere USV-Anlage übernommen wurde, lösten die zugeordneten Leistungsschalter auf Grund der falsch eingestellten Leistungswerte aus und es kam für einen Zeitraum von 10 Minuten zu einem Stromausfall. Hierfür ist allein menschliches Versagen die Ursache. Bei korrekt eingestellten Leistungsschaltern wäre dieser Stromausfall nicht passiert. Auch die Dieselgeneratoren, die normalerweise im Falle eines Stromausfalls einspringen, schalteten sich in diesem Falle nicht selbstständig ein, da das externe Stromnetz nach wie vor vorhanden war. Hier liegt ebenfalls kein technisches Versagen vor. Von dem Stromausfall waren ca. 20% der SERVER4YOU-Kunden betroffen, darüber hinaus weitere Kunden der Avaya GmbH & Co. KG. Nachdem die Server wieder mit Strom versorgt wurden, arbeiteten wir mit Hochdruck daran, alle Systeme wieder in den Normalzustand zu versetzen. Über 90% der Server waren innerhalb von drei Stunden wieder erreichbar, vereinzelt kam es aber auch zu längeren Beeinträchtigungen.
                Avaya wird nun alle Leistungsschalter überprüfen, um zukünftig solche Vorfälle zu vermeiden. Darüber hinaus werden wir zusammen mit Avaya die internen Prozesse weiter überarbeiten, um Fehler beim "Faktor Mensch" noch unwahrscheinlicher zu machen. Wir bedauern diesen Zwischenfall sehr und bitten Sie, alle daraus entstandenen Unannehmlichkeiten zu entschuldigen.
                Mit freundlichen Grüßen
                « Letzte Änderung: 18. Juli 2008, 19:05:26 von Bloodsurfer »