Beyond Hollywood - das Filmsyndikat

Foren-Intern => Vorschläge, Kritik, Bugs und Probleme => Thema gestartet von: Bloodsurfer am 17. Juli 2008, 00:47:37

Titel: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Bloodsurfer am 17. Juli 2008, 00:47:37
Life sucks.

Heute morgen stehe ich nichtsahnend auf, um halb zwölf halbwegs ausgeschlafen, mit einer Tasse Kaffee in der Hand setze ich mich an den Rechnen und will wie an jedem (freien) Morgen hier reinschauen.

Forum down. Augenbraue wandert nach oben. Ich versuche mich per SSH einzuloggen. Timeout. Ein unangenehmes Gefühl macht sich breit. Ich will das Wartungspanel öffenen - "geplante Auszeit bis etwa 22 Uhr". :confused: Erstmal ein ungläubiges Staunen - man kann nicht wirklich den Server über zehn Stunden offline nehmen ohne den Kunden darüber zu informieren, denke ich mir... :staun: Kurze Recherche im Netz bringt mich weiter, scheinbar sind fast alle Server4You-Kunden von mysteriösen Ausfällen betroffen. Erste Mails und SMS treffen bei mir ein.

Nach kurzer Zeit erscheint dann die erste Meldung auf der Site des Hosters:

Zitat
Wichtige Information

Sehr geehrte Kunden,

aufgrund einer unangekündigten Wartungsarbeit unseres Rechenzentrumsbetreibers Avaya-Tenovis kam es heute gegen 9.50 Uhr zu einem Stromausfall in einem Teil unserer Rechenzentrumsfläche in der Avaya Databurg in Frankfurt. Da ein Leistungsschalter bei der Wartung nicht wie erwartet ausgelöst hat, haben vorhandene USV-Anlagen und Diesel-Generatoren nicht gegriffen und ein Stromausfall entstand. Zwar hat dieser Stromausfall nur ca. 10 Minuten gedauert, aber dennoch dafür gesorgt, dass alle Systeme in dem betroffenen Bereich neu starten mussten. Betroffen sind ca. 20 % unserer Kunden.

Zurzeit arbeiten alle verfügbaren Mitarbeiter mit Hochdruck daran, dass Ihre Server schnellstmöglich wieder erreichbar sind.

Der Großteil der betroffenen Server ist bereits jetzt wieder erreichbar. Alle verbleibenden Root-Server sollten innerhalb der nächsten 2-3 Stunden wieder verfügbar sein, alle vServer im Laufe des Tages.

Wir können leider nicht ausschließen, dass es bis in die späten Abendstunden zu Beeinträchtigungen bei internen Systemen wie z.B. dem PowerPanel kommen kann.

Wir werden Sie jederzeit über den Stand der Dinge der Recovery-Maßnahmen auf dem Laufenden halten und Ihnen auch kurzfristige Rückmeldungen zu Ihrem Server-Status geben.

Wir möchten Sie bitten, die aus diesem Vorfall resultierenden Unannehmlichkeiten zu entschuldigen und versichern Ihnen nochmals, dass wir alles daran setzen, um zügig in den Normalzustand zurückzukehren. Darüber hinaus wird unser Rechenzentrumsbetreiber alle Leistungsschalter nochmals überprüfen, um derartige Vorfälle in Zukunft auszuschließen.

Mit freundlichen Grüßen
Ihr SERVER4YOU-Team 

Soviel zur "geplanten Wartungsauszeit". Ein paar Stunden später wird die Meldung ergänzt:

Zitat
Seit 14:30 laufen alle Root-Server und alle internen Systeme (z.B. Powerpanel) wieder im Regelbetrieb, für Kunden mit Root-Servern sollte es deshalb keine weiteren Beeinträchtigungen geben.

Auch ein großer Teil der vSERVER Systeme ist zwischenzeitlich wieder verfügbar, hier rechnen wir aber mit Beeinträchtigungen einzelner Kunden bis in die späten Abendstunden.

Einzelne Kunden, am Arsch. Laut meinen Netzrecherchen waren fast alle vServer bis weit nach 22 Uhr down. Erst danach kamen langsam einige Systeme nach und nach wieder hoch.

Als ich endlich dann gegen 24 Uhr bemerkte dass mein Wartungspanel wieder erreichbar war, kam langsam wieder Freude auf, die war jedoch nur von kurzer Dauer. Status des Hostsystems: Offline.

Ein paar Minuten später war es dann plötzlich wieder da, und auch der Server wieder erreichbar. Doch das sollte noch nicht alles gewesen sein. Nach den ersten Checks und Wartungsarbeiten per SSH gehe ich ins Forum - und schon bombardiert es mich mit Datenbankfehlern. Klar, die DB mag es nicht wenn sie im Betrieb unsanft beendet wird.

Ich schaue nach, welche Tabellen betroffen sind, mache mich an die Reparaturarbeiten, und plötzlich, während die Reparatur der größten Tabelle durchläuft - "The system is going down for halt NOW!". Ich bekomme die ersten grauen Haare und denke mir, welcher grenzdebile Volldepp fährt von aussen meinen Server runter während ich die verdammte Tabelle repariere?!? OMGWTF?!? :staun:  :confused:

Da war es endgültig vorbei. Klar, im Reparaturzustand gekillt zu werden mag die DB noch weniger. Nach dem Reboot sieht es düster aus, Datenbank halb zerstört. Ich gebe auf, lösche die DB komplett, und spiele das letzte Backup der vorherigen Nacht wieder ein. Fehler endlich verschwunden, Forum wieder benutzbar.

Fazit: Die Beiträge von heute morgen, etwa zwei bis drei Stunden vor dem Ausfall, sind verloren. Ich konnte es leider nicht ändern, das Schicksal war gegen mich wie auch der §$%&'§$%&'§$&-Hoster. Das gleiche gilt für Bilder, die heute morgen evtl. hochgeladen wurden - die Bilder sind evtl. noch da, aber der Zugriff darauf über das Uploadscript sollte nicht mehr möglich sein.

Dieser Ausfall wird als spektakulärer FAIL in die Geschichte eingehen. Meine Motivation, den Hoster zu wechseln, wird immer größer.
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Manollo am 17. Juli 2008, 00:57:27
Das war ein ziemlich großer Schock als heute Abend nix ging mit dem Forum.
Ich stand schon fast unter Entzugserscheinungen  :bawling:


[...]

Fazit: Die Beiträge von heute morgen, etwa zwei bis drei Stunden vor dem Ausfall, sind verloren. Ich konnte es leider nicht ändern, das Schicksal war gegen mich wie auch der §$%&'§$%&'§$&-Hoster. Das gleiche gilt für Bilder, die heute morgen evtl. hochgeladen wurden - die Bilder sind evtl. noch da, aber der Zugriff darauf über das Uploadscript sollte nicht mehr möglich sein.

[...]


2 Beiträge von mir sind weg  :bawling:
Gut das die nicht allzu wichtig waren.
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Bloodsurfer am 17. Juli 2008, 00:58:26
Sogar auf Heise und Golem ist das ganze angelangt... http://www.heise.de/newsticker/Serverausfall-beim-Hoster-Intergenia--/meldung/112877
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Flightcrank am 17. Juli 2008, 00:59:43
Klingt nicht gut!  :roll:  Ich fand den Ausfall an sich jetzt nicht so tragisch aber was Du jetzt schreibst ist schon mehr als nur ärgerlich...  :neutral:
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Flightcrank am 17. Juli 2008, 01:01:32
Gut, viel kann nicht weg sein. Was ich gestern Nacht so ziemlich als Letzter geschrieben habe, steht noch drin...
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Manollo am 17. Juli 2008, 01:05:19
Ja ich glaube das waren nur die beiden Beiträge von mir und ein Bild was ich hochgeladen hab.
Naja wayne.
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Bloodsurfer am 17. Juli 2008, 01:15:14
Das wird hauptsächlich die Arbeitssurfer betreffen die von 7 Uhr an bis zum Ausfall um 9:50 gepostet haben, die Beiträge sind weg. Ich hoffe auch dass das nicht allzu viel war.
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: der Dude am 17. Juli 2008, 02:10:07
Phuu -.-' mein Herr der Ringe Beitrag von heute Morgen ist noch drin.... aber scheint eh keinen gejuckt zu haben :?
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: der Dude am 17. Juli 2008, 02:36:23
Im Übrigen funzt seit dem Ausfall der URL-Upload nemmer ;)
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: blaubaum am 17. Juli 2008, 02:43:09
Ich war gestern voll auf Entzug. Was ein schrecklicher Tag :lol: ;)
Danke für die PSN-Mail, Bloodi.
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Nation-on-Fire am 17. Juli 2008, 07:29:48
Marcos Post im Fred fehlt !
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Havoc am 17. Juli 2008, 07:53:22
Marcos Post im Fred fehlt !
Meiner auch, plus ein paar andere von dem Morgen.
Aber was sind schon ein paar Posts. Das Forum läuft wieder. Das ist die Hauptsache.
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Nation-on-Fire am 17. Juli 2008, 07:55:05
Marcos Post im Fred fehlt !
Meiner auch, plus ein paar andere von dem Morgen.
Aber was sind schon ein paar Posts. Das Forum läuft wieder. Das ist die Hauptsache.

Eben !
Die Entzugserscheinungen sind weg, weg, weg !!!!  :D
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Necronomicon am 17. Juli 2008, 07:56:06
Von mir fehlen auch einige aber das ist ja wirklich das kleinste Übel  ;)
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Havoc am 17. Juli 2008, 08:13:21
Zumindest haben wir jetzt auch einen "Worst Case"-Test hinter uns.
Selbst wenn die Maschine direkt während der Datenbankreperatur abkackt und wir also ein total zerstörtes Forum haben, funktioniert immer noch das Backup vom Vortag!  :biggrin:
Also alles Bestens!  :D

@Bloody
Ich weiß genau wie einem, in der von dir beschriebenen Situation, der Herzschlag aussetzt und man 2 Liter kalten Schweiß in 5 Sekunden produziert.  :D
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Masterboy am 17. Juli 2008, 08:22:39
Vielen Dank Andi.

Also angesichst solch einen Asfalls finde ich dass wir echt gut weggekommen sind und Du hast prima Arbeit geleistet!

Außerdem ist dies der Beweis wie wichtig es ist ein gescheites Backup zu haben. Früher wäre wahrscheinlich alles weg gewesen, oder das Backup 3 Monate alt.
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Nation-on-Fire am 17. Juli 2008, 08:27:55
by the way : wo ist eigentlich Pierre ?
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Masterboy am 17. Juli 2008, 08:32:08
by the way : wo ist eigentlich Pierre ?

hab gestern mit ihm telefoniert. Er hat momentan auch ein paar private Dinge zu regeln, hat aber absolut nix mit dem Forum zu tun. Er wird sich die Tage wieder einfinden denke ich.
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Necronomicon am 17. Juli 2008, 08:36:45
Jo ganz vergessen, danke Andi daß es so schnell wieder funktioniert hat  ;)
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: JasonXtreme am 17. Juli 2008, 09:06:22
Sänks Andy! :D Und sorry fürs nerven gestern :D ;)

@Marc
Den Post krieg ich so nicht mehr hin, daher lass ichs sicher sein jetzt
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Elena Marcos am 17. Juli 2008, 10:48:03
Super Andy ... schön das alles wieder läuft!
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Necronomicon am 17. Juli 2008, 10:53:52
Sänks Andy! :D Und sorry fürs nerven gestern :D ;)


War die SMS eigentlich für mich gedacht, weil du dann nicht mehr geantwortet hast ? :P
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Flightcrank am 17. Juli 2008, 12:07:22
by the way : wo ist eigentlich Pierre ?

hab gestern mit ihm telefoniert. Er hat momentan auch ein paar private Dinge zu regeln, hat aber absolut nix mit dem Forum zu tun. Er wird sich die Tage wieder einfinden denke ich.
Dito. Hatte ihn gestern auch an der Strippe...  :neutral:
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Nation-on-Fire am 17. Juli 2008, 12:15:18


@Marc
Den Post krieg ich so nicht mehr hin, daher lass ichs sicher sein jetzt

Amateur !
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: JasonXtreme am 17. Juli 2008, 12:31:04

@ Marc
Wasn, hab doch genug noch geschrieben!
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Nation-on-Fire am 17. Juli 2008, 12:56:10
Oh, habe  ;)  vergessen, Spoatzl !
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Flightcrank am 17. Juli 2008, 13:49:07
REDRUM
:arrow: PN Du Dummschwaller. ;)
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: JasonXtreme am 17. Juli 2008, 13:54:41
Zurück Schatzihasi ;)
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Bloodsurfer am 17. Juli 2008, 17:40:10
Zumindest haben wir jetzt auch einen "Worst Case"-Test hinter uns.
Selbst wenn die Maschine direkt während der Datenbankreperatur abkackt und wir also ein total zerstörtes Forum haben, funktioniert immer noch das Backup vom Vortag!  :biggrin:
Also alles Bestens!  :D

Vielen Dank Andi.

Also angesichst solch einen Asfalls finde ich dass wir echt gut weggekommen sind und Du hast prima Arbeit geleistet!

Außerdem ist dies der Beweis wie wichtig es ist ein gescheites Backup zu haben. Früher wäre wahrscheinlich alles weg gewesen, oder das Backup 3 Monate alt.

Bitte, bitte. :)
Ja, da zahlt es sich aus, dass man ein gescheites Backupscript geschrieben hat, welches jede Nacht um vier durchläuft, und dieses auch mal ab und zu auf korrekte Funktion überprüft anstatt sich blind darauf zu verlassen 8)
Darauf lege ich wirklich viel Wert, alles zu sichern von der Datenbank über hochgeladene Pics bis zu sämtlichen Konfigurationen - so kann ich selbst im schlimmsten Fall, wenn ich den Server ganz neu aufsetzen müsste, dies in ein bis zwei Stunden tun ohne Probleme. Es kostet Zeit, das einzurichten, aber im Ernstfall ist es Gold wert.

Ich weiß genau wie einem, in der von dir beschriebenen Situation, der Herzschlag aussetzt und man 2 Liter kalten Schweiß in 5 Sekunden produziert.  :D

Ohja, du sagst es... Ich hab ja zuerst, als ich weder per Web noch per SSH reinkam, mit dem schlimmsten gerechnet und gedacht jemand hätte den Server gecrackt, da war ich schon fast erleichtert als ich dann herausfand dass der Hoster Schuld war und net sonstwas passiert ist :D
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Bloodsurfer am 17. Juli 2008, 18:08:30
Im Übrigen funzt seit dem Ausfall der URL-Upload nemmer ;)

In der Tat, du hast Recht. Ich bin gerade am Knobeln was da lost ist, das sollte eigentlich gehen :confused:
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Bloodsurfer am 17. Juli 2008, 19:16:21
Ah, Fehler im Upload ist jetzt auch behoben, obwohl ich lange gegrübelt habe.

Die Namensauflösung hat nicht funktioniert, allerdings nur in PHP. Überall sonst ging sie einwandfrei. Die /etc/resolv.conf war nach dem Neustart des Systems gestern leer, da hatte ich wieder zwei Nameserver von Hand eingetragen - allerdings lief da schon der Apache. Der schaut scheinbar nur beim Start einmal in die Datei, daher hat er die Nameserver erst nach einem Reload gerade eben übernommen. Da muss man auch erstmal drauf kommen :confused:

Egal, jetzt geht alles wieder.









Ich habe schon gedacht, ich könnte das Bild von dieser süßen Pussy gar nicht mehr hochladen...





































































































(http://upload.beyondhollywood.de/images/1216314806_1216308142149.jpg)


:D
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Havoc am 17. Juli 2008, 19:30:08
Da muss man auch erstmal drauf kommen :confused:
Stimmt das muss man wissen.
Du hättest auch den Network Service neu starten können, soviel ich mich erinnere.
Hatte früher häufiger mit Apache/Tomcat Kombinationen zu tun.  ;)
Titel: Re: großer Ausfall am 16. Juli 2008 a.k.a. SUPERGAU
Beitrag von: Bloodsurfer am 18. Juli 2008, 19:02:11
Gerade eben habe ich eine offizielle Stellungnahme per Mail erhalten, die wollte ich der Vollständigkeit halber noch hier posten:

Zitat
Sehr geehrte Kunden,
wir möchten heute die Gelegenheit ergreifen, zu dem Stromausfall in Teilen unseres Rechenzentrums vom 16. Juli 2008 Stellung zu nehmen.
SERVER4YOU mietet von der Betreibergesellschaft Avaya GmbH & Co. KG Rechenzentrumsfläche, die mit modernsten Sicherheits- und Versorgungsanlagen ausgestattet ist, selbstverständlich auch mit mehrfach redundanten unterbrechungsfreien Stromversorgungen und entsprechenden Dieselgeneratoren. Der Betrieb und die Wartung der Anlagen obliegt der Avaya und wird in Absprache mit SERVER4YOU durchgeführt. Die Avaya GmbH & Co. KG ist Teil des global operierenden Avaya-Konzerns und wir haben das Unternehmen über viele Jahre als sehr zuverlässigen Dienstleister kennengelernt. Leider unterlaufen aber auch dem zuverlässigsten Dienstleister Fehler, die in diesem Fall zu dem bedauerlichen Ausfall geführt haben. Auf Grund unseres stetigen Wachstums hat Avaya in den letzten Wochen zwei zusätzliche USV-Anlagen installiert, um die Kapazität der Notstromversorgung zu erweitern. Diese Anlagen wurden ausgiebig getestet und zeigten in allen Tests eine technisch einwandfreie Funktion. Bei der Installation dieser Anlagen wurde durch menschliches Versagen versäumt, die Leistungsschalter innerhalb der Anlagen auf die für den Betrieb notwendige Leistung einzustellen. Am 2. Juli 2008 sind die Anlagen dann in den Regelbetrieb übernommen und bis zum Stromausfall ohne Auffälligkeiten betrieben worden.
Bei der ersten turnusmäßigen Wartung der betreffenden USV-Anlagen, die am 16. Juli stattfand, wurde eine USV-Anlage abgeschaltet. Als die Last durch eine andere USV-Anlage übernommen wurde, lösten die zugeordneten Leistungsschalter auf Grund der falsch eingestellten Leistungswerte aus und es kam für einen Zeitraum von 10 Minuten zu einem Stromausfall. Hierfür ist allein menschliches Versagen die Ursache. Bei korrekt eingestellten Leistungsschaltern wäre dieser Stromausfall nicht passiert. Auch die Dieselgeneratoren, die normalerweise im Falle eines Stromausfalls einspringen, schalteten sich in diesem Falle nicht selbstständig ein, da das externe Stromnetz nach wie vor vorhanden war. Hier liegt ebenfalls kein technisches Versagen vor. Von dem Stromausfall waren ca. 20% der SERVER4YOU-Kunden betroffen, darüber hinaus weitere Kunden der Avaya GmbH & Co. KG. Nachdem die Server wieder mit Strom versorgt wurden, arbeiteten wir mit Hochdruck daran, alle Systeme wieder in den Normalzustand zu versetzen. Über 90% der Server waren innerhalb von drei Stunden wieder erreichbar, vereinzelt kam es aber auch zu längeren Beeinträchtigungen.
Avaya wird nun alle Leistungsschalter überprüfen, um zukünftig solche Vorfälle zu vermeiden. Darüber hinaus werden wir zusammen mit Avaya die internen Prozesse weiter überarbeiten, um Fehler beim "Faktor Mensch" noch unwahrscheinlicher zu machen. Wir bedauern diesen Zwischenfall sehr und bitten Sie, alle daraus entstandenen Unannehmlichkeiten zu entschuldigen.
Mit freundlichen Grüßen