Pech im Unglück

Linux Software RAID beim Synchronosieren der Daten nach dem Austausch einer defekten Festplatte.

Seltene Ereignisse passieren zwar selten, aber sie passieren. Es ist nur eine Frage der Wahrscheinlichkeit, quasi eine Rechnübung für Statistiker. Zu den seltenen Ereignissen gehört das Versagen von Speichermedien in einem Computer, genauer Festplatten in einem der Server die ich betreue. Gestern war es mal wieder soweit!

Die Herstellern geben als MTBF (Mean Time Between Failure - mittlere Betriebsdauer zwischen Ausfällen) ihrer Festplatten gerne über 200 000 Stunden an. Ganz naiv gerechnet sind das über dreißig Jahre. Wenn man bedenkt, dass die Platte erst 2015 in Betrieb genommen wurde, ist sie sehr jung gestorben. Allerdings war meine Milchmädchenrechnung nicht ganz fair. Die Angabe der MTBF bezieht sich auf eine Temperatur von 25° und einer Betriebszeit von 2400 Stunden im Jahr. Da der Server rund um die Uhr läuft und im innern sicher um einiges wärmer ist, dürfen wir als MTBF nur ein zehntel erwarten. Außerdem ist die MTBF nur ein statistischer Wert. Er sagt nichts darüber aus, wenn die Festplatte tatsächlich ausfällt und noch weniger wann meine Festplatte kaputt geht. Wie es mit Mittelwerten so ist, sind die Vorhersagen sehr präzise, solange eine außreichend große Stichprobe herangezogen wird (beispielsweise 10 000 Festplatten). Aber egal was die Statistik sagt, der Praktiker sollte sich auf jeden Fall merken, die Festplatte wird auf jeden Fall kaputt gehen. Früher oder später (hoffentlich nicht zu früh).

Wie gesagt, war es gestern bei mir soweit und ich musste die Festplatte als "defekt" markieren. Da sie zu einem RAID-System (Redundante Festplatten) gehörte entstand außer den Hardwarekosten, einer kleinen Downtime und etwas Arbeitszeit kein weiterer Schaden. Am gleichen Tag wurde ich allerdings noch von einem zweiten Server überrascht. Auch er klagte über Festplattenfehler. Wie sich herausstellte war auch hier eine Festplatte defekt. Diesemal traf es eine Platte die rund zwei Jahre auf dem Buckel hat - statistisch gesehen etwas zu jung um über den Jordan zu gehen. (Im übrigen belief sich auch hier der Schaden auf die Hardwarekosten der Festplatte, ein wenig Downtime und die Arbeitszeit.)

Das waren zwei schicksalhafte Ereignisse an einem Tag! Ein Zeichen? Eine defekte Festplatte ist zwar ein seltenes Ereignis, kommt aber vor. Zwei defekte Festplatten am selben Tag kommen einem verdammt unwahrscheinlich vor. Um ein besseres Gefühl für die Wahrscheinlichkeiten zu bekommen, versuche ich mir die "anderen Fälle" vorzustellen: Wieviele Tage gibt es an denen keine Festplatte kaputt geht? Wieviele Tage gibt es, an denen eine Festplatte kaputt geht? Außerdem sind die beiden defekten Festplatten nicht meine einzigen - in meinem Dunstkreis (diverse Server, RAIDs, Backup, ...) gibt es über 20. An diesem Schicksalstag sind also immerhin 18 von 20 Festplatten heil geblieben. Bei einer MTBF von drei Jahren und 20 Festplatten, muss ich durschnittlich alle vier Monate mit einer defekten Festplatte rechnen. So gesehen erscheint es gar nicht so unwahrscheinlich, dass zwei Festplatten am gleichen Tag den Dienst quittieren. Dieses Ereignis war zwar Pech, aber eben auch kein großes Unglück.

P.S. Apropos rechnen: Damit meine ich auch buchalterisch. Also die Kosten für die neue Festplatte (€ 100,-), die Aufwände des Adminsitrators (4 h) und nicht zu vergessen die geschätzen Kosten der Downtime (Mitarbeiter können nicht arbeiten, Kundenanfragen können nicht beantwortet werden, der Webshop ist nicht erreichbar). Mit anderen Worten, das Unternehmen muss soviel Ertrag bringen, dass sie dreimal im Jahre mit der gesamten Belegschaft um 12:00 in der Kantine ein Festessen abhalten und den Tag mit edlem Wein ausklingen lassen. (Dumm ist nur, dass die Festplatte trotzdem getauscht werden muss.)

10. Okt. 2018 (16:38) | gERD Schaufelberger

zur Liste

Suche

Aktuelle Artikel