RedSkall schrieb:
Waum steigt das Raid5 komplett aus wenn eine einzelne HDD ein paar defekte Sektoren hat?
Wenn man wie Du einen Hardware RAID Controller verwendet, dann muss man unbedingt HDDs mit TLER/ERC verwenden, sonst passiert früher oder später genau das was Dir hier passiert ist.
TLER steht für Time Limited Error Recovery und ist das gleiche wie Error Recovery Control (ERC) von Seagate und Command Completion Time Limit (CCTL) bei Samsung und Hitachi. Was sich unterscheidet und was man einstellen kann, ist wie lange die HDD eben versucht einen Sektor doch noch erfolgreich zu lesen, wenn das beim ersten Versuch nicht klappt. Es gibt aber ein Tool das sich
WDTLER nennt und man kann es auch mit "smartctl -l scterc,70,70 <device>" einstellen, aber nicht bei allen Platten! Bei denen wo man es einstellen kann und wo es ab Werk auch meist kürzer voreingestellt ist, spricht man von HDDs die TLER / ERC / CCTL haben, bei den anderen sagt man sie hätten es nicht. Das ist der einzige Unterschied, sonst funktionieren die gleich und bei denen mit TLER kann man die Zeit höher stellen, wenn glaubt es würde so einen Unterschied machen, ob die HDD nur 7s (i.d.R. der Default bei Platten mit TLER wie der WD Red) oder z.B. 14s (Default der Green) versuchen eine problematischen Sektor doch noch zu lesen.
Die Einstellung ist aber nur für den Timeout, der darf nicht länger sein als der Timeout den das RAIDs auf Antworten der Platten wartet, da sie Platten sonst aus dem RAID fliegen. Außerdem ist es in einem echten RAID (RAID 0 ist nur ein AID 0) ja nicht tragisch, wenn ein Sektor nicht gelesen werden kann, da die Daten aus der Parity rekonstruiert werden können. Aber Hardware RAID Controller warten gewöhnlich nur 8s auf eine Antwort und werfen eine HDDs als defekt aus dem RAID, wenn diese eben nicht innerhalb dieser 8s antwortet und genau dies dürfte bei Dir passiert sein.
andredc schrieb:
Bei einem Raid 5 hast du keine Datenredundanz
Falsch, man hat bei einem RAID 5 eine einfache Redundanz. Richtig ist aber, dass
RAIDs keine Backups ersetzen !
Rego schrieb:
Was verwendest Du denn für Platten?
Das ist die entscheidende Frage, ich fürchte die falschen.
Rego schrieb:
Wenn es Standard-Consumer HDDs sind, wirst Du mit diesen Platten wahrscheinlich sowieso keinen vollständigen Rebuild schaffen.
https://www.zdnet.com/article/why-raid-5-stops-working-in-2009/
Vergiss den Artikel, der ist voller Fehler wie z.B. die Aussagen mit der UBER von 1:10^14, es gibt auch Consumer HDDs mit 1:10^15 und die Formel zur Berechnung der theoretischen Wahrscheinlichkeit einer fehlerfreien Rebuilds multipliziert die Wahrscheinlichkeiten HDDs, die beträgt bei einer UBER von 1:10^14 eben (12TB-Kapazität)/12TB, bei 1:10^15 sind es (120TB-Kapazität)/120TB, da 10^14Bit etwa 12TB an Daten entsprechen.
Bei dem RAID hier wären es also bei Platten mit einer UBER von 1:10^14 dann 8/12 = 0,66667 Wahrscheinlichkeit pro Platten ihre ganze Kapazität fehlerfrei lesen zu können und dies hoch 4, also 0,1975 oder knapp unter 20%, als Wahrscheinlichkeit dass alle 4 Platten fehlerfrei gelesen werden können, wie es für ein Rebuild eines RAID 5 aus 5 HDDs bei Ausfall einer Platte nötig ist. Also schon deutlich mehr als 0, obwohl das RAID über 12TB groß ist. Bei HDDs mit einer UBER von 1:10^15 wäre es sogar 116/120 = 0,96667 pro Plkatte und 0,96667 ^4 = 0,8732 und damit über 87% Chance auf einen erfolgreichen Rebuild.
Jeweils ohne die MTBF, also die Wahrscheinlichkeit eines Komplettausfalls einer Platte während des Rebuild zu berücksichtigen, denn auch bei einer MTBF von einer Millionen Stunden und 10 Stunden für das Rebuild, ist die Gefahr eines Totalausfalls gerade 1:100.000 und im Vergleich zu dem Risiko das das Rebuild wegen eines unkorrigierbaren Lesefehlers scheitert, daher vernachlässigbar gering. Das ist bei einem RAID 6 anders, da dort die Wahrscheinlichkeit das ein Rebuild bei einer ausgefallenen HDD wegen eines unkorrigierbaren Lesefehlers minimal ist, denn es bleibt ja noch ein einfache Redundanz, damit kann das RAID bei einem Lesefehler die Daten anhand der verbliebenen Redundanz korrigieren und es ist extrem unwahrscheinlich das dabei eine zweite Platten an der gleichen Adresse ebenfalls einen unkorrigierbaren Lesefehler hat. Die UBER spielt daher beim RAID 6 keine Rolle, solange nie mehr als eine HDD ausgefallen ist.
RedSkall schrieb:
Ich benutzer übliche consumer-platten, die sind von verschiedenen Herstellern und unterschiedlichen Herstellungs-Datum.
Es gibt unterschiedliche Consumer HDDs, die billigsten wie WD Green/Blue, Seagate Desktop/Barracuda oder Toshiba P300/X300 sind einfache Desktopplatten ohne TLER und sie sind auch so kostenoptimiert, dass sie keine Vorrichtungen haben um mit den Vibrationen umzugehen die die anderen HDDs im Gehäuse erzeugen. Solche Modelle sind definitiv für diesen Einsatz untauglich! Dafür wären NAS Platten wie die WD Red, Seagate IronWolf oder Toshiba N300 haben TLER/ERC und Vorkehrungen um mit den Vibrationen umgehen zu können und sind daher für bis zu 8 HDDs pro Gehäuse zugelassen.
Also ich fürchte Du hast hier für den Einsatzzweck ungeeignete Platten verwendet, dies geht eine Weile gut und nun stehst Du vor den Konsequenzen dieser Fehlentscheidung. Datenrettung von RAIDs ist nicht einfach, es gibt aber durchaus Tool die dies können, aber erstmal brauchst Du mindestens so viel freie HDD Kapazität um die geretteten Daten dort abzuspeichern, dann beim Retten kopiert man die Daten immer auf ein anderes Laufwerk und stellt sie niemals an Ort und Stelle wieder her, denn wenn dies schiefgeht, hat man keine zweite Chance mehr.