Maike23 schrieb:
Nun ... das Stichwort TLER bedeutet allgemein hin, das ein Selbsttest verfrüht abgebrochen wird ( meist 7 sek ) ... damit ggfls ein Raid Kontroller die Platte nicht als "tot" abmeldet.
Bedeutet im Umkehrschluss: Ein Selbsttest wird ggdls nicht vollständig ausgeführt und eine Fehler ggfls nicht frühzeitig entdeckt.
Ja, oder anders gesagt: Bei TLER geht es darum, dass eine HDD nicht etliche Male versucht, einen nicht korrekt lesbaren Sektor über den ECC wiederherzustellen bzw. korrekt zu lesen oder einen nicht korrekt beschreibbaren korrekt zu beschreiben, sondern frühzeitig einen Timeout meldet.
Siehe z.B.:
https://en.wikipedia.org/wiki/Error_recovery_control
Wie du ja richtig schreibst, ist das bei RAID von Relevanz.
Ich sehe in TLER auch keinen wirklichen Nachteil für den Datenbestand, da die Wahrscheinlichkeit, dass ein Sektor nach den sieben Sekunden dann doch noch erfolgreich gelesen werden kann, wohl äußerst gering ist. Oder anders gesagt: Wenn es in sieben Sekunden nicht klappt, dann mit sehr hoher Wahrscheinlichkeit auch nicht danach.
Maike23 schrieb:
Wenn ich mit über verdeckte Fehler beim Thema TLER Gedanken machte, müsste ich auch über Bitfehler bei kosmischer Strahlung Gedanken machen
Das sollte man tatsächlich. Das ist der Hauptgrund für Bitflips im RAM und damit für die Verwendung von ECC-RAM. Somit ist da eigentlich nichts lustig dran. (Wie wahrscheinlich das Auftreten ist und wie wahrscheinlich es ist, dass aus einem falschen Bit ein schwerwiegender Fehler resultiert, sei mal dahingestellt und ist allgemein schwer zu beurteilen).
"Verdeckter Fehler" ist relativ. Wenn der Sektor nicht gelesen werden kann, wird bei einem RAID aus der Redundanz gelesen bzw. der Sektor aus der Redundanz wiederhergestellt. Wenn keine Redundanz besteht, wird einfach nichts gelesen, und der Fehler bleibt u.U. unentdeckt für den Nutzer (wobei er über die SMART-Werte ersichtlich sein müsste). Hier kann durch einen Datenabgleich, sofern Prüfsummen vorhanden, solch ein Fehler erkannt werden.
Hast du jedoch einen Fehler im RAM, der nicht erkannt wird (und bei non-ECC-RAM auch nicht geloggt werden kann), hast u.U. einen unbemerkten Fehler in deinem Datenbestand, den du in dein Backup übernimmst. Oder der Fehler tritt nur beim Erstellen des Backups auf.
Beides ungut.