Defekte Sektoren plötzlich wieder nutzbar?

CybeR_GizzmO

Cadet 4th Year
Registriert
Mai 2001
Beiträge
95
Ich habe kürzlich etwas merkwürdiges erlebt, das ich so noch nie gehört habe: Beim Schauen eines Films vom NAS fror der Film plötzlich ein und das NAS meldete im Linux-Syslog:

kernel: [1331617.319573] end_request: I/O error, dev sdb, sector 5199172896

Ergo ein defekter Sektor - ich habe erstmal alles komplett runtergefahren und neu gestartet --> selbes Problem. Ich habe die Platte in Konsequenz daher schon als defekt abgehakt und über Nacht einen Oberflächentest (read-only, via badblocks) angestoßen. Die Überraschung am nächsten Morgen war groß: Keine defekten Sektoren gefunden. Auch der Film vom Vortag lief plötzlich wieder einwandfrei, als wäre nie etwas gewesen. SMART meldet keine Probleme, auch wurde der Sektor laut SMART nicht als defekt markiert - die Platte läuft wie eh und jeh.

Habt ihr sowas schonmal erlebt? Können Sektoren temporär ausfallen? Ich bin ein wenig ratlos, ob ich den Vorfall einfach ignorieren oder mich auf eine bald abrauchende Platte einstellen sollte...

Danke für eure Meinung!
 
ich würd mir da keine großartigen Gedanken machen. Erst beim 2.Fehler würde ich aufhorchen.

Dafür sind ja Ersatz-Sektoren da :)
 
Die Meldung heißt nicht das es ein defekter Sektor ist, hier ist lediglich ein I/O Lesefehler passiert; sei es durch überlaufen des Buffers, Unix Fehler oder sonstigen mysteriosen Ereignisse.
 
wie das Linux handhabt weiss ich nicht
allerdings ist es völlig normal dass Festplatten ab und an "schwebende" (pending) Sektoren haben, die dann entweder bei erneutem fehlerfreiem Ansprechen wieder aus dem SMART Status verschwinden oder eben wiederzugewiesen (reallocated) werden.
Erst wenn sich solche Vorfälle vermehren muss man sich Gedanken machen.
Dennoch schadet es nie eine Backup HDD zu haben und den SMART Status im Auge zu behalten
 
Seby007 schrieb:
Dafür sind ja Ersatz-Sektoren da :)

Das würde aber doch zur Folge haben, dass SMART die Markierung des Sektors protokolliert - es werden aber 0 als defekt markierte Sektoren angezeigt.

liKe2k1 schrieb:
Die Meldung heißt nicht das es ein defekter Sektor ist, hier ist lediglich ein I/O Lesefehler passiert; sei es durch überlaufen des Buffers, Unix Fehler oder sonstigen mysteriosen Ereignisse.

Die Hoffnung hatte ich zuerst auch - wenn aber nach einem Neustart exakt der selbe Sektor wieder bemängelt wird, fällt für mich ein sporadischer Systemfehler eigentlich raus.
 
Naja, es war ein IO-Fehler. Wodurch der verursacht wurde kann vielfältig sein.

Es kann durchaus passieren, dass beim schreiben wegen wechselnder elektrischer Ströme ein Bit (evtl. sogar mehr) nicht super geschrieben wurden und du eine sogenannte "schwache 1" oder "schwache 0" erzeugt hast. Diese kann gerne zu IO-Fehlern kommen, wenn ein Schwellwert nicht über- oder unterschritten wird. Formal ist der Sektor damit nicht defekt, einzig die Information ist unbrauchbar.

Da die Spannung zwar "relativ" konstant ist, aber eben nicht perfekt, kann es passieren dass du in einer "Extremspannung" (+-5mV können da schon reichen) beim auslesen wieder einen eindeutigen Wert erzielt hast - hier hat auch SMART diesen richtigen Wert erkannt.

Möglicherweise hast du während der beiden Filmschau-Sessions genau diese Schwellwerte über- oder unterschritten. Angenommen es war eine schwache 0, könnte so das Magnetfeld an dieser Stelle schwächer geworden sein und sich so auf eine starke 0 eingependelt haben.

Als EINE Idee, wo der Fehler herkommen kann. Es gibt sicher noch ein Paar andere physikalische Phänomene, die das beschreiben könnten.


Sollte der Fehler nicht noch einmal auftreten, dann ignorier ihn einfach. Ich hatte ein ähnliches Problem mit meiner Festplatte im PC, nach zweimal neustarten war aber alles wieder super und die hat seit dem nichtmal die Idee gehabt rumzuzicken ;)
 
Eine "schwache" 0/1 macht keinen I/O Error.

Zitat aus einem Zitat von Ernst@at:
"Arbeitsunterlagen der IDEMA (International Disk Drive Equipment and Materials Associations, einem Konsortium aller Festplattenhersteller) zufolge hatten die letzten native 512B-Sektor Festplatten 9% ECC-Anteil. d.h. 50 Bytes Korrekturcode, womit mit neueren, effizienteren ECC-Verfahren Störungen im Signal von bis zu 100 Bytes Länge on-the-fly korrigiert werden konnten.
Mit der Umstellung auf Advanced Format 4K Sektoren können mit dem unverändert gebliebenen 9%-Anteil des ECC Defektstellen im Sektor bis zu 400 Bytes korrigiert werden."
 
Es ging ums Prinzip. Ich wollte hier etwas "beruhigen" und nach der Skepsis vom TE begründen, warum er sich keine Sorgen machen muss, wenn es jetzt wieder geht und nichts Alarm schlägt. ECC ist mir wohl ein Begriff, aber manchmal ist es sinnvoll, nicht mit der ganzen Wahrheit rauszurücken :) Der Zug ist aber nu abgefahren >.<

Fachlich gesehen hast du natürlich Recht, Inzersdorfer. Nu fällt mir aber keine beruhigende Begründung mehr ein außer "is halt so" ^^
 
Schönen Dank erstmal für eure Meinungen! Nachfolgend mal das SMART-Log:

Code:
> smartctl -a /dev/sdb
smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, [url]http://smartmontools.sourceforge.net[/url]

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD30EZRX-00MMMB0
Serial Number:    xxx
Firmware Version: 80.00A80
User Capacity:    3.000.592.982.016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Oct 10 19:10:08 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 (50160) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 255) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x3035)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   197   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   150   149   021    Pre-fail  Always       -       9483
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       154
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       970
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       19
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       17
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       3815
194 Temperature_Celsius     0x0022   125   106   000    Old_age   Always       -       27
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       28
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       5
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       69

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Interessant sind die 5 "Offline_Uncorrectable" - die sehe ich zum ersten Mal, kann natürlich auch sein dass ich die neulich übersehen habe. Habe mich da gerade mal grob eingelesen, nach meinem Verständnis hat die Platte wohl selber einige Sektoren gemapt. Die Platte ist erst einige Monate alt, da sind defekte Sektoren doch eigentlich tabu - ich werde mich daher wohl an den WD-Support wenden. Was ich allerdings nicht verstehe: Warum hat der Oberflächentest nichts ergeben? Weil die Sektoren zu dem Zeitpunkt schon remapped waren? Bin etwas verwirrt...
 
Neben den 5 Offline Uncorrectable auch 28 Current Pending Sectors, die wohl für den obigen Effekt verantwortlich sind.
Und: 69 Multi Zone Error Rate, Fehler beim Beschreiben von Sektoren, ein schlechtes Zeichen.

Der letzte Satz vor dem etwas verwirrt ist korrekt.
 
Zuletzt bearbeitet:
Okay, das ist bei einer so jungen Platte dann wohl ein klarer RMA-Fall? Ich habe eben mal einen "Long Selftest" angeschmissen, vielleicht bringt der ja noch was zu Tage.

Noch eine Frage: Ich hatte vorsorglich alle Daten gesichert, was auch problemlos klappte. Genutzt habe ich dazu rsync, kann ich davon ausgehen dass die kopierten Daten intakt sind da rsync keine Fehler meldete?
 
@CybeR_GizzmO
Die Platte hat noch keinen einzigen defekten Sektor remappt (Reallocated Sectors Count = 0). Dafür sind neben den 5 "Offline_Uncorrectable" noch 28 "Current_Pending_Sector" vorhanden, die ebenfalls beim letzten Zugriff schlecht oder gar nicht mehr gelesen werden konnten. Je nach Zählweise der Festplatte sind die 5 "Offline_Uncorrectable" (die so heißen, da dieser Wert nur nach einem Offline-Scan aktualisiert wird) entweder in den 28 Current Pending Sectors enthalten oder es sind voneinander unabhängige Werte.

Ansonsten fällt der Raw-Value der Multi_Zone_Error_Rate von 69 auf (Probleme beim Schreiben). Dieser sollte eigentlich 0 betragen. Die offline uncorrectable und die current pending sectors können durchaus davon verursacht worden sein.
 
Sollen sollten es schon, wenn ein I/O Fehler beim kopieren auftaucht, wird der ja gemeldet.

Zur RMA: eventuell Austausch beim Händler ("Gewährleistung").
 
Das Thema hat sich dann wohl erledigt, die Platte hat sich beim SMART-Selftest soeben verabschiedet und lässt sich nun nicht mehr mounten, auch SMART-Werte lassen sich nicht mehr auslesen - ab damit zu WD.

Danke nochmal!
 
Zurück
Oben