smartctl zeigt pending sectors, kern.log unrecovered read errors

MBaeker

Newbie
Registriert
Aug. 2014
Beiträge
4
Hallo,

ich mache mir Sorgen um meine Festplatte. Im kern.log und im syslog (Ubuntu 13.10) finde ich (allerdings nur diese zwei Mal):
Aug 7 09:16:42 emu kernel: [ 224.395442] Add. Sense: Unrecovered read error - auto reallocate failed
Aug 7 09:17:41 emu kernel: [ 283.849142] Add. Sense: Unrecovered read error - auto reallocate failed

Ein check der Platte mit smartctl -a liefert das hier:

Code:
smartctl 6.2 2013-04-20 r3812 [x86_64-linux-3.11.0-26-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.12
Device Model:     ST31000524AS
Serial Number:    6VPC9N1R
LU WWN Device Id: 5 000c50 03655aaa7
Firmware Version: JC45
User Capacity:    1.000.204.886.016 bytes [1,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Aug  7 10:05:38 2014 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 121)	The previous self-test completed having
					the read element of the test failed.
Total time to complete Offline 
data collection: 		(  609) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 176) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x103f)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   099   006    Pre-fail  Always       -       162226672
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       28
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   084   060   030    Pre-fail  Always       -       294142950
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       26293
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       19
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       143
188 Command_Timeout         0x0032   100   097   000    Old_age   Always       -       74
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   063   057   045    Old_age   Always       -       37 (Min/Max 26/41)
194 Temperature_Celsius     0x0022   037   043   000    Old_age   Always       -       37 (0 21 0 0 0)
195 Hardware_ECC_Recovered  0x001a   048   023   000    Old_age   Always       -       162226672
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       12
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       12
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       37873021642441
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       1971182704
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       4038073742

SMART Error Log Version: 1
ATA Error Count: 143 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 143 occurred at disk power-on lifetime: 26293 hours (1095 days + 13 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 ff ff ff ef 00   5d+10:49:37.948  READ DMA EXT
  25 00 08 ff ff ff ef 00   5d+10:49:37.942  READ DMA EXT
  25 00 08 ff ff ff ef 00   5d+10:49:37.938  READ DMA EXT
  25 00 08 ff ff ff ef 00   5d+10:49:37.937  READ DMA EXT
  25 00 08 ff ff ff ef 00   5d+10:49:37.920  READ DMA EXT

Error 142 occurred at disk power-on lifetime: 26293 hours (1095 days + 13 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 ff ff ff ef 00   5d+10:48:38.608  READ DMA EXT
  35 00 08 ff ff ff ef 00   5d+10:48:38.607  WRITE DMA EXT
  ea 00 00 ff ff ff af 00   5d+10:48:38.578  FLUSH CACHE EXT
  25 00 08 ff ff ff ef 00   5d+10:48:38.578  READ DMA EXT
  c8 00 18 d7 e5 44 ea 00   5d+10:48:38.563  READ DMA

Error 141 occurred at disk power-on lifetime: 26181 hours (1090 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 ff ff ff ef 00      19:31:14.574  READ DMA EXT
  25 00 08 ff ff ff ef 00      19:31:14.572  READ DMA EXT
  25 00 08 ff ff ff ef 00      19:31:14.572  READ DMA EXT
  25 00 08 ff ff ff ef 00      19:31:14.572  READ DMA EXT
  25 00 08 ff ff ff ef 00      19:31:14.571  READ DMA EXT

Error 140 occurred at disk power-on lifetime: 26181 hours (1090 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff ef 00      19:31:11.647  READ DMA EXT
  25 00 00 ff ff ff ef 00      19:31:11.633  READ DMA EXT
  25 00 00 ff ff ff ef 00      19:31:11.625  READ DMA EXT
  25 00 00 ff ff ff ef 00      19:31:11.612  READ DMA EXT
  25 00 00 ff ff ff ef 00      19:31:11.603  READ DMA EXT

Error 139 occurred at disk power-on lifetime: 26013 hours (1083 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 ff ff ff ef 00  43d+12:30:02.010  READ DMA EXT
  25 00 08 ff ff ff ef 00  43d+12:30:02.008  READ DMA EXT
  25 00 08 ff ff ff ef 00  43d+12:30:02.008  READ DMA EXT
  25 00 08 ff ff ff ef 00  43d+12:30:02.008  READ DMA EXT
  25 00 08 ff ff ff ef 00  43d+12:30:02.008  READ DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     26293         1134468114
# 2  Extended offline    Completed without error       00%       226         -
# 3  Extended offline    Aborted by host               90%       223         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Die 12 pending/offline Sektoren machen mir zusammen mit der kernel-Meldung so ein bisschen Sorgen, ebenso der hohe Wert bei Hardware_ECC_Recovered und den Error_rates, aber ich habe ehrlich gesagt nicht zu viel Ahnung von smartctl.

Sollte ich die Platte lieber tauschen (ist ja auch nicht mehr die Jüngste)?

Danke,

Martin.
 
Sieht fast so aus, Daten sichern.
Ist das die Systemplatte?
Ist dort auch Windows drauf, dann prüfe mal mit CrystalDiskInfo!
 
Hallo,

ja Daten sichern, wobei die Pending Sectors nicht zwangsläufig permanent beschädigt sein müssen.
Manchmal hilft ein Low Level Format bzw. ein Secure Erase (hdparm bietet sowas).

Evtl. kann du auch von Seagate die SeaTools benützen und einen Run muchen.
Meine Erfahrung mit Pending Sectors ist, dass sie manchmal korregiert werden können oder aber nicht und dann in permanente fehlerhafte Sectoren markiert werden. Das Dateisystem bekommt von der Firmware ein neuen Secotr aus dem Reserve Pool der Platte zugewissen den es adressieren kann.
 
FireW, was soll den CrystalDiskInfo anzeigen, was man hier nicht sieht? Das zeigt sogar viel weniger an, nämlich nur die S.M.A.R.T. Attribute und nicht den Teil darunter.

Das Problem scheint wirklich hier zu liegen, wobei ich Dir auch nicht sagen kann, wo die Ursache liegt und was Fehler die konkret ausdrücken:
"187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 143"

Die Schwebenden Sektoren werden i.d.R. beim nächsten Überschreiben erneut geprüft und dann ggf. durch Reservesektoren ersetzt.
 
Die Reported Uncorrectables sind Lesevorgänge bei denen die Fehlerkorrektur nicht korrigieren konnte, die sind Folgen der Pending Sectors genau wie die Command Timeouts. Im Übrigen sind keine Lese oder Suchfehler vorhanden. Die Anzahl der ECC "Fehler" ist normal solange ihre Anzahl den Lesevorgängen entspricht, das ist die Zahl die unter Read Error vermerkt ist.
 
Ist Du bzgl. der Reported Uncorrectables sicher? Dafür ist der der Aktuelle Wert da aber reicht gering, also nahe am Grenzwert.
 
Danke für die vielen Tipps und Erklärungen.

Inzwischen habe ich herausgefunden, dass es eine defekte Datei gibt. Wenn ich versuche, diese zu kopieren, dann bekomme ich folgendes:

cp: »/home/martin/fem/abaqus/optimize/machiningPredictor/result014/test_15_0p5_0.odb“ wird gelesen: Eingabe-/Ausgabefehler
cp: »./test_15_0p5_0.odb“ konnte nicht erweitert werden: Eingabe-/Ausgabefehler

und zeitgleich taucht in der kern.log ein neuer Fehler
Aug 8 02:28:29 emu kernel: [62162.962615] Add. Sense: Unrecovered read error - auto reallocate failed
auf.

Interpretiere ich das richtig, dass da ein nicht korrigierter/korrigierbarer Fehler auf der Platte ist?
 
Interpretiere ich das richtig, dass da ein nicht korrigierter/korrigierbarer Fehler auf der Platte ist?

Sieht so aus, existiert ein Backup ?
Wenn ein paar defekte Sektoren auf der Platte sind und genau an dieser Stelle diese Datei beschädigt wurde.
Die Plattenhersteller bieten Prüftools an damit kannst Du die Platte ja mal testen.
Ohne Backup ist die Datei wohl zerstört, nehme ich mal an.
 
Auf die eine Datei kommt es zum Glück nicht an - ist ein Rechenergebnis, das sich wieder herstellen lässt.

Backup scheint in der Nacht zuvor korrekt gelaufen zu sein, ich mache gerade ein weiteres auf externe Platte.
Und ich denke, nach 3 Jahren Dauerbetrieb schicke ich die Platte dann lieber in den Ruhestand und gönne dem rechner ne Neue.

Nochmal Danke für eure Hilfe.
 
Ich bin ein wenig verwirrt. Ein Read-Error muss nicht heißen, dass mit der Platte ernsthaft etwas kaputt ist. Die Frage ist ob du auf genau diesen Sektor, von dem momenentan nicht gelesen werden kann, schreiben kannst, ohne das ein Fehler auftritt. Deshalb wird ein Remapping normalerweise auch nur genau dann gemacht, wenn man auf einen Sektor nicht schreiben kann im Gegensatz dazu, wenn man nur von einem Sektor nicht lesen kann.
 
Ernsthaft was kaputt?

Wenn du auf den Sektor schreibst gibt es zwei Möglichkeiten, entweder es klappt und dann ist laut SMART wieder alles in allerweltbester Ordnung, oder es gibt eben Reallocated Sectors und es gibt Leute die das auch völlig in Ordnung finden...

Muss ja jeder selber wissen, aber diese Platte hat schon Daten verloren und Dateien beschädigt. Für mich Grund genug sie zu tauschen. Ich mache bei meinem Platten auch regelmäßig SMART-Selbsttests um solche Fehler möglichst früh zu finden, sonst ist es nämlich reiner Zufall. Ob der Fehler in einer Datei liegt und ob auch tatsächlich versucht wird diese Datei zu lesen. Wäre die betroffene Datei stattdessen gelöscht worden, wäre der Fehler womöglich unentdeckt geblieben und man hätte weiter eine angeknackste Platte verwendet, wer weiß mit welchem Ausgang.
 
Der Error count von smartctl ist jedenfalls inzwischen bei 157 angekommen, und die Platte macht seit kurzem auch manchmal ein seltsames leises Geräusch (weiß nicht, ob es was damit zu tun hat, aber war früher nicht da).
Ich gehe lieber auf Nummer sicher - meine Daten sind am Ende mehr Wert als ne Festplatte...

Nochmal Danke an alle.
 
Zurück
Oben