scheinar Hwardwraeprobleme am Linux Server, wie analysieren?

Jesterfox

Legende
Registriert
März 2009
Beiträge
44.484
Hi,

auch wenns vermutlich ein Hardwareporblem ist versuch ichs erst mal in diesem Teilforum, da es auch darum geht das ganze evtl. mittels dem installeirten Linux zu analysieren.

Der "Server" ist meine Home-Testkiste mit Ubuntu Server 140.04 LTS. Hardware ist ein i3 2120 mit 2x 4GB DDR3 1333 RAM auf eine ASrock H67 Board (wenn ich mich richtig erinner...). Bootplatte ist eine Intel Posville 160GB, dazu gibts eine 3TB und eine 4TB SATA HDD und derzeit über einen SATA Hotplug-Rahmen nmoch eine 1TB HDD. Ansonsten steckt glaub ich auch noch eine PCIe realtek 1GB Ethernet Karte zusätzlich mit drin (war mal für Rooting-Zwecke gedacht, wurde aber bisher nicht weiter genutzt)

Die Intel SSD ist erst seit kurzem drin da sich das ystem vorher auf der XTremememory SSD vollständig zerlegt hatte (da war nur noch Datensalat auf der SSD...), beim Umbau kam auch die 4TB HDD dazu und die 1TB ist temporär in den rahmen gewandert (soll später ganz raus). SO ist das System ein paar Wochen nun gelaufen aber wenug genutzt worden. Nun hab ich damit angefangen intensiver damit zu arbeiten und die Probleme fiengen an:

- vorgestern ein spontaner Reboot wärend ich Daten zwischen den HDDs verschoben hab
- gestern ein "Vollabsturz" wärend ich auf einer KVM VM gearbeitet hab. Keine Reaktion des Systems mehr, weder über SSH noch lokal am Bildschirm/Tastatur
- heute friert die VM einfach im Betrieb ein und auch die SSH-Session zeigt keine Reaktion mehr (ich lass mir die VM remote via X-Forwarding anzeigen). Ein 2. Login per putty kommt bis zur Passwortabfrage aber hängt dann. Ein 3. putty hängt sofort. Aber an sich scheint noch eine Reaktion des PCs zu kommen, die SSH-Session (und auch das X-Forwarding) brechen nicht ab.

Ich hab gestern schon mal den memtest den ubuntu mitlierfert (bei den Bootoptionen) laufen lassen. 2 volle Durchläufe ohne Fehler. Aufgrund der aktuzellen Situation mit dem Hängen würd ich den Verdacht auf die Platten legen, weiß aber nicht so ganz wie ich das verifizieren kann. Allgemein kann ich wohl eh erst heut abned was machen wenn ich wieder lokal an der Kiste bin... SSH reagiert ja nicht mehr. Das ganze soll also eher eine Sammlung wrden was ich noch chekcen sollte und wie.

- SMART Werte, ich denk mal das sich da ein Kommandozeilentool fndet mit dem sich das einfach machen lässt, Vorschläge?
- SATA-Kabel: ich werd die denk ich mal pauschal tauschen, hab genug davon ;-)

Welche Logfiles in Linux sollte ich prüfen? Evtl. lassen sich ja Spuren finden.

Habt ihr sonst noch Ideen was ich prüfen sollte oder woran es liegen könnte? Gibts was das ich neben SSH nutzen könnte um eine Reaktion des Servers zu bekommen? (ich häng remote auf einer Windows-Kiste die im selben LAN steht. Die Chance schätz ich aber mal eher als schelcht ein, der Samba Server und Webmin liefern auch keine Antwort mehr)


Edit: ich sollt vor dem Abschicken nicht nur den Text noch mal korrektur lesen... grml...
 
Zuletzt bearbeitet:
bzgl. SMART

smartmontools

Code:
smartctl -a /dev/foo

wobei /dev/foo: /dev/sda, /dev/sdb, etc. sein kann

Code:
smartctl -t short /dev/foo
(2-3 Minuten)

Code:
smartctl -t long /dev/foo
(dauert einige Stunden)

Code:
smartctl -t offline /dev/foo
(könnte auch etwas dauern)

Code:
smartctl -t conveyance /dev/foo
(unterstützen nicht alle)
 
Hör auf im Dunklen rumzurühren. Schließ nen Bildschirm an die primäre Grafikkarte des Systems an und deaktivier den automatischen Reboot bei ner Kernel-Panic. Schließ am besten noch eine Tastatur an, dann kannst du wenigstens mit dem System interagieren.
Dann arbeitest du. Wenn der Rechner wieder "abstürzt", dann schauste dir an was auf dem Bildschirm steht, machst ein Foto davon mit ner Digitalkamera und postest das hier. Dann können wir dir effektiv helfen.
Wenn nichts da steht, dann schau an was passiert, wenn du mit dem System was machst, dich zum beispiel also versuchst einzuloggen. rsyslog sollte die Fehlermeldungen auf den Bildschirm ausgeben. Wenn das passiert, dann mach ein Foto davon und lad es hier hoch.
 
Momentan befinden sich noch mehrere Kilometer zwischen mir und dem Server ;-) wenn ich daheim bin hab ich Bildschirm und Tastatur dran. Allerdings hat das gestern auch nicht geholfen, der Bildschirm blieb schwarz und auf der Tastatur reagierte nicht mal mehr die Caps-Lock. Soft-off per Powertaster ging auch nicht, da half nur hart ausschalten per länger gedrückt halten.

Damit Arbeiten ist aber so ne Sache... die VM kann ich nur remote bedienen da auf dem Server natürlich kein X läuft. rsyslog wird ich mir aber anschauen, evtl. kann ich das auch laufend anzeigen lassen während ich remote auf der Kiste bin.


Danke auch für die Tipps zum SMART, wird ich so auf alle Fälle mal durchchecken.
 
Der Kernel sollte bei einer Kernel-Panic die Fehlermeldung über den angeschlossenen Monitor ausgeben. Damit können wir was anfangen.
Der Vollständigkeit halber: Wie sieht deine /etc/fstab aus und benutzt du irgendwas besonderes? Welcher Kernel läuft?
 
Ist halt die Frage obs wirklich ein Kernel Panic war oder ein Hardwareproblem bei dem der Kernel gar nicht mehr so weit kam... bei dem spontanen Reboot hatte ich auch schon das Netzteil in Verdacht, nach dem aktuellen Fehlerbild würd ich aber erst mal die HDDs untersuchen. Gestern war da am Bildschirm wie gesagt keine Info rauszuholen, mal schauen wie es heute ist.

Kernel ist der Standardkernel aus dem 14.04er Ubuntu, Updates sind aktuell (Version kann ich grad nicht nachschauen ;-) fstab ist bis auf die 2 zusätzlichen Einträge für die Ext4 Partitionen der 3 und 4 TB Platten auch unverändert (die 3. Platte mounte ich von Hand da sie eh wieder raus soll). Besondere Sachen die laufen... derzeit Samba Server, KVM und Webmin (wobei der Reboot noch vor der Installation von kvm war)
 
So, der Server hatte mal wieder nur nen schwarzen Bildschirm bereit und hat weder auf Tastatur noch auf den Powerknopf zum herunterfahren reagiert...

Ich post hier mal die Infos, muss die selber auch erst noch sichten:

jesterfox@Marian:~$ uname -a
Linux Marian 3.13.0-61-generic #100-Ubuntu SMP Wed Jul 29 11:21:34 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

/etc/fstab
Code:
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point>   <type>  <options>       <dump>  <pass>
# / was on /dev/sda1 during installation
UUID=e1efcf7f-3261-4e82-a875-e3b0ea69ed91 /               ext4    errors=remount-ro 0       1
# swap was on /dev/sda5 during installation
UUID=7c02c0a0-6c1c-4561-bdad-b448006c9fd7 none            swap    sw              0       0
# data partitions
/dev/sdb1       /srv/media      ext4    defaults        0       2
/dev/sdc1       /srv/share      ext4    defaults        0       2
[/Spoiler]

jesterfox@Marian:~$ sudo smartctl -x /dev/sda
Code:
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-61-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Intel X18-M/X25-M/X25-V G2 SSDs
Device Model:     INTEL SSDSA2M160G2GC
Serial Number:    CVPO930501QC160AGN
LU WWN Device Id: 5 001517 958f997e4
Firmware Version: 2CV102HD
User Capacity:    160.041.885.696 bytes [160 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7 T13/1532D revision 1
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Thu Sep 17 20:10:58 2015 CEST

==> WARNING: This drive may require a firmware update to
fix possible drive hangs when reading SMART self-test log:
http://downloadcenter.intel.com/Detail_Desc.aspx?DwnldID=18363

SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM feature is:   Unavailable
Rd look-ahead is: Enabled
Write cache is:   Enabled
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Unavailable

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    1) seconds.
Offline data collection
capabilities:                    (0x75) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Abort Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (   1) minutes.
Conveyance self-test routine
recommended polling time:        (   1) minutes.

SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  3 Spin_Up_Time            -----K   100   100   000    -    0
  4 Start_Stop_Count        ----CK   100   100   000    -    0
  5 Reallocated_Sector_Ct   -O--CK   100   100   000    -    20
  9 Power_On_Hours          -O--CK   100   100   000    -    12234
 12 Power_Cycle_Count       -O--CK   100   100   000    -    2019
192 Unsafe_Shutdown_Count   -O--CK   100   100   000    -    203
225 Host_Writes_32MiB       ----CK   200   200   000    -    141197
226 Workld_Media_Wear_Indic -O--CK   100   100   000    -    3120
227 Workld_Host_Reads_Perc  -O--CK   100   100   000    -    0
228 Workload_Minutes        -O--CK   100   100   000    -    869754663
232 Available_Reservd_Space PO--CK   099   099   010    -    0
233 Media_Wearout_Indicator -O--CK   098   098   000    -    0
184 End-to-End_Error        PO--CK   100   100   099    -    0
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01       GPL,SL  R/O      1  Summary SMART error log
0x02       GPL,SL  R/O      8  Comprehensive SMART error log
0x03       GPL,SL  R/O      8  Ext. Comprehensive SMART error log
0x06       GPL,SL  R/O      1  SMART self-test log
0x07       GPL,SL  R/O      1  Extended self-test log
0x09       GPL,SL  R/W      1  Selective self-test log
0x10       GPL,SL  R/O      1  NCQ Command Error log
0x11       GPL,SL  R/O      1  SATA Phy Event Counters
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log

Warning! SMART Extended Comprehensive Error Log Structure (7/8) error: invalid SMART checksum.
SMART Extended Comprehensive Error Log Version: 1 (8 sectors)
No Errors Logged

SMART Extended Self-test Log Version: 1 (1 sectors)
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Commands not supported

Device Statistics (GP Log 0x04) not supported

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  4            0  Command failed due to ICRC error
0x0004  4            0  R_ERR response for host-to-device data FIS
0x0007  4            0  R_ERR response for host-to-device non-data FIS
0x0008  4            0  Device-to-host non-data FIS retries
0x0009  4            3  Transition from drive PhyRdy to drive PhyNRdy
0x000a  4            6  Device-to-host register FISes sent due to a COMRESET
0x000b  4            0  CRC errors within host-to-device FIS
0x000d  4            0  Non-CRC errors within host-to-device FIS
0x000f  4            0  R_ERR response for host-to-device data FIS, CRC
0x0010  4            0  R_ERR response for host-to-device data FIS, non-CRC
0x0012  4            0  R_ERR response for host-to-device non-data FIS, CRC
0x0013  4            0  R_ERR response for host-to-device non-data FIS, non-CRC
[/Spoiler]

jesterfox@Marian:~$ sudo smartctl -x /dev/sdb
Code:
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-61-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, [url]www.smartmontools.org[/url]

=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA MD04ACA400
Serial Number:    35O2KI1CFPKC
LU WWN Device Id: 5 000039 62b784096
Firmware Version: FP2A
User Capacity:    4.000.787.030.016 bytes [4,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Sep 17 20:14:45 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     127 (intermediate level with standby)
Rd look-ahead is: Enabled
Write cache is:   Enabled
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  120) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 482) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   050    -    0
  2 Throughput_Performance  P-S---   100   100   050    -    0
  3 Spin_Up_Time            POS--K   100   100   001    -    8931
  4 Start_Stop_Count        -O--CK   100   100   000    -    24
  5 Reallocated_Sector_Ct   PO--CK   100   100   050    -    0
  7 Seek_Error_Rate         PO-R--   100   100   050    -    0
  8 Seek_Time_Performance   P-S---   100   100   050    -    0
  9 Power_On_Hours          -O--CK   099   099   000    -    752
 10 Spin_Retry_Count        PO--CK   100   100   030    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
191 G-Sense_Error_Rate      -O--CK   100   100   000    -    27
192 Power-Off_Retract_Count -O--CK   100   100   000    -    4
193 Load_Cycle_Count        -O--CK   100   100   000    -    28
194 Temperature_Celsius     -O---K   100   100   000    -    32 (Min/Max 24/51)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O--CK   100   100   000    -    0
198 Offline_Uncorrectable   ----CK   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   253   000    -    0
220 Disk_Shift              -O----   100   100   000    -    0
222 Loaded_Hours            -O--CK   099   099   000    -    699
223 Load_Retry_Count        -O--CK   100   100   000    -    0
224 Load_Friction           -O---K   100   100   000    -    0
226 Load-in_Time            -OS--K   100   100   000    -    204
240 Head_Flying_Hours       P-----   100   100   001    -    0
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01           SL  R/O      1  Summary SMART error log
0x02           SL  R/O     51  Comprehensive SMART error log
0x03       GPL     R/O     64  Ext. Comprehensive SMART error log
0x04       GPL,SL  R/O      8  Device Statistics log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x08       GPL     R/O      2  Power Conditions log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL     R/O      1  SATA Phy Event Counters
0x24       GPL     R/O  12288  Current Device Internal Status Data log
0x30       GPL,SL  R/O      9  IDENTIFY DEVICE data log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xa7       GPL     VS       8  Device vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log Version: 1 (64 sectors)
No Errors Logged

SMART Extended Self-test Log Version: 1 (1 sectors)
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Status Version:                  3
SCT Version (vendor specific):       1 (0x0001)
SCT Support Level:                   1
Device State:                        Active (0)
Current Temperature:                    32 Celsius
Power Cycle Min/Max Temperature:     26/33 Celsius
Lifetime    Min/Max Temperature:     24/51 Celsius
Under/Over Temperature Limit Count:   0/0
SCT Temperature History Version:     2
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        1 minute
Min/Max recommended Temperature:      5/55 Celsius
Min/Max Temperature Limit:            5/55 Celsius
Temperature History Size (Index):    478 (372)

Index    Estimated Time   Temperature Celsius
 373    2015-09-17 12:17    44  *************************
 ...    ..( 24 skipped).    ..  *************************
 398    2015-09-17 12:42    44  *************************
 399    2015-09-17 12:43    43  ************************
 400    2015-09-17 12:44    44  *************************
 401    2015-09-17 12:45    43  ************************
 ...    ..( 11 skipped).    ..  ************************
 413    2015-09-17 12:57    43  ************************
 414    2015-09-17 12:58     ?  -
 415    2015-09-17 12:59     ?  -
 416    2015-09-17 13:00    43  ************************
 417    2015-09-17 13:01     ?  -
 418    2015-09-17 13:02     ?  -
 419    2015-09-17 13:03    44  *************************
 420    2015-09-17 13:04     ?  -
 421    2015-09-17 13:05     ?  -
 422    2015-09-17 13:06    44  *************************
 ...    ..( 34 skipped).    ..  *************************
 457    2015-09-17 13:41    44  *************************
 458    2015-09-17 13:42    43  ************************
 459    2015-09-17 13:43    44  *************************
 460    2015-09-17 13:44    43  ************************
 461    2015-09-17 13:45    44  *************************
 462    2015-09-17 13:46    44  *************************
 463    2015-09-17 13:47    44  *************************
 464    2015-09-17 13:48    43  ************************
 465    2015-09-17 13:49    43  ************************
 466    2015-09-17 13:50    44  *************************
 467    2015-09-17 13:51    43  ************************
 ...    ..( 54 skipped).    ..  ************************
  44    2015-09-17 14:46    43  ************************
  45    2015-09-17 14:47     ?  -
  46    2015-09-17 14:48    37  ******************
 ...    ..(  2 skipped).    ..  ******************
  49    2015-09-17 14:51    37  ******************
  50    2015-09-17 14:52    38  *******************
  51    2015-09-17 14:53    38  *******************
  52    2015-09-17 14:54    38  *******************
  53    2015-09-17 14:55    39  ********************
  54    2015-09-17 14:56    39  ********************
  55    2015-09-17 14:57    40  *********************
  56    2015-09-17 14:58    40  *********************
  57    2015-09-17 14:59    40  *********************
  58    2015-09-17 15:00    41  **********************
  59    2015-09-17 15:01    41  **********************
  60    2015-09-17 15:02    42  ***********************
 ...    ..(  3 skipped).    ..  ***********************
  64    2015-09-17 15:06    42  ***********************
  65    2015-09-17 15:07    43  ************************
 ...    ..( 11 skipped).    ..  ************************
  77    2015-09-17 15:19    43  ************************
  78    2015-09-17 15:20     ?  -
  79    2015-09-17 15:21    26  *******
  80    2015-09-17 15:22    26  *******
  81    2015-09-17 15:23    27  ********
  82    2015-09-17 15:24    28  *********
  83    2015-09-17 15:25    28  *********
  84    2015-09-17 15:26    29  **********
  85    2015-09-17 15:27    29  **********
  86    2015-09-17 15:28    30  ***********
  87    2015-09-17 15:29    30  ***********
  88    2015-09-17 15:30    31  ************
  89    2015-09-17 15:31    31  ************
  90    2015-09-17 15:32     ?  -
  91    2015-09-17 15:33    26  *******
  92    2015-09-17 15:34    27  ********
  93    2015-09-17 15:35    27  ********
  94    2015-09-17 15:36    28  *********
  95    2015-09-17 15:37    28  *********
  96    2015-09-17 15:38    29  **********
  97    2015-09-17 15:39    30  ***********
  98    2015-09-17 15:40    30  ***********
  99    2015-09-17 15:41    31  ************
 100    2015-09-17 15:42    31  ************
 101    2015-09-17 15:43    31  ************
 102    2015-09-17 15:44    32  *************
 103    2015-09-17 15:45    32  *************
 104    2015-09-17 15:46    32  *************
 105    2015-09-17 15:47    33  **************
 106    2015-09-17 15:48    33  **************
 107    2015-09-17 15:49    34  ***************
 108    2015-09-17 15:50    34  ***************
 109    2015-09-17 15:51    35  ****************
 ...    ..(  2 skipped).    ..  ****************
 112    2015-09-17 15:54    35  ****************
 113    2015-09-17 15:55    36  *****************
 ...    ..(  3 skipped).    ..  *****************
 117    2015-09-17 15:59    36  *****************
 118    2015-09-17 16:00     ?  -
 119    2015-09-17 16:01    31  ************
 120    2015-09-17 16:02    31  ************
 121    2015-09-17 16:03    32  *************
 122    2015-09-17 16:04    32  *************
 123    2015-09-17 16:05    33  **************
 124    2015-09-17 16:06    33  **************
 125    2015-09-17 16:07    34  ***************
 126    2015-09-17 16:08    34  ***************
 127    2015-09-17 16:09    34  ***************
 128    2015-09-17 16:10    35  ****************
 129    2015-09-17 16:11    35  ****************
 130    2015-09-17 16:12    35  ****************
 131    2015-09-17 16:13    36  *****************
 ...    ..(  5 skipped).    ..  *****************
 137    2015-09-17 16:19    36  *****************
 138    2015-09-17 16:20     ?  -
 139    2015-09-17 16:21    26  *******
 140    2015-09-17 16:22    26  *******
 141    2015-09-17 16:23    26  *******
 142    2015-09-17 16:24    27  ********
 143    2015-09-17 16:25    28  *********
 144    2015-09-17 16:26    28  *********
 145    2015-09-17 16:27    29  **********
 146    2015-09-17 16:28    30  ***********
 147    2015-09-17 16:29    30  ***********
 148    2015-09-17 16:30    31  ************
 149    2015-09-17 16:31    31  ************
 150    2015-09-17 16:32     ?  -
 151    2015-09-17 16:33    27  ********
 152    2015-09-17 16:34    28  *********
 153    2015-09-17 16:35    28  *********
 154    2015-09-17 16:36    29  **********
 155    2015-09-17 16:37    30  ***********
 156    2015-09-17 16:38    30  ***********
 157    2015-09-17 16:39    31  ************
 158    2015-09-17 16:40    31  ************
 159    2015-09-17 16:41    31  ************
 160    2015-09-17 16:42    32  *************
 161    2015-09-17 16:43    32  *************
 162    2015-09-17 16:44    33  **************
 163    2015-09-17 16:45    33  **************
 164    2015-09-17 16:46    34  ***************
 165    2015-09-17 16:47     ?  -
 166    2015-09-17 16:48     ?  -
 167    2015-09-17 16:49    27  ********
 168    2015-09-17 16:50    28  *********
 169    2015-09-17 16:51    28  *********
 170    2015-09-17 16:52    29  **********
 171    2015-09-17 16:53    29  **********
 172    2015-09-17 16:54    30  ***********
 173    2015-09-17 16:55    31  ************
 ...    ..(  2 skipped).    ..  ************
 176    2015-09-17 16:58    31  ************
 177    2015-09-17 16:59    32  *************
 178    2015-09-17 17:00    32  *************
 179    2015-09-17 17:01    33  **************
 180    2015-09-17 17:02    33  **************
 181    2015-09-17 17:03    34  ***************
 182    2015-09-17 17:04    34  ***************
 183    2015-09-17 17:05    34  ***************
 184    2015-09-17 17:06    35  ****************
 ...    ..(  3 skipped).    ..  ****************
 188    2015-09-17 17:10    35  ****************
 189    2015-09-17 17:11    36  *****************
 ...    ..(  9 skipped).    ..  *****************
 199    2015-09-17 17:21    36  *****************
 200    2015-09-17 17:22    37  ******************
 ...    ..(  7 skipped).    ..  ******************
 208    2015-09-17 17:30    37  ******************
 209    2015-09-17 17:31    38  *******************
 ...    ..( 14 skipped).    ..  *******************
 224    2015-09-17 17:46    38  *******************
 225    2015-09-17 17:47    39  ********************
 226    2015-09-17 17:48    38  *******************
 227    2015-09-17 17:49    39  ********************
 ...    ..( 38 skipped).    ..  ********************
 266    2015-09-17 18:28    39  ********************
 267    2015-09-17 18:29    40  *********************
 ...    ..(  4 skipped).    ..  *********************
 272    2015-09-17 18:34    40  *********************
 273    2015-09-17 18:35    41  **********************
 ...    ..(  5 skipped).    ..  **********************
 279    2015-09-17 18:41    41  **********************
 280    2015-09-17 18:42    42  ***********************
 ...    ..( 16 skipped).    ..  ***********************
 297    2015-09-17 18:59    42  ***********************
 298    2015-09-17 19:00    43  ************************
 ...    ..( 36 skipped).    ..  ************************
 335    2015-09-17 19:37    43  ************************
 336    2015-09-17 19:38    44  *************************
 337    2015-09-17 19:39    44  *************************
 338    2015-09-17 19:40    44  *************************
 339    2015-09-17 19:41    43  ************************
 ...    ..(  6 skipped).    ..  ************************
 346    2015-09-17 19:48    43  ************************
 347    2015-09-17 19:49     ?  -
 348    2015-09-17 19:50    26  *******
 349    2015-09-17 19:51    26  *******
 350    2015-09-17 19:52    26  *******
 351    2015-09-17 19:53    27  ********
 352    2015-09-17 19:54    28  *********
 353    2015-09-17 19:55    28  *********
 354    2015-09-17 19:56    29  **********
 355    2015-09-17 19:57    30  ***********
 356    2015-09-17 19:58    30  ***********
 357    2015-09-17 19:59    31  ************
 358    2015-09-17 20:00    31  ************
 359    2015-09-17 20:01     ?  -
 360    2015-09-17 20:02    26  *******
 361    2015-09-17 20:03    27  ********
 362    2015-09-17 20:04    27  ********
 363    2015-09-17 20:05    28  *********
 364    2015-09-17 20:06    29  **********
 365    2015-09-17 20:07    29  **********
 366    2015-09-17 20:08    30  ***********
 367    2015-09-17 20:09    30  ***********
 368    2015-09-17 20:10    31  ************
 369    2015-09-17 20:11    31  ************
 370    2015-09-17 20:12    31  ************
 371    2015-09-17 20:13    32  *************
 372    2015-09-17 20:14    32  *************

SCT Error Recovery Control:
           Read: Disabled
          Write: Disabled

Device Statistics (GP Log 0x04)
Page Offset Size         Value  Description
  1  =====  =                =  == General Statistics (rev 2) ==
  1  0x008  4               11  Lifetime Power-On Resets
  1  0x010  4              752  Power-on Hours
  1  0x018  6        489901194  Logical Sectors Written
  1  0x020  6           620452  Number of Write Commands
  1  0x028  6         55735342  Logical Sectors Read
  1  0x030  6           449279  Number of Read Commands
  2  =====  =                =  == Free-Fall Statistics (rev 1) ==
  2  0x010  4               27  Overlimit Shock Events
  3  =====  =                =  == Rotating Media Statistics (rev 1) ==
  3  0x008  4              728  Spindle Motor Power-on Hours
  3  0x010  4              699  Head Flying Hours
  3  0x018  4               28  Head Load Events
  3  0x020  4                0  Number of Reallocated Logical Sectors
  3  0x028  4                0  Read Recovery Attempts
  3  0x030  4                0  Number of Mechanical Start Failures
  4  =====  =                =  == General Errors Statistics (rev 1) ==
  4  0x008  4                0  Number of Reported Uncorrectable Errors
  4  0x010  4                0  Resets Between Cmd Acceptance and Completion
  5  =====  =                =  == Temperature Statistics (rev 1) ==
  5  0x008  1               32  Current Temperature
  5  0x010  1               33~ Average Short Term Temperature
  5  0x018  1                -~ Average Long Term Temperature
  5  0x020  1               51  Highest Temperature
  5  0x028  1               24  Lowest Temperature
  5  0x030  1               50~ Highest Average Short Term Temperature
  5  0x038  1               33~ Lowest Average Short Term Temperature
  5  0x040  1                -~ Highest Average Long Term Temperature
  5  0x048  1                -~ Lowest Average Long Term Temperature
  5  0x050  4                0  Time in Over-Temperature
  5  0x058  1               55  Specified Maximum Operating Temperature
  5  0x060  4                0  Time in Under-Temperature
  5  0x068  1                5  Specified Minimum Operating Temperature
  6  =====  =                =  == Transport Statistics (rev 1) ==
  6  0x008  4               79  Number of Hardware Resets
  6  0x018  4                0  Number of Interface CRC Errors
  7  =====  =                =  == Solid State Device Statistics (rev 1) ==
                              |_ ~ normalized value

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  4            0  Command failed due to ICRC error
0x0002  4            0  R_ERR response for data FIS
0x0003  4            0  R_ERR response for device-to-host data FIS
0x0004  4            0  R_ERR response for host-to-device data FIS
0x0005  4            0  R_ERR response for non-data FIS
0x0006  4            0  R_ERR response for device-to-host non-data FIS
0x0007  4            0  R_ERR response for host-to-device non-data FIS
0x0008  4            0  Device-to-host non-data FIS retries
0x0009  4            4  Transition from drive PhyRdy to drive PhyNRdy
0x000a  4            4  Device-to-host register FISes sent due to a COMRESET
0x000b  4            0  CRC errors within host-to-device FIS
0x000d  4            0  Non-CRC errors within host-to-device FIS
0x000f  4            0  R_ERR response for host-to-device data FIS, CRC
0x0010  4            0  R_ERR response for host-to-device data FIS, non-CRC
0x0012  4            0  R_ERR response for host-to-device non-data FIS, CRC
0x0013  4            0  R_ERR response for host-to-device non-data FIS, non-CRC
[/Spoiler]

jesterfox@Marian:~$ sudo smartctl -x /dev/sdc
Code:
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-61-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, [url]www.smartmontools.org[/url]

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST3000DM001-9YN166
Serial Number:    Z1F259DR
LU WWN Device Id: 5 000c50 04f7e1ed7
Firmware Version: CC4H
User Capacity:    3.000.592.982.016 bytes [3,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Sep 17 20:16:21 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     127 (intermediate level with standby)
Rd look-ahead is: Enabled
Write cache is:   Enabled
ATA Security is:  Disabled, frozen [SEC2]
Write SCT (Get) XXX Error Recovery Control Command failed: scsi error aborted command
Wt Cache Reorder: N/A

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  584) seconds.
Offline data collection
capabilities:                    (0x73) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 344) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR--   118   100   006    -    180457896
  3 Spin_Up_Time            PO----   093   092   000    -    0
  4 Start_Stop_Count        -O--CK   100   100   020    -    247
  5 Reallocated_Sector_Ct   PO--CK   100   100   036    -    0
  7 Seek_Error_Rate         POSR--   100   253   030    -    506779
  9 Power_On_Hours          -O--CK   084   084   000    -    14184
 10 Spin_Retry_Count        PO--C-   100   100   097    -    0
 12 Power_Cycle_Count       -O--CK   100   100   020    -    34
183 Runtime_Bad_Block       -O--CK   096   096   000    -    4
184 End-to-End_Error        -O--CK   100   100   099    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
188 Command_Timeout         -O--CK   100   098   000    -    0 0 2
189 High_Fly_Writes         -O-RCK   099   099   000    -    1
190 Airflow_Temperature_Cel -O---K   072   049   045    -    28 (Min/Max 26/28)
191 G-Sense_Error_Rate      -O--CK   100   100   000    -    0
192 Power-Off_Retract_Count -O--CK   100   100   000    -    24
193 Load_Cycle_Count        -O--CK   100   100   000    -    921
194 Temperature_Celsius     -O---K   028   051   000    -    28 (0 19 0 0 0)
197 Current_Pending_Sector  -O--C-   100   100   000    -    0
198 Offline_Uncorrectable   ----C-   100   100   000    -    0
199 UDMA_CRC_Error_Count    -OSRCK   200   200   000    -    13
240 Head_Flying_Hours       ------   100   253   000    -    1832h+49m+21.783s
241 Total_LBAs_Written      ------   100   253   000    -    8077807110781
242 Total_LBAs_Read         ------   100   253   000    -    5007725401507
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01           SL  R/O      1  Summary SMART error log
0x02           SL  R/O      5  Comprehensive SMART error log
0x03       GPL     R/O      5  Ext. Comprehensive SMART error log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL     R/O      1  SATA Phy Event Counters
0x21       GPL     R/O      1  Write stream error log
0x22       GPL     R/O      1  Read stream error log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xa1       GPL,SL  VS      20  Device vendor specific log
0xa2       GPL     VS    4496  Device vendor specific log
0xa8       GPL,SL  VS      20  Device vendor specific log
0xa9       GPL,SL  VS       1  Device vendor specific log
0xab       GPL     VS       1  Device vendor specific log
0xb0       GPL     VS    5067  Device vendor specific log
0xbd       GPL     VS     512  Device vendor specific log
0xbe-0xbf  GPL     VS   65535  Device vendor specific log
0xc0       GPL,SL  VS       1  Device vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log Version: 1 (5 sectors)
No Errors Logged

SMART Extended Self-test Log Version: 1 (1 sectors)
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Data Table command not supported

SCT Error Recovery Control command not supported

Device Statistics (GP Log 0x04) not supported

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x000a  2            4  Device-to-host register FISes sent due to a COMRESET
0x0001  2            0  Command failed due to ICRC error
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
[/Spoiler]

Edit: hmpf... darf nix mehr Posten weil zu lang... aber die /dev/sdd war die letzten 2 Tage eh nicht gemounted und im Syslog steht zum Absturzzeitpunkt nix drin. Wenns von Interesse ist kann ichs aber später auch noch posten.
 
Zuletzt bearbeitet:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-- 118 100 006 - 180457896
7 Seek_Error_Rate POSR-- 100 253 030 - 506779
183 Runtime_Bad_Block -O--CK 096 096 000 - 4
199 UDMA_CRC_Error_Count -OSRCK 200 200 000 - 13

sdc scheint putt.
 
Ja, ist mir auch aufgefallen, wobei der CRC aufs Kabel hindeutet und der Raw_Read komplett seltsam aussieht... eigentlich sollte die Platte nicht kaputt sein, ist erst n Jahr alt... werd die glaub ich mal ausbauen und in meinen Windows PC stecken, bei Crystal Disk Info kenn ich mich mit den SMART Werten besser aus ;-) außerdem kann ich da auch mal das hersteller-Tool laufen lassen.

Die sdd sieht noch schlimmer aus... eine aus der Generation hab ich aber auch erst letztens aus meinen Windows PC entsorgt. Aber die war zuletzt eh nicht gemountet und soll eh raus, will da nur noch Daten wegkopieren.

Das sind reine Datenplatten für Samba Freigaben... das sollte doch egal sein oder zumindest keine derart harten Systemabstürze verursachen, oder? Wenns die SSD mit dem System und Swap wäre wärs was anderes...

Aber nachdem die sdc nicht die einzige mit CRC Fehlern war werd ich wirklich mal die Kabel tauschen.

ist es noch sinnvoll was aus dem syslog zu posten? Was man am Anfang sieht ist eigentlich nur das Netzwerkinterface vom KVM das sich beim Start der VM initialisiert, danach ist bis zum Reboot um 20 Uhr Ruhe... der Absturz war etwa 1 Stunde nach dem VM Start.

Update:

Also an den 3 HDDs kann es schon mal nicht liegen, hab den Server mal ohne die Platten (sind ja eh nur Datenplatten für Samba-Freigabe) nur mit der SSD (mit neuem SATA-Kabel) gestartet und der PC ist mir wieder abgeschmiert. Interessant ist dabei das der PC locker n tag lang im idle durchgehalten hat, aber als ich dann wieder an der VM gearbeitet hab war er nach ca. 30 Minuten weg. Wieder selbes Phönomen: Netzwerkverbindung zwar irgendwie noch da aber reagiert nicht mehr (Putty meldet keinen inaktive Session und das Fenster von virt-manager ist auch noch da reagiert aber nicht mehr) Der Rechner selber zeigt schwarzen Bildschirm und reagiert auf nichts mehr.


Wie kann ich die Hardware am besten einem Check unterziehen woran es liegt? Memtest lief wie gesagt ohne Fehler, was gibt's noch für Möglichkeiten?
 
Zuletzt bearbeitet: (Update)
Versuchs mal mit einem (CPU-)Stresstest. mprime oder linpack z. B.
Dabei lässt du die VM mal aus, um die als Ursache auszuschließen. Die Systemtemperaturen dabei im Blick behalten.
 
Die Temps hatte ich mir eben schon angeschaut als ich noch mal mit der VM gearbeitet hab... CPU liegt so bei 35°C, der i3 wird mit dem Macho auch mehr als ausreichend Gekühlt selbst wenn der Lüfter ausfallen sollte ;-) Allerdings ist die Kiste wieder nach wenigen Minuten weg gewesen.

Aber als Test wird ichs mal machen, der erste Reboot war zwar noch ohne KVM, aber evtl. war das ja was anderes und es liegt doch am kvm.
 
Danke für die Links, vor allem der 2. mit dem Soft Lock hört such extrem verdächtig an... und nachdem momentan die Kiste unter Stress-Test immer noch sauber läuft könnte tatsächlich kvm der schuldige sein. Wenn wir mal den ersten spontan-Reboot ausklammern passieren die Probleme ja auch immer wenn ich die VM benutz (was neben der Samba-freigaben momentan das haupteinsatzgebiet der Kiste sein soll...)


Update: Stresstest lief über Nacht problemlos durch, hab jetzt mal einen Update auf den 3.16er Kernel gemacht, aber grad eben schon wieder weggeschmiert (kurz nach Start der VM). Allerdings hab ich jetzt nen Kernel Panic auf dem Bildschirm:

WP_20150921_19_41_08_Pro.jpg

Update 2: die Punkte aus den Links scheinen mich wohl doch nicht zu betreffen. Der Kernel Panik deutet auf ein Hardware-Problem hin (Hauptverdächtiger ist das Mainboard, kann aber auch was anderes sein) und das er nur mit kvm auftritt ist wohl eher Zufall. Allerdings kann ich ihn mittlerweile sehr Zielsicher in wenigen Minuten reproduzieren... wird dann wohl mal das Standardprogramm an Hardwareanalyse machen... BIOS-Update und Komponententausch.


Update 3 (hoffentlich das letzte):

So, ich hoff ich verschrei es nicht zu früh, aber seit gestern Abend scheint die Kiste nun endlich stabil zu laufen, auch mit aktiver VM. Ein BIOS Update von 1.40 auf 2.10 von dem ASrock H67M GE/HT hat wohl die Lösung gebracht. War aber auch ne schwere Geburt, der Hersteller wollte mir auf seiner Downloadseite nur ne Windows Exe zum flashen andrehen. Musste mir das Bios von nem Download-Archiv einer News-Seite holen...

Was noch bleibt ist die 2. HDD noch durchzuchecken und möglichst schnell die Daten von der dritten umzuziehen (ja, sind nicht wirklich wichtig, ansonsten hätt ich n Backup ;-)

Danke an alle die hier mitgemacht haben, ist halt immer einfacher wenn man bei sowas nicht ganz alleine ist.
 
Zuletzt bearbeitet: (Update)
Zurück
Oben