Ständige Dateisystemfehler auf LVM mit ext3

Jungster124

Cadet 3rd Year
Registriert
Sep. 2009
Beiträge
57
Hallo zusammen, ich hoffe ich kann hier Hilfe finden:

Ich habe schon seit langer Zeit bei mir zuhause einen Fileserver stehen, bis vor kurzem lief dieser auf mit dem Linux Derivat "Collax Small Business Server", jedoch war mir die eingeschränktheit wenn es um sonstige Software (zB Teamspeack usw) geht einfach zu groß.

Folglich machte ich das System platt, installierte ein CentOS 5.4 und verwende nun den Collax Business Server in VMware, da ich die einfache Konfiguration (Firewall/Proxy) nicht missen wollte.
Das einzige was von meinem übrigen System übrig geblieben ist, ist mein LVM (5 Festplatten mit ext3 formatiert), welches ich wieder mit CentOS gemountet habe, um damit die Samba freigaben usw wieder zu aktivieren. Das klappte auch alles soweit perfekt.

Nun zu meinem eigentlichen Problem: Immer wenn ich mehr oder weniger große Datenmengen auf den Fileserver kopiere (und damit auf das LVM) wird das LVM readonly gemounted. Wenn ich es dann unmounte, fsck drüber laufen lässt, findet er auch immer irgendwelche (mir nichts sagende) Fehler die er behebt, danach geht es auch wieder, und fsck findet keine Fehler mehr, bis ich erneut große (meistens 5GB und mehr) kopiere, dann fängt alles wieder "von vorne" an...

Die einzige Idee die ich noch habe ist, dass eine meiner Festplatten den Geist aufgibt, blos wie überprüfe ich das, ohne die Daten zu verlieren? und gibt es evtl. noch andere Probleme die auftreten könnten? Kann ich was in der /etc/fstab falsch gemacht haben?
Meine /etc/fstab:
Code:
LABEL=/                 /                       ext3    defaults        1 1
tmpfs                   /dev/shm                tmpfs   defaults        0 0
devpts                  /dev/pts                devpts  gid=5,mode=620  0 0
sysfs                   /sys                    sysfs   defaults        0 0
proc                    /proc                   proc    defaults        0 0
LABEL=SWAP-hda2         swap                    swap    defaults        0 0
/dev/mapper/datavolume-datavolume      /data    ext3    defaults        0 0
hat evtl Samba ein Schuss, und macht dieses den Fehler? Ich habe einfach keine Ideen mehr, an denen ich ansetzen könnte.


Vielen Dank im Vorraus schon für Ideen und Lösungsvorschläge
Gruß Jungster
 
ich nehm mal an, dass CentOS unter "defaults" errors=remount,ro versteht, d.h. wenn ein Fehler im Dateisystem gefunden wird, wird es wohl read-only (neu)re-mounted

wenn der ständig solche Mätzchen macht, wird wohl ein Hardware-Fehler (evtl. timeout einer der Platten weil zu langsam, Platte verabschiedet sich, etc.) schuld daran sein [Vermutung]


vorsichtshalber solltest du wichtige Daten (z.B. Konfigurationen) sichern

um auf Fehlersuche zu gehen kannst du dich folgender Tools bedienen:

- smartmontools: smartctl -a /dev/foo
(wobei /dev/foo für die einzelnen Platten steht, damit kannst du die Smart-Werte der Platten auslesen lassen und evtl. einen Test starten [auch im laufenden Betrieb])
- dmesg: hier werden sämtliche (Fehler-)Meldungen ("display message") angezeigt - um das ganze zu beschleunigen

schaust du nur auf die letzten paar Zeilen z.B. die letzten 40
Code:
dmesg | tail -n 40

du kannst auch nach bestimmten Inhalten "suchen":
Code:
dmesg | grep BUG
(z.B. nach BUG Meldungen)

poste dann mal den output von smartmontools -a der einzelnen Platten in eines der Pastebins ohne das Forum vollzuspammen

dann sind wir schonmal ein großen Stück weiter :)


wenn du unsicher bist, kannst du auch die Ausgabe von dmesg posten:

dmesg > dmesg_output.txt

und dann die Datei hochladen oder den Inhalt posten (wieder in ein Pastebin)
 
Aaaaalso folgendes:

smartctl -a /dev/sda

smartctl -a /dev/sdb

smartctl -a /dev/sdc

smartctl -a /dev/hda

(sind doch nur 4 Festplatten, waren mal 5)

und da mir die Ausgabe von dmesg nicht wirklich etwas sagt bekommste auch mal noch den gesammten Inhalt:
dmesg

Ich hoffe du kannst damit was anfangen, im Moment lasse ich außerdem mal noch "fsck -c" laufen, um mein LVM nach deffekten blöcken untersuchen zu lassen, mal schaun ob er da etwas findet, allerdings dauert das bei fast 2 TB seine Zeit... (nach ner Stunde etwa 10%....)
 
Zuletzt bearbeitet:
/dev/sdc ist ein potentieller Kandidat:

Error 1 occurred at disk power-on lifetime: 596 hours (24 days + 20 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 01 01 4f c2 00 Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d0 01 01 4f c2 00 00 01:45:37.000 SMART READ DATA
b0 d1 01 01 4f c2 00 00 01:44:32.625 SMART READ ATTRIBUTE THRESHOLDS [OBS-4]
b0 d0 01 01 4f c2 00 00 01:44:32.438 SMART READ DATA
b0 d1 01 01 4f c2 00 00 01:43:28.250 SMART READ ATTRIBUTE THRESHOLDS [OBS-4]
b0 d0 01 01 4f c2 00 00 01:43:28.125 SMART READ DATA

was aber nichts heißen muss

weiters ist es zu empfehlen gleiche Modelle im Verband zu verwenden ("timeouts" bzw. das Problem das einige Platten schneller als andere sind und daher es Datenintegritätsprobleme geben kann im LVM)


sonst kann ich nix (für mich) Auffälliges sehen

in dmesg sieht es auch nicht so schlecht aus ...


poste mal die letzten ca. 100 lines (tail -n 100), wenn das Problem auftritt so weiß man leider nix genaues ... :(


evtl. fällt den anderen was auf ?


Empfehlung:

Daten sichern und dann mal von einer Samsung CD booten und die Platte ausführlich testen ob es nicht irgendwelche Probleme gibt:

Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 18956998
ist recht hoch aber nur "Old_age", daher wahrscheinlich von geringer Bedeutung für Probleme ...
 
Zuletzt bearbeitet:
kabel von platte sdb und hda kaputt?
199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always - 204

199 UDMA_CRC_Error_Count 0x003e 200 197 000 Old_age Always - 581

und platte sdc geht wohl selbst bald kaputt...

195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 18956998

ich würde mal die kabel checken und bei platte sdc hutil ausführen.

gruß
hostile
 
Also dass das an Festplatten mit unterschiedlicher Geschwindigkeit liegt glaube ich eher nicht, da es seid über 2 Jahren problemlos lief...

dass die Kabel kaputt sind? Wieso sollten Kabel einfach kaputt gehen? wenn dann denk ich eher an einen wackelkontakt oder vllt steckt die Raidkarte nicht richtig (benutz ich allerdings ohne Raid, nur als Sata Controller)...

kann ich mit hutil (ist ja ein Samsungtool) auch Festplatten checken die nicht von samsung sind?

Vielen Dank schonmal für eure Hilfe...

Gruß Jungster 124

P.S.: hätte ich evtl weniger Probleme wenn ich irgendwie ein Hardware Raid 0 basteln würde? oder gäbe es da genauso die Timeout Probleme?
Eigentlich dachte ich, ich kenn mich halbwegs gut aus, aber wenn ich so Logdateien und ähnliches sehe steh ich immer wie n Ochs vorm Berg... wie kann man lernen das zu verstehen???

P.P.S.: Könnten die Probleme evtl. auch wegen zu hoher festplattentemperaturen auftreten? Ich habe meinen Server gerade aufgeschraubt, und habe entsetzt festgestellt wie... schon fast heiß die Festplatten werden, trotz 92mm Lüfter direkt davor... werde da, egal ob es daran liegt oder nicht, auf jedenfall mal noch was machen.
 
Zuletzt bearbeitet:
Mit HUTIL? Ich weiss nicht.. aber jeder Festplattenhersteller hat sein eigenes Tool, das mehr oder weniger gut/schlecht ist.

Zu den ECC-Fehlern: Hast du evtl die Stromkabel vom Netzteil und die SATA-Kabel der HDDs zusammengebunden?

Was das Lesen von Logs angeht: Erfahrung... und durch viel Lesen der man pages etc...

Kauf dir lieber 2x 2TB und mach ein Linux RAID1 :)

gruß
hostile
 
Zusammengebunden nicht, höchstens nebeneinander verlegt. glaubst du das könnte an mangelnder Schirmung liegen?

Temperatur Probleme dürfte es jetzt nicht mehr geben hab jetzt an dem ding: Scythe Hard Disk Stabilizer vorne und hinten dran jeweils ein 92mm Lüfter... der eine drückt rein, der andere zieht raus, da dürfte es keine Probleme mehr geben...

Hab jetzt auch mal noch IDE/SATA Kabel ausgetauscht und mich versichert dass alle richtig sitzen, und strom haben sie auch alle richtig angeschlossen, nun versuche ich nochmal ob die Probleme vllt von einem der jetzt behobenen Gründe kamen.

Einfach mal 2*2Tb kaufen macht ein Schüler mit 18 Jahren (der zum Glück noch vieeeel Zeit zum Logfiles lesen üben hat :) ) eben nicht einfach mal so ;) ich bin froh über die Festplatten die ich habe und würde die auch gerne behalten, kann man ja verstehen, oder?
Und das mit HUTIL werd ich versuchen falls der Fehler weiterhin besteht... eine Festplatte ist ja von Samsung, der rest is WesternDigital...

Zum Thema RAID I... nett und toll, aber ohne genug Geld ist einem die Kapazität wichtiger... (mir zumindest :rolleyes: )
du glaubst garnicht wie ich mich auf mein BA Studium (was ich hoffentlich bekomme) freue... endlich mal Kohle xD

Ich halte euch/dich auf dem Laufenden...
Gruß Jungster 124
 
Zuletzt bearbeitet:
Was bringt dir eine "nette und tolle" Kapazität, wenn durch einen Plattenfehler die Dateien auch mitgerissen werden? Da denkt man sicherlich mal anders, aber ab und zu muss man leider richtig bluten, danach lernt man erst.
 
Ja da denkt man manchmal anderst... das stimmt schon hab auch schon mehr als genug Ausfälle gehabt... Festplatten, Mainboards, Cpus, Netzteile usw.... könnte ich fast endlos fortsetzen xD

Naja vllt sollte ich das wirklich mal machen, mir ein Raid1 anzuschaffen...

ich lass ma die Nacht den Blocktest von fsck durchlaufen, vllt findet der ja noch was, weil ansich sagt er mir, dass das volume im moment i.O. ist.

Außerdem teste ich mal was dmesg auspuckt, kurz nachdem er auf read only remounted hat... aber da brauch ich etwas glück^^hab kein Plan wann es das nächste mal passiert...

Wäre es evtl. eine Möglichkeit das readonly remounten bei error zu deaktivieren, weil datenverlust gibt es wenn ich neustarte und es wieder normal mounte eigentlich nicht, oder könnte das für die daten gefärhlich sein?

In dem sinne noch einen schönen abend und viele Dank für die Hilfe

Gruß Jungster124
 
wenn du genau weißt, dass die daten nicht beschädigt sind, kannst du das gerne machen, ansonsten droht Datenverlust, etc.

man mount:

errors={continue|remount-ro|panic}
Define the behaviour when an error is encountered. (Either
ignore errors and just mark the filesystem erroneous and con‐
tinue, or remount the filesystem read-only, or panic and halt
the system.) The default is set in the filesystem superblock,
and can be changed using tune2fs(8).

das sollte also nur geschehen, wenn du das Datensystem neu mountest bzw. manuell mountest oder beim Hochfahren des Systems

vielleicht ist es auch eine Eigenheit von RHEL/CentOS ...
 
Also bei man mount, steht bei mir exakt das selbe => scheint bei CentOS kein unterschied zu geben, zu anderen Distros...

Das kann man aber auf 2 Arten verstehen was da steht (bzw ich weiß auch net genau was der "superblock" macht)
1. er mountet es read-only und setzt den Superblock, damit "er" es beim nächsten reboot noch weiß und wieder read-only mountet
2. er lässt es normal gemounted und mounted es beim nächsten reboot/mount aufgrund des superblocks dann read only... (so hast du es ja verstanden...), was allerdings gegen meiner Beobachtung entspricht...

oder aber er unmounted es generell erst mal bei errors, und mounted es dann per default eben aufgrund des superblocks wieder read only...

des geht aus dem Manual meiner Meinung nach nicht eindeutig hervor...

Gruß Jungster124

P.S.: Frechheit: habe grade fast 50GB kopiert, und kaum will man dmesg anschauen, nachdem er es readonly mounted, schon passiert "nichts" mehr... Na ja find ich jetzt auch nicht schlimm wenn es so bleibt :) Aber den fsck -c (auf defekte blocks testen) lass ich trotzdem mal über Nacht laufen...
 
Zuletzt bearbeitet:
Achso jetzt hab ich das kapiert xD man bin ich doof :( die default Einstellung steht im Superblock :D oups... ich dachte da wird der Standart im Superblock gesetzt^^Naja lag wohl daran dass ich net wusste was ein Superblock ist :D

Naja mal schaun was der Blocktest auspuckt, ansonsten hab ich keine Idee mehr, und werde mir wohl einfach neue Festplatten kaufen, und ein neues LVM basteln... die alten werd ich dann wsl einfach an Freunde verkaufen, so wirds hoffentlich nicht soooo teuer für mich...

Wenn ihr sonst noch Ideen habt, oder irgendwelche Informationen braucht, damit ihr mir weiterhelfen könnt, dann schreibt ;) würde mich freuen wenn wir das Problem noch finden und lösen könnten ;)

Vielen Dank im Vorraus und Gruß Jungster124

UPDATE:

Nachdem ich nun die Blocks prüfen hab lassen, das Dateisystem nochmal komplett überprüft wurde, habe ich immer noch die selben fehler wie vorher...
Das ganze ist sehr deprimierend... :( Der gesammte Server schnurrt und rennt, nur das Datenvolume schmiert andauernd ab... :-!

Hat sonst noch jemand eine Idee woran es liegen könnte?

Gruß Jungster124

UPDATE 2:
Ich teste nun mal explizit alle festplatten durch, jedoch bei "/dev/sdc" habe ich keine Fehler gefunden (HD-Tune Error Scan u.ä.) obwohl das ja eure Vermutung war.
Könnte es damit zusammenhängen dass die Festplatten an verschiedenen Controllern angeschlossen sind?
meine Systemfestplatte (IDE) sowie 2 meiner sata festplatten (sda und sdb) hängen onboard (bei IDE ist das ja eig klar...) aber sdc hängt an einem Delock Sata Controller da ich nur 2 onboard sata anschlüsse habe. Kann das damit zusammenhängen?
na ja ich werds einfach Probieren, wenn ich alle festplatten getestet habe, werd ich ma alle an den PCI controller anschliesen...

Gruß Jungster124
 
Zuletzt bearbeitet:
AAAAAlso:

da ich nun alle festplatten überprüft habe und alle (bis auf die Fehler im SMART) keine Fehler aufweisen gehe ich nun davon aus dass es an dem onboard SATA Controller liegt welcher anscheinend Probleme mit SATA 3gb hat. Mehr dazu schreibe ich daheim bin grad mit iPod Touch online...


Grus Jungster124


Update

Nachdem ich nun mal wieder etwas mehr Zeit hatte, habe ich alle Festplatten genommen, und sie in einen 2ten Rechner eingebaut (ohne RaidController direkt Onboard angeschlossen) und stelle nun fest, dass die Festplatten im LVM vollkommen stabil laufen (bereits 400gig geschrieben, ohne einen Fehler).
Folglich ist entweder der Delock Raid/SATA-Controller kaputt, oder der gesammte Rechner den ich als Server benutzt habe hat einen Hardwareschaden.
Als nächstes werde ich noch das gleiche über RaidController in dem 2ten Rechner ausprobieren, und falls das auch funktionieren sollte wird wohl ein neuer Server hermüssen, da es sehr alte Hardware (Sockel 754.... ) ist und ich nicht alles einzeln testen möchte um dann für unsummen ersatzteile zu kaufen...

Die Ergebnisse werd ich noch posten.

Gruß Jungster124
 
Zuletzt bearbeitet:
Bei mir war immer der RAM Fehlerteufel Nr.1, wenn willkürlich Fehler auftraten. Das passt auch ganz gut zu den großen Datenmengen die du kopierst, weil der RAM als Disk Cache / Buffer benutzt wird und dann komplett voll ist. Bei kleinen Datenmengen ist die Chance jedoch ungleich kleiner, dass der defekte Bereich belegt wird.

1-2 Durchgänge von Memtest86+ und du solltest schlauer sein :)
Eigentlich solltest du dann allerdings noch andere Effekte haben, außer dem remounten
 
Zuletzt bearbeitet:
Na das der Ram kaputt ist bezweifel ich eben aus dem Grund, dass der Server ansonsten zu 100% Stabil lief... mit meiner IDE system Platte gab es auch keine Probleme wenn ich da was draufgeschrieben habe.. ist nur SATA, egal ob PCI Controller oder Onboard... etwas kurios... Zumal PCI Controller und Festplatten in anderen Rechnern einwandfrei laufen...
Aber wie gesagt... ich hab eigentlich garkeine Zeit und Lust da noch groß rumzutesten... das ist es nicht wert.

Gruß Jungste124
 
Zurück
Oben