SATA Schnittstelle kaputt? Dauernd Write Error... :(

looperna

Cadet 4th Year
Registriert
Mai 2022
Beiträge
109
Hallo zusammen,

ich habe mir den Mini-PC HM80 gekauft, um diesen mit TrueNAS zu betreiben. Im Gerät steckt eine NVME SSD und 2x SATA SSD. Auf den SATA SSDs werden die Daten abgelegt, welche im Raid 1 laufen.

Nun habe ich beim Einrichten aber die Meldung bekommen, dass ein Drive nicht richtig funktioniert.
Folgende Meldung erscheint:

New alert:
  • Pool Volume state is DEGRADED: One or more devices are faulted in response to persistent errors. Sufficient replicas exist for the pool to continue functioning in a degraded state.
    The following devices are not healthy:
    • Disk Samsung_SSD_870_EVO_2TB S6PPNJ0RXXXXXXX is FAULTED

Ich dachte erst, dass die SSD tatsächlich kaputt ist. Aber da die ganz neu war, war ich skeptisch. Habe dann weiter geprüft, ob vielleicht das Kabel oder die Schnittstelle am Mainboard defekt ist. Und tatsächlich. Die Write Error treten immer nur an der einen Mainboard Schnittstelle auf. Egal welches Kabel oder welche SSD ich verwende. Nur die SSD hat Fehler, welche an dieser einen Schnittstelle ist. Ich habe auch bereits geprüft, ob alles richtig steckt. Habe nun sicherlich mehr als 20x alles raus und rein und das System neugestartet.

Wenn ich dann die SSDs wieder tausche, dann bekomme ich aber auf beiden SSDs einen Fehler. Allerdings hat die eine an der scheinbar funktionfähigen Schnittstelle nur Checksum Fehler. Ich denke, dass dies nicht schlimm ist und nur zustande kommt, da diese SSD vorher in der defekten Schnittstelle mit den Write Errors steckte. Denn nach einem erneuten Systenstart ist die Platte komplett gesund und hat auch keine Checksum Errors mehr. Lediglich die andere Platte an der vermutlich defekten Schnittstelle hat weiterhin Write Errors.

Anbei mal ein paar Bilder. Auf dem einen Bild liegt der Fokus auf die vermutich defekte Schnittstelle am Mainboard.

Ich wollte euch nun nochmal fragen, ob ich nun mit der Vermutung, dass die Schnittstelle am Mainboard defekt ist, richtig liege. Dann würde ich den PC reklamieren. Anbei mal auch ein Bild wie ich ich die SSDs angeschlossen habe. Meint ihr, dass ich die Schnittstelle vllt. auch kaputt gemacht habe? Das Kabel ist sehr klein und ich weiß nicht wie empfindlich das ist. Ich drücke halt beim reinstecken von oben drauf, in der Mitte. Und dann steckt es ja. Kann man dabei etwas kaputt machen?
 

Anhänge

  • 1653236755598.png
    1653236755598.png
    37,4 KB · Aufrufe: 374
  • PXL_20220522_163000120.jpg
    PXL_20220522_163000120.jpg
    1,6 MB · Aufrufe: 371
  • Gefällt mir
Reaktionen: Axel-J
Mal nen anderes Kabel ausprobiert ? Gibts da Ersatzteile von Minisforum? Würde mal bei Ali gucken.
Kannst ja sonst mal die Kabel rechts und links tauschen um das auszuschließen. Würde die Sockel für die SATA Ports auch mal auspusten und die Kabelkontakte auspusten und mit Isopropanol reinigen. - Okay, lese gerade, wenn du die Platten schon getauscht hast und es dabei bleibt - dann wäre das sehr unwahrscheinlich.
 
  • Gefällt mir
Reaktionen: looperna
Mach mal Crystal Disk Info auf und schau nach, was das Ultra DMA CRC Error Rate Attribut ausspuckt...
bei Kabel/Schnittstelle Problemen würde ich da was erwarten.
 
  • Gefällt mir
Reaktionen: looperna
Novocain schrieb:
Mal nen anderes Kabel ausprobiert ?
Wie gesagt, schon alles gemacht und am Kabel liegt es nicht. Aber werde es mal reinigen!
Rickmer schrieb:
Mach mal Crystal Disk Info auf und schau nach, was das Ultra DMA CRC Error Rate Attribut ausspuckt...
Ich weiß halt leider nicht wie ich das machen soll auf dem Linux System. Oder einfach mal übern USB Stick nen Linux booten womit ich das tasten kann? Wenn ja, welches System kann man zum testen solcher Dinge empfehlen?

Habe am Anfang auch die SSDs an meinem PC via USB angeschlossen, aber das macht mit dem jetzigen Wissen ja keinen Sinn, da die Platten an sich ja in Ordnung sind. Und konnte sowieso über den Umweg über USB keine relevanten Daten auslesen.
 
looperna schrieb:
Ich weiß halt leider nicht wie ich das machen soll auf dem Linux System.
Ahso.

Letztendlich geht es um die SMART Werte, nicht CDI speziell. Einfach mal googeln, das sollte nicht schwer sein.
 
  • Gefällt mir
Reaktionen: looperna
ok... habe bei TrueNAS nun zufällig die Option für die SMART Tests gefunden. Bin vorher einer anderen Logik gefolgt. Lasse nun auf dem Drive mit den Write Fehlern einen langen Text laufen. Dauert etwas.
 
Du hättest die SSD aber auch einfach in einen PC hängen und dann CDI nehmen können.

Aber der Beschreibung nach was vorliegt und was Du alles bereits probiert hast sieht es nach einem Defekt der SATA-Schnittstelle aus, was dann das Ende des RAID1 wäre mangels weiterer SATA-Schnittstellen.
Wie alt ist das Teil?
Noch Gewährleistung/Garantie vorhanden oder anwesend?
 
  • Gefällt mir
Reaktionen: looperna
prian schrieb:
Du hättest die SSD aber auch einfach in einen PC hängen und dann CDI nehmen können.
Geht aber bei mir leider nicht direkt via SATA, nur über so nen SATA USB Gerät. Da meine ich dann aber nicht alles auslesen zu können. Hatte ich ja am Anfang bereist versucht.
prian schrieb:
Noch Gewährleistung/Garantie vorhanden oder anwesend?
Ja, da ist alles ganz entspannt. Habe das Teil vor wenigen Tagen erst bekommen.

Lasse jetzt noch den SMART Test durchlaufen und poste dann das Ergebnis hier. Habe den langen Test gewählt und der ist nach einer Stunde erst bei 40%. Dauert also noch 2 Stunden.
 
Hier nun das Ergebnis. Könnt ihr da noch irgendwas rauslesen?

1653248866198.png
 
  • Gefällt mir
Reaktionen: looperna
Kabel nochmal getauscht. Hat nichts verändert. Der Fehler tritt weiterhin nur an der einen Schnittstelle auf. Also wird es wohl nun sehr sicher die Schnittstelle am Mainboard sein, oder? Könnt ihr mir das vielleicht genauer erklären? Könnte dann einfach so ein PIN kaputt sein? Und gibt es PINs die nur für Write sind, da ich ja nur Write Errors erhalte?

Habe den Hersteller nun auch schon geschrieben. Hoffe bekomme ein neues Gerät. Reperatur sollte ich nicht akzeptieren, oder? Will ich irgendwie ungerne... will nen frisches Gerät bei dem alles super geht.
 
Glaube nur beim Schreiben werden CRC Werte hinterlegt, beim Lesen hingegen nicht.

Mhh, das möchte man natürlich gern und wünscht man sich auch so. Verpflichtend für den Hersteller ist dies jedoch nicht, da kann er nachbessern wie er es für richtig hält. Kurz um du hast kein Recht auf ein neues Gerät, sofern sich überhaupt um Garantie gekümmert wird der Firmensitz ist ja in HK, in Kowloon - nicht in DE oder der EU.

Würde die SSDs aber nochmal an nem anderen PC checken um da sicher zu gehen. Müsste wohl über ein entsprechend vorbereitetes WindowsPE/HirensBootCD oder mit nem LiveLinux gehen.
 
  • Gefällt mir
Reaktionen: looperna
Zitat Hersteller:
Are you on the Win10 system? And can the SSD read and write properly?
If it is a non-Windows system, such as pve, it is very likely to have this kind of problem and cannot be fixed.

Das kann doch nicht sein, oder? Ich meine ich habe ja bereits die Platten und Kabel alle getestet. An der anderen Schnittstelle gehen ja alle Kabel und Platten. Es ist nur an der einen Mainboardschnittstelle. Wie sollte es denn bitte zu erklären sein, dass das "normal" sein soll? Ist immer die Primäre Schnittstelle mit Problemen behaftet und bei der sekundären Schnittstelle soll immer alles super sein?!

Was würdet ihr nun machen? Für mich ist das immernoch ein klarer Defekt, wenn Kabel und Platte an der anderen Schnittstelle ohne Probleme läuft.. kann am Mainboard ja selber nix ändern bzw. austauschen.

Ach man, das ist echt doof. Hatte mich so auf den PC gefreut....
 
Ich würde mich die nächsten 2 Tage durchs Netz wühlen und gucken ob das häufiger vor kommt, (evtl ist es ja auch ein OS Problem) wenn nicht aus Spaß mal zwei komplett andere SSDs im Tandem ausprobieren. Bios Updaten, unter Windows den gleichen Spaß mal ausprobieren, und wenn nicht das Ding zurück schicken, da du ja hoffentlich noch Garantie hast und bei nem Händler aus DE gekauft hast.
 
  • Gefällt mir
Reaktionen: looperna
looperna schrieb:
Wie sollte es denn bitte zu erklären sein, dass das "normal" sein soll?
Klingt so als ob das Teil eine dem Hersteller bekannte fehlerhafte Auslegung besitzt. Dann kannst du daran gar nichts machen, außer jemand bemüht sich um Patches speziell für diesen Fehler für FreeBSD (sollte möglich sein wenn es unter Windows läuft)...
 
  • Gefällt mir
Reaktionen: looperna
Habe nun mal die Logs genauer geprüft. Folgender Fehler ist es:

Code:
May 22 22:22:43 truenas kernel: ata2.00: Enabling discard_zeroes_data
May 22 22:22:43 truenas kernel: ata2: hard resetting link
May 22 22:22:44 truenas kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
May 22 22:22:44 truenas kernel: ata2.00: supports DRM functions and may not be fully accessible
May 22 22:22:44 truenas kernel: ata2.00: supports DRM functions and may not be fully accessible
May 22 22:22:44 truenas kernel: ata2.00: configured for UDMA/133
May 22 22:22:44 truenas kernel: sd 1:0:0:0: [sdb] tag#6 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
May 22 22:22:44 truenas kernel: sd 1:0:0:0: [sdb] tag#6 Sense Key : Illegal Request [current]
May 22 22:22:44 truenas kernel: sd 1:0:0:0: [sdb] tag#6 Add. Sense: Unaligned write command
May 22 22:22:44 truenas kernel: sd 1:0:0:0: [sdb] tag#6 CDB: Write(10) 2a 00 4c 40 21 70 00 00 30 00
May 22 22:22:44 truenas kernel: zio pool=Volume vdev=/dev/disk/by-partuuid/5ca4674a-2f2f-4d49-91ae-d370dff99e2d error=5 type=2 offset=652839346176 size=24576 flags=40080c80
May 22 22:22:44 truenas kernel: sd 1:0:0:0: [sdb] tag#10 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
May 22 22:22:44 truenas kernel: sd 1:0:0:0: [sdb] tag#10 Sense Key : Illegal Request [current]
May 22 22:22:44 truenas kernel: sd 1:0:0:0: [sdb] tag#10 Add. Sense: Unaligned write command
May 22 22:22:44 truenas kernel: sd 1:0:0:0: [sdb] tag#10 CDB: Write(10) 2a 00 46 40 22 90 00 00 98 00
May 22 22:22:44 truenas kernel: zio pool=Volume vdev=/dev/disk/by-partuuid/5ca4674a-2f2f-4d49-91ae-d370dff99e2d error=5 type=2 offset=601299886080 size=77824 flags=40080c80
May 22 22:22:44 truenas kernel: ata2: EH complete
May 22 22:22:44 truenas kernel: ata2.00: Enabling discard_zeroes_data
May 22 22:22:44 truenas kernel: ata2: hard resetting link
May 22 22:22:45 truenas kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
May 22 22:22:45 truenas kernel: ata2.00: supports DRM functions and may not be fully accessible
May 22 22:22:45 truenas kernel: ata2.00: supports DRM functions and may not be fully accessible
May 22 22:22:45 truenas kernel: ata2.00: configured for UDMA/133
May 22 22:22:45 truenas kernel: sd 1:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
May 22 22:22:45 truenas kernel: sd 1:0:0:0: [sdb] tag#0 Sense Key : Illegal Request [current]
May 22 22:22:45 truenas kernel: sd 1:0:0:0: [sdb] tag#0 Add. Sense: Unaligned write command
May 22 22:22:45 truenas kernel: sd 1:0:0:0: [sdb] tag#0 CDB: Write(10) 2a 00 26 40 22 d0 00 00 40 00
May 22 22:22:45 truenas kernel: zio pool=Volume vdev=/dev/disk/by-partuuid/5ca4674a-2f2f-4d49-91ae-d370dff99e2d error=5 type=2 offset=326422011904 size=32768 flags=40080c80
May 22 22:22:45 truenas kernel: sd 1:0:0:0: [sdb] tag#30 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
May 22 22:22:45 truenas kernel: sd 1:0:0:0: [sdb] tag#30 Sense Key : Illegal Request [current]
May 22 22:22:45 truenas kernel: sd 1:0:0:0: [sdb] tag#30 Add. Sense: Unaligned write command
May 22 22:22:45 truenas kernel: sd 1:0:0:0: [sdb] tag#30 CDB: Write(10) 2a 00 4e 40 21 68 00 00 30 00
May 22 22:22:45 truenas kernel: zio pool=Volume vdev=/dev/disk/by-partuuid/5ca4674a-2f2f-4d49-91ae-d370dff99e2d error=5 type=2 offset=670019211264 size=24576 flags=40080c80
May 22 22:22:45 truenas kernel: ata2: EH complete
May 22 22:22:45 truenas kernel: ata2.00: Enabling discard_zeroes_data
May 22 22:22:47 truenas kernel: md: md127: resync done.
Ich habe dazu dieses Github Problem gefunden: https://github.com/openzfs/zfs/issues/10094
Da melden jedoch alle unterschiedliche Lösungen. Also scheint das Problem aus ganz unterschiedlichen Gründen aufzutreten. Manche sagen aber auch, dass es bei bestimmten Drives passiert. Ist bei mir ja nicht der Fall, es ist nur der Mainboard Port.

Also kann es wirklich sein, dass ich tatsächlich auf ein ungelöstes IT problem gestoßen bin, wodurch dieser spezielle Port oder die Firmware dahinter nicht mit meinem System kompatibel ist? :( Ich habe mich so auf den Mini-PC gefreut... das kann doch nicht sein.

Ich möchte es gerne auf Windows testen. Doch ich habe keine Ahnung wie genau ich den Fehler auf Windows provozieren könnte. Soll ich einfach nur die SSD mit Daten beschreiben? Oder gibt es bestimmte Tools für sowas? Kann ja sein, dass der Fehler nur bei bestimmten Write Vorgängen auftritt oder so, habe halt keine Ahnung... dann muss ich ja halt auch genau diesen Write Vorgang bei Windows durchführen. Aber wie?

I'm unknown schrieb:
Es ist Scale, also Debian :p
Novocain schrieb:
aus Spaß mal zwei komplett andere SSDs im Tandem ausprobieren
Habe gerade zwei HDDs dran, weil ich keine anderen SSDs habe. Allerdings sind die unterschiedlich groß und iwie will TrueNAS nun auch nicht starten. Muss ich jetzt mal genauer schauen.
Novocain schrieb:
Haben die bei Github auch geschrieben, werde ich mal machen!
 
looperna schrieb:
Also kann es wirklich sein, dass ich tatsächlich auf ein ungelöstes IT problem gestoßen bin, wodurch dieser spezielle Port oder die Firmware dahinter nicht mit meinem System kompatibel ist?
Da es der Hersteller anscheinend kennt vermutlich auch ohne Patch in Aussicht - falls es nicht sogar ein Problem mit der HW selbst ist (falsches Schaltungsdesign - aber dann dürfte es unter Windows auch nicht funktionieren).
looperna schrieb:
Ich habe mich so auf den Mini-PC gefreut... das kann doch nicht sein.
Wobei ich dir dabei anraten würde auf was anderes umzusteigen sollte es unter Windows funktionieren und kein Patch in Aussicht ist sonst wirst du mit dem Teil eher nicht glücklich.
looperna schrieb:
Es ist Scale, also Debian :p
Dann halt ein Patch für das Treibermodul im Linux Kernel :D.
 
  • Gefällt mir
Reaktionen: looperna
Hast Du denn noch einen Rat für mich, wie ich das auf Windows testen kann? Gibt es ein Tool, welches sämltliche Schreibvorgänge einmal durchgeht?

Habe nun übrigens auch mal 2x SanDisk SSDs bestellt. Werde die die Tage auch mal testen.
Ergänzung ()

Übrigens habe ich nun mal eine HDD eingebaut, ganz anderer Hersteller, kommt nun der gleiche Fehler. Also Write Error.

Es macht für mich aber weiterhin keinen Sinn, dass die eine Schnittstelle geht und die andere nicht. Wenn es doch ein Firmware Problem oder sowas ist, dann müssten doch beide nicht gehen! Kann sich das irgendwer erklären?! :heul:
 
Zuletzt bearbeitet:
Ja, ich habe tatsächlich das gleiche Problem! Bei mir läuft ebenfalls PVE 7.3 auf einem HM80. An der zweiten SATAY-Schnittstelle betreibe ich eine SSD, die an eine VM mit Openmediavault durchgereicht wird. Lesen ist kein Problem! Allerdings befindet sich auf der Platte ein Verzeichnis, in das ich PVE-VM-Backups speichere. Ich habe beobachtet, dass die ersten Blöcke meistens relativ zügig gespeichert werden, allerdings nach einiger Zeit die SSD in die Knie geht. Der Schreibfehler wird auf dem Anmeldebildschirm von Pop Smoke ausgegeben. Da ich den Rechner an meinem Monitor angeschlossen habe, sehe ich genau diese Fehlermeldungen, wenn der Monitor auf den Server umgeschaltet. Nun frage ich mich ehrlich, was man da tun kann. Gibt es im BIOS vielleicht eine Möglichkeit, etwas zu verändern? Ich habe da nichts gefunden! Einige von denen an anderer Stelle gefundenen Hinweisen habe ich auch schon ausprobiert. Leider tritt das Problem immer noch auf. Siehe Anhang!
 

Anhänge

  • FC099970-8B5A-4C4C-916C-3B3798F30624.jpeg
    FC099970-8B5A-4C4C-916C-3B3798F30624.jpeg
    2,7 MB · Aufrufe: 169
Hi,
Der Thread ist zwar schon älter, aber vielleicht liest ja noch jemand mit.

Da mir mein ZFS Cluster auf dem HM80 auch immer wieder als DEGRADED angezeigt wurde, hatte ich schon mehrere SSDs im Gehäuse, hat nichts gebracht. Ich hatte allerdings mit Minisforum Kontakt, hier ein neuer Ansatz:

Hi ,
Thanks for contacting Minisforum Support .
This is an issue with linux kernel power management and AMD. Please use the following methods to fix it.
Modify the following path files to test whether it is normal:
/sys/class/scsi_host/host1/link_power_management_policy
- and change the configuration to :
max_performance

Vielleicht hilft es ja. Host1 ist auch der fehlerhafte bei mir. Ich habe nur an dem controller "max_performance" gesetzt.
 
  • Gefällt mir
Reaktionen: Axel-J
Zurück
Oben