Volume 1 schreibgeschützt Synology RS3618xs

Sithys

Captain
Registriert
Dez. 2010
Beiträge
3.464
Moin zusammen,
nach einer quasi schlaflosen Nacht fasse ich kurz zusammen: Wir haben/hatten ein RS3618xs mit 6x 10Tb im RAID6, einem SSD-Cache mit zwei SATA SSDs. Auf dem NAS lief alles mögliche, DNS, Active Directory, diverse Platten für etliche Proxmox-VMs, UserProfile Ordner für den Terminalserver etc. Gestern morgen 7Uhr bimmelt das Handy "Ich kann mich auf dem Terminalserver nicht einloggen". Während ich dann im Kopf schon wieder das Standardprozedere abspiele (Passwort zurücksetzen, per Remote aufschalten weil die Leute den Login-Knopf nicht finden etc.) krieg ich 'ne WhatsApp von einem externen Mitarbeiter "VPN geht nicht". Die Meldungen haben sich dann gehäuft, also hab ich mich auf dem NAS eingeloggt und werde oben rechts mit so einem kleinen PopUp ganz freundlich begrüßt "Volume 1 schreibgeschützt". Da war mir dann schon klar, dass das wohl ein größeres Problem sein wird, schließlich gibts dazu ja schon die ein oder andere Horror-Geschichte im Netz.

Wir haben dann als erstes mal 'ne Bestandsaufnahme gemacht, welche Systeme inwieweit betroffen sind und dann ein Ticket bei Synology eröffnet. Anschließend bin ich 300km Auto gefahren um 4x 10Tb Platten zu organisieren, damit wir ein neues Volume erstellen können, auf welches wir dann die Daten von dem schreibgeschützten kopieren, wie im Support-Dokument vorgegeben. (https://kb.synology.com/en-my/DSM/tutorial/What_to_do_when_volume_is_read_only). Haben dann die Platten entsprechend eingebunden im NAS, was darin resultierte, dass das ganze NAS nicht mehr reagiert hat, auch nach Stunden nicht. Im Netz wurde von einem Neustart abgeraten, allerdings gab es ja nun keine Alternative, nachdem wir weder per GUI noch per SSH irgendwelche Möglichkeiten mehr hatten.

Nach dem Neustart war das Volume dann weg, die Support-Nachricht hatte sich auch geändert, da stand jetzt "Volume 1 ist abnormal. Um Ihre Daten zu Retten, melden Sie sich bei Ihrem Synology-Konto an und erstellen Sie eine technische Supportanfrage".

Synology hatte zwischenzeitlich auf das Ticket geantwortet, wir sollen einen Support-User anlegen, damit die von Extern drauf zugreifen können etc. leider ist die Oberfläche aber wieder abgeschmiert, wir haben dann noch mal neu gestartet, keine Reaktion mehr. Nach knapp 35 Minuten kam das Webinterface dann doch wieder online, wir haben den User für Synology erstellt. Wenn die sich das angeschaut haben und wir wieder Zugriff auf Volume 1 bekommen, gehts los... Daten verschieben dann jede Platte durchtesten, RAM testen etc. und hoffen, dass irgendwo ein Fehler auftaucht.

Aktuell warten wir drauf, dass Synology sich des Problems annimmt. Es scheint nur Synology mit DSM >= 7.0 (wir haben 7.2) betroffen zu sein. Mir aber insgesamt ein Rätsel, wie eine Kiste von einem auf den anderen Tag plötzlich alle Daten verliert, wenn das denn doch die Hauptaufgabe des Systems ist aber gut, höhere Magie :).

Wir haben natürlich 'n OffSite-Backup, einmal an einen zweiten Standort, 'ne 100% Kopie und nochmal die Wichtigsten zu Hetzner in die Cloud. Der Ausfall dauert aber natürlich, ich kann hier ja schließlich nicht mal eben 'n USB-Stick irgendwo reinstecken und dann sagen "in 2 Stunden ist alles wieder online".

So far... vielleicht hat ja noch jemand den passenden SSH Befehl um einfach alles wieder zum Laufen zu kriegen. Der Alternativvorschlag aus dem Netz war: Downgrade auf 6.2 :D !
 
Meine Empfehlung wäre:

  • wechsel von "Hobby Equiment" (Synology) zu Enterprise ECM (Dell, HP)
  • grundsätzlich stimmt Dein IT Konzept nicht, wenn eine Komponete ausfällt alles crashed

Daran solltet ihr arbeiten, nachdem das Problem gelöst wurde, damit es nicht wieder passiert.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Sithys
Ich kann trotzdem nur mit dem Arbeiten, was eben bezahlt wird. Keine Frage: Nach der Aktion geht der Geldbeutel weiter auf, aber du weißt doch sicherlich auch, wie das ist, wenn du mit der Geschäftsführung argumentieren musst etc.
Der Laden hat ungefähr 15-20 Mitarbeiter, ich denke, dass was wir da im Rahmen der finanziellen Möglichkeiten aufgebaut haben, ist durchaus in Ordnung und vertretbar - keine Frage: Besser (und evtl. teurer) geht immer! :)
 
  • Gefällt mir
Reaktionen: tRITON
Wer kennt es nicht ... Speicherplatz? "Ja warum gehen Sie denn nicht in den nächsten Elektromarkt und kaufen eine Festplatte?" ...

Ich rechne hier oft vor (mal deine Zahlen als Beispiel)

20 x 40.000€ Gehalt pro Jahr = 800.000€ Lohn kosten. Im Jahr gibt es ca. 250 Arbeitstage. 800.000€/250Tage = 3200€/Tag Also rund 3200€ pro Tag an welchem nicht gearbeitet wird, nur an Lohnkosten. Dazu kommt noch das nicht produziert, gearbeitet werden kann. Dazu gibt es auch Zahlen. Dann rechnest du noch die Wiederherstellungszeit (Kosten) dazu und hast eine Summe X, Wenn dann die Anschaffung unter dieser Summe liegt wurde meiner Meinung nach falsch investiert (zu wenig), da ein Ausfall deutlich teurer wird, als die Beschaffung, um diesen zu verhindern.

Meist lernen die Leiter der Firmen aus solchen Zwischenfällen, daher ist es gut sich auch Gedanken um ein besseres Konzept zu machen.

Redet auch mal über eine entsprechende SLA (Service Level Agreement), wie lange Ausfallszeiten sein dürfen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Sithys
Man sollte aber trotzdem nicht vergessen, dass eine Synology RS3618xs kein Hobby Equipment ist, sondern eben Enterprise Equipment. Ändert aber nichts daran, dass man ein Ausfalls und Backupszenario braucht.
Auch HP, Dell, Fujitsu können ausfallen. Hatte bei HP schon inkonsistenten Datenmüll der von einem Tag auf den anderen plötzlich die Daten zugemüllt hat. Backplane defekt... Backplane ersetzt, Backup rückgespielt. 36h Ausfallszeit, zum Glück ein kleines Unternehmen und übers Wochenende.
Dann braucht man guten Support und ja da sind die "klassischen" Enterprisepartner besser.
Noch viel besser wäre einen Systempartner in der Hinterhand zu haben, der einen im Notfall, zwar für teures Geld, aus der Patsche hilft.

Es ist technisch ganz einfach, aber wenns ums Geld geht, dann wirds kompliziert.
Simple Lösung: No single Point of Failure -> Ja aber das kostet. Ach und wir brauchen ein Backupszenario um zumindest nen Basisbetrieb fahren zu können. WAAAAAASSSS das kostet ja noch mehr.

Ja Chef und was kostet es sie wenn alle Daten weg sind oder was kostet 1 Tag Totalausfall. Nicht nur Geld, auch ansehen, Termintreue usw.

Zum Thema: Tut mir leid aber nen magischen SSH Befehl kenn ich nicht, ich kenne nur leider genau diese Probleme auch zur genüge.
 
  • Gefällt mir
Reaktionen: Mu Wupp und Sithys
Sithys schrieb:
Der Alternativvorschlag aus dem Netz war: Downgrade auf 6.2 :D !
Das geht entweder nur per Werksreset (Daten vorher sichern) oder nur inoffiziell und dann nur mit SSH. Unter Umständen kann es hinterher Fehlermeldungen im Webui geben (ich hatte z.B. eine wegen SMB, weil bei 7.x als App, bei 6.x Nativ und die App war noch da und ließ sich nicht Downgraden. Konnte ich aber mit Leben, weil Notlösung bis die Probleme mit 7.x Update Y behoben waren, dass man wieder upgraden konnte). Also fürn Produktiven Einsatz sollte dann nur die offizielle Methode mittels Werksreset durchgeführt werden.

Das Read-Only Problem habe ich zum Glück noch nicht gehabt (weder zu Hause noch auf der Arbeit).
 
  • Gefällt mir
Reaktionen: Sithys
BrollyLSSJ schrieb:
Das Read-Only Problem habe ich zum Glück noch nicht gehabt (weder zu Hause noch auf der Arbeit).
Wünscht man auch keinem... größter Müll, kann man nicht gebrauchen. Ich verstehe ja auch nicht, wie das einfach auftreten kann. Dateisystem kaputt... wahrscheinlich waren es geflippte Bits, wird der nächste Serverraum also doch als Blei-Bunker gebaut, damit keine kosmische Strahlung mehr eindringen kann :D . Naja der Synology-RAM ist ja ECC... keine Ahnung, ich bin ratlos. Am Ende wundere ich mich nur über die gehäufte Anzahl an Topics dazu im Netz seit DSM 7, vor allem das Support-Dokument sagt ja auch, betrifft DSM ab 7.0... vielleicht doch 'n Bug in dem Btrfs? Ich weiß es nicht.

Der Synology-Support ist per SSH mit der Kiste verbunden und versucht da was zu regeln... wir sehen ja aktuell, was die da machen. Am Ende das gleiche wie wir auch die halbe Nacht: Die versuchen das Volume 1 zu mounten und wundern sich, warum das nicht geht. Mount-Befehl gefolgt von top, logs gucken etc. so haben wirs auch gemacht. Ich vermute einfach mal das ist aktuell First Level Support, eventuell moven die das dann noch 'ne Kategorie nach oben?! Oder die schließen das Ticket gleich einfach, wegen unsupported hard drives oder sowas keine Ahnung, ich lass mich überraschen.

Das Problem ist, dass der Mount-Befehl freezed, da hat bei uns dann nur 'n Reboot geholfen. Der Herr oder die Dame vom Support guckt jetzt seit 'ner Stunde in top rein und hofft, dass was passiert :)

/Edit: Okay, sie haben auf das Ticket geantwortet. Sie können Volume 1 nicht mounten wegen Dateisystemfehlern, aber sie wollen versuchen, irgendwie einzuhängen damit wir an die Daten kommen - wie auch immer: Sie kommen aktuell nicht weiter, wir sollen das NAS hart neu starten und dann Info geben.
 
Sithys schrieb:
vielleicht doch 'n Bug in dem Btrfs?
Könnte sein. Ich habe noch gutes, altes EXT4 und nur (mehrere) RAID1 (zu Hause) oder RAID5 (Arbeit).
 
  • Gefällt mir
Reaktionen: Sithys und flo36
Feierabend in Taiwan, keine Rückmeldung mehr... denke morgen gehts weiter.
 
Sithys schrieb:
Feierabend in Taiwan...

Naja, Taipeh bzw. Taiwan liegt in den Zeitzonen 6 Stunden vor uns. Also rund 23:24 Uhr. Uns spät in der Nacht wird nur bei entsprechend teuren 7x24h Verträgen gearbeitet. Weiß nicht ob ihr so etwas habt.
 
xone92 schrieb:
Weiß nicht ob ihr so etwas habt.
Bietet Synology sowas an? Ich wüsste gar nicht, wo man das erwerben kann für das NAS?! Hätte ich ja sonst sofort für gelöhnt :).

Auf der Seite steht:

Support: +1 425 296 3177
Erreichbar: 24/7, auch an Feiertagen
 
Moin moin,
ich habe einen weiteren Kunden mit einem ähnlichen Problem -> Gleichzeitiger Ausfall beider SSDs vom Cache. Da kam mir in den Sinn, dass ich hier ja irgendwann mal einen Beitrag erstellt habe und wollte mich final noch mal zurückmelden.

Wir haben irgendwann nach meiner letzten Nachricht tatsächlich das NAS durchgestartet. Danach ging dann gar nichts mehr, der Speicherpool wurde nicht mal mehr "geladen", wir konnten auf keinerlei Daten mehr zugreifen. Wie das immer so ist in solchen Fällen, gab es zusätzlich dazu auch noch Probleme mit dem Backup und das auch noch an beiden Standorten. Wir hatten also Daten von vor 14 Tagen (die fehlenden 14 Tage Backup bezogen sich zum Glück nur auf unkritische Dinge, die hochkritischen Sachen hatten wir alle < 24Std.) und konnten auf die aktuellen Daten nicht mehr zugreifen (der "7er" im Lotto, quasi unmöglich). Entsprechend viel Aufwand haben wir investiert, um noch irgendwas zu retten.

Wenn man versucht hat, den Speicherpool zu mounten, ist die ganze Kiste abgestürzt. Wir haben das diverse Male probiert, immer ohne Erfolg. Am Ende musste das NAS nach jedem Mount neu gestartet werden. Nachdem wir also stundenlang recherchiert und probiert haben, kristallisierte sich ein Problem mit dem BTRFS-Dateisystem heraus. Wir haben dann recherchiert und auch einiges an Input dazu gefunden:

https://www.reddit.com/r/btrfs/comments/jnu26l/corrupted_synology_btrfs_storage/

https://www.reddit.com/r/btrfs/comments/kntg3e/synologys_volume_recovery_failed/

https://www.linuxquestions.org/ques...%93couldn%27t-open-file-system%94-4175529628/

https://xpenology.com/forum/topic/24911-last-chance-repair-a-crashed-btrfs-volume/

https://manpages.ubuntu.com/manpages/bionic/man8/btrfs-rescue.8.html

https://kb.synology.com/en-my/DSM/tutorial/What_to_do_when_volume_is_read_only

Während sich eine Person nun also mit dem Thema Backups beschäftigt hat, hat eine andere Person sich per IRC (gibt es tatsächlich noch) mit den Spezialisten aus dem BTRFS-Bereich unterhalten. Im IRC war geballte Fachkompetenz vorhanden, von BTRFS-Entwicklern über eingefleischte Linux-Entwickler, da war von allem was dabei und alle waren sehr hilfsbereit. Wenn ich das noch richtig zusammenbekomme war das Problem, dass unser BTRFS-Device-Tree nicht mehr lesbar bzw. nicht mehr vorhanden war. Wir haben in Absprache mit den Leuten aus dem IRC diverse Versuche unternommen, das wieder hinzubekommen, allerdings nutzt Synology eine eigene Implementierung von BTRFS, was im IRC schon zu Beginn mit sowas wie "Ah, you are using synology with btrfs, so then say goodbye to your data" abgetan wurde. Am Ende sollten die User da aber Recht behalten, wir haben einige Stunden mit deren Hilfe versucht das zu fixen, ohne Erfolg. Uns wurde außerdem geraten, das Problem der linux-btrfs Mailing-Liste zu schreiben, um sowohl Hilfe als auch Feedback zu bekommen, was wir aber letzten Endes nicht getan haben.

Bildschirmfoto 2024-05-29 um 10.24.35.png


Irgendwann um 4Uhr morgens waren wir dann an dem Punkt das wir gesagt haben, es ist nichts mehr zu machen, die vorhandenen Daten schreiben wir ab. Nun ging es also darum, das Backup von vor 14 Tagen wiederherzustellen. Da grundsätzlich schon mal die Überlegung anstand, bei dem Kunden ein High-Availability-Cluster einzurichten, haben wir an der Stelle dann ein neues RS3618xs+ bestellt, welches wir dann mit den Backups bestücken wollten. Anschließend sollte das alte RS3816xs+ formatiert und dann ein HA-Cluster eingerichtet werden. Das neue NAS kam also und wurde mit Platten bestückt. Dann haben wir das OffSite-Backup-1 ins Büro geholt, die beiden miteinander verbunden und dann 3 Tage alles was da war rückgesichert. Zuerst die kritischen Sachen (Terminalserver, Rechnungswesen etc.) und dann den Rest (sonstige VMs usw.)

Insgesamt war das schon eine interessante Erfahrung, die ich aber kein zweites mal haben möchte. Was sich aus einem einfachen "Ich kann mich mit dem Terminalserver nicht verbinden"-Ticket wird, habe ich so auch noch nicht erlebt.
Ich/Wir sind grundsätzlich davon weg, SSD-Cache bei irgendwelchen Kunden zu verwenden - zumindest nicht mehr im Bereich wirklich kritischer Daten. Wie wir so rausgelesen haben, scheint es da ein grundsätzliches Thema mit DSM 7 zu geben, da sind wir aber nicht mehr tiefer eingestiegen und mit dem Synology-Support habe ich das auch alles nicht besprochen.

Ich habe also im Nachgang bei einigen Kunden den SSD-Cache deaktiviert und siehe da, heute morgen bekomme ich eine E-Mail, beide SSDs ausgefallen, erwartete Lebensdauer 1%... Prost Mahlzeit, aber zum Glück nicht weiter tragisch. Die Platten werden ausgebaut und das wars dann auch.

Wie dem auch sei... ich wollte das einfach noch mal ein bisschen zusammenfassen. Am Ende ist niemandem geholfen, wenn Beiträge in einem Forum im Internet immer dann aufhören, wenn jemand sein Problem gelöst hat. So kann vielleicht irgendwann irgendwer noch mal auf das Thema hier stoßen und sich einiges an Zeit und Kopfschmerzen sparen.

So far :)
 
  • Gefällt mir
Reaktionen: maxblank und Findus

Ähnliche Themen

Zurück
Oben