Sithys
Captain
- Registriert
- Dez. 2010
- Beiträge
- 3.464
Moin zusammen,
nach einer quasi schlaflosen Nacht fasse ich kurz zusammen: Wir haben/hatten ein RS3618xs mit 6x 10Tb im RAID6, einem SSD-Cache mit zwei SATA SSDs. Auf dem NAS lief alles mögliche, DNS, Active Directory, diverse Platten für etliche Proxmox-VMs, UserProfile Ordner für den Terminalserver etc. Gestern morgen 7Uhr bimmelt das Handy "Ich kann mich auf dem Terminalserver nicht einloggen". Während ich dann im Kopf schon wieder das Standardprozedere abspiele (Passwort zurücksetzen, per Remote aufschalten weil die Leute den Login-Knopf nicht finden etc.) krieg ich 'ne WhatsApp von einem externen Mitarbeiter "VPN geht nicht". Die Meldungen haben sich dann gehäuft, also hab ich mich auf dem NAS eingeloggt und werde oben rechts mit so einem kleinen PopUp ganz freundlich begrüßt "Volume 1 schreibgeschützt". Da war mir dann schon klar, dass das wohl ein größeres Problem sein wird, schließlich gibts dazu ja schon die ein oder andere Horror-Geschichte im Netz.
Wir haben dann als erstes mal 'ne Bestandsaufnahme gemacht, welche Systeme inwieweit betroffen sind und dann ein Ticket bei Synology eröffnet. Anschließend bin ich 300km Auto gefahren um 4x 10Tb Platten zu organisieren, damit wir ein neues Volume erstellen können, auf welches wir dann die Daten von dem schreibgeschützten kopieren, wie im Support-Dokument vorgegeben. (https://kb.synology.com/en-my/DSM/tutorial/What_to_do_when_volume_is_read_only). Haben dann die Platten entsprechend eingebunden im NAS, was darin resultierte, dass das ganze NAS nicht mehr reagiert hat, auch nach Stunden nicht. Im Netz wurde von einem Neustart abgeraten, allerdings gab es ja nun keine Alternative, nachdem wir weder per GUI noch per SSH irgendwelche Möglichkeiten mehr hatten.
Nach dem Neustart war das Volume dann weg, die Support-Nachricht hatte sich auch geändert, da stand jetzt "Volume 1 ist abnormal. Um Ihre Daten zu Retten, melden Sie sich bei Ihrem Synology-Konto an und erstellen Sie eine technische Supportanfrage".
Synology hatte zwischenzeitlich auf das Ticket geantwortet, wir sollen einen Support-User anlegen, damit die von Extern drauf zugreifen können etc. leider ist die Oberfläche aber wieder abgeschmiert, wir haben dann noch mal neu gestartet, keine Reaktion mehr. Nach knapp 35 Minuten kam das Webinterface dann doch wieder online, wir haben den User für Synology erstellt. Wenn die sich das angeschaut haben und wir wieder Zugriff auf Volume 1 bekommen, gehts los... Daten verschieben dann jede Platte durchtesten, RAM testen etc. und hoffen, dass irgendwo ein Fehler auftaucht.
Aktuell warten wir drauf, dass Synology sich des Problems annimmt. Es scheint nur Synology mit DSM >= 7.0 (wir haben 7.2) betroffen zu sein. Mir aber insgesamt ein Rätsel, wie eine Kiste von einem auf den anderen Tag plötzlich alle Daten verliert, wenn das denn doch die Hauptaufgabe des Systems ist aber gut, höhere Magie .
Wir haben natürlich 'n OffSite-Backup, einmal an einen zweiten Standort, 'ne 100% Kopie und nochmal die Wichtigsten zu Hetzner in die Cloud. Der Ausfall dauert aber natürlich, ich kann hier ja schließlich nicht mal eben 'n USB-Stick irgendwo reinstecken und dann sagen "in 2 Stunden ist alles wieder online".
So far... vielleicht hat ja noch jemand den passenden SSH Befehl um einfach alles wieder zum Laufen zu kriegen. Der Alternativvorschlag aus dem Netz war: Downgrade auf 6.2 !
nach einer quasi schlaflosen Nacht fasse ich kurz zusammen: Wir haben/hatten ein RS3618xs mit 6x 10Tb im RAID6, einem SSD-Cache mit zwei SATA SSDs. Auf dem NAS lief alles mögliche, DNS, Active Directory, diverse Platten für etliche Proxmox-VMs, UserProfile Ordner für den Terminalserver etc. Gestern morgen 7Uhr bimmelt das Handy "Ich kann mich auf dem Terminalserver nicht einloggen". Während ich dann im Kopf schon wieder das Standardprozedere abspiele (Passwort zurücksetzen, per Remote aufschalten weil die Leute den Login-Knopf nicht finden etc.) krieg ich 'ne WhatsApp von einem externen Mitarbeiter "VPN geht nicht". Die Meldungen haben sich dann gehäuft, also hab ich mich auf dem NAS eingeloggt und werde oben rechts mit so einem kleinen PopUp ganz freundlich begrüßt "Volume 1 schreibgeschützt". Da war mir dann schon klar, dass das wohl ein größeres Problem sein wird, schließlich gibts dazu ja schon die ein oder andere Horror-Geschichte im Netz.
Wir haben dann als erstes mal 'ne Bestandsaufnahme gemacht, welche Systeme inwieweit betroffen sind und dann ein Ticket bei Synology eröffnet. Anschließend bin ich 300km Auto gefahren um 4x 10Tb Platten zu organisieren, damit wir ein neues Volume erstellen können, auf welches wir dann die Daten von dem schreibgeschützten kopieren, wie im Support-Dokument vorgegeben. (https://kb.synology.com/en-my/DSM/tutorial/What_to_do_when_volume_is_read_only). Haben dann die Platten entsprechend eingebunden im NAS, was darin resultierte, dass das ganze NAS nicht mehr reagiert hat, auch nach Stunden nicht. Im Netz wurde von einem Neustart abgeraten, allerdings gab es ja nun keine Alternative, nachdem wir weder per GUI noch per SSH irgendwelche Möglichkeiten mehr hatten.
Nach dem Neustart war das Volume dann weg, die Support-Nachricht hatte sich auch geändert, da stand jetzt "Volume 1 ist abnormal. Um Ihre Daten zu Retten, melden Sie sich bei Ihrem Synology-Konto an und erstellen Sie eine technische Supportanfrage".
Synology hatte zwischenzeitlich auf das Ticket geantwortet, wir sollen einen Support-User anlegen, damit die von Extern drauf zugreifen können etc. leider ist die Oberfläche aber wieder abgeschmiert, wir haben dann noch mal neu gestartet, keine Reaktion mehr. Nach knapp 35 Minuten kam das Webinterface dann doch wieder online, wir haben den User für Synology erstellt. Wenn die sich das angeschaut haben und wir wieder Zugriff auf Volume 1 bekommen, gehts los... Daten verschieben dann jede Platte durchtesten, RAM testen etc. und hoffen, dass irgendwo ein Fehler auftaucht.
Aktuell warten wir drauf, dass Synology sich des Problems annimmt. Es scheint nur Synology mit DSM >= 7.0 (wir haben 7.2) betroffen zu sein. Mir aber insgesamt ein Rätsel, wie eine Kiste von einem auf den anderen Tag plötzlich alle Daten verliert, wenn das denn doch die Hauptaufgabe des Systems ist aber gut, höhere Magie .
Wir haben natürlich 'n OffSite-Backup, einmal an einen zweiten Standort, 'ne 100% Kopie und nochmal die Wichtigsten zu Hetzner in die Cloud. Der Ausfall dauert aber natürlich, ich kann hier ja schließlich nicht mal eben 'n USB-Stick irgendwo reinstecken und dann sagen "in 2 Stunden ist alles wieder online".
So far... vielleicht hat ja noch jemand den passenden SSH Befehl um einfach alles wieder zum Laufen zu kriegen. Der Alternativvorschlag aus dem Netz war: Downgrade auf 6.2 !