Samsung-SSDs: Algolias „TRIM-Bug“ bisher nicht reproduzierbar
Fast einen Monat ist es her, dass die Firma Algolia über Datenverlust bei Servern berichtete, die mit Samsung-SSDs bestückt waren. Bei der gemeinsamen Fehlersuche mit Samsung-Technikern vor Ort konnte das Problem, das auf eine fehlerhafte Ausführung des TRIM-Befehls fußen soll, aber bisher angeblich nicht reproduziert werden.
Adam Surak von Algolia hatte im Firmenblog mit dem Beitrag „When Solid State Drives are not that solid“ Mitte Juni für Aufregung gesorgt. Bei einigen Systemen des Unternehmens war es nach eigenen Angaben zu Ausfällen aufgrund von Datenverlust gekommen. Betroffen seien ausschließlich Systeme gewesen, die mit SSDs von Samsung bestückt waren – andere Rechner mit Intel-SSDs seien verschont geblieben. Eine fehlerhafte Interpretation des TRIM-Befehls wurde vermutet. Statt nur Datenblöcke zu bereinigen, die nicht mehr benötigte Daten enthielten, soll TRIM in den beschriebenen Fällen auch kritische Systemdateien auf den SSDs gelöscht haben, was entsprechend Abstürze zur Folge hatte.
Für den 22. Juni kündigte Algolia gemeinsame Untersuchungen mit Samsung-Ingenieuren an, die zu diesem Zweck einen der in Singapur stehenden Server untersuchen sollten. Seitdem herrschte Funkstille zu dem Thema – bis heute. Per Update des Blogbeitrags informiert Surak zunächst, dass man mit Samsung vereinbart habe, nicht ohne vorherige Einwilligung des Herstellers weiter zu berichten, weshalb es bis heute still blieb im Blog.
Die nun veröffentlichten Erkenntnisse sind jedoch wenig aufschlussreich. Am Serverstandort habe man den Fehler nicht reproduzieren können. Jetzt versuche Samsung im heimischen Korea das Problem nachzustellen, wobei aber nicht die gleichen Bedingungen vorherrschen. Samsung habe Algolia mehrfach um Zugriff auf deren Software gebeten, um für gleiche Bedingungen zu sorgen, doch aus Datenschutzgründen verweigerte die Firma dies.
Ab dieser Woche soll es weitere Versuche seitens Samsung geben, den Fehler zu reproduzieren. Ein neues Script soll dabei helfen. Mit dem ersten Script von Algolia waren angeblich keine Fehler aufgetreten.
Unterdessen ist Algolia ebenfalls von dem Problem befreit: Der Server-Anbieter habe die Ubuntu-Installationen derart angepasst, dass der TRIM-Befehl nicht mehr von fstrim als Cronjob ausgeführt wird. Ohne TRIM habe es seit Monaten keine Probleme mehr gegeben. Algolia sucht unterdessen Hilfe in der Netzgemeinde für die weitere Ursachenforschung.
Wie in der Vorberichterstattung von ComputerBase zu dem Thema ausgeführt, ist TRIM oder vielmehr Queued TRIM bekannter Maßen problematisch in Verbindung bestimmter SSD-Modelle von Crucial und Samsung unter Linux. Für den Großteil der betroffenen Crucial-Modelle gab es längst ein Firmware-Update. Die M500 ist aber laut Hersteller immer noch vom „QUEUED TRIM data-killer bug“ betroffen.