Downtime storage1.datalix.de Saturday 4th January 2025 23:09:00


DE:

storage1.datalix.de hatte eine Downtime wegen einer Mainboard Failure. Die VMs auf dem Server wurden bereits auf andere Nodes migriert und laufen. Der Storage selber ist aktuell noch nicht wiederhergestellt.

Aktuell ist es daher nicht möglich, Backups im TornadoDC zu erstellen oder wiederherzustellen. Wir bitten, das zu entschuldigen. Da es sich leider um ein Hardware-RAID handelt, kann es sich um einige Tage handeln, bis wir die richtige Ersatzhardware für das ältere System beschaffen können. Ebenso können wir aktuell nicht ausschließen, dass der Raidcontroller ggf. korrupte Daten auf die Disks geschrieben hat, was alle oder die meisten Backups korrumpiert haben könnte.

EN:

storage1.datalix.de had a downtime due to a mainboard failure. The VMs on the server have already been migrated to other nodes and are running. The storage itself has not yet been restored.

It is therefore currently not possible to create or restore backups in TornadoDC. We apologise for this. As this is unfortunately a hardware RAID, it may be a few days before we can obtain the correct replacement hardware for the older system. We also cannot currently rule out the possibility that the raid controller may have written corrupt data to the discs, which could have corrupted all or most of the backups.

DE:

Leider müssen wir mitteilen, dass nach allen Bemühungen nur unsere Befürchtungen bestätigt wurden. Der Raidcontroller hat bereits längere Zeit korrupte Daten geschrieben und vor dem endgültigen Aus bedauerlicherweise noch einiges mehr. Das Herstellen der Daten hat in Teilen geklappt, da PBS mit einem Chunk System arbeitet, konnte keine relevante Menge an Daten hergestellt werden, um einzelne Backups zu restoren.

Ein externer PBS wurde nun temporär angemietet. Der Backupservice im TornadoDC steht damit seit ca 18 Uhr wieder zur verfügbar, es ist möglich, dass die Queue selber etwas überladen sein wird, da die initialen Backups immer etwas länger brauchen.

Da wir bei dem aktuellen Setup bereits Probleme mit der Performance hatten, haben wir nun neue Teile bestellt und werden einen Only NVMe Backup Server bauen. (Am Anfang mit 20TB Space, 40TB Raw) Wir gehen davon aus, dass dieser bis Mitte nächster Woche online ist.

EN:

Unfortunately, we have to inform you that after all our efforts, our worries have been confirmed. The raid controller had already been writing corrupt data for some time and, unfortunately, a lot more before the final failure. Restoring the data worked in parts, but as PBS works with a chunk system, no relevant amount of data could be restored in order to restore individual backups.

An external PBS has now been temporarily rented. The backup service in TornadoDC is available again since about 6 pm, it is possible that the queue itself will be a bit overloaded, as the initial backups always take a little longer.

Since we already had problems with the performance of the current setup, we have now ordered new parts and will build an Only NVMe Backup Server. (Initially with 20TB space, 40TB raw) We expect it to be online by the middle of next week.

The New server has now been deployed around 12 hours ago. The first file system check has been done, the second one has started now. Until it is finished, we are unable to give a precise answer on the state of the backups.