RAID1: Defekte Festplatte ersetzen

Übersicht

Dieser Abschnitt erklärt, wie man unter Linux einen Festplattenausfall in einem RAID1-Verbund simuliert, die Partitionstabelle kopiert, die neue Festplatte vorbereitet und wieder in das Array einfügt. Ziel ist, die Wiederherstellung ohne Datenverlust durchzuführen und den Bootloader auf beiden Datenträgern zu installieren.

Wichtige Begriffe in einem Satz:

RAID1: Spiegelung von zwei oder mehr Festplatten, jede enthält identische Daten.
mdadm: Das übliche Linux-Tool zur Verwaltung softwarebasierter RAID-Arrays.

Hinweis: Dieses Dokument geht davon aus, dass die Arrays /dev/md0, /dev/md1 und /dev/md2 existieren und aus den Partitionen /dev/sdX1, /dev/sdX2, /dev/sdX3 bestehen.

Test: Defekten Datenträger simulieren und ersetzen

Jetzt simulieren wir einen Festplattenausfall. Es ist unerheblich, ob Sie /dev/sda oder /dev/sdb wählen. Im Beispiel nehmen wir an, dass /dev/sdb ausgefallen ist.

Um den Ausfall zu simulieren, können Sie das System herunterfahren und /dev/sdb physisch entfernen oder die Platte „soft“ entfernen mit diesen Befehlen:

mdadm --manage /dev/md0 --fail /dev/sdb1
mdadm --manage /dev/md1 --fail /dev/sdb2
mdadm --manage /dev/md2 --fail /dev/sdb3

mdadm --manage /dev/md0 --remove /dev/sdb1
mdadm --manage /dev/md1 --remove /dev/sdb2
mdadm --manage /dev/md2 --remove /dev/sdb3

Fahren Sie das System herunter:

shutdown -h now

Dann bauen Sie eine neue /dev/sdb ein (wenn Sie stattdessen /dev/sda simuliert haben, ersetzen Sie /dev/sda durch die neue Platte und verbinden die Ersatzplatte als /dev/sdb) und starten das System neu. Es sollte weiterhin booten.

Nun prüfen Sie den Status des RAID:

cat /proc/mdstat

Der Status sollte ein degradiertes Array anzeigen (Beispielausgabe):

[root@server1 ~]# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sda1[0]
200704 blocks [2/1] [U_]

md1 : active raid1 sda2[0]
522048 blocks [2/1] [U_]

md2 : active raid1 sda3[0]
9759360 blocks [2/1] [U_]

unused devices: 
[root@server1 ~]#

Prüfen Sie die Platten und Partitionen:

fdisk -l

Eine Beispielausgabe sieht so aus (wiedergegeben unverändert):

[root@server1 ~]# fdisk -l

Disk /dev/sda: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Device Boot      Start         End      Blocks   Id  System
/dev/sda1   *           1          25      200781   fd  Linux raid autodetect
/dev/sda2             26          90      522112+  fd  Linux raid autodetect
/dev/sda3             91        1305     9759487+  fd  Linux raid autodetect

Disk /dev/sdb: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Disk /dev/sdb doesn't contain a valid partition table

Disk /dev/md2: 9993 MB, 9993584640 bytes
2 heads, 4 sectors/track, 2439840 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md2 doesn't contain a valid partition table

Disk /dev/md1: 534 MB, 534577152 bytes
2 heads, 4 sectors/track, 130512 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md1 doesn't contain a valid partition table

Disk /dev/md0: 205 MB, 205520896 bytes
2 heads, 4 sectors/track, 50176 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md0 doesn't contain a valid partition table
[root@server1 ~]#

Partitionstabelle kopieren

Kopieren Sie die Partitionstabelle von /dev/sda auf die neue /dev/sdb:

sfdisk -d /dev/sda | sfdisk /dev/sdb

Wenn ein Fehler erscheint, können Sie –force versuchen:

sfdisk -d /dev/sda | sfdisk --force /dev/sdb

Beispielausgabe des Kopiervorgangs (unverändert):

[root@server1 ~]# sfdisk -d /dev/sda | sfdisk /dev/sdb
Checking that no-one is using this disk right now ...
OK

Disk /dev/sdb: 1305 cylinders, 255 heads, 63 sectors/track

sfdisk: ERROR: sector 0 does not have an msdos signature
/dev/sdb: unrecognized partition table type
Old situation:
No partitions found
New situation:
Units = sectors of 512 bytes, counting from 0

Device Boot    Start       End   #sectors  Id  System
/dev/sdb1   *        63    401624     401562  fd  Linux raid autodetect
/dev/sdb2        401625   1445849    1044225  fd  Linux raid autodetect
/dev/sdb3       1445850  20964824   19518975  fd  Linux raid autodetect
/dev/sdb4             0         -          0   0  Empty
Successfully wrote the new partition table

Re-reading the partition table ...

If you created or changed a DOS partition, /dev/foo7, say, then use dd(1)
to zero the first 512 bytes:  dd if=/dev/zero of=/dev/foo7 bs=512 count=1
(See fdisk(8).)
[root@server1 ~]#

Wichtig: Prüfen Sie mit fdisk -l oder parted, ob die Partitionen auf /dev/sdb korrekt erstellt wurden, bevor Sie fortfahren.

RAID-Metadaten löschen und Platte wieder hinzufügen

Entfernen Sie alle Reste eines früheren RAID-Superblocks auf /dev/sdb:

mdadm --zero-superblock /dev/sdb1
mdadm --zero-superblock /dev/sdb2
mdadm --zero-superblock /dev/sdb3

Fügen Sie die neue Platte dem RAID wieder hinzu:

mdadm -a /dev/md0 /dev/sdb1
mdadm -a /dev/md1 /dev/sdb2
mdadm -a /dev/md2 /dev/sdb3

Prüfen Sie erneut den Status:

cat /proc/mdstat

Beispielausgabe während der Resynchronisation:

[root@server1 ~]# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[1] sda1[0]
200704 blocks [2/2] [UU]

md1 : active raid1 sdb2[1] sda2[0]
522048 blocks [2/2] [UU]

md2 : active raid1 sdb3[2] sda3[0]
9759360 blocks [2/1] [U_]
[=======>.............]  recovery = 39.4% (3846400/9759360) finish=1.7min speed=55890K/sec

unused devices: 
[root@server1 ~]#

Warten Sie, bis die Synchronisation abgeschlossen ist:

[root@server1 ~]# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[1] sda1[0]
200704 blocks [2/2] [UU]

md1 : active raid1 sdb2[1] sda2[0]
522048 blocks [2/2] [UU]

md2 : active raid1 sdb3[1] sda3[0]
9759360 blocks [2/2] [UU]

unused devices: 
[root@server1 ~]#

Bootloader installieren

Führen Sie grub aus und installieren Sie den Bootloader auf beiden Festplatten:

grub

Im grub-Prompt:

root (hd0,0)
setup (hd0)
root (hd1,0)
setup (hd1)
quit

Damit ist die defekte Festplatte im RAID1 ersetzt.

SOP: Schritt-für-Schritt-Playbook für Produktion

Notfall-Info sammeln: betroffenes System, Seriennummern, RAID-Level, aktuelle mdadm.conf, Backup-Status.
Alarmierung: On-Call informieren, Wartungsfenster bestätigen.
Deaktivieren Sie die betroffene Festplatte (soft-fail) oder bauen Sie sie aus (hard-fail).
Starten Sie das System neu, falls notwendig, und prüfen Sie cat /proc/mdstat.
Neue Platte einbauen; prüfen Sie SMART-Status vor Einsatz (smartctl).
Partitionstabelle kopieren: sfdisk -d /dev/sda | sfdisk /dev/sdb.
Alte Superblocks löschen: mdadm –zero-superblock …
Platte dem Array hinzufügen: mdadm -a …
Synchronisation überwachen: cat /proc/mdstat. Warten bis [UU] angezeigt wird.
Bootloader installieren auf allen physischen Datenträgern.
Testboot durchführen (falls möglich).
Dokumentation aktualisieren: RMA, Seriennummer, Zeitpunkt, Dauer der Resync.

Kriterien für erfolgreiche Wiederherstellung

cat /proc/mdstat zeigt für alle Arrays [UU].
fdisk -l zeigt die erwarteten Partitionen auf beiden physischen Datenträgern.
System bootet zuverlässig, GRUB ist auf allen Datenträgern installiert.
Keine fehlerhaften SMART-Werte auf der neuen Festplatte.

Troubleshooting: Häufige Fehler und Lösungen

Fehler: sfdisk meldet “sector 0 does not have an msdos signature”.
- Ursache: Neue Platte hat keine Partitionstabelle. Lösung: sfdisk –force oder parted zur manuellen Erstellung nutzen.
Fehler: Resync läuft sehr langsam.
- Ursache: I/O-Last, eingeschränkte Bandbreite, Scheduler-Einstellungen.
- Maßnahmen: /proc/sys/dev/raid/speed_limit_min und speed_limit_max prüfen und temporär anpassen; nicht-kritische Prozesse drosseln.
Fehler: mdadm verweigert das Hinzufügen.
- Ursache: vorhandene Superblocks/oder falsche Partitionen.
- Maßnahmen: mdadm –examine /dev/sdb1 prüfen, dann mdadm –zero-superblock setzen und erneut versuchen.
Fehler: System bootet nicht nach Tausch.
- Ursache: GRUB nicht auf Ersatzdatenträger installiert.
- Maßnahmen: Boot von Rettungsmedium und grub erneut ausführen; sicherstellen, dass die richtige root-Partition im grub-Prompt gesetzt ist.

Alternative Ansätze

Hot-swap-fähige Server: Hardware-RAID oder hot-plug SSDs nutzen, um physisches Entfernen im laufenden Betrieb zu ermöglichen.
Live-Migration: Bei VMs kann man statt physischem Tausch ein Snapshot/Failover auf einen anderen Host durchführen.
Ersatzplatten vorbereiten: HHDs bereits mit Partitionstabelle und zeroworked Superblock im Inventar vorhalten.

Rollenbasierte Checklisten

Systemadministrator:

Backup prüfen
mdadm.conf sichern
Partitionstabelle kopieren
mdadm –zero-superblock ausführen
Resync überwachen
GRUB auf beiden Laufwerken installieren

On-call / Operator:

Physische Platte tauschen
Kabel und Steckplätze prüfen
Eintrag in Wartungsprotokoll vornehmen

Mini-Methodologie / Entscheidungsheuristik

Wenn ein Laufwerk ausfällt, priorisieren Sie: Datenkonsistenz > Bootfähigkeit > Performance. Kopieren Sie zuerst die Partitionstabelle, entfernen Sie alte Metadaten, fügen dann die neue Platte hinzu und überprüfen Sie die Synchronisation vollständig.

Factbox: Wichtige Prüfbefehle

RAID-Status: cat /proc/mdstat
Partitionen: fdisk -l oder lsblk
mdadm-Details: mdadm –detail /dev/mdX
Partitionstabelle kopieren: sfdisk -d /dev/sda | sfdisk /dev/sdb
Superblock löschen: mdadm –zero-superblock /dev/sdXn

Sicherheits- und Verfügbarkeits-Hinweis

Wichtig: Arbeiten Sie nur mit physischen Zugriff oder nach klaren Change-Management-Anweisungen in Produktionsumgebungen. Stellen Sie sicher, dass Backups vorhanden sind, bevor Sie Partitionstabellen oder Superblocks ändern.

Zusammenfassung

Sie haben gelernt, wie man einen Festplattenausfall in einem RAID1-System simuliert, die Partitionstabelle kopiert, die neue Platte vorbereitet, dem Array hinzufügt und die Resynchronisation überwacht. Zusätzlich finden Sie SOP-Schritte, Kriterien für eine erfolgreiche Wiederherstellung, Troubleshooting-Optionen und rollenbasierte Checklisten.

RAID1: Defekte Festplatte testen und ersetzen

Übersicht

Test: Defekten Datenträger simulieren und ersetzen

Partitionstabelle kopieren

RAID-Metadaten löschen und Platte wieder hinzufügen

Bootloader installieren

SOP: Schritt-für-Schritt-Playbook für Produktion

Kriterien für erfolgreiche Wiederherstellung

Troubleshooting: Häufige Fehler und Lösungen

Alternative Ansätze

Rollenbasierte Checklisten

Mini-Methodologie / Entscheidungsheuristik

Factbox: Wichtige Prüfbefehle

Sicherheits- und Verfügbarkeits-Hinweis

Zusammenfassung

Links

Ähnliche Materialien

Podman auf Debian 11 installieren und nutzen

Apt-Pinning: Kurze Einführung für Debian

FSR 4 in jedem Spiel mit OptiScaler

DansGuardian + Squid (NTLM) auf Debian Etch installieren

App-Installationsfehler auf SD-Karte (Error -18) beheben

Netzwerkordner mit KNetAttach in KDE