Technologieführer

RAID1: Defekte Festplatte testen und ersetzen

5 min read Systemadministration Aktualisiert 10 Oct 2025
RAID1: Defekte Festplatte ersetzen
RAID1: Defekte Festplatte ersetzen

Übersicht

Dieser Abschnitt erklärt, wie man unter Linux einen Festplattenausfall in einem RAID1-Verbund simuliert, die Partitionstabelle kopiert, die neue Festplatte vorbereitet und wieder in das Array einfügt. Ziel ist, die Wiederherstellung ohne Datenverlust durchzuführen und den Bootloader auf beiden Datenträgern zu installieren.

Wichtige Begriffe in einem Satz:

  • RAID1: Spiegelung von zwei oder mehr Festplatten, jede enthält identische Daten.
  • mdadm: Das übliche Linux-Tool zur Verwaltung softwarebasierter RAID-Arrays.

Hinweis: Dieses Dokument geht davon aus, dass die Arrays /dev/md0, /dev/md1 und /dev/md2 existieren und aus den Partitionen /dev/sdX1, /dev/sdX2, /dev/sdX3 bestehen.

Test: Defekten Datenträger simulieren und ersetzen

Jetzt simulieren wir einen Festplattenausfall. Es ist unerheblich, ob Sie /dev/sda oder /dev/sdb wählen. Im Beispiel nehmen wir an, dass /dev/sdb ausgefallen ist.

Um den Ausfall zu simulieren, können Sie das System herunterfahren und /dev/sdb physisch entfernen oder die Platte „soft“ entfernen mit diesen Befehlen:

mdadm --manage /dev/md0 --fail /dev/sdb1
mdadm --manage /dev/md1 --fail /dev/sdb2
mdadm --manage /dev/md2 --fail /dev/sdb3

mdadm --manage /dev/md0 --remove /dev/sdb1
mdadm --manage /dev/md1 --remove /dev/sdb2
mdadm --manage /dev/md2 --remove /dev/sdb3

Fahren Sie das System herunter:

shutdown -h now

Dann bauen Sie eine neue /dev/sdb ein (wenn Sie stattdessen /dev/sda simuliert haben, ersetzen Sie /dev/sda durch die neue Platte und verbinden die Ersatzplatte als /dev/sdb) und starten das System neu. Es sollte weiterhin booten.

Nun prüfen Sie den Status des RAID:

cat /proc/mdstat

Der Status sollte ein degradiertes Array anzeigen (Beispielausgabe):

[root@server1 ~]# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sda1[0]
200704 blocks [2/1] [U_]

md1 : active raid1 sda2[0]
522048 blocks [2/1] [U_]

md2 : active raid1 sda3[0]
9759360 blocks [2/1] [U_]

unused devices: 
[root@server1 ~]#

Prüfen Sie die Platten und Partitionen:

fdisk -l

Eine Beispielausgabe sieht so aus (wiedergegeben unverändert):

[root@server1 ~]# fdisk -l

Disk /dev/sda: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Device Boot      Start         End      Blocks   Id  System
/dev/sda1   *           1          25      200781   fd  Linux raid autodetect
/dev/sda2             26          90      522112+  fd  Linux raid autodetect
/dev/sda3             91        1305     9759487+  fd  Linux raid autodetect

Disk /dev/sdb: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Disk /dev/sdb doesn't contain a valid partition table

Disk /dev/md2: 9993 MB, 9993584640 bytes
2 heads, 4 sectors/track, 2439840 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md2 doesn't contain a valid partition table

Disk /dev/md1: 534 MB, 534577152 bytes
2 heads, 4 sectors/track, 130512 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md1 doesn't contain a valid partition table

Disk /dev/md0: 205 MB, 205520896 bytes
2 heads, 4 sectors/track, 50176 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md0 doesn't contain a valid partition table
[root@server1 ~]#

Partitionstabelle kopieren

Kopieren Sie die Partitionstabelle von /dev/sda auf die neue /dev/sdb:

sfdisk -d /dev/sda | sfdisk /dev/sdb

Wenn ein Fehler erscheint, können Sie –force versuchen:

sfdisk -d /dev/sda | sfdisk --force /dev/sdb

Beispielausgabe des Kopiervorgangs (unverändert):

[root@server1 ~]# sfdisk -d /dev/sda | sfdisk /dev/sdb
Checking that no-one is using this disk right now ...
OK

Disk /dev/sdb: 1305 cylinders, 255 heads, 63 sectors/track

sfdisk: ERROR: sector 0 does not have an msdos signature
/dev/sdb: unrecognized partition table type
Old situation:
No partitions found
New situation:
Units = sectors of 512 bytes, counting from 0

Device Boot    Start       End   #sectors  Id  System
/dev/sdb1   *        63    401624     401562  fd  Linux raid autodetect
/dev/sdb2        401625   1445849    1044225  fd  Linux raid autodetect
/dev/sdb3       1445850  20964824   19518975  fd  Linux raid autodetect
/dev/sdb4             0         -          0   0  Empty
Successfully wrote the new partition table

Re-reading the partition table ...

If you created or changed a DOS partition, /dev/foo7, say, then use dd(1)
to zero the first 512 bytes:  dd if=/dev/zero of=/dev/foo7 bs=512 count=1
(See fdisk(8).)
[root@server1 ~]#

Wichtig: Prüfen Sie mit fdisk -l oder parted, ob die Partitionen auf /dev/sdb korrekt erstellt wurden, bevor Sie fortfahren.

RAID-Metadaten löschen und Platte wieder hinzufügen

Entfernen Sie alle Reste eines früheren RAID-Superblocks auf /dev/sdb:

mdadm --zero-superblock /dev/sdb1
mdadm --zero-superblock /dev/sdb2
mdadm --zero-superblock /dev/sdb3

Fügen Sie die neue Platte dem RAID wieder hinzu:

mdadm -a /dev/md0 /dev/sdb1
mdadm -a /dev/md1 /dev/sdb2
mdadm -a /dev/md2 /dev/sdb3

Prüfen Sie erneut den Status:

cat /proc/mdstat

Beispielausgabe während der Resynchronisation:

[root@server1 ~]# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[1] sda1[0]
200704 blocks [2/2] [UU]

md1 : active raid1 sdb2[1] sda2[0]
522048 blocks [2/2] [UU]

md2 : active raid1 sdb3[2] sda3[0]
9759360 blocks [2/1] [U_]
[=======>.............]  recovery = 39.4% (3846400/9759360) finish=1.7min speed=55890K/sec

unused devices: 
[root@server1 ~]#

Warten Sie, bis die Synchronisation abgeschlossen ist:

[root@server1 ~]# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[1] sda1[0]
200704 blocks [2/2] [UU]

md1 : active raid1 sdb2[1] sda2[0]
522048 blocks [2/2] [UU]

md2 : active raid1 sdb3[1] sda3[0]
9759360 blocks [2/2] [UU]

unused devices: 
[root@server1 ~]#

Bootloader installieren

Führen Sie grub aus und installieren Sie den Bootloader auf beiden Festplatten:

grub

Im grub-Prompt:

root (hd0,0)
setup (hd0)
root (hd1,0)
setup (hd1)
quit

Damit ist die defekte Festplatte im RAID1 ersetzt.

SOP: Schritt-für-Schritt-Playbook für Produktion

  1. Notfall-Info sammeln: betroffenes System, Seriennummern, RAID-Level, aktuelle mdadm.conf, Backup-Status.
  2. Alarmierung: On-Call informieren, Wartungsfenster bestätigen.
  3. Deaktivieren Sie die betroffene Festplatte (soft-fail) oder bauen Sie sie aus (hard-fail).
  4. Starten Sie das System neu, falls notwendig, und prüfen Sie cat /proc/mdstat.
  5. Neue Platte einbauen; prüfen Sie SMART-Status vor Einsatz (smartctl).
  6. Partitionstabelle kopieren: sfdisk -d /dev/sda | sfdisk /dev/sdb.
  7. Alte Superblocks löschen: mdadm –zero-superblock …
  8. Platte dem Array hinzufügen: mdadm -a …
  9. Synchronisation überwachen: cat /proc/mdstat. Warten bis [UU] angezeigt wird.
  10. Bootloader installieren auf allen physischen Datenträgern.
  11. Testboot durchführen (falls möglich).
  12. Dokumentation aktualisieren: RMA, Seriennummer, Zeitpunkt, Dauer der Resync.

Kriterien für erfolgreiche Wiederherstellung

  • cat /proc/mdstat zeigt für alle Arrays [UU].
  • fdisk -l zeigt die erwarteten Partitionen auf beiden physischen Datenträgern.
  • System bootet zuverlässig, GRUB ist auf allen Datenträgern installiert.
  • Keine fehlerhaften SMART-Werte auf der neuen Festplatte.

Troubleshooting: Häufige Fehler und Lösungen

  • Fehler: sfdisk meldet “sector 0 does not have an msdos signature”.

    • Ursache: Neue Platte hat keine Partitionstabelle. Lösung: sfdisk –force oder parted zur manuellen Erstellung nutzen.
  • Fehler: Resync läuft sehr langsam.

    • Ursache: I/O-Last, eingeschränkte Bandbreite, Scheduler-Einstellungen.
    • Maßnahmen: /proc/sys/dev/raid/speed_limit_min und speed_limit_max prüfen und temporär anpassen; nicht-kritische Prozesse drosseln.
  • Fehler: mdadm verweigert das Hinzufügen.

    • Ursache: vorhandene Superblocks/oder falsche Partitionen.
    • Maßnahmen: mdadm –examine /dev/sdb1 prüfen, dann mdadm –zero-superblock setzen und erneut versuchen.
  • Fehler: System bootet nicht nach Tausch.

    • Ursache: GRUB nicht auf Ersatzdatenträger installiert.
    • Maßnahmen: Boot von Rettungsmedium und grub erneut ausführen; sicherstellen, dass die richtige root-Partition im grub-Prompt gesetzt ist.

Alternative Ansätze

  • Hot-swap-fähige Server: Hardware-RAID oder hot-plug SSDs nutzen, um physisches Entfernen im laufenden Betrieb zu ermöglichen.
  • Live-Migration: Bei VMs kann man statt physischem Tausch ein Snapshot/Failover auf einen anderen Host durchführen.
  • Ersatzplatten vorbereiten: HHDs bereits mit Partitionstabelle und zeroworked Superblock im Inventar vorhalten.

Rollenbasierte Checklisten

Systemadministrator:

  • Backup prüfen
  • mdadm.conf sichern
  • Partitionstabelle kopieren
  • mdadm –zero-superblock ausführen
  • Resync überwachen
  • GRUB auf beiden Laufwerken installieren

On-call / Operator:

  • Physische Platte tauschen
  • Kabel und Steckplätze prüfen
  • Eintrag in Wartungsprotokoll vornehmen

Mini-Methodologie / Entscheidungsheuristik

Wenn ein Laufwerk ausfällt, priorisieren Sie: Datenkonsistenz > Bootfähigkeit > Performance. Kopieren Sie zuerst die Partitionstabelle, entfernen Sie alte Metadaten, fügen dann die neue Platte hinzu und überprüfen Sie die Synchronisation vollständig.

Factbox: Wichtige Prüfbefehle

  • RAID-Status: cat /proc/mdstat
  • Partitionen: fdisk -l oder lsblk
  • mdadm-Details: mdadm –detail /dev/mdX
  • Partitionstabelle kopieren: sfdisk -d /dev/sda | sfdisk /dev/sdb
  • Superblock löschen: mdadm –zero-superblock /dev/sdXn

Sicherheits- und Verfügbarkeits-Hinweis

Wichtig: Arbeiten Sie nur mit physischen Zugriff oder nach klaren Change-Management-Anweisungen in Produktionsumgebungen. Stellen Sie sicher, dass Backups vorhanden sind, bevor Sie Partitionstabellen oder Superblocks ändern.

Zusammenfassung

Sie haben gelernt, wie man einen Festplattenausfall in einem RAID1-System simuliert, die Partitionstabelle kopiert, die neue Platte vorbereitet, dem Array hinzufügt und die Resynchronisation überwacht. Zusätzlich finden Sie SOP-Schritte, Kriterien für eine erfolgreiche Wiederherstellung, Troubleshooting-Optionen und rollenbasierte Checklisten.

Links

Autor
Redaktion

Ähnliche Materialien

Dateien zwischen Smartphones schnell übertragen
Ratgeber

Dateien zwischen Smartphones schnell übertragen

GeForce Experience Fehler 0x0003 beheben
Fehlerbehebung

GeForce Experience Fehler 0x0003 beheben

PDFelement iOS v3.0: OCR-Scans auf iPhone & iPad
Produktivität

PDFelement iOS v3.0: OCR-Scans auf iPhone & iPad

Webex in Outlook integrieren – Schritt‑für‑Schritt
Produktivität

Webex in Outlook integrieren – Schritt‑für‑Schritt

Gelbes Warnzeichen auf Windows-Laufwerk: Lösungen
Windows-Fehlerbehebung

Gelbes Warnzeichen auf Windows-Laufwerk: Lösungen

TikTok‑Erfolg: Grundlagen für Einsteiger
Social Media

TikTok‑Erfolg: Grundlagen für Einsteiger