RAID logiciel : envoi d'e‑mail en cas d'erreur

TL;DR

Ajoutez une ligne MAILADDR avec votre adresse e‑mail dans /etc/mdadm/mdadm.conf, puis redémarrez mdadm. mdadm enverra automatiquement une notification quand un composant RAID échoue ou que l’ensemble est dégradé. Vérifiez /proc/mdstat et testez la réception d’e‑mail.

Présentation rapide

Cette courte procédure explique comment configurer mdadm (RAID logiciel sous Linux) pour vous prévenir par e‑mail lorsqu’il détecte un problème sur un ensemble RAID, par exemple la défaillance d’un disque. Les exemples ci‑dessous ont été testés sur Debian, mais restent applicables à la plupart des distributions en adaptant les chemins et le gestionnaire de mail local.

Important : je ne garantis pas que ceci fonctionnera dans tous les environnements. Testez toujours dans un environnement contrôlé avant production.

Étapes pour activer les notifications par e‑mail

Ouvrez le fichier de configuration mdadm (sur Debian : /etc/mdadm/mdadm.conf). Par exemple :

vi /etc/mdadm/mdadm.conf

Ajoutez (ou modifiez) la ligne MAILADDR avec votre adresse e‑mail. Par exemple :

DEVICES /dev/sda* /dev/sdb*
ARRAY /dev/md0 level=raid1 num-devices=2 UUID=c8a78e3a:e335c0f0:997be224:f02c088a
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=fd9f3b6b:4fc9cf4f:09db592d:480d34fe
MAILADDR [email protected]

Redémarrez le service mdadm pour prendre en compte la modification :

/etc/init.d/mdadm restart

Sur les systèmes systemd modernes, la commande équivalente peut être :

systemctl restart mdadm

Vérifiez que le démon de surveillance est actif et qu’il utilise bien la configuration : regardez les logs du système (journalctl ou /var/log/syslog) et contrôlez l’état de vos ensembles RAID :

cat /proc/mdstat
mdadm --detail /dev/md0

Exemple de messages reçus

Quand mdadm détecte un événement, il envoie un e‑mail similaire aux exemples suivants (extraits traduits pour compréhension) :

Exemple 1 — événement DegradedArray :

From: mdadm monitoring <[email protected]> To: [email protected] Subject: DegradedArray event on /dev/md1:server1.example.com

This is an automatically generated mail message from mdadm running on server1.example.com

A DegradedArray event had been detected on md device /dev/md1.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid0] [raid1] md1 : active raid1 sda2[2] sdb2[1] 487853760 blocks [2/1] [_U] [>………………..] recovery = 4.3% (21448384/487853760) finish=114.3min speed=67983K/sec

md0 : active raid1 sda1[0] sdb1[1] 530048 blocks [2/2] [UU]

unused devices:

Exemple 2 — événement FailSpare :

From: mdadm monitoring <[email protected]> To: [email protected] Subject: FailSpare event on /dev/md1:server1.example.com

This is an automatically generated mail message from mdadm running on server1.example.com

A FailSpare event had been detected on md device /dev/md1.

It could be related to component device /dev/sda2.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid0] [raid1] md1 : active raid1 sda22 sdb2[1] 487853760 blocks [2/1] [_U] [===================>.] recovery = 99.9% (487851840/487853760) finish=0.0min speed=61037K/sec

md0 : active raid1 sda1[0] sdb1[1] 530048 blocks [2/2] [UU]

unused devices:

Note : les exemples d’e‑mail ci‑dessus proviennent de mdadm et incluent l’état de /proc/mdstat, utile pour comprendre le type d’événement.

Vérifications et critères de succès

Le service mdadm est en cours d’exécution après le redémarrage.
Une ligne MAILADDR correcte est présente dans /etc/mdadm/mdadm.conf.
Lors d’un test (par exemple en simulant une défaillance), vous recevez bien l’e‑mail d’alerte.
/proc/mdstat reflète l’état attendu (par ex. disque marqué comme (F) pour failed ou [_U] pour dégradé).

Tests recommandés

Test non destructif : retirez une partition spare (ou mettez‑la hors ligne si possible) pour déclencher une alerte et vérifier la réception.
Vérifiez les logs (journalctl -u mdadm ou /var/log/syslog) pour confirmer l’envoi.
Testez la livraison d’e‑mail depuis la machine (mailx, sendmail, postfix, ou msmtp selon votre MTA) pour éliminer un problème de relais SMTP.

Alternative et approches complémentaires

Systèmes sans /etc/init.d : sur les distributions modernes, utilisez systemd et vérifiez le service mdadm ou mdmonitor.
Surveillance centralisée : envoyez les alertes mdadm vers un Collecteur/SMTP interne, puis intégrez dans un système de monitoring (Nagios, Zabbix, Prometheus + Alertmanager) pour notifications plus riches.
MTA local : assurez‑vous qu’un agent d’envoi (postfix, exim, ssmtp, msmtp) est configuré pour relayer correctement les e‑mails externes.
Script de test : un script cron peut périodiquement exécuter mdadm –detail –scan pour vérifier l’état et alerter via d’autres canaux (Slack, SMS, webhooks).

Checklist rapide pour l’administrateur

Ajouter MAILADDR dans /etc/mdadm/mdadm.conf
Redémarrer mdadm (init ou systemd)
Vérifier /proc/mdstat après redémarrage
Simuler un événement pour tester la notification
Confirmer la livraison d’e‑mail (sender/reply‑to correct)
Documenter l’adresse de réception et la procédure de remplacement de disque

Mises en garde et cas où cela peut échouer

Si la machine ne peut pas envoyer d’e‑mail (MTA mal configuré, hors réseau), vous ne recevrez pas les notifications malgré une configuration correcte de mdadm.
Certaines distributions utilisent un service séparé (mdmonitor) — adaptez la commande de redémarrage.
Si MAILADDR est mal orthographié ou absent, mdadm ne saura pas où envoyer l’alerte.

Mini méthodologie de mise en production

Mettre à jour /etc/mdadm/mdadm.conf en environnement de test.
Redémarrer et vérifier la configuration et les logs.
Simuler une défaillance contrôlée et vérifier réception d’e‑mail.
Documenter les procédures de remplacement de disque et de remise en état.
Planifier un test périodique (chaque trimestre ou après maintenance importante).

1‑ligne glossaire

mdadm : utilitaire Linux pour gérer des ensembles RAID logiciels.
MAILADDR : paramètre mdadm.conf indiquant l’adresse destinataire des alertes.
/proc/mdstat : fichier virtuel indiquant l’état actuel des ensembles RAID.

Résumé

Configurer MAILADDR dans /etc/mdadm/mdadm.conf et redémarrer mdadm est la manière la plus simple et courante pour recevoir des notifications par e‑mail en cas de problème RAID. Assurez‑vous que le MTA local peut relayer les messages et testez la chaîne complète (détection → envoi → réception) avant mise en production.

Important : gardez une procédure documentée pour remplacer un disque et reconstruire un ensemble RAID après réception d’une alerte.

Configurer le RAID logiciel pour envoyer un e‑mail en cas de problème

TL;DR

Présentation rapide

Étapes pour activer les notifications par e‑mail

Exemple de messages reçus

Vérifications et critères de succès

Tests recommandés

Alternative et approches complémentaires

Checklist rapide pour l’administrateur

Mises en garde et cas où cela peut échouer

Mini méthodologie de mise en production

1‑ligne glossaire

Résumé

Matériaux similaires

Installer et utiliser Podman sur Debian 11

Guide pratique : apt-pinning sur Debian

OptiScaler : activer FSR 4 dans n'importe quel jeu

Dansguardian + Squid NTLM sur Debian Etch

Corriger l'erreur d'installation Android sur SD

KNetAttach et remote:/ — Dossiers réseau KDE