Il n'y a pas que mon poussinet qui a des tracas : les disques durs de mon PC ont eu une vapeur bizarre aujourd'hui : deux d'entre eux (sur quatre) se sont mis à rapporter des erreurs en pagaille. J'ai de fortes raisons de soupçonner (ne serait-ce que parce que la coïncidence que deux disques meurent exactement au même moment est un peu trop dingue, encore que ça pourrait être un problème d'alim, un choc ou une surtension, ou je ne sais quoi) qu'il s'agissait surtout d'une vapeur du chipset/contrôleur, toujours est-il qu'après reboot les disques durs en question semblent de nouveau se porter bien ; l'un d'entre eux a effectivement consigné des erreurs dans le SMART, mais elles ne riment à rien (les secteurs indiqués sont parfaitement lisibles, les erreurs elles-mêmes sont bizarres, et aucun secteur n'est indiqué réalloué), l'autre disque n'a rien enregistré du tout. Bref, je ne sais pas ce qui s'est passé.
Mais ça a quand même causé un certain désagrément à mes
tableaux RAID. Comme je
l'ai déjà expliqué, je fais
du RAID 1, 6 ou 5 selon le niveau de redondance
voulu (respectivement 3, 2 ou 1 disques de redondance sur 4).
Le RAID6 a bien réagi : il a simplement marqué les
deux disques comme défectueux et a continué à marcher sur les deux
restants. Le RAID1 a fait quelque chose d'un peu
bizarre : il a viré les deux disques censément défectueux, mais comme
il est hyper-redondant, en fait, les deux disques virés formaient eux
aussi un tableau cohérent, ça a dû embrouiller l'autodétection des
tableaux, et au reboot suivant je me suis retrouvé avec deux
tableaux RAID1 chacun dégradés à 2 disques sur 4,
ce qui m'a causé une certaine confusion. Le RAID5,
évidemment, n'a pas résisté à la mort de 2 disques sur 4 : mais le
fait est qu'ils n'étaient pas vraiment morts, simplement ils avaient
cessé de réagir, et les écritures avaient continué sur les 2 autres
disques, du coup l'état du tableau était un peu bizarre ;
heureusement, mdadm
a une option --force
qui
permet de reconstruire le tableau bien que les membres prétendent être
dans des états différents, j'ai pu faire ça et tout revérifier
derrière, et il n'y avait rien eu de grave (bon, le fait est aussi que
je m'en foutais un peu, c'était mon /tmp
— oui, même
mon /tmp
est en RAID5 — mais c'était
intéressant de voir ce qui se passerait).
Bref, j'intitule cette entrée le RAID n'est
pas parfait
, mais en fait il a plutôt bien rempli sa mission de
protéger mes données contre, euh, contre une non-panne de disque dur ;
en revanche, il y a eu un peu de confusion dans toute l'histoire, et
j'ai quand même eu un peu peur.
Je ne sais pas si ça vaut la peine de changer les disques durs :
d'un côté, tout semble indiquer que c'est le contrôleur qui a déconné
et un test de surface ne retourne aucune erreur ; de l'autre j'ai
tendance à prêcher l'attitude si on a la moindre bizarrerie sur un
disque dur, on le change illico et sans se poser de question
.
Peut-être que je peux changer celui des deux qui a vraiment enregistré
des erreurs dans le SMART, mais c'est un peu con,
c'est le plus neuf des deux (en fait, c'est le Seagate de 2To qui
apparaît dans cette
histoire).