David Madore's WebLog: Le matériel informatique qui merdouille juste un peu

Index of all entries / Index de toutes les entréesXML (RSS 1.0) • Recent comments / Commentaires récents

Entry #2332 [older|newer] / Entrée #2332 [précédente|suivante]:

(dimanche)

Le matériel informatique qui merdouille juste un peu

Hier, un de mes disques durs[#] a décidé de ne plus répondre (du point de vue de l'ordinateur, c'était exactement comme s'il avait été débranché brutalement). En fait, je ne sais pas vraiment si ça s'est produit hier : j'ai même des indices selon lesquels ça s'est peut-être produit il y a presque un mois (entre le 9 et le 10 octobre), mais comme toutes mes données sont en RAID, je ne me serais rendu compte de rien : normalement, j'aurais dû être averti du problème par un mail, mais des problèmes de mail complètement indépendants ont fait que ce genre de mails ne m'arrivaient pas. Enfin, peu importe. Ce genre de problèmes matériels a peu de chances de me faire perdre de données : j'ai pris des précautions assez délirantes contre ça, comme en témoigne le fait que j'ai peut-être passé un mois sans même me rendre compte que le disque dur ne réagissait plus, et je m'en suis finalement rendu compte parce que mon ordinateur a planté pour des raisons probablement sans aucun rapport. En revanche, il a une capacité à me faire perdre un temps considérable : pour commencer, changer un disque dur dans le boîtier[#2] ne peut pas me prendre moins d'une heure, et il en faut encore beaucoup pour resynchroniser tout le RAID (même si la machine reste utilisable, quoique ralentie, pendant ce temps) et pour vérifier soigneusement que tout s'est bien passé, mais le plus gros du temps perdu est celui pendant lequel je me demande ce que je dois faire exactement.

Ici, j'avais déjà soupçonné que ce disque dur avait des vapeurs : il m'avait déjà fait un coup semblable, ou produit des messages d'erreur suspects (un peu du genre de ceux rapportés ici, même s'il s'agit là d'un autre disque sur une autre machine). Mais la difficulté, c'est qu'il est très difficile de savoir si ce genre de problèmes vient du disque ou du contrôleur (sans compter que ça peut aussi être la faute du câble !) : si le disque ou le contrôleur ne marche pas du tout, on s'en rend vite compte et on trouve vite le coupable, mais s'il marche généralement-mais-pas-toujours, c'est beaucoup plus compliqué d'enquêter. Idéalement, on devrait juste changer un paramètre, le plus suspect, attendre si un nouveau problème survient, et en changer alors un autre, en notant soigneusement tout ce qu'on a fait : mais, bien sûr, les choses sont rarement idéales, les erreurs sont rarement claires, on peut vouloir changer plusieurs choses suspectes d'un coup pour diminuer les risques aux dépens de la pureté expérimentale, d'autres paramètres viennent ajouter de la confusion (des différences logicielles, par exemple, parce que le noyau ou d'autres choses ont pu être mis à jour entre temps ; ou d'autres disques branchés pour d'autres raisons), on ne note pas toujours parfaitement ce qu'on fait.

Dans ce cas précis, si je simplifie (et que je reconstitue bien), le disque, appelons-le HD204, que je suspecte maintenant d'être mauvais a été branché jusqu'en juillet 2013 sur le port SATA3 de ma carte mère, j'ai eu des problèmes avec, je l'ai retiré et mon poussinet l'a testé de façon approfondie, et n'a trouvé aucun problème après plusieurs tests de surface, du coup je l'ai remis en place (je parle toujours de HD204), sauf que je l'ai branché sur SATA4 parce que j'avais réutilisé SATA3 pour un autre disque ; mais j'ai de nouveau eu des problèmes avec le disque sur SATA3 (pas HD204, donc), du coup je me suis dit : aha, en fait, c'est mon port SATA3 qui doit être pourri, et j'ai rebranché le disque HD204 sur le port SATA5 (relié à un autre contrôleur[#3] SATA, qui gère aussi le SATA externe), mais maintenant c'est la deuxième fois que j'ai des problèmes avec ce disque HD204 branché sur SATA5. Plusieurs hypothèses sont possibles : soit mes ports SATA3 et SATA5 sont tous les deux défectueux (possible, mais quand même peu probable, surtout qu'ils sont reliés à des contrôleurs totalement indépendants, et surtout que je n'avais pas eu de problème avec SATA3 avant d'y connecter HD204) ; soit c'est un problème de câble (je crois que j'ai changé plusieurs fois de câble dans l'histoire, mais je peux me tromper, et en plus j'ai remis un peu stupidement un câble suspect dans mon sac à câbles sans l'étiquetter comme tel) ; soit c'est le disque HD204 qui non seulement a parfois un comportement bizarre mais est aussi capable de causer des erreurs sur un autre port du même contrôleur SATA (SATA3 alors que HD204 était branché sur SATA4). Je penche à présent plutôt pour cette dernière hypothèse, mais je suis loin d'être certain. Tout cela est encore compliqué par le fait que SATA5 a d'autres sortes de problèmes (pas vraiment des défauts, mais des bizarreries de reset et un délai très long de détection des disques, peut-être en lien avec le fait que le même contrôleur gère le SATA externe). Au final, on admettra que tout ceci est confus (et actuellement, le nouveau disque que j'ai branché sur SATA3 et HD204 testé de façon séparée, donnent tous les deux l'apparence de bien fonctionner).

Peut-être que j'aurais simplement dû me dire que ce n'est pas très grave si une fois par an environ, le disque cesse de répondre et qu'il faut redémarrer la machine à froid et reconstruire tout le RAID.

Peut-être aussi que je devrais acheter un nouveau PC. Mais ça veut dire encore un temps fou passé à trouver une configuration qui me satisfasse (je tiens à avoir à la fois de la mémoire ECC et un watchdog matériel, et j'ai peur que ce soit devenu très difficile de trouver un tel matériel rue Montgallet) et à découvrir les problèmes nouveaux qu'elle posera. Bof.

Bref, #FirstWorldProblems.

[#] Nommons les coupables : il s'agit d'un Samsung HD204UI Spinpoint F4 EG (AF) de 2To.

[#2] Donc : passer un grand coup d'aspiro à l'intérieur, s'énerver contre les têtes ou les pas de vis qui s'abîment comme du beurre, se faire mal aux mains à sortir et remettre les barrettes mémoire qui gènent la sortie du disque de son berceau, s'émerveiller de la capacité des câbles à inventer des nœuds toujours plus inventifs, et surtout maudire la géométrie dans l'espace qui fait qu'il y a toujours quelque chose dans le boîtier de l'ordinateur qui gène l'accès à la chose à laquelle on essaie d'avoir accès. Compter toutes ces étapes une fois pour retirer le disque dur défectueux et une nouvelle fois pour mettre le nouveau.

[#3] Mes ports SATA1 à SATA4 sont gérés par un chipset Intel ICH7, tandis que SATA5, SATA6 et le SATA externe sont gérés par un Marvell 88SE6145.

↑Entry #2332 [older|newer] / ↑Entrée #2332 [précédente|suivante]

Recent entries / Entrées récentesIndex of all entries / Index de toutes les entrées