Les bugs informatiques sont pénibles en général, mais particulièrement frustrant quand ils concernent des choses sur lesquelles on n'a aucune prise. En l'occurrence, j'en ai concernant deux sites que j'utilise beaucoup : l'Internet Archive et YouTube ; et les deux chagrinent beaucoup mon côté obsédé par la préservation de l'information : à savoir, l'Internet Archive n'arrive plus à archiver ce site Web et YouTube efface mon historique au bout de 46 jours.
L'Internet Archive n'arrive plus à archiver ce site Web
L'Internet Archive, j'en ai déjà parlé dans le billet lié ci-dessus, c'est le bibliothécaire d'Internet : c'est à la fois une collection immense de livres et d'autres documents numérisés (certains dans le domaine public et librement téléchargeables, certains « empruntables » à diverses collections), mais aussi et surtout la Wayback Machine, un outil librement disponible pour faire des sauvegardes de pages Web publiquement accessibles (la Wayback Machine sauvegarde certaines pages Web de sa propre initiative, mais on peut aussi lui demander explicitement de faire une sauvegarde de telle ou telle page).
Si vous voulez vous en servir pour sauver une page, c'est ici que ça se passe (par défaut on a juste l'option de sauvegarder une page, mais si on crée un compte et qu'on se connecte, il y a quelques options supplémentaires qui apparaissent, comme celle de suivre les liens ou de capturer une image). Et si vous voulez sauvegarder tout un tas de pages, ou vérifier la présence de tout un tas de pages sur l'Archive, il y a ce service qui vous permet de mettre les liens dans un tableau Google Sheets et traiter les choses en bloc.
Je me sers régulièrement de l'Archive pour faire des « copies de sauvegarde » des billets de ce blog (et autres pages de ce site) : non seulement je demande à la Wayback Machine d'archiver (y compris en suivant les liens) chaque nouveau billet que j'écris dans ce blog, mais en plus, quand je fais un changement non-trivial sur le billet, je refais une sauvegarde. Et pour être sûr que je n'ai rien oublié, tous les quelques mois, j'utilise le service automatisé pour récupérer la date de la dernière archive de chaque billet de mon blog, comparer à la date de dernière modification, et si cette dernière est plus récente, refaire un archivage.
Enfin, ça c'est en temps normal, parce qu'en ce moment, ça ne
marche plus sur mon site. En ce moment
, ça veut dire depuis
environ deux semaines, vu qu'une sauvegarde de
l'avant-dernier billet a
été enregistrée
le , mais que
le je
n'arrivais plus à rien sauvegarder. Enfin, tout ça n'est
peut-être pas 100% reproductible (il y a quand
même une
sauvegarde datée
du dernier billet qui est apparue
sur l'Archive, mais je pense que ce n'est pas moi qui l'ai faite,
parce qu'à chaque fois que j'ai essayé, ça a échoué), mais globalement
ça ne marche plus bien, voire plus du tout.
Ce qui se passe est que j'entre l'URL à sauvegarder
dans le formulaire Web de l'Archive, ça mouline pendant environ une
minute (ça c'est plus ou moins « normal », ça le fait tout le temps)
et au final j'ai le message d'erreur : Save Page Now
could not capture this URL because it was
unreachable.
(Vous pouvez tester en tentant de de demander une
sauvegarde de votre billet préféré sur ce blog, d'ailleurs je vous
encourage à le faire de temps en temps, des fois que ça marcherait
quand même.) Si on réessaie, le message d'erreur apparaît presque
instantanément, ce qui suggère que l'échec est gardé dans une sorte de
cache.
J'ai essayé de contacter quelqu'un chez l'Internet Archive, mais je
ne sais pas comment faire. J'ai écrit
à info
,
mais je pense que ça tombe juste à la poubelle, en tout cas, personne
ne m'a répondu (je pense qu'ils sont complètement débordés). J'ai
essayé de les contacter via les réseaux sociaux, sans plus de
succès.archive
org
J'avais déjà rencontré ce problème en novembre dernier : j'avais
écrit les détails
sur une
question posée sur le StackExchange Webmasters
, mais je
n'ai pas vraiment eu de réponse ni de suggestion utile, et c'est
retombé en marche tout seul quelques semaines plus tard (je ne sais
plus exactement quand). Comme à l'époque, l'Internet Archive venait
d'être victime d'une cyberattaque importante, j'avais attribué le
problème à cette attaque, ou à la réponse à cette attaque, et comme de
toute façon ça s'est remis à marcher, je n'ai pas cherché plus
loin.
Pour ce qui est de diagnostiquer le problème, je signale d'abord
que ce n'est pas un problème de robots.txt
(je
dis ça parce que c'est la première réaction quand je parle du
problème, et c'est assez normal). Je le sais pour plein de raisons :
mon robots.txt
n'a pas changé récemment, il n'interdit de
toute façon pas les pages en question, mais par ailleurs
la Wayback Machine ne consulte pas
le robots.txt
(au moins si on fait une requête explicite
de sauvegarde) ; et de toute façon, je sais par mes logs que la
requête est envoyée, c'est la réponse qui n'est pas (bien) reçue.
Ça semble être un problème de timeout : quand je demande à
la Wayback Machine d'archiver une de mes pages,
mon serveur reçoit bien la requête, il commence à envoyer les données,
l'autre côté en ACKe une partie, et puis, brutalement, ferme la
connexion (mon serveur reçoit un RST au
niveau TCP). S'il y a des gens qui connaissent encore
l'art de lire des tcpdump
, ça ressemble à ceci
(où 163.172.24.223
est mon serveur
et 207.241.235.134
est celui de l'Archive ; scrollez pour
voir l'ensemble de la trace, qui a 35 lignes) :
1 2025-03-28 16:07:37.274134 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [SYN, ECE, CWR] Seq=0 Win=64240 Len=0 MSS=1396 SACK_PERM TSval=2277345292 TSecr=0 WS=128 2 2025-03-28 16:07:37.274175 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [SYN, ACK, ECE] Seq=0 Ack=1 Win=65160 Len=0 MSS=1460 SACK_PERM TSval=1216146941 TSecr=2277345292 WS=128 3 2025-03-28 16:07:37.406425 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [ACK] Seq=1 Ack=1 Win=64256 Len=0 TSval=2277345425 TSecr=1216146941 4 2025-03-28 16:07:37.406667 207.241.235.134 163.172.24.223 HTTP GET /~david/weblog/?1743177915 HTTP/1.1 5 2025-03-28 16:07:37.406713 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [ACK] Seq=1 Ack=397 Win=64768 Len=0 TSval=1216147074 TSecr=2277345425 6 2025-03-28 16:07:37.408958 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=1 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU] 7 2025-03-28 16:07:37.408988 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=2769 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU] 8 2025-03-28 16:07:37.408998 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=5537 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU] 9 2025-03-28 16:07:37.409230 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=8305 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU] 10 2025-03-28 16:07:37.409250 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=11073 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU] 11 2025-03-28 16:07:37.541302 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [ACK] Seq=397 Ack=2769 Win=63232 Len=0 TSval=2277345560 TSecr=1216147076 12 2025-03-28 16:07:37.541334 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=13841 Ack=397 Win=64768 Len=2768 TSval=1216147208 TSecr=2277345560 [TCP segment of a reassembled PDU] 13 2025-03-28 16:07:37.541349 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=16609 Ack=397 Win=64768 Len=2768 TSval=1216147208 TSecr=2277345560 [TCP segment of a reassembled PDU] 14 2025-03-28 16:07:37.541547 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [ACK] Seq=397 Ack=5537 Win=60800 Len=0 TSval=2277345560 TSecr=1216147076 15 2025-03-28 16:07:37.541548 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [ACK] Seq=397 Ack=8305 Win=58880 Len=0 TSval=2277345560 TSecr=1216147076 16 2025-03-28 16:07:37.541548 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [ACK] Seq=397 Ack=11073 Win=56832 Len=0 TSval=2277345560 TSecr=1216147076 17 2025-03-28 16:07:37.541548 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [ACK] Seq=397 Ack=13841 Win=54400 Len=0 TSval=2277345560 TSecr=1216147076 18 2025-03-28 16:07:37.541572 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=19377 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU] 19 2025-03-28 16:07:37.541595 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=22145 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU] 20 2025-03-28 16:07:37.541611 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=24913 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU] 21 2025-03-28 16:07:37.541847 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=27681 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU] 22 2025-03-28 16:07:37.541870 163.172.24.223 207.241.235.134 TCP http(80) → 54942 [PSH, ACK] Seq=30449 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU] 23 2025-03-28 16:07:37.541901 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST, ACK] Seq=397 Ack=13841 Win=64128 Len=0 TSval=2277345560 TSecr=1216147076 24 2025-03-28 16:07:37.673723 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST] Seq=397 Win=0 Len=0 25 2025-03-28 16:07:37.673724 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST] Seq=397 Win=0 Len=0 26 2025-03-28 16:07:37.673966 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST] Seq=397 Win=0 Len=0 27 2025-03-28 16:07:37.674212 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST] Seq=397 Win=0 Len=0 28 2025-03-28 16:07:37.674212 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST] Seq=397 Win=0 Len=0 29 2025-03-28 16:07:37.674212 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST] Seq=397 Win=0 Len=0 30 2025-03-28 16:07:37.674212 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST] Seq=397 Win=0 Len=0 31 2025-03-28 16:07:37.674213 207.241.235.134 163.172.24.223 TCP 54942 → http(80) [RST] Seq=397 Win=0 Len=0 32 2025-03-28 16:07:40.346538 207.241.237.136 163.172.24.223 TCP 47264 → https(443) [SYN, ECE, CWR] Seq=0 Win=64240 Len=0 MSS=1396 SACK_PERM TSval=722241495 TSecr=0 WS=128 33 2025-03-28 16:07:40.346564 163.172.24.223 207.241.237.136 TCP https(443) → 47264 [RST, ACK] Seq=1 Ack=1 Win=0 Len=0 34 2025-03-28 16:07:40.628238 207.241.225.229 163.172.24.223 TCP 39280 → https(443) [SYN, ECE, CWR] Seq=0 Win=64240 Len=0 MSS=1396 SACK_PERM TSval=4199018082 TSecr=0 WS=128 35 2025-03-28 16:07:40.628277 163.172.24.223 207.241.225.229 TCP https(443) → 39280 [RST, ACK] Seq=1 Ack=1 Win=0 Len=0
En plus clair, l'Archive ouvre une connexion
à 16:07:37.274134
, envoie une requête
à 16:07:37.406667
, accuse réception des 13841 premiers
octets reçus (16:07:37.541548
), et tout d'un coup,
à 16:07:37.541901
, déclare brutalement la connexion
fermée (donc 268ms après avoir ouvert la connexion, 135ms après avoir
envoyé la requête, et même pas 1ms après avoir le dernier accusé de
réception qu'elle a envoyé).
Mais si c'est un timeout, il est hyper court : personne ne s'attend sérieusement à ce qu'un site Web typique puisse envoyer complètement une page un peu volumineuse à peine 135ms après la réception de la requête (après tout, 135ms c'est à peine le temps qu'il faut à la lumière pour faire le tour de la Terre).
Et je ne comprends pas non plus pourquoi ça n'affecterait que mon site. Peut-être que c'est parce qu'il est accessible uniquement en HTTP (pour les raisons qu'on sait), ce qui devient de plus en plus rare à une époque où tout le monde veut mettre du HTTPS partout, même sur des sites complètement publics et sans aucun élément confidentiel : peut-être que l'Archive a un timeout différent en HTTP et en HTTPS et que celui en HTTP a été (provisoirement ? accidentellement ? comme effet de bord d'autre chose ?) placé à une valeur très basse, et que personne ne s'en est rendu compte parce qu'il n'y a que très peu de sites en HTTP (et qu'en plus, s'ils sont situés à une distance faible de l'Archive, c'est-à-dire de la Californie, ça peut quand même passer avec un timeout court).
Bref, si des gens ont des éléments de réponse, ou des conjectures, à proposer, je suis preneur. (Peut-être que je peux jouer avec les paramètres TCP pour envoyer plus rapidement toute la page, mais je ne sais pas si je veux vraiment jouer avec ça.)
Même si je cédais et que je rendais mon site accessible en HTTPS (ce que je vais certainement finir par faire un jour ou un autre quand cette merde sera devenue vraiment inévitable), ça ne réglerait vraiment rien : d'abord, je ne suis pas certain que ce soit vraiment le problème (c'est quand même super compliqué à tester vu combien HTTPS est une abomination à configurer, et je ne peux pas prendre le risque de le faire sur ce serveur-là des fois que Google découvrirait le port 443 ouvert et commencerait à la visiter) ; et même si c'est le cas, il faut quand même que l'Archive puisse archiver la version HTTP des pages, parce que rien ne garantit la manière dont les gens les chercheraient (il y a des permaliens en HTTP qui ont été publiés, donc ils doivent rester valables indéfiniment, au minimum sous forme de redirection, donc si je passe en HTTPS ça m'oblige à refaire tout l'archivage en double, en fait).
*
Bon, en attendant, il y a un autre service d'archive que je peux
utiliser, c'est celui
de archive.today (je ne comprends
pas bien qui l'héberge, mais
cf. la page
Wikipédia à son sujet pour plus d'explication). J'ai veillé à ce
que « beaucoup » de mes billets de blog « importants » soient archivés
dessus (par exemple, le dernier est
ici), mais il ne semble pas y avoir de mécanisme pour automatiser
le processus, et je n'ai pas envie de lancer manuellement 2820
requêtes d'archivage. En plus de ça, archive.today a un défaut (qui
est peut-être un avantage dans certaines circonstances, mais
certainement un défaut sur mon blog), c'est que comme il est prévu
pour archiver des pages avec du JavaScript compliqué (ce que mon blog
n'a pas !) il considère qu'une adresse en #fragment
n'est
pas la même que l'adresse sans le #fragment
(voyez ce
passage de ce billet pour des
explications sur la signification de ces identificateurs de fragment).
Or sur mon blog, les permaliens ressemblent indifféremment
à http://www.madore.org/~david/weblog/d.2025-03-28.2820.archive-youtube-woes.html#d.2025-03-28.2820
ou juste
à http://www.madore.org/~david/weblog/d.2025-03-28.2820.archive-youtube-woes.html
ça ne change rien, le fragment sert juste à se positionner en tête du
billet plutôt qu'en tête de la page, mais archive.today considère
quand même que ce sont deux pages distinctes : bref, certains de mes
billets sont archivés avec le fragment, d'autres sans, et c'est un peu
la merde.
❦
Passons à autre chose, qui n'a rien à voir.
YouTube efface mon historique au bout de 46 jours
Je regarde beaucoup de vidéos sur YouTube. Mon poussinet et moi avons même un ordi dans le salon (où nous mangeons) qui nous sert en gros spécialement à regarder des vidéos pendant que nous dînons — parfois des films ou des documentaires (par exemple téléchargés via le site Web d'Arte ou de France.tv) mais juste YouTube. (L'ordi en question est connecté à la télé, et à un écran et une souris sans fil. La télé ne nous sert quasiment plus à regarder la télé, même si, pour autant que je sache, elle marche encore : la seule chaîne que nous aimions regarder régulièrement était France 24, qui est la seule chaîne d'info potable en France, mais elle n'est plus disponible sur la TNT alors même si on la regarde ce sera via l'ordi.)
Je ne sais pas par quel miracle, je continue à échapper aux pubs sur YouTube : j'utilise juste Firefox avec uBlock Origin, et pour l'instant je n'ai jamais vu une seule pub sur YouTube. (Peut-être qu'un jour ça cessera de marcher, et alors j'arrêterai de regarder YouTube parce que, de ce que je comprends, leurs pubs sont atrocement envahissantes et insupportables, mais tant que ça marche, eh bien j'en profite.)
Je regarde pas mal de choses (forcément très éclectiques, vous me connaissez si vous lisez ce blog) : globalement, il y a plein de mini-documentaires très bien faits sur énormément de sujets[#] sur YouTube.
[#] Je peux en profiter
pour recommander quelques chaînes que je regarde assez souvent et que
je trouve intéressantes (dans un ordre assez aléatoire) :
‣ Garrett Ryan (Told
in Stone
) pour des choses sur l'antiquité gréco-romaine
souvent sous l'angle de la vie courante,
‣ Tribunate pour
l'antiquité romaine sous un angle plus politique et parfois avec un
regard vers le présent,
‣ History Matters
pour des petites questions d'histoire présentées de façon super
rigolote, ‣ Look
Back History qui est un peu semblable mais en moins drôle,
‣ The Cold War sur
(l'histoire de) la guerre froide spécifiquement,
‣ Patrick Kelly
qui raconte des choses extrêmement intéressantes sur l'histoire de la
médecine,
‣ Chemistorian pour
l'histoire de la chimie,
‣ Kathy Loves
Physics pour l'histoire de la physique (présentée par une dame
super enthousiaste),
‣ Legal Eagle pour
toutes sortes d'explications sur le droit américain (qui sont en ce
moment surtout des analyses de toutes les illégalités commises par
l'administration Trump),
‣ William Spaniel
(Lines on Maps
) pour une analyse de la géopolitique sous
l'angle de la théorie des jeux (il a sans doute le défaut de
surestimer la rationalité des acteurs, mais c'est néanmoins très
intéressant, et sa façon de présenter est rigolote),
‣ Spectacles qui
fait des analyses très intéressantes sur l'histoire d'événements
politiques du monde entier,
‣ PolyMatter qui
analyse plutôt des tendances économiques ou géopolitiques,
‣ Imperial qui est un
peu dans le même genre que les deux précédentes,
‣ Into Europe qui
analyse des questions économiques ou politiques en rapport avec
l'Europe ou l'Union européenne,
‣ Kraut the
Parrot qui parle d'histoire de la politique ou de la construction
des États et qui illustre ça avec des dessins style Polandball,
‣ Politics with
Paint qui parle de sujets entre la géographie et la géopolitique,
aussi dans le style Polandball,
‣ Versed, dont je
ne suis pas sûr de comprendre la ligne éditoriale mais en tout cas
c'est intéressant,
‣ fern, pareil, ils
parlent de toutes sortes de choses mais c'est plutôt bien,
‣ Let's Talk
Religion qui parle d'histoire ou de pratique des religions
(souvent je trouve que c'est un peu longuet mais en général c'est
quand même très instructif),
‣ Vox pour des explications
sur des sujets de société (généralement américains),
‣ Kurzgesagt pour de
la vulgarisation scientifique de toutes sortes de sujets avec des
dessins tellement mignons que c'est la peine de la regarder juste pour
les dessins (et pour la voix melliflue du narrateur),
‣ Sabine
Hossenfelder qui est devenue une star de la vulgarisation
scientifique (mais je pense que maintenant elle en fait trop et la
qualité se dégrade),
‣ PBS
Space Time pour des explications de divers sujets de physique
fondamentale,
‣ PBS Eons sur
la paléontologie et l'histoire de la vie sur Terre,
‣ History of the
Earth qui raconte l'histoire géologique et biologique de la Terre
à travers une série de documentaires très bien faits,
‣ Minute Earth pour
des vidéos de vulgarisation scientifiques super courtes, aussi avec
des dessins super mignons, sur des sujets autour de la biologie ou de
l'écologie, ‣ Minute
Physics pour le truc analogue pour la physique,
‣ 3Blue1Brown pour
de la (semi-)vulgarisation mathématique incroyablement bien
illustrée, ‣ JuLingo qui
présente toutes sortes de langues (mortes ou vivantes) les unes à la
suite des autres,
‣ Dr. Geoff
Lindsey, un phonéticien anglais qui explique des choses
fascinantes et souvent très rigolotes sur la prononciation de
l'anglais, ‣ K Klein qui
est un linguiste assez geek qui fait des vidéos rigolotes sur plein de
sujets, ‣ KhAnubis qui
parle un peu de tout et de n'importe quoi mais surtout de langues et
de géographie,
‣ J. J. McCullough
qui est un vloggueur canadien homo qui parle souvent de politique mais
pas seulement, ‣ Tom
Nicholas qui est un anglais qui fait des documentaires assez
intéressants souvent en rapport avec la politique mais pas seulement,
‣ The Tim
Traveller qui va visiter des endroits rigolos et fait des vidéos
très mignonnes pour raconter ce qu'il a vu,
‣ Le Nouveau
Programme qui parle d'architecture et d'urbanisme,
‣ The B1M qui parle de
construction et d'ingénierie,
‣ Now You See It qui
analyse le cinéma et toutes sortes de techniques au cinéma,
‣ Just Write qui
analyse le scénario de films et de séries télés. Ouf ! En commençant
cette liste je ne pensais pas qu'il y en aurait autant, et je suis
loin d'avoir tout listé. On voit en tout cas que ce n'est pas trop
difficile de trouver des choses intéressantes à regarder quasiment
chaque jour le temps d'un repas. (Peut-être que cette note aurait dû
être un billet de blog à elle toute seule, en fait. Tant pis.)
Et l'algorithme de recommandation de YouTube est devenu assez bon, en fait : autrefois (il y a peut-être 5 ou 10 ans ?) il ne proposait que des merdes ou juste d'autres vidéos de chaînes que j'ai déjà regardées (quand ce n'est pas simplement les mêmes vidéos que j'ai déjà regardées), mais maintenant il est assez bon pour proposer des vidéos qui m'intéressent et qui soient un peu différentes.
Mais pour que l'algorithme de recommandation fonctionne, il faut qu'il ait du feedback sur ce que je regarde et ce que j'aime. Ça c'est quelque chose que je suis prêt à donner à Google en échange des heures que je passe à regarder YouTube : des infos sur ce que j'aime regarder. Le deal me semble honnête (tant que j'ai le droit de contrôler ce qu'il stocke, et pour ça, il faut admettre que Google est sérieux, on peut consulter ce qu'ils enregistrent sur nous).
Seulement voilà, depuis quelques mois (je ne sais pas exactement combien, parce que j'ai mis du temps à me rendre compte du phénomène, par le fait que YouTube me reproposait des vidéos que j'étais sûr d'avoir déjà vues), un phénomène curieux se produit : mon historique YouTube s'efface automatiquement au bout de 46 jours.
Plus exactement, il retient les vidéos que j'ai vues jusqu'au (et ce, depuis 2010 environ, donc 14 ans de vidéos), mais, pour ce qui est des plus récentes, il ne retient que les 46 derniers jours. Donc au moment où j'écris, ça s'arrête le ; et entre les deux, il y a un gros gap, et ce gap grandit d'un jour chaque jour.
C'est assez hallucinant, comme bug. Un truc qui s'efface tout seul au bout d'un certain temps (et toujours le même temps), c'est vraiment difficile à faire par accident. Et de fait, Google a une option pour automatiquement effacer l'historique YouTube, mais j'ai bien vérifié qu'elle est désactivée (j'ai aussi essayé de la re-désactiver pour être bien sûr), et de toute manière elle ne propose que les valeurs de 3 mois, 18 mois ou 36 mois, pas 46 jours (ce qui ressemble suspicieusement à 1½ mois, d'ailleurs). Et j'imagine que si on l'active, ça efface les trucs carrément vieux aussi (alors que, comme je viens de le dire, mon historique remonte à 2010).
Donc je ne sais pas quoi penser de cette histoire.
Et le plus marrant, c'est que même YouTube ne comprend pas : je me suis plaint du problème sur Twitter, et de façon très surprenante, l'équipe officielle de YouTube sur Twitter m'a répondu (comme quoi Twitter peut encore servir un peu quand on arrive à naviguer entre les cacas de nazis qui empestent les couloirs), ils m'ont demandé de faire deux-trois essais et j'ai l'impression d'avoir interagi avec des humains, pas des IA (bon, peut-être que je me suis fait avoir, qui sait).
Toujours est-il qu'on ne sait pas ce qui se passe. J'ai essayé de déconnecter de Twitter tous les navigateurs qui l'utilisent et me reconnecter, j'ai essayer de faire une pause dans l'historique et la relancer, mais le problème persiste, les vidéos que j'ai vues il y a 46 jours s'effacent imperturbablement de mon historique.
Ce n'est pas que pour les recommandations que ça me chagrine, c'est
aussi pour l'archivage : c'est quand même bien pratique de pouvoir
rechercher dans l'historique de ce que j'ai regardé sur YouTube quand
je me rappelle ah oui, j'ai vu une vidéo intéressante sur tel
sujet
et que je veux la recommander à quelqu'un d'autre (c'est
plus simple de rechercher dans mon historique que dans tout
YouTube). Bon, maintenant que je suis au courant du problème, je
vais prendre l'habitude
de télécharger mon
historique YouTube tous les <46 jours et le sauvegarder chez moi,
mais ça restera forcément moins commode à rechercher dedans que si
c'est chez Google. Et en tout état de cause il y a environ un an de
vidéos que j'ai regardées dont il n'y a plus de trace nulle part.