David Madore's WebLog: L'Internet Archive et YouTube veulent me rendre malheureux

[Index of all entries / Index de toutes les entréesLatest entries / Dernières entréesXML (RSS 1.0) • Recent comments / Commentaires récents]

↓Entry #2820 [older| permalink|newer] / ↓Entrée #2820 [précédente| permalien|suivante] ↓

(vendredi)

L'Internet Archive et YouTube veulent me rendre malheureux

Les bugs informatiques sont pénibles en général, mais particulièrement frustrant quand ils concernent des choses sur lesquelles on n'a aucune prise. En l'occurrence, j'en ai concernant deux sites que j'utilise beaucoup : l'Internet Archive et YouTube ; et les deux chagrinent beaucoup mon côté obsédé par la préservation de l'information : à savoir, l'Internet Archive n'arrive plus à archiver ce site Web et YouTube efface mon historique au bout de 46 jours.

L'Internet Archive n'arrive plus à archiver ce site Web

L'Internet Archive, j'en ai déjà parlé dans le billet lié ci-dessus, c'est le bibliothécaire d'Internet : c'est à la fois une collection immense de livres et d'autres documents numérisés (certains dans le domaine public et librement téléchargeables, certains « empruntables » à diverses collections), mais aussi et surtout la Wayback Machine, un outil librement disponible pour faire des sauvegardes de pages Web publiquement accessibles (la Wayback Machine sauvegarde certaines pages Web de sa propre initiative, mais on peut aussi lui demander explicitement de faire une sauvegarde de telle ou telle page).

Si vous voulez vous en servir pour sauver une page, c'est ici que ça se passe (par défaut on a juste l'option de sauvegarder une page, mais si on crée un compte et qu'on se connecte, il y a quelques options supplémentaires qui apparaissent, comme celle de suivre les liens ou de capturer une image). Et si vous voulez sauvegarder tout un tas de pages, ou vérifier la présence de tout un tas de pages sur l'Archive, il y a ce service qui vous permet de mettre les liens dans un tableau Google Sheets et traiter les choses en bloc.

Je me sers régulièrement de l'Archive pour faire des « copies de sauvegarde » des billets de ce blog (et autres pages de ce site) : non seulement je demande à la Wayback Machine d'archiver (y compris en suivant les liens) chaque nouveau billet que j'écris dans ce blog, mais en plus, quand je fais un changement non-trivial sur le billet, je refais une sauvegarde. Et pour être sûr que je n'ai rien oublié, tous les quelques mois, j'utilise le service automatisé pour récupérer la date de la dernière archive de chaque billet de mon blog, comparer à la date de dernière modification, et si cette dernière est plus récente, refaire un archivage.

Enfin, ça c'est en temps normal, parce qu'en ce moment, ça ne marche plus sur mon site. En ce moment, ça veut dire depuis environ deux semaines, vu qu'une sauvegarde de l'avant-dernier billet a été enregistrée le , mais que le je n'arrivais plus à rien sauvegarder. Enfin, tout ça n'est peut-être pas 100% reproductible (il y a quand même une sauvegarde datée du dernier billet qui est apparue sur l'Archive, mais je pense que ce n'est pas moi qui l'ai faite, parce qu'à chaque fois que j'ai essayé, ça a échoué), mais globalement ça ne marche plus bien, voire plus du tout.

Ce qui se passe est que j'entre l'URL à sauvegarder dans le formulaire Web de l'Archive, ça mouline pendant environ une minute (ça c'est plus ou moins « normal », ça le fait tout le temps) et au final j'ai le message d'erreur : Save Page Now could not capture this URL because it was unreachable. (Vous pouvez tester en tentant de de demander une sauvegarde de votre billet préféré sur ce blog, d'ailleurs je vous encourage à le faire de temps en temps, des fois que ça marcherait quand même.) Si on réessaie, le message d'erreur apparaît presque instantanément, ce qui suggère que l'échec est gardé dans une sorte de cache.

J'ai essayé de contacter quelqu'un chez l'Internet Archive, mais je ne sais pas comment faire. J'ai écrit à info[arobase]archive[point]org, mais je pense que ça tombe juste à la poubelle, en tout cas, personne ne m'a répondu (je pense qu'ils sont complètement débordés). J'ai essayé de les contacter via les réseaux sociaux, sans plus de succès.

J'avais déjà rencontré ce problème en novembre dernier : j'avais écrit les détails sur une question posée sur le StackExchange Webmasters, mais je n'ai pas vraiment eu de réponse ni de suggestion utile, et c'est retombé en marche tout seul quelques semaines plus tard (je ne sais plus exactement quand). Comme à l'époque, l'Internet Archive venait d'être victime d'une cyberattaque importante, j'avais attribué le problème à cette attaque, ou à la réponse à cette attaque, et comme de toute façon ça s'est remis à marcher, je n'ai pas cherché plus loin.

Pour ce qui est de diagnostiquer le problème, je signale d'abord que ce n'est pas un problème de robots.txt (je dis ça parce que c'est la première réaction quand je parle du problème, et c'est assez normal). Je le sais pour plein de raisons : mon robots.txt n'a pas changé récemment, il n'interdit de toute façon pas les pages en question, mais par ailleurs la Wayback Machine ne consulte pas le robots.txt (au moins si on fait une requête explicite de sauvegarde) ; et de toute façon, je sais par mes logs que la requête est envoyée, c'est la réponse qui n'est pas (bien) reçue.

Ça semble être un problème de timeout : quand je demande à la Wayback Machine d'archiver une de mes pages, mon serveur reçoit bien la requête, il commence à envoyer les données, l'autre côté en ACKe une partie, et puis, brutalement, ferme la connexion (mon serveur reçoit un RST au niveau TCP). S'il y a des gens qui connaissent encore l'art de lire des tcpdump, ça ressemble à ceci (où 163.172.24.223 est mon serveur et 207.241.235.134 est celui de l'Archive ; scrollez pour voir l'ensemble de la trace, qui a 35 lignes) :

      1 2025-03-28 16:07:37.274134    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [SYN, ECE, CWR] Seq=0 Win=64240 Len=0 MSS=1396 SACK_PERM TSval=2277345292 TSecr=0 WS=128
      2 2025-03-28 16:07:37.274175    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [SYN, ACK, ECE] Seq=0 Ack=1 Win=65160 Len=0 MSS=1460 SACK_PERM TSval=1216146941 TSecr=2277345292 WS=128
      3 2025-03-28 16:07:37.406425    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [ACK] Seq=1 Ack=1 Win=64256 Len=0 TSval=2277345425 TSecr=1216146941
      4 2025-03-28 16:07:37.406667    207.241.235.134       163.172.24.223        HTTP     GET /~david/weblog/?1743177915 HTTP/1.1 
      5 2025-03-28 16:07:37.406713    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [ACK] Seq=1 Ack=397 Win=64768 Len=0 TSval=1216147074 TSecr=2277345425
      6 2025-03-28 16:07:37.408958    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=1 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU]
      7 2025-03-28 16:07:37.408988    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=2769 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU]
      8 2025-03-28 16:07:37.408998    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=5537 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU]
      9 2025-03-28 16:07:37.409230    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=8305 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU]
     10 2025-03-28 16:07:37.409250    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=11073 Ack=397 Win=64768 Len=2768 TSval=1216147076 TSecr=2277345425 [TCP segment of a reassembled PDU]
     11 2025-03-28 16:07:37.541302    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [ACK] Seq=397 Ack=2769 Win=63232 Len=0 TSval=2277345560 TSecr=1216147076
     12 2025-03-28 16:07:37.541334    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=13841 Ack=397 Win=64768 Len=2768 TSval=1216147208 TSecr=2277345560 [TCP segment of a reassembled PDU]
     13 2025-03-28 16:07:37.541349    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=16609 Ack=397 Win=64768 Len=2768 TSval=1216147208 TSecr=2277345560 [TCP segment of a reassembled PDU]
     14 2025-03-28 16:07:37.541547    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [ACK] Seq=397 Ack=5537 Win=60800 Len=0 TSval=2277345560 TSecr=1216147076
     15 2025-03-28 16:07:37.541548    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [ACK] Seq=397 Ack=8305 Win=58880 Len=0 TSval=2277345560 TSecr=1216147076
     16 2025-03-28 16:07:37.541548    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [ACK] Seq=397 Ack=11073 Win=56832 Len=0 TSval=2277345560 TSecr=1216147076
     17 2025-03-28 16:07:37.541548    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [ACK] Seq=397 Ack=13841 Win=54400 Len=0 TSval=2277345560 TSecr=1216147076
     18 2025-03-28 16:07:37.541572    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=19377 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU]
     19 2025-03-28 16:07:37.541595    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=22145 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU]
     20 2025-03-28 16:07:37.541611    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=24913 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU]
     21 2025-03-28 16:07:37.541847    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=27681 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU]
     22 2025-03-28 16:07:37.541870    163.172.24.223        207.241.235.134       TCP      http(80) → 54942 [PSH, ACK] Seq=30449 Ack=397 Win=64768 Len=2768 TSval=1216147209 TSecr=2277345560 [TCP segment of a reassembled PDU]
     23 2025-03-28 16:07:37.541901    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST, ACK] Seq=397 Ack=13841 Win=64128 Len=0 TSval=2277345560 TSecr=1216147076
     24 2025-03-28 16:07:37.673723    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST] Seq=397 Win=0 Len=0
     25 2025-03-28 16:07:37.673724    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST] Seq=397 Win=0 Len=0
     26 2025-03-28 16:07:37.673966    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST] Seq=397 Win=0 Len=0
     27 2025-03-28 16:07:37.674212    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST] Seq=397 Win=0 Len=0
     28 2025-03-28 16:07:37.674212    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST] Seq=397 Win=0 Len=0
     29 2025-03-28 16:07:37.674212    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST] Seq=397 Win=0 Len=0
     30 2025-03-28 16:07:37.674212    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST] Seq=397 Win=0 Len=0
     31 2025-03-28 16:07:37.674213    207.241.235.134       163.172.24.223        TCP      54942 → http(80) [RST] Seq=397 Win=0 Len=0
     32 2025-03-28 16:07:40.346538    207.241.237.136       163.172.24.223        TCP      47264 → https(443) [SYN, ECE, CWR] Seq=0 Win=64240 Len=0 MSS=1396 SACK_PERM TSval=722241495 TSecr=0 WS=128
     33 2025-03-28 16:07:40.346564    163.172.24.223        207.241.237.136       TCP      https(443) → 47264 [RST, ACK] Seq=1 Ack=1 Win=0 Len=0
     34 2025-03-28 16:07:40.628238    207.241.225.229       163.172.24.223        TCP      39280 → https(443) [SYN, ECE, CWR] Seq=0 Win=64240 Len=0 MSS=1396 SACK_PERM TSval=4199018082 TSecr=0 WS=128
     35 2025-03-28 16:07:40.628277    163.172.24.223        207.241.225.229       TCP      https(443) → 39280 [RST, ACK] Seq=1 Ack=1 Win=0 Len=0

En plus clair, l'Archive ouvre une connexion à 16:07:37.274134, envoie une requête à 16:07:37.406667, accuse réception des 13841 premiers octets reçus (16:07:37.541548), et tout d'un coup, à 16:07:37.541901, déclare brutalement la connexion fermée (donc 268ms après avoir ouvert la connexion, 135ms après avoir envoyé la requête, et même pas 1ms après avoir le dernier accusé de réception qu'elle a envoyé).

Mais si c'est un timeout, il est hyper court : personne ne s'attend sérieusement à ce qu'un site Web typique puisse envoyer complètement une page un peu volumineuse à peine 135ms après la réception de la requête (après tout, 135ms c'est à peine le temps qu'il faut à la lumière pour faire le tour de la Terre).

Et je ne comprends pas non plus pourquoi ça n'affecterait que mon site. Peut-être que c'est parce qu'il est accessible uniquement en HTTP (pour les raisons qu'on sait), ce qui devient de plus en plus rare à une époque où tout le monde veut mettre du HTTPS partout, même sur des sites complètement publics et sans aucun élément confidentiel : peut-être que l'Archive a un timeout différent en HTTP et en HTTPS et que celui en HTTP a été (provisoirement ? accidentellement ? comme effet de bord d'autre chose ?) placé à une valeur très basse, et que personne ne s'en est rendu compte parce qu'il n'y a que très peu de sites en HTTP (et qu'en plus, s'ils sont situés à une distance faible de l'Archive, c'est-à-dire de la Californie, ça peut quand même passer avec un timeout court).

Bref, si des gens ont des éléments de réponse, ou des conjectures, à proposer, je suis preneur. (Peut-être que je peux jouer avec les paramètres TCP pour envoyer plus rapidement toute la page, mais je ne sais pas si je veux vraiment jouer avec ça.)

Même si je cédais et que je rendais mon site accessible en HTTPS (ce que je vais certainement finir par faire un jour ou un autre quand cette merde sera devenue vraiment inévitable), ça ne réglerait vraiment rien : d'abord, je ne suis pas certain que ce soit vraiment le problème (c'est quand même super compliqué à tester vu combien HTTPS est une abomination à configurer, et je ne peux pas prendre le risque de le faire sur ce serveur-là des fois que Google découvrirait le port 443 ouvert et commencerait à la visiter) ; et même si c'est le cas, il faut quand même que l'Archive puisse archiver la version HTTP des pages, parce que rien ne garantit la manière dont les gens les chercheraient (il y a des permaliens en HTTP qui ont été publiés, donc ils doivent rester valables indéfiniment, au minimum sous forme de redirection, donc si je passe en HTTPS ça m'oblige à refaire tout l'archivage en double, en fait).

*

Bon, en attendant, il y a un autre service d'archive que je peux utiliser, c'est celui de archive.today (je ne comprends pas bien qui l'héberge, mais cf. la page Wikipédia à son sujet pour plus d'explication). J'ai veillé à ce que « beaucoup » de mes billets de blog « importants » soient archivés dessus (par exemple, le dernier est ici), mais il ne semble pas y avoir de mécanisme pour automatiser le processus, et je n'ai pas envie de lancer manuellement 2820 requêtes d'archivage. En plus de ça, archive.today a un défaut (qui est peut-être un avantage dans certaines circonstances, mais certainement un défaut sur mon blog), c'est que comme il est prévu pour archiver des pages avec du JavaScript compliqué (ce que mon blog n'a pas !) il considère qu'une adresse en #fragment n'est pas la même que l'adresse sans le #fragment (voyez ce passage de ce billet pour des explications sur la signification de ces identificateurs de fragment). Or sur mon blog, les permaliens ressemblent indifféremment à http://www.madore.org/~david/weblog/d.2025-03-28.2820.archive-youtube-woes.html#d.2025-03-28.2820 ou juste à http://www.madore.org/~david/weblog/d.2025-03-28.2820.archive-youtube-woes.html ça ne change rien, le fragment sert juste à se positionner en tête du billet plutôt qu'en tête de la page, mais archive.today considère quand même que ce sont deux pages distinctes : bref, certains de mes billets sont archivés avec le fragment, d'autres sans, et c'est un peu la merde.

Passons à autre chose, qui n'a rien à voir.

YouTube efface mon historique au bout de 46 jours

Je regarde beaucoup de vidéos sur YouTube. Mon poussinet et moi avons même un ordi dans le salon (où nous mangeons) qui nous sert en gros spécialement à regarder des vidéos pendant que nous dînons — parfois des films ou des documentaires (par exemple téléchargés via le site Web d'Arte ou de France.tv) mais juste YouTube. (L'ordi en question est connecté à la télé, et à un écran et une souris sans fil. La télé ne nous sert quasiment plus à regarder la télé, même si, pour autant que je sache, elle marche encore : la seule chaîne que nous aimions regarder régulièrement était France 24, qui est la seule chaîne d'info potable en France, mais elle n'est plus disponible sur la TNT alors même si on la regarde ce sera via l'ordi.)

Je ne sais pas par quel miracle, je continue à échapper aux pubs sur YouTube : j'utilise juste Firefox avec uBlock Origin, et pour l'instant je n'ai jamais vu une seule pub sur YouTube. (Peut-être qu'un jour ça cessera de marcher, et alors j'arrêterai de regarder YouTube parce que, de ce que je comprends, leurs pubs sont atrocement envahissantes et insupportables, mais tant que ça marche, eh bien j'en profite.)

Je regarde pas mal de choses (forcément très éclectiques, vous me connaissez si vous lisez ce blog) : globalement, il y a plein de mini-documentaires très bien faits sur énormément de sujets[#] sur YouTube.

[#] Je peux en profiter pour recommander quelques chaînes que je regarde assez souvent et que je trouve intéressantes (dans un ordre assez aléatoire) : ‣ Garrett Ryan (Told in Stone) pour des choses sur l'antiquité gréco-romaine souvent sous l'angle de la vie courante, ‣ Tribunate pour l'antiquité romaine sous un angle plus politique et parfois avec un regard vers le présent, ‣ History Matters pour des petites questions d'histoire présentées de façon super rigolote, ‣ Look Back History qui est un peu semblable mais en moins drôle, ‣ The Cold War sur (l'histoire de) la guerre froide spécifiquement, ‣ Patrick Kelly qui raconte des choses extrêmement intéressantes sur l'histoire de la médecine, ‣ Chemistorian pour l'histoire de la chimie, ‣ Kathy Loves Physics pour l'histoire de la physique (présentée par une dame super enthousiaste), ‣ Legal Eagle pour toutes sortes d'explications sur le droit américain (qui sont en ce moment surtout des analyses de toutes les illégalités commises par l'administration Trump), ‣ William Spaniel (Lines on Maps) pour une analyse de la géopolitique sous l'angle de la théorie des jeux (il a sans doute le défaut de surestimer la rationalité des acteurs, mais c'est néanmoins très intéressant, et sa façon de présenter est rigolote), ‣ Spectacles qui fait des analyses très intéressantes sur l'histoire d'événements politiques du monde entier, ‣ PolyMatter qui analyse plutôt des tendances économiques ou géopolitiques, ‣ Imperial qui est un peu dans le même genre que les deux précédentes, ‣ Into Europe qui analyse des questions économiques ou politiques en rapport avec l'Europe ou l'Union européenne, ‣ Kraut the Parrot qui parle d'histoire de la politique ou de la construction des États et qui illustre ça avec des dessins style Polandball, ‣ Politics with Paint qui parle de sujets entre la géographie et la géopolitique, aussi dans le style Polandball, ‣ Versed, dont je ne suis pas sûr de comprendre la ligne éditoriale mais en tout cas c'est intéressant, ‣ fern, pareil, ils parlent de toutes sortes de choses mais c'est plutôt bien, ‣ Let's Talk Religion qui parle d'histoire ou de pratique des religions (souvent je trouve que c'est un peu longuet mais en général c'est quand même très instructif), ‣ Vox pour des explications sur des sujets de société (généralement américains), ‣ Kurzgesagt pour de la vulgarisation scientifique de toutes sortes de sujets avec des dessins tellement mignons que c'est la peine de la regarder juste pour les dessins (et pour la voix melliflue du narrateur), ‣ Sabine Hossenfelder qui est devenue une star de la vulgarisation scientifique (mais je pense que maintenant elle en fait trop et la qualité se dégrade), ‣ PBS Space Time pour des explications de divers sujets de physique fondamentale, ‣ PBS Eons sur la paléontologie et l'histoire de la vie sur Terre, ‣ History of the Earth qui raconte l'histoire géologique et biologique de la Terre à travers une série de documentaires très bien faits, ‣ Minute Earth pour des vidéos de vulgarisation scientifiques super courtes, aussi avec des dessins super mignons, sur des sujets autour de la biologie ou de l'écologie, ‣ Minute Physics pour le truc analogue pour la physique, ‣ 3Blue1Brown pour de la (semi-)vulgarisation mathématique incroyablement bien illustrée, ‣ JuLingo qui présente toutes sortes de langues (mortes ou vivantes) les unes à la suite des autres, ‣ Dr. Geoff Lindsey, un phonéticien anglais qui explique des choses fascinantes et souvent très rigolotes sur la prononciation de l'anglais, ‣ K Klein qui est un linguiste assez geek qui fait des vidéos rigolotes sur plein de sujets, ‣ KhAnubis qui parle un peu de tout et de n'importe quoi mais surtout de langues et de géographie, ‣ J. J. McCullough qui est un vloggueur canadien homo qui parle souvent de politique mais pas seulement, ‣ Tom Nicholas qui est un anglais qui fait des documentaires assez intéressants souvent en rapport avec la politique mais pas seulement, ‣ The Tim Traveller qui va visiter des endroits rigolos et fait des vidéos très mignonnes pour raconter ce qu'il a vu, ‣ Le Nouveau Programme qui parle d'architecture et d'urbanisme, ‣ The B1M qui parle de construction et d'ingénierie, ‣ Now You See It qui analyse le cinéma et toutes sortes de techniques au cinéma, ‣ Just Write qui analyse le scénario de films et de séries télés. Ouf ! En commençant cette liste je ne pensais pas qu'il y en aurait autant, et je suis loin d'avoir tout listé. On voit en tout cas que ce n'est pas trop difficile de trouver des choses intéressantes à regarder quasiment chaque jour le temps d'un repas. (Peut-être que cette note aurait dû être un billet de blog à elle toute seule, en fait. Tant pis.)

Et l'algorithme de recommandation de YouTube est devenu assez bon, en fait : autrefois (il y a peut-être 5 ou 10 ans ?) il ne proposait que des merdes ou juste d'autres vidéos de chaînes que j'ai déjà regardées (quand ce n'est pas simplement les mêmes vidéos que j'ai déjà regardées), mais maintenant il est assez bon pour proposer des vidéos qui m'intéressent et qui soient un peu différentes.

Mais pour que l'algorithme de recommandation fonctionne, il faut qu'il ait du feedback sur ce que je regarde et ce que j'aime. Ça c'est quelque chose que je suis prêt à donner à Google en échange des heures que je passe à regarder YouTube : des infos sur ce que j'aime regarder. Le deal me semble honnête (tant que j'ai le droit de contrôler ce qu'il stocke, et pour ça, il faut admettre que Google est sérieux, on peut consulter ce qu'ils enregistrent sur nous).

Seulement voilà, depuis quelques mois (je ne sais pas exactement combien, parce que j'ai mis du temps à me rendre compte du phénomène, par le fait que YouTube me reproposait des vidéos que j'étais sûr d'avoir déjà vues), un phénomène curieux se produit : mon historique YouTube s'efface automatiquement au bout de 46 jours.

Plus exactement, il retient les vidéos que j'ai vues jusqu'au (et ce, depuis 2010 environ, donc 14 ans de vidéos), mais, pour ce qui est des plus récentes, il ne retient que les 46 derniers jours. Donc au moment où j'écris, ça s'arrête le  ; et entre les deux, il y a un gros gap, et ce gap grandit d'un jour chaque jour.

C'est assez hallucinant, comme bug. Un truc qui s'efface tout seul au bout d'un certain temps (et toujours le même temps), c'est vraiment difficile à faire par accident. Et de fait, Google a une option pour automatiquement effacer l'historique YouTube, mais j'ai bien vérifié qu'elle est désactivée (j'ai aussi essayé de la re-désactiver pour être bien sûr), et de toute manière elle ne propose que les valeurs de 3 mois, 18 mois ou 36 mois, pas 46 jours (ce qui ressemble suspicieusement à 1½ mois, d'ailleurs). Et j'imagine que si on l'active, ça efface les trucs carrément vieux aussi (alors que, comme je viens de le dire, mon historique remonte à 2010).

Donc je ne sais pas quoi penser de cette histoire.

Et le plus marrant, c'est que même YouTube ne comprend pas : je me suis plaint du problème sur Twitter, et de façon très surprenante, l'équipe officielle de YouTube sur Twitter m'a répondu (comme quoi Twitter peut encore servir un peu quand on arrive à naviguer entre les cacas de nazis qui empestent les couloirs), ils m'ont demandé de faire deux-trois essais et j'ai l'impression d'avoir interagi avec des humains, pas des IA (bon, peut-être que je me suis fait avoir, qui sait).

Toujours est-il qu'on ne sait pas ce qui se passe. J'ai essayé de déconnecter de Twitter tous les navigateurs qui l'utilisent et me reconnecter, j'ai essayer de faire une pause dans l'historique et la relancer, mais le problème persiste, les vidéos que j'ai vues il y a 46 jours s'effacent imperturbablement de mon historique.

Ce n'est pas que pour les recommandations que ça me chagrine, c'est aussi pour l'archivage : c'est quand même bien pratique de pouvoir rechercher dans l'historique de ce que j'ai regardé sur YouTube quand je me rappelle ah oui, j'ai vu une vidéo intéressante sur tel sujet et que je veux la recommander à quelqu'un d'autre (c'est plus simple de rechercher dans mon historique que dans tout YouTube). Bon, maintenant que je suis au courant du problème, je vais prendre l'habitude de télécharger mon historique YouTube tous les <46 jours et le sauvegarder chez moi, mais ça restera forcément moins commode à rechercher dedans que si c'est chez Google. Et en tout état de cause il y a environ un an de vidéos que j'ai regardées dont il n'y a plus de trace nulle part.

↑Entry #2820 [older| permalink|newer] / ↑Entrée #2820 [précédente| permalien|suivante] ↑

[Index of all entries / Index de toutes les entréesLatest entries / Dernières entréesXML (RSS 1.0) • Recent comments / Commentaires récents]