David Madore's WebLog: Souriez : vous êtes loggués !

[English translation follows.]

Eh oui, une des distractions que fournit le fait d'avoir un site Web sur un serveur qu'on contrôle (au moins en bonne partie), c'est de pouvoir regarder les logs détaillés des accès au serveur. Là, par exemple, pour accéder à cette page, vous venez d'enregistrer une ligne dans notre fichier de logs, indiquant l'adresse d'origine de la requête, la date et heure, la requête exacte, et les champs Referer et User-Agent (s'ils étaient renseignés). En clair : le control freak que je suis sait qui vous êtes, ce que vous lisez ici, quand, avec quel navigateur (User-Agent), et éventuellement quel lien vous avez suivi pour venir ici (Referer). Pas de panique : non, en fait, je ne sais pas qui vous êtes sauf si votre machine a un nom aussi facilement identifiable que la mienne (dmadore.net1.nerim.net) ou si je peux deviner, par recoupement d'informations, qui vous êtes ; c'est un petit jeu de Sherlock Holmes assez rigolo, d'ailleurs, quand quelqu'un m'écrit à propos de mon site, d'essayer de retrouver ses requêtes dans le log du serveur. (Mais que ceci ne vous décourage pas de m'écrire des mails, s'il vous plaît !)

Il y a fort longtemps, je parcourais en diagonale, chaque semaine, la liste complète des accès à mon site Web. Maintenant, avec une trentaine de milliers d'accès (tout compté, pour toutes les pages de mon site) par semaine, je ne peux plus me permettre ce luxe, aussi control freak que je sois. C'est dommage, parce qu'on y trouve des choses amusantes, parfois. Mais je regarde au moins les accès à ce 'blog pour la journée, de temps en temps.

Ce qui est le plus rigolo, ce sont les champs Referer. Je suis sûr que si le webuser lambda apprenait que (sauf manœuvre spécifique de sa part pour contourner ce fait) chaque fois qu'il suit un lien, le site destination est renseigné sur l'URL de la page où se trouvait ce lien (en gros, c'est ça le Referer), il y aurait des crises cardiaques dans l'air. Ça m'amuse d'y penser. (Pour ma part, je garde constamment à l'esprit que je ne surfe pas du tout de façon anonyme : mon nom est dans le nom de ma machine, et je me rappelle à chaque fois que le Referer est renseigné (et je tiens à ce qu'il le soit) ; mais on aura remarqué que je ne suis pas du genre excessivement secret sur moi-même.) Le plus amusant, ce sont les moteurs de recherche, qui ont tous la bonne idée de mettre la requête de recherche dans l'URL de retour : donc, quand vous suivez un lien renvoyé par un moteur de recherche, la page à laquelle vous accédez saura quelle recherche vous avez faite pour y accéder. Soyez-en bien conscient. Si occasionnellement ça ne vous plaît pas, faites du copier-coller au lieu de suivre le lien (copiez le lien et collez-le dans la barre d'URL) ; si définitivement ça ne vous plaît pas, utilisez une extension à votre navigateur (comme celle-ci pour Mozilla) pour cacher le Referer ou en renseigner un faux (je n'aime vraiment pas la pratique consistant à en donner un faux : il vaut bien mieux ne pas le donner du tout, ce qui est tout à fait permis). Et si vous voulez encore plus d'anonymat, trouvez un proxy, cachez à la fois le Referer et le User-Agent, et faites-vous soigner pour paranoïa galopante.

Évidemment, les recherches Web qui aboutissent sur un 'blog sont souvent des erreurs. Voici les recherches Google qui ont abouti à mon 'blog aujourd'hui :

« climatisation accumulateur froid » sur les pages françaises,
« "umberto eco" salmon » sur les pages francophones (quelle idée de chercher « salmon » sur des pages francophones !?),
« harry potter phoenix constellation errors »,
« tuileries drague » (hum, hum),
« polices de caractères kung-fu » (pardon ?),
« bandana » sur les pages françaises (je suis mort de rire…).

Il y a aussi quelques requêtes passant par d'autres moteurs que Google. Souvent les requêtes prouvent que les gens sont vraiment trop idiots pour utiliser un moteur de recherche (je ne vous dis pas le nombre de requêtes qu'on trouve qui révèlent que quelqu'un a tapé une question complète en anglais dans le champ recherche du moteur ; bon, je sais que certains moteurs essaient de gérer ça, voire de l'encourager, mais quand même !). Google semble être encore ce qui est utilisé par les gens les plus malins.

[Traduction anglaise de ci-dessus.]

Yes: one of the distractions provided by the fact of having a Web site on a server one controls (at least in great part) is to be able to look at the detailed server access logs. Now, for example, to access this page, you just recorded a line in our log file, indicating the origin address for the request, the date and time, the exact request, and the Referer and User-Agent fields (if provided). In other words: the control freak that I am knows who you are, what you are reading here, when, with what navigator (User-Agent), and possibly which link you followed to come here (Referer). No need to panic: no, actually, I don't know who you are except if your machine has a name as easily identifiable as mine (dmadore.net1.nerim.net) or if I can guess, by comparing evidence, who you are; it is a rather fun little game of Sherlock Holmes, actually, when someone writes to me about my site, to try to find his requests in the server log. (But don't let this discourage you from sending me email, please!)

A rather long time ago, I glanced every week through the complete access list to my Web site. Now, with about thirty thousand accesses (all counted, for all the pages of my site) per week, I can't afford that luxury any more, no matter how control freak I am. Which is too bad, because one sometimes finds amusing things in it. But at least I occasionally look at the day's accesses to this 'blog.

The most amusing thing is Referer fields. I am sure that if Joe Random webuser learned that (barring special maneuver on his part to work around this fact) every time he follows a link, the target site is informed of the URL of the page where the link was (essentially, that is the Referer), some people would have strokes. It amuses me to think about it. (For my own part, I constantly keep in mind that I am not at all anonymous when surfing: my name is in my machine's name, and I constantly remember that the Referer is provided (and I wish it to be); but one will have noticed that I am not exactly overly secret about myself.) The most amusing thing is search engines, which all have the good idea of putting the search request in the return URL: so, when you follow a link returned by a search engine, the page you access knows which request you performed to get there. Be aware of that. If you occasionally don't like this, do some copy-pasting instead of following the link (copy the link and paste it in the URL bar); if you definitely don't like this, use an extension of your browser (such as this one for Mozilla) to hide the Referer or provide a false one (I really don't like the practice consisting of giving a false one: it is much better not to give it at all, which is quite allowed). And if you want even more anonymity, find a proxy, hide both the Referer and User-Agent fields, and have yourself treated for galloping paranoia.

Of course, Web searches which end up on a 'blog are often errors. Here are the Google searches which led to my 'blog today:

« climatisation accumulateur froid » on French pages,
« "umberto eco" salmon » on French language pages (what a strange idea to sarch for « salmon » on French language pages!?),
« harry potter phoenix constellation errors »,
« tuileries drague » (hmm, hmm),
« polices de caractères kung-fu » (excuse me?),
« bandana » on French pages (I'm howling with laughter).

There are also a few requests by other crawlers than Google. Often requests prove that people are really too stupid to use a search engine (I won't tell you how many requests one finds which show that someone typed a complete English question in the crawler's search field; all right, I know that certain engines try to handle that, or even encourage it, but really!). Google still seems to be the one which is used by the smarter people.

[BTW, I am aware that the English word “referrer” is spelled with two ‘r’'s. But a spelling error by one of the Web pioneers and still with us now and forever means that in the context of the Web, it is written “Referer”, because that is the field's name in HTTP.]