David Madore's WebLog: Que nous enseignent les statistiques Wikipédia ?

[Index of all entries / Index de toutes les entréesLatest entries / Dernières entréesXML (RSS 1.0) • Recent comments / Commentaires récents]

↓Entry #2062 [older| permalink|newer] / ↓Entrée #2062 [précédente| permalien|suivante] ↓

(jeudi)

Que nous enseignent les statistiques Wikipédia ?

Je pense que trop peu de gens sont au courant de l'existence de ce petit outil rigolo qui permet de connaître le nombre de consultations, jour par jour, de n'importe quel article de n'importe quelle Wikipedia. C'est intéressant non seulement pour faire des comparaisons entre articles (il y a ici une liste des articles les plus consultés, mais bizarrement c'est uniquement pour le mois de décembre 2010) ou pour mesurer les phénomènes d'intérêt transitoires.

Par exemple, qu'est-ce qui a pu arriver à Messieurs François Hollande et Jean-Marc Ayrault expliquant un pic de consultations de leurs pages (dans la Wikipédia en anglais) vers la mi-mai ? on se le demande bien ; encore plus impressionnante est le graphique correspondant pour le boson de Higgs, à comparer à une page « tranquille » comme celle sur la France (la plupart des variations sont juste des fluctuations aléatoires ou hebdomadaires, mais j'avoue ne pas comprendre le pic du 25–26 juin). Les statistiques de la page du Ramadan est aussi intéressante à regarder, comme celle des jeux olympiques ou de la planète Mars : la différence est intéressante, et finalement pas si importante que ça, entre un événement connu longtemps à l'avance et un autre qui ne l'était pas (disons la mort de Gore Vidal). Pour des phénomènes plus complexes, on peut prendre par exemple Bashar al-Assad, Élisabeth II (pas que je veuille comparer les deux personnes !), ou encore le contrôle des armes.

Il serait intéressant de modéliser la décroissance d'intérêt après un des pics qu'on voit sur la plupart des graphiques que je viens de référencer : je suppose qu'elle est plus ou moins exponentielle, mais le temps caractéristique est-il à peu près le même à chaque fois ? ce serait une sorte de mesure de l'attention span (comment on dit ça en français ? intervalle d'attention) d'Internet. Ou peut-on caractériser les pics événementiels par deux quantités, leur hauteur (rapport entre la hauteur du pic et le niveau moyen typique de consultation de l'article avant le pic) et leur temps caractéristique ?

↑Entry #2062 [older| permalink|newer] / ↑Entrée #2062 [précédente| permalien|suivante] ↑

[Index of all entries / Index de toutes les entréesLatest entries / Dernières entréesXML (RSS 1.0) • Recent comments / Commentaires récents]