En écrivant l'entrée précédente, j'ai eu envie de jeter un œil à des séries de données historiques de températures à Paris (ou ailleurs, mais il se trouve que j'habite Paris, donc ça m'intéresse un peu plus), à la fois pour répondre à des questions un peu sérieuses (quel est le profil d'évolution des températures moyennes ? des températures moyennes d'été et d'hiver ? des minimales et maximales quotidiennes ? des extrêmes ? de la variance des températures ? etc.) et moins sérieuses[#]. Mais où trouver ces données ?
[#] À titre d'exemple,
j'aime bien celle-ci :
si T(y,d,h) désigne la
température mesurée à Paris à l'heure h du
jour d de l'année y (avec 0≤h≤24,
0≤d≤365 et 1870≤y≤2022 par
exemple)[#b], que valent les
huit quantités
maxy maxd maxh T(y,d,h),
maxy maxd minh T(y,d,h),
maxy mind maxh T(y,d,h),
maxy mind minh T(y,d,h),
miny maxd maxh T(y,d,h),
miny maxd minh T(y,d,h),
miny mind maxh T(y,d,h),
miny mind minh T(y,d,h) ?
Je trouve que c'est intéressant de réfléchir à la signification
intuitive de ces huit nombres et d'essayer de s'imaginer leurs valeurs
approximatives
(maxh T(y,d,h)
est ce qu'on appelle usuellement la température maximale du jour ou
abusivement température diurne, et
minh T(y,d,h)
la température minimale ou abusivement température nocturne, donc
argmaxd maxh T(y,d,h)
est le jour le plus chaud de l'année tandis que
argmaxd minh T(y,d,h)
est la nuit la plus chaude, et on aboutit à des descriptions
comme le jour le plus chaud jamais enregistré
, la nuit la
plus chaude jamais enregistrée
, l'hiver aux jours les plus
doux
, l'hiver aux nuits les plus douces
, l'été aux jours
les moins chauds
, l'été aux nuits les moins chaudes
, le
jour la plus froid jamais enregistré
et la nuit la plus froide
jamais enregistrée
) ; j'aimerais bien avoir des données permettant
de les calculer de façon fiable comme
je l'ai
fait ici sur des données assez courtes. [Mise à
jour () :
et ici
sur des données remontant à 1900.]
[#b] Bon, pour critiquer un peu cet exemple, autant un max max ou min min est clairement bien défini, autant un max min ou un min max dépend de la manière dont on découpe les jours ou les années. L'heure variant de minuit à minuit est raisonnable parce que ni le maximum ni le minimum journalier ne sont normalement atteints autour de minuit, mais l'année devrait plutôt être découpée de septembre à août pour éviter que le minimum annuel ne soit arbitrairement placé dans une année ou une autre selon qu'il tombe juste avant ou juste après le 1er janvier. On peut aussi s'interroger sur des quantités comme mind maxy maxh T(y,d,h) ou maxy maxh mind T(y,d,h) qui diffèrent possiblement de maxy mind maxh T(y,d,h) et essayer de se représenter intuitivement la différence.
Assez naïvement, je me suis dit, les données météo, c'est quelque
chose de complètement public, et même spectaculairement public : il
doit y avoir plein de gens qui les archivent et ça doit être très
facile d'en trouver des compilations en ligne. Inversement, il y a
plein de gens qui vous sortent régulièrement des statistiques du
type c'est l'hiver le moins froid depuis YYYY
: il
doit y avoir un endroit publiquement accessible où on trouve les
données brutes permettant de faire ce genre d'affirmation. Que
nenni.
Et ce qui est particulièrement frustrant, c'est qu'il y a plein d'endroits qui semblent avoir de telles données ou vous les promettent, mais les données elles-mêmes sont introuvables. Par exemple, Météo France a un site web appelé Données publiques. Ça a l'air prometteur, ça, n'est-ce pas ? Eh bien ce site web est un peu comme cette vieille blague de l'époque soviétique :
Un soviétique de passage à Moscou décide d'aller au Goum pour s'acheter des chaussures. Il suit un premier signe vers le rayon habillement, puis un signe lui offre le choix entre différents articles d'habillement, il suit la direction
chaussures. Il a ensuite le choix entrechaussures pour homme,chaussures pour femmeetchaussures enfant, il suit le premier. Ceci l'amène à un nouveau choix entrechaussures techniques,chaussures de villeetchaussures de sport. Il suitchaussures de ville, et le voilà face à un choix entrechaussures noiresetchaussures colorées. Il suit encore un autre signe puis un autre puis encore un autre jusqu'à sélectionner sa pointure, tombe sur une dernière porte et… se retrouve dans la rue.
Mais je ne comprends pas ? Où sont les chaussures ?demande-t-il à un passant.
Oh, nous n'avons pas de chaussures,lui répond le passant.Mais vous avez vu ? Quelle organisation !
En tout cas, je ne trouve rien sur ce site de Météo France qui corresponde à ma recherche de relevés météo (au moins les températures maximales et minimales par jour) en un lieu donné (disons, Paris) sur une longue période.
On m'a aussi signalé Infoclimat, qui a une
section Open Data,
mais là non plus, je ne trouve pas où on télécharge les données en
bloc. Il y a un truc permettant de créer un compte pour
télécharger 7 jours consécutifs maximum
: c'est une blague ou
quoi ? Je veux quelque chose comme 150 ans d'archives, pas 7 jours,
moi.
Je comprends éventuellement que l'association qui
gère[#2] Infoclimat ait peur
d'être noyée sous le volume des téléchargements, mais il y a une
solution simple : mettre ces données sur GitHub ou quelque chose
d'équivalent. (Même à raison d'un relevé par heure pendant 150 ans,
on parle d'environ 1.3 millions de lignes d'enregistrement pour une
station météo : ce sont de petits fichiers, il n'y aucun obstacle à
les mettre sur GitHub.) Par ailleurs, ce sont des données
complètement publiques, librement
copiables[#3] et
téléchargeables puisque ce sont des informations factuelles que tout
le monde peut observer, il n'y a aucune condition d'accès ni notion de
sécurité : qu'est-ce que c'est que ces histoires d'utilisation
commerciale interdite
? Ils ont complètement perdu la tête, là ?
Ils ne peuvent pas plus interdire l'utilisation commerciale de ces
données qu'un musée ne peut interdire la reproduction de tableaux
anciens qui s'y trouvent.
[#2] Une chose qui fait que je n'arrive pas à trouver les données que je cherche est certainement que je ne comprends pas bien qui les produit. Je crois comprendre que certaines stations météo sont gérées ou possédées par des amateurs ? Mais sans doute n'est-ce pas le cas d'une station comme celle du parc Montsouris à Paris ? (Je trouve que ce serait plus qu'un peu anormal d'autoriser quelqu'un a installer une station météo dans un endroit public comme un parc de la ville de Paris sans exiger que les relevés de cette station météo soient librement téléchargeables.) Mais alors comment est-ce que l'association qui gère Infoclimat a elle-même accès à ces données ? D'où les tire-t-elle ? Qui est le producteur primaire des données ? Quel est son lien avec Météo France ? Et qu'en est-il des données historiques ? Par qui ont-elles été numérisées ? (J'imagine vaguement que ça faisait historiquement partie des attributions de l'Observatoire de Paris, mais je ne trouve aucun lien tangible entre l'Observatoire de Paris et une station météo de Paris ni de contact à l'Observatoire pour demander où sont stockées les archives.) Bref, tout ça est très confus pour moi, et ça n'aide pas à naviguer dans ces choses : une partie de la difficulté à obtenir des données est de savoir d'où elles viennent à l'origine et à qui les demander.
[#3] Éventuellement, on
peut défendre l'idée que les quinze dernières années de la base de
données sont protégées par
le droit sui
generis sur les bases de données (qui est la notion la plus
scandaleuse et indéfendable du déjà détestable droit de la propriété
intellectuelle : c'est tout simplement honteux que ce concept existe),
mais même ce concept-là ne s'applique que si on considère que mettre
en place une station de relevé de la température constitue
un investissement substantiel
, ce qui très difficile à
prétendre.
On m'a aussi signalé le
site Météociel dans le même
genre, mais pas plus de succès de ce côté-là. Ni chez les autres
sites du même genre vers lesquels on m'a dirigé. Plein de gens m'ont
dit plein de variantes autour de si, si, ces données sont
disponibles, regarde du côté de FoobarMétéo
, mais jamais aucun
moyen de télécharger l'archive que je cherche. C'est particulièrement
frustrant vu qu'il y a des gens qui semblent avoir ces données et qui
en tirent toutes sortes de graphiques ou tableaux : par
exemple ici
chez Météo Paris : où ont-ils tiré ces données et où
sont-elles stockées, à la fin ?
À chaque fois c'est la même chose, c'est comme dans la blague sur le Goum : plein de promesses de données, plein d'organisation compliquée, mais jamais les données brutes elles-mêmes. Jamais un vrai lien de téléchargement qui donne un fichier d'un petit million de lignes de données.
Alors je vais quand même donner un lien vers le truc que
j'ai trouvé qui ressemble le plus à ce que je
cherche : ce
lien (vers le domaine opendatasoft.com
dont je ne
sais pas quel est son rapport avec le schmilblick ni comment il les a
obtenues de Météo France), dans l'onglet export propose un
export CSV du jeu de données entiers, et c'est un tableau
de relevés météo pour diverses stations météo de France : 62 stations,
un relevé toutes les 3 heures. Malheureusement, il ne contient que
des informations très récentes (il commence en 2010) ; comme par
ailleurs, le format du fichier est absurdement inefficace, contenant
la même information répétée de nombreuses fois (la température répétée
en kelvins et en degrés Celsius et des textes automatisés comme On
n’a pas observé d’évolution des nuages ou on n’a pas pu suivre cette
évolution
), les malheureux 2 millions d'enregistrements contenus
finissent par peser 1Go. Bon, c'est déjà ça, je ne vais pas me
plaindre. Mais où est-ce que je trouve quelque chose d'équivalent,
sur une seule station, mais à des dates très anciennes ?
Partout où je regarde, j'ai l'impression de voir des dragons assis sur des trésors de données et qui les considèrent comme my data! my precious data! mine! mine! mine! (bon, mes métaphores tolkienesques se mélangent un peu, mais vous voyez l'idée).