David Madore's WebLog: Et maintenant, un rant sur les données ouvertes

[Index of all entries / Index de toutes les entréesLatest entries / Dernières entréesXML (RSS 1.0) • Recent comments / Commentaires récents]

↓Entry #2726 [older| permalink|newer] / ↓Entrée #2726 [précédente| permalien|suivante] ↓

(mercredi)

Et maintenant, un rant sur les données ouvertes

En écrivant l'entrée précédente, j'ai eu envie de jeter un œil à des séries de données historiques de températures à Paris (ou ailleurs, mais il se trouve que j'habite Paris, donc ça m'intéresse un peu plus), à la fois pour répondre à des questions un peu sérieuses (quel est le profil d'évolution des températures moyennes ? des températures moyennes d'été et d'hiver ? des minimales et maximales quotidiennes ? des extrêmes ? de la variance des températures ? etc.) et moins sérieuses[#]. Mais où trouver ces données ?

[#] À titre d'exemple, j'aime bien celle-ci : si T(y,d,h) désigne la température mesurée à Paris à l'heure h du jour d de l'année y (avec 0≤h≤24, 0≤d≤365 et 1870≤y≤2022 par exemple)[#b], que valent les huit quantités maxy maxd maxh T(y,d,h), maxy maxd minh T(y,d,h), maxy mind maxh T(y,d,h), maxy mind minh T(y,d,h), miny maxd maxh T(y,d,h), miny maxd minh T(y,d,h), miny mind maxh T(y,d,h), miny mind minh T(y,d,h) ? Je trouve que c'est intéressant de réfléchir à la signification intuitive de ces huit nombres et d'essayer de s'imaginer leurs valeurs approximatives (maxh T(y,d,h) est ce qu'on appelle usuellement la température maximale du jour ou abusivement température diurne, et minh T(y,d,h) la température minimale ou abusivement température nocturne, donc argmaxd maxh T(y,d,h) est le jour le plus chaud de l'année tandis que argmaxd minh T(y,d,h) est la nuit la plus chaude, et on aboutit à des descriptions comme le jour le plus chaud jamais enregistré, la nuit la plus chaude jamais enregistrée, l'hiver aux jours les plus doux, l'hiver aux nuits les plus douces, l'été aux jours les moins chauds, l'été aux nuits les moins chaudes, le jour la plus froid jamais enregistré et la nuit la plus froide jamais enregistrée) ; j'aimerais bien avoir des données permettant de les calculer de façon fiable comme je l'ai fait ici sur des données assez courtes. [Mise à jour () : et ici sur des données remontant à 1900.]

[#b] Bon, pour critiquer un peu cet exemple, autant un max max ou min min est clairement bien défini, autant un max min ou un min max dépend de la manière dont on découpe les jours ou les années. L'heure variant de minuit à minuit est raisonnable parce que ni le maximum ni le minimum journalier ne sont normalement atteints autour de minuit, mais l'année devrait plutôt être découpée de septembre à août pour éviter que le minimum annuel ne soit arbitrairement placé dans une année ou une autre selon qu'il tombe juste avant ou juste après le 1er janvier. On peut aussi s'interroger sur des quantités comme mind maxy maxh T(y,d,h) ou maxy maxh mind T(y,d,h) qui diffèrent possiblement de maxy mind maxh T(y,d,h) et essayer de se représenter intuitivement la différence.

Assez naïvement, je me suis dit, les données météo, c'est quelque chose de complètement public, et même spectaculairement public : il doit y avoir plein de gens qui les archivent et ça doit être très facile d'en trouver des compilations en ligne. Inversement, il y a plein de gens qui vous sortent régulièrement des statistiques du type c'est l'hiver le moins froid depuis YYYY : il doit y avoir un endroit publiquement accessible où on trouve les données brutes permettant de faire ce genre d'affirmation. Que nenni.

Et ce qui est particulièrement frustrant, c'est qu'il y a plein d'endroits qui semblent avoir de telles données ou vous les promettent, mais les données elles-mêmes sont introuvables. Par exemple, Météo France a un site web appelé Données publiques. Ça a l'air prometteur, ça, n'est-ce pas ? Eh bien ce site web est un peu comme cette vieille blague de l'époque soviétique :

Un soviétique de passage à Moscou décide d'aller au Goum pour s'acheter des chaussures. Il suit un premier signe vers le rayon habillement, puis un signe lui offre le choix entre différents articles d'habillement, il suit la direction chaussures. Il a ensuite le choix entre chaussures pour homme, chaussures pour femme et chaussures enfant, il suit le premier. Ceci l'amène à un nouveau choix entre chaussures techniques, chaussures de ville et chaussures de sport. Il suit chaussures de ville, et le voilà face à un choix entre chaussures noires et chaussures colorées. Il suit encore un autre signe puis un autre puis encore un autre jusqu'à sélectionner sa pointure, tombe sur une dernière porte et… se retrouve dans la rue.

Mais je ne comprends pas ? Où sont les chaussures ? demande-t-il à un passant.

Oh, nous n'avons pas de chaussures, lui répond le passant. Mais vous avez vu ? Quelle organisation !

En tout cas, je ne trouve rien sur ce site de Météo France qui corresponde à ma recherche de relevés météo (au moins les températures maximales et minimales par jour) en un lieu donné (disons, Paris) sur une longue période.

On m'a aussi signalé Infoclimat, qui a une section Open Data, mais là non plus, je ne trouve pas où on télécharge les données en bloc. Il y a un truc permettant de créer un compte pour télécharger 7 jours consécutifs maximum : c'est une blague ou quoi ? Je veux quelque chose comme 150 ans d'archives, pas 7 jours, moi.

Je comprends éventuellement que l'association qui gère[#2] Infoclimat ait peur d'être noyée sous le volume des téléchargements, mais il y a une solution simple : mettre ces données sur GitHub ou quelque chose d'équivalent. (Même à raison d'un relevé par heure pendant 150 ans, on parle d'environ 1.3 millions de lignes d'enregistrement pour une station météo : ce sont de petits fichiers, il n'y aucun obstacle à les mettre sur GitHub.) Par ailleurs, ce sont des données complètement publiques, librement copiables[#3] et téléchargeables puisque ce sont des informations factuelles que tout le monde peut observer, il n'y a aucune condition d'accès ni notion de sécurité : qu'est-ce que c'est que ces histoires d'utilisation commerciale interdite ? Ils ont complètement perdu la tête, là ? Ils ne peuvent pas plus interdire l'utilisation commerciale de ces données qu'un musée ne peut interdire la reproduction de tableaux anciens qui s'y trouvent.

[#2] Une chose qui fait que je n'arrive pas à trouver les données que je cherche est certainement que je ne comprends pas bien qui les produit. Je crois comprendre que certaines stations météo sont gérées ou possédées par des amateurs ? Mais sans doute n'est-ce pas le cas d'une station comme celle du parc Montsouris à Paris ? (Je trouve que ce serait plus qu'un peu anormal d'autoriser quelqu'un a installer une station météo dans un endroit public comme un parc de la ville de Paris sans exiger que les relevés de cette station météo soient librement téléchargeables.) Mais alors comment est-ce que l'association qui gère Infoclimat a elle-même accès à ces données ? D'où les tire-t-elle ? Qui est le producteur primaire des données ? Quel est son lien avec Météo France ? Et qu'en est-il des données historiques ? Par qui ont-elles été numérisées ? (J'imagine vaguement que ça faisait historiquement partie des attributions de l'Observatoire de Paris, mais je ne trouve aucun lien tangible entre l'Observatoire de Paris et une station météo de Paris ni de contact à l'Observatoire pour demander où sont stockées les archives.) Bref, tout ça est très confus pour moi, et ça n'aide pas à naviguer dans ces choses : une partie de la difficulté à obtenir des données est de savoir d'où elles viennent à l'origine et à qui les demander.

[#3] Éventuellement, on peut défendre l'idée que les quinze dernières années de la base de données sont protégées par le droit sui generis sur les bases de données (qui est la notion la plus scandaleuse et indéfendable du déjà détestable droit de la propriété intellectuelle : c'est tout simplement honteux que ce concept existe), mais même ce concept-là ne s'applique que si on considère que mettre en place une station de relevé de la température constitue un investissement substantiel, ce qui très difficile à prétendre.

On m'a aussi signalé le site Météociel dans le même genre, mais pas plus de succès de ce côté-là. Ni chez les autres sites du même genre vers lesquels on m'a dirigé. Plein de gens m'ont dit plein de variantes autour de si, si, ces données sont disponibles, regarde du côté de FoobarMétéo, mais jamais aucun moyen de télécharger l'archive que je cherche. C'est particulièrement frustrant vu qu'il y a des gens qui semblent avoir ces données et qui en tirent toutes sortes de graphiques ou tableaux : par exemple ici chez Météo Paris : où ont-ils tiré ces données et où sont-elles stockées, à la fin ?

À chaque fois c'est la même chose, c'est comme dans la blague sur le Goum : plein de promesses de données, plein d'organisation compliquée, mais jamais les données brutes elles-mêmes. Jamais un vrai lien de téléchargement qui donne un fichier d'un petit million de lignes de données.

Alors je vais quand même donner un lien vers le truc que j'ai trouvé qui ressemble le plus à ce que je cherche : ce lien (vers le domaine opendatasoft.com dont je ne sais pas quel est son rapport avec le schmilblick ni comment il les a obtenues de Météo France), dans l'onglet export propose un export CSV du jeu de données entiers, et c'est un tableau de relevés météo pour diverses stations météo de France : 62 stations, un relevé toutes les 3 heures. Malheureusement, il ne contient que des informations très récentes (il commence en 2010) ; comme par ailleurs, le format du fichier est absurdement inefficace, contenant la même information répétée de nombreuses fois (la température répétée en kelvins et en degrés Celsius et des textes automatisés comme On n’a pas observé d’évolution des nuages ou on n’a pas pu suivre cette évolution), les malheureux 2 millions d'enregistrements contenus finissent par peser 1Go. Bon, c'est déjà ça, je ne vais pas me plaindre. Mais où est-ce que je trouve quelque chose d'équivalent, sur une seule station, mais à des dates très anciennes ?

Partout où je regarde, j'ai l'impression de voir des dragons assis sur des trésors de données et qui les considèrent comme my data! my precious data! mine! mine! mine! (bon, mes métaphores tolkienesques se mélangent un peu, mais vous voyez l'idée).

Le concept de données ouvertes (open data) est un concept extrêmement vertueux : en poussant les pouvoirs et organismes publics ou quasi-publics à mettre en accès libre les données factuelles qu'ils produisent, observent ou manipulent, on permet de révéler toutes sortes d'usages de ces données qui n'étaient a priori pas évidents.

Pendant la pandémie de covid, par exemple, il faut saluer une chose que beaucoup de pays, dont la France, ont fait avec un certain sérieux, c'est de publier quantité d'indicateurs sur l'état de l'épidémie. Ceci a permis toutes sortes de recherches, aussi bien par des professionnels de la recherche en médecine ou en santé publique que par des simples citoyens, et toutes sortes de sites de présentation de la situation sanitaire. Il y a eu des ratées, des données bizarres, des corrections a posteriori, un étiquetage pas clair, et surtout, il a manqué une concertation au niveau international sur la manière dont ces données étaient harmonisées et présentées ; mais globalement parlant, il faut quand même saluer l'effort.

Maintenant, il faudrait réussir à faire passer l'idée qu'il faut généraliser tout ça. Il y a bien sûr toutes sortes de bases de données ouvertes qui sont très intéressantes ou simplement rigolotes. (Parmi mes préférées, et qu'on peut vraiment télécharger pour de vrai, il y a le fichier FANTOIR des noms de voies (rues, places, etc.) et lieux-dits de la France, qui permet toutes sortes d'études rigolotes sur l'hodonymie, et aussi la base de données des arbres de Paris qui recense tous les arbres entretenus par la Ville de Paris et qui a fait beaucoup pour m'aider à reconnaître certaines espèces.) Mais il y a aussi quantité de choses qui devraient être ouvertes et qui ne le sont pas (ou alors peut-être qu'on peut y accéder, mais il faut faire des démarches compliquées et chronophages au lieu de juste télécharger un fichier ; j'aimerais bien récupérer une version anonymisée du fichier des immatriculations de véhicules en France, par exemple, ainsi que des données historiques sur la circulation en Île-de-France, mais ça n'a pas l'air évident).

Et surtout, il est important qu'il n'y ait aucune barrière à l'accès aux données : s'il faut faire autre chose que juste cliquer sur le format souhaité pour télécharger le fichier (des données brutes, complètes, directement exploitables), ce n'est pas de l'OpenData. Et je répète, il est complètement anormal que les données météo historiques de base ne soient pas en OpenData. (Pendant la pandémie, je me suis engueulé au sujet de l'accès aux données brutes sur la détection de SARS-CoV-2 dans les eaux usées : mais au moins là il y avait un prétexte d'enjeu de sécurité qui ne peut simplement pas exister s'agissant de relevés météo.)

Donc pour l'instant, beaucoup de choses qui se prétendent être en données ouvertes sont surtout du hype : on nous parle de ces données, il y a vaguement des pages qui les promettent, mais quand on essaie de les télécharger vraiment, comme sur le site de Météo France ou d'Infoclimat, on ne trouve pas plus de données que de chaussures dans la blague du Goum.

(N'hésitez pas à répondre en commentaire avec des liens vers des jeux de données ouvertes qui vous semblent particulièrement intéressants ou remarquables, mais à condition d'avoir vraiment vérifié qu'on peut vraiment télécharger les données au bout du lien, que ce n'est pas une promesse comme celle des chaussures du Goum.)

✱ Mise à jour () concernant les données météo :

On m'a signalé en commentaire sur cette entrée l'existence des données Copernicus ERA5, qui sont issues d'une réanalyse par modèle des observations. La réanalyse est sans doute effectivement plus appropriée à ce que je cherche à faire parce qu'elle sera moins bruitée qu'une observation brute ; mais l'intervalle temporel est un peu limité puisque ce modèle ne remonte qu'à 1950 ; de toute façon, je n'ai pas réussi à télécharger ces données : l'interface d'accès est manifestement prévu pour les gens qui veulent peu de points dans le temps mais beaucoup de points dans l'espace, alors que moi c'est le contraire (j'ai essayé de demander à télécharger une seule latitude et longitude, mais même comme ça, je ne peux pas demander plus qu'une année de données, le système met deux heures à générer le fichier, et je n'ai même pas réussi à le télécharger à la fin).

En revanche, j'ai appris l'existence du jeu de données ECAD (European Climate Assessment Dataset), qui contient ce qui est le plus proche (que j'aie trouvé à ce jour) de ce que je cherchais, c'est-à-dire des relevés journaliers, en différentes stations météo, sur un intervalle de temps assez long, de diverses variables dont la température maximale quotidienne, la température minimale quotidienne, et la précipitation quotidienne cumulée. Pour avoir des données pour Paris, aller dans Daily dataCustom query, choisir blend, France, Orly, ne pas sélectionner d'élément (pour obtenir toutes les variables), et ceci permettra de télécharger une archive contenant des données remontant à 1921 (mais avec un gros trou entre 1924 et 1946) pour la température et les précipitations.

Ce qui me laisse assez perplexe, cependant, c'est que cette page propose en téléchargement (chercher le texte suivant : Températures minimales depuis 1900 / Températures maximales depuis 1900 / Précipitations depuis 1886 — ou cliquer directement sur les liens que je viens de reproduire) des données qui sont plus anciennes (et aussi plus complètes : il n'y a pas ce trou entre 1924 et 1946), qui viennent de cette même source European Climate Assessment si on en croit leur en-tête, mais je n'ai pas réussi à les trouver sur le site en question (les données pour la station Paris-Montsouris n'y ont que deux variables sans grand intérêt). Seulement, comme elles ont été téléchargées il y a un certain temps, elles ne vont que jusqu'à 2008. Du coup, j'ai soit des données pour Orly depuis 1921 (en fait 1947) jusqu'à maintenant, soit des données pour Paris Montsouris depuis 1901 jusqu'à 2008 : au niveau qui m'intéresse, je peux fusionner tout ça (en fait, les données de chaque jeu sont déjà des fusions de plusieurs séries de relevés pas forcément complètement cohérentes entre elles), mais c'est tout de même bizarre et confus. (J'ai envoyé un mail pour demander plus d'explications.)

(Mise à jour de la mise à jour…) Je découvre aussi à cette occasion le merveilleux outil qu'est le Climate Explorer and Climate Change Atlas du KNMI (l'institut météorologique néerlandais) : voir ce fil Twitter et celui-ci pour quelques exemples de visualisations qu'il permet de produire.

Suite / nouvelle mise à jour : la première moitié de cette entrée ultérieure est une sorte de suite à celle-ci (et à la mise à jour précédente).

↑Entry #2726 [older| permalink|newer] / ↑Entrée #2726 [précédente| permalien|suivante] ↑

[Index of all entries / Index de toutes les entréesLatest entries / Dernières entréesXML (RSS 1.0) • Recent comments / Commentaires récents]