David Madore's WebLog: OpenData, Web sémantique et pâquerettes

C'est épatant le pouvoir qu'a le fait de donner un nom à quelque chose. Pendant longtemps — presque depuis que j'ai accès au Web, en fait — je me suis acharné à expliquer la thèse que c'est bien d'avoir des informations sur Internet, mais c'est encore mieux si ces informations sont sous un format téléchargeable en bloc, et utilisable par un ordinateur. Les gens ne comprenaient pas du tout ce que je racontais (mais si ces données sont en ligne, c'est bien qu'elles sont utilisables par un ordinateur ?). Ce n'est pas facile d'expliquer, par exemple, pourquoi il ne suffit pas qu'un institut de statistiques ou de sondages fournisse des PDF joliment formatés synthétisant ses enquêtes mais devrait aussi fournir accès aux données brutes ; pourquoi l'éditeur d'un dictionnaire qui fournirait un accès en ligne à celui-ci ou un institut de cartographie qui permettrait de consulter ses cartes par un site Web ne sont pas en train d'ouvrir leurs données mais au contraire de contrôler leur accès. Ce qu'on voudrait vraiment, c'est pouvoir télécharger la totalité et le traiter par soi-même. (Et s'agissant de l'IGN, qui a plus la rentabilité que le service public à l'esprit, on peut toujours courir pour qu'ils fournissent de vraies cartes de France sous un format informatiquement utilisable comme les Pays-Bas ont fait en versant des cartes complètes du pays à OpenStreetMap. Du coup on est obligé de refaire bénévolement, laborieusement, et très mal, un boulot qui a déjà été fait sur des deniers publics.) Tout ça passe pour des râleries de geek et Madame Michu demande en quoi cette problématique peut l'intéresser.

La situation a un peu évolué, notamment par la popularisation (relative, certes, mais suffisante pour pouvoir au moins conseiller à Madame Michu de le rechercher dans Wikipédia ou dans Google) d'un mot : OpenData. La situation a évolué et les pouvoirs publics commencent très lentement à comprendre que ça peut être intéressant pour l'intérêt général de fournir ces bonbons aux geeks : je le signalais au sujet de Paris, et il semble qu'au niveau national le gouvernement y pense, en se donnant notamment pour modèle ce qui se fait en Grande-Bretagne. Il faut aussi reconnaître qu'à un niveau moins systématique, des instituts comme l'INSEE ou pour quelque chose de plus pointu la BCE, ont tendance à fournir beaucoup de chiffres sous des formats au moins un peu utilisables (bon, en général de simples tableaux de chiffres publiés sous formes de tableaux Excel, n'allons pas demander des données hiérarchisées XML, mais c'est déjà bien).

Je mélange à dessein plusieurs choses, pas forcément applicables de la même manière, concernant l'utilisabilité des données : des choses qui pour moi relèvent de la même optique générale, et dont l'OpenData n'est qu'une facette :

que les données soient disponibles en bloc, en téléchargement, et pas à travers le filtre d'un site Web qu'on peut interroger requête par requête,
que ces données soient placées sous une licence ouverte (et idéalement une absence complète de propriété intellectuelle, s'il s'agit de données factuelles sur le réel ou de reproductions d'œuvres du domaine public),
que les données soient disponibles sous un format standard et ouvert, ce qui permet de les récupérer et de les traiter de façon automatisée (OpenData),
que la sémantique sous-jacente aux données soit elle-même décrite de façon utilisable (et standardisée, pour une utilisation uniforme à travers plusieurs jeux de données) (Web sémantique).

Les premiers points devraient être assez clairs. Le dernier ne l'est pas forcément, et n'a pas toujours de sens, mais je peux donner un contre-exemple pour l'illustrer : Wikipédia passe clairement les trois premières conditions : on peut télécharger l'intégralité du contenu de Wikipédia (même si des problèmes purement techniques — ils n'ont pas les moyens de maintenir ça correctement — font que les dumps sont atrocement périmés et le dump le plus intégral, celui qui fait des centaines de gigas comprimés avec l'historique complet, a l'air de ne jamais être disponible), la licence est ouverte, le format de markup est connu et documenté (et il existe plusieurs moteurs pour le traiter), en revanche, ce qui manque encore, même si des efforts sont faits dans ce sens, c'est l'aspect Web sémantique ; pour prendre un exemple plus précis, il existe des zillions de personnes recensées sur Wikipédia, mais si on veut en extraire automatiquement des informatiques basiques comme le nom, la date et le lieu de naissance, la date et le lieu de mort (le cas échéant), la nationalité, la profession ou raison principale de célébrité, etc., ce n'est pas facile : l'information est là, mais elle est écrite dans des phrases en anglais qui ne sont pas du tout faciles à analyser informatiquement. Le but du Web sémantique, ce serait de mettre en place des formats qui permettent vraiment la collecte informatisée et automatisée d'informations sur le Web et pas seulement de bouts de texte.

Je ne sais pas si ça se fera. La technologie qui était censée rendre le Web vraiment sémantique (et créer le Web 3.0), c'était RDF, je ne sais pas si elle n'est pas un peu morte à ce stade-là. Il y a des initiatives, éventuellement plus modestes comme les microformats, qui semblent cependant progresser, donc tout espoir n'est pas perdu. Je pense aussi que l'essor des bases de données NoSQL, va (certes indirectement) dans le même sens. S'agissant spécifiquement de Wikipédia et plus généralement des choses sous MediaWiki, il y a Semantic MediaWiki qui est destiné au moins à permettre l'ajout d'informations sémantiques dans le Wiki.

Pour répondre à la question de Madame Michu, s'agissant spécifiquement du Web sémantique : j'aimerais pouvoir demander à un moteur de recherche est-ce qu'il y a dans le quartier où je suis un magasin de Foobars ouvert le dimanche ? ou bien où pourrais-je acheter en ligne tel produit précis dont je connais la référence exacte (par exemple le code ~~barre~~ EAN-13) à un prix inférieur à 42¤ ? ou encore comment s'appelle déjà cet acteur américain d'origine russe né dans les années 1910 et dont le nom commence par un ‘D’ ? — actuellement les moteurs de recherche sont mauvais pour ce genre de choses, parce qu'ils ne peuvent que chercher du texte dans une page, malgré beaucoup d'astuces de leur part pour trouver les résultats les plus pertinents. Si les pages Web, par exemple, de tous les articles vendus en ligne et de toutes les boutiques, comportaient des informations de base (s'agissant d'un produit vendu en ligne, le code EAN-13, le prix, les délais de livraison ou des choses comme ça ; s'agissant d'une boutique, les coordonnées géographiques, les horaires d'ouverture, la catégorie générale, éventuellement le catalogue ; etc.) de façon parsable informatiquement, cela permettrait ce genre de recherches. J'ai l'espoir qu'un jour Google dira si vous mettez sur votre site Web vos coordonnées géographiques et vos horaires d'ouverture sous tel format, cela facilitera le référencement, ce qui pousserait certainement les gens à le faire vu l'importance du référencement par Google pour n'importe quel commerçant. Déjà un standard qui soit vraiment pris en compte pour publier un permalien pour une page Web un peu dynamique (par exemple celle décrivant un article sur un site de commerce en ligne) serait une bénédiction.

Mais l'éléphant au milieu de la pièce, évidemment, ce sont les réseaux sociaux. Parce que s'il y a une donnée qui vaut des milliards, qui existe par essence même sous forme informatisée, ce sont toutes les informations que « nous » avons mises dans Facebook : sur nos noms, nos dates de naissances, nos centres d'intérêt, nos liens d'amitié (et même les groupements entre ces liens d'amitiés), et quantité d'autres choses. Peut-être que « nous » alons nous amuser à retaper toute cette information dans Google Plus ; peut-être pas. Ce que je voudrais vraiment, c'est pouvoir télécharger les informations que j'ai moi-même entrées dans Facebook, sous un format ouvert (malheureusement inexistant), pour pouvoir les mettre sur ma page Web pour celles que je décide de rendre complètement publiques, ou pour pouvoir les communiquer à d'autres éventuels réseaux sociaux si d'autres apparaissent (et ne pas avoir à refaire tout le boulot de saisie). Je préférerais mille fois que le Web social fût sémantique et décentralisé, que chacun mette sur sa propre page Web des fichiers décrivant ce qu'il veut publier sur lui-même, et qu'en suite ce soient des moteurs de recherche qui interprètent ces données et les mettent en forme. Il y a eu une tentative dans ce sens, c'est le format FOAF : il est apparu en 2000 (oui, pour les oublieux, les réseaux sociaux sont beaucoup plus anciens que Facebook) et n'a malheureusement eu aucun succès (j'avais publié une description RDF de moi-même en 2003), mais ça ne va vraiment pas loin, et il n'y a rien à en faire parce que personne n'utilise ça. Même Diaspora, le truc ouvert censé faire concurrence à Facebook (entreprise indispensable mais tellement désespérée que Facebook lui donne de l'argent par charité ou par ironie je ne sais pas) n'utilise pas vraiment FOAF, je crois.