Comments on OpenData, Web sémantique et pâquerettes

W (2012-04-01T13:39:42Z)

<URL: https://meta.wikimedia.org/wiki/Wikidata/Introduction >

Amel (2011-08-24T05:27:22Z)

L'utilisation des annotations sémantiques est assez répondue pour les Web Services, notamment pour SA-WSDL, OWL-S ou WSMO et pour l'intégration B2B.

Les techniques d'apprentissage automatiques peuvent s'avérer très utiles pour l'extraction des annotations sémantiques, e.g., METEOR-S pour les Semantic Web Services.

Vicnent (2011-08-23T16:42:58Z)

ok, je me suis mal exprimé : c'est pour (B) par raccourci via recopie en mélangeant 2 concepts (ton contexte dans le billet initial, une de tes réponses à un intervenant avant moi).

(parenthèse : par contre, je ne sais pas d'où tu tires que ce n'est pas un mission de service public que de cartographier le territoire, du fait que l'IGN ne le ferait pas. Il y a à mon avis bien d'autres services en France, peut être même totalement internalisés au sein du ministère de l'intérieur qui s'en chargent).

Bref, il est probable d'une part que ses besoins en cartographie répondent à des demandes strictement internes aux ministères et que donc, la notion de opendata leur soit totalement étrangères, et que d'autre part, la notion d'opendata étant bien étrangère aux députés, rien ne force personne à mettre ces données en opendata.

Et le fait que d'autres le fassent n'est pas un bon argument : j'ai presque envie de dire "quel rapport ?" (à ce compte là, le fait que l'Allemagne n'ait que peu de problème avec sa dette rend incompréhensible le fait que la France en ait : en effet, et 'pour mémoire, il y a pas mal de pays dont les dettes sont effectivement sans problème, donc on ne peut pas m'affirmer que ce serait déraisonnable'. :-)

W (2011-08-18T12:54:52Z)

Le but de Wikipédia est *a priori* de produire quelque chose de lisible par des humains. Wikipédia pourrait se donner pour but de produire quelque chose d'utilisable par des programmes, mais ce second but apporterait peu au premier. (Je ne dis pas que c'est un argument *contre*.)

Si on veut amener Wikimedia à faire du Web sémantique, on pourrait plutôt commencer par le Wiktionnaire, qui se donne pour but de définir tous les mots dans toutes les langues. Plus précisément, la version française du Wiktionnaire doit présenter en français chaque mot (de chaque langue) et sa traduction dans toutes les autres langues, et idem pour toutes les autres versions du Wiktionnaire. Dans l'état actuel du projet, sa "complexité" est donc cubique en le nombre de langues existantes. Je pense qu'on pourrait au moins tomber à une complexité quadratique en s'y prenant mieux, i.e. d'une façon orientée sémantique, et que ça bénéficierait directement au projet dans le cadre de son but actuel.

Ruxor (2011-08-12T09:01:25Z)

Vicnent → L'affirmation n'était pas « réaliser des cartes en OpenData devrait être une mission de service public », que tu contestes ; c'était (A) « réaliser des cartes devrait être une mission de service public » et (B) « et si c'est une mission de service public *alors* elles devraient être en OpenData ». Il faudrait savoir si tu contestes (A) ou (B). Parce qu'Olivier n'a pas nié (B), il a nié (A), et c'est là-dessus que je tombe des nues.

Pour mémoire, il y a pas mal de pays dont les données cartographiques sont effectivement ouvertes, donc on ne peut pas m'affirmer que ce serait déraisonnable. À commencer par l'US Geological Survey et autres services du gouvernement fédéral des États-Unis (la partie (B) est alors garantie par la Freedom of Information Act et par le fait que tout document publié par le gouvernement des États-Unis est automatiquement dans le domaine public — voilà une loi sensée comme on aimerait en avoir en France). C'est d'ailleurs grâce au gouvernement des États-Unis qu'on a des cartes libres du monde à un niveau de précision pas totalement merdique (chercher VMAP0).

Et non, OpenData ça ne concerne pas que trois geeks qui veulent faire joujou : ça permet de faire plein de choses pour l'utilisateur final, notamment des sites Web et, ces temps-ci, des applications pour smartphones, utilisant les données en question. C'est ce que la Mairie de Paris a très bien compris, c'est pour ça qu'elle produit de l'OpenData, dans l'espoir que se créent à partir de tout ça des applications rigolotes pour iPhone et Android qui pourraient, notamment, intéresser les touristes (et le tourisme, pour Paris, c'est une source de revenus pas du tout négligeable).

Vicnent (2011-08-11T22:14:59Z)

pas le temps d'en dire plus mais sur "pourquoi quelque chose d'aussi important que de cartographier le territoire n'est pas une mission de service public." : ben parce que l'état a autre chose à faire que d'imaginer qu'il pourrait payer des tas de gens à cartographier en opendata des données, dépenser des centaines de milliers d'euros en commission, norme, techno etc pour 3 geeks comme toi.

Sans compter le décalage, c'est un pic, c'est un cap, que dis-je : un cap ? C'est une péninsule ! bref, l'abime qui sépare les besoins et techno de ceux qui président les commissions ou autres députés : je pense que 2 sur 577 savent ce que c'est qu'une "URL". Alors, l'OpenData… (sans compte tout le reste : de twitter à W3, en passant par OpenSource et CGU ou CC3.0…)

Ruxor (2011-08-11T12:12:32Z)

Gabriel → Ben la question de licence est le deuxième des quatre points que je mentionne…

Gabriel (2011-08-11T11:34:49Z)

L'OpenData n'est en fait pas exclusivement le fait de pouvoir télécharger les données sous un format ouvert, comme tu le mentionnes à un moment. La majorité des acteurs à l'heure actuelle considère la condition de libre redistribution (la licence, en fait) comme absolument nécessaire.

Je n'aime pas trop l'article Wikipédia sur le sujet, mais l'introduction donne une bonne définition à mon sens : « Open data is the idea that certain data should be freely available to everyone to use and republish as they wish, without restrictions from copyright, patents or other mechanisms of control. »

Le site le plus complet (et le plus chiant) que je connaisse sur le sujet : http://www.opendefinition.org/okd/

Olivier (2011-08-11T07:02:20Z)

Ruxor → Pas assez de deniers publics, je présume.

Ruxor (2011-08-10T15:13:41Z)

Olivier → C'est effectivement une précision importante ! Merci de me corriger. Du coup, la question qui se pose maintenant c'est, pourquoi quelque chose d'aussi important que de cartographier le territoire n'est pas une mission de service public.

Olivier (2011-08-10T13:46:59Z)

Concernant l'IGN, une petite précision à apporter : leurs missions cartographiques ne SONT PAS de service public (et de fait, ne sont pas financées par les deniers publics - pour autant qu'on soit en mesure de le vérifier).

La mission de service public de l'IGN concerne essentiellement la maintenance du réseau geodésique, pour lequel les données sont effectivement accessibles.

En outre, pour les organismes pouvant - eux - justifier d'une mission de service public, l'IGN propose ses données dans des "vrais" formats à titre gratuit. Et ce depuis le 1er janvier 2011. C'est loin d'être de l'OpenData, mais ça rend bien service.

Ruxor (2011-08-09T13:38:16Z)

a3_nm → À propos du format mediawiki, il me semble que quelqu'un a récemment fait une sorte de moteur DOM pour ce format, et que ça a été loué comme le truc qui change la vie pour le manipuler. Mais je ne retrouve plus (et peut-être que je me rappelle mal).

a3_nm (2011-08-09T13:21:31Z)

Les dumps Wikimédia ne sont pas si périmés que ça ces derniers temps. Le dernier dump de enwiki avec l'historique complet date du 22 juillet, par exemple, et le prochain est déjà en cours. (Oui, la génération de ce fichier était cassé à une époque, mais je crois que ça a été réparé récemment.)

Il reste des points à déplorer : l'absence de dump avec uploads (impossible d'avoir une copie de commons, par exemple), et l'absence de dumps au format HTML (qui ont existé à une certaine époque mais ne tournent plus). Du reste, même si le format utilisé pour les dumps au format XML Mediawiki est ouvert, ça reste quelque chose d'assez désagréable à manipuler.

Tom Square (2011-08-09T08:58:06Z)

C'est pas gagné parce que personne (de très gros / influent) n'a vraiment pris la peine d'essayer d'imposer un standard, du coup il reste de la place pour les nouveaux.

Le problème d'avoir des nouveaux standards ne se poserait que si il y avait des énormes masses de données déja "sémantisées", si c'est pas encore le cas, le cout d'un nouveau standard est nul.

Reste à savoir si le non imposage d'un standard pour l'instant est dû aux problèmes techniques et non maturité des standards et des outils autours ou intrinsèque à la technologie du web sémantique …

C'est facile pour un développeur de faire un moteur de tag pour un blog, le pas est plus difficile pour intégrer un moteur d'étiquetage sémantique. Il faut définir la granularité de ce qui est étiquetable (le blog, le billet, le paragraphe, la phrase ?) sachant que plus tu descend bas dans la granularité plus tu demande potentiellement d'effort au rédacteur pour l'étiquetage) sachant que le développeur n'est pas au fait des technos web sémantiques.

L'utilisateur de son côté n'y comprend rien, donc il a besoin d'être guidé par l'outil, et il ne connait pas non plus le langage et les codes du web sémantique, les différentes ontologies qui son quasi un truc de plus à maîtriser.

Il faut aider l'utilisateur, donc mettre en place des guides, quitte à limiter l'expressivité de l'étiquetage, ou à spécialiser pour certains domaines … ça m'a l'air d'être un travail de spécialiste, tout ça, il faudrait vraiment qu'une institution pousse derrière pour former en masse des spécialistes ou qu'une grosse entreprise avec pleins d'utilisateurs sur le web décide de s'y lancer à bras le corps. Sinon pour la démocratisation c'est pas gagné.

L'extraction automatique d'information est aussi une issue, je pense David, déja ça permettrait de soulager l'utilisateur en faisant une partie du travail et suggérant des choses à l'utilisateur, éventuellement à corriger après coup, et tirer partie de l'énorme masse d'informations déja disponibles sans avoir à nécessairement tout réécrire dans un autre formalisme que celui du langage naturel.

xavier (2011-08-08T20:14:23Z)

Ce n'est pas gagné pour la simple et mauvaise :) raison que, dès qu'on invente un format, une API ou je ne sais quoi en info, un type se croit toujours plus malin et pond un autre """standard""" dans le mois qui suit.
http://xkcd.com/927/

Ruxor (2011-08-08T11:00:39Z)

C'est une chose de constater que le RDF sert *en interne* à plein de choses, mais ce n'est pas de ça que je parlais. La question est de savoir si les commerçants, par exemple, font l'effort de mettent des informations en RDF(a) sur leur page Web pour aider les moteurs de recherche à comprendre leur site Web. Qu'on puisse tirer de Wikipédia des données sémantiques, c'est bien, mais c'est tout l'opposé de ce que je réclame, qui est que les Wikipédiens les y mettent.

Got (2011-08-08T09:08:27Z)

Le RDF ne me semble pas mort et pour preuve, vous pouvez consulter le projet Dbpedia http://dbpedia.org/About qui est exactement ce que vous décrivez, à savoir, la conversion en RDF et leur mise à disposition de l'ensemble des données structurées de Wikipedia (par exemple pour Léonard de Vinci : http://dbpedia.org/resource/Leonardo_da_Vinci et en RDF http://dbpedia.org/data/Leonardo_da_Vinci.n3) et vous pouvez même interroger cet ensemble de données avec le protocole SPARQL, recommandation du W3C pour interroger des bases de données RDF. Dbpedia est une des initiatives les plus importantes de ce qu'on appelle le Linked Data ou Web de données, http://linkeddata.org/ . Évidemment, tout cela est encore loin de Mme Michu, mais cela avance.

Stéphane (2011-08-08T08:37:21Z)

Dans la plateforme ISIDORE (http://rechercheisidore.fr), nous utilisons largement le formalisme RDF (l'ensemble des métadonnées diffusées le sont par le web et en RDF via un sparql end point) et le RDFa (nous moissonnons de l'information structurée en RDFa : Calames de l'ABES par exemple). ISIDORE est le plus gros projet d'open scientifique en France (1200000 ressources accessibles) et fonctionne à l'aide du RDF.

Stéphane.

Ruxor (2011-08-08T04:25:07Z)

Ombre → C'est le bordel. :-(

RDFa existe, mais personne ne s'en sert. Google a commencé à faire un pas dans ce sens (<URL: http://www.google.com/support/webmasters/bin/answer.py?answer=146898 >), puis ils ont décidé de recommander un autre système (<URL: http://www.google.com/support/webmasters/bin/answer.py?answer=1211158 >). Et XHTML+RDFa est complètement fumé côté W3C aussi : pourquoi ont-ils décidé d'ajouter des attributs (about, content, datatype, prefix, property, rel, resource, rev, typeof, vocab) dans XHTML sous forme de modularisation alors qu'ils ont inventé les namespaces précisément pour éviter d'avoir à faire ça ? Autrement dit, pourquoi RDFa n'est pas traité par rapport à XHTML comme le sont SVG et MathML ? Quant à Schema.org (la solution de Google, Microsoft et Yahoo), impossible de savoir comment l'utiliser proprement avec XHTML. C'est mal barré !

Ombre (2011-08-07T23:31:45Z)

Si je me souviens bien Facebook utilise foaf en interne. ;-)

Et rdf est toujours présent sous forme, par exemple, de rdfa dans les pages web. :-)

Bubu (2011-08-07T22:33:24Z)

Pour Wikipedia, il y a des techniques d'extraction automatique d'information qui récupèrent (une partie de) l'information sous forme sémantique. Regarde par exemple YAGO, dont le créateur est à Télécom en ce moment.