You are here

La vague OpenData, mais l'ordre dans tout cela ...

Ca y est, c'est à la mode, chacun y va de son OpenData par ci et OpenData par là...
Force est de constater que, comme la finance, la technologie est sujette à un comportement moutonnier mais là, il ne faut pas s'en plaindre, cela va dans le sens du citoyen. Même la C.E.E souhaite que les états membres de publier les données. Bien, au passage, on y découvre un potentiel de l'ordre de 40 Mds d'Euros (magie des chiffres quand tu nous tiens).
Bien, alors, concrètement cela donne quoi ?

La donnée doit être réutilisable, mais sous quel format ?
A cette question, pas de réponse, ni de recommandation claire de la part des commanditaires. Devant ce flou, on y retrouve de tout : des API, des données structurées, des données non structurées (format bureautique à destination de l'homme). Le but dans tout cela étant la réutilisation, il aurait été bien venu de faire preuve d’un peu de bon sens et de recommander  des formats plus réutilisables pour la machine. Cela donnera des emplois aux informaticiens, une partie des 40 Mds € sont peut-être là. Noter que le W3C, dès 2007 via bien sur Tim Berners-Lee propose une classification des types de contenus et que suivant celle-ci, on retrouve beaucoup de gisement de données publiques avec 1 ou 2 étoiles.
Comment récupérer cette donnée ?
Là encore, vide sidéral. Heureusement, toujours le W3C dans sa position de visionnaire avait prévu, pressenti ce besoin depuis plus d’une dizaine d’années déjà avec les travaux sur le Web Sémantique, que je continue a appelé le Web de données. On parle ici de XML, RDF, RDFS, Graphes, SPARQL, etc… Bref un dispositif prêt à être utiliser pour exposer, inférer et mailler les données de façon non ambigüe et intelligente. Qui permet intrinsèquement de requeter et recouper des données d’entrepôts différents. Là encore, on s’empresse de faire, sans se soucier des recommandations en laissant la place à des initiatives de l’industrie informatique qui s’engouffre dans la brèche. Mais bon, cela va dans le bon sens et reste toujours mieux que de ne rien faire. On citera OData, poussé par Microsoft, GData développé par Google mais qui ne permet que d'exposer des applications Google. Ces packs technologiques implémentent des concepts connus et reconnus : REST, XML, JSON. Bref, il reste un peu de place pour faire de la conversion OData2Triples et GData2Triple. Encore un peu des 40Mds €.
Comment retrouver les données ?
Problématique classique qui viendra à ne pas être traitée, comme pour les sites Web. Comment savoir quelles sont les données exposées par tel ou tel organisme ? Quel organisme diffuse des données ? thedatahub.org est une réponse mais reste déclarative et trop généraliste. La voie est sans contexte vers le réseau de spécialiste qui proposera un graphe des entrepôts. Le graal étant de pouvoir une requête sur Le Graphe qui retournera un graphe de ce que l’on cherche. Par exemple, les données des sites industriels de France et leurs activités polluantes. Encore un bout d’explication sur les 40Mds € …
Comment recouper les données ?
Là, c’est la pierre angulaire du système. Comment retrouver les points d’accès ? Comment savoir que pour une donnée publique, il s’agit d’un lieu ? D’un arbre ? D’une personne ? Il faut absolument structurer et coder cette donnée par les technologies du Web de Donnée. Cela permettra une double exploitation par la machine et par l’homme. C’est l’objectif initial du Web 3.0 et l’OpenData en est une facette, alors remettons du sens dans tout cela. On n’y échappera pas. Encore une fois, cela fera du travail pour l’industrie informatique, encore une part des 40Mds €…
 
La plupart des choses citées ici sont expliquées par les travaux du W3C depuis plusieurs années, il est simplement dommage de ne pas les réutiliser pour construire de façon ordonnée et méthodique ...