Entre Big et Open Data
Transcription
Entre Big et Open Data
Entre Big et Open Data Lundi, 02 Avril 2012 09:16 Le développement des usages du web entraîne, dans son sillage, la génération de masse de données énormes et faiblement structurées : mesures d'observation de la nature, échanges sur les réseaux sociaux, génome... Un phénomène, dit de Big Data, chargé de menaces et d'opportunités : exploiter ces informations peut s'avérer la source de découvertes scientifiques, d'innovation pour les entreprises comme de recul sur la vie privée des internautes. En parallèle, l'Open Data est un mouvement plus contrôlé mais aussi plus citoyen : des villes, comme Toulouse, ont décidé d'ouvrir leur bases de données géographiques brutes aux internautes. Objectif : créer des plateformes de services web. Explications et analyse. Le “zetta-octet”, vous connaissiez ? C’est en ces termes que l’on devra bientôt parler du volume de données sur le web. Autrement dit, selon le cabinet d’études IDC, d’ici à 2020, cette masse devrait représenter près de 35 zéta-octets, soit 35 millions de péta-octets, soit encore 35 milliards de tera-octets...ouf ! Voici une échelle que l’on connait ! Ces chiffres vertigineux se traduisent par une croissance de cette masse de données de 45% par an en parallèle d’un effondrement du coût de leur production, de leur stockage et de leur transmission. La science premier moteur du Big Data Au delà de la croissance du nombre d'internautes, de leurs échanges en ligne et des sites web, l’une des explications de cette évolution tient dans le phénomène du “Big data”. Ce terme, qui fut dans un premier temps baptisé “web-scalable”, a été notamment popularisé par la revue Nature. Dans le principe, il s'agit de groupes de données faiblement structurées dont le poids est si important que les outils de bases de données s'avèrent impuissants à leur traitement et stockage. Premier exemple, l’observation des phénomènes naturels qui nécessite l’emploi croissant de caméras, capteurs, ... de plus en plus nombreux et sophistiqués, et miniaturisés. Ceux-ci mesurent, traitent et envoient leurs données via le réseau avant d’être stockés, préfigurant l’Internet des objets dit « Web 3.0 ». 1/4 Entre Big et Open Data Lundi, 02 Avril 2012 09:16 A Toulouse, la société Mercator-Océan pilote un vaste projet européen d’océanographie, My Ocean . Via un portail web, il s'agit de mettre à disposition des acteurs de la sécurité maritime, de la lutte contre les marées noires, de la gestion des ressources marines, etc. les données agrégées d’observation des océans provenant de nombreux partenaires scientifiques européens. Il s’agit notamment de pouvoir extraire les mesures de température, salinité, courants, glace de mer, niveau de la mer, écosystèmes primaires… « L’activité de Mercator dans MyOcean représente à elle seule le dépôt hebdomadaire de 200 Go de données sur les serveurs de diffusions ! », explique Lucas Nouel, responsable des opérations de Mercator Océans. La donnée devient transparente, ubiquitaire et réutilisable. Elle peut devenir un facteur de sérendipité, c’est à dire, d’innovation ou de découvertes inattendues par le croisement de ces informations. Des fichiers vidéo de plus en plus abondants Mais le phénomène du Big Data ne touche pas le seul secteur scientifique : il est bien plus large. Pensons en premier lieu à la numérisation en mode plein-texte des livres, largement initiée par Google Books. Autre cas, plus prospectif : le “datamining visuel”, dans lequel s’inscrit une PME innovante, Spikenet Technology, spécialisée dans la reconnaissance de formes dans les vidéos. Sa technologie de pointe a séduit le Ministère de l’Intérieur, avec lequel la société a développé une application, “Odin”. Celle-ci permet de « scanner des quantité énormes de données vidéos à la seconde. On peut imaginer à l’avenir que la recherche de criminels pourra se faire à partir de grandes masses de fichiers de vidéo-surveillance agrégées sur un territoire via réseaux télécoms. Autres application : notre solution, associée à un web-crawler permet de retrouver des logos à l'intérieur d'images, ce qui intéresse des grands groupes qui veulent contrôler la diffusion de leur marque. Même chose pour des chaînes de TV qui veulent identifier les sites web pirates qui diffusent indûment leurs émissions. Nous pouvons analyser jusqu'à 100 millions d'images à la seconde », explique Hung Do-Duy, directeur de Spikenet Technology. Les réseaux sociaux sources de grandes masses de données Sur un plan plus sociétal, le “Big Data” fait l’intérêt patent des entreprises et des sociétés de marketing. En effet, les écrits des internautes sur les forums, sur les blogs, sur les réseaux sociaux des entreprises représentent une manne d’information qui explose. Le Mc Kinsey Group a publié un rapport selon lequel des initiatives de type “big data” pourraient permettre aux commerçants de détail d’augmenter leurs marges de plus de 60%. Pour ce faire, 2/4 Entre Big et Open Data Lundi, 02 Avril 2012 09:16 il faut regrouper des données disparates créées dans le sillage des interactions numériques avec leurs clients, qu’elles soient en commerce physique ou électronique. Le cabinet d’études américain a par ailleurs estimé que l’industrie américaine de la santé pourrait générer plus de 300 milliards de dollars en analysant les données liées à la qualité des soins, le taux de réussite et les antécédents du patient. « A l’avenir, on tend vers une analyse précise des personnes », a souligné Antoine-Eric Sammartino, chargé de mission chez Laser, société spécialiste de la relation client, à l’occasion du workshop “des faits aux données“ qui s’est déroulé à l’Ecole Nationale des Assurances le 22 juin 2011. Naturellement, cette perspective amène de nombreuses problématiques : la protection de la vie privée, en premier lieu, la propriété des données et aussi leur qualité. Isabelle Falque Pierrotin, Vice-présidente de la CNIL, citée dans le compte-rendu de ce workshop, met en garde contre ce qu’elle nomme le “pétrole de l’internet” : « un individu accepte de partager ses données en échange d’un service gratuit qui est financé par la publicité ». Elle se dit particulièrement vigilante au « profilage des individus, qui sont finalement jugés sur les traces qu’ils laissent et non sur ce qu’ils sont vraiment ». Big brother est t-il à nos portes ? Comme le note Pierre Delort, DSI de l’INSERM, l'ADN d'un individu représente « 3,2 milliards de paires de bases soit un peu moins d’un giga-octet, aujourd’hui séquençable en une journée et pour moins de 1 000 $ » L’Open Data : l’ouverture de la donnée publique cartographique En contrepoint, l’Open Data, lui, semble présenter moins de risques, et s’inscrit beaucoup plus directement dans une démarche citoyenne. Ce mouvement est impulsé par un nombre croissant de collectivités locales et par plusieurs états, dont la France et les Etats-Unis. De quoi s’agit t-il ? L’objectif de ces portails d’information est de mettre à disposition de grandes bases de données brutes géographiques : position précise de rues, réseaux de transports, etc. Les internautes peuvent télécharger des fichiers et les exploiter comme ils l'entendent, dans le cadre de licences de type logiciel libre. La communauté urbaine du Grand Toulouse a décidé, il y a un an, de lancer un projet et un site : data.grandtoulouse.fr . « Nous n’en sommes encore qu’aux débuts. Pour l’instant, notre principal utilisateur est l’Open Street Map, projet international de logiciel libre cartographique. Avantage : en puisant dans les données issues de notre système d’information géographique, le plan de Toulouse est le plus à jour du Web. En outre, nous travaillons à la mise à disposition de photos aériennes dont nous réalisons une campagne de prises de vues tous les deux ans. », explique Sandrine Mathon, responsable du projet à la DSI du Grand Toulouse. Deux autres applications récemment développées sont basées sur les données du portail : l’une permet de déterminer les containers de récupération de verre et l’autre, sur iPhone, octroie la position des … sanisettes de la ville Rose. 3/4 Entre Big et Open Data Lundi, 02 Avril 2012 09:16 Dossier réalisé par Frédéric Dessort La prochaine édition du salon de la Mêlée Numérique, qui se tiendra les 25 et 26 avril au centre de congrès de Diagora-Labège, consacrera plusieurs tables rondes à l’Open et au Big Data. Plus d’infos ici : http://www.meleenumerique.com/contenu/data 4/4