Entre Big et Open Data

Transcription

Entre Big et Open Data
Entre Big et Open Data
Lundi, 02 Avril 2012 09:16
Le développement des usages du web entraîne, dans son sillage, la génération de
masse de données énormes et faiblement structurées : mesures d'observation de la
nature, échanges sur les réseaux sociaux, génome... Un phénomène, dit de Big Data,
chargé de menaces et d'opportunités : exploiter ces informations peut s'avérer la source
de découvertes scientifiques, d'innovation pour les entreprises comme de recul sur la
vie privée des internautes. En parallèle, l'Open Data est un mouvement plus contrôlé
mais aussi plus citoyen : des villes, comme Toulouse, ont décidé d'ouvrir leur bases de
données géographiques brutes aux internautes. Objectif : créer des plateformes de
services web. Explications et analyse.
Le “zetta-octet”, vous connaissiez ? C’est en ces termes que l’on devra bientôt parler du volume
de données sur le web. Autrement dit, selon le cabinet d’études IDC, d’ici à 2020, cette masse
devrait représenter près de 35 zéta-octets, soit 35 millions de péta-octets, soit encore 35
milliards de tera-octets...ouf ! Voici une échelle que l’on connait !
Ces chiffres vertigineux se traduisent par une croissance de cette masse de données de 45%
par an en parallèle d’un effondrement du coût de leur production, de leur stockage et de leur
transmission.
La science premier moteur du Big Data
Au delà de la croissance du nombre d'internautes, de leurs échanges en ligne et des sites web,
l’une des explications de cette évolution tient dans le phénomène du “Big data”. Ce terme, qui
fut dans un premier temps baptisé “web-scalable”, a été notamment popularisé par la revue
Nature. Dans le principe, il s'agit de groupes de données faiblement structurées dont le poids
est si important que les outils de bases de données s'avèrent impuissants à leur traitement et
stockage.
Premier exemple, l’observation des phénomènes naturels qui nécessite l’emploi croissant de
caméras, capteurs, ... de plus en plus nombreux et sophistiqués, et miniaturisés. Ceux-ci
mesurent, traitent et envoient leurs données via le réseau avant d’être stockés, préfigurant
l’Internet des objets dit « Web 3.0 ».
1/4
Entre Big et Open Data
Lundi, 02 Avril 2012 09:16
A Toulouse, la société Mercator-Océan pilote un vaste projet européen d’océanographie, My
Ocean
. Via un portail web, il s'agit de mettre à disposition des acteurs de la sécurité maritime, de la
lutte contre les marées noires, de la gestion des ressources marines, etc. les données
agrégées d’observation des océans provenant de nombreux partenaires scientifiques
européens. Il s’agit notamment de pouvoir extraire les mesures de température, salinité,
courants, glace de mer, niveau de la mer, écosystèmes primaires… « L’activité de Mercator
dans MyOcean représente à elle seule le dépôt hebdomadaire de 200 Go de données sur les
serveurs de diffusions ! », explique Lucas Nouel, responsable des opérations de Mercator
Océans.
La donnée devient transparente, ubiquitaire et réutilisable. Elle peut devenir un facteur de
sérendipité, c’est à dire, d’innovation ou de découvertes inattendues par le croisement de ces
informations.
Des fichiers vidéo de plus en plus abondants
Mais le phénomène du Big Data ne touche pas le seul secteur scientifique : il est bien plus
large. Pensons en premier lieu à la numérisation en mode plein-texte des livres, largement
initiée par Google Books.
Autre cas, plus prospectif : le “datamining visuel”, dans lequel s’inscrit une PME innovante,
Spikenet Technology, spécialisée dans la reconnaissance de formes dans les vidéos. Sa
technologie de pointe a séduit le Ministère de l’Intérieur, avec lequel la société a développé une
application, “Odin”. Celle-ci permet de « scanner des quantité énormes de données vidéos à la
seconde. On peut imaginer à l’avenir que la recherche de criminels pourra se faire à partir de
grandes masses de fichiers de vidéo-surveillance agrégées sur un territoire via réseaux
télécoms. Autres application : notre solution, associée à un web-crawler permet de retrouver
des logos à l'intérieur d'images, ce qui intéresse des grands groupes qui veulent contrôler la
diffusion de leur marque. Même chose pour des chaînes de TV qui veulent identifier les sites
web pirates qui diffusent indûment leurs émissions. Nous pouvons analyser jusqu'à 100 millions
d'images à la seconde », explique Hung Do-Duy, directeur de Spikenet Technology.
Les réseaux sociaux sources de grandes masses de données
Sur un plan plus sociétal, le “Big Data” fait l’intérêt patent des entreprises et des sociétés de
marketing. En effet, les écrits des internautes sur les forums, sur les blogs, sur les réseaux
sociaux des entreprises représentent une manne d’information qui explose.
Le Mc Kinsey Group a publié un rapport selon lequel des initiatives de type “big data” pourraient
permettre aux commerçants de détail d’augmenter leurs marges de plus de 60%. Pour ce faire,
2/4
Entre Big et Open Data
Lundi, 02 Avril 2012 09:16
il faut regrouper des données disparates créées dans le sillage des interactions numériques
avec leurs clients, qu’elles soient en commerce physique ou électronique. Le cabinet d’études
américain a par ailleurs estimé que l’industrie américaine de la santé pourrait générer plus de
300 milliards de dollars en analysant les données liées à la qualité des soins, le taux de réussite
et les antécédents du patient.
« A l’avenir, on tend vers une analyse précise des personnes », a souligné Antoine-Eric
Sammartino, chargé de mission chez Laser, société spécialiste de la relation client, à l’occasion
du workshop “des faits aux données“ qui s’est déroulé à l’Ecole Nationale des Assurances le
22 juin 2011.
Naturellement, cette perspective amène de nombreuses problématiques : la protection de la vie
privée, en premier lieu, la propriété des données et aussi leur qualité. Isabelle Falque Pierrotin,
Vice-présidente de la CNIL, citée dans le compte-rendu de ce workshop, met en garde contre
ce qu’elle nomme le “pétrole de l’internet” : « un individu accepte de partager ses données en
échange d’un service gratuit qui est financé par la publicité ». Elle se dit particulièrement
vigilante au « profilage des individus, qui sont finalement jugés sur les traces qu’ils laissent et
non sur ce qu’ils sont vraiment ».
Big brother est t-il à nos portes ? Comme le note Pierre Delort, DSI de l’INSERM, l'ADN d'un
individu représente « 3,2 milliards de paires de bases soit un peu moins d’un giga-octet,
aujourd’hui séquençable en une journée et pour moins de 1 000 $ »
L’Open Data : l’ouverture de la donnée publique cartographique
En contrepoint, l’Open Data, lui, semble présenter moins de risques, et s’inscrit beaucoup plus
directement dans une démarche citoyenne. Ce mouvement est impulsé par un nombre
croissant de collectivités locales
et par plusieurs états, dont la France et les Etats-Unis. De quoi s’agit t-il ? L’objectif de ces
portails d’information est de mettre à disposition de grandes bases de données brutes
géographiques : position précise de rues, réseaux de transports, etc. Les internautes peuvent
télécharger des fichiers et les exploiter comme ils l'entendent, dans le cadre de licences de type
logiciel libre. La communauté urbaine du Grand Toulouse a décidé, il y a un an, de lancer un
projet et un site :
data.grandtoulouse.fr
. « Nous n’en sommes encore qu’aux débuts. Pour l’instant, notre principal utilisateur est l’Open
Street Map, projet international de logiciel libre cartographique. Avantage : en puisant dans les
données issues de notre système d’information géographique,
le plan de Toulouse
est le plus à jour du Web. En outre, nous travaillons à la mise à disposition de photos aériennes
dont nous réalisons une campagne de prises de vues tous les deux ans. », explique Sandrine
Mathon, responsable du projet à la DSI du Grand Toulouse.
Deux autres applications récemment développées sont basées sur les données du portail :
l’une permet de déterminer les containers de récupération de verre et l’autre, sur iPhone,
octroie la position des … sanisettes de la ville Rose.
3/4
Entre Big et Open Data
Lundi, 02 Avril 2012 09:16
Dossier réalisé par Frédéric Dessort
La prochaine édition du salon de la Mêlée Numérique, qui se tiendra les 25 et 26 avril au centre
de congrès de Diagora-Labège, consacrera plusieurs tables rondes à l’Open et au Big Data.
Plus d’infos ici : http://www.meleenumerique.com/contenu/data
4/4