Enjeux éthiques du « Big Data » : Opportunités et risques

Transcription

Enjeux éthiques du « Big Data » : Opportunités et risques
 Enjeux éthiques du « Big Data » : Opportunités et risques Séminaire organisé par le groupe « Statistique et enjeux Publics » de la SFdS le 22 mai 2014 Accueil du Directeur du Groupe National des Ecoles d’Economie et de Statistiques Antoine Frachot, directeur du GENES – Groupe des écoles nationales d’économie et de statistique – souhaite la bienvenue aux participants dans les locaux de l’ENSAE. Le GENES regroupe deux écoles, l’ENSAI et l’ENSAE, qui toutes deux ont développé des filières spécifiquement dédiées aux Big Data ; un centre de recherche, le CREST, et un centre de formation continue le CEPE ; et le centre d’accès sécurisé aux données CASD. Ce dernier a été conçu pour permettre à des chercheurs de travailler sur les données confidentielles de la statistique publique française : actuellement, plus de 600 chercheurs français ou étrangers y travaillent sur des données de l’Insee, de services statistiques de ministères ou encore sur des données fiscales, qui toutes présentent un haut degré de confidentialité et de sensibilité. A ces données s’ajouteront peut‐être un jour des données de santé. Le CASD permet ces travaux de recherche tout en assurant aux citoyens et aux entreprises le degré de sécurisation auquel ils ont droit. Avec d’autres initiatives comme le projet Teralab, ou le portail Datascience.net, le CASD constitue un écosystème qui témoigne de la volonté du GENES d’être présent dans la filière des Big Data, avec une compétence particulière sur les questions de confidentialité et de sensibilité des données : d’où son grand intérêt pour le séminaire d’aujourd’hui. Introduction de la journée par La présidente de la SFdS Anne Gégout‐Petit, présidente de la Société Française de Statistique, se félicite que la SFdS ait pu organiser cette journée, pour aborder le monde touffu des Big Data par certains de ses aspects les plus importants : les enjeux sociaux et éthiques. La SFdS, c’est une société savante de 1200 membres, statisticiens du monde académique aussi bien que de l’industrie ou de l’administration publique. Sa mission est la promotion de la science statistique et du métier de statisticien. Pour remplir cette mission, elle organise des colloques, des échanges, des ateliers, et publie des revues : le Journal de la SFdS, revue scientifique, CS‐Bigs, revue d’étude de cas, Statistique et enseignement, Statistique et société. La SFdS compte quinze groupes thématiques qui se consacrent les uns à un domaine d’application, d’autres à un domaine scientifique, d’autres enfin à une thématique particulière. Le groupe Statistique et Enjeux Publics, qui organise le séminaire d’aujourd’hui, et aussi des Cafés de la Statistique mensuels à Paris, se consacre à réfléchir, et à faire réfléchir sur ce que c’est de manipuler la statistique dans le monde d’aujourd’hui : qu’est ce que cela signifie, qu’est‐ce que cela implique aussi comme relations avec le reste de la vie sociale. La définition des Big Data passe traditionnellement par l’évocation des trois « V » : Volume, Vitesse, Variété. Mais il y a aussi d’autres « V » : ne serait‐ce que « Véracité » ‐ on se souvient que de faux 1 tweets ont pu entraîner une baisse du NASDAQ – et « Valeur », rappelant les enjeux économiques qui s’y attachent. Si le marketing est l’aspect le plus connu, des développements importants s’amorcent dans l’industrie, en médecine, dans l’environnement. Sans oublier le progrès de la connaissance scientifique et de l’information des citoyens sur leurs droits. Toutes ces réalisations ou ces perspectives posent des questions d’ordre éthique : par exemple, doit‐on informer les personnes des risques de maladie qu’elles courent du fait de leur patrimoine génétique ? Doit‐on laisser guider les politiques et les décisions par le traitement de données ? Plus largement, quelle place pour le citoyen dans ce monde baigné de données ? Le programme de la journée va permettre d’aborder tous ces sujets : que les organisatrices en soient remerciées ! Panorama des applications du Big Data et de la Data Science Arnaud Laroche, fondateur de Bluestone, société de conseil en « Data Science », situe d’abord l’émergence actuelle du phénomène « Big Data » (« la pression monte ») comme conséquence de quatre évolutions, dont deux peuvent être qualifiées de révolutions : - la digitalisation de notre monde, élément déclencheur : nous sommes désormais entourés de capteurs, nous laissons partout des traces informatiques ; - le remplacement de gros « supercalculateurs » par une myriade de petites machines travaillant en parallèle, dont le nombre peut être augmenté ou réduit en fonction des besoins. Cette révolution technologique divise les investissements requis pour entrer dans ce domaine et les met à portée de petites sociétés innovantes ; - le progrès de la science des algorithmes capables d’opérer sur de très gros volumes de données : « machine learning », réseaux de neurones, etc. A cette occasion renaît la vieille controverse (déjà présente en France lors du renouveau de l’analyse factorielle vers 1970) entre les analyses « conduites par les données » et les analyses reposant sur des modèles. Les deux écoles devraient se répondre plutôt que s’opposer… ; - le changement d’attitude des dirigeants vis‐à‐vis des données, sorte de révolution culturelle : autrefois, les données de l’entreprise étaient vues comme des sous‐produits des activités de gestion, analysées par des équipes de « data‐mining » dont l’influence dans l’entreprise était réduite ; aujourd’hui, on construit des applications, des services, des processus qui sont conduits par les données. Le « buzz médiatique » est à la fois cause et conséquence de cette sensibilisation du « management ». Arnaud Laroche présente ensuite rapidement une classification des « cas d’usage » des Big Data en sept grands groupes (voir sa diapositive). Les usages les mieux connus relèvent de la personnalisation de la « relation‐client », mais il faut noter le développement rapide des usages industriels (comme « piloter en temps réel le réseau électrique »), de la maintenance prédictive (alerter suffisamment tôt sur la probabilité de défaillance d’un élément), et de la gestion du risque, où les algorithmes se centrent de plus en plus sur les personnes plutôt que sur les groupes. Mention particulière est faite de la création d’indicateurs économiques avancés à partir de données captées « dans la vraie vie », sans plan de recueil préalable : ces nouveaux indicateurs peuvent remettre en cause ceux des systèmes publics de statistiques. 2 Pour Arnaud Laroche, la progression actuelle des Big Data pose deux types de questions éthiques. Les premières, les plus connues, concernent la protection des consommateurs et des citoyens contre le dévoilement de leurs données personnelles. La question a radicalement changé par rapport à ce qui prévalait il y a 60 ans : on délivre de l’information sur soi à beaucoup plus de gens, sans savoir qui ils sont, où ils sont, et sans maîtriser ce qu’ils peuvent en faire et avec qui ils peuvent les partager. L’enjeu est de rendre une maîtrise de ses informations au consommateur et au citoyen. Mais ce ne sont pas les seules questions éthiques posées par les Big Data. Se pose aussi la question d’une éventuelle « sur‐mathématisation du monde », c’est‐à‐dire du nombre de plus en plus grand des décisions prises par des machines. Qu’il s’agisse de finance, de décisions concernant des personnes, des interactions sociales, l’invasion des algorithmes n’est pas un mythe : une société vient même de faire entrer un robot dans son conseil d’administration ! Stephen Hawking, cosmologiste, alerte sur les dangers de l’intelligence artificielle et sur une possible perte de contrôle de l’homme sur la machine : sommes‐nous à la veille d’une grande catastrophe, que nous annonceraient à juste titre des œuvres de fiction contemporaines ? Etat des lieux de la réflexion sur la protection des données aux niveaux français et international Sophie Vulliet‐Tavernier, directrice des relations avec les publics et la recherche à la CNIL, décrit tout d’abord le « modèle européen » pour la protection des données personnelles : celle‐ci est considérée comme un droit fondamental, inscrit dans la loi et traduit par des règles de bon usage, et ce droit est protégé par une autorité administrative indépendante disposant de pouvoirs de sanction, qui est en France la CNIL. Ce modèle n’est pas universel : seuls 80 Etats disposent de lois de protection des données, et par exemple les États‐Unis n’ont pas de loi fédérale générale sur la protection des données, seulement des lois sectorielles ou des lois dans certains États. Le rôle de la CNIL évolue : sa mission de contrôle « traditionnelle » ( contrôle des déclarations de fichiers) tend à diminuer en poids relatif ; sa mission de sanction, récemment illustrée dans le cas de l’amende infligée à Google, gagne en puissance grâce aux retombées médiatiques de ces décisions ; l’évolution se fait surtout au profit de l’activité nouvelle d’accompagnement et de conseil aux porteurs de projet, notamment dans le domaine des Big Data, activité pour laquelle la CNIL a lié des partenariats avec divers organismes en particulier dans le domaine de la recherche1. Il s’agit en effet de faire face aux nouveaux défis du temps. Ceux‐ci sont d’abord posés par l’évolution technologique : la captation automatique de données à l’insu des individus se banalise. Et par l’évolution économique : la donnée personnelle est au cœur des modèles économiques du numérique. La globalisation est présente aussi : les acteurs‐clés sont aux États‐Unis, et ne s’estiment pas soumis à la législation européenne. Plus profondément, les défis viennent de l’évolution des usages et des comportements : les nouveaux services qui émergent proviennent non seulement des capteurs de données personnelles mais aussi du besoin légitime des 1
L’INRIA( Institut national de recherche en informatique et en automatique ), la conférence des grandes écoles, Mines‐
Télécom… 3 individus de s’exprimer, de partager leurs informations avec leurs proches, etc. Et les comportements sont ambivalents : mélange de fascination devant la technologie, de passivité par rapport au souci de « privacy », en même temps montée des préoccupations…mais pas des précautions 2! Dernier défi enfin, celui de la sécurité, tant vis‐à‐vis des tiers que des puissances étrangères : il ne se passe pas de semaine sans qu’on apprenne une nouvelle faille de sécurité. Les impacts de ces évolutions en termes de protection des individus sont inquiétants : pour résumer, les risques sont accrus, les droits sont peu exercés, et les obligations sont mal respectées. Pour analyser le rapport entre les Big Data et la protection des données, il faut d’abord rappeler les définitions des données personnelles et des données sensibles. Selon la loi française, « constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou tout autre personne » (article 2). Cette définition est interprétée de façon large par la CNIL, au cas par cas selon la nature des données, l’importance relative de l’échantillon de population concernée, etc. Cela peut provoquer des incompréhensions avec les acteurs de l’Open Data et du Big Data qui ont tendance à croire qu’une donnée où ne figure plus le nom ni aucun numéro identifiant n’est plus une donnée personnelle. La CNIL fournit des conseils pour une réelle anonymisation, et poursuit avec l’INRIA des recherches sur ce thème (de même que son homologue au Royaume‐Uni le fait avec divers partenaires publics). La loi définit aussi les données sensibles : « il est interdit de collecter ou de traiter des données à caractère personnel qui font apparaitre directement ou indirectement les origines raciales ou ethniques les opinions politiques, philosophiques ou religieuses ou l’appartenance syndicale des personnes ou qui sont relatives à la santé ou à la vie sexuelle de celles‐ci » (article 8 ; il existe des dérogations). Les Big Data obligent à réexaminer ces concepts. Il s’agit de stockage et d’analyse en continu de tout type de données : structurées ou non structurées, textes, photos, vidéos, etc… La frontière entre celles de ces données qui ne posent pas de problème et celles qui sont potentiellement personnelles et/ou sensibles est très difficile à tracer : on peut penser que beaucoup de ces données sont potentiellement personnelles par recoupement. Et que penser des données prédictives de comportements ? Ce sont sans doute de nouvelles données sensibles, pour lesquelles un nouveau mode de régulation pourrait être envisagé. Il faut donc soumettre les Big Data à l’épreuve de la grille d’analyse de la protection des données, qui comporte cinq critères : ‐ Finalité, proportionnalité ‐ Pertinence des données traitées ‐ Conservation limitée des données 2
Par exemple, 65% des utilisateurs de « smartphones » déclarent être préoccupés de la confidentialité de leurs données, mais 30% n’ont pas de code de verrouillage
4 ‐ Sécurité et confidentialité ‐ Respect des droits des intéressés: loyauté et transparence (droit à l’information, consentement, droit d’opposition, droit d’accès et de rectification) Sur chaque point de cette grille les Big Data posent question. On peut en souligner quelques‐uns : - Par principe, le Big Data est fondé sur l’interconnexion et la centralisation de toutes les données possibles ; - Finalité imprécise : dans le Big Data, on cherche des corrélations, sans savoir a priori sur quoi on va s’arrêter ; - Pertinence : quid des algorithmes décisionnels et de leur éventuelle « dictature » ? il ne faut pas oublier que la loi interdit que des décisions concernant des personnes puissent être prises par voie automatique (article 10) ; - Collecte loyale : si chacun peut être tenu pour responsable des traces qu’il laisse dans l’espace public, le web social n’est pas un espace public, et ses participants ont des droits vis‐
à‐vis de la collecte de leurs données. Le Conseil d’Etat dans son arrêté « PagesJaunes » du 13 mars 2014 a donné raison à la CNIL, à propos de l’obligation d’informer les internautes sur la collecte d’informations issues du web social ; - Sécurité : les différents « clouds » sont en dehors de la juridiction de l’Union Européenne. Le cadre juridique devra‐t‐il évoluer ? Pour les finalités de recherche et de statistiques, et pour la conservation à des fins historiques ou scientifiques, des exceptions et des dérogations ont déjà été définies. Le futur cadre européen se dessine – un règlement est en préparation. Il prévoira un renforcement du droit des personnes sur leurs propres données – à signaler qu’un récent arrêt de la Cour de justice de l’Union européenne a fait obligation à Google de respecter le « droit à l’oubli ». Le nouveau règlement renforcera la responsabilité des entreprises en faisant disparaître corrélativement les déclarations. Un encadrement spécifique sera prévu pour les traitements de recherche et de statistique, dont il reste encore à bien définir le champ. Un cadre allégé pourrait être défini pour les données « pseudonymisées », c’est‐à‐dire les données dont l’identifiant individuel a été remplacé par un dérivé crypté ne permettant pas de le retrouver. Reste à préciser quel contrôle sera exigé, et par qui il sera exercé pour ces dispositions, qui peuvent concerner la recherche médicale, l’évaluation des modèles de soins, etc. Il devrait y avoir aussi des contreparties aux dérogations, en particulier de façon que soit respecté le principe « pas de décision concernant les individus prise de façon automatique ». Big Data et Relation Client : quel impact sur les industries et activités de services traditionnelles ? François Bourdoncle, co‐fondateur de la société Exalead, pionnière dans les domaines des moteurs de recherche et du Big Data, fait entendre une tonalité différente. Il considère comme révélateur le titre de la journée : « Enjeux éthiques du Big Data ». Comme toujours en France et en Europe, le Big Data est d’abord envisagé comme un problème, les opportunités qu’il offre ne sont considérées qu’en 5 second. Industriel, homme d’action, investisseur, il ne méconnaît pas les risques qui ont été évoqués précédemment, et pourrait en ajouter d’autres : risque de destruction d’emplois, de captation des richesses…Mais il pense que la France, comme d’autres pays en Europe, a le don « se tirer des balles dans le pied » en termes pragmatiques et d’efficacité, alors que nous vivons une réelle révolution industrielle dans laquelle nous ne devons pas nous laisser marginaliser. Dans cette révolution, microéconomie et innovation jouent un rôle essentiel. Or ce n’est pas dans le « logiciel intellectuel » des gouvernements, qui pensent en termes macroéconomiques. C’est pour cela qu’une prise de conscience des véritables enjeux du Big Data est importante : c’est le sens de la mission qui lui a été confiée, ainsi qu’à Paul Hermelin, par le ministre de l’Economie. Il appelle de ses vœux une approche équilibrée : pro‐business, pro‐consommateur. Comment arriver à créer de la richesse par le Big Data, tout en créant une économie de la confiance qui est indispensable pour que les nouveaux usages puissent se développer ? C’est tout l’enjeu. La CNIL doit avoir un rôle actif dans la création de cette confiance, mais ne doit pas empêcher les acteurs nationaux de prendre leur place dans le jeu concurrentiel. Pourquoi a‐t‐on raison de parler de « révolution » ? Nous en sommes à la troisième vague d’innovation des technologies de l’information. Dans les années 1980, on a vécu l’informatisation des entreprises et de leurs processus : c’était l’ère des sociétés comme SAP, ORACLE ou Microsoft, et des usages internes de l’informatique dans les entreprises. Dans les années 2000, les technologies de l’information ont pénétré le grand public : on pense à la naissance de Google, d’Amazon, de Facebook ; c’est la généralisation du téléphone mobile et des réseaux sociaux, tous secteurs fonctionnant sur le modèle économique de la publicité. Ces entreprises grand public collectant de plus en plus de données sur les usages de leurs clients, les technologies informatiques ont progressé en parallèle : le « transactionnel » et la mise à jour des données ont fait place aux moteurs de recherche et à un nouvel impératif technique : optimiser l’accès aux données. A l’issue de cette deuxième vague d’innovation, les géants qui en sont issus ont désormais une avance colossale pour obtenir et croiser les données, de façon à proposer des algorithmes prédictifs sur lesquels sont fondés des services. Effectivement, Google a été condamné sur ces bases‐là ; et c’est sur ces bases‐là qu’on est en train de réfléchir avec la CNIL. Comment parler de processus industriels complets, avec une finalité bien identifiée, permettant de croiser les données, mais dans un contexte bien identifié et normé que le consommateur puisse comprendre ; de façon à dégager des normes que les industriels puissent ensuite adopter. Aujourd’hui, ces énormes sociétés ont besoin de relais de croissance : elles s’attaquent au monde physique, et c’est la troisième vague d’innovation. Prenons l’exemple de la cartographie. Avec Google‐
maps, Google a un projet de cartographie virtuelle du monde physique réel dans un sens très large, entrant à l’intérieur des bâtiments, des centres commerciaux, etc. Et là où Apple avait mis au travail 200 ingénieurs pendant deux ans pour concevoir un système qui s’est révélé finalement à côté de la plaque, Google emploie 5 000 cols bleus en Inde pour vérifier la numérisation des quantités d’information sur les équipements, les infrastructures, les panneaux de signalisation, etc. Il ne s’agit plus de « tertiaire », mais d’une véritable industrie connectée au monde réel. Le Big Data est une révolution industrielle qui change le paysage concurrentiel dans de nombreux secteurs qui se croient protégés. Une entreprise comme Saint‐Gobain ne se croyait pas concurrencée 6 par Amazon : or aux États‐Unis Amazon, s’il ne vend pas de placoplâtre, vend des myriades de produits pour le bâtiment. Les nouveaux acteurs imposent leur rythme d’innovation à des entreprises industrielles traditionnelles qui pouvaient auparavant maîtriser leur propre innovation. Et il faut bien comprendre que l’attaque va se porter sur les marges des entreprises. Le contexte est un mouvement de « servicisation » des industries manufacturières traditionnelles, et de « réinternalisation » de beaucoup d’industries de services. Par exemple, l’automobile qui était un bien « de propriété » devient un bien « d’usage », valorisé par les services qui sont offerts avec : et qui dit usage dit usage connecté, données, optimisation. Les constructeurs automobiles allemands constatant la disparition progressive du « milieu de gamme » envisagent d’utiliser ce segment pour « serviciser », miser sur la location. Mais plutôt que de livrer des flottes entières à des entreprises de services, avec des marges faibles, ils préféreront rendre eux‐mêmes le service, pour garder le bénéfice d’une connaissance des comportements des conducteurs. Au passage, cela leur permettra de préciser les risques d’accidents et de les incorporer : les assureurs risquent d’être concurrencés ! Tout le paysage concurrentiel est bouleversé. L’industrie du logiciel n’échappe pas à cette tendance : aujourd’hui ce qui est vendu par SAS c’est un service, alors que la valeur marginale du software tend vers zéro. Mais les marges ne pourront se maintenir qu’en liant au logiciel des données exclusives permettant un service exclusif. C’est bien une troisième révolution industrielle : et si le Big Data est central dans cette révolution, c’est que la servicisation est directement liée à la connectivité, et directement liée à la donnée. Les géants de la deuxième vague ont donc un avantage évident dans cette compétition. On ne peut pas arrêter cette « troisième révolution industrielle dont le nom est Big Data» en créant des lignes Maginot règlementaires. Il s’agit d’économie et d’innovation : des emplois sont détruits, d’autres sont créés. Plutôt que de vouloir arrêter le processus, en vain, mieux vaut faire en sorte que les emplois recréés le soient dans ce pays‐ci. Le Big Data, ce n’est pas d’abord des risques sur la vie personnelle, ce n’est pas seulement des outils, c’est d’abord cette puissante révolution dont les impacts sont énormes. De nombreux « business models » sont impactés : c’est bien connu dans le cas de la presse, la musique, le commerce des livres, les opérateurs Télécom ; c’est vrai aussi dans le cas du tourisme, où les grandes chaînes d’hôtels comme Accor voient leurs marges laminées par des centrales de réservation en ligne comme Expedia, qui peuvent se permettre de percevoir des marges bien plus importantes que les agences de voyage à l’ancienne car elles ont un pouvoir de rétorsion considérable contre leurs adversaires potentiels : elles peuvent dé‐référencer des hôtels qui ne sont remplis que via ces centrales de réservation. Autre exemple : l’industrie aéronautique est elle aussi en pleine mutation vers cette « servicisation ». Cela a commencé par le cas des hélicoptères militaires : les armées veulent recourir à la location, acheter des heures de vol au lieu d’acheter des appareils. Du coup la maintenance incombe au constructeur des appareils : ceux‐ci ne dégageront de marge que s’ils internalisent cette maintenance et s’ils savent l’optimiser. C’est pourquoi, un paramètre comme le coût d’hébergement des données prend tant d’importance : or les effets d’échelle sur les coûts d’hébergement sont colossaux, de 1 à 14 entre Microsoft et une entreprise lambda. 7 Face à cela, il faut faire très attention aux dommages collatéraux de décisions où l’on a politiquement raison, mais économiquement tort. Il faut se garder de l’angélisme, dans un monde dominé par la microéconomie et l’innovation. On ne doit pas prendre le risque d’un Fukushima du BigData : il nous faut, nous aussi, innover. Et on ne peut pas se payer le luxe de faire échouer la confiance, de manière majeure, sur un sujet comme celui‐là. Débat suivant ces trois premières interventions L’impact du Big Data sur la statistique publique inquiète plusieurs participants. En effet, l’indépendance de la statistique publique suppose que ses responsables conservent la maîtrise des méthodes de collecte et de traitement. Comment cela sera‐t‐il possible si se développe le recours à des données « de la vraie vie», émergeant directement des activités économiques ? Les interventions suivantes ont plutôt relativisé la capacité des informations tirées de Big Data à concurrencer efficacement des données publiques. Ainsi l’application « Google Flu » censée localiser précocement les épidémies de grippe ferait finalement moins bien que les réseaux d’alerte traditionnels. Autre exemple : lorsque deux instituts nationaux de statistique européens ont travaillé sur des indices de confiance des consommateurs, ils ont constaté que les indices de confiance officiels étaient des indicateurs avancés des indices de confiance établis à partir de Facebook, et non l’inverse ! Cela dit, tout le monde reconnaît qu’il faut expérimenter activement l’utilisation de données comme les données de caisse des grandes surfaces ; et en amont, se demander comment établir des coopérations public‐privé, comment y traiter les questions de confidentialité, et aussi quelles compétences nouvelles seront de ce fait nécessaires dans la statistique publique. Pour Arnaud Laroche, le cadre traditionnel de la statistique publique a beaucoup de vertus, et elle continuera à servir de « garde‐fou » dans de nombreux domaines, à condition que ses acteurs soient bien présents dans les discussions autour des Big Data. On pourrait dire des choses analogues des instituts de sondages. La statistique sert‐elle à prévoir ou à comprendre ? Que faut‐il penser de la démarche du « deep learning » qui laisse certains penser que finalement, avec les Big Data, « plus besoin d’être intelligent », les conclusions sortiront des données ? D’un côté s’est exprimée la thèse « si ça marche, ça marche » : ne portons pas de jugement de valeur, demandons‐nous simplement si ça remplit la fonction. Cela fait longtemps que les industriels de l’assurance se reposent sur des modèles de « pricing » qu’ils ne sauraient pas expliquer. De l’autre côté, un point de vue plus nuancé s’est exprimé, pour considérer qu’on aura toujours besoin de recul sur les paramètres, les hypothèses, et que mieux vaudrait rapprocher les points de vue (inductif et déductif) que les opposer. Comment mettre en œuvre le « droit à l’oubli » ? N’y aurait‐il pas une solution simple, s’interroge un participant, consistant à prévoir dans toute application un effacement automatique des données au bout d’un temps déterminé ? Pour François Bourdoncle, l’approche de ce problème par la régulation n’est pas la seule approche possible ; il faut aussi considérer l’approche par le marché : déjà des sociétés comme Voycee offrent des services de réseau social garantissant l’auto‐destruction rapide des données. Sophie Vulliet‐Tavernier rappelle que le droit à l’oubli n’implique pas nécessairement l’effacement des données, mais doit s’inscrire dans une réflexion plus globale sur la durée de 8 conservation des informations, en n’oubliant pas les finalités secondaires comme l’archivage historique. La CNIL dispose déjà de référentiels à ce sujet. L’interdiction des prises de décision automatiques figurant dans la loi de 1978 n’est‐elle pas devenue une hypocrisie, demande un participant qui cite des exemples où, selon lui, cette interdiction n’est pas respectée dans le domaine du crédit bancaire ou dans celui de la vente des places d’avion. Sophie Vulliet‐Tavernier pense au contraire que c’est un principe fondamental à vivifier : il doit toujours y avoir une intervention humaine en bout de chaîne. C’est la même chose pour le droit de connaître et de contester les raisonnements qui motivent les décisions prises à votre encontre. On est trop souvent dans une situation de passivité face à une opacité complète. Les données des cartes bancaires ont été très peu « marchandisées », pourquoi ? Aujourd’hui c’est interdit : les banques n’ont pas le droit de vendre ces données. Quels pourraient être les impacts du Big Data sur le secteur de l’assurance, s’inquiète un participant qui travaille dans une entreprise de ce secteur. Ils pourraient être importants, selon François Bourdoncle. Le secteur est très riche, dématérialisé. Les assureurs ont les données sur les sinistres, mais les spécialistes des données d’usage, sociétés du Big Data, pourraient proposer des produits d’assurance ciblés à des prix inférieurs pour les bons clients. Google s’intéresse de près à ce secteur qui pourrait faire l’objet d’une attaque sur les marges, à partir d’une analyse conjointe des données d’usage et des données de risques. Comme toujours, une logique d’innovation rapide bouleverse le paysage concurrentiel. Comment accompagner l’innovation ? Est‐ce que le point de vue européen sur la protection des données personnelles ne peut pas constituer un atout concurrentiel ? Comment alors les industriels pourraient‐ils le mettre en œuvre pratiquement ? Cette suggestion d’un participant est reprise par la représentante de la CNIL, qui rappelle les efforts de cette institution pour accompagner des « start‐
up », notamment dans le domaine de l’anonymisation, et qui se place dans la perspective du futur règlement européen : avec la suppression des obligations déclaratives, les entreprises vont se tourner vers les autorités de contrôle pour être informées sur les principes de la protection des données. Obtenir un « label de conformité » pourrait devenir un « plus » concurrentiel. Certaines entreprises comme Microsoft et Orange se dirigent vers cela. Santé et Big Data : beaucoup de questions, encore peu de solutions (I) Marcel Goldberg, professeur émérite d’épidémiologie, situe le champ de son exposé : celui‐ci sera consacré aux bases de données médico‐administratives en santé, bases volumineuses mais qui ne constituent qu’une partie des données de santé, en croissance exponentielle. Les autres parties sont les données médicales liées aux soins, les données des génomes, l’imagerie médicale numérisée, les données de l’e‐santé souvent fournies par des capteurs individuels… La France est un des rares pays (avec les pays scandinaves) qui disposent de bases de données médico‐administratives nationales centralisées et gérées par des organismes publics. Ces bases sont organisées autour d’un identifiant unique, le numéro d’inscription au répertoire des personnes (NIR). 9 Les deux principales sont d’une part le SNIIRAM (« Système national d’information inter‐régimes de l’assurance‐maladie ») qui recense toutes les prestations remboursées dans un grand détail (on connaît jusqu’au numéro minéralogique des ambulances !), ainsi que tous les séjours hospitaliers dans sa composante PMSI (« Programme de médicalisation des systèmes d’information ») ; d’autre part le SNGC (« Système national de gestion des carrières ») de la Caisse Nationale d’Assurance‐
Vieillesse, qui contient des informations à caractère économique et social sur les personnes. Ces bases ont de grands avantages pour la recherche : exhaustives, structurées, elles offrent des effectifs importants pour étudier des maladies particulières, même rares ; leurs données sont souvent plus fiables que des données déclaratives ; il y a un suivi dans le temps, et très peu de « perdus de vue ». Ces bases sont déjà utilisées : on se souvient de l’affaire du Médiator, dont les effets ont pu être étudiés à partir des données du SNIIRAM : et d’autres exemples peuvent être donnés.3 Elles sont d’autant plus utiles qu’on profite de leur complémentarité : un projet comme « Hygie », conduit par l’IRDES (Institut de recherche et de documentation en économie de la santé), apparie les bases SNIIRAM et SNGC pour constituer un système d’information sur les indemnités journalières de sécurité sociale sur un échantillon de 800 000 personnes. Au‐delà de leurs potentialités propres, ces bases peuvent enrichir des fichiers d’enquêtes particulières ou des cohortes : c’est ce qui est en cours dans le cas de la cohorte « Constances »4. Il n’est donc pas étonnant que les demandes d’accès à ces bases soient de plus en plus nombreuses : et le nombre de ces demandes qui sont satisfaites augmente effectivement à vive allure depuis une dizaine d’années. Une polémique a éclaté fin 2013‐début 2014, sous la forme d’articles grand public affirmant que ces données seraient « mises sous le boisseau » et réclamant une ouverture, voire une « libération » des données de santé. Il est vrai qu’il existe des difficultés d’accès : difficultés juridiques – le recueil du NIR dans des enquêtes pour appariement éventuel avec ces bases reste soumis à un décret en Conseil d’Etat ; difficultés techniques – il s’agit de très grosses bases, rassemblant 1,2 milliards de feuilles de soins, occupant 20 téraoctets… ; difficultés méthodologiques – ces bases sont complexes, les traiter suppose par exemple de connaître la législation des remboursements, qui change sans cesse ; difficultés organisationnelles enfin : les autorisations d’accès sont délivrées par des organismes différents selon les catégories de demandeurs, il existe un grand nombre de comités et d’organismes constituant pour certains une « jungle » où ils ont du mal à se repérer ; on est très loin du « guichet unique ». Il peut donc y avoir à l’avenir des simplifications de l’accès à ces données. La situation est évolutive : des rapports sont parus comme le rapport de l’Inspection générale des Affaires Sociales en 20135, d’autres sont en cours d’élaboration. Il n’en reste pas moins que l’ouverture comporte des risques qu’il ne faut pas sous‐estimer : - le risque de divulgation de données sensibles au niveau individuel, comme cela s’est produit aux États‐Unis pour le gouverneur d’un État américain, identifié grâce à ses dates d’hospitalisation ; 3
NDR : on pourra consulter à ce sujet l’article de Claude Gissot et Dominique Polton, de la CNAMTS, dans la revue de la SFdS « Statistique et Société » n° 2014‐2 4
Voir à ce propos l’article de Marie Zins et Marcel Goldberg dans cette même publication 5
http://www.social‐sante.gouv.fr/IMG/pdf/Rapport_donnees_de_sante_2013.pdf 10 -
le risque de profilage de groupes présentant des caractéristiques médicales particulières, ce qui devient de plus en plus possible avec un degré de finesse de plus en plus grand. Santé et Big Data : beaucoup de questions, encore peu de solutions (II) Geneviève Chêne, professeur de santé publique à Bordeaux et directrice de l’ITMO (Institut thématique multi‐organismes) « Santé publique » Aviesan 6, présente les démarches qui sont en cours pour faire progresser la recherche en santé publique en facilitant l’accès aux données massives. Elle rappelle d’abord les principes qui doivent guider les chercheurs : • ne collecter que des données ayant un intérêt potentiel pour le sujet de recherche ; • cloisonner les données très identifiantes ; • crypter certaines informations ; • limiter les accès et la copie des informations ; • agir avec déontologie : rigueur, expertise, esprit critique. L’ITMO‐Santé publique, qui représente une communauté de chercheurs à la fois utilisateurs et producteurs de données, a fait le constat de la complexité des démarches permettant d’avoir accès aux bases de données médico‐administratives (BDMA) : le « parcours » pour les chercheurs de l’INSERM voulant traiter des données du SNIIRAM ne comporte pas moins de quinze étapes ! Pour faciliter ce parcours, l’ITMO propose une « plateforme BDMA », véritable interface entre l’équipe de recherche et la base de données. Ce projet prévoit un volet « hébergement dans un environnement permettant des accès sécurisés », de façon à éviter de disséminer les bases de données et à assurer une traçabilité des usages. La solution technique ferait appel à un modèle de dispositif tel que celui actuellement déployé par le CASD du GENES. Par ailleurs, l’IRESP – Institut de Recherche en Santé Publique, lance des appels à projet généraux ou spécialisés pour inciter les équipes de recherche à utiliser les grandes bases de données, et pour faciliter les appariements avec les grandes cohortes. Enfin, le portail Internet « Epidémiologie‐
France », opérationnel depuis trois ans, recense plus de 500 bases de données et rencontre un succès croissant (plus de 1 000 visites par mois). Une stratégie pour développer la recherche française en santé publique doit aussi anticiper les nouveaux usages : @‐épidémiologie7, e‐santé, impact des objets connectés sur la santé. Ceux‐ci font l’objet d’une réflexion très active au sein d’Aviesan . Geneviève Chêne fait part pour terminer d’un regret : elle estime qu’on ne réfléchit pas suffisamment sur les modèles de causalité mis en œuvre dans les projets de recherche utilisant les BigData. Les chiffres ne vont pas parler automatiquement ! Pour le moment, il n’est pas tout à fait naturel pour les médecins ou les biologistes de considérer que les statisticiens doivent être impliqués dans ce genre de projets : c’est pourtant une incontournable nécessité. 6
Alliance nationale pour les sciences de la vie et de la santé, association créée en 2009 qui rassemble les grands acteurs en sciences de la vie et de la santé en France.
7
Epidémiologie utilisant Internet 11 Débat suivant ces deux interventions En introduction au débat, André Loth, directeur de projet à la Direction de la recherche, des études, de l'évaluation et des statistiques (DREES) du ministère de la santé, réagit en évoquant son expérience de rapporteur du récent rapport sur l’utilisation et la gouvernance des données de santé 8
, dans lequel, rappelle‐t‐il, il est uniquement question des bases de données médico‐administratives et notamment du SNIIRAM, base relativement « jeune » puisqu’elle date de 2003. Il s’agit de mieux utiliser ces données, tout en protégeant la vie privée des personnes. Ceci se fait en appliquant des règles : règles jugées discutables, voire mauvaises par certains ; mais jugées bonnes, quoique compliquées, par la majorité. Une règle qui mériterait d’être changée est celle qui régit l’utilisation du NIR (décret en Conseil d’Etat) : cet encadrement est excessif, la CNIL a fait des propositions pour l’assouplir, ce dossier doit arriver à bonne fin. En revanche, la nécessité de protéger l’anonymat demeure. Si on prend par exemple l’échantillon général des bénéficiaires, échantillon au 1/97ème, il contient vingt ans de parcours de soins pour chaque individu concerné : on ne doit pas prendre le risque qu’une de ces personnes puisse être identifiée, c’est la condition pour continuer à mériter la confiance du public. Il faut aller vers une distinction claire entre des données complètement anonymisées, qui doivent être complètement « ouvertes » (Open Data) ; et des données qui sont encore indirectement nominatives, pour lesquelles seuls des accès restreints sont envisageables. Toute la difficulté est de savoir distinguer entre les deux : de ce point de vue, on n’a pas la réponse aujourd’hui. Un participant a relevé parmi les « principes » cités pour la recherche le fait de ne collecter « que les données ayant un intérêt pour l’étude ». Il s’en inquiète : un tel principe ne risque‐t‐il pas de brider la recherche ? C’est sans doute vrai : une tension existe entre « tester une hypothèse » et « faire toutes les corrélations possibles pour faire jaillir la lumière ». Mais attention aux risques de « faux positifs ». Et les utilisations pour la décision lorsqu’on n’a aucune idée des mécanismes causaux à l’œuvre peuvent être assez limitées. En revanche, il faut reconnaître l’importance des données massives issues du soin pour accélérer la génération d’hypothèses qui peuvent ensuite être validées par des études ad hoc. Un autre participant évoque la constitution des échantillons longitudinaux en sciences sociales intégrant des données de santé, et notamment la création de la cohorte « ELFE9 » : c’est bien de la convergence de plusieurs sources qu’on attend des avancées de la connaissance. Une doctorante suisse demande quelles sont les règles qui s’appliquent aux équipes situées à l’étranger pour l’accès aux données des BDMA. Il lui est répondu que cet accès est possible pour les chercheurs des pays de l’Union Européenne et plus généralement de tous les pays qui disposent d’une protection juridique des données adéquate. Un participant souhaite revenir sur la polémique évoquée par Marcel Goldberg dans son exposé : que faut‐il en penser finalement ? Cette polémique avait‐elle du sens ? Les intervenants soulignent que le débat autour de l’accès au SNIIRAM dans la grande presse a choqué, dans la mesure où 8
http://www.social‐sante.gouv.fr/IMG/pdf/Rapport_donnees_de_sante_2013.pdf Etude longitudinale française depuis l’enfance : panel de 18 000 enfants créé par l’Ined, l’Inserm et l’Etablissement français du sang. 9
12 certains ont présenté les règles et procédures en vigueur comme des obstacles délibérés pour empêcher les personnes non initiées et non privilégiées d’accéder à ces données. C’est faire peu de cas de beaucoup de choses, et en particulier des risques de rupture de confidentialité, aussi bien que des difficultés techniques pour traiter ces informations : beaucoup de ceux qui les réclament à hauts cris seraient bien en peine de les traiter si on les leur donnait. Par ailleurs, il ne faut pas oublier que l’accès est interdit aux organismes privés à but lucratif, et notamment aux assureurs, sans quoi ceux‐
ci pourraient développer des applications de « profilage » : une partie des voix qui s’élèvent pour l’ouverture des données de santé provient de « start‐up » visant à créer des applications à caractère économique. Des erreurs ont d’ailleurs pu être commises : ainsi les tarifs nominatifs des professionnels de santé ont‐ils été publiés sur un site ouvert (« Ameli », l’Assurance‐maladie en ligne), mais avec interdiction de les re‐publier, ce qui n’avait pas de sens et a d’ailleurs été contourné par des organes de presse. Les polémiques devraient s’atténuer si on progresse sur les problèmes de fond et notamment sur la distinction entre données complètement anonymisées et données indirectement nominatives. Le Big Data et l'automatisation de la stratégie marketing dans la publicité temps‐réel La première présentation de cette après‐midi avait comme objectif d’approfondir le débat sur « Opportunités et risques » dans le domaine de la publicité. Nicolas Grislain, ancien élève de l’ENS Lyon, diplômé de l’Ensae et fondateur d’AlephD, nous a d’abord présenté les utilisations du Big Data pour l’automatisation de la stratégie marketing dans la publicité temps‐réel. En effet, depuis quelques années la vente d’espaces publicitaires en ligne a connu une véritable révolution avec l’apparition des enchères en temps réel (Real‐Time‐Bidding ou RTB). Si auparavant, ces ventes passaient par la traditionnelle négociation entre un commercial et les acheteurs potentiels, la révolution technologique des outils de traitement et la disponibilité de masses considérables de données permettent maintenant d’effectuer automatiquement cette vente en quelques milisecondes à chaque affichage d’une page web par un utilisateur et en tenant compte de ses caractéristiques. Plus concrètement, chaque « impression » (un affichage à un utilisateur à un instant donné sur une page donnée) est mise aux enchères en temps réel entre les annonceurs et attribuée au plus offrant. Sur la base des rapports reçu sur chaque enchère des milliers de fois par seconde, AlephD construit des stratégies de mise à prix en temps réel. Dans un contexte où les utilisateurs ont de plus en plus conscience de l'utilisation commerciale qui est faite de certaines de leurs données personnelle, les producteurs de contenus demandent de plus en plus de garanties aux acteurs qui les aident à monétiser par la publicité. En outre, la valeur croissante des données incite les acteurs ayant accès à cette donnée à la protéger autant que possible et à n'en révéler que les aspects nécessaires à leur activité. Les données personnelles circulent donc moins librement et sous des formes plus agrégées. D’une certaine manière (et sans que cela ne se 13 substitue à un contrôle par une institution à gouvernance démocratique) la gestion et la protection des informations personnelle est investie par le « business ». Les deux autres présentations étaient relatives aux conditions d’utilisation des Big Data, l’une portant sur les méthodes d’anonymisation des données individuelles, condition sine qua non d’utilisation des Big Data dans un climat de confiance, et l’autre sur les droits des individus et aux pouvoirs qu’ils peuvent détenir dans la sphère des Big Data. Comment Anonymiser des Données Personnelles ? Benjamin Nguyen, ancien élève de l’ENS Cachan et membre d’une équipe de projet Inria‐Université de Versailles, a présenté différentes techniques pour anonymiser les données personnelles. Il a d’abord rappelé que si l’anonymisation a pour objectif de ne plus pouvoir identifier une personne à partir des données diffusées, la législation européenne, contrairement à la législation française, ne mentionne que l’utilisation d’un « effort raisonnable » pour identifier les personnes. C’est pourquoi il préfère parler, comme le groupe de travail de l’article 29 qui rassemble au niveau européen les représentants des différentes autorités nationales de protection des données (la CNIL dans notre cas), de techniques d’anonymisation protégeant plus ou moins l’anonymat sans trop dégrader l’information contenue dans les données (les « Privacy Preserving Data Publishing » ou PPDP). Tout d’abord, ne supprimer que les identifiants (nom ou NIR) n’assure en effet pas une anonymisation efficace. Ainsi à partir du code postal, du sexe et de la date de naissance on a pu identifier 87 % de la population du recensement américain de 1990… Ces données sont dites indirectement nominatives. Il faut donc créer des groupes ou classes d’équivalences contenant au moins K individus par « généralisation des données » (ne retenir que le mois de naissance ou la classe d’âge par exemple). Cette K‐anonymisation peut être améliorée en assurant que chaque groupe présente une « diversité » suffisante en rapport aux variables sensibles (« I‐diversity »). Le prix à payer est que l’information subsistant dans chaque groupe est de moins en moins pertinente… Enfin, une dernière technique d’anonymisation (« Differential Privacy ») a été présentée. Elle consiste à échantillonner la base de données initiale et à la compléter par création de données fictives… En conclusion, de nombreux modèles sont disponibles pour prévenir les différentes attaques contre l’anonymat, mais l’important est que l’utilisateur soit bien informé sur le modèle utilisé, ses performances et ses risques. Enfin, dernier risque, le tiers de confiance qui effectue l’anonymisation (l’Insee par exemple) peut aussi être attaqué. Dans ce cas, la meilleure protection est de faire ces opérations de manière distribuée et non centralisée, ce que permettent certaines techniques. Quels droits et quel pouvoir pour les individus ? Philippe Aigrain, informaticien et essayiste, dirigeant de Sopinspace, société spécialisée dans la diffusion de logiciels libres sur internet et fondateur de « La Quadrature du Net » qui défend les droits 14 et libertés dans l’espace numérique, avait intitulé sa présentation « Quels droits et quel pouvoir pour les individus ? ». Il est d’abord revenu sur la notion de finalité du traitement, en précisant que de plus en plus souvent les traitements sont à finalités multiples et que les « mauvaises » finalités chassent parfois les « bonnes », comme par exemple lorsque dans un service public on s’intéresse aux données pour améliorer la qualité des services aux usagers et réduire les coûts… et où on finit par privilégier ce dernier objectif. Puis il a distingué plusieurs formes de contrôle sur leurs données par les individus depuis le contrôle souverain jusqu’au consentement d’utilisation en passant par la délégation partielle de souveraineté avec contrôle en précisant que la « confiance » accordée est systémique, c’est‐à‐dire qu’elle dépend du maillon le plus faible. En fait, le pouvoir des individus passe de fait par le protocole d’accès et l’architecture des données. Là aussi une décentralisation partielle est préférable (ce qui n’a pas été appliqué dans le cas du dossier médical personnel). Du côté des droits, les conditions du recueil du consentement à l’utilisation des données est essentiel (ainsi dans le cas de cookies, il faut souvent donner son consentement pour accéder à la suite du site…) et le consentement doit être réversible. Les exigences de contextualisation doivent être respectées (comme quand la lumière doit rester allumée au cinéma pendant les publicités ou que les publicités rédactionnelles doivent se différencier clairement des articles dans la presse écrite). Débat suivant ces trois interventions La discussion a porté sur différents points techniques (dans le cas de la K‐anonymisation, ne peut‐on recourir à un sondage ou peut‐on rajouter des contraintes supplémentaires… ?). Une question fondamentale a toutefois émergé : Comment concilier le droit des individus à l’anonymat avec le droit de la société à s’informer sur elle‐même ? «La post‐modernité des Big Data : aboutissement ou neutralisation de la pensée critique ?» Antoinette Rouvroy, chercheur au Centre de recherche Information, droit et société de la Faculté de droit de Namur, a introduit une réflexion sur le thème de la postmodernité des Big Data : aboutissement ou neutralisation de la pensée critique ? Elle aborde tout d’abord la question des données brutes. Celles‐ci prolifèrent, en ce sens qu’elles ne sont pas produites de façon consciente, mais arrivent comme spontanément. Elles ont pour effet que chaque objet disparaît, étant éclaté en une multitude de données. Les données brutes sont traitées pour être désindexées et pour leur retirer toute référence contextuelle permettant de les relier à la 15 réalité. Elles constituent un ensemble de fragments d’existences individuelles, d’événements neutralisés de toute référence subjective, donc de toute signification. La signification ne viendra qu’après le traitement. Avant celui‐ci, elles ne forment qu’un signal, quantifiable justement parce qu’il est insignifiant et qu’il paraît ainsi non sensible aux individus. Les données ont un caractère trivial, insignifiant et souvent anonyme. L’engouement pour les Big Data provient de la nouvelle possibilité de modéliser le social sans intermédiation, et non à partir d’une position surplombante. Il donne une impression d’objectivité et d’immanence. On rejoint ainsi le rêve de la critique des années 60, où l’on recherchait à se défaire des situations surplombantes et à faire apparaître le vrai et le bien en dehors des conventions imposées par des autorités hiérarchiques. Le savoir surgit du réel, métabolisé par les ordinateurs. En comparant les Big Data et les statistiques classiques, elle constate que les statistiques traditionnelles visaient à organiser la commensurabilité, en mettant des nombres sur les mots, grâce à des conventions ouvertes sur l’espace public et sujettes à discussion. Au contraire, le data mining fait l’hypothèse d’une incommensurabilité radicale. De même, alors que la statistique traditionnelle devait se donner les moyens de poser des hypothèses puis de chercher à produire la preuve de leur confirmation, dans les Big Data, les hypothèses n’ont pas besoin d’être introduites, puisqu’elles surgissent des données elles‐mêmes en temps réel. Avec les Big Data, on est dans un système d’immanence totale, qui ne fait pas la distinction entre la réalité et sa représentation : on a supprimé la couche d’intermédiation que constituait la catégorie statistique. Dans la statistique classique, la modélisation algorithmique sélectionne les données sur lesquelles on veut travailler, ouvrant la possibilité à des tiers de critiquer cette sélection pour défaut de représentativité. Avec les Big Data, on s’émancipe de tout rapport à la moyenne et à la normale, puisque l’on ne sélectionne pas les données a priori : on peut prendre en compte tous les points, y compris les plus aberrants. Cette émancipation de toute norme qui serait associée à l’idée de l’homme moyen libère de toute contrainte les objectifs de maximisation des profits et de neutralisation de l’incertitude. Elle promeut la radicalisation de la logique actuarielle, au détriment de la justice sociale. Toute distinction de traitement des individus qui serait économiquement justifiée devient automatiquement légitime. Elle remarque enfin que, avec les Big Data, on entre dans la personnalisation à l’échelle industrielle (ce n’est plus un oxymore), avec une hyper individualisation de la statistique dans les domaines sécuritaire, sanitaire, administratif, commercial… On devient soi‐même sa propre statistique, évolutive en temps réel. On ne fonctionne plus sur le mode du consentement, mais de l’adhésion. La contrainte fondée sur l’interdiction et l’obligation est remplacée par l’alerte qui provoque des réactions par réflexe, évite le prisme de la conscience individuelle et n'a pas recours à la persuasion qui s'appuierait sur la capacité d’entendement et sur la volonté. Ce qui pose la question de l’espace public : la construction des catégories à travers lesquelles nous percevons le monde et l’évaluation de nos contemporains sont sous‐traitées à la machine, ce qui conduit à une hypertrophie de la sphère 16 privée. Quand on entre sur un espace public virtuel, on se trouve dans une bulle individuelle immunitaire, coupé de l’expérience commune. L’espace public présuppose un écart entre le monde et sa représentation : celle‐ci doit être discutée, car chaque discipline a sa manière de construire le réel. Il y a une polyphonie des modes de construction de la réalité. Celle‐ci est écrasée par les Big Data. Enfin, les Big Data ignorent les notions de commencement et de fin, or l’être humain a besoin de s’inscrire dans la durée. Les questions ont permis de préciser le contenu de la notion de gouvernance algorithmique en donnant l’exemple d’alertes subliminales, faisant jouer le subconscient. Sur l’usage des Big Data, leur idéal pourrait être une utopie sans ennemis, où l’espace public deviendrait inutile. Les sciences sociales et les nouveaux gisements de données numériques. Dominique Cardon, sociologue au laboratoire des usages d’Orange Labs et à l’Université de Marne‐la‐
Vallée a examiné les rapports entre Les sciences sociales et les nouveaux gisements de données numériques. Il fait tout d’abord part de son scepticisme vis‐à‐vis des promesses annoncées par les promoteurs des Big Data, qu’il estime inconsidérées. Selon lui, les algorithmes sophistiqués aboutissent souvent à des résultats triviaux. Il souhaite poser un regard sociologique, global, peut‐être parfois caricatural, sur la société numérique, dans laquelle les Big Data jouent un rôle central. En analysant la sociologie des calculateurs vis‐à‐vis de cette société numérique, à la manière d’Alain Desrosières. Pour organiser l’information entre un humain et un document, il est nécessaire de réaliser un certain nombre d’opérations de type « lien », « like » (Facebook), « vue » ou « trace ». Cela le conduit à distinguer des familles de calcul sur les données numériques selon la position du calculateur par rapport à ce qu’il observe. Le calculateur peut être à côté de ce qu’il observe. C’est la mesure d’audience. Elle mesure la popularité des différentes ressources et permet par exemple d’organiser les vidéos sur You Tube selon leur audience. C’est un système de nature démocratique, où tous les « cliqueurs » ont le même poids, mais qui est très perméable aux tricheurs, robots pouvant cliquer de façon non contrôlée. Il peut être au‐dessus de ce qu’il observe, intervenant alors sur le mode de l’autorité. Ce sont les citations par des liens hypertextes et leur dénombrement, pondéré par l’autorité même de ceux qui citent, agissant ainsi de façon récursive. Ce système est fondamentalement méritocratique. Il nécessite de la part des moteurs de recherche de séparer les bons et les mauvais liens, pour éviter les citations réciproques, à la manière de la claque conviée à applaudir un spectacle. La reconnaissance doit venir de la qualité. Et la visibilité se mériter ou s’acheter mais, dans ce dernier cas, de manière distincte. 17 Le calculateur peut aussi se situer au‐dedans de l’objet observé, traduisant ainsi son affinité pour celui‐ci. Ce sont les « amis » de Facebook, qui finissent par constituer un élément de la personnalité des utilisateurs et créent des bulles dans le Web social. Elles constituent des métriques qui ne parviennent pas à s’agréger. Elles ne servent pas à mesurer le réel, mais à aider les acteurs à le modifier. Les plateformes ne tentent pas de lutter contre la présence de faux amis. Enfin, le calculateur se trouve parfois en‐dessous du Web, se plaçant dans une position qui favorise la prédictivité. On y enregistre les traces de ce que font effectivement les gens, pas de ce qu’ils déclarent vouloir faire. Pour cela, on a besoin de la complétude des données, sans avoir besoin ni d’échantillon, ni de techniques de catégorisation. On assiste ainsi à une transformation du paradigme statistique : alors que la consistance de la société se trouvait dans les catégories statistiques qui la représentaient, les Big Data battent cette organisation en brèche en recherchant la singularisation et en se mettant dans le plan de l’immanence des données. Les questions posées ont porté sur l’éventuelle supériorité de la naturalité sur les données construites. Le naturel existe bien, mais la construction des catégories « par le haut » (notamment par l’Insee) pouvait faire l’objet de discussions et de critiques, ce qui n’est plus possible lorsque ce sont les acteurs qui, par leurs données elles‐mêmes, construisent les catégories. Conclusion du séminaire par Alain Godinot, SFdS. Alain Godinot adresse ses remerciements à Françoise Dupont et Marion Selz, sans qui le séminaire n'aurait pu avoir lieu. Il remercie aussi les tous les intervenants, qui ont éclairé de leurs compétences de multiples aspects du phénomène Big Data, ainsi que les participants, dont l'attention et l'intérêt ne se sont à aucun moment relâchés. Pour conclure la journée, il souhaite exprimer un point de vue de citoyen soucieux de n'être ni trop épié, ni trop manipulé, sans pour autant verser dans la paranoïa, tout en s'efforçant de ne pas perdre de vue le terrain des questionnements éthiques et déontologiques. Son point de vue s'articule autour des trois dimensions individuelle, professionnelle et sociétale. Dans la dimension individuelle, il se dit impressionné par quatre points. :  une image virtuelle de lui‐même se constitue à son insu, au fil de sa vie, faite des informations qu'il donne volontairement et de toutes les autres. Alors qu'il a droit à son image corporelle, quel est son droit à son image virtuelle ?  il ressent une absolue méconnaissance de ce qu'on est susceptible de faire de ses traces ;  il se sent dans l'impossibilité de fait de faire disparaître ses traces, ou de contrôler la disparition complète des traces que la loi l'autorisera, demain, à faire effacer ;  enfin, compte tenu des puissances de calcul déployées, il ne croit guère que ses traces puissent demeurer anonymes. Dans la dimension professionnelle, il se déclare frappé par la fascination exercée par la puissance des outils disponibles ; frappé aussi par la persistance de l'illusion que le vrai peut émerger de l'océan des 18 informations par les seules vertus combinées du nombre de ces informations et de l'intelligence artificielle. Il se dit inquiet des dérives que pourrait occasionner la confusion entre corrélation et causalité, ou l'abandon du souci de comprendre au bénéfice de la seule efficacité. Dans la dimension sociétale, trois éléments lui paraissent mériter une grande attention :  le juridique n'est‐il pas condamné à courir toujours derrière la technique ?  comment assurer la pérennité d'un cadre démocratique alors que le Big Data sert des objectifs de plus en plus ouvertement sécuritaires ?  comment éviter le conditionnement des opinions par la sélection ‐ consciente ou non ‐ des informations livrées via les moteurs de recherche et les médias ? Sommes‐nous, comme le pense le philosophe Éric Sadin, au seuil d'une rupture anthropologique ? Comment se protéger ? Alain Godinot discerne quatre voies, à articuler entre elles : 



l'éducation dès le plus jeune âge, pour éclairer chaque citoyen ; la déontologie professionnelle, portée par les institutions et les entreprises, dans toutes les dimensions du Big Data. Que cherche‐t‐on ? Pour faire quoi ? Quelle qualité exige‐t‐on des informations ? Etc. ; les protections juridiques à un niveau international, assorties de contrôles supranationaux, notamment en ce qui concerne l'appropriation et le contrôle des données ; l'élaboration collective d'une charte internationale d'utilisation des données, avec l'obligation pour les auteurs de traitements de déclarer s’ils l’ont respectée ou non. Revenant à des considérations plus modestes, il annonce des suites immédiates au séminaire et de possibles suites plus lointaines. Dans l'immédiat, un questionnaire d'évaluation sera adressé aux participants, ce qui n'empêche pas les appréciations spontanées. Plus tard, un compte rendu valant acte du séminaire sera transmis à toutes les personnes qui s'étaient inscrites et sera accessible sur le site de la SFdS (sfds.asso.fr). S'agissant de suites éventuelles plus lointaines, le groupe Statistique et enjeux publics de la SFdS aimerait poursuivre et approfondir la réflexion sur ces questions éthiques et déontologiques. Ses forces étant mesurées, il lance un appel aux personnes intéressées pour qu'elles se manifestent, soit directement, soit en relayant cet appel aux bonnes volontés dans leurs propres réseaux. Il n'exclut pas que le groupe sollicite, en outre, tel ou telle des participants. Il rappelle l'adresse du séminaire pour tout échange : [email protected] en précisant : « séminaire du 22 mai 2014 ». 19 Biographies des intervenants Panorama des applications du Big Data et de la Data Science Arnaud Laroche, co fondateur Bluestone Diplômé en 1994 de l’ENSAE et du DEA «Analyse et politique économique» de l’Ecole d’Economie de Paris, Arnaud Laroche a débuté sa carrière dans la recherche, sur le thème du financement de la croissance économique. En 1996, il crée la société Bluestone avec deux associés, pour offrir des services de conseil de haut niveau dans le domaine de la Data Science. Le groupe qu’il dirige compte aujourd’hui 130 Data Scientists au service de nombreux clients situés dans différents secteurs. Etat des lieux de la réflexion sur la protection des données aux niveaux français et international Sophie Vulliet‐Tavernier, directeur des relations avec les publics et la recherche (CNIL). Directeur des affaires juridiques, internationales et de l’expertise, de la CNIL de 2007 à 2010, puis des études, de l’innovation et de la prospective de 2011 à 2014, Sophie Vulliet‐Tavernier a pris la responsabilité de la direction des relations avec les publics et la recherche, chargée de valoriser les connaissances et la doctrine de la CNIL auprès de tous les publics, notamment de la recherche. Diplômée de l'université de droit et de sciences sociales de Paris II et de l'Institut Français de Presse (DEA de sciences politiques, DESS de droit de la Défense, maîtrises en Droit Public et en sciences de l'information). Big Data et Relation Client : quel impact sur les industries et activités de services traditionnelles ? François Bourdoncle, co‐fondateur et CTO d’Exalead, filiale du groupe Dassault Systèmes François Bourdoncle est cofondateur et actuel Directeur Technique d'Exalead, société pionnière dans les domaines des moteurs de recherche et du Big Data, aujourd'hui filiale du Groupe Dassault Systèmes. Précédemment, il a mené une carrière de recherche académique et industrielle, en France et en Californie, et a également enseigné de nombreuses années à l’École Polytechnique et à l’École Normale Supérieure. François Bourdoncle est ancien Elève de l’École Polytechnique, Ingénieur au Corps des Mines, et Docteur en Informatique. Il est membre du Conseil Scientifique de la Société Informatique de France et de la commission Innovation 2030, et a été nommé co‐chef de file du plan Big Data française. Il est également Chevalier dans l'Ordre National de la Légion d'Honneur et dans l'Ordre National du Mérite, et s'est vu décerner en 2005 le prix de l'Ingénieur de l'Année, dans la catégorie Entrepreneur. Santé et Big Data : beaucoup de questions, encore peu de solutions Marcel Goldberg, UMS 011 Inserm‐UVSQ, Villejuif Marcel Goldberg, professeur émérite d’épidémiologie à l’Université de Versailles Saint Quentin en Yvelines, travaille au sein de l’Unité mixte de service Inserm‐UVSQ « Cohortes épidémiologiques en population ». Il est notamment impliqué dans la mise en place et la gestion de grandes cohortes en population (cohortes Gazel et Constances) constituant des infrastructures de recherche ouvertes à la communauté scientifique. Il est également coordonnateur du Groupe de travail « Systèmes d’information pour la santé publique » du Haut conseil de la santé publique. 20 Geneviève Chêne, directrice ITMO de Santé Publique AVIESAN, Université de bordeaux, Isped, Inserm Prof. Geneviève CHENE, MD, PhD ([email protected]‐bordeaux2.fr) Professeur de Santé Publique à l’Université de Bordeaux depuis 1999 et responsable d’une équipe de recherche sur l’infection par le VIH/sida au sein du Centre de recherche INSERM U897 « Epidémiologie et Biostatistique » (directeur : C. Tzourio), médecin coordonnateur du module « Epidémiologie Clinique » du CIC de Bordeaux, Geneviève Chêne est également Chef du Pôle de Santé Publique au CHU de Bordeaux. Après des études en médecine, puis un internat de santé publique à l’Université Bordeaux Segalen (1979‐
1989), elle s’est formée en biostatistique à Paris 11 (1990), puis à la London School of Hygiene and Tropical Medicine (1993). Elle a soutenu sa thèse d’Université en 1996 et obtenu une habilitation à diriger des recherches en 1998. Le Big Data et l'automatisation de la stratégie marketing dans la publicité temps‐réel. Nicolas Grislain, fondateur AlephD Ancien élève de l’École Normale Supérieure de Lyon et diplômé de l'ENSAE, Nicolas Grislain a travaillé 4 ans à le Direction Générale du Trésor comme économiste, puis 2 ans à la Société Générale avant de fonder AlephD. Comment Anonymiser des Données Personnelles ? Benjamin Nguyen, Université de Versailles et Saint‐Quentin‐en‐Yvelines Benjamin Nguyen est Maître de Conférences à l'Université de Versailles et Saint‐Quentin‐en‐Yvelines, membre de l'équipe‐projet commune INRIA,CNRS, UVSQ "Secured and Mobile Information Systems" (SMIS) du Laboratoire Parallélisme, Réseaux, Systèmes et Modélisation (PRiSM,UMR 8144). Ses recherches portent sur la gestion de données personnelles, et plus particulièrement les aspects de protection de la confidentialité de ces données et de leurs traitement. Benjamin Nguyen est ancien élève de l’École Normale Supérieure de Cachan. Il a reçu son Doctorat de l'Université Paris‐Sud en 2003, et son Habilitation à Diriger des Recherches de l'Université de Versailles St‐Quentin‐en‐Yvelines en 2013. Site Web : http://www.prism.uvsq.fr/~beng/ Quels droits et quel pouvoir pour les individus ? Philippe Aigrain, La quadrature du net Philippe Aigrain est informaticien et essayiste. Il dirige Sopinspace, une société spécialisée dans les outils logiciels libres pour la collaboration et la participation sur internet. Il est l'un des fondateurs de La Quadrature du Net, association qui défend les droits fondamentaux et les libertés dans l'espace numérique. Il est l'auteur de cause commune : l'information entre bien commun et propriété, Fayard 2O05 / publie.net 2013 et de Sharing: Culture and the Economy in the Internet Age, Amsterdam University Press, 2012. Blog sur les communs : http://paigrain.debatpublic.net Blog littéraire : http:/atelierdebricolage.net «La post‐modernité des Big Data : aboutissement ou neutralisation de la pensée critique ?» Antoinette Rouvroy , Centre de Recherches Information, Droit et Société Faculté de droit de Namur Antoinette Rouvroy est docteur en sciences juridiques de l’Institut Universitaire de Florence, chercheur qualifié du FNRS (Belgique) en philosophie du droit au Centre de Recherche en Information, Droit et Société de l’Université de Namur et membre du comité de la prospective de la CNIL. Elle est notamment l’auteur de Human Genes and Neoliberal Governance: A Foucauldian Critique (Routledge‐Cavendish, 2007) et, avec 21 Mireille Hildebrandt, co‐éditrice de Law, Human Agency, and Autonomic Computing (Routledge, 2011). Ses intérêts de recherche actuels concernent les circonstances et effets de la transposition du monde sous une forme numérique (Big Data, internet des objets,…) et de l’automatisation croissante des tâches de détection, de classification et d’évaluation anticipative des comportements et événements (machine learning, intelligence ambiante, …) sur les modes de production du savoir (datamining, modélisation algorithmique,…), les modes de gouvernement des conduites et les processus d’individuation collective et individuelle susceptibles de les infléchir ou de leur résister. Les sciences sociales et les nouveaux gisements de données numériques. Dominique Cardon, SENSE/Orange Labs et LATTS/Université de Marne la vallée Dominique Cardon est sociologue au Laboratoire des usages d’Orange Labs et chercheur associé au Centre d’études des mouvements sociaux (CEMS/EHESS). Ses travaux actuels portent sur les usages d’Internet et les transformations de l’espace public numérique. Ses recherches récentes portent sur les réseaux sociaux de l’Internet, les formes d’identité en ligne, l’auto‐production amateur et l’analyse des formes de coopération et de gouvernance dans les grands collectifs en ligne. Il a dirigé la publication des numéros spéciaux de la revue Réseaux sur «les réseaux sociaux de l’Internet» (n°152, décembre 2008) et le «Web 2.0» (n°154, mars 2009). Il est l'auteur de plusieurs essais, dont . La démocratie Internet, Paris, Seuil/La République des idées, 2010 et, avec Fabien Granjon, Mediactivistes, Paris, Presses de Science Po, 2010. 22