Rapport théorique
Transcription
Rapport théorique
Datajournalisme : ébauche de l’arbre des débats Vincent Lostanlen 18 mai 2011 Introduction : de la frénésie WikiLeaks au pamphlet d’Enthoven Quand, en juillet 2010, WikiLeaks révèle 91 000 documents militaires secrets américains sur la guerre en Afghanistan, l’opinion publique prend conscience qu’une nouvelle manière de faire du journalisme, initiée en 2007, est en train de se développer. On parle alors de datajournalisme : il n’est plus tant question de rapporter un fait et d’en faire une critique éditoriale que de traiter statistiquement une base de données afin de rendre l’information interactivement exploitable pour le lecteur ou l’internaute. La blogosphère se passionne alors pour ce phénomène, probablement en raison de son aspect participatif et citoyen. Pourtant, alors que The New York Times et The Guardian intègrent ces nouveaux procédés avec enthousiasme, la plupart des journaux des journaux papiers français se montrent réticents à adopter des méthodes numériques d’exploitation de données, estimant qu’elles mettent en péril le métier de journaliste dans sa dimension narrative et personnelle. C’est en ces termes que Jean-Christophe Féraud dénonce l’infobésité, cette tendance à vouloir objectiviser la réalité à outrance comme relevant d’une « dérive scientiste » 1 . Très récemment, le philosophe Raphaël Enthoven a même publié dans L’Express.fr un pamphlet contre Edwy Plenel – rédacteur en chef de Mediapart – en appelant à combattre « le culte paranoïaque de la transparence » et déclarant que « sans loi, Internet est comme un revolver dans les mains de milliards d’enfants » 2 . L’attention portée depuis près d’un an sur les scandales mis au jour par les datajournalistes a fait entrer dans la sphère publique un débat plus large : quelle légitimité donner à un journalisme basé sur des données récupérérées à l’insu de ceux qui en son l’objet ? Pour éclaire cette controverse, il est nécessaire d’identifier les éléments techniques où le rôle moral y est crucial et de repérer les grands principes sur lesquelles reposent ses argumentations. 1. J.-C. Féraud, Le « data journalism » contre Albert Londres, article de son blog « Sur mon écran radar », 9 février 2010, http ://monecranradar.blogspot.com/2010/02/le-datajournalism-contre-albert.html 2. Sur Internet, l’antijournalisme réclame l’information aux dépens de la loi, L’Express.fr, 21 avril 2011, www.lexpress.fr/actualite/media-people/media/sur-internet-l-antijournalismerecla me-l-information-aux-depens-de-la-loi_985413.html 1 1 1.1 La technologie de l’information, clé de voûte du journalisme du données De nouveaux outils de visualisation Tout d’abord, il est évident que le succès du datajournalisme repose en grande partie sur les nouvelles possibilités d’extraction, de traitement et de visualisation automatique de l’information. Aujourd’hui, de plus en plus d’entreprises cherchant à se tenir au courant de l’actualité font appel à des logiciels professionnels de data mining tels que Factiva ou LexisNexis : on assiste alors à une délégation de la moralité à un système technologique, en l’occurence un gigantesque agrégateur de contenu. L’influence grandissante de ces nouveaux outils est un point chaud de la controverse, car la centralisation et l’externalisation du travail de recherche donne du pouvoir à des non-journalistes et s’accompagne d’une crainte au sujet de la diversité et de la hiérarchisation des sources. Par ailleurs, les longs textes de pages Web HTML traditionnelles font désormais place à des infographies animées et souvent interactives : en témoigne par exemple la mise en forme sophistiquée du site webdocs.arte.tv, pionnier en la matière. De nouveau, les outils de présentation de l’information sont mis en cause par les détracteurs du datajournalisme, qui ne voient dans ces diagrammes clinquants qu’un écran de fumée sans contenu. 1.2 Vers une guerre des formats ? Un autre artefact moral important de cette controverse est celui de l’encodage des fichiers de données. Certes, la question « qu’est-ce que qu’une donnée ? » paraît triviale au premier abord ; pourtant, il est clair qu’on aura plus de mal à exploiter quantitativement l’information d’un document numérisé de plusieurs milliers de pages que d’un fichier XML bien structuré. Or, si Nicolas KayserBril, datajournaliste chez OWNI, précise que la plupart des documents rendus publics par les mairies (en vertu de la loi CADA) sont des tableaux Excel 3 , il n’est pas rare que les documents révélés par WikiLeaks soient de simples PDF. Il apparaît que le degré de rationalisation de la source influence directement la facilité de son étude statistique. Par conséquent, nous pourrions assister à une sorte de guerre des formats à l’envers dans laquelle les états et entreprises feraient en sorte que leurs données soient le moins exploitable possible pour les journalistes ! 3. Interview pour le site web DataNews, 28 février 2011, http ://www.datajournalisme.com/ ?p=102 2 2 2.1 Deux principes fondamentaux Principe de respect du lecteur Un thème récurrent parmi les manifestes pour le datajournalisme est la notion de respect du « lecteur-internaute-consommateur » 4 considéré dans sa triple identité. C’est ainsi que l’on peut lire Nicolas Vanbremeersch écrire sur Slate.fr : De nombreux médias ont compris qu’un article n’était plus l’alpha et l’omega de l’information, mais qu’une infographie, voir la compilation intelligente de données, mises à disposition sur un site Internet, était un meilleur levier d’information qu’un article, qu’une tribune d’expert. Les meilleurs articles d’information, en ligne, les plus consultés, sont souvent de beaux diagrammes. Et pour cause ; quand le commentaire est partout, le journaliste qui travaille la donnée reprend la main, retrouve un rôle. Il doit juste penser à le faire dans le respect de son lecteur : en ne lui « prémâchant » pas tout. Ce respect du lecteur se traduit, pour les partisans du journalisme du données, par un accès plus direct et plus « authentique » aux données, ainsi qu’un rôle plus actif dans la compréhension de l’information. Ne pas tout prémâcher peut alors carrément se traduire par une publication brute des données, comme The Guardian l’a fait en mai 2009 en lançant une grande enquête participative (crowdsourcing) sur les notes de frais des députés britanniques. Mais respecter le lecteur, pour Jean-Christophe Féraud, c’est précisément « lui [servir] autre chose que de l’info-burger et de l’eau tiède » ; d’où la nécessité proclamée de revenir à un journalisme de récit, celui d’Albert Londres et Hunter S. Thompson. 2.2 Principe de vie de l’information Par ailleurs, on trouve chez les deux partis de la controverse un goût prononcé pour l’information soi-disant « vivante » : mais ils attribuent à ce terme des sens différents. Les partisans du rich media vont juger que leurs présentations sont plus vivantes qu’un article, car faisant appel à l’« intelligence cinétique » 5 ; plus encore, le travail de communauté inhérent à l’utilisation du crowdsourcing est tout à fait en accord avec l’élévation de la vitalité au rang de paradigme de communication 6 . Toutefois, il faut bien admettre que le moulage d’une donnée mesurée dans une structure préétablie, quand elle trouve son épitomisation dans 4. Eric Mettout, Pourquoi le data-journalisme, c’est l’avenir en marche, le 7 avril 2010 sur son blog de L’Express.fr, http ://blogs.lexpress.fr/nouvellefo rmule/2010/04/07/elle_sappelle_caroline_goulard/ 5. Caroline Goulard, Quatre voies du datajournalism, OWNI, 7 avril 2010, http ://owni.fr/2010/04/07/quatre-voies-du-datajournalism/ 6. voir à ce sujet Eric Scherer, Données publiques et journalisme : une mine de richesses !, 7 juillet 2010, http ://owni.fr/2010/07/07/donnees-publiques-et-journalisme-unemine-de-richesses/ 3 le « robot-journalisme » 7 , se trouve être moins vivante qu’un article statique mais pourvu de caractère. 3 Hiérarchisation des débats Au vu de l’analyse précédente, on en déduit que le débat sur le datajournalisme peut se cloisonner en trois phases ou catégories : 1. Accès aux données. La question du partage public des données est évidemment la première condition sine qua non du fonctionnement du datajournalisme. Elle suscite des controverses sur les notions de transparence et de vie privée (notamment dans les cartographies judiciaires). Ajoutons que cette catégorie englobe une sous-controverse concernant la pertinence des données pour elle-même : qui nous dit qu’une donnée transparente conduit à une information limpide ? 2. Identité des agents de traitement. Toute la controverse au sujet des crowdsourcings militants – j’entends par militant tout acte consistant à rechercher des indices a posteriori d’une opinion politique – comme par exemple celui de Députés Godillots, réside ici. Plus largement, cette controverse vise à redéfinir le métier de journaliste et les qualités qu’il suppose ; d’où des implications sur sa formation (celle-ci doit-elle comporter des statistiques ? du développement d’applications Web ?). 3. Mise en forme. Cette catégorie est en surface de la controverse, si l’on peut dire. Elle se révèle dans l’opposition traditionnelle entre données et éditorial, et soulève la question de la transmission pédagogique de l’information. Garde-t-on un souvenir durable d’un histogramme ou d’une carte détaillée ? Est-il vraiment souhaitable de commenter les données ? Quel rôle donner à l’interactivité dans le rapport à l’information ? 7. J.-C. Féraud, Nous ne sommes pas (encore) des robots-journalistes, Sur mon écran radar, 16 décembre 2009, http ://monecranradar.blogspot.com/2009/12/nous-ne-sommes-pasencore-des-robots.html 4