Rapport théorique

Transcription

Rapport théorique
Datajournalisme : ébauche de l’arbre des débats
Vincent Lostanlen
18 mai 2011
Introduction : de la frénésie WikiLeaks au pamphlet d’Enthoven
Quand, en juillet 2010, WikiLeaks révèle 91 000 documents militaires secrets
américains sur la guerre en Afghanistan, l’opinion publique prend conscience
qu’une nouvelle manière de faire du journalisme, initiée en 2007, est en train
de se développer. On parle alors de datajournalisme : il n’est plus tant question de rapporter un fait et d’en faire une critique éditoriale que de traiter
statistiquement une base de données afin de rendre l’information interactivement exploitable pour le lecteur ou l’internaute. La blogosphère se passionne
alors pour ce phénomène, probablement en raison de son aspect participatif et
citoyen.
Pourtant, alors que The New York Times et The Guardian intègrent ces nouveaux procédés avec enthousiasme, la plupart des journaux des journaux papiers
français se montrent réticents à adopter des méthodes numériques d’exploitation de données, estimant qu’elles mettent en péril le métier de journaliste dans
sa dimension narrative et personnelle. C’est en ces termes que Jean-Christophe
Féraud dénonce l’infobésité, cette tendance à vouloir objectiviser la réalité à
outrance comme relevant d’une « dérive scientiste » 1 . Très récemment, le philosophe Raphaël Enthoven a même publié dans L’Express.fr un pamphlet contre
Edwy Plenel – rédacteur en chef de Mediapart – en appelant à combattre « le
culte paranoïaque de la transparence » et déclarant que « sans loi, Internet est
comme un revolver dans les mains de milliards d’enfants » 2 .
L’attention portée depuis près d’un an sur les scandales mis au jour par
les datajournalistes a fait entrer dans la sphère publique un débat plus large :
quelle légitimité donner à un journalisme basé sur des données récupérérées à
l’insu de ceux qui en son l’objet ? Pour éclaire cette controverse, il est nécessaire
d’identifier les éléments techniques où le rôle moral y est crucial et de repérer
les grands principes sur lesquelles reposent ses argumentations.
1. J.-C. Féraud, Le « data journalism » contre Albert Londres, article de son blog « Sur
mon écran radar », 9 février 2010, http ://monecranradar.blogspot.com/2010/02/le-datajournalism-contre-albert.html
2. Sur Internet, l’antijournalisme réclame l’information aux dépens de la loi, L’Express.fr,
21 avril 2011, www.lexpress.fr/actualite/media-people/media/sur-internet-l-antijournalismerecla me-l-information-aux-depens-de-la-loi_985413.html
1
1
1.1
La technologie de l’information, clé de voûte
du journalisme du données
De nouveaux outils de visualisation
Tout d’abord, il est évident que le succès du datajournalisme repose en
grande partie sur les nouvelles possibilités d’extraction, de traitement et de
visualisation automatique de l’information. Aujourd’hui, de plus en plus d’entreprises cherchant à se tenir au courant de l’actualité font appel à des logiciels
professionnels de data mining tels que Factiva ou LexisNexis : on assiste alors
à une délégation de la moralité à un système technologique, en l’occurence un
gigantesque agrégateur de contenu.
L’influence grandissante de ces nouveaux outils est un point chaud de la
controverse, car la centralisation et l’externalisation du travail de recherche
donne du pouvoir à des non-journalistes et s’accompagne d’une crainte au sujet
de la diversité et de la hiérarchisation des sources. Par ailleurs, les longs textes
de pages Web HTML traditionnelles font désormais place à des infographies
animées et souvent interactives : en témoigne par exemple la mise en forme
sophistiquée du site webdocs.arte.tv, pionnier en la matière. De nouveau, les
outils de présentation de l’information sont mis en cause par les détracteurs du
datajournalisme, qui ne voient dans ces diagrammes clinquants qu’un écran de
fumée sans contenu.
1.2
Vers une guerre des formats ?
Un autre artefact moral important de cette controverse est celui de l’encodage des fichiers de données. Certes, la question « qu’est-ce que qu’une donnée ? »
paraît triviale au premier abord ; pourtant, il est clair qu’on aura plus de mal à
exploiter quantitativement l’information d’un document numérisé de plusieurs
milliers de pages que d’un fichier XML bien structuré. Or, si Nicolas KayserBril, datajournaliste chez OWNI, précise que la plupart des documents rendus
publics par les mairies (en vertu de la loi CADA) sont des tableaux Excel 3 , il
n’est pas rare que les documents révélés par WikiLeaks soient de simples PDF.
Il apparaît que le degré de rationalisation de la source influence directement
la facilité de son étude statistique. Par conséquent, nous pourrions assister à
une sorte de guerre des formats à l’envers dans laquelle les états et entreprises
feraient en sorte que leurs données soient le moins exploitable possible pour les
journalistes !
3. Interview pour le site web DataNews, 28 février 2011, http ://www.datajournalisme.com/ ?p=102
2
2
2.1
Deux principes fondamentaux
Principe de respect du lecteur
Un thème récurrent parmi les manifestes pour le datajournalisme est la notion de respect du « lecteur-internaute-consommateur » 4 considéré dans sa triple
identité. C’est ainsi que l’on peut lire Nicolas Vanbremeersch écrire sur Slate.fr :
De nombreux médias ont compris qu’un article n’était plus l’alpha et l’omega de l’information, mais qu’une infographie, voir la
compilation intelligente de données, mises à disposition sur un site
Internet, était un meilleur levier d’information qu’un article, qu’une
tribune d’expert. Les meilleurs articles d’information, en ligne, les
plus consultés, sont souvent de beaux diagrammes. Et pour cause ;
quand le commentaire est partout, le journaliste qui travaille la donnée reprend la main, retrouve un rôle. Il doit juste penser à le faire
dans le respect de son lecteur : en ne lui « prémâchant » pas tout.
Ce respect du lecteur se traduit, pour les partisans du journalisme du données, par un accès plus direct et plus « authentique » aux données, ainsi qu’un
rôle plus actif dans la compréhension de l’information. Ne pas tout prémâcher
peut alors carrément se traduire par une publication brute des données, comme
The Guardian l’a fait en mai 2009 en lançant une grande enquête participative
(crowdsourcing) sur les notes de frais des députés britanniques.
Mais respecter le lecteur, pour Jean-Christophe Féraud, c’est précisément
« lui [servir] autre chose que de l’info-burger et de l’eau tiède » ; d’où la nécessité
proclamée de revenir à un journalisme de récit, celui d’Albert Londres et Hunter
S. Thompson.
2.2
Principe de vie de l’information
Par ailleurs, on trouve chez les deux partis de la controverse un goût prononcé
pour l’information soi-disant « vivante » : mais ils attribuent à ce terme des sens
différents. Les partisans du rich media vont juger que leurs présentations sont
plus vivantes qu’un article, car faisant appel à l’« intelligence cinétique » 5 ; plus
encore, le travail de communauté inhérent à l’utilisation du crowdsourcing est
tout à fait en accord avec l’élévation de la vitalité au rang de paradigme de
communication 6 . Toutefois, il faut bien admettre que le moulage d’une donnée
mesurée dans une structure préétablie, quand elle trouve son épitomisation dans
4. Eric Mettout, Pourquoi le data-journalisme, c’est l’avenir en marche,
le 7 avril 2010 sur son blog de L’Express.fr, http ://blogs.lexpress.fr/nouvellefo
rmule/2010/04/07/elle_sappelle_caroline_goulard/
5. Caroline Goulard, Quatre voies du datajournalism, OWNI, 7 avril 2010,
http ://owni.fr/2010/04/07/quatre-voies-du-datajournalism/
6. voir à ce sujet Eric Scherer, Données publiques et journalisme : une mine de richesses !, 7 juillet 2010, http ://owni.fr/2010/07/07/donnees-publiques-et-journalisme-unemine-de-richesses/
3
le « robot-journalisme » 7 , se trouve être moins vivante qu’un article statique
mais pourvu de caractère.
3
Hiérarchisation des débats
Au vu de l’analyse précédente, on en déduit que le débat sur le datajournalisme peut se cloisonner en trois phases ou catégories :
1. Accès aux données. La question du partage public des données est évidemment la première condition sine qua non du fonctionnement du datajournalisme. Elle suscite des controverses sur les notions de transparence
et de vie privée (notamment dans les cartographies judiciaires). Ajoutons
que cette catégorie englobe une sous-controverse concernant la pertinence
des données pour elle-même : qui nous dit qu’une donnée transparente
conduit à une information limpide ?
2. Identité des agents de traitement. Toute la controverse au sujet des crowdsourcings militants – j’entends par militant tout acte consistant à rechercher des indices a posteriori d’une opinion politique – comme par exemple
celui de Députés Godillots, réside ici. Plus largement, cette controverse
vise à redéfinir le métier de journaliste et les qualités qu’il suppose ; d’où
des implications sur sa formation (celle-ci doit-elle comporter des statistiques ? du développement d’applications Web ?).
3. Mise en forme. Cette catégorie est en surface de la controverse, si l’on
peut dire. Elle se révèle dans l’opposition traditionnelle entre données et
éditorial, et soulève la question de la transmission pédagogique de l’information. Garde-t-on un souvenir durable d’un histogramme ou d’une carte
détaillée ? Est-il vraiment souhaitable de commenter les données ? Quel
rôle donner à l’interactivité dans le rapport à l’information ?
7. J.-C. Féraud, Nous ne sommes pas (encore) des robots-journalistes, Sur mon écran
radar, 16 décembre 2009, http ://monecranradar.blogspot.com/2009/12/nous-ne-sommes-pasencore-des-robots.html
4