Format PDF

Transcription

Format PDF
Sociologie
N°3, vol. 6 | 2015
Varia
Annexes électroniques de l’article « Au-delà des
big data. Les sciences sociales face à la
multiplication des données numériques »
Étienne Ollion et Julien Boelaert
Éditeur
Presses universitaires de France
Édition électronique
URL : http://sociologie.revues.org/2615
ISSN : 2108-6915
Édition imprimée
Date de publication : 6 novembre 2015
ISSN : 2108-8845
Référence électronique
Étienne Ollion et Julien Boelaert, « Annexes électroniques de l’article « Au-delà des big data. Les
sciences sociales face à la multiplication des données numériques » », Sociologie [En ligne], N°3, vol.
6 | 2015, mis en ligne le 18 août 2015, consulté le 09 octobre 2016. URL : http://
sociologie.revues.org/2615
Ce document a été généré automatiquement le 9 octobre 2016.
© tous droits réservés
Annexes électroniques de l’article « Au-delà des big data. Les sciences socia...
Annexes électroniques de l’article « Audelà des big data. Les sciences sociales
face à la multiplication des données
numériques »
Étienne Ollion et Julien Boelaert
1
Le jeu de données « deputes.anonymises.csv » contient les invitations de 577 députés
français de la quatorzième législature entre juin 2012 et avril 2015 sur le plateau de
différents médias audiovisuels. Les nombreuses chaines ont été recodées en sept types de
médias distincts : LCP (la chaîne parlementaire), Public Sénat, France Info, radios
générales, radios spécialisées, chaînes d’information en continu, et télévision. Les
données sont anonymisées.
2
Nous appliquons à ces données deux méthodes de réduction de dimensionnalité, l’Analyse
en Composantes Principales et t-SNE, qui consistent toutes deux à projeter le nuage de
points initial (à sept dimensions) sur un graphique en deux dimensions.
3
La première, l’analyse en composantes principales (ACP) est une méthode exacte et
déterministe, au sens où elle correspond à la résolution exacte d’un problème
mathématique d’optimisation (maximisation de la variance conservée sur les premières
composantes principales, composantes obtenues par rotation des axes de départ). Deux
exécutions de l’algorithme donnent donc toujours le même résultat.
4
Le script pour R fourni dans l’annexe 2 produit d’abord une simple représentation du
nuage de points projeté sur les deux premières composantes principales, et ensuite une
série de graphiques d’interprétation. La projection par ACP est ici d’assez bonne qualité,
puisque 70 % de la variance du nuage de points de départ est conservée sur les deux
premières composantes principales. Le premier axe, qui représente 58 % de la variance,
peut s’interpréter comme une mesure de la visibilité médiatique. La plupart des points
sont groupés dans le cadran ouest du graphique, près de l’origine, et représentent les
députés n’ayant reçu aucune invitation dans les médias, ou très peu. Plus un point est
Sociologie, N°3, vol. 6 | 2015
1
Annexes électroniques de l’article « Au-delà des big data. Les sciences socia...
placé à l’est du graphique, plus le député correspondant fait de nombreuses apparitions
médiatiques. Le deuxième axe est positivement corrélé à la variable LCP, et négativement
à la variable TV.spécialisée : les points au nord du graphique correspondent à des
apparitions plus nombreuses sur la chaîne parlementaire, les plus au sud correspondant à
des apparitions plus nombreuses à la télévision (émissions spécialisées).
5
La seconde méthode, nommée t-distributed stochastic neighborhood embedding (t-SNE),
est au contraire une méthode approchée et stochastique : elle résulte d’un algorithme
d’optimisation approché, et deux exécutions successives donneront des résultats
différents quoique proches.
6
La représentation graphique produite est très différente de celle de l’ACP : plutôt qu’une
forme de comète, le nuage de points est à présent éclaté en un petit nombre de groupes
bien séparés1. Les graphiques d’interprétation permettent de comprendre à quoi
correspondent ces groupes : le plus grand groupe (dont la position varie selon les
exécutions de l’algorithme) comprend les députés n’ayant eu aucune apparition
médiatique sur la période étudiée. Quelques autres petits groupes comprennent les
députés ayant eu entre une et quatre apparitions au total, les différents groupes
correspondant à des apparitions dans des médias différents (comme on le voit sur les
graphiques représentant les apparitions sur LCP et à la radio). Enfin, un dernier
ensemble, moins dense et moins circulaire, regroupe les députés les plus médiatiques, qui
présentent une diversité interne plus importante que dans les autres groupes.
7
Ces deux applications illustrent la différence principale entre les deux méthodes : l’ACP
conserve les grandes distances, alors que t-SNE conserve essentiellement les distances
faibles. Ainsi, la présence dans l’échantillon de quelques députés très médiatisés tend à
compresser, sur la représentation ACP, tous les députés pas ou peu médiatiques dans une
petite zone, et à laisser sur le graphique de larges zones vides ; par différence, dans la
représentation t-SNE les députés très médiatisés sont regroupés dans un ensemble qui
prend moins de place que celui des députés n’ayant eu aucune apparition médiatique, et
qui n’en est pas plus éloigné que l’ensemble des députés à une seule apparition
médiatique. Les deux représentations donnent donc des visions différentes mais
complémentaires du même nuage de points. L’ACP permet de visualiser la structure
générale des données, et informe sur les variables les plus discriminantes. La
représentation t-SNE permet, elle, d’identifier les groupes d’observations proches, et allie
en quelque sorte à la réduction de dimensionnalité un début de classification
automatique.
8
On trouvera plus de détails et de riches interprétations dans le mémoire d’Alizée
Delpierre : “Une fois l’émission faite, j’ai senti qu’on me regardait autrement ici, à l’Assemblée” .
Rapports à la médiatisation et pratiques de communication des élus, Mémoire de Master 2
Pratique de l’interdisciplinarité, 2015.
Sociologie, N°3, vol. 6 | 2015
2
Annexes électroniques de l’article « Au-delà des big data. Les sciences socia...
NOTES
1. Préalablement au traitement t-SNE, nous avons ajouté de très petites perturbations aléatoires
au nuage de points de départ. En effet, l’algorithme t-SNE n’accepte pas de doublons dans le
nuage de points ; l’ajout des perturbations permet alors de donner à tous les députés le même
« poids » dans la représentation (ce que l’on perdrait si l’on ne conservait qu’un seul point pour
l’ensemble des députés n’ayant aucune apparition médiatique), et explique pourquoi des points
égaux dans le nuage de départ occupent des positions différentes dans la représentation t-SNE.
Sociologie, N°3, vol. 6 | 2015
3