1 Les objectifs de l`évaluation de corpus annotés 2 Mesure de l

Transcription

1 Les objectifs de l`évaluation de corpus annotés 2 Mesure de l
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
Evaluation de corpus annotés :
Principe des "mesures d’accord", méthodes, difficultés
1
1.1
Les objectifs de l’évaluation de corpus annotés
Préambule
Nous nous intéressons ici à l’évaluation de la qualité des annotations produites sur un corpus. Les corpus
dont nous parlerons sont essentiellement des textes, mais les principes sont les mêmes pour tout corpus
défini sous forme de flux, comme des flux audio (e.g. annotation de la prosodie) ou vidéo (e.g. annotation
des gestes).
1.2
Annotation manuelle versus annotation automatique
Il est important de distinguer l’évaluation des annotations produites par des humains de celle des annotations des annotations produites par un système automatique.
Evaluation d’un système : pour évaluer la qualité d’un système d’annotation automatique (par ex. un
POS-Tagger, un système de segmentation automatique, un système qui détecte l’expression d’opinions
dans des textes), il est nécessaire de disposer d’une annotation de référence à laquelle comparer les
productions du système. On peut alors évaluer dans quelle mesure on se rapproche du résultat idéal.
Dans certaines situations (mais cela n’a rien de général), l’utilisation de la "précision", du "rappel", et
de la "f-mesure" peuvent être envisagés. Dans d’autres cas, des outils plus spécifiques sont nécessaires
(e.g. WindowDiff pour la segmentation thématique). En tout état de cause, il n’y a pas d’évaluation d’un
système sans annotations de référence (on parlera de "référence" désormais).
Evaluation des annotations manuelles : on pourrait à raison considérer qu’il n’y a pas de différence
de nature entre les productions humaines et les productions automatiques (l’objectif est le même, et les
annotations produites devraient idéalement être les mêmes). De ce point de vue, l’évaluation des unes et
des autres pourraient reposer sur les mêmes méthodes. Dans les faits, le problème est que l’on ne peut
généralement pas s’appuyer sur une référence pour évaluer les productions humaines, dans la mesure où,
souvent, ce sont justement ces annotations humaines qui sont destinées à faire office de référence pour
évaluer (et entraîner) des systèmes automatiques. Il y aurait donc là un problème de circularité. Il est
donc nécessaire de définir une autre façon d’évaluer les productions humaines sans les comparer à un
référence. L’idée consiste à comparer ces productions faites par un humain aux productions faites non
pas par une référence, mais à d’autres humains, sur les mêmes corpus.
2
2.1
Mesure de l’accord inter-annotateurs
Principe de l’annotation multiple
Lorsque l’on ne dispose pas d’une référence pour une tâche d’annotation donnée, on la créée manuellement, en s’appuyant sur le fait que l’annotateur humain dispose probablement de la capacité à comprendre la tâche. Il reste cependant hasardeux, dans bien des cas, de faire aveuglément confiance à un
annotateur, pour plusieurs raisons :
• Il n’est peut-être pas expert, voire il n’a peut-être pas bien compris tout ou partie du manuel
d’annotation
• Il commet peut-être des erreurs (inattention, fatigue) qui seront, par construction, indétectables
• La tâche d’annotation elle-même n’est peut-être pas bien définie, sujette à interprétation (annotation d’opinions), à des ambiguïtés inhérentes (expressions nativement polysémiques)
Pour ces raisons, une stratégie classique consiste à faire annoter le même corpus par plusieurs annotateurs
indépendants, et d’observer dans quelle mesure leurs productions convergent. Si un consensus se dégage,
on obtient finalement une référence en laquelle on peut (probablement) avoir confiance. C’est pour
1
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
mesurer ce degré de consensualité que les mesures d’accord inter-annotateurs ont été conçues. La suite de
ce cours va porter sur ces mesures, même si elles peuvent aussi être utilisées pour évaluer, par ailleurs, des
systèmes (le système est alors considéré comme un annotateur, la référence comme un autre annotateur).
2.2
2.2.1
Que mesure réellement une mesure d’accord inter-annotateurs?
De la validité des annotations
Conformément à ce que l’on vient de voir, il est important d’avoir conscience qu’une mesure d’accord
ne mesure pas la distance absolue à une "vérité", mais un certain degré de consensualité entre plusieurs
annotateurs à qui l’on a donné le même objectif. C’est donc une valeur toute relative, qui, certes, peut
avoir une grande importance, mais qui ne garantit pas en soi que les annotations produites sont valides.
Obtenir une bonnes mesure d’accord est ainsi une condition nécessaire plus qu’une condition suffisante
d’être parvenu à une référence valide.
Plus précisément, nous allons définir les termes de "Validity" et de "Reliability".
Validity En supposant que pour une tâche d’annotation donnée, une référence puisse exister (ce n’est
pas toujours le cas, par exemple si la tâche est mal définie, non entièrement consistante), on dira qu’une
annotation est valide si elle correspond exactement à cette référence.
Reliability Parallèlement, lorsque plusieurs annotateurs ont annoté le même corpus, et en l’absence de
(ou, en tout cas, sans la considérer) référence, la "Reliability" exprime un degré de consensualité entre les
annotateurs : plus ceux-ci sont d’accord, plus cette valeur devrait être importante (si la mesure d’accord
est performante relativement à la tâche considérée).
Reliability
Validity
A
B
C
D
Figure 1: Validity versus Reliability
On voit dans la figure 1 que ces deux notions ne sont pas toujours corrélées. Certes, on voit en
comparant B à D qu’un manque d’accord est préjudiciable pour obtenir une bonne validité. Mais inversement, parfois, un bon accord comme en C ne suffit pas à avoir une bonne validité, même si les
annotations sont malgré tout plus valides qu’en A.
Le cas C est à considérer comme un cas extrême, et nous amène à nous intérroger sur ce qui peut en
être à l’origine. Il correspond au fait que les annotateurs sont tous d’accord mais on tous tort. Peut-être
le manuel d’annotation est erroné, peut-être que tous les annotateurs ont mal compris une consigne... Ce
type de configuration est indétectable sans la présence d’une référence, par exemple la vérification finale
par un expert, si un tel expert existe.
2.3
L’usage courant des mesures d’accord
Dans la pratique, la question de la validité n’est pas toujours étudiée, et les deux notions d’accord et
de validité sont parfois confondues. De fait, nombre d’études reposant sur des corpus multi-annotés
s’appuient sur l’obtention d’un taux d’accord réputé suffisant pour valider leur données. De façon plus
prudente, certains auteurs comme Krippendorff ou Gwet considèrent qu’un accord élevé garantit sinon
la validité des données, du moins le fait que la tâche est suffisamment consistante, et que les annotateurs
2
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
procèdent de façon reproductible et interchangeable. Ainsi, une partique intéressante consiste à s’assurer
que l’on obtient un bon accord sur une portion du corpus, et on peut ensuite faire annoter les annotateurs seuls sur d’autres portions du corpus. Le coût d’annotation est alors réduit, mais la fiabilité est
pratiquement la même que si tous les annotateurs annotaient tout le corpus.
3
Différents types de tâches d’annotations
Si les principes énoncés dans la section précédente sont généraux, les tâches d’annotation sont néanmoins
très variées, reposant sur des objets différents, et nécessitent donc des mesures d’accord bien spécifiques.
Categorisation C’est probablement le type de camapagne d’annotations le plus répandu, et il dépasse
très largement le cadre des annotations "en flux". Il s’agit, pour un ensemble d’items préalablement
définis, de catégoriser chacun d’entre eux parmi plusieurs catégories prédéfinies. Dans le cadre du TAL,
il peut s’agir du POS-TAGGING où tous les mots doivent être catégoriser. Les mesures d’accord dédiées
existent depuis de nombreuses années comme par exemple les Kappas et assimilés, l’Alpha, AC-1 et
AC-2.
annotator 1
A
C
A
B
A
A
B
A
C
A
annotator 2
Figure 2: Categorisation complète d’un flux
Segmentation Il s’agit de segmenter un flux (par exemple le flux textuel) en un certain nombre de
segments contigus, en plaçant des frontières sur le continuum à des endroits choisis par l’annotateur,
cf. figure ??. C’est notamment le cas de la segmentation thématique. La mesure la plus populaire
est WindowDiff, mais la Distance de Hamming Généralisée a montré de meilleures qualités. Attention
toutefois, ce ne sont pas à proprement parler des mesures d’accord, étant conçues pour évaluer des
systèmes et étant plutôt des "distances à une référence".
annotator 1
annotator 2
Figure 3: Segmentation
Unitizing Il s’agit d’une tâche plus générale que la segmentation dans la mesure où, ici, l’annotateur
ne procède pas forcément à un pavage complet du flux, mais doit poser des unités ayant un début et une
fin. Il peut s’agir d’annotations très sporadiques (par exemple ne recouvrant que quelques pourcents du
flux). Plusieurs raffinements sont possibles :
• proposer en plus la catégorisation de chacune des entités. On parlera alors d’unitizing+categorisation
• autoriser le fait que les unités puissent se chevaucher ou se recouvrir (voir fig. 5).
Notons que le cas général (Unitizing + toutes options) présenté en figure 4 généralise à la fois la
segmentation et la catégorisation.
Structures intégrant des relations Le travail de l’annotateur peut aussi consister à relier entre eux
des éléments par certains types de relations. Ces dernières peuvent former des chaînes (e.g. chaînes
de référence), ou des structures sous forme d’arbre (relations syntaxiques, structure du discours, etc.).
Chacune de ces relation peut avoir une catégorie, et peut porter sur des éléments eux-même placés par
l’annotateur (unitizing). Finalement, ces campagnes d’annotation représentent un immense défi pour
3
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
A
A
A
B
A
B
A
C
annotator 1
B
annotator 2
A
B
A
B
A
annotator 3
A
Figure 4: Multi-annotation dans la cas général (Unitizing+Categorisation)
A
A
A
C
annotator 1
B
Figure 5: Recouvrement et chevauchement d’unités
l’évaluation, puisqu’elles peuvent intégrer tous les éléments précédemment évoqués : l’annotateur doit
tout d’abord choisir ses unités, de façon libre (Unitizing), catégoriser chacune d’elles (Catégorisation),
poser des relations entre certaines d’entres elles, et catégoriser ces relations. Il n’existe pas à notre
connaissance de mesure capable (ni prétendant l’être) de traiter de telles annotations.
4
4.1
La prise en compte du "hasard"
Introduction : l’exemple de la catégorisation
Supposons qu’une tâche d’annotation consiste à catégoriser des items parmi 2 catégories. Deux annotateurs aléatoires atteindront statistiquement un taux d’accord de 50%. En conséquence, un taux d’accord
entre deux véritables annotateurs devrait être rapporté à cette baseline, et un taux tel que 70% qui pourrait
sembler acceptable est en fait plus proche du hasard que de l’accord parfait. Supposons à présent que la
tâche d’annotation repose sur 3 catégories au lieu de 2. Cette fois-ci, les annotateurs aléatoires auront
30% d’accord : il est plus facile de se tromper quand le nombre de catégories croît. Pour ces raisons, la
plupart des mesures d’accord inter-annotateurs prennent en compte la valeur d’accord qui "serait obtenue
par le hasard" et ne comptabilisent que la valeur d’accord réel qui se situe au-delà de cette baseline.
4.2
Valeur observée versus valeur par le "hasard"
Nombre de mesures prennent en compte le hasard de la façon suivante :
• Un taux d’accord est observé entre annotateurs (via un certain calcul), noté Po
• Un taux d’accord attribué à ce que donnerait le hasard, à partir de l’observation des données, et
selon principes (sujets à discussion) donne lieu à la valeur Pe ("e" pour "expected", ce à quoi on
s’attend par le hasard).
• La valeur d’accord finale est calculée ainsi : accord =
située entre le hasard et l’accord parfait.
Po −Pe
1−Pe
qui signifie la portion d’accord
• Ainsi, la valeur d’accord est de 1 si les annotateurs sont parfaitement d’accord, et de 0 si les
annotateurs ne font pas mieux que le "hasard". Elle peut même être négative si les annotateurs
arrivent à se mettre en désaccord plus systématiquement que par hasard (par exemple, l’un des
deux annotateurs fait le contraire de ce qu’il faudrait faire).
• Dans l’exemple initial, on pourrait par exemple avoir accord =
brut observé était de 0.7.
4
0.7−0.5
1−0.5
= 0.4, alors que l’accord
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
4.3
À quoi correspond le hasard ?
Epineuse question. Nombre de mesures ne se distinguent d’ailleurs que sur la façon dont la valeur
"expected" est calculée, la valeur "observed" étant calculée de la même façon. Les mesures les plus
populaires comme les Kappas ou Alpha observent les données, et se servent de la répartition effective
entre les catégories (on parle de prévalence de certaines catégories) pour calculer la valeur "expected".
Reprenons l’exemple initial, mais observons ce qu’ont fait deux annotateurs. On constate par exemple
que la catégorie A est utilisée dans 90% des cas, et B seulement dans les 10% autres cas. Il est possible
de s’appuyer sur cette répartition pour créer un annotateur aléatoire bien plus performant, s’il reproduit
lui même, de façon probabiliste, cette répartition. Ainsi, on obtiendra Pe = 0.9 · 0.9 + 0.1 · 0.1 = 0.82,
qui est donc très élevé. Dans ces conditions, un accord observé de 90% ne donnera finalement qu’un
accord de 0.9−0.82
1−0.82 = 0.44.
4.4
Les annotateurs sont ils considérés comme interchangeables ?
L’un des difficiles points de discussion dans ce calcul de la valeur "expected" est de savoir si l’on s’appuie
sur la répartition propre de chacun des annotateurs, ou si l’on considère que les annotateurs sont "interchangeables" et qu’il faut par conséquent calculer les répartition moyennes par catégories. La question
se pose par exemple si l’annotateur 1 a la répartition 90% - 10% entre A et B, mais que l’annotateur 2
a la répartition 80% - 20%. Le Kappa de Cohen considère dans un tel cas qu’il faut faire des calculs du
hasard en créant deux annotateurs aléatoires différents (l’un ayant la répartition de l’annotateur 1, l’autre
de l’annotateur 2), tandis que pour l’Alpha de Krippendorff, on moyennera les répartitions en créant un
seul annotateur aléatoire avec la répartition 85% - 15%. Lorsque les annotateurs se comportent différemment, ces deux types de mesure se distinguent. Laquelle choisir ? Krippendorff affirme que le principe
du calcul d’un accord inter-annotateurs présuppose que les annotateurs soient interchangeables, et que
par conséquent le Kappa de Cohen ne rend pas correctement compte du degré de confiance que l’on peut
accorder à des annotations multiples.
4.5
Le paradoxe induit par une forte prévalence
Un auteur comme Di Eugenio dénonce le fait que lorsqu’une catégorie est moins fréquente que les autres,
les erreurs sur cette dernières sont d’autant plus lourdement sanctionnées (que ce soit avec Kappa ou avec
Alpha, entre autres, en raison du fait que l’expected s’appuie sur les proportions observées). C’est une
question qui fait grand débat depuis des années. Néanmoins, comme le fait remarquer Krippendorff, si
un tâche d’annotation consiste, pour des médecins, à dire si un patient est atteint ou non de telle maladie
rare, la difficulté de leur travail sera de ne pas se tromper sur les quelques cas rares. Par exemple, si la
maladie touche une personne sur 1000, et qu’il y a 5000 patients à observer, un médecin devrait trouver
5 patients atteints, et 4995 non atteints. S’il ne trouve que 2 des patients atteints, et rate les 3 autres,
son score brut est de 4997/5000 = 99.994%, ce qui peut sembler un excellent score. Pourtant, si vous
êtes atteint, il y a moins d’une chance sur deux que ce médecin vous diagnostique correctement. Peut-on
dire que ce médecin est performant vis-à-vis de la detection de cette maladie rare ? Ce paradoxe n’en
est donc finalement peut-être pas un. La question n’est en tout cas pas tranchée puisque Gwet, avec ses
coefficients AC-1 et AC-2, s’attache justement à minimiser ce phénomène.
4.6
Le hasard dans les autres paradigmes que la catégorisation
On a vu que même sur un sujet aussi discuté que celui de la catégorisation, il n’est pas aisé de définir
la notion de "hasard". La tâche est plus délicate encore lorsque l’on aborde d’autres paradigmes comme
l’unitizing. Que ferait un "annotateur aléatoire" ? Comment placerait-il ses unités, avec quelle longueur
et quelle catégorie ? L’alpha U de Krippendorff, seule mesure connue à ce jour abordant cette question,
consiste à moyenner tous les glissements possibles de toutes les unités produites par les annotateurs
(on prend un couple d’annotation, on effectue tous les positionnements relatifs possibles entre ces deux
unités, et on calcule l’accord moyen observé, et fait de même avec tous les couples possibles pour obtenir
une moyenne générale).
5
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
4.7
Circularité du calcul de l’expected
Parmi les difficultés conceptuelles relatives à ce calcul, on peut relever ce petit paradoxe : l’expected est
calculé sur la base d’un modèle du hasard, certes, mais en s’appuyant des données observées, celles là
même que l’on tente d’évaluer. Ainsi, les annotateurs produisent-ils des annotations qui non seulement
seront jugées, mais qui servent de plus de modèle à la baseline statistique à laquelle elles seront confrontées. C’est un peu, d’une certaine façon, comme si les juges s’appuyaient en partie sur ce qu’ont fait les
accusés pour fixer les règles qui permettront de juger ces derniers...
5
Aperçu de quelques mesures
5.1
5.1.1
Catégorisation
Le Kappa de Cohen
Mesure d’accord sans aucun doute la plus connue et donc la plus utilisée. Elle permet de mesurer
l’accord sur une tâche de catégorisation pure, entre deux annotateurs seulement. Comme déjà dit, son
calcul d’expected prend en compte les singularités de chaque annotateur. Il s’appuie sur une matrice de
contingence telle que ci-dessous, empruntée à Wikipédia (http://en.wikipedia.org/wiki/Cohen’s_kappa) :
B
B
Yes No
A Yes 20
5
A No 10 15
Les annotateurs A et B sont d’accord sur 20 Yes et sur 15 No, sur un total 50 annotations, soit Po
= (20 + 15) / 50 = 0.70 Par ailleurs, A dit Yes 50% du temps et B 60% du temps, donc en considérant
des annotateurs aléatoires disctincts basés sur chacun d’entre eux, ceux-ci seront d’accord sur Yes dans
0.5 x 0.6 = 30% des cas, et sur No dans 0.5 x 0.4 = 20% des cas, soit un total d’accord expected
Pe =0.3+0.2=0.5. Finalement, l’accord est donc de 0.7−0.5
1−0.5 = 0.4.
5.1.2
Multi-Kappa
Des versions de Kappa à plusieurs annotateurs ont été produites. La difficulté réside dans le calcul de
l’expected. En effet, on pourrait croire par exemple que pour 3 annotateurs, il suffit de faire la moyenne
des Kappas deux à deux. En réalité, cette façon de faire ne respecterait pas les principes du hasard qui
ont été considérés pour élaborer Kappa. En particulier, imaginons la tâche d’annotation consistant à
choisir parmi 2 catégories, et supposons qu’il y ait 3 annotateurs. Il est par construction impossible que
les 3 annotateurs soient en total désaccord, puisqu’ils n’ont que 2 catégories pour se distinguer. Au pire,
2 annotateurs au moins seront toujours d’accord, ce qui constitue une différence de base par rapport à
la configuration avec 2 catégories. Ces extensions de Kappa à 3 annotateurs et plus ne sont donc pas
triviales.
5.1.3
Mesures pondérées (weighted)
Les catégories que nous avons vues dans les exemples précédents sont dites "nominales". Elles comportent une étiquette, comme "Yes" ou "No", et sont supposées être hermétiques les unes aux autres. Par
exemple "Yes" et "No" n’ont rien de commun. En revanche, il arrive que l’annotateur ait à fournir, en
guise de catégorie, une valeur sur une échelle, par exemple une note entre 0 et 5. Dans ce cas, deux
annotateurs qui attriburaient respectivement les notes 1 et 2 à un item donné devraient être moins lourdement pénalisés que s’ils attribuaient respectivement les notes 0 et 5. Si l’on utilise les mesures nominales
classiques comme le Kappa que l’on vient de présenter, alors toutes les erreurs, graves ou non, seront
sanctionnées de la même manière. Les mesures dites "pondérées" sont capable de prendre en compte
une certaine proximité entre catégories pour le calcul des valeurs observées et exepected. Différentes
matrices de distances inter-catégorielles pré-établies sont disponibles. Par exemple, la distance entre
les catégories i et j peut être |i-j|/(max-min), ce qui donne, pour la distance entre les catégories 1 et 2
6
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
d(1,2)=|1-2|/(5-0)=0.2, et pour les catégories 0 et 5 d=|0-5|/(5-0)=1. D’autres distances, basées par exemple sur des différences au carré, existent. Laquelle choisir, dans quelles conditions ? Rien de précis
n’est encore dit sur ces questions à notre connaissance.
Parmi les mesures pondérées, on peut citer le weighted-kappa, et Alpha (qui est nativement pondéré).
5.2
Segmentation : WindowDiff et Generalized Hamming Distance (GHD)
Il s’agit de distances plus que de mesures d’accord, ne prennent pas en compte le "hasard", et se limitent
à deux annotateurs. WindowDiff consiste à faire glisser une fenêtre sur tout le continuum, d’une taille
égale à la moitié de la taille moyenne des segments observés. À chaque pas, on comptabilise la différence
entre le nombre de frontières dans les annotations de chacun des annotateurs, et on fournit la valeur
moyenne comme valeur d’accord. GHD s’appuie sur un principe du type distance d’édition, à la façon
de Slot Error Rate (voir ci-après), et permet de pallier un certain nombre de problèmes rencontrés avec
WindowDiff (comme par exemple le fait que WindowDiff a des effets de bord au début et à la fin du
continuum, le fait qu’il dépende beaucoup de la variance de la longueur des segments).
5.3
5.3.1
Unitizing
Discretisation du continuum pour se ramener à un calcul de Kappa
Faute de mesure réellement adaptée, une pratique courante consiste à discrétiser la ligne du flux selon
son grain le plus fin (caractère, mot ou phrase, par exemple), et à lancer un calcul de Kappa ou d’Alpha
sur la base de ces (très nombreux) items. En procédant de la sorte, on déforme de façon très importante la
structure annotée, notamment en ne différenciant plus plusieurs unités de même type juxtaposées et une
seule unité recouvrant la même zone que ces unités. Par ailleurs, les vides sont eux-mêmes considérés
comme des objets annotés.
5.3.2
Adaptation du Slot Error Rate
SER= (0.5x(T+B)+TB+D+I) / R = (0.5+0.5+1+1+1)/5 = 4/5 = 0.8
A
A
T
A
B
A
B
A
C
B
?
TB
D
I
B
A
reference
hypothesis
?
T=Type, B=Boundary, TB=Type+Boundary, D=Deletion, I=Insertion
Figure 6: Adaptation du Slot Error Rate pour traiter l’Unitizing
Il ne s’agit pas à proprement parler d’une mesure d’accord, mais plus d’une distance d’édition.
Pour passer de l’annotation évaluée à l’annotation de référence, plusieurs transformations sont possibles,
avec des coûts différents tels que décrits dans la figure. On peut transformer une unité en une autre en
changeant sa catégorie, ou sa position, ou sa catégorie et sa position, mais on peut encore la supprimer,
ou partir de rien et en insérer une nouvelle. Une multitude de solutions sont possibles, on retient celle qui
minimise le score. Cette mesure est très grossière, attribuant notamment le même coût à tout changement
de position, du plus minime au plus important, et nous semble de ce fait trop éloigné des exigences de
l’évaluation de l’Unitizing.
5.3.3
Les nouveaux Alphas de Krippendorff, u α et c|u α
Let us consider the example taken fromshown in figure 7.
The u α coefficient basically relies on the comparison of all pairs of sections among annotators, a
section being either a categorized unit or a gap. To get the observed disagreement value u Do , square
lengths of the unmatching intersections are summed, and this sum is then divided by the length of the
continuum and by m(m − 1), m being the number of annotators. In the example, mismatches occur
7
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
76
1
Observer 1
1
2
1
Observer 2
2
15
3
5
10
5
4
1
8
13
5
4
5
2
5
1
Figure 7: Example of a continuum with 2 observers and 4 categories
around the second and third units of the two annotators. From left to right, there are finally the following
intersections: cat 1 with gap (l=10), cat 1 with cat 3 (l=5), gap with cat 3 (l=8), cat 2 with cat 1 (l=5),
and cat 2 with gap (l=5). This leads twice (by symmetry) to the sum 102 + 52 + 82 + 52 + 52 , and
2
2 +82 +52 +52 )
= 3.145. The expected value u De is obtained
so the observed disagreement u Do = 2(10 +5
76·2(2−1)
by considering all the possible positional combinations of each pair, and not only the observed ones.
This means that for a given pair, one of the two units is virtually slided in front of the other in all
possible ways, and the corresponding values are averaged. In this example, u De = 5.286. Therefore,
3.145
u α = 1 − 5.286 = 0.405.
Furthermore, c|u α relies on a coincidence matrix between categories, filled with the sum of the
lengths of all intersections of units for each given pair of categories. For instance, in the example,
the observed coincidence between category 1 and category 3 is 5, and so on. Besides, a metric matrix
is chosen for these categories, for instance an interval metric (for numerical categories) which says that
the distance between category i and category j is (i − j)2 . Hence, the cost for a unitary intersection
between categories 1 and 2 is (1 − 2)2 = 1, but is 22 = 4 between categories 1 and 3, and so on... Then,
the observed disagreement is computed according to these two matrices. Besides, an expected matrix is
filled (in a way which cannot be detailed here), and the expected value is computed the same way. In the
0.833
example, c|u α = 1 − 3.145
= 0.744.
Hence, Krippendorff’s alphas provide two clues to analyze the agreement between annotators. In the
example, u α = 0.405 indicates that the unitizing is not so good, but also that the categorizing is much
better, with c|u α = 0.744 (even though of course, these two values are not independent, since unitizing
and categorizing coexist here by nature).
6
Evaluer les mesures ?
Pour une même tâche d’annotation, plusieurs mesures existent qui donnent différents résultats. Laquelle choisir et pourquoi ? Sans complètement répondre à la question, le "ShufflingTool" développé au
GREYC vise à comparer et à tenter d’évaluer les différentes mesures.
6.1
Principe
The main principle of this tool is as follows. A reference corpus is built, with respect to a statistical
model which defines the number of categories, their prevalence, the minimum and maximum length for
each category, etc. Then, this reference is used by the shuffling tool to generate a multi-annotator corpus,
simulating the fact that each annotator makes mistakes of a certain type (an error paradigm), and of a
certain magnitude. The possible paradigms are category (category mistakes may occur), position (the
boundaries may be shifted), false positives (the annotators add units in addition to the reference units),
false negatives (the annotators miss some of the reference units), and splits (the annotators put two or
more contiguous units instead of a reference unit, which occupy the same span of text).
The magnitude m is the strengh of the shuffling, that is to say the severity of mistakes annotators
make compared to the reference. It can be set from 0 which means no damage is applied (and so the
annotators are perfect), to the extreme value 1 which means annotators are assumed to behave in the
worst possible way, namely at random1 .
1
as far as this is possible, for a given paradigm. For false positives and splits, the worst possible behavior is theoretically the
fact that an annotator produces an infinite number of units, which is computationally not possible. In this case, the shuffling at
magnitude 1 is reduced to some more pragmatic value, which doesn’t reach the worst behavior.
8
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
1
4
REFERENCE
2
1
4
Annotator 1
2
Annotator 2
2
4
1
1
4
Annotator 3
2
Figure 8: The Shuffling Tool generating 3 annotations with position paradigm at magnitude m = 0.1
Figure 8 illustrates the way such a corpus is built: from the reference containing some categorized
units, 3 new sets of annotations are built, simulating 3 annotators who are assumed to have the same
annotating skill level, which is set in this example at magnitude 0.1. The applied paradigm is position
only, that is to say that each annotator makes mistakes only when positioning boundaries, but does not
make any other mistake (the units are reproduced in the same order, with the correct category, and in the
same number). At this low magnitude, the positions are still close to those of the reference, but often
vary a little. Hence, we obtain here a slightly damaged multi-annotator corpus.
For a given paradigm, for each magnitude between 0 and 1 (with a step of 0.05), the tool creates a
multi-annotator damaged corpus, and computes the different measures for it. Hence, we obtain a full
graph showing the behavior of each measure for this paradigm, with the magnitude on the x-axis, and the
agreement on the y-axis. This provides a sort of "X-ray" of the capabilities of the measures with respect
to this paradigm, which should be understood as follows:
• a measure should provide a full response to the whole range of magnitudes, which means in particular that the curve should ideally start from 1 (at m = 0) and reach 0 (at m = 1), but never go
below 0.
• the response should be strictly decreasing: a flat part would mean the measure does not differentiate
between different magnitudes, and, even worse, an increasing part would mean that the measure is
counter-effective at some magnitudes, where a worse error is penalized less severely.
• in most real annotated corpora, even when the overal agreement is high, errors of all magnitudes
may occur. For instance, an agreement of 0.8 does not necessarily corresponds to the fact that
all annotations are concerned with slight errors, but may for instance correspond to the fact that
a few units are concerned with severe errors. Consequently, the whole graph is important, up to
magnitude 1.
6.2
Exemple de résultats : le cas de l’unitizing + categorisation
9
1.0
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected])
●
κd
αu
αclu
SER
γ
●
●
0.8
●
●
●
●
0.6
●
Agreement
●
●
●
●
0.4
●
●
●
●
●
● ●
● ●
0.2
●
● ●
● ● ●
● ●
● ●
●
● ●
●
●
● ●
0.0
● ●
●
●
0.0
0.2
0.4
0.6
0.8
1.0
Magnitude
Figure 9: Agreement scans for Positional+Categorial errors
10