1 Les objectifs de l`évaluation de corpus annotés 2 Mesure de l
Transcription
1 Les objectifs de l`évaluation de corpus annotés 2 Mesure de l
Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) Evaluation de corpus annotés : Principe des "mesures d’accord", méthodes, difficultés 1 1.1 Les objectifs de l’évaluation de corpus annotés Préambule Nous nous intéressons ici à l’évaluation de la qualité des annotations produites sur un corpus. Les corpus dont nous parlerons sont essentiellement des textes, mais les principes sont les mêmes pour tout corpus défini sous forme de flux, comme des flux audio (e.g. annotation de la prosodie) ou vidéo (e.g. annotation des gestes). 1.2 Annotation manuelle versus annotation automatique Il est important de distinguer l’évaluation des annotations produites par des humains de celle des annotations des annotations produites par un système automatique. Evaluation d’un système : pour évaluer la qualité d’un système d’annotation automatique (par ex. un POS-Tagger, un système de segmentation automatique, un système qui détecte l’expression d’opinions dans des textes), il est nécessaire de disposer d’une annotation de référence à laquelle comparer les productions du système. On peut alors évaluer dans quelle mesure on se rapproche du résultat idéal. Dans certaines situations (mais cela n’a rien de général), l’utilisation de la "précision", du "rappel", et de la "f-mesure" peuvent être envisagés. Dans d’autres cas, des outils plus spécifiques sont nécessaires (e.g. WindowDiff pour la segmentation thématique). En tout état de cause, il n’y a pas d’évaluation d’un système sans annotations de référence (on parlera de "référence" désormais). Evaluation des annotations manuelles : on pourrait à raison considérer qu’il n’y a pas de différence de nature entre les productions humaines et les productions automatiques (l’objectif est le même, et les annotations produites devraient idéalement être les mêmes). De ce point de vue, l’évaluation des unes et des autres pourraient reposer sur les mêmes méthodes. Dans les faits, le problème est que l’on ne peut généralement pas s’appuyer sur une référence pour évaluer les productions humaines, dans la mesure où, souvent, ce sont justement ces annotations humaines qui sont destinées à faire office de référence pour évaluer (et entraîner) des systèmes automatiques. Il y aurait donc là un problème de circularité. Il est donc nécessaire de définir une autre façon d’évaluer les productions humaines sans les comparer à un référence. L’idée consiste à comparer ces productions faites par un humain aux productions faites non pas par une référence, mais à d’autres humains, sur les mêmes corpus. 2 2.1 Mesure de l’accord inter-annotateurs Principe de l’annotation multiple Lorsque l’on ne dispose pas d’une référence pour une tâche d’annotation donnée, on la créée manuellement, en s’appuyant sur le fait que l’annotateur humain dispose probablement de la capacité à comprendre la tâche. Il reste cependant hasardeux, dans bien des cas, de faire aveuglément confiance à un annotateur, pour plusieurs raisons : • Il n’est peut-être pas expert, voire il n’a peut-être pas bien compris tout ou partie du manuel d’annotation • Il commet peut-être des erreurs (inattention, fatigue) qui seront, par construction, indétectables • La tâche d’annotation elle-même n’est peut-être pas bien définie, sujette à interprétation (annotation d’opinions), à des ambiguïtés inhérentes (expressions nativement polysémiques) Pour ces raisons, une stratégie classique consiste à faire annoter le même corpus par plusieurs annotateurs indépendants, et d’observer dans quelle mesure leurs productions convergent. Si un consensus se dégage, on obtient finalement une référence en laquelle on peut (probablement) avoir confiance. C’est pour 1 Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) mesurer ce degré de consensualité que les mesures d’accord inter-annotateurs ont été conçues. La suite de ce cours va porter sur ces mesures, même si elles peuvent aussi être utilisées pour évaluer, par ailleurs, des systèmes (le système est alors considéré comme un annotateur, la référence comme un autre annotateur). 2.2 2.2.1 Que mesure réellement une mesure d’accord inter-annotateurs? De la validité des annotations Conformément à ce que l’on vient de voir, il est important d’avoir conscience qu’une mesure d’accord ne mesure pas la distance absolue à une "vérité", mais un certain degré de consensualité entre plusieurs annotateurs à qui l’on a donné le même objectif. C’est donc une valeur toute relative, qui, certes, peut avoir une grande importance, mais qui ne garantit pas en soi que les annotations produites sont valides. Obtenir une bonnes mesure d’accord est ainsi une condition nécessaire plus qu’une condition suffisante d’être parvenu à une référence valide. Plus précisément, nous allons définir les termes de "Validity" et de "Reliability". Validity En supposant que pour une tâche d’annotation donnée, une référence puisse exister (ce n’est pas toujours le cas, par exemple si la tâche est mal définie, non entièrement consistante), on dira qu’une annotation est valide si elle correspond exactement à cette référence. Reliability Parallèlement, lorsque plusieurs annotateurs ont annoté le même corpus, et en l’absence de (ou, en tout cas, sans la considérer) référence, la "Reliability" exprime un degré de consensualité entre les annotateurs : plus ceux-ci sont d’accord, plus cette valeur devrait être importante (si la mesure d’accord est performante relativement à la tâche considérée). Reliability Validity A B C D Figure 1: Validity versus Reliability On voit dans la figure 1 que ces deux notions ne sont pas toujours corrélées. Certes, on voit en comparant B à D qu’un manque d’accord est préjudiciable pour obtenir une bonne validité. Mais inversement, parfois, un bon accord comme en C ne suffit pas à avoir une bonne validité, même si les annotations sont malgré tout plus valides qu’en A. Le cas C est à considérer comme un cas extrême, et nous amène à nous intérroger sur ce qui peut en être à l’origine. Il correspond au fait que les annotateurs sont tous d’accord mais on tous tort. Peut-être le manuel d’annotation est erroné, peut-être que tous les annotateurs ont mal compris une consigne... Ce type de configuration est indétectable sans la présence d’une référence, par exemple la vérification finale par un expert, si un tel expert existe. 2.3 L’usage courant des mesures d’accord Dans la pratique, la question de la validité n’est pas toujours étudiée, et les deux notions d’accord et de validité sont parfois confondues. De fait, nombre d’études reposant sur des corpus multi-annotés s’appuient sur l’obtention d’un taux d’accord réputé suffisant pour valider leur données. De façon plus prudente, certains auteurs comme Krippendorff ou Gwet considèrent qu’un accord élevé garantit sinon la validité des données, du moins le fait que la tâche est suffisamment consistante, et que les annotateurs 2 Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) procèdent de façon reproductible et interchangeable. Ainsi, une partique intéressante consiste à s’assurer que l’on obtient un bon accord sur une portion du corpus, et on peut ensuite faire annoter les annotateurs seuls sur d’autres portions du corpus. Le coût d’annotation est alors réduit, mais la fiabilité est pratiquement la même que si tous les annotateurs annotaient tout le corpus. 3 Différents types de tâches d’annotations Si les principes énoncés dans la section précédente sont généraux, les tâches d’annotation sont néanmoins très variées, reposant sur des objets différents, et nécessitent donc des mesures d’accord bien spécifiques. Categorisation C’est probablement le type de camapagne d’annotations le plus répandu, et il dépasse très largement le cadre des annotations "en flux". Il s’agit, pour un ensemble d’items préalablement définis, de catégoriser chacun d’entre eux parmi plusieurs catégories prédéfinies. Dans le cadre du TAL, il peut s’agir du POS-TAGGING où tous les mots doivent être catégoriser. Les mesures d’accord dédiées existent depuis de nombreuses années comme par exemple les Kappas et assimilés, l’Alpha, AC-1 et AC-2. annotator 1 A C A B A A B A C A annotator 2 Figure 2: Categorisation complète d’un flux Segmentation Il s’agit de segmenter un flux (par exemple le flux textuel) en un certain nombre de segments contigus, en plaçant des frontières sur le continuum à des endroits choisis par l’annotateur, cf. figure ??. C’est notamment le cas de la segmentation thématique. La mesure la plus populaire est WindowDiff, mais la Distance de Hamming Généralisée a montré de meilleures qualités. Attention toutefois, ce ne sont pas à proprement parler des mesures d’accord, étant conçues pour évaluer des systèmes et étant plutôt des "distances à une référence". annotator 1 annotator 2 Figure 3: Segmentation Unitizing Il s’agit d’une tâche plus générale que la segmentation dans la mesure où, ici, l’annotateur ne procède pas forcément à un pavage complet du flux, mais doit poser des unités ayant un début et une fin. Il peut s’agir d’annotations très sporadiques (par exemple ne recouvrant que quelques pourcents du flux). Plusieurs raffinements sont possibles : • proposer en plus la catégorisation de chacune des entités. On parlera alors d’unitizing+categorisation • autoriser le fait que les unités puissent se chevaucher ou se recouvrir (voir fig. 5). Notons que le cas général (Unitizing + toutes options) présenté en figure 4 généralise à la fois la segmentation et la catégorisation. Structures intégrant des relations Le travail de l’annotateur peut aussi consister à relier entre eux des éléments par certains types de relations. Ces dernières peuvent former des chaînes (e.g. chaînes de référence), ou des structures sous forme d’arbre (relations syntaxiques, structure du discours, etc.). Chacune de ces relation peut avoir une catégorie, et peut porter sur des éléments eux-même placés par l’annotateur (unitizing). Finalement, ces campagnes d’annotation représentent un immense défi pour 3 Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) A A A B A B A C annotator 1 B annotator 2 A B A B A annotator 3 A Figure 4: Multi-annotation dans la cas général (Unitizing+Categorisation) A A A C annotator 1 B Figure 5: Recouvrement et chevauchement d’unités l’évaluation, puisqu’elles peuvent intégrer tous les éléments précédemment évoqués : l’annotateur doit tout d’abord choisir ses unités, de façon libre (Unitizing), catégoriser chacune d’elles (Catégorisation), poser des relations entre certaines d’entres elles, et catégoriser ces relations. Il n’existe pas à notre connaissance de mesure capable (ni prétendant l’être) de traiter de telles annotations. 4 4.1 La prise en compte du "hasard" Introduction : l’exemple de la catégorisation Supposons qu’une tâche d’annotation consiste à catégoriser des items parmi 2 catégories. Deux annotateurs aléatoires atteindront statistiquement un taux d’accord de 50%. En conséquence, un taux d’accord entre deux véritables annotateurs devrait être rapporté à cette baseline, et un taux tel que 70% qui pourrait sembler acceptable est en fait plus proche du hasard que de l’accord parfait. Supposons à présent que la tâche d’annotation repose sur 3 catégories au lieu de 2. Cette fois-ci, les annotateurs aléatoires auront 30% d’accord : il est plus facile de se tromper quand le nombre de catégories croît. Pour ces raisons, la plupart des mesures d’accord inter-annotateurs prennent en compte la valeur d’accord qui "serait obtenue par le hasard" et ne comptabilisent que la valeur d’accord réel qui se situe au-delà de cette baseline. 4.2 Valeur observée versus valeur par le "hasard" Nombre de mesures prennent en compte le hasard de la façon suivante : • Un taux d’accord est observé entre annotateurs (via un certain calcul), noté Po • Un taux d’accord attribué à ce que donnerait le hasard, à partir de l’observation des données, et selon principes (sujets à discussion) donne lieu à la valeur Pe ("e" pour "expected", ce à quoi on s’attend par le hasard). • La valeur d’accord finale est calculée ainsi : accord = située entre le hasard et l’accord parfait. Po −Pe 1−Pe qui signifie la portion d’accord • Ainsi, la valeur d’accord est de 1 si les annotateurs sont parfaitement d’accord, et de 0 si les annotateurs ne font pas mieux que le "hasard". Elle peut même être négative si les annotateurs arrivent à se mettre en désaccord plus systématiquement que par hasard (par exemple, l’un des deux annotateurs fait le contraire de ce qu’il faudrait faire). • Dans l’exemple initial, on pourrait par exemple avoir accord = brut observé était de 0.7. 4 0.7−0.5 1−0.5 = 0.4, alors que l’accord Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) 4.3 À quoi correspond le hasard ? Epineuse question. Nombre de mesures ne se distinguent d’ailleurs que sur la façon dont la valeur "expected" est calculée, la valeur "observed" étant calculée de la même façon. Les mesures les plus populaires comme les Kappas ou Alpha observent les données, et se servent de la répartition effective entre les catégories (on parle de prévalence de certaines catégories) pour calculer la valeur "expected". Reprenons l’exemple initial, mais observons ce qu’ont fait deux annotateurs. On constate par exemple que la catégorie A est utilisée dans 90% des cas, et B seulement dans les 10% autres cas. Il est possible de s’appuyer sur cette répartition pour créer un annotateur aléatoire bien plus performant, s’il reproduit lui même, de façon probabiliste, cette répartition. Ainsi, on obtiendra Pe = 0.9 · 0.9 + 0.1 · 0.1 = 0.82, qui est donc très élevé. Dans ces conditions, un accord observé de 90% ne donnera finalement qu’un accord de 0.9−0.82 1−0.82 = 0.44. 4.4 Les annotateurs sont ils considérés comme interchangeables ? L’un des difficiles points de discussion dans ce calcul de la valeur "expected" est de savoir si l’on s’appuie sur la répartition propre de chacun des annotateurs, ou si l’on considère que les annotateurs sont "interchangeables" et qu’il faut par conséquent calculer les répartition moyennes par catégories. La question se pose par exemple si l’annotateur 1 a la répartition 90% - 10% entre A et B, mais que l’annotateur 2 a la répartition 80% - 20%. Le Kappa de Cohen considère dans un tel cas qu’il faut faire des calculs du hasard en créant deux annotateurs aléatoires différents (l’un ayant la répartition de l’annotateur 1, l’autre de l’annotateur 2), tandis que pour l’Alpha de Krippendorff, on moyennera les répartitions en créant un seul annotateur aléatoire avec la répartition 85% - 15%. Lorsque les annotateurs se comportent différemment, ces deux types de mesure se distinguent. Laquelle choisir ? Krippendorff affirme que le principe du calcul d’un accord inter-annotateurs présuppose que les annotateurs soient interchangeables, et que par conséquent le Kappa de Cohen ne rend pas correctement compte du degré de confiance que l’on peut accorder à des annotations multiples. 4.5 Le paradoxe induit par une forte prévalence Un auteur comme Di Eugenio dénonce le fait que lorsqu’une catégorie est moins fréquente que les autres, les erreurs sur cette dernières sont d’autant plus lourdement sanctionnées (que ce soit avec Kappa ou avec Alpha, entre autres, en raison du fait que l’expected s’appuie sur les proportions observées). C’est une question qui fait grand débat depuis des années. Néanmoins, comme le fait remarquer Krippendorff, si un tâche d’annotation consiste, pour des médecins, à dire si un patient est atteint ou non de telle maladie rare, la difficulté de leur travail sera de ne pas se tromper sur les quelques cas rares. Par exemple, si la maladie touche une personne sur 1000, et qu’il y a 5000 patients à observer, un médecin devrait trouver 5 patients atteints, et 4995 non atteints. S’il ne trouve que 2 des patients atteints, et rate les 3 autres, son score brut est de 4997/5000 = 99.994%, ce qui peut sembler un excellent score. Pourtant, si vous êtes atteint, il y a moins d’une chance sur deux que ce médecin vous diagnostique correctement. Peut-on dire que ce médecin est performant vis-à-vis de la detection de cette maladie rare ? Ce paradoxe n’en est donc finalement peut-être pas un. La question n’est en tout cas pas tranchée puisque Gwet, avec ses coefficients AC-1 et AC-2, s’attache justement à minimiser ce phénomène. 4.6 Le hasard dans les autres paradigmes que la catégorisation On a vu que même sur un sujet aussi discuté que celui de la catégorisation, il n’est pas aisé de définir la notion de "hasard". La tâche est plus délicate encore lorsque l’on aborde d’autres paradigmes comme l’unitizing. Que ferait un "annotateur aléatoire" ? Comment placerait-il ses unités, avec quelle longueur et quelle catégorie ? L’alpha U de Krippendorff, seule mesure connue à ce jour abordant cette question, consiste à moyenner tous les glissements possibles de toutes les unités produites par les annotateurs (on prend un couple d’annotation, on effectue tous les positionnements relatifs possibles entre ces deux unités, et on calcule l’accord moyen observé, et fait de même avec tous les couples possibles pour obtenir une moyenne générale). 5 Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) 4.7 Circularité du calcul de l’expected Parmi les difficultés conceptuelles relatives à ce calcul, on peut relever ce petit paradoxe : l’expected est calculé sur la base d’un modèle du hasard, certes, mais en s’appuyant des données observées, celles là même que l’on tente d’évaluer. Ainsi, les annotateurs produisent-ils des annotations qui non seulement seront jugées, mais qui servent de plus de modèle à la baseline statistique à laquelle elles seront confrontées. C’est un peu, d’une certaine façon, comme si les juges s’appuyaient en partie sur ce qu’ont fait les accusés pour fixer les règles qui permettront de juger ces derniers... 5 Aperçu de quelques mesures 5.1 5.1.1 Catégorisation Le Kappa de Cohen Mesure d’accord sans aucun doute la plus connue et donc la plus utilisée. Elle permet de mesurer l’accord sur une tâche de catégorisation pure, entre deux annotateurs seulement. Comme déjà dit, son calcul d’expected prend en compte les singularités de chaque annotateur. Il s’appuie sur une matrice de contingence telle que ci-dessous, empruntée à Wikipédia (http://en.wikipedia.org/wiki/Cohen’s_kappa) : B B Yes No A Yes 20 5 A No 10 15 Les annotateurs A et B sont d’accord sur 20 Yes et sur 15 No, sur un total 50 annotations, soit Po = (20 + 15) / 50 = 0.70 Par ailleurs, A dit Yes 50% du temps et B 60% du temps, donc en considérant des annotateurs aléatoires disctincts basés sur chacun d’entre eux, ceux-ci seront d’accord sur Yes dans 0.5 x 0.6 = 30% des cas, et sur No dans 0.5 x 0.4 = 20% des cas, soit un total d’accord expected Pe =0.3+0.2=0.5. Finalement, l’accord est donc de 0.7−0.5 1−0.5 = 0.4. 5.1.2 Multi-Kappa Des versions de Kappa à plusieurs annotateurs ont été produites. La difficulté réside dans le calcul de l’expected. En effet, on pourrait croire par exemple que pour 3 annotateurs, il suffit de faire la moyenne des Kappas deux à deux. En réalité, cette façon de faire ne respecterait pas les principes du hasard qui ont été considérés pour élaborer Kappa. En particulier, imaginons la tâche d’annotation consistant à choisir parmi 2 catégories, et supposons qu’il y ait 3 annotateurs. Il est par construction impossible que les 3 annotateurs soient en total désaccord, puisqu’ils n’ont que 2 catégories pour se distinguer. Au pire, 2 annotateurs au moins seront toujours d’accord, ce qui constitue une différence de base par rapport à la configuration avec 2 catégories. Ces extensions de Kappa à 3 annotateurs et plus ne sont donc pas triviales. 5.1.3 Mesures pondérées (weighted) Les catégories que nous avons vues dans les exemples précédents sont dites "nominales". Elles comportent une étiquette, comme "Yes" ou "No", et sont supposées être hermétiques les unes aux autres. Par exemple "Yes" et "No" n’ont rien de commun. En revanche, il arrive que l’annotateur ait à fournir, en guise de catégorie, une valeur sur une échelle, par exemple une note entre 0 et 5. Dans ce cas, deux annotateurs qui attriburaient respectivement les notes 1 et 2 à un item donné devraient être moins lourdement pénalisés que s’ils attribuaient respectivement les notes 0 et 5. Si l’on utilise les mesures nominales classiques comme le Kappa que l’on vient de présenter, alors toutes les erreurs, graves ou non, seront sanctionnées de la même manière. Les mesures dites "pondérées" sont capable de prendre en compte une certaine proximité entre catégories pour le calcul des valeurs observées et exepected. Différentes matrices de distances inter-catégorielles pré-établies sont disponibles. Par exemple, la distance entre les catégories i et j peut être |i-j|/(max-min), ce qui donne, pour la distance entre les catégories 1 et 2 6 Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) d(1,2)=|1-2|/(5-0)=0.2, et pour les catégories 0 et 5 d=|0-5|/(5-0)=1. D’autres distances, basées par exemple sur des différences au carré, existent. Laquelle choisir, dans quelles conditions ? Rien de précis n’est encore dit sur ces questions à notre connaissance. Parmi les mesures pondérées, on peut citer le weighted-kappa, et Alpha (qui est nativement pondéré). 5.2 Segmentation : WindowDiff et Generalized Hamming Distance (GHD) Il s’agit de distances plus que de mesures d’accord, ne prennent pas en compte le "hasard", et se limitent à deux annotateurs. WindowDiff consiste à faire glisser une fenêtre sur tout le continuum, d’une taille égale à la moitié de la taille moyenne des segments observés. À chaque pas, on comptabilise la différence entre le nombre de frontières dans les annotations de chacun des annotateurs, et on fournit la valeur moyenne comme valeur d’accord. GHD s’appuie sur un principe du type distance d’édition, à la façon de Slot Error Rate (voir ci-après), et permet de pallier un certain nombre de problèmes rencontrés avec WindowDiff (comme par exemple le fait que WindowDiff a des effets de bord au début et à la fin du continuum, le fait qu’il dépende beaucoup de la variance de la longueur des segments). 5.3 5.3.1 Unitizing Discretisation du continuum pour se ramener à un calcul de Kappa Faute de mesure réellement adaptée, une pratique courante consiste à discrétiser la ligne du flux selon son grain le plus fin (caractère, mot ou phrase, par exemple), et à lancer un calcul de Kappa ou d’Alpha sur la base de ces (très nombreux) items. En procédant de la sorte, on déforme de façon très importante la structure annotée, notamment en ne différenciant plus plusieurs unités de même type juxtaposées et une seule unité recouvrant la même zone que ces unités. Par ailleurs, les vides sont eux-mêmes considérés comme des objets annotés. 5.3.2 Adaptation du Slot Error Rate SER= (0.5x(T+B)+TB+D+I) / R = (0.5+0.5+1+1+1)/5 = 4/5 = 0.8 A A T A B A B A C B ? TB D I B A reference hypothesis ? T=Type, B=Boundary, TB=Type+Boundary, D=Deletion, I=Insertion Figure 6: Adaptation du Slot Error Rate pour traiter l’Unitizing Il ne s’agit pas à proprement parler d’une mesure d’accord, mais plus d’une distance d’édition. Pour passer de l’annotation évaluée à l’annotation de référence, plusieurs transformations sont possibles, avec des coûts différents tels que décrits dans la figure. On peut transformer une unité en une autre en changeant sa catégorie, ou sa position, ou sa catégorie et sa position, mais on peut encore la supprimer, ou partir de rien et en insérer une nouvelle. Une multitude de solutions sont possibles, on retient celle qui minimise le score. Cette mesure est très grossière, attribuant notamment le même coût à tout changement de position, du plus minime au plus important, et nous semble de ce fait trop éloigné des exigences de l’évaluation de l’Unitizing. 5.3.3 Les nouveaux Alphas de Krippendorff, u α et c|u α Let us consider the example taken fromshown in figure 7. The u α coefficient basically relies on the comparison of all pairs of sections among annotators, a section being either a categorized unit or a gap. To get the observed disagreement value u Do , square lengths of the unmatching intersections are summed, and this sum is then divided by the length of the continuum and by m(m − 1), m being the number of annotators. In the example, mismatches occur 7 Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) 76 1 Observer 1 1 2 1 Observer 2 2 15 3 5 10 5 4 1 8 13 5 4 5 2 5 1 Figure 7: Example of a continuum with 2 observers and 4 categories around the second and third units of the two annotators. From left to right, there are finally the following intersections: cat 1 with gap (l=10), cat 1 with cat 3 (l=5), gap with cat 3 (l=8), cat 2 with cat 1 (l=5), and cat 2 with gap (l=5). This leads twice (by symmetry) to the sum 102 + 52 + 82 + 52 + 52 , and 2 2 +82 +52 +52 ) = 3.145. The expected value u De is obtained so the observed disagreement u Do = 2(10 +5 76·2(2−1) by considering all the possible positional combinations of each pair, and not only the observed ones. This means that for a given pair, one of the two units is virtually slided in front of the other in all possible ways, and the corresponding values are averaged. In this example, u De = 5.286. Therefore, 3.145 u α = 1 − 5.286 = 0.405. Furthermore, c|u α relies on a coincidence matrix between categories, filled with the sum of the lengths of all intersections of units for each given pair of categories. For instance, in the example, the observed coincidence between category 1 and category 3 is 5, and so on. Besides, a metric matrix is chosen for these categories, for instance an interval metric (for numerical categories) which says that the distance between category i and category j is (i − j)2 . Hence, the cost for a unitary intersection between categories 1 and 2 is (1 − 2)2 = 1, but is 22 = 4 between categories 1 and 3, and so on... Then, the observed disagreement is computed according to these two matrices. Besides, an expected matrix is filled (in a way which cannot be detailed here), and the expected value is computed the same way. In the 0.833 example, c|u α = 1 − 3.145 = 0.744. Hence, Krippendorff’s alphas provide two clues to analyze the agreement between annotators. In the example, u α = 0.405 indicates that the unitizing is not so good, but also that the categorizing is much better, with c|u α = 0.744 (even though of course, these two values are not independent, since unitizing and categorizing coexist here by nature). 6 Evaluer les mesures ? Pour une même tâche d’annotation, plusieurs mesures existent qui donnent différents résultats. Laquelle choisir et pourquoi ? Sans complètement répondre à la question, le "ShufflingTool" développé au GREYC vise à comparer et à tenter d’évaluer les différentes mesures. 6.1 Principe The main principle of this tool is as follows. A reference corpus is built, with respect to a statistical model which defines the number of categories, their prevalence, the minimum and maximum length for each category, etc. Then, this reference is used by the shuffling tool to generate a multi-annotator corpus, simulating the fact that each annotator makes mistakes of a certain type (an error paradigm), and of a certain magnitude. The possible paradigms are category (category mistakes may occur), position (the boundaries may be shifted), false positives (the annotators add units in addition to the reference units), false negatives (the annotators miss some of the reference units), and splits (the annotators put two or more contiguous units instead of a reference unit, which occupy the same span of text). The magnitude m is the strengh of the shuffling, that is to say the severity of mistakes annotators make compared to the reference. It can be set from 0 which means no damage is applied (and so the annotators are perfect), to the extreme value 1 which means annotators are assumed to behave in the worst possible way, namely at random1 . 1 as far as this is possible, for a given paradigm. For false positives and splits, the worst possible behavior is theoretically the fact that an annotator produces an infinite number of units, which is computationally not possible. In this case, the shuffling at magnitude 1 is reduced to some more pragmatic value, which doesn’t reach the worst behavior. 8 Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) 1 4 REFERENCE 2 1 4 Annotator 1 2 Annotator 2 2 4 1 1 4 Annotator 3 2 Figure 8: The Shuffling Tool generating 3 annotations with position paradigm at magnitude m = 0.1 Figure 8 illustrates the way such a corpus is built: from the reference containing some categorized units, 3 new sets of annotations are built, simulating 3 annotators who are assumed to have the same annotating skill level, which is set in this example at magnitude 0.1. The applied paradigm is position only, that is to say that each annotator makes mistakes only when positioning boundaries, but does not make any other mistake (the units are reproduced in the same order, with the correct category, and in the same number). At this low magnitude, the positions are still close to those of the reference, but often vary a little. Hence, we obtain here a slightly damaged multi-annotator corpus. For a given paradigm, for each magnitude between 0 and 1 (with a step of 0.05), the tool creates a multi-annotator damaged corpus, and computes the different measures for it. Hence, we obtain a full graph showing the behavior of each measure for this paradigm, with the magnitude on the x-axis, and the agreement on the y-axis. This provides a sort of "X-ray" of the capabilities of the measures with respect to this paradigm, which should be understood as follows: • a measure should provide a full response to the whole range of magnitudes, which means in particular that the curve should ideally start from 1 (at m = 0) and reach 0 (at m = 1), but never go below 0. • the response should be strictly decreasing: a flat part would mean the measure does not differentiate between different magnitudes, and, even worse, an increasing part would mean that the measure is counter-effective at some magnitudes, where a worse error is penalized less severely. • in most real annotated corpora, even when the overal agreement is high, errors of all magnitudes may occur. For instance, an agreement of 0.8 does not necessarily corresponds to the fact that all annotations are concerned with slight errors, but may for instance correspond to the fact that a few units are concerned with severe errors. Consequently, the whole graph is important, up to magnitude 1. 6.2 Exemple de résultats : le cas de l’unitizing + categorisation 9 1.0 Le 15 novembre 2013 - CM Master IMALANG - Yann MATHET ([email protected]) ● κd αu αclu SER γ ● ● 0.8 ● ● ● ● 0.6 ● Agreement ● ● ● ● 0.4 ● ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 ● ● ● ● 0.0 0.2 0.4 0.6 0.8 1.0 Magnitude Figure 9: Agreement scans for Positional+Categorial errors 10