article

Transcription

article
TALN 2005, Dourdan, 6–10 juin 2005
Production automatique du résumé de textes juridiques:
évaluation de qualité et d’acceptabilité
Atefeh Farzindar et Guy Lapalme
RALI
Département d’informatique et de recherche opérationnelle
Université de Montréal
C.P. 6128, succursale Centre-ville
Montréal, Québec, Canada H3C 3J7
{farzinda, lapalme}@iro.umontreal.ca
Mots-clefs :
résumé automatique, fiches de résumé, textes juridiques, évaluation d’un
résumé.
Keywords:
automatic text summarization, summary table, legals texts, evaluation of
a summary.
Résumé- Abstract
Nous décrivons un projet de production de résumé automatique de textes pour le domaine juridique pour lequel nous avons utilisé un corpus des jugements de la cour fédérale du Canada.
Nous présentons notre système de résumé LetSum ainsi que l’évaluation des résumés produits.
L’évaluation de 120 résumés par 12 avocats montre que la qualité des résumés produits par
LetSum est comparable avec celle des résumés écrits par des humains.
We describe an automatic text summarisation project for the legal domain for which we use
a corpus of judgments of the federal court of Canada. We present our summarization system,
called LetSum and the evaluation of produced summaries. The evaluation of 120 summaries by
12 lawyers shows that the quality of the summaries produced by LetSum is approximately at
the same level as the summaries written by humans.
Atefeh Farzindar et Guy Lapalme
1
Introduction
La jurisprudence est une référence importante pour les juristes. Pour cette raison les juristes
consultent quotidiennement des milliers de documents juridiques. De jour en jour, la masse
d’information textuelle sous forme de jurisprudence accessible sur internet ou dans les bases
de données des entreprises et des gouvernements ne cesse d’augmenter. Ce qui nécessite le
développement des outils spécifiques afin de pouvoir accéder au contenu des textes. Le but
d’un résumé d’un jugement est d’abord de livrer l’essence du texte clairement et avec concision
pour permettre une consultation facile et rapide; il doit fournir suffisamment d’informations sur
le jugement pour permettre au lecteur de décider si celui-ci peut être pertinent à sa recherche.
Actuellement, des jugements sont résumés manuellement par les professionnels ce qui est très
coûteux.
Notre approche au résumé automatique a l’avantage de fournir des moyens clairs de concevoir
des documents juridiques en fonction de résumés courts pour différents types d’utilisateurs: des
étudiants, des avocats et des juges.
Le domaine juridique est un domaine ayant un grand besoin de résumés mais avec des exigences
spécifiques. Dans ce projet, nous nous sommes intéressés au traitement des décisions des cours
judiciaires du Canada. Nous avons collaboré avec les avocats du Centre de Recherche en Droit
Public (CRDP), chargés de créer la bibliothèque de droit virtuelle des décisions judiciaires
canadiens CanLII 1 .
Dans cet article, nous décrivons plutôt les aspects qualitatifs de l’évaluation d’un résumé que la
méthodologie de la production de résumé automatique. À la section 2, nous rappelons notre approche de production automatique de résumé de jugements et son l’implantation, LetSum (Legal
Text Summarizer). La section 3 présente les évaluations effectuées avec LetSum. L’évaluation
de 120 résumés automatiques par 12 avocats montre que la qualité des résumés produits par LetSum est excellente. La comparaison des résumés de LetSum avec cinq systèmes de recherche
ou commerciaux montre l’intérêt d’utiliser d’un système de résumé spécialisé pour le domaine
juridique.
2
Résumé de textes juridiques
Notre méthode a été développée suite à une analyse manuelle de 75 jugements et de leurs résumés rédigés par les résumeurs professionnels. Nous avons déjà présenté la problématique
(Farzindar, 2004) et notre méthode pour capturer la structuration thématique des documents et
identifier les unités textuelles saillantes (Farzindar et al., 2004). Nous identifions d’abord le
plan d’organisation d’un jugement et ses différents thèmes discursifs qui regroupent les phrases
autour d’un même sujet. Chaque phrase dans un thème donne des informations complémentaires sur le sujet. Pour les phrases reliées à un thème, nous pouvons en interpréter le sens
d’après leur contexte afin d’en extraire les idées clés.
1
Canadian Legal Information Institute http://www.canlii.org
Production automatique du résumé de textes juridiques
La création du résumé par LetSum se fait en quatre étapes décrites en détail dans (Farzindar,
2005).
Segmentation thématique qui détermine l’organisation du document original et relie les segments du texte associés avec des sept thèmes suivants:
• D ONNÉES DE LA DÉCISION: donne la référence complète de la décision et la relation entre les parties sur le plan juridique.
• I NTRODUCTION: qui? a fait quoi? à qui?
• C ONTEXTE: recompose l’histoire du litige et l’histoire judiciaire.
• S OUMISSION: présente le point de vue d’une partie sur le problème.
• Q UESTIONS DE DROIT: identifie le problème juridique dont le tribunal est saisi.
• R AISONNEMENT JURIDIQUE: décrit l’analyse du juge, la détermination des faits et
l’expression des motifs de la solution retenue.
• C ONCLUSION: présente la décision finale de la cour.
Selon nos observations, quatre thèmes jouent les rôles principaux: I NTRODUCTION,
C ONTEXTE, R AISONNEMENT JURIDIQUE et C ONCLUSION. La présence de ces quatre
thèmes dans le jugement et dans le résumé est obligatoire. Dans la structure du résumé,
nous préservons ces quatre thèmes et nous extrayons les phrases qui leur appartiennent.
Le thème Q UESTIONS DE DROIT est optionnel dans le jugement.
Filtrage qui identifie les segments qui peuvent être supprimés dans les documents, sans perdre
les informations pertinentes pour le résumé. Dans un jugement, les citations occupent un
volume important du texte soit 30% du jugement, alors que leur contenu est moins important pour le résumé. Nous identifions les citations principalement pour les supprimer en
ne conservant que leurs références juridiques. En plus, le thème S OUMISSION contenant
des discours des avocats, identifié par le segmenteur thématique, sera éliminé dans cette
étape.
Sélection des unités textuelles candidates pour le résumé qui construit une liste d’unités saillantes pour chaque niveau structural du résumé en calculant les poids pour chaque phrase
dans le jugement. La sélection est basée sur des règles sémantiques et des mesures statistiques.
Production du résumé qui choisit les unités pour le résumé final et les combine afin de produire un résumé représentant au maximum 15% du jugement. Le critère de sélection des
unités est basé sur l’importance du segment thématique contenant les unités candidates.
La présentation du résumé final est sous forme d’une fiche de résumé contenant des rubriques
homogènes d’informations. Cette fiche présente les informations considérées importantes associées à des thèmes précis, ce qui en facilite la lecture et la navigation entre le résumé et le
jugement source. Pour chaque phrase du résumé produit, l’utilisateur peut en déterminer le sujet
en regardant le thème associé à son segment thématique. La figure 1 montre un exemple de sortie de LetSum comme une fiche de résumé. Cette fiche de résumé montre les thèmes identifiés
dans le jugement qui étaient pertinents pour le résumé. La taille du résumé est de 10% de celle
du jugement original (le document source a dix pages).
Dans les prochaines sections, nous présentons l’évaluation des résumés générés par LetSum.
Atefeh Farzindar et Guy Lapalme
Figure 1: Fiche de résumé produit par LetSum, composé de 350 mots alors que le jugement
source avait 4500 mots
3
Évaluation
La comparaison avec un résumé modèle comme référence pour des résumés automatiques est
très naturelle, mais des résumés rédigés par des personnes différentes ne sont pas toujours convergents au niveau du contenu. La rédaction d’un résumé demande une analyse du texte pour
en dégager les idées, les arguments, le style et les thèmes. Les rédacteurs humains dégagent les
affirmations essentielles du document et les expriment dans leur propre style, ce qui donne lieu
à plusieurs résumés pour le même document. Il est donc difficile de définir une métrique claire
pour juger différents aspects d’un résumé comme la complétude, la thématique et la cohérence.
Plusieurs campagnes d’évaluation de systèmes de résumé comme SUMMAC2 (Mani et al.,
1998) et DUC3 (organisé par NIST) ont montré l’importance de définir des mesures pour
l’évaluation d’un résumé. Spark Jones et Galliers (Spark-Jones & Galliers, 1995) ont proposé de diviser les évaluations en deux types: intrinsèque et extrinsèque. L’évaluation intrinsèque mesure les propriétés concernant la nature du sujet à évaluer et son objectif, alors que
2
3
TIPSTER Text Summarization Evaluation Conference
Document Understanding Conferences http://www-nlpir.nist.gov/projects/duc
Production automatique du résumé de textes juridiques
l’évaluation extrinsèque mesure les aspects concernant les impacts et les effets de sa fonction.
Nous avons évalué LetSum avec ces deux types d’évaluations.
Nos résumés du système ont été évalués en deux étapes: nous avons d’abord évalué les modules
du système séparément, ensuite nous avons mesuré la qualité globale des résumés produits.
Nous avons également comparé les résumés de LetSum avec des résumés produits par quatre
autres systèmes et des résumés manuels.
Pour l’évaluation des modules de LetSum, nous avons utilisé une évaluation intrinsèque à trois
niveaux: la qualité des divisions en thèmes par le segmenteur thématique, la détection correcte
des citations par le module de filtrage, et le contenu des unités sélectionnées par le module de
sélection et production.
Comme évaluation intrinsèque, nous avons utilisé ROUGE (Recall-Oriented Understudy for
Gisting Evaluation) (Lin & Hovy, 2003). ROUGE est maintenant bien reconnue comme mesure
d’évaluation des résumés et a été utilisée pour la première fois dans la compétition de DUC 2004
comme seule mesure de fiabilité pour certaines tâches. ROUGE est basé sur le calcul statistique
de co-occurrence de n-grammes. Cette méthode dont les résultats sont bien corrélés avec les
jugements humains permet d’optimiser les systèmes et d’accélérer leur évaluation. ROUGE
comporte deux méthodes d’évaluation. ROUGE-N, dont le score est basé sur le nombre de
n-grammes (normalement 1 ≤ n ≤ 4) communs entre le résumé automatique est le résumé
modèle. Par exemple, ROUGE-2 calcule le nombre de paires de mots successifs communs
entre les résumés candidat et modèle. La deuxième est ROUGE-L, qui considère les phrases
comme une suite des séquences des mots. Cette évaluation calcule la plus longue sous-séquence
commune des mots afin d’estimer la similarité entre deux résumés.
Pour l’évaluation extrinsèque de LetSum, nous avons demandé à des utilisateurs juristes de
juger le contenu des résumés et leur acceptabilité. Pour chaque résumé, le recouvrement du
contenu sur les idées clés du document a été évalué par deux avocats.
3.1
Évaluation des modules de LetSum
Nous avons évalué les quatre modules de LetSum séparément. Les deux premiers modules, segmentation thématique et filtrage sont évalués séparément, alors que les deux autres modules
de sélection des unités pertinentes et production ont été évalués dans le cadre de l’évaluation
des résumés finals de LetSum. Nous avons comparé les sorties de module de segmentation thématique avec le corpus que nous avons annoté manuellement (avec validation d’un avocat du
CanLII).
Pour l’évaluation du module de segmentation thématique, nous avons utilisé un corpus de test
contenant 10 jugements de la cour fédérale. Ces jugements n’ont pas été utilisés pour entraîner
le système, ni servi à la construction du dictionnaire des marqueurs. Pour l’évaluation de ce
module les points considérés importants sont: détection des thèmes, degré de pertinence d’un
thème pour un segment, couverture des segments thématiques, précision des frontières entre
deux thèmes. Pour cette évaluation on peut calculer la précision et le rappel. La précision
mesure la proportion des unités pertinentes parmi toutes les unités produites par le système. Le
rappel mesure la proportion des unités pertinentes parmi tous les unités pertinentes. F-mesure
considère les deux mesures ensemble. Nous avons obtenu une précision de 100% et un rappel
de 95% soit F-mesure 99% . Sur 40 thèmes annotés dans le corpus, 38 thèmes ont été identifiés
correctement.
Atefeh Farzindar et Guy Lapalme
Pour l’évaluation du module de filtrage de citations, nous avons utilisé 15 jugements de la cour
fédérale qui n’ont pas servi à entraîner le module de filtrage. Pour cette évaluation, nous avons
comparé les unités de citations identifiées par le filtrage avec les citations annotées manuellement dans les jugements. Le résultat d’évaluation du module de filtrage est de 98% pour la
précision et 95% pour le rappel ce qui donne 96% pour la F-mesure. Sur 60 cas de citation, 57
unités ont été identifiées correctement. Certaines citations n’étaient pas identifiées correctement
à cause la langue de rédaction des références. Dans les jugements canadiens, les juges citent
parfois les références de droit tels quels peu importe qu’elles soient en anglais ou en français.
Pour les citations en français, lorsqu’il y a des marqueurs d’énumération, le système les identifie
mais en absence des marqueurs d’énumération, il ne peut pas les distinguer.
3.2
Évaluation de LetSum par ROUGE
Pour le module de sélection et production, il faut mesurer les topiques extraits des documents
par le système. Il est possible d’aligner automatiquement les unités de deux textes pour comparer la similarité entre les résumés modèles et les résumés produits afin de calculer la fraction
du résumé modèle exprimée dans le contenu du résumé produit par le système. Pour cette évaluation des résumés de LetSum, nous avons utilisé ROUGE en les comparant avec des résumés
modèles écrits par des humains. Nous avons généré 50 résumés automatiques avec cinq systèmes: système de recherche MEAD (Radev et al., 2003), un système de recherche et commercial français Pertinence Mining (Lehmam, 1995), un système commercial de Microsoft Word
(option de résumé dans MS Word) et une méthode StartEnd que nous avons définie. Le StartEnd est un système basé sur les positions des segments dans le document et LetSum afin de
comparer notre système avec d’autres systèmes de résumés. Pour la méthode StartEnd, nous
avons mis au point cette approche suite à nos analyses du corpus des résumés manuels. Pour
définir le StartEnd nous avons fait trois expérimentations.
D’après nos études, le début du jugement situé à la fin des DONNÉES DE LA DÉCISION (nom de
la cour, lieu de l’audience, date, les références et etc.) est une partie importante qui comprend
le début du thème I NTRODUCTION. Nous avons défini un baseline qui prend 15% du début du
texte. Ce baseline couvre des thèmes I NTRODUCTION et C ONTEXTE.
Un autre baseline prend 15% de la fin du jugement avant la signature du juge. Ce baseline
couvre les unités des thèmes R AISONNEMENT J URIDIQUE et C ONCLUSION. Nos expériences
avec ROUGE ont montré que le score de premier baseline était plus élevé que le deuxième, ce
qui signifie l’importance du commencement du document par rapport à sa fin.
Cette expérience, nous a conduit à définir une approche de résumé avec un taux de compression
15%, basé sur l’algorithme suivant: prendre 8% du début du jugement et en complétant la
dernière phrase si cette dernière a été coupée et prendre 4% de la fin du jugement en ajoutant la
première phrase complète. Cette dernière approche, que nous avons nommée StartEnd est donc
assez appropriée pour les documents de style juridique même si son implémentation est assez
simple.
Nous avons comparé avec ROUGE les résumés de LetSum, StartEnd et ceux de trois autres
systèmes avec les résumés humains. Les résultats de l’évaluation sont montrés à la table 1.
Un score plus élevé est meilleur et indique un système plus performant. LetSum est classé
au premier rang avec les meilleures notes d’évaluation. D’après cette évaluation, le deuxième
système est StartEnd, ce qui montre l’importance de l’étude sur les documents des domaines
Production automatique du résumé de textes juridiques
Système
LetSum
StartEnd
MEAD
MsWord
Per. Mining
ROUGE-1
0.57500
0.47244
0.45581
0.44473
0.32833
ROUGE-2
0.31381
0.27569
0.22314
0.21295
0.15127
ROUGE-3
0.20708
0.19391
0.14241
0.13747
0.09798
ROUGE-4
0.15036
0.14472
0.10064
0.09727
0.07151
ROUGE-L
0.45185
0.34683
0.32089
0.29652
0.22375
Table 1: Résultat d’évaluation intrinsèque avec ROUGE, LetSum a des meilleurs résultats
spécifiques. Le fait qu’une approche simple puisse dépasser des méthodes complexes de production de résumé met en évidence la différence entre des organisations des documents et elle
montre aussi l’intérêt de développer un système spécifique pour un domaine. Il est plus en plus
difficile de produire un résumé général pour tous types d’utilisateurs sans prise en compte du
besoin des usagers et de la tâche demandée.
3.3
Évaluation extrinsèque de LetSum
L’objectif de cette évaluation est de mesurer l’utilité du résumé automatique par rapport à un
résumé écrit par un humain et de comparer la qualité des résumés automatiques générés par
différents systèmes. Ce test est basé sur un jugement humain. Cette évaluation est toutefois très
coûteuse, parce qu’elle demande des ressources humaines et un temps considérable.
Pour cette évaluation, nous avons utilisé les résumés automatiques produits par cinq systèmes
présentés à la section précédente et les résumés écrits par des humains. Il faut noter que dans
cette évaluation, nous n’avons considéré que les textes du résumé. Nous n’avons pas généré
le format tabulaire d’organisation du résumé comme celui qui est présenté à la figure 1. Nous
voulions aussi normaliser l’apparence de la sortie de tous les systèmes pour ne pas influencer
les juges. Ce choix pénalise toutefois LetSum car nous ne tenons pas compte de la structure
thématique extraite par notre méthodologie. Les évaluateurs ne savaient pas quels résumés
avaient été produits par ordinateur et lesquels avaient été écrits manuellement.
Nous avons fait évaluer 120 résumés par les juristes. Le corpus de test contient dix jugements
choisis au hasard dans différentes collections de jugements de la Cour fédérale du Canada. Nous
avons généré 50 résumés automatiques et nous avons collecté 10 résumés manuels écrits par les
arrêtistes de la Cour fédérale. Pour chaque résumé, nous avons répété le test deux fois, ceci
nous donne deux avis par résumé. Chacun des 12 avocats du CanLII a évalué 10 résumés sur
une période d’une heure sur deux aspects: contenu et qualité.
Pour l’évaluation du contenu, nous avons défini sept points importants à retrouver dans un
jugement. Si un lecteur peut déterminer les points en question en lisant le résumé, on en déduit
que le résumé contient suffisamment d’informations pour couvrir les idées clés d’un jugement.
Sept questions (présentées en haut de la table 2) ont été déterminées avec l’aide d’un avocat de
CanLII. L’ensemble des réponses de ces questions montre le degré de couverture sur des idées
clés du jugement source exprimées dans le résumé. La deuxième partie de l’évaluation portait
sur la qualité d’un résumé selon trois critères:
Lisibilité : La facilité de distinction et de perception du contenu du résumé qui en facilite la
compréhension. Ce critère donne une appréciation globale du résumé. On demande si le
Atefeh Farzindar et Guy Lapalme
Après avoir lu le résumé peut-on déterminer:
Q1. Qui sont les parties en litige?
Q2. Quel est le problème en litige?
Q3. Les questions de droit soulevées?
Q4. Comment le juge a appliqué le droit aux faits?
Q5. Les motifs couvrent-ils les questions de droit?
Q6. Le résumé contient-il les motifs déterminants pour arriver à la conclusion?
Q7. Le résultat final de la cour?
Résumé
Q1
Q2
Q3
Q4
Q5
Q6
Q7 Moyenne
Humain
55,00
90,00 90,00 70,00 80,00 85,00 95,00
80,71
LetSum
50,00
90,00 80,00 75,00 75,00 85,00 85,00
77,14
StartEnd
65,00 100,00 100,00 70,00 80,00 70,00 90,00
82,14
MEAD
55,00 100,00
95,00 65,00 50,00 50,00 40,00
65,00
MsWord
30,00
80,00 85,00 60,00 45,00 45,00 60,00
57,86
Per. Mining 25,00
65,00 55,00 35,00 35,00 35,00 45,00
42,14
Moyenne
46,67
87,50 84,17 62,50 60,83 61,67 69,17
67,50
Table 2: Questions juridiques utilisées lors de l’évaluation du contenu du résumé par les juristes
et les résultats d’évaluation extrinsèque, les pourcentages des réponses positives pour les sept
questions juridiques
résumé est: clair, assez clair, peu clair ou incompréhensible.
Cohérence : La présence simultanée d’éléments qui correspondent au même contenu ou qui
s’accordent entre eux, qui s’harmonisent. Ce critère contient le fil conducteur du texte
pour en assurer la continuité et la progression de l’information. On demande si la cohérence du texte dans le résumé est: très bonne, bonne, médiocre ou très mauvaise.
Pertinence des phrases : Caractère de ce qui est plus ou moins approprié, qui s’inscrit dans la
ligne de l’objectif poursuivi. La pertinence des phrases mesure si les phrases du résumé
contiennent un lien clair et direct avec le sujet dont il est question. On demande si le
résumé est: très pertinent, assez pertinent, peu pertinent ou non pertinent.
L’évaluation comporte aussi une valeur d’acceptabilité sur la qualité générale du résumé. Nous
avons demandé d’attribuer une valeur d’acceptabilité entre 0 et 5 pour chaque résumé (0 pour
un résumé inacceptable et 5 pour un texte acceptable) sur la qualité du texte de résumé. Les
résumés avec valeur 3 jusqu’à 5 sont considérés acceptables.
Dans la table 2, nous présentons les résultats obtenus pour l’évaluation des 120 jugements où,
pour chaque question, nous avons calculé le pourcentage de réponses positives données à cette
question. Une réponse positive signifie que le résumé contient assez d’informations sur le point
en question. Par exemple dans la deuxième colonne, les résumés produits par le moyenne de
toutes les méthodes ont couvert les informations sur la présentation des parties en litige (Q1)
dans 47% des cas. LetSum a donc très bien répondu aux exigences des avocats pour des résumés
automatiques. Ses résultats sont très proches de ceux des résumés manuels et sa performance
est supérieure à celle des autres systèmes commerciaux Microsoft Word et Pertinence Mining,
y compris le système de recherche MEAD.
Notre méthode StartEnd, basée sur la position des segments, a également donné de bons résul-
Production automatique du résumé de textes juridiques
Résumé
Humain
LetSum
StartEnd
MEAD
MsWord
Per. Mining
Moyenne
Lisibilité 0-3 Cohérence 0-3
2,00
1,95
2,30
2,30
2,40
2,20
2,15
1,90
1,65
1,25
1,40
1,10
1,98
1,78
Pertinence 0-3
2,15
2,25
2,10
2,05
1,60
1,40
1,93
Acceptabilité 0-5
3,43
3,43
3,68
3,23
2,63
2,23
3,10
Table 3: Résultats d’évaluation extrinsèque selon les valeurs qualitatives entre 0 et 3 sur lisibilité, cohérence et pertinence des phrases, valeur d’acceptabilité est entre 0 et 5 sur la qualité
générale du résumé
tats. Notre heuristique pour les positions des segments était appropriée, même si elle diffère
du baseline utilisé normalement pour les articles journaux. Par le comportement du système
MEAD, spécialisé pour les articles des journaux, on peut voir que les questions qui possèdent
les réponses placées au début du document sont bien répondues alors que le recouvrement des
informations clés sur les questions avec réponses dans d’autres positions dans le texte n’est
pas satisfaisant. Les systèmes commerciaux comme Microsoft Word et Pertinence Mining ont
les scores les plus faibles dans l’évaluation, car ils produisent des résumés génériques qui ne
satisfont pas vraiment les utilisateurs dans un domaine spécifique comme droit.
La table 3 montre les résultats de l’évaluation de la qualité du résumé. Pour les trois critères,
lisibilité, cohérence et pertinence des phrases du résumé, les valeurs sont entre 0 et 3. La qualité
des résumés produits par LetSum est supérieure à celle des autres méthodes. La lisibilité du
résumé de LetSum est jugé clair, la cohérence est évaluée très bonne et les pertinences des
phrases sont mesurées très pertinentes pour les besoins des avocats. Les condensés rédigés
par un humain sont jugés bons en cohérence (et non pas très bons) parce qu’ils sont en style
télégraphique alors que LetSum et les autres systèmes font l’extraction de phrases.
Au point de vue d’acceptabilité du résumé, les résumés de LetSum sont jugés de niveau équivalent à celui des résumés écrits par les arrêtistes des cours. Encore une fois la méthode de
positions des phrases dans le jugement des très bons scores pour ce critère d’évaluation. Il faut
noter que dans cette partie de l’évaluation il y a peu de différence entre le système StartEnd et
LetSum, un système nettement plus élaboré. Ceci peut en partie s’expliquer par le fait que nous
n’avons pas considéré le format tabulaire produit par LetSum basé sur l’analyse thématique du
texte qui distingue notre méthode.
4
Conclusion
Le domaine juridique est un vaste domaine avec un grand besoin pour le résumé automatique.
Au Canada, il y a 30 000 avocats et aux États-Unis plus de 300 000 avocats susceptibles de
rechercher de la jurisprudence. Toutes les synthèses de jurisprudence se font manuellement par
des juristes. Lors qu’un résumé est disponible, le juriste a une idée du contenu de la décision et
il lui est plus facile de savoir si elle a un potentiel de pertinence. Chaque résumé peut sauver,
dans la consultation d’une liste de résultats de recherche, deux minutes à la personne qui fait la
recherche. Une recherche typique dans CanLII donne plus de trente résultats, on pourrait donc
Atefeh Farzindar et Guy Lapalme
sauver une heure environ. Comme un avocat-recherchiste facture au moins 100$ de l’heure
à son client, et que plusieurs recherches peuvent être requises pour un seul dossier, pour 20
recherches, il y aura donc 20 heures d’économies, 2 000$ sur un seul cas. L’utilisation des
résumés automatiques économise du temps, des coûts et des expertises. Ces économies de
ressources protègent les intérêts du gouvernement et de la population en tant que des clients
attendant de recevoir un service juridique.
Nous avons développé LetSum, le premier système complet pour le résumé de textes juridiques
en anglais. Il est basé sur l’identification de la structure thématique et présente le résumé sous
forme d’une fiche de résumé augmentant ainsi la cohérence et la lisibilité du résumé. Dans
les différentes étapes de notre étude, nous avons cherché à maximiser la précision de notre
analyse en vue de diminuer les erreurs, car les textes de lois sont très précieux. L’excellente
évaluation de LetSum est le témoin de la validité de notre approche. En faisant ressortir les
points essentiels des jugements, nous espérons avoir rendu la justice plus accessible à tous et
aussi aider la société.
Remerciements
Nous tenons à remercier l’équipe LexUM du laboratoire d’informatique juridique du Centre de
recherche en droit public de la faculté de droit de l’Université de Montréal pour leur collaboration. La recherche présentée ici est soutenu financièrement par le Conseil de recherches en
sciences naturelles et en génie du Canada (CRSNG).
Références
FARZINDAR A. (2004). Développement d’un système de résumé automatique de textes juridiques. In
TALN-RECITAL’2004, p. 39–44, Fès, Maroc.
FARZINDAR A. (2005). Résumé automatique de textes juridiques. PhD thesis, Université de Montréal
et Université de Paris4-Sorbonne.
FARZINDAR A., L APALME G. & D ESCLÉS J.-P. (2004). Résumé de textes juridiques par identification de leur structure thématique. Traitement Automatique des Langues (TAL), Numéro spécial sur: Le
résumé automatique de texte : solutions et perspectives, 45(1), 39–65.
L EHMAM A. (1995). Le résumé automatique à fragments indicateurs: RAFI. PhD thesis, Université de
Nancy-II, Nancy, France.
L IN C.-Y. & H OVY E. (2003). Automatic evaluation of summaries using n-gram co-occurrence statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), p. 150–157, Edmonton, Canada.
M ANI I., H OUSE D., K LEIN G., H IRSHMAN L., O RBST L., F IRMIN T., C HRZANOWSKI M. & S UND HEIM B. (1998). The TIPSTER SUMMAC Text Summarization Evaluation. Rapport interne MTR
98W0000138, The Mitre Corporation, McLean, Virginia.
R ADEV D., OTTERBACHER J., Q I H. & TAM D. (2003). Mead reducs: Michigan at duc 2003. In
DUC03, p. 160–167, Edmonton, Alberta, Canada: Association for Computational Linguistics.
S PARK -J ONES K. & G ALLIERS J. R. (1995). Evaluating Natural Language Processing Systems: An
Analysis and Review. Number 1083 in Lecture Notes in Artificial Intelligence. Springer.