Analyse automatique du slovaque

Transcription

Analyse automatique du slovaque
Analyse automatique du slovaque.
Analyseur morphologique.
Diana Lemay, CERTAL, INALCO, Paris
Le but de nos travaux est de développer un système d’analyse automatique du contenu des
textes scientifiques et techniques slovaques. Un tel système pourrait être utilisé par des
applications, telles que l’indexation automatique des textes, la recherche automatique de la
terminologie ou par un système de traduction. Nos travaux s’appuient sur les travaux déjà
réalisés au sein du CERTAL et ils sont menés en parallèle avec les travaux de Patrice Pognan
sur le tchèque.
L’analyse morphologique qui a pour but d’extraire tous les éléments d’une correspondance
forme-fonction servira, appuyée par des procédés contextuels, de point de départ à l’analyse
syntaxique du slovaque. Afin de pouvoir traiter le slovaque en parallèle avec le tchèque,
l’essentiel de notre travail consiste à étudier attentivement la suffixation slovaque et
d’exploiter les possibilités qu’offre la morphologie de cette langue pour un traitement
automatique.
Le fonctionnement de l’analyseur morphologique est basé sur une étude attentive de la
grammaire, en particulier de la morphologie, ainsi que sur les dépouillements exhaustifs du
slovaque. Il s’agît d’un automate. L’exécution de l’automate débute dès l’entrée dans le
pseudo-état initial et se poursuit jusqu’à ce qu’un état final, non emboîté, soit atteint.
La morphologie du slovaque est assez complexe. Alors que l’essentiel de notre étude porte
pour l’instant sur l’analyse de la partie terminale d’un mot, nous sommes, à certains moments,
obligés de faire appel à l’analyse de la partie initiale d’un terme. La reconnaissance d’un ou
de plusieurs préfixes lors d’une décomposition morphématique, nous permet, dans certains
cas, de lever l’ambiguïté d’une manière simple et efficace comme le montre l’exemple de
reconnaissance des termes étrangers en “-áž”. Pour faire la différence entre un verbe
autochtone à l’impératif (“ukáž!” (montre!) ) et un substantif féminin d’origine étrangère
( “remorkáž” (remorquage) ) nous utilisons la procédure de reconnaissance des préfixes
autochtones.
ukáž
remorkáž
- k+áž
Préfixe autochtone
oui
verbe (Impératif, 2ème pers. Sg.)
non
substantif féminin étranger (Nominatif, Sg.)
Dans de nombreux cas, nous pouvons nous satisfaire d’une décomposition morphématique
partielle. En effet, en slovaque la partie terminale du mot peut fournir une multitude
d’informations grammaticales, mais aussi sémantiques.
Le slovaque doit obéir à une loi stricte concernant la quantité (longueur) des syllabes. Cette
loi modifie surtout les formes des désinences et des suffixes slovaques et par conséquence, il
faut en tenir compte non seulement dans l’étude morphologique du slovaque mais aussi dans
l’élaboration des règles de reconnaissance automatique. La loi rythmique de la longueur
interdit dans les mots slovaques la succession de deux syllabes longues. Si le radical d’unité
lexicale se termine par une syllabe longue les suffixes ou les désinences longues sont
raccourcies.
Une fois les textes retranscrits dans un code de travail, nous procédons à la première étape de
l’analyse - la reconnaissance des mots d’emprunts. Un certain nombre de mots d’emprunts
n’ont pas, dans la langue slovaque, le même fonctionnement que les mots autochtones. Certes,
une partie du vocabulaire d’origine étrangère a été parfaitement intégrée dans la langue, mais
il est important de repérer les mots d’emprunt afin de pouvoir prévoir leur comportement
inhabituel pour la suite de notre analyse. Notons aussi que la présence des termes d’origine
étrangère est très élevée dans les textes scientifiques et techniques et que souvent il s’agit de
termes formés pour la circonstance. Souvent, ces termes ne sont pas attestés dans les
dictionnaires mais il sont formés dans la stricte régularité du système de la langue.
L’analyseur morphologique du slovaque procède ensuite à la reconnaissance des adjectifs
durs de type “pekný” et il s’appuie sur la reconnaissance de ces derniers pour la
reconnaissance dynamique des adverbes. Les adjectifs sont la catégorie lexicale qui est
probablement la moins ambiguë pour la reconnaissance automatique. La place d’un adjectif
slovaque dans un syntagme nominal étant bien déterminée, sa reconnaissance permet ensuite
de faire des hypothèses sur la catégorie lexicale des autres constituants du syntagme nominal,
la reconnaissance de ces derniers sur des critères de forme pouvant être plus difficile.
Le modèle de déclinaison pour les adjectifs durs “pekný” (joli) régit aussi la déclinaison des
adjectifs substantivés, de certains pronoms et adjectifs numéraux et des participes passés
passifs.
Les pronoms constituent une catégorie lexicale fermée et leur nombre est de quelques
dizaines. Ils sont stockés dans une liste de mots outils ce qui permet leur identification par
simple consultation de cette liste. En ce qui concerne les adjectifs numéraux et les participes
passés nous avons préféré dans un premier temps ne pas faire la distinction entre adjectifs
durs propres, adjectifs numéraux, adjectifs issus du participe passé passif et participes passés
passifs. Tous ces adjectifs sont déclinés d’après le modèle de déclinaison des adjectifs durs
“pekný”. Il nous semble que la distinction entre les différentes sous-catégories venant d’être
énumérées relève surtout de l’analyse syntaxique, la différence au niveau de la forme étant
inexistante en slovaque.
La reconnaissance automatique des adjectifs durs s’appuie tout d’abord sur la reconnaissance
des désinences univoques : “-ý”, “-ého”, “-ých”, “-ými”. Nous utilisons la reconnaissance des
désinences adjectivales univoques pour créer une liste dynamique de radicaux adjectivaux.
Ceci nous permet d’élargir la reconnaissance des adjectifs à tous les adjectifs qui ont au moins
une occurrence à désinence univoque dans le corpus. Dans ces cas nous conservons le radical
dans une liste et procédons ensuite à la reconnaissance du couple “radical adjectival désinence adjectivale”.
Nous procédons aussi à la reconnaissance de quelques segments “suffixe-désinence”. Alors
que la reconnaissance d’un adjectif dur terminé par une désinence univoque est simple, elle se
complique pour le même adjectif dont la désinence a la même forme qu’une désinence d’une
autre catégorie lexicale. Dans ces cas il peut être utile d’avoir recours à la reconnaissance du
suffixe qui précède la désinence. Nous procédons à une étude approfondie de quelques
suffixes parmi les plus fréquents. Il s’agit dans un premier temps de suffixes liés aux variantes
longues des désinences adjectivales: “-ský”, “-cký”, “-vý”.
Les adverbes sont pour la plupart formés à partir des adjectifs qualificatifs à l’aide de trois
suffixes: “-o”, “-e”, “-y”. Certains adverbes ont à l’origine des substantifs (avec ou sans
préposition). Ils se sont figés et devenus adverbes. D’autres encore ont été formés a partir de
formes verbales, souvent à l’aide du suffixe “-mo”. Seuls les adverbes formés à partir des
adjectifs de manière régulière sont reconnaissables automatiquement. Pour les autres
adverbes, nous avons une liste non exhaustive d’adverbes irréguliers les plus utilisés. Nous
envisageons aussi une possibilité de reconnaissance de certains adverbes au niveau de
l’analyse syntaxique. Nous avons sélectionné certains segments univoques ( “-úco”, “-avo”,
“-ovo”, “-ovane”, “-cky”, “-sky”) qui permettent une reconnaissance d’adverbes rapide et
simple.
Dans la deuxième phase nous avons recours aux adjectifs durs déjà reconnus. Lors de la
procédure de reconnaissance des adjectifs, les radicaux d’adjectifs reconnus à l’aide des
désinences univoques sont stockés dans une liste dynamique tout au long de l’analyse. Nous
utilisons cette même liste dans la reconnaissance dynamique des adverbes réguliers. Si nous
rencontrons une forme lexicale terminée en “-o” ou en “-e”, suffixes formateurs
d’adverbes, nous la comparons avec la liste de radicaux adjectivaux. Ce procédé nous permet
de reconnaître tous les adverbes réguliers formés à partir d’adjectifs déjà reconnus dans le
texte analysé.
Unité lexicale
Segment adverbial univoque
Dernier caractère « -o » ou « -a »
Radical adjectival
ADVERBE
Schéma de reconnaissance des adverbes réguliers
La reconnaissance des substantifs est basée sur la reconnaissance de suffixes ou segments
suffixaux univoques. Il nous semble important de mentionner que certains suffixes donnent
aussi des informations au niveau sémantique. Les suffixes autochtones reconnus par
l’analyseur sont “-teľ”, “-ník”, “-ák/-iak”, “-ár/-iar”, “-anec/-enec/-inec” pour les substantifs
masculins, “-osť”, “-yňa/-kyňa”, “- ňa”, “-áreň/-iareň” pour les substantifs féminins et “-isko/
-ište”, “-ctvo”, “-stvo”, “-dlo” pour les substantifs neutres. Les substantifs verbaux slovaques
sont formés à partir du participe passé passif à l’aide du suffixe “-ie”. Ils se déclinent d’après
le modèle substantival neutre “vysvedčenie”. Nous avons sélectionné trois segments
suffixaux : “-anie”, “-enie” et “-utie” qui nous permettent d’identifier d’une manière simple
et rapide les substantifs verbaux.
Le système verbal slovaque est très complexe. Les verbes réguliers sont conjugués d’après
quatorze modèles. Etant donné la richesse du système verbal slovaque nous avons décidé dans
un premier temps de procéder à la reconnaissance automatique de la classe verbale dont les
désinences sont les plus univoques. Il s’agît des verbes appartenant au modèle “pracovať ”
(travailler). Notre choix a été motivé par différentes raisons. La première est le fait que les
désinences de ce groupe verbal sont pratiquement sans ambiguïté. La deuxième raison très
importante est le fait que ce groupe est le deuxième groupe le plus riche avec plus de 6 300
verbes. La troisième raison est que le modèle “pracovať ” est le seul modèle productif pour les
verbes étrangers rentrant dans la langue.
Notre travail montre qu’une analyse morphologique basée sur l’étude approfondie de la
flexion et de la suffixation d’une langue comme le slovaque donne de très bons résultats. Le
corpus contient près de 22 000 formes. Le lexique obtenu par l’analyseur en contient 6 456.
Nous ne conservons qu’une seule occurrence de chaque mot du corpus. Notre évaluation est
réalisée sur ce lexique tassé. Les résultats sont calculés pour rapport à l’étiquetage manuel
que nous avons effectué sur la totalité du lexique. Tout d’abord nous tenons à signaler que le
pourcentage d’erreurs est très faible. Seules deux erreurs ont été détectées au niveau de
l’attribution de la catégorie lexicale, soit 0.07% de mots reconnus. Pour la reconnaissance des
mots d’origine étrangère, seules 5 erreurs ont été détectées (il s’agît de noms propres), soit
0.49% de mots d’origine étrangère reconnus. Le pourcentage d’adjectifs reconnus s’élève à
72.22%. La majorité des adjectifs durs non reconnus sont les adjectifs issus du participe passé
passif terminés en -ný, -tý qui n’ont pas de forme avec désinence univoque dans le corpus.
Il nous semble qu’il ne serait pas rentable d’avoir un dictionnaire de formes pleines à ce stade
d’analyse, car on obtient les mêmes résultats avec un dictionnaire très réduit qui contient
uniquement quelques listes de ce que nous appelons “mots-outils” et des segments
désinentiels et suffixaux. Notre démarche nous permet d’avoir en même temps un système de
lemmatisation sommaire à ce niveau d’analyse. Pour les étapes suivantes de l’analyse
automatique, il est probable que nous ayons recours à un dictionnaire réduit de formes
lemmatisées.
Au niveau de l’analyse morphologique il faut que nous complétions certaines procédures.
Pour la reconnaissance automatique des adjectifs il s’agit d’élargir l’étude aux adjectifs durs
issus du participe passé passif, des adjectifs dont les désinences ont été raccourcis
(conséquence de la loi rythmique de longueur) et aux adjectifs mous. La reconnaissance des
adjectifs mous issus du gérondif présent et des formes de comparatif et de superlatif qui sont
très marqués s’impose.
Pour la catégorie des adverbes il s’avère indispensable d’élargir dans la mesure du possible le
dictionnaire des adverbes irréguliers, la reconnaissance dynamique des adverbes réguliers
formés sur les adjectifs sera améliorée par l’élargissement de la reconnaissance de ces
derniers. Une fois de plus le volume du corpus traité influence d’une manière significatif
l’efficacité de la procédure de reconnaissance dynamique des adverbes réguliers. Plus le
corpus est important plus la possibilité de trouver la forme adjectivale à partir de laquelle nous
pouvons calculer l’adverbe est grande.
L’élargissement de l’étude de la suffixation substantivale à l’ensemble des suffixations
utilisables devrait lui aussi améliorer considérablement la qualité de l’analyse morphologique.
D’autres types de verbes doivent être étudiés, il est probable que la catégorie des verbes soit la
deuxième la mieux marquée pour la reconnaissance d’après la forme après celle des adjectifs.
Malgré tout le travail qui reste à faire pour améliorer l’analyse morphologique automatique du
slovaque, nous pensons que notre travail confirme largement nos hypothèses sur la
calculabilité et la faisabilité d’une reconnaissance d’après la forme d’une langue à flexion très
riche comme le slovaque. Nous avons voulu montrer qu’une telle reconnaissance peut être
appliquée à toutes les catégories lexicales concernées par la flexion (substantivale, adjectivale
ou verbale).
Nous prenons toutes les précautions pour que l’analyse ne produise que des silences (résultats
corrects non trouvés) et en aucun cas de bruits (erreurs). Cela nous permet d’avoir une totale
fiabilité. Les termes reconnus constituent ainsi des entrées sécurisées pour l’analyse
syntaxique de surface.
L’analyse syntaxique de surface constituera l’étape suivante de l’analyse. Elle devra permettre
de lever l’ambiguïté dans la plupart des cas de catégorisation multiple lors de l’analyse
morphologique.
Bibligraphie
Benko V., Hašanová J. (1998), Kostolanský E., Morfológia podstatných mien, Počítačové spracovanie
slovenského jazyka, Pedagogická fakulta Univerzity Komenského, Bratislava.
Bujalka A., Dubníček J. (1998), Slovenský jazyk I - Zvuková stránka jazyka, Náuka o slovnej zásobe, Bratislava,
Univerzita Komenského.
Bujalka A., Dubníček J. (1998), Slovenský jazyk II - Morfológia, Bratislava, Univerzita Komenského.
Dvonč I.(1984), Dynamika slovenskej morfológie, Bratislava, Veda.
Hajičová E., Kirschner Z. (1981), Automatic Translation from English to Czech, Prague Bulletin of
Mathematical Linguistics n° 35, Prague.
Horecký J. (1971), Slovenská lexikológia, 1. Tvorenie slov, Bratislava, SPN.
Kačala J., Pisárčiková M. (1997), Krátky slovník slovenského jazyka, Bratislava, Veda.
Kirschner Z. (1982), MOSAIC. A Method of Automatic Extraction of Technical Terms in Texts, Prague Bulletin
of Mathematical Linguistics n° 37, Prague.
Mistrík J. (1969), Frekvencia slov v slovenčine, Bratislava, SAV.
Mistrík J. (1976), Retrográdny slovník slovenčiny, Bratislava, Univerzita Komenského.
Ondruš P. (1978), Kapitoly zo slovenskej morfológie, Bratislava, SPN.
Oravec J., Bajzíková E., Furdík J. (1984), Morfológia, Súčasný spisovný jazyk, Bratislava, SPN.
Panevová J. (1980), Formy a funkce ve stavbě české věty, Praha, Academia.
Pauliny E. (1997), Krátka gramatika slovenská, Bratislava, Národné literárne centrum.
Pauliny E. (1990), Vývin slovenskej deklinácie, Bratislava, Veda.
Pognan P. (1992), Automatické zpracování češtiny pro vědecko-technické informace, 16th World Congress of
SVU, Prague, Společnost pro Vědu a Umění.
Pognan P., Une reconnaissance automatique des mots étrangers dans les textes scientifiques. Un essai en langue
tchèque, The Prague Bulletin of Mathematical Linguistics n° 40, Prague.
Pognan P. (1996), Approches grammaticale et textuelle pour l’élaboration de système d’analyse automatique et
d’indexation terminologique, Journées Realiter, Nice.