De la langue à l`informatique: contraintes linguistiques en vue d`une

Transcription

Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Sistema de Información Científica
Jacques Rouault
De la langue à l'informatique : contraintes linguistiques en vue d'une recherche de connaissances
Revista Colombiana de Filosofía de la Ciencia, vol. X, núm. 20-21, 2010, pp. 175-187,
Universidad El Bosque
Colombia
Disponible en: http://www.redalyc.org/articulo.oa?id=41418343009
Revista Colombiana de Filosofía de la Ciencia,
ISSN (Version imprimée): 0124-4620
[email protected]
Universidad El Bosque
Colombia
¿Comment citer?
journal
Compléter l'article
Plus d'informations de cet article
Site Web du
www.redalyc.org
Le Projet Académique à but non lucratif, développé sous l'Acces Initiative Ouverte
De la langue à l’informatique :
contraintes linguistiques en vue d’une
recherche de connaissances
Jacques Rouault1
R ésumé
À la question : comment définir et repérer dans un univers approché et allusif (la
langue) des fonctionnements suffisamment rigoureux pour se prêter à une modélisation et à un traitement informatique ? Nous répondons en nous situant sur trois
domaines: la linguistique, línformatique et les formalismes.
La linguistique limitée à des corpus définis est constituée des ‹ discours › qui sont
produits dans des conditions homogènes. Ainsi, la langue doit obéir à une matérialité
à travers des règles de fonctionnement explicites et pré-établies. Cést à partir dúne
‹ analyse › ou ‹ reconnaissance › qui| se réalise le passage (automatique) de textes à une
représentation formelle exploitable par des applications. L’opération inverse, production de textes par un ordinateur, est la ‹ génération › (ou synthèse). Nous avons quatre
niveaux conceptuels d’analyse : morphologie, syntaxe, sémantique et pragmatique.
Ces niveaux ont pour effet d’exploiter de traces du fonctionnement linguistique, pour
arriver à une structure abstraite, reposée sur des théories linguistiques respectant la
langue analysée. Les notions de la théorie doivent être susceptibles d’une formalisation
ultérieure dans un cadre formel permettant l’automatisation du processus (analyse).
Mais, cést lúnité de langage (dépendance à l’intérieur des propositions) qui peut
être construite et interprétée de façon satisfaisante, pour être la base de nombreuses
applications. Les analyseurs transforment ensuite chaque proposition en un ‹ énoncé ›,
unité complètement formalisée. La syntaxe qui suit est une ‹ syntaxe de constituants ›,
destinée à repérer les liens syntagmatiques entre les constituants et à les interpréter
dans une logique de syntagmes ‹ à la Chomsky ›. Les choix de la sémantique et de
la pragmatique doivent nous conduire aux connaissances véhiculées par le corpus et
doivent reposer sur des règles objectives et dápplication rigoureuse.
Ainsi même, l’emploi d’un système informatique suppose que le processus d’analyse
automatique soit réalisé par des algorithmes fiables et les plus performants possible.
Ce système est issu donc de lánalyse conçue comme un tout cohérent, intégrant le
linguistique, le formel et l’algorithmique.
Mots clés : traitement automatique du langage, informatique linguistique, communication homme-machine.
1
Professeur émérite de la Université de Grenoble.
De la langue a l’informatique [...] - Jacques Rouault
Introduction
Nous présentons ici un ensemble de réflexions nées d’une longue pratique
de ce que l’on nomme classiquement le ‹ Traitement automatique du langage ›
(TAL, en abrégé). Malgré cet ancrage ‹ expérimental ›, nous tentons ici de
dégager un certain nombre de principes méthodologiques qui, mis ensemble,
assurent le moins mal possible le succès du passage d’un texte à une représentation
informatique utilisable dans des applications comme la recherche d’information
ou la communication homme-machine.
Dans une telle perspective, trois disciplines sont concernées : d’abord,
évidemment, la linguistique et l’informatique (théorique). Mais l’utilisation
de modèles impose le recours à des formalismes relevant surtout de la logique,
voire des mathématiques.
Du point de vue informatique, la conception d’un logiciel est évidemment
fonction du domaine d’application. Ici, il faut insister sur le fait que c’est la
langue qui est concernée ; donc un domaine très spécifique où les décisions ne
peuvent être que le résultat de traitements finement adaptés. Le premier stade de
réflexion est donc de refuser a priori l’utilisation d’algorithmes conçus pour des
domaines aux caractéristiques formelles affirmées, comme les bases de données,
la théorie des langages formels, etc. A l’opposé, il n’est pas question de réinventer l’informatique et l’algorithmique : de nombreuses méthodes y existent,
qui peuvent nous apporter la solution à certains des problèmes posés en TAL
: le but de cet article est de monter comment on peut rapprocher la linguistique et l’informatique en rendant opérationnelles certains théories linguistiques
et en concevant des traitement informatiques adaptés. Autrement dit, comment
définir et repérer dans un univers approché et allusif (la langue) des fonctionnements suffisamment rigoureux pour se prêter à une modélisation et à un
traitement informatique. C’est de ce passage d’un objet non formalisé a priori
à un traitement résolument formel dont il est question ici. Nous insistons sur
les nombreuses et diverses étapes que doit subir un texte avant de pouvoir être
analysé et que le résultat soit employé dans des applications ‹ informatisées ›.
L a linguistique
Du point de vue de la langue, deux questions se posent :
1.Qu’analysons-nous ?
[176]
Revista Colombiana de Filosofía de la Ciencia • Vol. X ∙ No. 20 - 21 • 2010 • Págs. 175-187
2.Sur quelles théories linguistiques s’appuyer pour assurer notre
démarche ?
L angue et discours
La réponse à la première question nécessite dès le départ une prise de
position méthodologique liée à la faisabilité de l’entreprise. En effet,
il n’est pas question de penser à des analyseurs ayant pour objet une
langue dans son entier.
Car la langue est un ensemble potentiellement infini ; or, on sait que l’on ne
peut extraire un échantillon représentatif d’un tel ensemble, échantillon nécessaire pour construire les dictionnaires et grammaires : Pour les dictionnaires, par
exemple, le nombre de lexèmes différents augmente régulièrement à mesure que
l’on accroît la portion de langue dont on veut rendre compte : on voit apparaître
inexorablement de nouveaux lexèmes (ce ne sont pas les seules fréquences des
lexèmes déjà rencontrés qui augmentent).
Ceci, de nouveau, nécessite deux hypothèses de travail :
1a – Introduire la finitude de l’univers de travail : on se limitera à des
corpus définis et délimités, au moins théoriquement.
1b – Chaque corpus sera supposé bénéficier de conditions de production
homogènes.
Ce dernier point signifie que le corpus, au lieu d’être supposé formé de textes
réunis un peu au hasard, est constitué de discours, produits dans des conditions
supposées homogène. Cette homogénéité est à prendre au sens de M. Pecheux
(1969). On ne peut évidemment la réaliser théoriquement : c’est le choix des
corpus qui assure en fait une certaine homogénéité, que l’on considère comme
une manifestation satisfaisante de conditions de production homogènes.
En résumé, on introduit à la fois la finitude de l’univers à représenter (corpus)
et la régularité des phénomènes linguistiques qui y sont représentés (discours).
M atérialité de la langue
Une tentation constante de la linguistique théorique est de poser des
‹ concepts › issus à la fois de l’intuition et des positions théoriques du linguiste
et de ‹ forcer › le fonctionnement de la langue à obéir à ces règles pré-établies.
Par conviction et par opportunisme nous sommes attachés à la reconnaissance
[177]
de la matérialité de la langue, laquelle doit guider le travail du linguiste pour
produire des concepts adaptés réellement à la langue étudiée. Et ce travail
passe aussi par l’étude d’autres langues. Autrement dit, c’est la découverte, à
travers des langues de règles de fonctionnement explicites et rigoureusement
exploitées qui va guider la démarche (Culioli 1990).
Théories linguistiques
La première tentation, lorsque l’on veut traiter des textes sur ordinateur est de
rester au niveau de la surface linguistique. Ainsi, la ‹ linguistique des textes › tente,
au moins en partie, d’échapper à toute analyse relativement sérieuse au prétexte
que toute ‹ préparation › un peu sérieuse du texte dénature la langue. Les limites
de telles tentatives sont évidentes : on met ensemble des choses qui n’ont pas
de rapport entre elles (homographies, par exemple) et on consomme beaucoup
d’énergie pour mettre en évidence des propriétés qu’un analyse linguistique
relativement légère ferait apparaître de façon plus simple et plus fiable (recherche
de co-occurrences, par exemple). Autrement dit, en paraphrasant Culioli (1990)
il n’y a pas de structure à fleur de langue.
La mise en évidence de la façon dont un texte est bâti passe nécessairement
pour nous par une analyse linguistique la plus rigoureuse possible.
Le recours à des théories linguistiques s’impose ainsi naturellement. Et
les choix des théories linguistiques est essentiel pour la suite : désirant nous
éloigner de la surface, les théories candidates relèvent de la linguistique théorique et doivent assurer un certain degré de rigueur et de généralité
Si ceci peut être réalisé sans trop de problèmes en morphologie et syntaxe,
la sémantique et la pragmatique posent de redoutables problèmes. D’abord,
les domaines et les finalités de la sémantique et de la pragmatique sont très
divers et aucun consensus ne se dégage sur ces points. Une des théories les
plus prisées du TAL touche aux règles fondées sur des ‹ primitives sémantiques › dont le choix est toujours fort obscur. Et surtout, ce choix pose des
problèmes de généralisation insolubles car un choix de primitives fait à partir
d’un corpus ne s’adaptera pas à ses extensions. Ceci pour la simple raison que
ces primitives ont été choisies sans lignes directrices ni logique sous-jacente.
L’attachement à la linguistique va nous orienter vers une voie complètement
différente : nous le verrons dans la suite.
Ici, le point crucial est que les notions de la théorie doivent être susceptibles
d’une formalisation ultérieure dans un cadre formel permettant l’automatisation
du processus (analyse). Si, de plus, on impose que les concepts linguistiques
[178]
d’une théorie concernent à la fois la ‹ morphologie ›, la ‹ syntaxe ›, la ‹ sémantique › et la ‹ pragmatique ›, on constate qu’aucune théorie linguistique ne peut
répondre à notre propos. Il est donc indispensable de fractionner le traitement.
On devra recourir à un enchaînement de niveaux, chacun reposant sur une
théorie linguistique propre. Le problème devient double : quelles théories
linguistiques choisir, à la fois susceptible d’un traitement informatique et articulée de façon relativement simple avec les autres niveaux ?
A daptation des théories linguistiques
Même ainsi posé, le choix d’une théorie linguistique apparemment adéquate
n’est pas achevé : chaque théorie doit être adaptée aux contraintes du traitement formel et algorithmique, donc de pouvoir se traduire par des règles et des
dictionnaires maîtrisables. Ceci peut se faire de plusieurs manières : nous en
donnons des exemples ci-après.
1.Adopter des classifications majeures sous-tendues par des critères
rigoureux et adaptées à la ‹ finesse › de l’analyse. Un exemple simple
est celui des catégories lexicales : dans les grammaires du français, à côté
de classes apparemment acceptées comme ‹ verbe ›, ‹ article › ou ‹ nom ›.
on trouve des classes complètement ad hoc comme ‹ l’article contracté ›.
En Tal un système de catégories acceptables suppose trois choses :
• Éliminer les catégories bâtardes comme les ‹ article contracté ›, qui
ressortissent de deux phénomènes distincts.
• Adopter des critères clairement définis régissant l’appartenance
à une classe. Ici les critères peuvent être la possibilité d’admettre
certaines flexions : ainsi le verbe est la seule catégorie à admettre
les flexions de conjugaison. Dans le complémentaire on disposera
d’autres règles pour individualiser, par exemple les ‹ noms-adjectifs ›
des autres fonctionnements.
• Se limiter à un nombre restreint de catégories : celles qui sont à la
fois définies rigoureusement et dont le repérage direct en surface ne
peut être confondu avec d’autres. Ainsi, il est illusoire de vouloir, dès
la morphologie, distinguer en français entre adjectif et nom. Seule la
syntaxe peut en décider.
[179]
2.Simplifier des règles que l’usage des grammaires a figées dans une
complexité superflues. Un exemple simple est celui du pluriel des
nominaux en français. La règle de base est que les noms et adjectifs
font leur pluriel en ajoutant ‹ s › à la base. Cette règle est opérationnelle mais suppose le traitement des exceptions. Un exemple en est le
couple ‹ journal / journaux ›. Plutôt que de créer une nouvelle règle
(pluriel en ‹ -aux ›), on ne fera pas figurer dans le dictionnaire des
formes la suite de lettre ‹ j_o_u_r_n_a_u_x ›, imposant ainsi un échec
de l’analyse. Lequel renverra à une règle de régularisation consistant
à remplacer la flexion ‹ -aux › par la flexion ‹ -als ›, ce qui donne la
forme modifiée ‹ j_o_u_r_n_a_l_s ›, qui est analysable correctement
par le cas général. L’ensemble des exceptions au pluriel en français se
traite ainsi par quelques règles simples de régularisation, sans que ceci
entraine des erreurs prohibitives d’analyse.
3.Rendre opérationnelles des classifications intuitives. La plupart des
grammaires habituelles du français (mais on rencontre sans doute la
même chose pour d’autres langues), séparent les verbes en verbes d’état et
verbes d’action. Un verbe d’action étant un verbe qui ... décrit une action
! Une telle circularité ne conduit évidemment pas à une classification
des verbes. Pour la rendre opérationnelle il faut disposer d’un critère
divisant la classe des verbes : pour l’anglais, la forme progressive ventile
les verbes suivant la possibilité ou non d’admettre cette construction.
On oppose ainsi ‹ to know › (impossibilité) à ‹ to work › (possibilité).
Il est alors facile d’utiliser en français le critère ‹ être en train de... › :
lorsqu’il s’applique, on a affaire à un ‹ processus › (‹ verbe d’action ›,
exemples ‹ marcher, donner, dormir ›) et lorsqu’il ne s’applique pas on
posera que l’on a affaire à un ‹ état › (exemple : ‹ savoir ›). Et si les résultats ne coïncident pas avec l’intuition des grammairiens, ce n’est pas
grave car nous restons dans notre système formel qui, lui, est cohérent.
4.Rendre opérationnelles ces classifications en rapportant les règles à
des séquences linguistiques ‹ canoniques ›. Par exemple, la classification citée ci-dessus en verbes d’états et processus ne devient réellement
opérationnelle que si on applique les règles à des ‹ énoncés canoniques ›.
Compte tenu des variations énonciatives, la possibilité ou impossibilité
pour un verbe d’accepter la construction ‹ être en train de .. › peut varier
avec les arguments du verbe. On considérera donc que ce critère n’est
crédible que si on l’applique à une séquence dont le sujet est pourvu du
trait ‹ humain › et le verbe est au présent de l’indicatif. Ainsi, et contraire-
[180]
ment à une vue intuitive des verbes, on considérera que ‹ dormir › est un
processus car on accepte ‹ Pierre est en train de dormir ›.
L’analyse
On convient d’appeler ‹ analyse › ou ‹ reconnaissance › le passage (automatique) de textes à une représentation formelle exploitable par des applications.
L’opération inverse, production de textes par un ordinateur, est la ‹ génération ›
(ou synthèse) Pour de nombreuses raisons, la génération n’est pas l’opération
duale de la reconnaissance.
Les niveaux conceptuels d’analyse
La démarche générale de l’analyse automatique a mis du temps à se construire
: dans les premiers programmes, forcément rudimentaires, de traduction automatique les différentes opérations d’analyse n’étaient pas délimitées. C’est la
contrainte d’une meilleure prise en compte de la langue elle-même qui a conduit
les chercheurs à scinder la procédure d’analyse en différents niveaux, que nous
appelons ‹ niveaux contextuels ›. Actuellement, la communauté du TAL est à peu
près d’accord sur la nécessité de quatre niveaux conceptuels d’analyse : morphologie,
syntaxe, sémantique et pragmatique. Ces niveaux ont pour effet d’exploiter de plus
en plus de traces du fonctionnement linguistique, pour arriver à une structure
abstraite. Mais, comme nous l’avons signalé plus haut ces analyses successives
doivent reposer sur des théories linguistiques respectant la langue analysée.
L’unité d’analyse
L’analyse d’un discours, ou d’un corpus, se fait du début à la fin. Mais on sait
que chaque discours est constitué de phrases et chaque phrase de propositions.
Vouloir analyser un corpus entier en mettant en évidence les liens entre phrases
et entre propositions est une tâche qui paraît dépasser les possibilités actuelles
du TAL. En effet, si, à l’intérieur d’une proposition, les constituants sont
généralement structurés par la dépendance fonctionnelle, le liens entre propositions et entre phrases résultent de phénomènes autres, comme l’anaphore ou
les connecteurs inter-propositionnels. Dans l’état actuel de notre travail, seule
la structure de dépendance à l’intérieur des propositions peut être construite
et interprétée de façon satisfaisante. Nos analyses se restreindront donc à la
proposition et nous considérons que, en première approximation, ces propositions sont les traces d’‹ énoncés élémentaires ›, lesquels sont supposés être une
unité suffisamment grande pour être la base de nombreuses applications.
[181]
L a morpho-syntaxe et les solutions multiples
Après quelques procédures de régularisation de phénomènes parasites de
la langue, la morphologie a pour but de décomposer chaque forme du texte
en un couple ‹ base+flexion › ; par exemple ‹ chantent › en ‹ chant+ent ›. Ceci
permet, moyennant le recours à un dictionnaire des bases et des flexions,
d’interpréter les flexions en des marques de nombre, genre, temps et mode.
Apparaît aussitôt le problème central de l’analyse automatique ; en effet chaque
forme d’un discours peut être susceptibles de plusieurs analyses différentes. Un
exemple classique est la suite de lettres ‹ c_o_u_v_e_n_t › qui peut s’interpréter
comme ‹ nom+masculin+singulier › ou comme ‹ verbe+présent+(indicatif ou
subjonctif) ›. Comme un discours est une suite de formes interprétées, les solutions se multiplient : ainsi la séquence textuelle ‹ ils le lui couvent › est susceptible
de plusieurs interprétations dont la plupart sont parasites lorsque la séquence est
insérée dans un discours donné.
Ce problème des solutions multiples n’admet pas de solution unique satisfaisante. A notre connaissance, il y a au moins trois types de solutions possibles :
1.L’utilisation de procédures linguistiques ; en français, tout au moins,
on constate l’impossibilité de succession de certaines catégories ; par
exemple, un ‹ déterminant › (article) ne peut être suivi d’un verbe.
Malheureusement, les règles ainsi dégagées sont en nombre réduit et
ne résolvent que certains problèmes.
2.L’utilisation de procédures statistiques : dans le cas de la morphologie
on va étudier un échantillon représentatif du corpus du point de vue
des catégories morphologiques. On repérera, par exemple, les couples
de catégories consécutives (par exemple ‹ déterminant+nom ›) significativement présents dans le corpus. Lors de l’analyse du corpus entier
les solutions contenant ces couples seront privilégiés par rapport aux
autres. Le traitement statistique ainsi mis en œuvre est à la fois relativement simple (chaînes de Markov) et délicat à interpréter.
3.L’utilisation d’une architecture informatique adaptée à l’analyse : voir
plus bas.
Cette analyse de chaque discours en une suite de catégories lexicales permet,
moyennant un algorithme adéquat, de marquer les frontières de propositions
et, par là, de ramener l’analyse d’un discours à celles de la suite de propositions ainsi délimitées et supposées indépendantes pour la suite de l’analyse. Les
analyseurs successifs vont ensuite transformer chaque proposition en un énoncé,
[182]
unité complètement formalisée. L’abandon fait ici de la recherche des liens interpropositionnels n’est pas une impasse méthodologique ; les travaux que nous
poursuivons autorisent à penser que ces indications supplémentaires peuvent
être intégrées au système sans compromettre les résultats fondamentaux.
La syntaxe qui suit est une syntaxe de constituants, destinée à repérer les liens
syntagmatiques entre les constituants et à les interpréter dans une logique de
syntagmes ‹ à la Chomsky ›. Comme on se limite à la structure des propositions, seule celles-ci seront décrites par des ensembles de règles. Autrement dit,
on décrira, outre la proposition, le syntagme verbal et le syntagme nominal.
En même temps, un dictionnaire syntaxique des constructions possibles des
verbes, permet d’étiqueter, sur la structure de la proposition, les liens entre le
centre verbal et les syntagmes nominaux qui en constituent les actants (au sens
de Tesnière (1966). On a obtenu ainsi des structures arborescentes combinant
les constituants mis en jeu et des indications de fonctions syntaxiques ; dans
ces structures figurent aussi des indications liées à l’énonciation comme la
nature des déterminants, les temps du verbe, etc.
L a sémantique et la pragmatique
C’est ici que se pose le plus redoutable problème des fondements linguistiques de l’analyse : les choix de la sémantique et de la pragmatique. Pour au
moins deux types de raisons :
1.Ces théories doivent nous conduire à une représentation des énoncés
suffisamment dégagée de la surface pour pouvoir être utilisée dans
des applications relatives non au corpus lui-même, mais aux connaissances véhiculées par celui-ci.
2.Ces théories doivent reposer sur des règles ayant les caractéristiques
que nous avons soulignées précédemment : critères le plus objectifs
possible et application rigoureuse.
Nous ne pouvons, dans le cadre restreint d’un article, passer en revue les
différentes théories possibles, ni les raisons qui nous ont fait les abandonner.
Signalons simplement que les théorie des ‹ primitives sémantiques › (sous une
forme ou sous une autre) bute toujours sur le choix de ces primitives et que cet
obstacle nous paraît insurmontable, entre autres parce que ces primitives sont
forcément choisies sur une part restreinte d’un corpus, en faisant le pari que
ça marchera encore lorsque le corpus grossira peu à peu. Cette démarche idéaliste (à tous les sens du mot) ne fonctionne pas plus en pratique qu’en théorie.
[183]
La seule façon de progresser ici est de respecter la matérialité de la langue et
de se limiter à une sémantique et une pragmatique linguistiques.
En sémantique on se limitera aux phénomènes d’énonciation ; on recherchera
si un énoncé décrit un état ou un processus en scindant cette dernière classe
en processus menant au résultat (processus résultatifs ; exemple ‹ hier, j’ai
cuit le pain › , d’où ‹ le pais est cuit (c’est fait) ›) ou ne faisant pas référence au
résultat (exemple ‹ j’ai aidé le voisin › - pas de résultat). On associera ceci à des
valeurs de causalité, d’individu, de classe, de situation ou de propriété. Ces
fonctionnements sont repérés dans le discours par les marques d’énonciation
portées par le verbe, les déterminants ou les circonstants.
La pragmatique conduit à la représentation finale des fonctionnements
collectés tout au long de l’analyse : on y représente les connaissances que le
texte véhicule, mais à l’aide des seuls indicateurs extraits du corpus par des
procédures linguistiques. Ces connaissances sont de plusieurs types :
• Connaissances liées à la validité des énoncés, ce qui renvoie au certain,
probable, etc.
• Généralité vs. Spécificité et classe vs. Individu.
• Structure prédicative de l’énoncé et rôle des arguments associés.
• Indication qu’il s’agit d’un état, d’un processus.
• Indications énonciatives : temps, aspect, etc.
Les représentations des énoncés d’un discours ou d’un corpus sont les constituants d’une base de connaissances structurée sous forme d’un graphe ; en
effet, même à ce niveau, le repérage de certaines anaphores, les liens simples
d’énonciation permettent de relier certains énoncés entre eux. C’est cette
représentation des connaissances que le processus abouti d’analyse met à la
disposition des applications comme la recherche d’information ou la communication homme/machine.
Formalismes, algorithmes et architecture
Les considérations précédentes sont centrées sur l’aspect linguistique de l’analyse
automatique de corpus. Nous avons insisté sur le fractionnement du problème
et le nécessaire façonnage des théories linguistiques pour qu’elles puissent être
employées avec succès.
[184]
Il nous reste à parler de l’aspect plus technique du processus d’analyse ; non
pour égarer le lecteur dans des arcanes formels mais pour montrer pourquoi
nous avons employé des chemins relativement détournés. Or l’emploi d’un
système informatique pour résoudre ces problèmes suppose que le processus
d’analyse automatique soit réalisé par des algorithmes fiables et les plus performants possible. Et il faut alors que le processus d’analyse soit conçu comme
un tout cohérent, intégrant le linguistique, le formel et l’algorithmique. Autrement dit, comment la démarche que l’on vient d’exposer s’intègre-t-elle dans
une conception informatique fiable ?
Les niveaux conceptuels
L’analyseur est construit suivant les niveaux conceptuels présentés dans le
paragraphe précédent, de sorte que chaque niveau est pris en compte par un
formalisme et une algorithmique qui lui est propre.
• Niveau (conceptuel) de la morphologie : ici la simplicité de l’analyse
linguistique autorise l’emploi d’un modèle de type 3 de Chomsky ;
autrement dit on mettra en œuvre un automate fini.
• Niveau de la syntaxe : moyennant quelques régularisations préalables
(par exemple pour traiter les constituant discontinu ‹ ne ... pas ›) on
utilise ici le modèle de type 2 de Chomsky, réalisé par un analyseur
syntaxique ‹ hors contexte ›, assorti de procédures complémentaires
pour étiqueter les fonctions syntaxiques associées à un verbe.
• Niveaux sémantique et pragmatique : ici les traitements sont relativement légers et ne nécessitent pas le recours à des algorithmes très
performants. Comme l’ensemble du système est écrit dans le langage
PROLOG, nous avons simplement utilisé les facilités offertes par ce
langage de haut niveau pour réaliser les traitements nécessaires.
Les lexiques
Pour travailler, les analyseurs des différents niveaux ont besoin de données:
les règles et les dictionnaires. Deux dictionnaires sont de tailles conséquentes
: celui de la morphologie stocke les flexions (conjugaison, genre et nombre) et
les ‹ bases › - produits du découpage d’une forme de surface lorsqu’on a enlevé
les flexions. Le dictionnaire des verbes contient les schémas syntaxiques qu’un
verbe peut admettre. Ces dictionnaires sont pris en compte en général par un
système de gestion de base de données (SGBD) comme Postgresql.
[185]
L’architecture du système
Nous avons évoqué plus haut le problème central de l’analyse : celui des
solutions multiples et nous avons explicité deux méthodes de résolution.
Cependant, la solution évidente pour obtenir le moins possible de solutions
parasites est de ne pas les créer. Or, on constate que dans les séquences textuelles, certains marquants jouent le rôle d’indicateurs de structures : dans une
séquence comme ‹ je le lui dis ›, les formes ‹ le › et ‹ lui › admettent chacune
deux solutions, ce qui fait quatre solutions possibles pour la séquence, sans
compter les analyses multiples dues à la forme verbale. Le point décisif est ici
que ‹ je › ne peut fonctionner que comme particule pré-verbale (ppv); comme
une ppv ne peut être suivie que par une autre ppv ou un verbe, la forme ‹ le ›
est obligatoirement ppv (elle ne peut être verbe) et, par le même raisonnement,
‹ lui › est ppv (et non pronom).
Mais la méthode précédente suppose que, depuis la morphologie, on puisse
faire appel à des considérations syntaxiques puis revenir à la suite de l’analyse
morphologique. De façon générale, ceci nous fait quitter l’ordonnancement bien
réglé des niveaux conceptuels, tel que nous l’avons défini plus haut pour entrer
dans une architecture informatique dite ‹ multi-agents ›, adaptée précisément à ce
type de problème. Le principe de fonctionnement est le suivant : chaque niveau
conceptuel, au lieu de faire appel systématiquement au niveau supérieur une
fois que son traitement est fait, peut, à chaque moment où il rencontre un indicateur de structure, envoyer un message aux autres niveaux en leur signalant le
problème, à charge pour le niveau qui s’estime concerné, de fournir une analyse
partielle permettant au niveau appelant de poursuivre son travail.
Conclusion
Les considérations précédentes ont d’abord un but méthodologique : il
s’agissait de montrer à travers un exemple réel et relativement complexe :
1.Que le traitement automatique du langage ne peut se faire directement par des considérations empiriques sur la surface textuelle.
2.Que l’analyse ne peut se faire, en fait, que sur des corpus homogènes
et supposés finis (et constitués de discours).
3.Que la linguistique nous fournit un cadre plus ou moins bien adapté ;
et qu’il est nécessaire de compléter les théories linguistiques adoptées
en leur associant critères et règles formels.
[186]
4.Que l’analyse d’un corpus nécessite le recours à différents niveaux
d’analyse, faute de disposer d’une théorie adéquate.
5.Que le traitement informatique suppose le recours à des formalismes
bien définis, à partir desquels l’algorithmique s’impose.
6.Que l’architecture multi-agents permet de répondre à une question
fondamentale du TAL, à savoir chercher la bonne solution au bon
moment de l’analyse grâce au niveau conceptuel adéquat.
Bibliographie
Aho A. V., Ullman J. D. The theory of parsing, translation and compiling.Vol.
1:Parsing. Englewood Cliffs: Prentice-Hall, 1972.
Culioli, A. Pour une linguistique de l’ énonciation. Opérations et représentations,
T. 1. Paris: Ophrys, coll. HDL, 1990.
Fuchs C. Contribution préliminaire à une grammaire de reconnaissance du français. Thèse de 3e cycle – Université Paris 7, 1971.
Fuchs C., Léonard A.M. Vers une théorie des aspects. Paris: Mouton, 1979.
Kintsch, W. & van Dijk, T.A. Towards a model of text comprehension and
production. Psychological review, 85(1978) 363-394.
Kintsch, W. The role of knowledge in discourse comprehension construction-integration model..En Psychological review.95.5 (1988) 163-182.
Pêcheux, Michel. Analyse automatique du discours. Paris : Dunod, 1969.
Rouault J. & Manes-Gallo M. C. Intelligence linguistique. Le calcul du sens des
énoncés élémentaires. Paris: Hermès, 2003.
Stéfanini, M.H. Talisman: une architecture multi-agents pour une analyse du
français écrit. Thèse Grenoble 2, 1993.
Tesnière, L. Eléments de syntaxe structurale. Klinksieck, 1966.
[187]

De la langue à l`informatique: contraintes linguistiques en vue d`une

Transcription

Documents pareils

SEJOUR LINGUISTIQUE

programme JE Chute du mur de Berlin

Dans le cadre de son expansion, REVERSO recrute un Ingénieur de

ICI - AFFOI

pour la diversite linguistique

Offre de CDD « linguistique informatique »

SAMEDI 21 MARS 2015 / LYCÉE HENRI IV / PARIS

L`AILF et la normalisation des ressources linguistiques numériques

n° 111, p. 30-31