De la langue à l`informatique: contraintes linguistiques en vue d`une
Transcription
De la langue à l`informatique: contraintes linguistiques en vue d`une
Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Sistema de Información Científica Jacques Rouault De la langue à l'informatique : contraintes linguistiques en vue d'une recherche de connaissances Revista Colombiana de Filosofía de la Ciencia, vol. X, núm. 20-21, 2010, pp. 175-187, Universidad El Bosque Colombia Disponible en: http://www.redalyc.org/articulo.oa?id=41418343009 Revista Colombiana de Filosofía de la Ciencia, ISSN (Version imprimée): 0124-4620 [email protected] Universidad El Bosque Colombia ¿Comment citer? journal Compléter l'article Plus d'informations de cet article Site Web du www.redalyc.org Le Projet Académique à but non lucratif, développé sous l'Acces Initiative Ouverte De la langue à l’informatique : contraintes linguistiques en vue d’une recherche de connaissances Jacques Rouault1 R ésumé À la question : comment définir et repérer dans un univers approché et allusif (la langue) des fonctionnements suffisamment rigoureux pour se prêter à une modélisation et à un traitement informatique ? Nous répondons en nous situant sur trois domaines: la linguistique, l´informatique et les formalismes. La linguistique limitée à des corpus définis est constituée des ‹ discours › qui sont produits dans des conditions homogènes. Ainsi, la langue doit obéir à une matérialité à travers des règles de fonctionnement explicites et pré-établies. C´est à partir d´une ‹ analyse › ou ‹ reconnaissance › qui| se réalise le passage (automatique) de textes à une représentation formelle exploitable par des applications. L’opération inverse, production de textes par un ordinateur, est la ‹ génération › (ou synthèse). Nous avons quatre niveaux conceptuels d’analyse : morphologie, syntaxe, sémantique et pragmatique. Ces niveaux ont pour effet d’exploiter de traces du fonctionnement linguistique, pour arriver à une structure abstraite, reposée sur des théories linguistiques respectant la langue analysée. Les notions de la théorie doivent être susceptibles d’une formalisation ultérieure dans un cadre formel permettant l’automatisation du processus (analyse). Mais, c´est l´unité de langage (dépendance à l’intérieur des propositions) qui peut être construite et interprétée de façon satisfaisante, pour être la base de nombreuses applications. Les analyseurs transforment ensuite chaque proposition en un ‹ énoncé ›, unité complètement formalisée. La syntaxe qui suit est une ‹ syntaxe de constituants ›, destinée à repérer les liens syntagmatiques entre les constituants et à les interpréter dans une logique de syntagmes ‹ à la Chomsky ›. Les choix de la sémantique et de la pragmatique doivent nous conduire aux connaissances véhiculées par le corpus et doivent reposer sur des règles objectives et d´application rigoureuse. Ainsi même, l’emploi d’un système informatique suppose que le processus d’analyse automatique soit réalisé par des algorithmes fiables et les plus performants possible. Ce système est issu donc de l´analyse conçue comme un tout cohérent, intégrant le linguistique, le formel et l’algorithmique. Mots clés : traitement automatique du langage, informatique linguistique, communication homme-machine. 1 Professeur émérite de la Université de Grenoble. De la langue a l’informatique [...] - Jacques Rouault Introduction Nous présentons ici un ensemble de réflexions nées d’une longue pratique de ce que l’on nomme classiquement le ‹ Traitement automatique du langage › (TAL, en abrégé). Malgré cet ancrage ‹ expérimental ›, nous tentons ici de dégager un certain nombre de principes méthodologiques qui, mis ensemble, assurent le moins mal possible le succès du passage d’un texte à une représentation informatique utilisable dans des applications comme la recherche d’information ou la communication homme-machine. Dans une telle perspective, trois disciplines sont concernées : d’abord, évidemment, la linguistique et l’informatique (théorique). Mais l’utilisation de modèles impose le recours à des formalismes relevant surtout de la logique, voire des mathématiques. Du point de vue informatique, la conception d’un logiciel est évidemment fonction du domaine d’application. Ici, il faut insister sur le fait que c’est la langue qui est concernée ; donc un domaine très spécifique où les décisions ne peuvent être que le résultat de traitements finement adaptés. Le premier stade de réflexion est donc de refuser a priori l’utilisation d’algorithmes conçus pour des domaines aux caractéristiques formelles affirmées, comme les bases de données, la théorie des langages formels, etc. A l’opposé, il n’est pas question de réinventer l’informatique et l’algorithmique : de nombreuses méthodes y existent, qui peuvent nous apporter la solution à certains des problèmes posés en TAL : le but de cet article est de monter comment on peut rapprocher la linguistique et l’informatique en rendant opérationnelles certains théories linguistiques et en concevant des traitement informatiques adaptés. Autrement dit, comment définir et repérer dans un univers approché et allusif (la langue) des fonctionnements suffisamment rigoureux pour se prêter à une modélisation et à un traitement informatique. C’est de ce passage d’un objet non formalisé a priori à un traitement résolument formel dont il est question ici. Nous insistons sur les nombreuses et diverses étapes que doit subir un texte avant de pouvoir être analysé et que le résultat soit employé dans des applications ‹ informatisées ›. L a linguistique Du point de vue de la langue, deux questions se posent : 1.Qu’analysons-nous ? [176] Revista Colombiana de Filosofía de la Ciencia • Vol. X ∙ No. 20 - 21 • 2010 • Págs. 175-187 2.Sur quelles théories linguistiques s’appuyer pour assurer notre démarche ? L angue et discours La réponse à la première question nécessite dès le départ une prise de position méthodologique liée à la faisabilité de l’entreprise. En effet, il n’est pas question de penser à des analyseurs ayant pour objet une langue dans son entier. Car la langue est un ensemble potentiellement infini ; or, on sait que l’on ne peut extraire un échantillon représentatif d’un tel ensemble, échantillon nécessaire pour construire les dictionnaires et grammaires : Pour les dictionnaires, par exemple, le nombre de lexèmes différents augmente régulièrement à mesure que l’on accroît la portion de langue dont on veut rendre compte : on voit apparaître inexorablement de nouveaux lexèmes (ce ne sont pas les seules fréquences des lexèmes déjà rencontrés qui augmentent). Ceci, de nouveau, nécessite deux hypothèses de travail : 1a – Introduire la finitude de l’univers de travail : on se limitera à des corpus définis et délimités, au moins théoriquement. 1b – Chaque corpus sera supposé bénéficier de conditions de production homogènes. Ce dernier point signifie que le corpus, au lieu d’être supposé formé de textes réunis un peu au hasard, est constitué de discours, produits dans des conditions supposées homogène. Cette homogénéité est à prendre au sens de M. Pecheux (1969). On ne peut évidemment la réaliser théoriquement : c’est le choix des corpus qui assure en fait une certaine homogénéité, que l’on considère comme une manifestation satisfaisante de conditions de production homogènes. En résumé, on introduit à la fois la finitude de l’univers à représenter (corpus) et la régularité des phénomènes linguistiques qui y sont représentés (discours). M atérialité de la langue Une tentation constante de la linguistique théorique est de poser des ‹ concepts › issus à la fois de l’intuition et des positions théoriques du linguiste et de ‹ forcer › le fonctionnement de la langue à obéir à ces règles pré-établies. Par conviction et par opportunisme nous sommes attachés à la reconnaissance [177] De la langue a l’informatique [...] - Jacques Rouault de la matérialité de la langue, laquelle doit guider le travail du linguiste pour produire des concepts adaptés réellement à la langue étudiée. Et ce travail passe aussi par l’étude d’autres langues. Autrement dit, c’est la découverte, à travers des langues de règles de fonctionnement explicites et rigoureusement exploitées qui va guider la démarche (Culioli 1990). Théories linguistiques La première tentation, lorsque l’on veut traiter des textes sur ordinateur est de rester au niveau de la surface linguistique. Ainsi, la ‹ linguistique des textes › tente, au moins en partie, d’échapper à toute analyse relativement sérieuse au prétexte que toute ‹ préparation › un peu sérieuse du texte dénature la langue. Les limites de telles tentatives sont évidentes : on met ensemble des choses qui n’ont pas de rapport entre elles (homographies, par exemple) et on consomme beaucoup d’énergie pour mettre en évidence des propriétés qu’un analyse linguistique relativement légère ferait apparaître de façon plus simple et plus fiable (recherche de co-occurrences, par exemple). Autrement dit, en paraphrasant Culioli (1990) il n’y a pas de structure à fleur de langue. La mise en évidence de la façon dont un texte est bâti passe nécessairement pour nous par une analyse linguistique la plus rigoureuse possible. Le recours à des théories linguistiques s’impose ainsi naturellement. Et les choix des théories linguistiques est essentiel pour la suite : désirant nous éloigner de la surface, les théories candidates relèvent de la linguistique théorique et doivent assurer un certain degré de rigueur et de généralité Si ceci peut être réalisé sans trop de problèmes en morphologie et syntaxe, la sémantique et la pragmatique posent de redoutables problèmes. D’abord, les domaines et les finalités de la sémantique et de la pragmatique sont très divers et aucun consensus ne se dégage sur ces points. Une des théories les plus prisées du TAL touche aux règles fondées sur des ‹ primitives sémantiques › dont le choix est toujours fort obscur. Et surtout, ce choix pose des problèmes de généralisation insolubles car un choix de primitives fait à partir d’un corpus ne s’adaptera pas à ses extensions. Ceci pour la simple raison que ces primitives ont été choisies sans lignes directrices ni logique sous-jacente. L’attachement à la linguistique va nous orienter vers une voie complètement différente : nous le verrons dans la suite. Ici, le point crucial est que les notions de la théorie doivent être susceptibles d’une formalisation ultérieure dans un cadre formel permettant l’automatisation du processus (analyse). Si, de plus, on impose que les concepts linguistiques [178] Revista Colombiana de Filosofía de la Ciencia • Vol. X ∙ No. 20 - 21 • 2010 • Págs. 175-187 d’une théorie concernent à la fois la ‹ morphologie ›, la ‹ syntaxe ›, la ‹ sémantique › et la ‹ pragmatique ›, on constate qu’aucune théorie linguistique ne peut répondre à notre propos. Il est donc indispensable de fractionner le traitement. On devra recourir à un enchaînement de niveaux, chacun reposant sur une théorie linguistique propre. Le problème devient double : quelles théories linguistiques choisir, à la fois susceptible d’un traitement informatique et articulée de façon relativement simple avec les autres niveaux ? A daptation des théories linguistiques Même ainsi posé, le choix d’une théorie linguistique apparemment adéquate n’est pas achevé : chaque théorie doit être adaptée aux contraintes du traitement formel et algorithmique, donc de pouvoir se traduire par des règles et des dictionnaires maîtrisables. Ceci peut se faire de plusieurs manières : nous en donnons des exemples ci-après. 1.Adopter des classifications majeures sous-tendues par des critères rigoureux et adaptées à la ‹ finesse › de l’analyse. Un exemple simple est celui des catégories lexicales : dans les grammaires du français, à côté de classes apparemment acceptées comme ‹ verbe ›, ‹ article › ou ‹ nom ›. on trouve des classes complètement ad hoc comme ‹ l’article contracté ›. En Tal un système de catégories acceptables suppose trois choses : • Éliminer les catégories bâtardes comme les ‹ article contracté ›, qui ressortissent de deux phénomènes distincts. • Adopter des critères clairement définis régissant l’appartenance à une classe. Ici les critères peuvent être la possibilité d’admettre certaines flexions : ainsi le verbe est la seule catégorie à admettre les flexions de conjugaison. Dans le complémentaire on disposera d’autres règles pour individualiser, par exemple les ‹ noms-adjectifs › des autres fonctionnements. • Se limiter à un nombre restreint de catégories : celles qui sont à la fois définies rigoureusement et dont le repérage direct en surface ne peut être confondu avec d’autres. Ainsi, il est illusoire de vouloir, dès la morphologie, distinguer en français entre adjectif et nom. Seule la syntaxe peut en décider. [179] De la langue a l’informatique [...] - Jacques Rouault 2.Simplifier des règles que l’usage des grammaires a figées dans une complexité superflues. Un exemple simple est celui du pluriel des nominaux en français. La règle de base est que les noms et adjectifs font leur pluriel en ajoutant ‹ s › à la base. Cette règle est opérationnelle mais suppose le traitement des exceptions. Un exemple en est le couple ‹ journal / journaux ›. Plutôt que de créer une nouvelle règle (pluriel en ‹ -aux ›), on ne fera pas figurer dans le dictionnaire des formes la suite de lettre ‹ j_o_u_r_n_a_u_x ›, imposant ainsi un échec de l’analyse. Lequel renverra à une règle de régularisation consistant à remplacer la flexion ‹ -aux › par la flexion ‹ -als ›, ce qui donne la forme modifiée ‹ j_o_u_r_n_a_l_s ›, qui est analysable correctement par le cas général. L’ensemble des exceptions au pluriel en français se traite ainsi par quelques règles simples de régularisation, sans que ceci entraine des erreurs prohibitives d’analyse. 3.Rendre opérationnelles des classifications intuitives. La plupart des grammaires habituelles du français (mais on rencontre sans doute la même chose pour d’autres langues), séparent les verbes en verbes d’état et verbes d’action. Un verbe d’action étant un verbe qui ... décrit une action ! Une telle circularité ne conduit évidemment pas à une classification des verbes. Pour la rendre opérationnelle il faut disposer d’un critère divisant la classe des verbes : pour l’anglais, la forme progressive ventile les verbes suivant la possibilité ou non d’admettre cette construction. On oppose ainsi ‹ to know › (impossibilité) à ‹ to work › (possibilité). Il est alors facile d’utiliser en français le critère ‹ être en train de... › : lorsqu’il s’applique, on a affaire à un ‹ processus › (‹ verbe d’action ›, exemples ‹ marcher, donner, dormir ›) et lorsqu’il ne s’applique pas on posera que l’on a affaire à un ‹ état › (exemple : ‹ savoir ›). Et si les résultats ne coïncident pas avec l’intuition des grammairiens, ce n’est pas grave car nous restons dans notre système formel qui, lui, est cohérent. 4.Rendre opérationnelles ces classifications en rapportant les règles à des séquences linguistiques ‹ canoniques ›. Par exemple, la classification citée ci-dessus en verbes d’états et processus ne devient réellement opérationnelle que si on applique les règles à des ‹ énoncés canoniques ›. Compte tenu des variations énonciatives, la possibilité ou impossibilité pour un verbe d’accepter la construction ‹ être en train de .. › peut varier avec les arguments du verbe. On considérera donc que ce critère n’est crédible que si on l’applique à une séquence dont le sujet est pourvu du trait ‹ humain › et le verbe est au présent de l’indicatif. Ainsi, et contraire- [180] Revista Colombiana de Filosofía de la Ciencia • Vol. X ∙ No. 20 - 21 • 2010 • Págs. 175-187 ment à une vue intuitive des verbes, on considérera que ‹ dormir › est un processus car on accepte ‹ Pierre est en train de dormir ›. L’analyse On convient d’appeler ‹ analyse › ou ‹ reconnaissance › le passage (automatique) de textes à une représentation formelle exploitable par des applications. L’opération inverse, production de textes par un ordinateur, est la ‹ génération › (ou synthèse) Pour de nombreuses raisons, la génération n’est pas l’opération duale de la reconnaissance. Les niveaux conceptuels d’analyse La démarche générale de l’analyse automatique a mis du temps à se construire : dans les premiers programmes, forcément rudimentaires, de traduction automatique les différentes opérations d’analyse n’étaient pas délimitées. C’est la contrainte d’une meilleure prise en compte de la langue elle-même qui a conduit les chercheurs à scinder la procédure d’analyse en différents niveaux, que nous appelons ‹ niveaux contextuels ›. Actuellement, la communauté du TAL est à peu près d’accord sur la nécessité de quatre niveaux conceptuels d’analyse : morphologie, syntaxe, sémantique et pragmatique. Ces niveaux ont pour effet d’exploiter de plus en plus de traces du fonctionnement linguistique, pour arriver à une structure abstraite. Mais, comme nous l’avons signalé plus haut ces analyses successives doivent reposer sur des théories linguistiques respectant la langue analysée. L’unité d’analyse L’analyse d’un discours, ou d’un corpus, se fait du début à la fin. Mais on sait que chaque discours est constitué de phrases et chaque phrase de propositions. Vouloir analyser un corpus entier en mettant en évidence les liens entre phrases et entre propositions est une tâche qui paraît dépasser les possibilités actuelles du TAL. En effet, si, à l’intérieur d’une proposition, les constituants sont généralement structurés par la dépendance fonctionnelle, le liens entre propositions et entre phrases résultent de phénomènes autres, comme l’anaphore ou les connecteurs inter-propositionnels. Dans l’état actuel de notre travail, seule la structure de dépendance à l’intérieur des propositions peut être construite et interprétée de façon satisfaisante. Nos analyses se restreindront donc à la proposition et nous considérons que, en première approximation, ces propositions sont les traces d’‹ énoncés élémentaires ›, lesquels sont supposés être une unité suffisamment grande pour être la base de nombreuses applications. [181] De la langue a l’informatique [...] - Jacques Rouault L a morpho-syntaxe et les solutions multiples Après quelques procédures de régularisation de phénomènes parasites de la langue, la morphologie a pour but de décomposer chaque forme du texte en un couple ‹ base+flexion › ; par exemple ‹ chantent › en ‹ chant+ent ›. Ceci permet, moyennant le recours à un dictionnaire des bases et des flexions, d’interpréter les flexions en des marques de nombre, genre, temps et mode. Apparaît aussitôt le problème central de l’analyse automatique ; en effet chaque forme d’un discours peut être susceptibles de plusieurs analyses différentes. Un exemple classique est la suite de lettres ‹ c_o_u_v_e_n_t › qui peut s’interpréter comme ‹ nom+masculin+singulier › ou comme ‹ verbe+présent+(indicatif ou subjonctif) ›. Comme un discours est une suite de formes interprétées, les solutions se multiplient : ainsi la séquence textuelle ‹ ils le lui couvent › est susceptible de plusieurs interprétations dont la plupart sont parasites lorsque la séquence est insérée dans un discours donné. Ce problème des solutions multiples n’admet pas de solution unique satisfaisante. A notre connaissance, il y a au moins trois types de solutions possibles : 1.L’utilisation de procédures linguistiques ; en français, tout au moins, on constate l’impossibilité de succession de certaines catégories ; par exemple, un ‹ déterminant › (article) ne peut être suivi d’un verbe. Malheureusement, les règles ainsi dégagées sont en nombre réduit et ne résolvent que certains problèmes. 2.L’utilisation de procédures statistiques : dans le cas de la morphologie on va étudier un échantillon représentatif du corpus du point de vue des catégories morphologiques. On repérera, par exemple, les couples de catégories consécutives (par exemple ‹ déterminant+nom ›) significativement présents dans le corpus. Lors de l’analyse du corpus entier les solutions contenant ces couples seront privilégiés par rapport aux autres. Le traitement statistique ainsi mis en œuvre est à la fois relativement simple (chaînes de Markov) et délicat à interpréter. 3.L’utilisation d’une architecture informatique adaptée à l’analyse : voir plus bas. Cette analyse de chaque discours en une suite de catégories lexicales permet, moyennant un algorithme adéquat, de marquer les frontières de propositions et, par là, de ramener l’analyse d’un discours à celles de la suite de propositions ainsi délimitées et supposées indépendantes pour la suite de l’analyse. Les analyseurs successifs vont ensuite transformer chaque proposition en un énoncé, [182] Revista Colombiana de Filosofía de la Ciencia • Vol. X ∙ No. 20 - 21 • 2010 • Págs. 175-187 unité complètement formalisée. L’abandon fait ici de la recherche des liens interpropositionnels n’est pas une impasse méthodologique ; les travaux que nous poursuivons autorisent à penser que ces indications supplémentaires peuvent être intégrées au système sans compromettre les résultats fondamentaux. La syntaxe qui suit est une syntaxe de constituants, destinée à repérer les liens syntagmatiques entre les constituants et à les interpréter dans une logique de syntagmes ‹ à la Chomsky ›. Comme on se limite à la structure des propositions, seule celles-ci seront décrites par des ensembles de règles. Autrement dit, on décrira, outre la proposition, le syntagme verbal et le syntagme nominal. En même temps, un dictionnaire syntaxique des constructions possibles des verbes, permet d’étiqueter, sur la structure de la proposition, les liens entre le centre verbal et les syntagmes nominaux qui en constituent les actants (au sens de Tesnière (1966). On a obtenu ainsi des structures arborescentes combinant les constituants mis en jeu et des indications de fonctions syntaxiques ; dans ces structures figurent aussi des indications liées à l’énonciation comme la nature des déterminants, les temps du verbe, etc. L a sémantique et la pragmatique C’est ici que se pose le plus redoutable problème des fondements linguistiques de l’analyse : les choix de la sémantique et de la pragmatique. Pour au moins deux types de raisons : 1.Ces théories doivent nous conduire à une représentation des énoncés suffisamment dégagée de la surface pour pouvoir être utilisée dans des applications relatives non au corpus lui-même, mais aux connaissances véhiculées par celui-ci. 2.Ces théories doivent reposer sur des règles ayant les caractéristiques que nous avons soulignées précédemment : critères le plus objectifs possible et application rigoureuse. Nous ne pouvons, dans le cadre restreint d’un article, passer en revue les différentes théories possibles, ni les raisons qui nous ont fait les abandonner. Signalons simplement que les théorie des ‹ primitives sémantiques › (sous une forme ou sous une autre) bute toujours sur le choix de ces primitives et que cet obstacle nous paraît insurmontable, entre autres parce que ces primitives sont forcément choisies sur une part restreinte d’un corpus, en faisant le pari que ça marchera encore lorsque le corpus grossira peu à peu. Cette démarche idéaliste (à tous les sens du mot) ne fonctionne pas plus en pratique qu’en théorie. [183] De la langue a l’informatique [...] - Jacques Rouault La seule façon de progresser ici est de respecter la matérialité de la langue et de se limiter à une sémantique et une pragmatique linguistiques. En sémantique on se limitera aux phénomènes d’énonciation ; on recherchera si un énoncé décrit un état ou un processus en scindant cette dernière classe en processus menant au résultat (processus résultatifs ; exemple ‹ hier, j’ai cuit le pain › , d’où ‹ le pais est cuit (c’est fait) ›) ou ne faisant pas référence au résultat (exemple ‹ j’ai aidé le voisin › - pas de résultat). On associera ceci à des valeurs de causalité, d’individu, de classe, de situation ou de propriété. Ces fonctionnements sont repérés dans le discours par les marques d’énonciation portées par le verbe, les déterminants ou les circonstants. La pragmatique conduit à la représentation finale des fonctionnements collectés tout au long de l’analyse : on y représente les connaissances que le texte véhicule, mais à l’aide des seuls indicateurs extraits du corpus par des procédures linguistiques. Ces connaissances sont de plusieurs types : • Connaissances liées à la validité des énoncés, ce qui renvoie au certain, probable, etc. • Généralité vs. Spécificité et classe vs. Individu. • Structure prédicative de l’énoncé et rôle des arguments associés. • Indication qu’il s’agit d’un état, d’un processus. • Indications énonciatives : temps, aspect, etc. Les représentations des énoncés d’un discours ou d’un corpus sont les constituants d’une base de connaissances structurée sous forme d’un graphe ; en effet, même à ce niveau, le repérage de certaines anaphores, les liens simples d’énonciation permettent de relier certains énoncés entre eux. C’est cette représentation des connaissances que le processus abouti d’analyse met à la disposition des applications comme la recherche d’information ou la communication homme/machine. Formalismes, algorithmes et architecture Les considérations précédentes sont centrées sur l’aspect linguistique de l’analyse automatique de corpus. Nous avons insisté sur le fractionnement du problème et le nécessaire façonnage des théories linguistiques pour qu’elles puissent être employées avec succès. [184] Revista Colombiana de Filosofía de la Ciencia • Vol. X ∙ No. 20 - 21 • 2010 • Págs. 175-187 Il nous reste à parler de l’aspect plus technique du processus d’analyse ; non pour égarer le lecteur dans des arcanes formels mais pour montrer pourquoi nous avons employé des chemins relativement détournés. Or l’emploi d’un système informatique pour résoudre ces problèmes suppose que le processus d’analyse automatique soit réalisé par des algorithmes fiables et les plus performants possible. Et il faut alors que le processus d’analyse soit conçu comme un tout cohérent, intégrant le linguistique, le formel et l’algorithmique. Autrement dit, comment la démarche que l’on vient d’exposer s’intègre-t-elle dans une conception informatique fiable ? Les niveaux conceptuels L’analyseur est construit suivant les niveaux conceptuels présentés dans le paragraphe précédent, de sorte que chaque niveau est pris en compte par un formalisme et une algorithmique qui lui est propre. • Niveau (conceptuel) de la morphologie : ici la simplicité de l’analyse linguistique autorise l’emploi d’un modèle de type 3 de Chomsky ; autrement dit on mettra en œuvre un automate fini. • Niveau de la syntaxe : moyennant quelques régularisations préalables (par exemple pour traiter les constituant discontinu ‹ ne ... pas ›) on utilise ici le modèle de type 2 de Chomsky, réalisé par un analyseur syntaxique ‹ hors contexte ›, assorti de procédures complémentaires pour étiqueter les fonctions syntaxiques associées à un verbe. • Niveaux sémantique et pragmatique : ici les traitements sont relativement légers et ne nécessitent pas le recours à des algorithmes très performants. Comme l’ensemble du système est écrit dans le langage PROLOG, nous avons simplement utilisé les facilités offertes par ce langage de haut niveau pour réaliser les traitements nécessaires. Les lexiques Pour travailler, les analyseurs des différents niveaux ont besoin de données: les règles et les dictionnaires. Deux dictionnaires sont de tailles conséquentes : celui de la morphologie stocke les flexions (conjugaison, genre et nombre) et les ‹ bases › - produits du découpage d’une forme de surface lorsqu’on a enlevé les flexions. Le dictionnaire des verbes contient les schémas syntaxiques qu’un verbe peut admettre. Ces dictionnaires sont pris en compte en général par un système de gestion de base de données (SGBD) comme Postgresql. [185] De la langue a l’informatique [...] - Jacques Rouault L’architecture du système Nous avons évoqué plus haut le problème central de l’analyse : celui des solutions multiples et nous avons explicité deux méthodes de résolution. Cependant, la solution évidente pour obtenir le moins possible de solutions parasites est de ne pas les créer. Or, on constate que dans les séquences textuelles, certains marquants jouent le rôle d’indicateurs de structures : dans une séquence comme ‹ je le lui dis ›, les formes ‹ le › et ‹ lui › admettent chacune deux solutions, ce qui fait quatre solutions possibles pour la séquence, sans compter les analyses multiples dues à la forme verbale. Le point décisif est ici que ‹ je › ne peut fonctionner que comme particule pré-verbale (ppv); comme une ppv ne peut être suivie que par une autre ppv ou un verbe, la forme ‹ le › est obligatoirement ppv (elle ne peut être verbe) et, par le même raisonnement, ‹ lui › est ppv (et non pronom). Mais la méthode précédente suppose que, depuis la morphologie, on puisse faire appel à des considérations syntaxiques puis revenir à la suite de l’analyse morphologique. De façon générale, ceci nous fait quitter l’ordonnancement bien réglé des niveaux conceptuels, tel que nous l’avons défini plus haut pour entrer dans une architecture informatique dite ‹ multi-agents ›, adaptée précisément à ce type de problème. Le principe de fonctionnement est le suivant : chaque niveau conceptuel, au lieu de faire appel systématiquement au niveau supérieur une fois que son traitement est fait, peut, à chaque moment où il rencontre un indicateur de structure, envoyer un message aux autres niveaux en leur signalant le problème, à charge pour le niveau qui s’estime concerné, de fournir une analyse partielle permettant au niveau appelant de poursuivre son travail. Conclusion Les considérations précédentes ont d’abord un but méthodologique : il s’agissait de montrer à travers un exemple réel et relativement complexe : 1.Que le traitement automatique du langage ne peut se faire directement par des considérations empiriques sur la surface textuelle. 2.Que l’analyse ne peut se faire, en fait, que sur des corpus homogènes et supposés finis (et constitués de discours). 3.Que la linguistique nous fournit un cadre plus ou moins bien adapté ; et qu’il est nécessaire de compléter les théories linguistiques adoptées en leur associant critères et règles formels. [186] Revista Colombiana de Filosofía de la Ciencia • Vol. X ∙ No. 20 - 21 • 2010 • Págs. 175-187 4.Que l’analyse d’un corpus nécessite le recours à différents niveaux d’analyse, faute de disposer d’une théorie adéquate. 5.Que le traitement informatique suppose le recours à des formalismes bien définis, à partir desquels l’algorithmique s’impose. 6.Que l’architecture multi-agents permet de répondre à une question fondamentale du TAL, à savoir chercher la bonne solution au bon moment de l’analyse grâce au niveau conceptuel adéquat. Bibliographie Aho A. V., Ullman J. D. The theory of parsing, translation and compiling.Vol. 1:Parsing. Englewood Cliffs: Prentice-Hall, 1972. Culioli, A. Pour une linguistique de l’ énonciation. Opérations et représentations, T. 1. Paris: Ophrys, coll. HDL, 1990. Fuchs C. Contribution préliminaire à une grammaire de reconnaissance du français. Thèse de 3e cycle – Université Paris 7, 1971. Fuchs C., Léonard A.M. Vers une théorie des aspects. Paris: Mouton, 1979. Kintsch, W. & van Dijk, T.A. Towards a model of text comprehension and production. Psychological review, 85(1978) 363-394. Kintsch, W. The role of knowledge in discourse comprehension construction-integration model..En Psychological review.95.5 (1988) 163-182. Pêcheux, Michel. Analyse automatique du discours. Paris : Dunod, 1969. Rouault J. & Manes-Gallo M. C. Intelligence linguistique. Le calcul du sens des énoncés élémentaires. Paris: Hermès, 2003. Stéfanini, M.H. Talisman: une architecture multi-agents pour une analyse du français écrit. Thèse Grenoble 2, 1993. Tesnière, L. Eléments de syntaxe structurale. Klinksieck, 1966. [187]