Pour un travail épistémologique sur le TAL

Transcription

Pour un travail épistémologique sur le TAL
Pour un travail épistémologique sur le TAL
Marcel Cori* — Sophie David* — Jacqueline Léon**
* Laboratoire Modèles, Dynamiques, Corpus
CNRS/Université Paris X
Bâtiment L
200, avenue de la République
F-92001 Nanterre cedex
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
(mcori,sodavid)@u-paris10.fr
** Laboratoire d’Histoire des Théories Linguistiques
UMR 7597 CNRS
Université Paris VII
ENS Lettres et Sciences Humaines
Case 7034
2, place Jussieu
F-75251 Paris cedex 05
[email protected]
RÉSUMÉ. Dans l’introduction du numéro, les auteurs proposent un état des lieux des travaux
réflexifs ou épistémologiques sur le TAL, présentent les articles du thème en soulignant leurs
convergences et indiquent plusieurs questions non encore traitées mais essentielles pour la
poursuite d'une réflexion épistémologique.
ABSTRACT. In the introduction to the issue, the authors report on various developments
concerning the reflexive or epistemological works on Natural Language Processing. They
present the papers dealing with the topic and insist on their convergences. They indicate the
questions which have not been dealt with yet, but which are crucial for the continuation of an
epistemological reflexion.
MOTS-CLÉS : TAL, TA, histoire, épistémologie, évaluation, linguistique de corpus, linguistique
formelle.
KEYWORDS: Natural Language Processing, Machine Translation, History, Epistemology,
Evaluation, Corpus Linguistics, Formal Linguistics.
TAL. Volume 43 – n° 3/2002, pages 7 à 20
8
TAL. Volume 43 – n° 3/2002
1. Pourquoi un travail sur l’épistémologie du TAL ?
Il nous a paru important de lancer un travail de réflexion sur l’épistémologie du
TAL, et ce pour des raisons de deux ordres différents.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Tout d’abord parce que le domaine, relativement jeune, peine à se définir et à se
donner des délimitations. Les désaccords sur ce qu’il couvre sont nombreux. Les
positionnements par rapport aux théories linguistiques apparaissent divers, voire
contradictoires. Parce que les méthodes qui y ont cours sont sujettes à controverse.
Ensuite parce que la réflexion épistémologique déjà engagée sur le domaine
(cf. section 2) montre peu de systématicité. Peu de systématicité du côté des champs
couverts, que l’on peut relier aux désaccords sur l’extension du TAL, aux objets et
aux méthodes qu’il a privilégiés, différents selon les périodes ; mais aussi du côté
des acteurs qui l’ont menée, en étant partie prenante ou non du domaine. Dans le
même temps, le contenu de cette réflexion n’a pas fait émerger de lignes directrices,
elle a plutôt mis en avant des positionnements divergents et des tensions. Les lieux
de visibilité (communications et publications) sont restés, quant à eux, faiblement
organisés (excepté dans le domaine de l’évaluation de logiciels, mais c’est tout
récent). Si finalement, sur la cinquantaine d’années passées, l’existence même de
ces travaux montre que la réflexion ne s’est jamais interrompue, elle est d’abord à
mettre au compte du domaine de la traduction automatique (TA), où des
rétrospectives critiques ont été régulièrement produites. On pense notamment à la
rétrospective de Josselson (1971) qui se voulait une suite du rapport Bar-Hillel
(1960), à l’introduction des numéros spéciaux de Computational Linguistics
consacrés à la TA (Slocum, 1985), aux travaux historiques d’Hutchins (1986, 2000),
enfin à la rétrospective historique contenue dans le chapitre 2 de Newton (1992).
En dehors de la TA, on peut mentionner l’introduction du numéro spécial de
Computational Linguistics consacré aux grands corpus (Church et Mercer, 1993), et
celle du numéro spécial consacré à la désambiguïsation lexicale dirigé par N. Ide et
J. Véronis (1998). On rappellera également la démarche initiée par le numéro
spécial de la revue (TAL, 1992, vol. 33, n° 1-2), consacré au trentenaire de
l’ATALA et de la revue.
La réflexion apparaît ainsi lacunaire. Par contraste, d’autres domaines connexes
se sont attachés à s’interroger plus ou moins périodiquement sur leurs fondements, à
faire des bilans. Ainsi, la revue Brain and Language a publié un numéro spécial
(vol. 69, 1, août 1999) consacré à des essais sur l’histoire de la neurolinguistique. La
revue Artificial Intelligence a publié des numéros spéciaux consacrés aux
fondements du domaine (vol. 47, 1-3, 1991), à son histoire (vol. 103, 1-2, 1998) et à
son épistémologie (cf. l’article de Simon, 1995). Enfin, dans les revues spécialisées
dans la cognition, on trouve de très nombreux articles centrés sur les problèmes
théoriques et épistémologiques, insufflés par les nombreux philosophes engagés
dans le domaine.
Présentation
9
Dans cette présentation du numéro, nous effectuons tout d’abord un
recensement, par thèmes, des différents travaux antérieurs que l’on peut rattacher à
l’épistémologie du TAL (section 2). Nous introduisons ensuite chaque article
relevant du thème du numéro (section 3). En guise de conclusion (section 4), nous
indiquons différents aspects qui ne sont pas abordés dans les contributions et qui
permettraient de poursuivre cette première réflexion.
2. Les réflexions antérieures
Parmi les travaux antérieurs, on peut distinguer plusieurs catégories de recherches.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
2.1. Sur l’épistémologie du TAL
Un certain nombre de travaux traitent explicitement de l’épistémologie du TAL.
On pourrait leur adjoindre les nombreux ouvrages et articles concernant
l’épistémologie de l’Intelligence artificielle qui, mettant plus directement en jeu la
question de la simulation par ordinateur des activités intelligentes humaines, a
suscité davantage de réflexions épistémologiques que le TAL (en témoignent, ne
serait-ce que pour la France, les articles publiés dans la revue Intellectica).
Pour le TAL proprement dit, on peut citer les travaux suivants :
– T. Winograd (1983) propose, dans une perspective kuhnienne, une définition
d’un « paradigme computationnel ».
– R. Penrose (1989), dans les chapitres 2 et 3 de son ouvrage, montre que
l’apparition des premiers calculateurs a rendu sinon vérifiable du moins
expérimentable l’hypothèse de la calculabilité du langage.
– Pour S. Auroux (1994 et 1996), la mécanisation du langage constitue la troisième
révolution technologique du langage, après la révolution de l’écriture et la révolution
de la grammatisation des vernaculaires. La révolution techno-linguistique de
l’automatisation pose un certain nombre de questions. Contrairement aux outils
linguistiques, tels que les dictionnaires et les grammaires issus de la grammatisation
des vernaculaires, qui restent des outils externes, la mécanisation du langage constitue
une véritable extension artificielle de l’intelligence humaine, dont les conséquences
sont à l’heure actuelle difficiles à mesurer. On peut aussi se demander si elle implique
ou non une révolution théorique de nos conceptions du langage humain. Par ailleurs,
S. Auroux (1998) examine l’hypothèse consistant à considérer les langues naturelles
comme des langages formels, et ses conséquences sur leur traitement automatique.
2.2. Réflexions épistémologiques sur la traduction automatique
Dès les débuts de la traduction automatique, des réflexions épistémologiques ont
été menées.
10
TAL. Volume 43 – n° 3/2002
Le Memorandum de W. Weaver, paru en 1949, aborde un certain nombre de
points qui demeureront cruciaux pour le traitement automatique des langues et la
formalisation du langage : la signification multiple et les ambiguïtés qui restent,
pour le TAL, un problème posé de façon indépendante ; les bases logiques du
langage et la possibilité de langues universelles ou de grammaires universelles ;
l’application des méthodes probabilistes au langage.
Le rapport de Y. Bar-Hillel (1960) et l’ouvrage de M. Taube (1961) sont plus
orientés sur les grands problèmes de la traduction automatisée. Travaux auxquels on
peut associer les textes philosophiques sur l’indétermination de la traduction :
W.V. O. Quine (1959) et le commentaire de T. Marchaisse (1991).
2.3. Réflexions sur le rapport entre théories linguistiques et TAL
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
La réflexion sur le rapport entre formalisation, théorie linguistique et TAL
débute dès 1951 avec Bar-Hillel qui se prononce pour la nécessité de développer une
syntaxe opérationnelle pour la TA, et avec les auteurs des premiers modèles
sémantiques en URSS et en Grande-Bretagne.
Sur la formalisation en TA, on peut citer les articles pionniers de Y. Bar-Hillel
(1953a et 1953b), M. Kay (1959), M. Gross (1964) et le rapport de l’ALPAC
(1966).
Par la suite, les réflexions se sont dégagées du cadre de la TA. Sur les rapports
entre informatisation et formalisation, signalons les travaux de Bestougeff et Desclés
(1976), Culioli et Desclés (1979). Le numéro de la revue TAL, 34-1, 1993, comporte
une réflexion sur les interférences entre analyse syntaxique automatique et théories
linguistiques, en particulier les articles de J.-M. Marandin et de E. Ejerhed.
Pour une réflexion théorique sur les rapports entre sémantique, théorie lexicale et
extraction de connaissances de dictionnaires, on peut consulter l’ouvrage de
Y. Wilks et al. (1996) qui comprend une importante rétrospective historique.
Des travaux en histoire des théories linguistiques ont porté sur les modèles
sémantiques de langues intermédiaires mis au point en URSS et en Grande-Bretagne
par les chercheurs en TA dans les années 1950 (Archaimbault et Léon, 1997 ;
Léon 2000). D’autres ont porté sur la conception linguistique des premiers outils
pour la TA (Léon, 1999).
Enfin, un numéro récent de la revue Histoire Epistémologie Langages, (n° 23-1,
2001) est consacré à certains problèmes épistémologiques posés par le TAL, en
particulier l’impact de l’automatisation sur la conception de certaines catégories
linguistiques, et le rapport entre informatique théorique et linguistique théorique.
Présentation
11
2.4. Rapports entre TAL et Intelligence artificielle
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Bien que la traduction automatique fût très tôt considérée comme une « machine
à penser », apparentée à un modèle d’IA faible par les cybernéticiens (Shannon,
1950 ; Shannon et Weaver, 1948), la conception de Weaver (1949) est loin de
reposer sur une hypothèse de simulation du processus humain de traduction. De
même, le terme de « machine à traduire », utilisé dans les premiers temps par
l’ensemble des expérimentateurs de TA, n’a jamais fait référence à une machine
intelligente capable de traduction (cf. Léon, 1997). Ce n’est que dans les années
1970 qu’est apparu le domaine spécifique de l’IA appelé Natural Language
Understanding. Au début des années 1980, l’Intelligence artificielle est associée aux
cursus de TAL, et on a cherché à intégrer des modules de compréhension dans les
systèmes de TA ou de TAL en général.
A tel point que dans les années 1990 les spécialistes d’IA ont pu se poser la
question de l’autonomie du TAL, qu’ils ont eu tendance à considérer comme une
série de problèmes spécifiques de leur domaine. Ainsi, selon l’introduction de
F.C.N. Pereira et B.J. Grosz au numéro spécial d’Artificial Intelligence consacré au
« Natural Language Processing » (1993), l’usage des langues par les êtres humains,
et par conséquent leur traitement par des machines, fait appel à trois types de
processus, la perception, la délibération et l’action, qui sont des processus que
l’Intelligence artificielle aborde en toute généralité. Par ailleurs, la notion de
représentation des connaissances, qui est au cœur de la problématique de
l’Intelligence artificielle, renvoie directement à la représentation du sens porté par
les énoncés, et donc à l’analyse des énoncés. Plusieurs auteurs se sont interrogés sur
les rapports entre représentation des connaissances, TAL et linguistique. On notera
tout particulièrement le livre de J.F. Sowa, Conceptual Structures (1984), dont le
premier chapitre s’intitule « Philosophical Basis ». On peut également signaler en
France M. Cori (1990 et 1995), D. Kayser (1994) et G. Sabah (1988 et 1989).
2.5. Grands corpus et probabilités
Depuis une quinzaine d’années, on observe un regain d’intérêt pour l’étude des
grands corpus. Et chacun s’accorde pour souligner l’importance de la mise à
disposition de corpus de plusieurs millions de mots dans la constitution de nouvelles
pratiques. Si les travaux produits commencent à être nombreux, surtout ceux qui
s’inscrivent dans le cadre qui se désigne par « linguistique(s) de corpus » et qui
revendiquent l’usage de méthodes statistiques, la réflexion en est à ses
commencements et reste par là même parcellaire. Différents thèmes ont retenu plus
particulièrement l’attention (tels que la remise en question du programme génératif,
la forme de la grammaire avec notamment l’usage de modèles probabilistes, voire
connexionnistes, les notions de corpus et de « genre », le recours à des approches
mixtes) ; des thèmes à partir desquels les enjeux théoriques sont parfois plus posés
12
TAL. Volume 43 – n° 3/2002
que discutés (cf. par exemple Aarts et Meijs (éds) 1990, Oostdjik 1991, Church et
Mercer 1993, Habert et al. 1997, Kennedy 1998).
2.6. Evaluation
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
La problématique de l’évaluation s’est posée dès les débuts de la traduction
automatique, avec le rapport de Bar-Hillel (1960) et celui de l’Alpac (1966). Elle
s’est cependant constituée comme un champ à part entière depuis un peu plus d’une
dizaine d’années, à travers notamment l’organisation de conférences et de
compétitions internationales (cf. par exemple TREC (Text Retrieval Conference),
MUC (Message Understanding Conference)), les travaux de l’ISKO (International
Society of Knowledge Organization). C’est l’une des thématiques de l’agence ELDA
(Agence pour l’évaluation et la distribution de ressources linguistiques). Ces
développements ne vont pas bien entendu sans enjeux intellectuels, scientifiques et
financiers importants.
La littérature est abondante, hétérogène et ne montre pas de véritables consensus,
même si certaines approches sont dominantes (les approches de type TREC
notamment). Les évaluations qui sont menées consistent essentiellement en des
« mises à l’épreuve » effectives des propositions logicielles.
Des travaux récents ont cherché à clarifier les différentes options : évaluation
quantitative/qualitative, évaluation orientée concepteur/utilisateur, évaluation boîte
noire/boîte transparente, utilisation de phrases de tests/corpus, utilisation de
procédures automatiques/recours à des évaluateurs (experts/non-experts). La
réflexion a aussi porté sur la liste des critères pertinents, sur le type de mesures à
utiliser (par exemple, les taux de rappel et de précision, mis au point dans le cadre
de la recherche d’information), sur la constitution de référentiels de comparaison
(par le projet TSNLP (Test Suites for Natural Language Processing)), sur la
constitution de standards (par exemple, les travaux de M. King dans le cadre de
EAGLES), etc. (voir notamment King et Falkedal 1990 ; Sparck-Jones et Galliers
1996 ; les articles de Falkedal, Wagner et King rassemblés par Nübel et Seewald
(éds) 1998 ; Chaudiron 2001 ; Sparck-Jones 2001).
3. Présentation du numéro
Plusieurs thèmes de réflexion sont abordés dans ce numéro, qui permettent
d’explorer certaines des lignes de tension qui opèrent dans le domaine. Les
questions qui se posent ont trait à la définition de la discipline (à travers ses
dénominations, son contenu et ses rattachements) et à ses méthodes.
Présentation
13
3.1. Quel(s) terme(s) pour quel(s) domaine(s) ?
Il semblerait que le terme anglais correspondant à TAL soit Computational
Linguistics, mais les deux termes définissent-ils le même domaine, dans la mesure
où, historiquement, ils ont des inscriptions institutionnelle, géographique, et
scientifique distinctes, et où en anglais existe le terme Natural Language
Processing ? On sait par ailleurs que, dans la tradition française, différents termes
ont jalonné l’histoire du domaine : Linguistique algébrique, Linguistique
quantitative, Linguistique informatique, Linguistique computationnelle et, plus tard,
Industries de la langue et Ingénierie linguistique. De quoi cette diversité de termes
est-elle le signe ? Quelles sont les propositions fondatrices de chacun ? Quels sont
les liens qui les unissent ? Quels sont leurs apports ?
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
A ces questions, Marcel Cori et Jacqueline Léon apportent une première réponse
fondée sur une étude historique de la constitution du domaine, en retraçant l’histoire
des termes utilisés ces cinquante dernières années aux Etats-Unis et en France pour
dénommer le champ, et ce qu’ils recouvrent. La dénomination joue ici un rôle
crucial, où (se) dénommer, c’est d’abord (faire) exister. Dans le même temps, la
multiplicité des dénominations est symptomatique des changements de perspective,
des tensions, des lignes de fracture, qui émaillent chaque histoire.
Aux Etats-Unis, la Computational Linguistics apparaît dans les années 1960 au
sein de la traduction automatique, et est développée comme seul héritage positif
après la mise à l’index de la TA par le rapport de l’ALPAC (1966). Son objectif
affiché est de rassembler les recherches théoriques, notamment celles qui
privilégient l’analyse syntaxique. Avec l’émergence de l’IA dans les années 1970 et
la volonté réaffirmée de séparer les dimensions théoriques et applicatives, apparaît
le Natural Language Processing, qui finit par endosser le versant applicatif.
Parallèlement, en France, mais avec quelque 10 ans de retard, on observe un
foisonnement de termes, aux fortunes diverses.
Les auteurs montrent un champ aux prises avec des contradictions internes,
jamais résolues : (i) rassembler et fédérer des approches, des méthodes, des acteurs,
etc., et, dans le même temps, exhiber les différences en soulignant les tensions entre
recherches théoriques et dimensions applicatives : se rassembler au risque d’une
impossible définition ; (ii) définir des objectifs, des problématiques, des méthodes
spécifiques alors que ceux-là mêmes s’inscrivent aussi dans les disciplines connexes
au TAL : se définir au risque de la dilution.
La situation actuelle de part et d’autre de l’Atlantique est signée par la différence
(momentanée ?) : un terme en France, Traitement automatique des langues, qui fait
consensus ; deux termes aux Etats-Unis, Computational Linguistics et Natural
Language Processing. Mais des termes apparus plus récemment, Industries de la
langue, Ingénierie linguistique ou encore Natural Language Engineering montrent
qu’il y a fort à parier sur de nouveaux éclatements et/ou de nouvelles recompositions,
à la recherche de nouvelles légitimités.
14
TAL. Volume 43 – n° 3/2002
3.2. Sur les différentes méthodes en cours dans le TAL
Les deux autres articles s’interrogent sur les méthodes en cours dans le domaine.
L’un comme l’autre opposent deux types de travaux, mais le clivage n’y est pas
caractérisé de la même façon. Gabriel G. Bès oppose l’« approche symbolique » à
l’« approche texto-algorithmique ». Benoît Habert et Pierre Zweigenbaum opposent
les méthodes reposant sur des règles postulées à celles reposant sur des régularités
observées. Les auteurs, cependant, se rejoignent pour souhaiter, en conclusion, une
sorte de réconciliation entre les différentes approches.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
G.G. Bès met en place une grille d’analyse pour les travaux qui relèvent de « la
formalisation des langues ou de leur traitement informatique ». Il se place dans le
cadre du « réalisme épistémologique », visant à analyser les méthodes effectives en
cours dans le domaine.
Sa grille implique trois niveaux différents : le niveau de l’observation, le niveau
du système d’hypothèses et le niveau du test de corroboration. L’observation
suppose l’existence d’expressions sur un support magnétique et d’un observateur
(humain) doté d’une certaine compétence. Les hypothèses forment un système qui
doit être informatisé ou informatisable. Plus exactement, les hypothèses sont écrites
selon un formalisme, sur lequel il est possible d’effectuer des calculs. On peut
distinguer des systèmes d’hypothèses formels, dans lesquels les spécifications sont
indépendantes de l’outil informatique, et des systèmes d’hypothèses algorithmiques.
Parmi les critères permettant de caractériser les systèmes d’hypothèses, G. G. Bès
mentionne l’extension et la portabilité linguistique, et oppose la visée descriptive à
la visée explicative. Le test de corroboration mesure la distance entre les résultats
obtenus par le calcul automatique et ceux obtenus par l’observateur humain.
L’auteur soumet à cette grille les deux types d’approches qu’il distingue dans le
domaine : l’approche texto-algorithmique (de laquelle il écarte volontairement les
méthodes statistiques) et l’approche symbolique. L’approche texto-algorithmique
s’oppose aux positions de Chomsky (1957) selon lesquelles il était impossible de
réaliser des inductions à partir de corpus. Elle construit des analyseurs, souvent
parcellaires, dans lesquels la description linguistique est mélangée avec le traitement
informatique. Se fondant sur l’analyse de deux réalisations, l’auteur note que les
systèmes d’hypothèses sont impossibles à connaître dans l’approche textoalgorithmique, qu’il n’y a pas de principe explicatif. En revanche, les tests de
corroboration sont systématiques. Pour rendre compte de l’approche symbolique,
l’auteur s’appuie sur la grammaire de Montague. Il note des faiblesses dans cette
approche. Mais on peut se demander si ces faiblesses sont celles de l’approche
symbolique en général, ou celles de cette approche en particulier.
En conclusion, G.G. Bès observe que, dans l’approche symbolique, les
formalismes sont les véhicules d’expression de théories. Mais ces théories sont
illustrées par des exemples ciblés, dont on ne vérifie pas la représentativité, ni même
qu’ils peuvent être traités à l’aide du formalisme. Ainsi, certains problèmes que l’on
Présentation
15
n’avait pas prévus surgissent dans les traitements, et tout spécialement l’explosion
des ambiguïtés. L’approche texto-algorithmique traite quant à elle du texte « tout
venant ». Cette approche a permis de mesurer les difficultés provoquées par les
ambiguïtés et d’envisager des solutions. Elle est à la base d’un processus inductif de
construction des connaissances. Les avantages et les inconvénients des deux
approches étant complémentaires, G. G. Bès envisage une collaboration entre elles.
C’est aussi à une collaboration entre deux approches qu’invite l’article de
B. Habert et P. Zweigenbaum. Cet article apporte un éclairage théorique sur certains
développements récents du TAL, que l’on peut étiqueter sous le nom de
linguistique(s) de corpus.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Le regain d’intérêt pour l’utilisation des corpus et des statistiques en linguistique
a lieu dans un contexte où l’on observe de nouvelles formes d’interaction entre
différentes disciplines et différents champs impliqués dans le TAL (par exemple,
l’Intelligence artificielle, le traitement de la parole, le traitement de l’information) ;
mais aussi grâce à deux avancées techniques : la mise à disposition de très gros
corpus et leur exploration à l’aide de nouveaux outils statistiques, qui offrent des
techniques de lissage et d’ajustements.
Les auteurs s’intéressent particulièrement à l’utilisation, depuis une dizaine
d’années, de méthodes distributionnelles en acquisition sémantique automatique, qui
s’est accompagnée d’un « retour à Harris » et à son programme de grammaires
sémantiques de sous-langages fondées sur les propensions de dépendances des mots.
Ils soutiennent que Harris, en élaborant ces grammaires à partir de sélections
calculées par des méthodes statistiques, et non à partir de règles d’acceptabilité, a
ouvert la voie à de nouvelles articulations entre règles postulées et régularités
observées. Différents questionnements issus de travaux plus récents, à propos du
statut des connaissances sémantiques acquises et de la distinction langue
générale/sous-langages, demandent d’amender ses propositions. Les auteurs
proposent ainsi d’inclure le paramètre du genre/style dans le traitement des corpus,
de même que de constituer des corpus annotés à partir de savoirs issus de la langue
générale.
Ce type de traitement présenterait alors les avantages suivants : associer deux
types de méthodes habituellement disjoints en linguistique, jugement d’acceptabilité
et attestation ; pouvoir faire face au ténu, voire à l’imprévu ; et, à la condition de
munir les données attestées d’annotations fines, atteindre des régularités sousjacentes inédites.
4. Ce qui reste à faire
Nous ne cacherons pas que nous avons rencontré des difficultés dans la
préparation de ce numéro. Nous voulions que dans la revue de référence du TAL en
France s’expriment des acteurs du domaine, ayant une réflexion sur leur propre
16
TAL. Volume 43 – n° 3/2002
pratique, ou une vue globale et/ou historique du domaine. Or ce type de réflexion
demande un travail spécifique, non directement lié à un projet en cours, et qui exige
donc un temps d’élaboration particulier. Il en est résulté que nous avons reçu un
nombre relativement faible de contributions.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Nous souhaitons néanmoins que ce numéro soit le point de départ d’une
réflexion. Car le domaine a bel et bien besoin d’un débat sur ses pratiques et ses
finalités, plutôt que de continuer à avancer dans un certain flou conceptuel et avec
des conflits souterrains qui restent inexprimés au grand jour. Dans ce qui suit, nous
détaillons deux ensembles de problèmes à explorer, qui touchent aux évolutions du
domaine, aux déplacements de son centre de gravité.
Le premier concerne les rapports entre le TAL et la linguistique formelle,
notamment la question de l’appartenance des formalismes de représentation
syntaxique au domaine du TAL. Les analyseurs syntaxiques fondés sur les CFG ont
été pendant longtemps au cœur de la discipline. Devant l’insuffisance de la
couverture grammaticale des CFG, et devant les difficultés techniques posées par le
traitement automatique des grammaires transformationnelles, il y a eu tout d’abord
la création des ATN, puis la définition de nouveaux formalismes de représentation
syntaxique, DCG, LFG, FUG, GPSG, TAG, HPSG, ou le perfectionnement de
formalismes plus anciens tels que les grammaires catégorielles ou les grammaires de
dépendance. Les ATN étaient un outil hybride, à la fois formalisme et dispositif
d’analyse, dont le rattachement au TAL ne faisait aucun doute.
Ces différents formalismes ont ainsi été créés soit clairement dans des
perspectives de traitement automatique, soit dans des perspectives plus strictement
linguistiques. Leur regroupement dans les années 1980 sous le terme de
« grammaires d’unification » était une façon de les inclure globalement dans le
domaine du TAL. On a eu là une prise de position délimitant des objets spécifiques
pour le TAL. Or il y a lieu de s’interroger sur ce regroupement qui n’allait pas
entièrement de soi, étant donné, au moins, la double origine de ces objets. Quelque
vingt années plus tard, sont-ils à considérer comme des objets relevant uniquement
de la linguistique formelle ? Leur double origine, dont on n’aurait pas pris
suffisamment la mesure, permet-elle d’expliquer que la question se pose à nouveau ?
Ou bien est-ce l’apparition de nouvelles méthodes, dites de TAL robuste, qui a rejeté
les formalismes linguistiques à la périphérie du TAL ?
On rejoint là un second ensemble de problèmes. Il porte tout d’abord sur les
méthodes de TAL robuste : méthodes de désambiguïsation fondées sur des
techniques probabilistes, méthodes d’analyse partielle qui ne cherchent pas à obtenir
des analyses des phrases mais simplement à délimiter certains constituants,
méthodes d’acquisition sémantique qui ignorent la syntaxe, etc. On est en droit de
s’interroger sur le statut et l’apport de ces méthodes. Mettent-elles en œuvre un
modèle du texte, du langage, des langues ou bien ne font-elles qu’utiliser un outil ?
Et, en ce cas, quel outil et pour quel usage ?
Présentation
17
La question se pose également d’identifier les recouvrements et délimitations entre
TAL robuste et linguistique(s) de corpus, le TAL robuste s’appuyant sur l’existence de
grandes masses de données écrites ou orales, la (les) linguistique(s) de corpus
empruntant certains outils du TAL robuste, notamment les méthodes probabilistes.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Quant aux propositions des linguistiques de corpus, fondent-elles une nouvelle
linguistique, ou n’opèrent-elles qu’un retour à des conceptions anciennes ? Dans les
réflexions déjà élaborées (cf. ci-dessus, paragraphe 2.5), les problèmes évoqués, qui
dessinent un champ d’études se posant comme une alternative aux travaux menés depuis
quarante ans, mériteraient des discussions et des analyses plus approfondies. Les
positionnements s’articulent, souvent en filigrane, sur une critique des positions de
Chomsky (1957), considérées en bloc, sans que l’on discute précisément des arguments
qu’il a avancés, ni d’ailleurs que l’on distingue programme de recherche et théorie
particulière, ni enfin qu’on remette en perspective ses positions dans le contexte de
l’époque. La mise à disposition de très grands corpus suscite certes de nouvelles
questions, mais on n’a pas circonscrit précisément celles qui ne seraient pas purement
artefactuelles, celles dont on peut faire l’hypothèse qu’elles sont liées à un état de la
technique, etc.
Il est clair que le débat ne doit pas se limiter à ces deux thèmes de réflexion. On
peut mentionner les perspectives et directions de recherche suivantes : expliciter les
rapports entre TAL et IA, entre TAL et sciences cognitives, établir un état des lieux
des problèmes linguistiques traités par le TAL, mesurer les évolutions de l’importance
respective de la recherche fondamentale et des applications industrielles, caractériser
le domaine de l’évaluation des systèmes, la liste n’étant évidemment pas close.
Ce n’est qu’un début, continuons le débat.
Remerciements
Nous remercions le comité de rédaction de TAL, et tout spécialement Bernard
Victorri, ainsi que les membres du comité de lecture spécifique, qui ont effectué un
travail remarquable de relecture des articles : Bernard Fradin, Benoît Habert, Martin
Kay, Daniel Kayser, Margaret King, Bernard Laks, André Lentin, Jean-Marie
Marandin, Uta Seewald-Heeg, Annie Zaenen.
5. Bibliographie
Actes de conférences, revues et rapports
Actes des conférences TREC (Text Retrieval Conference), MUC (Message Understanding
Conference), ISKO (International Society of Knowledge Organization)
Rapport de l’ALPAC Language and Machines. Computers in Translation and Linguistics. A
Report by the Automatic Language Processing Advisory Committee (ALPAC), National
Academy of Sciences, National Research Council. 1966.
18
TAL. Volume 43 – n° 3/2002
Histoire Epistémologie Langages, « Le traitement automatique des langues ». J. Léon (éd.),
2001, 23 (1).
TAL, « Analyse syntaxique », J.-M. Marandin (éd.), 1993, 34 (1).
TAL, « Spécial trentenaire », 1992, 33 (1-2).
Ouvrages et articles
Aarts J. et Meijs W. (éds), 1990, Theory and Practice in Corpus Linguistics, Amsterdam,
Rodopi.
Archaimbault S. et Léon J., 1997, « La langue intermédiaire dans la Traduction Automatique
en URSS (1954-1960). Filiations et modèles », Histoire Epistémologie Langage, 19 (2),
105-132.
Auroux S., 1994, La révolution technologique de la grammatisation, Liège, Mardaga.
Auroux S. (en collaboration avec J. Deschamps et D. Kouloughli), 1996, La philosophie du
langage, Paris, PUF.
Auroux S., 1998, La raison, le langage et les normes, Paris, PUF.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Bar-Hillel Y., 1953a, « A Quasi-Arithmetic Notation for Syntactic Description », Language,
29, 47-58, repris dans Langages, 1968, 4.
Bar-Hillel Y., 1953b, « Some Linguistic Problems Connected with Machine Translation »,
Philosophy of Science, 20, 217-225.
Bar-Hillel Y., 1960, « The Present Status of Automatic Translation of Languages », Advances
in Computers, New York et Londres, F.C. Alt ed. Academic Press, vol. 1, 91-141.
Bestougeff H. et Desclés J.-P., 1976, « L’informatique comme moyen d’expérimentation en
linguistique », Actes du colloque Validation des méthodes d’analyse des données
textuelles, Aix-en-Provence (1974), Paris, Editions du CNRS.
Chaudiron S., 2001, L’évaluation des systèmes de traitement de l'information textuelle : vers
un changement de paradigme, Mémoire pour HDR, Université Paris X Nanterre, 300 p.
Chomsky N., 1957, Structures syntaxiques, Paris, Le Seuil [traduction française par
M. Braudeau, 1969].
Church K.W. et Mercer R.L., 1993, « Introduction to the Special Issue on Computational
Linguistics Using Large Corpora », Computational Linguistics, 19 (1), 1-25.
Cori M., 1990, « Les incidences linguistiques d’une représentation informatique des
connaissances », 4e colloque de l’ARC, Progrès de la recherche cognitive, Paris, 365-376.
Cori M., 1995, « Enonciation et représentation informatique des connaissances », in
J. Bouscaren, J.-J. Frankel et S. Robert (éds), Langues et langage. Problèmes de
raisonnement en linguistique, Mélanges offerts à Antoine Culioli, Paris, PUF, 203-219.
Culioli A. et Desclés J.-P., 1979, « Considérations sur un programme de traitement
automatique des langues et du langage », Colloque CNRS-DGRST Informatique et
sciences humaines, Marseille (1975), Linguisticae Investigationes.
Cunningham H., 1999, « A Definition and Short History of Language Engineering », Natural
Language Engineering, 5 (1), 1-16.
Ejerhed E., 1993, « Nouveaux courants en analyse syntaxique », TAL, 34 (1), 61-82.
Présentation
19
Falkedal K., 1998, « Evaluation Problems from a Developer’s Point of View », in R. Nübel et
U. Seewald-Heeg (éds), Evaluation of the Linguistic Performance of Machine Translation
Systems, St-Augustin, Gardez! Verlag, 137-150.
Gross M., 1964, « The Equivalences of Models of Language Used in the Fields of Mechanical
Translation and Information Retrieval », Information Storage and Retrieval, 2, 43-57.
Habert B., Nazarenko A. et Salem A., 1997, Les linguistiques de corpus, Paris, Armand Colin.
Hutchins W.J., 1986, Machine Translation, Past, Present, Future, Chichester, Ellis Horwood Ltd.
Hutchins W.J., 2000, Early Years in Machine Translation, Amsterdam, John Benjamins.
Ide N. et Veronis J., 1998, « Introduction to the Special Issue on Word Sense Disambiguation:
the State of the Art », Computational Linguistics, 24 (1).
Josselson H.H., 1971, « Automatic translation of Languages since 1960: a Linguist’s View »,
Advances in Computers, 11, 1-58.
Kay M., 1959, « The Relevance of Linguistics to MT », Essays on and in Machine
Translation by the Cambridge Language Research Unit, Rapport non publié.
Kayser D., 1994, « What Kind of Models Do we Need for the Simulation of
Understanding ? », in C. Fuchs et B. Victorri (éds), Continuity in Linguistic Semantics,
Amsterdam, John Benjamins, 111-126.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Kennedy G., 1998, An Introduction to Corpus Linguistics, Londres, Addison-Wesley.
King M., 1998, « Evaluation Design: the EAGLES Framework », in R. Nübel et U. SeewaldHeeg (éds), Evaluation of the Linguistic Performance of Machine Translation Systems,
St-Augustin, Gardez! Verlag, 151-169.
King M. et Falkedal K. 1990, « Using Test Suites in Evaluation of Machine Translation
Systems », Coling, 2, 211-216.
Léon J., 1997, « Les premières Machines à Traduire (1948-1960) et la filiation
cybernétique », BULAG, 22, 9-34.
Léon J., 1999, « La mécanisation du dictionnaire dans les premières expériences de traduction
automatique (1948-1960) », in D. Cram, A. Linn et E. Nowak (éds), History of
Linguistics, 1996, Amsterdam, John Benjamins, vol. II, 331-340.
Léon J., 2000, « Traduction automatique et formalisation du langage. Les tentatives du
Cambridge Language Research Unit (1955-1960) », in P. Desmet, L. Jooken, P. Schmitter
et P. Swiggers (éds), The History of Linguistics and Grammatical Praxis, Louvain et
Paris, Peeters, 369-394.
Marandin J.-M., 1993, « Analyseurs syntaxiques. Equivoques et problèmes », TAL, 34 (1), 5-34.
Newton J. (éd.), 1992, Computers in Translation. A Practical Appraisal, Londres, Routledge.
Nübel R. et Seewald-Heeg U. (éds), 1998, Evaluation of the Linguistic Performance of
Machine Translation Systems, St-Augustin, Gardez! Verlag.
Marchaisse Th., 1991, « L’acte du traducteur et le principe d’indétermination », Le Gré des
Langues, 2, 144-157.
Oostdijk N., 1991, Corpus Linguistics and the Automatic Analysis of English, Amsterdam,
Rodopi.
Penrose R., 1989, The Emperor’s New Mind, Oxford, Oxford University Press.
20
TAL. Volume 43 – n° 3/2002
Pereira F.C.N. et Grosz B.J., 1993, « Introduction to the Special Issue on Natural Language
Processing », Artificial Intelligence, 63 (1-2), 1-15.
Quine W.V.O., 1959, « Meaning and Translation », On Translation, Harvard Studies in
Comparative Literature founded by William Henry Schofield, 23.
Sabah G., 1988, L’intelligence artificielle et le langage, I, Représentation des connaissances,
Paris, Hermès.
Sabah G., 1989, L’intelligence artificielle et le langage, II, Processus de compréhension,
Paris, Hermès.
Shannon Cl.E., 1950, « A chess-playing machine », Scientific American, vol. CLXXXII, 48-51.
Shannon Cl.E. et Weaver W., 1948, The Mathematical Theory of Communication, Urbana,
University of Illinois Press.
Simon H.A., 1995, « Artificial Intelligence : an Empirical Science », Artificial Intelligence,
77 (1), 95-127.
Slocum J. (éd.), 1985, Two Special Issues on MT, Computational Linguistics, 11 (1-2-3).
Sowa J.F., 1984, Conceptual Structures : Information Processing in Mind and Machine,
Reading Massachusetts, Addison-Wesley.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Sparck-Jones K., 2001, « Automatic Language and Information Processing: Rethinking
Evaluation », Natural Language Engineering, 7, 29-46.
Sparck-Jones K. et Galliers J.R., 1996, Evaluating Natural Language Processing Systems: an
Analysis and Review, Berlin, Springer-Verlag.
Taube M., 1961, Computers and Common Sense, The Myth of Thinking Machines, New York,
Columbia University Press.
Wagner S., 1998, « Small Scale Evaluation Methods », in R. Nübel et U. Seewald-Heeg (éds),
Evaluation of the Linguistic Performance of Machine Translation Systems, St-Augustin,
Gardez! Verlag, 93-105.
Weaver W., [1949] 1955, « Translation », in W.N. Locke et A.D. Booth (éds), Machine
Translation of Languages, 14 Essays, Cambridge, MIT et John Wiley, 15-23.
Winograd T., 1983, Language as a Cognitive Process, Reading Massachusetts, AddisonWesley, vol. 1, Syntax.