TAL et linguistique - Laboratoire LaTTiCe

Transcription

TAL et linguistique - Laboratoire LaTTiCe
TAL et linguistique
Thierry Poibeau
LATTICE— CNRS, ENS, U. Sorbonne Nouvelle
Le Tal : une (r)évolution
(plus si) récente
¡  Déplacement du cœur de la discipline (années 1990)
¡  Linguistique ⇒ informatique
¡  Conséquences institutionnelles fortes et extrêmement rapides
(conférences, laboratoires, recrutements)
¡  Causes
¡  Nouveaux besoins (développement du Web)
¡  Masse de données, puissance de calcul
¡  Nécessité d’algorithmes efficaces
¡  Apprentissage automatique ⇒ production automatique de
traitements autrefois modélisés manuellement
‹#›2
Des faits troublants
¡  Qui aurait pu croire aux statistiques pour produire des
traductions en 1990 ? (à part Jelinek…)
I was not sure that (…) IBM’s “fundamental equation of MT” was in
fact producing the results, and suggested that something else they
were doing was giving them their remarkable success rate of about
50% of sentences correctly translated. As their general
methodology has penetrated the whole of NLP/CL, I no longer
stand by my early criticisms; IBM were of course right, and had
everything to teach the rest of us. (Wilks, 2008)
One thing the empirical movement has taught us is the vital
importance of scale and the need to move away from toy systems
and illustrative examples. (Wilks, 2008)
¡  Wilks, Yorick (2008). “On whose shoulders?“, Computational Linguistics, n°34 vol. 4,
pp. 471–486.
‹#›3
Conséquences pour la
linguistique (1/3)
¡  Débats récurrents entre les tenants de la « théorie d’abord » et
les tenants des « données d’abord »
¡  Cf. P. Norvig (Google) « On Chomsky and the Two Cultures of
Statistical Learning »
http://norvig.com/chomsky.html
¡  Généralisation / banalisation des approches sur corpus en
linguistique
¡  Plus largement, promotion d’une linguistique dite
« expérimentale »
¡  Place de la linguistique théorique ?
¡  Quel regard sur la linguistique au 20e siècle ?
‹#›4
Conséquences pour la
linguistique (2/3)
¡  Cf Wilks (2008)
¡  There ARE no donkey sentence, aside of course from the corpus of linguistic
discussions. They do not exist, any more than anyone ever says, "John wants
to marry a Norwegian" to mean a particular Norwegian--- you simply do
not put it that way; hence the class of sentences are not ambiguous in the
way the theory requires.
¡  Linguistique de corpus = données attestées
¡  Parfois, pauvreté des outils d’analyse
¡  Approches extrêmement surfaciques (mots, formes)
¡  Ne pas jeter le bébé avec l’eau du bain (le langage est avant tout
structure)
‹#›5
Conséquences pour la
linguistique (3/3)
¡  We must put language back into language modelling (F. Jelinek)
¡  (…) Corpus linguistics – or “usage-based models of grammar” – has all the right
rhetoric about being an objective, falsifiable empirical science interested in
the totality of language use, but is failing by largely restricting itself to surface
facts of language, rather than utilizing sophisticated formal models of
grammar, which make extensive use of hidden structure (things like phrase
structure trees, and other abstract representational levels).
Manning, Christopher D. (2003). “Probabilistic Syntax“. In Probabilistic Linguistics (Rens Bod, Jennifer Hay,
et Stefanie Jannedy, éds), The MIT Press, Cambridge (Mass.), pp 289–341.
Ø Poids fondamental des faits de fréquence dans les langues
Ø Apport des approches profondes pour les applications grand public ?
‹#›6
Liens entre Tal et linguistique
¡  « Fertilisation croisée »
¡  Le Tal (l’informatique, l’apprentissage) fournit de nouvelles
méthodes d’exploration des données
¡  Poids et combinaisons de facteurs pour les phénomènes
linguistiques complexes (e.g. ordre des mots, classifications
lexicales)
¡  Modèles non supervisées (clustering, e.g. découpage du sens
des mots, word sense induction)
¡  Ces méthodes reposent elles-mêmes sur des annotations (et
pas simplement sur les formes de surface)
¡  Quelles informations ? Quelles annotations ? Quelles
représentations ?
‹#›7
Quelle linguistique pour le
Tal ?
¡  Nécessité de promouvoir des descriptions complètes, explicites,
opérationnelles
¡  Réflexion sur les modèles, les formats, les informations
encodables
Ø  Danger
d’une « linguistique de service » (chargée d’annoter
des documents et de fournir des corpus pour les systèmes
d’apprentissage)
Ø  Ne
pas perdre de vue les aspects théoriques de l’analyse
linguistique (il n’y pas que les corpus dans la vie)
‹#›8
Menaces et opportunités
(AERES inside)
¡  Une certaine uniformisation du paysage
¡  Poids (trop important ?) des aspects applicatifs
¡  Peu de renouvellement dans les tâches abordées
¡  Poids de l’évaluation (entre réelle mesure des progrès et
multiplication de tâches ad hoc)
¡  De nouveaux thèmes de recherche passionnants
¡  Couplages innovants entre linguistique et informatique
¡  Lien avec les sciences cognitives
¡  Analyse de la « masse de données » en ligne
¡  Conséquences institutionnelles ?
‹#›9
Merci de votre attention…

Documents pareils