Le TAL statistique

Transcription

Le TAL statistique
Méthodes Statistiques en Traitement des Langues
État des lieux et perspectives
Journée d’étude sur le TAL,
Nancy, le 15 janvier 2013
François Yvon
François Yvon
Méthodes Statistiques en TAL
1 / 34
Méthodes Statistiques en TAL
Le TAL, Keksé ?
Le Traitement Automatique des Langues (Gazdar, 1996)
théorie du calcul linguistique
(...) is the study of the computational, mathematical and statistical properties of natural
languages and systems for processing natural languages.
pyscho-linguistique computationnelle
Computational psycholinguistics involves the construction of psycho-logically motivated
computational models of aspects of human NLP.
outils de traitement pour des applications
Applied NLP involves the construction of intelligent computational artefacts that process
natural languages in ways that are useful to people other than computational linguists.
François Yvon
Méthodes Statistiques en TAL
2 / 34
Méthodes Statistiques en TAL
Le TAL, Keksé ?
Le Traitement Automatique des Langues (Gazdar, 1996)
Méthodes statistiques en TAL
The data intensive approach to language, which is becoming known as ’Text Analysis’ , takes a
pragmatic view that is well suited to meet the recent emphasis on evaluations and concrete
deliverables. Text Analysis focuses on a broad (though superficial) coverage of unrestricted text,
rather than deep analysis of (artificially) restricted domain. (Church & Mercer, 1993)
Exploiter de grands corpus pour traiter de grands corpus
François Yvon
Méthodes Statistiques en TAL
2 / 34
Une approche couronnée de succès
From Peter Norvig (http://norvig.com/chomsky.html)
Search engines: 100% of major players are trained and probabilistic.
Their operation cannot be described by a simple function.
Speech recognition: 100% of major systems are trained and
probabilistic, mostly relying on probabilistic hidden Markov models.
Machine translation: 100% of top competitors in competitions such
as NIST use statistical methods.
Question answering: this application is less well-developed, and
many systems build heavily on the statistical and probabilistic
approach used by search engines.
François Yvon
Méthodes Statistiques en TAL
3 / 34
Une approche couronnée de succès
From Peter Norvig (http://norvig.com/chomsky.html)
Now let’s look at some components that are of interest only to
the computational linguist, not to the end user
François Yvon
Méthodes Statistiques en TAL
3 / 34
Une approche couronnée de succès
From Peter Norvig (http://norvig.com/chomsky.html)
Word sense disambiguation: 100% of top competitors at the
SemEval-2 competition used statistical techniques; most are
probabilistic; some use a hybrid approach incorporating rules from
sources such as Wordnet.
Coreference resolution: The majority of current systems are
statistical, although we should mention the system of Haghighi and
Klein, which can be described as a hybrid system that is mostly
rule-based rather than trained, and performs on par with top statistical
systems.
Part of speech tagging: Most current systems are statistical. The
Brill tagger stands out as a successful hybrid system: it learns a set
of deterministic rules from statistical data.
Parsing: There are many parsing systems, using multiple
approaches. Almost all of the most successful are statistical, and the
majority are probabilistic (with a substantial minority of deterministic
parsers).
François Yvon
Méthodes Statistiques en TAL
3 / 34
Couronnée de trop de succès ?
Un exercice d’auto-analyse... lexicale
(...) we may have been too successful. Not only have we
succeeded in making room for what we were interested in,
but there is no longer much room for anything else (Church,
2011)
François Yvon
Méthodes Statistiques en TAL
4 / 34
Couronnée de trop de succès ?
Un exercice d’auto-analyse... lexicale
(...) we may have been too successful. Not only have we succeeded in making room
for what we were interested in, but there is no longer much room for anything else
(Church, 2011)
d’après (Hall, Jurafsky, & Manning, 2008)
François Yvon
Méthodes Statistiques en TAL
4 / 34
Couronnée de trop de succès ?
Un exercice d’auto-analyse... lexicale
(...) we may have been too successful. Not only have we succeeded in making room
for what we were interested in, but there is no longer much room for anything else
(Church, 2011)
Analyse de 16 500 articles de aclweb.org/anthology-new
François Yvon
Méthodes Statistiques en TAL
4 / 34
Un contexte favorable
The increasing availability of machine-readable corpora has
suggested new methods for studies in a variety of areas such
as lexical knowledge acquisition, grammar construction, and
machine translation.
Though common in the speech community, the use of
statistical and probabilistic methods to discover and organize
data is relatively new to the field at large. (Armstrong, 1993)
Un terreau fertile
des données [annotées et brutes], des machines pour les traiter
méthodes de traitement [RF, TLP, IR]
arguments théoriques [retour de l’empiricisme]
incitations sonnantes et trébuchantes [les campagnes
d’évaluation du DARPA]
François Yvon
Méthodes Statistiques en TAL
5 / 34
Des modèles simples peuvent avoir une valeur grande d’usage
François Yvon
Méthodes Statistiques en TAL
6 / 34
Reconnaissance vocale: modéliser les séquences
Anytime a linguist leaves the group, the recognition rate goes up (Jelinek, 1985)
Une façon pratique de probabiliser des phrases
P(w1 . . . wL ) =
L
Y
P(wi |wi−n+1 ...wi−1 )
i=n
Modéliser la syntaxe avec des dépendances locales
François Yvon
Méthodes Statistiques en TAL
7 / 34
Reconnaissance vocale: modéliser les séquences
Anytime a linguist leaves the group, the recognition rate goes up (Jelinek, 1985)
Une façon pratique de probabiliser des phrases
P(w1 . . . wL ) =
L
Y
P(wi |wi−n+1 ...wi−1 )
i=n
Modéliser la syntaxe avec des dépendances locales
François Yvon
Méthodes Statistiques en TAL
7 / 34
Recherche d’information: les “ sacs-de-mots”
text indexing systems based on the assignment of appropriately weighted single terms
produce retrieval results that are superior to those obtainable with other more elaborate
text representations. (Salton & Buckley, 1988)
Représentation numérique d’un document
d ∈ R|V| , dT =(θ1 , . . . θ|V| ), avec θi = f (c(wi ∈ d), c(wi ∈ D))
c(wi ∈ d)
ou ...
ld
dist(d, d0 ) ∝ dT d0 ou ||d − d0 ||k ou ...
θi = TF-IDF(wi ) ou
Modéliser la similarité de contenu en ignorant la syntaxe
François Yvon
Méthodes Statistiques en TAL
8 / 34
Recherche d’information: les “ sacs-de-mots”
text indexing systems based on the assignment of appropriately weighted single terms
produce retrieval results that are superior to those obtainable with other more elaborate
text representations. (Salton & Buckley, 1988)
Représentation numérique d’un document
d ∈ R|V| , dT =(θ1 , . . . θ|V| ), avec θi = f (c(wi ∈ d), c(wi ∈ D))
c(wi ∈ d)
ou ...
ld
dist(d, d0 ) ∝ dT d0 ou ||d − d0 ||k ou ...
θi = TF-IDF(wi ) ou
Modéliser la similarité de contenu en ignorant la syntaxe
François Yvon
Méthodes Statistiques en TAL
8 / 34
Lexicographie computationnelle: la puissance des
associations
You shall know a word by the company it keeps (Firth, 1956)
Représentation numérique d’un mot isolé
r(w) ∈ R|V| , r(w)T =(θ1 , . . . θ|V| ) avec θi = f (c(wi , w))
θi ∝ P(w|wi ) ou IM(w, wi ) ou...
dist(w, w0 ) ∝r(w)T r(w0 )
Déduire le comportement d’observations distributionnelles
François Yvon
Méthodes Statistiques en TAL
9 / 34
Lexicographie computationnelle: la puissance des
associations
You shall know a word by the company it keeps (Firth, 1956)
Représentation numérique d’un mot isolé
r(w) ∈ R|V| , r(w)T =(θ1 , . . . θ|V| ) avec θi = f (c(wi , w))
θi ∝ P(w|wi ) ou IM(w, wi ) ou...
dist(w, w0 ) ∝r(w)T r(w0 )
Déduire le comportement d’observations distributionnelles
François Yvon
Méthodes Statistiques en TAL
9 / 34
Let’s go pick some low hanging fruit. Let’s do what we can with
short-distance dependencies (Church, 2011)
François Yvon
Méthodes Statistiques en TAL
10 / 34
Désambiguïser / Classer
Many important natural language inferences can be viewed as problems of resolving
ambiguity, either semantic or syntactic, based on properties of the surrounding context
(Roth, 1998)
npobj
npsuj
det
npobj
ppmod
det
Paul voit un homme avec un parapluie
François Yvon
Méthodes Statistiques en TAL
11 / 34
Désambiguïser / Classer
Many important natural language inferences can be viewed as problems of resolving
ambiguity, either semantic or syntactic, based on properties of the surrounding context
(Roth, 1998)
npobj
npsuj
det
npobj
ppmod
det
Paul voit un homme avec un téléscope
François Yvon
Méthodes Statistiques en TAL
11 / 34
Désambiguïser / Classer
Many important natural language inferences can be viewed as problems of resolving
ambiguity, either semantic or syntactic, based on properties of the surrounding context
(Roth, 1998)
npobj
npsuj
det
npobj
ppmod
det
Paul voit un homme avec un téléscope
npsuj
det
npobj
det
npobj
ppmod
François Yvon
Méthodes Statistiques en TAL
11 / 34
Désambiguïser / Classer
Many important natural language inferences can be viewed as problems of resolving
ambiguity, either semantic or syntactic, based on properties of the surrounding context
(Roth, 1998)
npobj
npsuj
det
npobj
ppmod
det
Paul voit un homme avec un téléscope
npsuj
det
npobj
det
npobj
ppmod
Adapter les méthodes de la reconnaissance des formes
François Yvon
Méthodes Statistiques en TAL
11 / 34
Désambiguïser / Classer
Many important natural language inferences can be viewed as problems of resolving
ambiguity, either semantic or syntactic, based on properties of the surrounding context
(Roth, 1998)
Une méthodologie bien rôdée
1
exprimer P comme une décision binaire y ∈ {0, 1}
2
représenter le contexte comme un vecteur x ∈ Rp
3
produire des données annotées D = {(xi , yi ), i = 1 . . . N}
4
apprendre fθ : θ∗ = argmaxθ H(θ, D)
5
calculer un taux d’erreur Ẽ[yi 6= fθ (xi )]
François Yvon
Méthodes Statistiques en TAL
12 / 34
Désambiguïser / Classer
Many important natural language inferences can be viewed as problems of resolving
ambiguity, either semantic or syntactic, based on properties of the surrounding context
(Roth, 1998)
Une méthodologie bien rôdée
Désambiguïsateur universel
rattachement prépositionnel : head = V or head = N?
correction "grammaticale” : word = there or word = their ?
désambiguïsation sémantique: bank = B A N K /1 or B A N K /2?
coréférence : (Marie, elle) coréférents ?, il référentiel ?
opinions, sentiments: (text positif ?, utile ?)
implication textuelle: e1 implique e2 ?
etc, etc, etc
François Yvon
Méthodes Statistiques en TAL
12 / 34
Désambiguïser / Classer
Many important natural language inferences can be viewed as problems of resolving
ambiguity, either semantic or syntactic, based on properties of the surrounding context
(Roth, 1998)
Une méthodologie bien rôdée
Désambiguïsateur universel
Limites, développements
construction de x
choix de fθ
choix de H
élargissement de codom (f )
François Yvon
Méthodes Statistiques en TAL
12 / 34
Désambiguïser les structures
NLP research can often be distinguished from text retrieval and mining in its focus on
structural representations of text, or of the language the text is written in. (...) The
assumption is that the linguistic structure of the text must be analyzed, inferred, or, in
our terminology, predicted (...) (Smith, 2011).
x= son petit masque la gêne
S
S
NP
Det
son
y1 =
N
Adj
NP
VP
N
petit masque
Pro
V
Det
la
gêne
son
y2 =
VP
N
V
petit masque
NP
Det
N
la
gêne
Probabiliser les modèles de structures discrètes
François Yvon
Méthodes Statistiques en TAL
13 / 34
Désambiguïser les structures
NLP research can often be distinguished from text retrieval and mining in its focus on
structural representations of text, or of the language the text is written in. (...) The
assumption is that the linguistic structure of the text must be analyzed, inferred, or, in
our terminology, predicted (...) (Smith, 2011).
x= son petit masque la gêne
S
S
NP
Det
son
y1 =
N
Adj
NP
VP
N
petit masque
Pro
V
Det
la
gêne
son
y2 =
VP
N
V
petit masque
NP
Det
N
la
gêne
Probabiliser les modèles de structures discrètes
François Yvon
Méthodes Statistiques en TAL
13 / 34
Désambiguïser les structures
The assumption is that the linguistic structure of the text must be analyzed, inferred, or,
in our terminology, predicted (Smith, 2011)
Une méthodologie bien rôdée (au XXème siècle)
1
choisir un modèle de génération pour (x, y)
G = (V, T, S, P), avec P = {X
2
→
?
α}.Dérivations: S ⇒y x
probabiliser les dérivations
G = (V, T, S, P), avec P = {p(X
→
α)}.Dérivations: p(x, y) =
Q
y
p(Xi
→
αi )
3
inférer y∗ = argmax Pθ (x, y)
4
produire des données annotées D = {(xi , yi ), i = 1 . . . N}
5
estimer Pθ (x, y) / θ∗ = argmaxθ `(θ, D)
6
)∗ ]
[changement d’algèbre (Goodman, 1998)]
calculer un taux d’erreur Ẽ[yi 6= (yi
François Yvon
Méthodes Statistiques en TAL
[par décompte]
14 / 34
Désambiguïser les structures
The assumption is that the linguistic structure of the text must be analyzed, inferred, or,
in our terminology, predicted (Smith, 2011)
Une méthodologie bien rôdée (au XXème siècle)
Probabilisation des structures
séquences: P-FSA
prédiction de mots, modèles de langue
couples de séquences: HMM, P-FST
POS tagging, grapheme-phoneme, correction orthographique, analyse morphologique
arbres: P-CFG, P-LCFG, P-TSG, P-CCG, P-TAG, P-TA, etc.
analyse morphologique, analyse syntaxique en constituants, modèles de langue
dépendances: P-LinkGrammars, P-PDA
analyse syntaxique
couples d’arbres: P-SDTG, P-TIG, P-TT
traduction automatique
etc, etc, etc
François Yvon
Méthodes Statistiques en TAL
14 / 34
Désambiguïser les structures
The assumption is that the linguistic structure of the text must be analyzed, inferred, or,
in our terminology, predicted (Smith, 2011)
Une méthodologie bien rôdée (au XXème siècle)
Probabilisation des structures
Extensions, limites, développements
étiquetage généralisé: balisage
Isabelle
Tellier
nous
fait
visiter
Vandroeuvre
B-Pers
I-Pers
O
O
O
B-Loc
analyse syntaxique de surface, repérage d’entités
combattre le surapprentissage: lissage
les
I-Loc
Nancy
I-Loc
(Chen & Goodman, 1996)
estimer Pθ à structure cachée: EM pour les CFG
(Lari & Young, 1990)
factorisation de la loi jointe et localité des dépendences
François Yvon
Méthodes Statistiques en TAL
14 / 34
Désambiguïser les structures (alt. take)
The assumption is that the linguistic structure of the text must be analyzed, inferred, or,
in our terminology, predicted(Smith, 2011)
Une méthodologie bien rôdée (au XXIeme siècle)
1
choisir une représentation jointe F pour (x, y)
F : X × Y → Rd ; (x, y) → F(x, y)
2
poser une règle d’inférence: y∗ (x, θ) = argmaxy θT F(x, y)
3
produire des données annotées D = {(xi , yi ), i = 1 . . . N}
4
choisir une fonction de perte `(y, y0 )
5
estimer θ / θ∗ = argmaxθ ||θ||k + Ẽ[`(y∗ (x, θ), yi )]
6
calculer un taux d’erreur Ẽ[yi 6= (yi )∗ ]
François Yvon
Méthodes Statistiques en TAL
15 / 34
Désambiguïser les structures (alt. take)
The assumption is that the linguistic structure of the text must be analyzed, inferred, or,
in our terminology, predicted(Smith, 2011)
Une méthodologie bien rôdée (au XXIeme siècle)
Apprentissage structuré discriminant
séquences:
modèle exponentiel (Rosenfeld, Chen, & Zhu, 2001)
couples de séquences:
CRF (Lafferty, McCallum, & Pereira, 2001; Eisner, 2002),
Perceptron structuré (Collins & Duffy, 2002)
arbres: modèle exponentiel (Rozenknop, 2002; Jousse, Gilleron, Tellier, &
Tommasi, 2006), struct-SVM (Tsochantaridis, Hofmann, Joachims, & Altun, 2004; Taskar,
Klein, Collins, Koller, & Manning, 2004)
graphes de dépendances:
couples d’arbres:
(McDonald, Crammer, & Pereira, 2005)
(Blunsom, Cohn, & Osborne, 2008)
etc, etc, etc
François Yvon
Méthodes Statistiques en TAL
15 / 34
Désambiguïser les structures (alt. take)
The assumption is that the linguistic structure of the text must be analyzed, inferred, or,
in our terminology, predicted(Smith, 2011)
Une méthodologie bien rôdée (au XXIeme siècle)
Apprentissage structuré discriminant
Limites, développements
combattre le surapprentissage: régularisation
apprendre avec dérivations cachées
stratégies d’apprentissage et d’optimisation
apprendre avec des pertes structurées
François Yvon
Méthodes Statistiques en TAL
15 / 34
Des fruits moins faciles à atteindre
François Yvon
Méthodes Statistiques en TAL
16 / 34
Apprendre sans supervision
Computational approaches to language processing are almost exclusively supervised,
relying on hand-labeled corpora for training. This reliance is largely due to
unsupervised approaches having repeatedly exhibited discouraging performance. In
particular, the problem of learning syntax (grammar) from completely unannotated text
has received a great deal of attention for well over a decade, with little in the way of
positive results (...) (Klein, 2005)
Apprendre [la grammaire] sans supervision est difficile
inférence non-supervisée de HMM (Merialdo, 1994)
inférence non-supervisée de CFG
Trop de paramètres, pas assez de contraintes
François Yvon
Méthodes Statistiques en TAL
17 / 34
Apprendre sans supervision
Computational approaches to language processing are almost exclusively supervised,
relying on hand-labeled corpora for training. This reliance is largely due to
unsupervised approaches having repeatedly exhibited discouraging performance.
(Klein, 2005)
Apprendre [la grammaire] sans supervision est difficile
Des avancées pratiques, utilisant des représentations “pauvres”
segmenter
I
I
des documents en thèmes: TextTiling (Hearst, 1997)
des mots en “morphèmes” (Goldsmith, 2001)
regrouper
I
I
documents en thèmes (Nigam, McCallum, Thrun, & Mitchell, 2000)
des mots /“morphèmes” en classes syntaxico-sémantiques (Finch &
Chater, 1992; Brown, deSouza, Mercer, Pietra, & Lai, 1992)
reconnaitre
I
I
des collocations, des pré-termes (Dunning, 1993)
des associations bilingues (Gale & Church, 1991)
François Yvon
Méthodes Statistiques en TAL
17 / 34
Apprentissage des représentations
The basic idea is to learn to associate each word in the dictionary with a
continuous-valued vector representation. Each word corresponds to a point in a feature
space. (...) The hope is that functionally similar words get to be closer to each other in
that space, at least along some directions. (...) The advantage of this distributed
representation approach is that it allows the model to generalize well to sequences that
are not in the set of training word sequences, but that are similar in terms of their
features, i.e., their distributed representation. (Bengio, 2008)
Représentations continues
Représenter chaque mot par un vecteur dans Rp de façon que deux
mots proches partagent des propriétés distributionnelles.
La même idée, trois fois
version spectrale (ACM, LSA, et au-delà) (Benzécri, 1975; Dumais et al,
1991)
version probabiliste (PLSA, LDA, H-LDA et au-delà) (Hofmann, 2001;
Blei, Ng, & Jordan, 2002)
version neuronaliste (NNLMs, deep learning et au-delà) (Bengio et al
2003)
François Yvon
Méthodes Statistiques en TAL
18 / 34
Apprentissage des représentations
The basic idea is to learn to associate each word in the dictionary with a
continuous-valued vector representation. Each word corresponds to a point in a feature
space. (...) (Bengio, 2008)
Représentations continues
Représenter chaque mot par un vecteur dans Rp de façon que deux
mots proches partagent des propriétés distributionnelles.
La même idée, trois fois
version spectrale (ACM, LSA, et au-delà) (Benzécri, 1975; Dumais et al,
1991)
version probabiliste (PLSA, LDA, H-LDA et au-delà) (Hofmann, 2001;
Blei et al., 2002)
version neuronaliste (NNLMs, deep learning et au-delà) (Bengio et al
2003)
François Yvon
Méthodes Statistiques en TAL
18 / 34
15 years of picking low hanging fruit has produced a
relatively stable stream of results, and relatively stable
funding. (Church, 2011)
François Yvon
Méthodes Statistiques en TAL
19 / 34
Effectivité de l’appentissage supervisé
Ces réussites en appellent d’autres
Un cadre générique pour l’apprentissage supervisé
des algorithmes pour optimiser, estimer et inférer
des métriques, des pertes, des protocoles, des données annotées
des modules performants aux performances étalonnés
une collaboration bien établie avec les apprentistes
François Yvon
Méthodes Statistiques en TAL
20 / 34
Effectivité de l’appentissage supervisé
Ces réussites en appellent d’autres
Un cadre générique pour l’apprentissage supervisé
Des “challenges” en veux-tu en voilà
implication textuelle cross-lingue
CLTE addresses textual entailment (TE) recognition under the dimension of
cross-linguality, and within the challenging application scenario of content
synchronization
génération à partir de connaissances
The task for participating teams is to develop systems that map the input
representations provided by the KBGen organisers to sentences
correction grammaticale
A participating system in this shared task is given short English texts written
by non-native speakers of English. The system detects the grammatical errors
present in the input texts, and returns the corrected texts.
François Yvon
Méthodes Statistiques en TAL
20 / 34
Effectivité de l’appentissage supervisé
Ces réussites en appellent d’autres
Un cadre générique pour l’apprentissage supervisé
Des “challenges” en veux-tu en voilà
Des demandes pressantes ... et solvables
Machine Reading
The Machine Reading program aims to address this issue by replacing expert and
associated knowledge engineers with un-supervised or self-supervised learning systems
that can ”read” natural text and insert it into AI knowledge bases
Text Analytics
Traduction de textes informels
create new techniques for automated translation and linguistic analysis that can be applied
to the informal genres of text and speech common in online and in-person communication
François Yvon
Méthodes Statistiques en TAL
20 / 34
Quelques problèmes non résolus (I)
La loi de Zipf et ses conséquences
Le mur de brique
The formal property is the existence of discontinuities in linguistic material. Such
dependencies occur in morphology (...) to a limited extent, but are omnipresent in
syntax. (...) In such cases, there is normally no upper bound on the amount of
linguistic material that can separate two dependent elements. As a consequence,
any approach that restricts itself to a particular finite window is bound to fail to
identify some proportion of these dependencies. Of course that proportion falls as
the size of the window increases. Unfortunately, attempts to increase the window
size beyond 2 or 3 encounter data sparseness in the shape of a nearly vertical brick
wall known as Zipf law (1935). Zipf law is a well established empirical generalization
about the frequency distribution of words that says that frequency is inversely
proportional to rank. (Gazdar, 1996, p.21)
François Yvon
Méthodes Statistiques en TAL
21 / 34
Quelques problèmes non résolus (I)
La loi de Zipf et ses conséquences
Le mur de brique
Généraliser mieux ?
de meilleures représentations (cf. supra)
des connaissances / biais linguistiques
François Yvon
Méthodes Statistiques en TAL
21 / 34
Quelques problèmes non résolus (I)
La loi de Zipf et ses conséquences
Le mur de brique
Généraliser mieux ?
Premiers pas ... difficiles
des a priori sur les paramètres
des contraintes [sur les sorties, sur les distributions]
des connaissances “ approximatives / floues”
De nouvelles fonctions à construire et à optimiser, avec quelles
garanties ?
François Yvon
Méthodes Statistiques en TAL
21 / 34
Quelques problèmes non résolus (II)
Domaine, genre, registre, etc: la diversité des langues
More data =? Better data
In fact, global generalizations are often not accurate at all, because there is no
adequate overall linguistic characterization of the entire language; rather, there are
marked linguistic differences across registers (or sublanguages;cf. Kittredge 1982).
(...) individual linguistic features are distributed differently across registers, and
second, the same (or similar) linguistic features can have different functions in
different registers. (Biber, 1993)
François Yvon
Méthodes Statistiques en TAL
22 / 34
Quelques problèmes non résolus (II)
Domaine, genre, registre, etc: la diversité des langues
More data =? Better data
Mieux adapter ?
sélection / pondération d’instances, de caractéristiques
transfert cross-lingue
Théoriser la constitution des corpus ?
François Yvon
Méthodes Statistiques en TAL
22 / 34
Quelques problèmes non résolus (III)
La définition des unités
Phrasélologie, terminologie, non-compositionalité
although the phraseological nature of language has been thoroughly documented by
corpus studies, there is still a tendency, following hundreds of years of lexicographic
tradition, to think of individual words, rather than phrases, as the basic units of
language. Second, since there are severe problems in defining phrasal units in
corpora, it is difficult to know what to count. (Stubbs, 2002)
François Yvon
Méthodes Statistiques en TAL
23 / 34
Quelques problèmes non résolus (III)
La définition des unités
Phrasélologie, terminologie, non-compositionalité
Mieux segmenter ?
accepter l’ambiguïté de segmentation
exploiter des ressources distributionnelles
optimiser le choix des unités
des représentations optimisées pour les constituants
François Yvon
Méthodes Statistiques en TAL
23 / 34
Angle mort (I): l’acquisition du langage
Des frémissements ?
(...) two emerging areas where I expect the interaction between linguistics and
computational linguistics to become increasingly important: psycholinguistics and
language acquisition. (...) Much of this work can be viewed under the slogan
“structured statistical learning”. That is, specifying the structures over which the
learning algorithm generalises is just as important as specifying the learning
algorithm itself. (...), these computational models become tools for investigating the
effect of specific structural assumptions on the acquisition process.(...) One of the
exciting things about this work is that it permits a quantitative evaluation of the
contribution that specific linguistic representations or constraints might make to the
learning process (Johnson, 11)
François Yvon
Méthodes Statistiques en TAL
24 / 34
Angle mort (II): la linguistique de corpus
Outiller la linguistique expérimentale
Probability models have been responsible for a large share of progress in the field in
the last decade and a half. (Kilgariff, 2005)
François Yvon
Méthodes Statistiques en TAL
25 / 34
Méthodes statistiques en TAL
L’état du champ et son devenir
un domaine pulvérisé : l’effet de la tâche
researchers have taken a divide and conquer approach and identified several sub-tasks
useful for application development and analysis. These range from the syntactic, such as
part-of-speech tagging, chunking and parsing, to the semantic, such as wordsense
disambiguation, semantic-role labeling, named entity extraction and anaphora resolution.
(Collobert & Weston, 2005)
un corps de doctrine partagé
de plus en plus technique (informatique, mathématiques
appliquées) et computationnellement exigeant
s’éloignant des méthodes / concepts / représentations de la
linguistique
impulsé par les besoins applicatifs
des succès remarqués: le TAL grand public
des défis scientifiques à relever:
I
poursuivre le dialogue avec l’informatique théorique et
l’apprentissage automatique
renouer avec la linguistique expérimentale
I
François Yvon
Méthodes Statistiques en TAL
26 / 34
Méthodes statistiques en TAL
L’état du champ et son devenir
un domaine pulvérisé : l’effet de la tâche
un corps de doctrine partagé
de plus en plus technique (informatique, mathématiques
appliquées) et computationnellement exigeant
s’éloignant des méthodes / concepts / représentations de la
linguistique
impulsé par les besoins applicatifs
des succès remarqués: le TAL grand public
des défis scientifiques à relever:
I
I
I
poursuivre le dialogue avec l’informatique théorique et
l’apprentissage automatique
renouer avec la linguistique expérimentale
renouer avec les sciences cognitives
François Yvon
Méthodes Statistiques en TAL
26 / 34
Questions ?
François Yvon
Méthodes Statistiques en TAL
27 / 34
Bibliographie I
Biber, D. (1993). Using register-diversified corpora for general
language studies. Computational Linguistics, 19(219–241).
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2002). Latent Dirichlet
allocation. In Advances in neural information processing systems
(nips) (Vol. 14, pp. 601–608).
Blunsom, P., Cohn, T., & Osborne, M. (2008). A discriminative latent
variable model for statistical machine translation. In Proceedings
of acl-08: Hlt (pp. 200–208). Columbus, Ohio.
Brown, P. F., deSouza, P. V., Mercer, R. L., Pietra, V. J. D., & Lai, J. C.
(1992). Class-based n-gram models of natural language.
Computational Linguististics, 18(4), 467–479.
Chen, S. F., & Goodman, J. T. (1996). An empirical study of smoothing
techniques for language modeling. In Proceedings of the 34th
annual meeting of the association for computational linguistics
(acl) (pp. 310–318). Santa Cruz, NM.
François Yvon
Méthodes Statistiques en TAL
28 / 34
Bibliographie II
Church, K. W. (2011). A pendulum swung too far. Linguistic Issues in
Language Technology, 6(8).
Church, K. W., & Mercer, R. L. (1993). Introduction to computational
linguistics special issue on large corpora. Computational
Linguistics, 1(19), 1–24.
Collins, M., & Duffy, N. (2002). New ranking algorithms for parsing and
tagging: kernels over discrete structures and the voted
perceptron. In Proceedings of the annual meeting of the
association for computational linguistics (acl) (pp. 489–496).
Philadelphia, PA.
Dunning, T. (1993). Accurate models for the statistics of surprise and
coincidence. Computational Linguistics, 19(1), 61–74.
Eisner, J. (2002). Parameter estimation for probabilistic finite-state
transducers. In Proceedings of the 40th annual meeting of the
association for computational linguistics (pp. 1–8). Philadelphia,
Pennsylvania, USA.
François Yvon
Méthodes Statistiques en TAL
29 / 34
Bibliographie III
Finch, S., & Chater, N. (1992). Bootstrapping syntactic categories. In
Proceedings of the 14th annual meeting of the cognitive science
society (pp. 820–825).
Gale, W. A., & Church, K. W. (1991). Identifying word correspondence
in parallel texts. In Proceedings of the workshop on speech and
natural language (pp. 152–157). Morristown, NJ, USA:
Association for Computational Linguistics.
Gazdar, G. (1996). Computing tomorrow. In I. Wand & R. Milner
(Eds.), (pp. 88–109). New York, NY, USA: Cambridge University
Press. Retrieved from
http://dl.acm.org/citation.cfm?id=242807.242813
Goldsmith, J. (2001). Unsupervised learning of the morphology of
natural languages. Computational Linguistics, 27(2), 153–198.
Goodman, J. (1998). Parsing inside-outside. Unpublished doctoral
dissertation, Division of Engineering and Applied Sciences,
Harvard University.
François Yvon
Méthodes Statistiques en TAL
30 / 34
Bibliographie IV
Hall, D., Jurafsky, D., & Manning, C. D. (2008, October). Studying the
history of ideas using topic models. In Proceedings of the 2008
conference on empirical methods in natural language processing
(pp. 363–371). Honolulu, Hawaii: Association for Computational
Linguistics.
Hearst, M. (1997). TextTiling: Segmenting texts into multi-paragraph
subtopic passages. Computational Linguistics, 23(1), 33–64.
Hofmann, T. (2001). Unsupervised learning by probabilistic latent
semantic analysis. Machine Learning Journal, 42(1), 177–196.
Jousse, F., Gilleron, R., Tellier, I., & Tommasi, M. (2006). Conditional
random fields for xml trees. In Proceedings of the ecml workshop
on mining and learning in graphs.
Klein, D. (2005). The unsupervised learning of natural language
structures. Unpublished doctoral dissertation, Stanford
University.
François Yvon
Méthodes Statistiques en TAL
31 / 34
Bibliographie V
Lafferty, J., McCallum, A., & Pereira, F. (2001). Conditional random
fields: Probabilistic models for segmenting and labeling
sequence data. In Proceedings of the 18th international
conference on machine learning (icml) (pp. 282–289). Morgan
Kaufmann, San Francisco, CA.
Lari, K., & Young, S. J. (1990). The Estimation of Stochastic
Context-Free Grammars using the Inside-Outside Algorithm.
Computer Speech & Language, 4, 35–56.
McDonald, R., Crammer, K., & Pereira, F. (2005, June). Online
large-margin training of dependency parsers. In Proceedings of
the 43rd annual meeting of the association for computational
linguistics (acl’05) (pp. 91–98). Ann Arbor, Michigan: Association
for Computational Linguistics.
Nigam, K., McCallum, A. K., Thrun, S., & Mitchell, T. M. (2000). Text
classification from labeled and unlabeled documents using EM.
Machine Learning, 39(2/3), 103–134.
François Yvon
Méthodes Statistiques en TAL
32 / 34
Bibliographie VI
Rosenfeld, R., Chen, S. F., & Zhu, X. (2001). Whole-sentence
exponential language models: a vehicle for linguistic-statistical
integration. Computer Speech and Language, 15, 55–73.
Roth, D. (1998). Learning to resolve natural language ambiguities: a
unified approach. In Proceedings of the annual meeting of the
american association for artificial intelligence (aaai) (pp.
806–813). Madison, WI.
Rozenknop, A. (2002). Modèles syntaxiques probabilistes
non-gènératifs. Unpublished doctoral dissertation, Dpt.
d’informatique, Ecole Polytechnique Fédérale de Lausanne.
Smith, N. A. (2011). Linguistic structure prediction. Morgan and
Claypool.
Stubbs, M. (2002). Two quantitativemethods of studying phraseology
in english. International Journal of Corpus Linguistics.
François Yvon
Méthodes Statistiques en TAL
33 / 34
Bibliographie VII
Taskar, B., Klein, D., Collins, M., Koller, D., & Manning, C. (2004).
Max-margin parsing. In Proceedings of the conference on
empirical methods in natural language processing (emnlp04).
Barcelona, Spain.
Tsochantaridis, I., Hofmann, T., Joachims, T., & Altun, Y. (2004).
Support vector machine learning for interdependent and
structured output spaces. In International conference on
machine learning (icml).
François Yvon
Méthodes Statistiques en TAL
34 / 34