Apprentissage Automatique Définition ? (Wikipedia)

Transcription

Apprentissage
Automatique
Introduction-I
[email protected]
www.lia.univ-avignon.fr
Définition ? (Wikipedia)
L'apprentissage automatique (machine-learning en
anglais) est un des champs d'étude de l'intelligence
artificielle.
L'apprentissage automatique fait référence au
développement, à l'analyse et à l'implémentation de
méthodes qui permettent à une machine (au sens large)
d'évoluer grâce à un processus d'apprentissage, et ainsi
de remplir des tâches qu'il est difficile ou impossible de
remplir par des moyens algorithmiques plus classiques.
J.F. Bonastre
2
1
Qu’est ce que
« l’apprentissage automatique » ?
?
Extraire de l’information à partir de données
(corpus based approaches)
J.F. Bonastre
Définition
3
(http://www.grappa.univ-lille3.fr/polys/apprentissage/index.html)
Apprentissage à partir d’exemples

Classification supervisée
Lien Apprentissage – Classification
J.F. Bonastre
4
2
Définition
(http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637)
Apprentissage automatique – un carrefour
5
J.F. Bonastre
Définition
Vision Statistique

Vision Intelligence artificielle
But = apprendre des
fonctions à partir de données
Fonctions complexes vs non
paramétriques
Dimensionnalité de l’espace
Taille des corpus
Inspiration

But : imiter ou reproduire des
comportements intelligents
“naturels”
source de problèmes
“classiques” (reconnaissance
d’écriture, parole, etc.)
différences
approche inductive –
apprentissage a partir des
exemples

J.F. Bonastre
approche probabiliste
6
3
Définition
Théorie des probabilités

outils d’analyse de
modèles théoriques

Théorie de l’optimisation

Sciences cognitives,
neurosciences
outils algorithmiques
Sources d’inspiration
Théorie de l’information,
traitement du signal

Problèmes et
méthodologies partagés
J.F. Bonastre
7
Types d’algorithmes (Wikipedia)
L'apprentissage supervisé : un expert (ou
oracle) est employé pour étiqueter
correctement des exemples. L'apprenant doit
alors trouver ou approximer la fonction qui
permet d'affecter la bonne étiquette à ces
exemples.
L'apprentissage non-supervisé
L'apprentissage par renforcement
J.F. Bonastre
8
4
Quelques algos (Wikipedia)
les machines à vecteur de support
le boosting
les réseaux de neurones pour un apprentissage supervisé ou nonsupervisé
la méthode des k plus proches voisins pour un apprentissage
supervisé
les arbres de décision
les méthodes statistiques comme le modèle de mixture gaussienne
la régression logistique
l'analyse discriminante linéaire
la logique floue
les algorithmes génétiques et la programmation génétique
J.F. Bonastre
9
A quoi ça sert ?
?
Analyse financière : prévision d'évolution de marchés
Marketing : établir un profil client, mailing
Banque : attribution de prêts
Médecine : aide au diagnostic,
Télecom : détection de fraudes.
Biométrie
Robotique
Reconnaissance de forme

OCR
Transcription de la parole
Compréhension/Dialogue
Recherche d’information (moteur internet, moteur multimédia)
J.F. Bonastre
10
5
Un exemple
Un exemple d’outil
(1)
Navigation dans des bases de
données audio

Orientation « moteur de
recherche »
Présentation synthétique de
l’information
Technologies développées au
LIA

Travail (très) coopératif
Nombreuses thèses
dont celle de Benoît Favre
(mars 2007) en collaboration
avec Thales Communications
J.F. Bonastre
12
6
(2)
Des données (~ 100h)
Un besoin d’information
(« Chirac »)
Une réponse sous forme d’un
résumé audio par
concaténation
Problèmes

Perte du contexte
Difficulté pour naviguer
Nécessité de connaître
précisément l’objectif
Solution ? Frise
J.F. Bonastre
Annexes
13
(3)
J.F. Bonastre
14
7
Commentaires
(4)
~100 heures de parole (base publique, ESTER)

Peu de couverture temporelle (les données sont
espacées sur une longue période)
Etendu à 1700 heures. Pas de soucis hormis
l’interface (temps d’accès aux données audio)
100 % automatique
Analyse sémantique réalisée sur les données
« le monde », ~ 500 millions de mots
En ligne (http://pc-favre.iup.univ-avignon.fr:7777/)
J.F. Bonastre
Limites
15
(5)
Démonstrateur !
L'identité du locuteur n'est pas encore ajoutée
au niveau des traitements sémantiques
Id pour des marqueurs liés à la parole
(« émotions »/style, taux d'interaction,...)
Ajout de « curseurs »

couverture thématique
nouveauté
J.F. Bonastre
16
8
Technologies
Technologies
(1)
Paramétrisation et Séparation en classes/locuteurs…
Représentation du signal
(paramétrisation)

Représentation tempsfréquence
Atténuation des bruits,
normalisations
Traitement du signal
Traitements
« acoustiques »

Segmentation en classes
Segmentation en locuteurs
Identification/Suivi des
locuteurs
J.F. Bonastre
Apprentissage automatique
Techniques statistiques
18
9
Technologies (2)
Apprentissage automatique « statistique »
GMM
Estimateur de densité
à partir d’exemples (et connaissances)
-> modèle de la distribution
Mélange de Gaussiennes
Multidimensionnelles
Algo standards
(EM, MAP…)
J.F. Bonastre
19
Technologies (3)
Moteur de reconnaissance de la parole
Modélisation acoustique

Modèles initiaux
(par condition)
Adaptation au locuteur
Adaptation aux conditions
Modélisation linguistique
Algorithme de décodage

Graphe d’hypothèses très,
trop large
J.F. Bonastre
Apprentissage automatique
Techniques statistiques
+ connaissances
Algorithmes de
parcours efficaces
(Token, Stack, A*…)
20
10
Technologies (4)
Modélisation acoustique
Passer du « statique au
dynamique »
HMM (Modèles de Markov Cachés)
Transitions (probabilités)
Etats (p. émission -> GMM)
Viterbi, Baum-Welch
Mot ->Modèles composés
I
U
F
Lexique de mots
1 mot = suite de phone
1 phone = 1 phonème en contexte
= 1 HMM 3 états
Choix des triphones (contextes manquants)
Constitution du lexique (mots composés…)
Connaissances
J.F. Bonastre
21
Technologies (5)
Apprentissage automatique « statistique »
Modèles de langage

Ngram : probabilité de i
connaissant i-1, …, i-n
Moti-2 Moti-1 Moti

Nclass : probabilité de la
classe i connaissant les
classes i-1, … i-n
Mot -> classe
Ngram
Grammaires spécifiques,
règles, combinaison…
J.F. Bonastre
Difficultés :
* backoff
* corpus
* lexique
* nettoyage
* noms propres
* évolutions
Exemple présenté :
* 3 gram
* 20 M transcriptions
* 550 M « le monde »
22
11
Technologies (6)
Segmentation en phase, Entités Nommées
Segmentation
Entités Nommées
Conditional Random Fields

Noms de personnes,
organisations, lieux
Dates et quantités numériques
Stratégie mixte
Informations hétérogènes
Linguistique (Transcription,
Étiquettes syntaxiques)
Prosodiques (Pauses, Pente
de f0, Tours de parole)

J.F. Bonastre
Grammaires locales
Modèles N-gram
23
Segmentation en phrases – CRF (CRF++)
Mots (bigram)
Etiquetage morphosyntaxique (LIA_TAG)
Changement de locuteurs
Prosodie

Fin de segments
Pause avant, entre les 2 mots
Fo (sur 3 horizons t.)
J.F. Bonastre
24
12
Technologies (7)
Extraction de connaissance, résumé
Représentation sous forme
vectorielle (~dim. 65 k)
Latent Semantic Analysis

Maximal Marginal Relevance

Maximum de couverture
Minimum de redondance
Représentation conceptuelle
Projection des phases dans
un espace conceptuel
Sélection des phrases

Séparation des calculs
Intérêt général des
Fonction des cooccurrences
phrases/mots (pré-calculé)
Dépendant de la requête
Rend compte de la
« proximité sémantique »

Réduction de l’espace (SVD)
Création de « concepts »
Réponse « temps réel »
Espace pré-appris
J.F. Bonastre
25
Maximal Margin Relevance (MMR)
Objectifs

Sélection de phrases suivant un besoin
Maximiser l’information, minimiser la redondance
Adaptation au contexte (efficacité et interactivité)
Informations sur la forme, précalculées
Informations venant du besoin utilisateur, calculées à la
demande
Appliquée dans un « espace sémantique »
J.F. Bonastre
26
13
L’espace sémantique
VSM - Modèle algébrique/vectoriel classique
Requêtes et candidats sont exprimés sous
forme d’un vecteur
Une dimension = 1 mot du vocabulaire
Une valeur = nb occurrences du mot
dans le document concerné
En fait, Inverse Document Frequency
J.F. Bonastre
27
VSM - Modèle algébrique/vectoriel classique
Modèle « sac de mots »

Ne prend pas en compte l’ordre des mots
Ne prend pas en compte les corrélations inter mots
Evolution vers GVSM

Basé sur les corrélations inter mots
Complexe pour peu d’amélioration
J.F. Bonastre
28
14
Même principe que GVSM (corrélations)

Le point de départ est une matrice de cooccurrence
Case i,j donne le nombre de cooccurrences des mots
i et j dans un contexte donné
Le contexte ? Phrase, document, fenêtre…
Utilisation d’une décomposition en valeurs
singulières (SVD)

Réduction de la complexité (représentation par une
matrice de taille réduite)
Emergence de « thèmes » = axes
29
J.F. Bonastre
Matrice initiale de cooccurrences
Décomposition par SVD
Vecteurs singuliers
orthogonaux
(nvle base)
« thèmes »
Matrice diagonale
des valeurs singulières
Réduction à une dimension k
J.F. Bonastre
30
15
Projection d’un document dans LSA
Mesure cosine de similarité
J.F. Bonastre
31
Performances de la chaîne de structuration
LIA (data de la démo)
J.F. Bonastre
32
16