Apprentissage Automatique Définition ? (Wikipedia)

Transcription

Apprentissage Automatique Définition ? (Wikipedia)
Apprentissage
Automatique
Introduction-I
[email protected]
www.lia.univ-avignon.fr
Définition ? (Wikipedia)
L'apprentissage automatique (machine-learning en
anglais) est un des champs d'étude de l'intelligence
artificielle.
L'apprentissage automatique fait référence au
développement, à l'analyse et à l'implémentation de
méthodes qui permettent à une machine (au sens large)
d'évoluer grâce à un processus d'apprentissage, et ainsi
de remplir des tâches qu'il est difficile ou impossible de
remplir par des moyens algorithmiques plus classiques.
J.F. Bonastre
2
1
Qu’est ce que
« l’apprentissage automatique » ?
?
Extraire de l’information à partir de données
(corpus based approaches)
J.F. Bonastre
Définition
3
(http://www.grappa.univ-lille3.fr/polys/apprentissage/index.html)
Apprentissage à partir d’exemples
„
Classification supervisée
Lien Apprentissage – Classification
J.F. Bonastre
4
2
Définition
(http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637)
Apprentissage automatique – un carrefour
5
J.F. Bonastre
Définition
(http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637)
Vision Statistique
„
„
„
„
„
Vision Intelligence artificielle
But = apprendre des
fonctions à partir de données
Fonctions complexes vs non
paramétriques
Dimensionnalité de l’espace
Taille des corpus
Inspiration
„
„
„
But : imiter ou reproduire des
comportements intelligents
“naturels”
source de problèmes
“classiques” (reconnaissance
d’écriture, parole, etc.)
différences
Š approche inductive –
apprentissage a partir des
exemples
„
J.F. Bonastre
approche probabiliste
6
3
Définition
(http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637)
Théorie des probabilités
„
outils d’analyse de
modèles théoriques
„
Théorie de l’optimisation
„
Sciences cognitives,
neurosciences
outils algorithmiques
Sources d’inspiration
Théorie de l’information,
traitement du signal
„
Problèmes et
méthodologies partagés
J.F. Bonastre
7
Types d’algorithmes (Wikipedia)
L'apprentissage supervisé : un expert (ou
oracle) est employé pour étiqueter
correctement des exemples. L'apprenant doit
alors trouver ou approximer la fonction qui
permet d'affecter la bonne étiquette à ces
exemples.
L'apprentissage non-supervisé
L'apprentissage par renforcement
J.F. Bonastre
8
4
Quelques algos (Wikipedia)
les machines à vecteur de support
le boosting
les réseaux de neurones pour un apprentissage supervisé ou nonsupervisé
la méthode des k plus proches voisins pour un apprentissage
supervisé
les arbres de décision
les méthodes statistiques comme le modèle de mixture gaussienne
la régression logistique
l'analyse discriminante linéaire
la logique floue
les algorithmes génétiques et la programmation génétique
J.F. Bonastre
9
A quoi ça sert ?
?
Analyse financière : prévision d'évolution de marchés
Marketing : établir un profil client, mailing
Banque : attribution de prêts
Médecine : aide au diagnostic,
Télecom : détection de fraudes.
Biométrie
Robotique
Reconnaissance de forme
„
„
„
OCR
Transcription de la parole
Compréhension/Dialogue
Recherche d’information (moteur internet, moteur multimédia)
J.F. Bonastre
10
5
Un exemple
Un exemple d’outil
(1)
Navigation dans des bases de
données audio
„
„
Orientation « moteur de
recherche »
Présentation synthétique de
l’information
Technologies développées au
LIA
„
„
Travail (très) coopératif
Nombreuses thèses
Š dont celle de Benoît Favre
(mars 2007) en collaboration
Š avec Thales Communications
J.F. Bonastre
12
6
Un exemple d’outil
(2)
Des données (~ 100h)
Un besoin d’information
(« Chirac »)
Une réponse sous forme d’un
résumé audio par
concaténation
Problèmes
„
„
„
Perte du contexte
Difficulté pour naviguer
Nécessité de connaître
précisément l’objectif
Solution ? Frise
J.F. Bonastre
Un exemple d’outil
Annexes
13
(3)
J.F. Bonastre
14
7
Un exemple d’outil
Commentaires
(4)
~100 heures de parole (base publique, ESTER)
„
„
Peu de couverture temporelle (les données sont
espacées sur une longue période)
Etendu à 1700 heures. Pas de soucis hormis
l’interface (temps d’accès aux données audio)
100 % automatique
Analyse sémantique réalisée sur les données
« le monde », ~ 500 millions de mots
En ligne (http://pc-favre.iup.univ-avignon.fr:7777/)
J.F. Bonastre
Un exemple d’outil
Limites
15
(5)
Démonstrateur !
L'identité du locuteur n'est pas encore ajoutée
au niveau des traitements sémantiques
Id pour des marqueurs liés à la parole
(« émotions »/style, taux d'interaction,...)
Ajout de « curseurs »
„
„
couverture thématique
nouveauté
J.F. Bonastre
16
8
Technologies
Technologies
(1)
Paramétrisation et Séparation en classes/locuteurs…
Représentation du signal
(paramétrisation)
„
„
Représentation tempsfréquence
Atténuation des bruits,
normalisations
Traitement du signal
Traitements
« acoustiques »
„
„
„
Segmentation en classes
Segmentation en locuteurs
Identification/Suivi des
locuteurs
J.F. Bonastre
Apprentissage automatique
Techniques statistiques
18
9
Technologies (2)
Apprentissage automatique « statistique »
GMM
Estimateur de densité
à partir d’exemples (et connaissances)
-> modèle de la distribution
Mélange de Gaussiennes
Multidimensionnelles
Algo standards
(EM, MAP…)
J.F. Bonastre
19
Technologies (3)
Moteur de reconnaissance de la parole
Modélisation acoustique
„
„
„
Modèles initiaux
(par condition)
Adaptation au locuteur
Adaptation aux conditions
Modélisation linguistique
Algorithme de décodage
„
Graphe d’hypothèses très,
trop large
J.F. Bonastre
Apprentissage automatique
Techniques statistiques
+ connaissances
Algorithmes de
parcours efficaces
(Token, Stack, A*…)
20
10
Technologies (4)
Modélisation acoustique
Passer du « statique au
dynamique »
HMM (Modèles de Markov Cachés)
Transitions (probabilités)
Etats (p. émission -> GMM)
Viterbi, Baum-Welch
Mot ->Modèles composés
I
U
F
Lexique de mots
1 mot = suite de phone
1 phone = 1 phonème en contexte
= 1 HMM 3 états
Choix des triphones (contextes manquants)
Constitution du lexique (mots composés…)
Connaissances
J.F. Bonastre
21
Technologies (5)
Apprentissage automatique « statistique »
Modèles de langage
„
Ngram : probabilité de i
connaissant i-1, …, i-n
Moti-2 Moti-1 Moti
„
Nclass : probabilité de la
classe i connaissant les
classes i-1, … i-n
Š Mot -> classe
Š Ngram
Grammaires spécifiques,
règles, combinaison…
J.F. Bonastre
Difficultés :
* backoff
* corpus
* lexique
* nettoyage
* noms propres
* évolutions
Exemple présenté :
* 3 gram
* 20 M transcriptions
* 550 M « le monde »
22
11
Technologies (6)
Segmentation en phase, Entités Nommées
Segmentation
Entités Nommées
Conditional Random Fields
„
„
„
Noms de personnes,
organisations, lieux
Dates et quantités numériques
Stratégie mixte
Informations hétérogènes
Linguistique (Transcription,
Étiquettes syntaxiques)
Prosodiques (Pauses, Pente
de f0, Tours de parole)
„
„
J.F. Bonastre
Grammaires locales
Modèles N-gram
23
Segmentation en phrases – CRF (CRF++)
Mots (bigram)
Etiquetage morphosyntaxique (LIA_TAG)
Changement de locuteurs
Prosodie
„
„
„
Fin de segments
Pause avant, entre les 2 mots
Fo (sur 3 horizons t.)
J.F. Bonastre
24
12
Technologies (7)
Extraction de connaissance, résumé
Représentation sous forme
vectorielle (~dim. 65 k)
Latent Semantic Analysis
„
Maximal Marginal Relevance
„
Š Maximum de couverture
Š Minimum de redondance
Représentation conceptuelle
Š Projection des phases dans
un espace conceptuel
Sélection des phrases
„
Séparation des calculs
Š Intérêt général des
Š Fonction des cooccurrences
phrases/mots (pré-calculé)
Š Dépendant de la requête
Š Rend compte de la
« proximité sémantique »
„
Réduction de l’espace (SVD)
Š Création de « concepts »
Š Réponse « temps réel »
Š Espace pré-appris
J.F. Bonastre
25
Maximal Margin Relevance (MMR)
Objectifs
„
„
„
Sélection de phrases suivant un besoin
Maximiser l’information, minimiser la redondance
Adaptation au contexte (efficacité et interactivité)
Š Informations sur la forme, précalculées
Š Informations venant du besoin utilisateur, calculées à la
demande
Appliquée dans un « espace sémantique »
J.F. Bonastre
26
13
L’espace sémantique
VSM - Modèle algébrique/vectoriel classique
Requêtes et candidats sont exprimés sous
forme d’un vecteur
Une dimension = 1 mot du vocabulaire
Une valeur = nb occurrences du mot
dans le document concerné
En fait, Inverse Document Frequency
J.F. Bonastre
27
L’espace sémantique
VSM - Modèle algébrique/vectoriel classique
Modèle « sac de mots »
„
„
Ne prend pas en compte l’ordre des mots
Ne prend pas en compte les corrélations inter mots
Evolution vers GVSM
„
„
Basé sur les corrélations inter mots
Complexe pour peu d’amélioration
J.F. Bonastre
28
14
L’espace sémantique
Latent Semantic Analysis
Même principe que GVSM (corrélations)
„
„
„
Le point de départ est une matrice de cooccurrence
Case i,j donne le nombre de cooccurrences des mots
i et j dans un contexte donné
Le contexte ? Phrase, document, fenêtre…
Utilisation d’une décomposition en valeurs
singulières (SVD)
„
„
Réduction de la complexité (représentation par une
matrice de taille réduite)
Emergence de « thèmes » = axes
29
J.F. Bonastre
L’espace sémantique
Latent Semantic Analysis
Matrice initiale de cooccurrences
Décomposition par SVD
Vecteurs singuliers
orthogonaux
(nvle base)
« thèmes »
Matrice diagonale
des valeurs singulières
Réduction à une dimension k
J.F. Bonastre
30
15
L’espace sémantique
Latent Semantic Analysis
Projection d’un document dans LSA
Mesure cosine de similarité
J.F. Bonastre
31
Performances de la chaîne de structuration
LIA (data de la démo)
J.F. Bonastre
32
16