Apprentissage Automatique Définition ? (Wikipedia)
Transcription
Apprentissage Automatique Définition ? (Wikipedia)
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition ? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs d'étude de l'intelligence artificielle. L'apprentissage automatique fait référence au développement, à l'analyse et à l'implémentation de méthodes qui permettent à une machine (au sens large) d'évoluer grâce à un processus d'apprentissage, et ainsi de remplir des tâches qu'il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques. J.F. Bonastre 2 1 Qu’est ce que « l’apprentissage automatique » ? ? Extraire de l’information à partir de données (corpus based approaches) J.F. Bonastre Définition 3 (http://www.grappa.univ-lille3.fr/polys/apprentissage/index.html) Apprentissage à partir d’exemples Classification supervisée Lien Apprentissage – Classification J.F. Bonastre 4 2 Définition (http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637) Apprentissage automatique – un carrefour 5 J.F. Bonastre Définition (http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637) Vision Statistique Vision Intelligence artificielle But = apprendre des fonctions à partir de données Fonctions complexes vs non paramétriques Dimensionnalité de l’espace Taille des corpus Inspiration But : imiter ou reproduire des comportements intelligents “naturels” source de problèmes “classiques” (reconnaissance d’écriture, parole, etc.) différences approche inductive – apprentissage a partir des exemples J.F. Bonastre approche probabiliste 6 3 Définition (http://indico.lal.in2p3.fr/conferenceDisplay.py?confId=a0637) Théorie des probabilités outils d’analyse de modèles théoriques Théorie de l’optimisation Sciences cognitives, neurosciences outils algorithmiques Sources d’inspiration Théorie de l’information, traitement du signal Problèmes et méthodologies partagés J.F. Bonastre 7 Types d’algorithmes (Wikipedia) L'apprentissage supervisé : un expert (ou oracle) est employé pour étiqueter correctement des exemples. L'apprenant doit alors trouver ou approximer la fonction qui permet d'affecter la bonne étiquette à ces exemples. L'apprentissage non-supervisé L'apprentissage par renforcement J.F. Bonastre 8 4 Quelques algos (Wikipedia) les machines à vecteur de support le boosting les réseaux de neurones pour un apprentissage supervisé ou nonsupervisé la méthode des k plus proches voisins pour un apprentissage supervisé les arbres de décision les méthodes statistiques comme le modèle de mixture gaussienne la régression logistique l'analyse discriminante linéaire la logique floue les algorithmes génétiques et la programmation génétique J.F. Bonastre 9 A quoi ça sert ? ? Analyse financière : prévision d'évolution de marchés Marketing : établir un profil client, mailing Banque : attribution de prêts Médecine : aide au diagnostic, Télecom : détection de fraudes. Biométrie Robotique Reconnaissance de forme OCR Transcription de la parole Compréhension/Dialogue Recherche d’information (moteur internet, moteur multimédia) J.F. Bonastre 10 5 Un exemple Un exemple d’outil (1) Navigation dans des bases de données audio Orientation « moteur de recherche » Présentation synthétique de l’information Technologies développées au LIA Travail (très) coopératif Nombreuses thèses dont celle de Benoît Favre (mars 2007) en collaboration avec Thales Communications J.F. Bonastre 12 6 Un exemple d’outil (2) Des données (~ 100h) Un besoin d’information (« Chirac ») Une réponse sous forme d’un résumé audio par concaténation Problèmes Perte du contexte Difficulté pour naviguer Nécessité de connaître précisément l’objectif Solution ? Frise J.F. Bonastre Un exemple d’outil Annexes 13 (3) J.F. Bonastre 14 7 Un exemple d’outil Commentaires (4) ~100 heures de parole (base publique, ESTER) Peu de couverture temporelle (les données sont espacées sur une longue période) Etendu à 1700 heures. Pas de soucis hormis l’interface (temps d’accès aux données audio) 100 % automatique Analyse sémantique réalisée sur les données « le monde », ~ 500 millions de mots En ligne (http://pc-favre.iup.univ-avignon.fr:7777/) J.F. Bonastre Un exemple d’outil Limites 15 (5) Démonstrateur ! L'identité du locuteur n'est pas encore ajoutée au niveau des traitements sémantiques Id pour des marqueurs liés à la parole (« émotions »/style, taux d'interaction,...) Ajout de « curseurs » couverture thématique nouveauté J.F. Bonastre 16 8 Technologies Technologies (1) Paramétrisation et Séparation en classes/locuteurs… Représentation du signal (paramétrisation) Représentation tempsfréquence Atténuation des bruits, normalisations Traitement du signal Traitements « acoustiques » Segmentation en classes Segmentation en locuteurs Identification/Suivi des locuteurs J.F. Bonastre Apprentissage automatique Techniques statistiques 18 9 Technologies (2) Apprentissage automatique « statistique » GMM Estimateur de densité à partir d’exemples (et connaissances) -> modèle de la distribution Mélange de Gaussiennes Multidimensionnelles Algo standards (EM, MAP…) J.F. Bonastre 19 Technologies (3) Moteur de reconnaissance de la parole Modélisation acoustique Modèles initiaux (par condition) Adaptation au locuteur Adaptation aux conditions Modélisation linguistique Algorithme de décodage Graphe d’hypothèses très, trop large J.F. Bonastre Apprentissage automatique Techniques statistiques + connaissances Algorithmes de parcours efficaces (Token, Stack, A*…) 20 10 Technologies (4) Modélisation acoustique Passer du « statique au dynamique » HMM (Modèles de Markov Cachés) Transitions (probabilités) Etats (p. émission -> GMM) Viterbi, Baum-Welch Mot ->Modèles composés I U F Lexique de mots 1 mot = suite de phone 1 phone = 1 phonème en contexte = 1 HMM 3 états Choix des triphones (contextes manquants) Constitution du lexique (mots composés…) Connaissances J.F. Bonastre 21 Technologies (5) Apprentissage automatique « statistique » Modèles de langage Ngram : probabilité de i connaissant i-1, …, i-n Moti-2 Moti-1 Moti Nclass : probabilité de la classe i connaissant les classes i-1, … i-n Mot -> classe Ngram Grammaires spécifiques, règles, combinaison… J.F. Bonastre Difficultés : * backoff * corpus * lexique * nettoyage * noms propres * évolutions Exemple présenté : * 3 gram * 20 M transcriptions * 550 M « le monde » 22 11 Technologies (6) Segmentation en phase, Entités Nommées Segmentation Entités Nommées Conditional Random Fields Noms de personnes, organisations, lieux Dates et quantités numériques Stratégie mixte Informations hétérogènes Linguistique (Transcription, Étiquettes syntaxiques) Prosodiques (Pauses, Pente de f0, Tours de parole) J.F. Bonastre Grammaires locales Modèles N-gram 23 Segmentation en phrases – CRF (CRF++) Mots (bigram) Etiquetage morphosyntaxique (LIA_TAG) Changement de locuteurs Prosodie Fin de segments Pause avant, entre les 2 mots Fo (sur 3 horizons t.) J.F. Bonastre 24 12 Technologies (7) Extraction de connaissance, résumé Représentation sous forme vectorielle (~dim. 65 k) Latent Semantic Analysis Maximal Marginal Relevance Maximum de couverture Minimum de redondance Représentation conceptuelle Projection des phases dans un espace conceptuel Sélection des phrases Séparation des calculs Intérêt général des Fonction des cooccurrences phrases/mots (pré-calculé) Dépendant de la requête Rend compte de la « proximité sémantique » Réduction de l’espace (SVD) Création de « concepts » Réponse « temps réel » Espace pré-appris J.F. Bonastre 25 Maximal Margin Relevance (MMR) Objectifs Sélection de phrases suivant un besoin Maximiser l’information, minimiser la redondance Adaptation au contexte (efficacité et interactivité) Informations sur la forme, précalculées Informations venant du besoin utilisateur, calculées à la demande Appliquée dans un « espace sémantique » J.F. Bonastre 26 13 L’espace sémantique VSM - Modèle algébrique/vectoriel classique Requêtes et candidats sont exprimés sous forme d’un vecteur Une dimension = 1 mot du vocabulaire Une valeur = nb occurrences du mot dans le document concerné En fait, Inverse Document Frequency J.F. Bonastre 27 L’espace sémantique VSM - Modèle algébrique/vectoriel classique Modèle « sac de mots » Ne prend pas en compte l’ordre des mots Ne prend pas en compte les corrélations inter mots Evolution vers GVSM Basé sur les corrélations inter mots Complexe pour peu d’amélioration J.F. Bonastre 28 14 L’espace sémantique Latent Semantic Analysis Même principe que GVSM (corrélations) Le point de départ est une matrice de cooccurrence Case i,j donne le nombre de cooccurrences des mots i et j dans un contexte donné Le contexte ? Phrase, document, fenêtre… Utilisation d’une décomposition en valeurs singulières (SVD) Réduction de la complexité (représentation par une matrice de taille réduite) Emergence de « thèmes » = axes 29 J.F. Bonastre L’espace sémantique Latent Semantic Analysis Matrice initiale de cooccurrences Décomposition par SVD Vecteurs singuliers orthogonaux (nvle base) « thèmes » Matrice diagonale des valeurs singulières Réduction à une dimension k J.F. Bonastre 30 15 L’espace sémantique Latent Semantic Analysis Projection d’un document dans LSA Mesure cosine de similarité J.F. Bonastre 31 Performances de la chaîne de structuration LIA (data de la démo) J.F. Bonastre 32 16