Apprentissages
Transcription
Apprentissages
Apprentissages Joel Quinqueton, LIRMM et INRIA Plan du cours • • • • Généralités Méthodes d ’origine statistique Méthodes d ’Intelligence Artificielle Méthodes incrémentales jeudi 17 février 2005 Apprentissages 2 Généralités • • • • • Définitions et références Un peu d ’histoire Exemples de problèmes Apprentissage de concepts Théorie de l ’apprenabilité jeudi 17 février 2005 Apprentissages 3 Définitions et références • Un programme apprend (Mitchell): – par l ’expérience E par rapport à une classe de tâches T et une mesure de performances P – si sa performance pour les tâches de T mesurée par P s ’améliore avec E • Quelques livres récents – Tom M. Mitchell, Machine Learning, Mac Graw Hill, 1997 – Pat Langley, Machine Learning, … (1996?) jeudi 17 février 2005 Apprentissages 4 Un peu d ’histoire • • • • • • • • Intelligence Artificielle Théorie de la complexité Méthodes bayesiennes Théorie du contrôle Théorie de l’Information Philosophie Psychologie et Neurobiologie Statistiques jeudi 17 février 2005 Apprentissages 5 Exemples de problèmes • Anticiper le comportement d ’un utilisateur – Exemples: supervision de réseaux, prise de notes – CoMMA: Apprendre les préférences d’un utilisateur • Apprendre à jouer aux dames • Extrapolation jeudi 17 février 2005 Apprentissages 6 Exemple pour le cours • Quand a-t-on envie de faire du sport? Numéro 1 2 3 4 A B C D Ciel Ensoleillé Ensoleillé Pluvieux Ensoleillé Ensoleillé Pluvieux Ensoleillé Ensoleillé jeudi 17 février 2005 Température Chaud Chaud Froid Chaud Chaud Froid Chaud Froid Humidité Vent Eau Prévision Normale Fort Chaude Stable Elevée Fort Chaude Stable Elevée Fort Chaude Variable Elevée Fort Fraiche Variable Normale Fort Fraiche Variable Normale Faible Chaude Stable Normale Faible Chaude Stable Normale Fort Chaude Stable Apprentissages Envie sport Oui Oui Non Oui ? ? ? ? 7 Apprentissage de concepts • • • • Apprendre un concept Les espaces de versions Généralisation Le biais inductif jeudi 17 février 2005 Apprentissages 8 Apprendre un concept • Il s ’agit d ’apprendre une fonction à valeur booléenne à partir de ses entrées-sorties • Du général au Spécifique <Ensoleillé, Chaud, ?, Fort, ?, ?> • Les espaces de versions <?, Chaud, ?, Fort, ?, ?> jeudi 17 février 2005 Apprentissages 9 Les espaces de versions • Incrémental • Maintient l ’espace des concepts possibles S0 <0, 0, 0, 0, 0, 0> G0 <?, ?, ?, ?, ?, ?> jeudi 17 février 2005 Apprentissages 10 Déroulement de l ’algorithme (1) Présentation du 1er exemple (Ensoleillé, Chaud, Normal, Fort, Chaude, Stable) S1 S0 <Ensoleillé, Chaud, Normal, Fort, Chaude, Stable> <0, 0, 0, 0, 0, 0> G0 jeudi 17 février 2005 <?, ?, ?, ?, ?, ?> Apprentissages 11 Déroulement de l ’algorithme (2) Présentation du second exemple (Ensoleillé, Chaud, Elevée, Fort, Chaude, Stable) S1 <Ensoleillé, Chaud, Normal, Fort, Chaude, Stable> ... <Ensoleillé, ?, ?, Fort, ?, ?> ... G1 jeudi 17 février 2005 ... <Ensoleillé, ?, ?, ?, ?, ?> <?, ?, ?, ?, ?, ?> Apprentissages 12 Déroulement de l ’algorithme (3) Exemple 3: c ’est un contre-exemple (Pluvieux, Froid, Elevée, Fort, Chaude, Variable) S2 <Ensoleillé, Chaud, ?, Fort, Chaude, Stable> ... <Ensoleillé, ?, ?, Fort, ?, ?> ... G2 jeudi 17 février 2005 ... <Ensoleillé, ?, ?, ?, ?, ?> <?, ?, ?, ?, ?, ?> Apprentissages 13 Déroulement de l ’algorithme (4) • Quatrième exemple (Ensoleillé, Chaud, Elevée, Fort, Fraiche, Variable) S3 <Ensoleillé, Chaud, ?, Fort, Chaude, Stable> ... G3 <Ensoleillé, ?, ?, ?, ?, ?> <?, ?, ?, ?, ?, Stable> <?, Chaud, ?, ?, ?, ?> jeudi 17 février 2005 Apprentissages 14 Obtention des concepts possibles <Ensoleillé, Chaud, ?, Fort, ?, ?> S4 <Ensoleillé, ?, ?, Fort, ?, ?> <Ensoleillé, Chaud, ?, ?, ?, ?> <?, Chaud, ?, Fort, ?, ?> G4 <Ensoleillé, ?, ?, ?, ?, ?> <?, Chaud, ?, ?, ?, ?> jeudi 17 février 2005 Apprentissages 15 Généralisation • Le concept est actuellement partiellement appris • Les 4 nouvelles instances A, B, C, D peuvent être classées jeudi 17 février 2005 Apprentissages 16 Déroulement de la généralisation (1) • Classement de l ’instance A (Ensoleillé, Chaud, Normal, Fort, Fraiche, Variable) <Ensoleillé, Chaud, ?, Fort, ?, ?> S4 <Ensoleillé, ?, ?, Fort, ?,<Ensoleillé, ?> Chaud, ?, ?, ?, <?, ?> Chaud, ?, Fort, ?, ?> G4 <Ensoleillé, ?, ?, ?, ?, ?> <?, Chaud, ?, ?, ?, ?> jeudi 17 février 2005 Apprentissages 17 Déroulement de la généralisation (2) • Classement de l ’instance B (Pluvieux, Froid, Normal, Faible, Chaude, Stable) <Ensoleillé, Chaud, ?, Fort, ?, ?> S4 <Ensoleillé, ?, ?, Fort, ?,<Ensoleillé, ?> Chaud, ?, ?, ?, <?, ?> Chaud, ?, Fort, ?, ?> G4 <Ensoleillé, ?, ?, ?, ?, ?> <?, Chaud, ?, ?, ?, ?> jeudi 17 février 2005 Apprentissages 18 Déroulement de la généralisation (3) • Classement de l ’instance C (Ensoleillé, Chaud, Normal, Faible, Chaud, Stable) <Ensoleillé, Chaud, ?, Fort, ?, ?> S4 <Ensoleillé, ?, ?, Fort, ?,<Ensoleillé, ?> Chaud, ?, ?, ?, <?, ?> Chaud, ?, Fort, ?, ?> G4 <Ensoleillé, ?, ?, ?, ?, ?> <?, Chaud, ?, ?, ?, ?> jeudi 17 février 2005 Apprentissages 19 Déroulement de la généralisation (4) • Classement de l ’instance D (Ensoleillé, Froid, Normal, Fort, Chaude, Stable) <Ensoleillé, Chaud, ?, Fort, ?, ?> S4 <Ensoleillé, ?, ?, Fort, ?,<Ensoleillé, ?> Chaud, ?, ?, ?, <?, ?> Chaud, ?, Fort, ?, ?> G4 <Ensoleillé, ?, ?, ?, ?, ?> <?, Chaud, ?, ?, ?, ?> jeudi 17 février 2005 Apprentissages 20 Le biais inductif • Le langage de description a une influence sur ce qui est appris • Apprentissage sans biais: – Par cœur – Pas de généralisation – On ne peut pas classer de nouvelles instances • Le biais inductif est nécessaire jeudi 17 février 2005 Apprentissages 21 Le biais inductif • L ’expression « Ex1 ou Ex2 ou Ex4 » n ’est pas équivalente à la généralisation S4 • (Ensoleillé, Chaud, ?, Fort, ?, ?) • éléments dans S4 mais pas dans l ’autre: • (Ensoleillé, Chaud, Elevée, Fort, Fraiche, Stable) • (Ensoleillé, Chaud, Elevée, Fort, Chaude, Variable) • Sur les 64 possibles, 3 descriptions dans « Ex1 ou Ex2 ou Ex4 », et 8 dans S4 jeudi 17 février 2005 Apprentissages 22 Apprenabilité • Théorie de l’apprenabilité • La PAC-apprenabilité • Classes de concepts et PACapprenabilité • Dimension de Vapnik Chervonenkis (VC) • Interprétation de VC jeudi 17 février 2005 Apprentissages 23 Théorie de l ’apprenabilité • Etude de la complexité du processus d ’apprentissage • L ’apprentissage probablement approximativement correct (PAC) – Classe C de concepts – Ensemble X d ’instances de longueur n – Apprenti L muni de l ’espace H d ’hypothèses jeudi 17 février 2005 Apprentissages 24 La PAC-apprenabilité • C est PAC-apprenable par L muni de H ssi: – Pour tout c dans C, toute distribution D sur X – Pour tout e<1/2 et tout d<1/2 • L va, avec une probabilité p > (1-d): – produire une hypothèse h dans H telle que erreur(h,D) < e – en temps polynomial en 1/e, 1/d, n et taille(c) jeudi 17 février 2005 Apprentissages 25 Classes de concepts et PACapprenabilité • Nombre d ’exemples requis pour apprendre: – Complexité en exemples • Conjonctions de booléens: PAC-apprenable • K-terme DNFnon PAC-apprenable – Disjonctions d ’au plus k conjonctions • K-CNF PAC-apprenable, – contient k-terme DNF – Conjonctions de disjonctions de longueur ≤ k jeudi 17 février 2005 Apprentissages 26 Dimension de Vapnik Chervonenkis (VC) • Pulvérisation d ’un ensemble S par un espace d ’hypothèses H: – Pour chaque dichotomie de S, il y a une hypothèse consistante avec cette dichotomie • VC(H) = taille du plus grand sous ensemble de X pulvérisé par H jeudi 17 février 2005 Apprentissages 27 Interprétation de VC 1 VC(C) & 1( #1 f (H, ! , " ) = max $ log( ), ) %! " 32 ' ! * • S ’il y a moins d ’exemples que f(H,e,d), alors: – Avec une probabilité ≥ d – L produit une hypothèse h avec erreur(h,D)>e jeudi 17 février 2005 Apprentissages 28 Méthodes d ’origine statistique • • • • Apprentissage d ’arbres de décisions Apprentissage Bayésien Evaluation d ’hypothèses Apprentissage à partir d ’instances jeudi 17 février 2005 Apprentissages 29 Apprentissage d ’arbres de décisions • • • • • Ce qu ’est un arbre de décision Le meilleur classifieur La mesure d ’information Exemple Le rasoir d ’Occam jeudi 17 février 2005 Apprentissages 30 L'envie dede faire décision du sport Un arbre Ciel? Ensoleillé Nuageux Pluvieux Humidité? Oui Vent? Elevée Normale Fort Faible Non Oui Non Oui jeudi 17 février 2005 Apprentissages 31 Le meilleur classifieur • Un élément (question) de l ’arbre. • Doit discriminer (séparer) les exemples des contre exemples • Les exemples sont cette fois pris globalement • Le nombre d ’exemples peut être élevé jeudi 17 février 2005 Apprentissages 32 Choisir un classifieur • • • • • • Ciel: ensoleillé(3,0), Pluvieux (0,1) Température: chaud (3,0), Froid(0,1) Humidité:Normale (1,0), Elevée (2,1) Vent:Fort (3,1) Faible (0,0) Eau:Chaude (2,1), Fraiche (1,0) Prévision:Stable (2,0), Variable (1,1) jeudi 17 février 2005 Apprentissages 33 La mesure d ’information • Choisir le classifieur le plus informant • La connaissance de la réponse ne doit apporter que peu d ’information supplémentaire • Attribut A de valeurs V(A) i=c " Si % Si E(S) = ( ! log $ ' • Entropie E(S) S # S& i=1 Sv • Gain G(S,A) G(S, A) ! E(S) " % E(S ) $ v#V ( A) jeudi 17 février 2005 Apprentissages S v 34 Exemple • Entropie des exemples (3+,1-): E(S) = 0,81 • 2 attributs donne un gain maximum: Gain(S,A)=0,81 – Ciel: ensoleillé(3,0), Pluvieux (0,1) – Température: chaud (3,0), Froid(0,1) • 1 attribut donne un gain nul: – Vent:Fort (3,1) Faible (0,0) jeudi 17 février 2005 Apprentissages 35 Exemple (suite) • Autres attributs, par gain décroissant • Gain(S,A)= 0,81-0,5*1=0,31 – Prévision:Stable (2,0), Variable (1,1) • Gain(S,A)= 0,81-0,75*0,92=0,12 – Humidité:Normale (1,0), Elevée (2,1) – Eau:Chaude (2,1), Fraiche (1,0) jeudi 17 février 2005 Apprentissages 36 Le rasoir d ’Occam • Elaguer l ’arbre jeudi 17 février 2005 Apprentissages 37 Apprentissage Bayésien • Le théorème de Bayes P(D h) ! P(h) P(h D) = P(D) • Trouver l ’hypothèse la plus vraisemblable • Estimer la vraisemblance de la généralisation à partir des observations • Classifieur optimal bayésien (hypothèses intermédiaires h) jeudi 17 février 2005 ArgMax # P(v h ) " P(h D) Apprentissages v!V h!H 38 Exemple • Ce que donnent les données – P(Oui)=3/4, P(Non)=1/4, – P(Stable)=P(Variable)=1/2, – P(Stable/Oui)=2/3 • Ce que donne le théorème – P(Oui/Stable)= 1 jeudi 17 février 2005 Apprentissages 39 Variantes du classifieur • Le classifieur optimal peut être coûteux • Algorithme de Gibbs: – Choisir aléatoirement l ’hypothèse sur laquelle est calculée la vraisemblance – Taux d ’erreur au plus deux fois plus élevé • Classifieur naïf: hypothèse d ’indépendance conditionnelle des attributs ArgMax P(v) " # P(a v ) v!V jeudi 17 février 2005 Apprentissages a!A 40 Classifieur optimal bayesien • Faire « voter » des classifieurs en fonction de leur probabilité: notion de « emergent pattern » en fouille de données • Exemple des espaces de version • Exemple des arbres de décision • Les hypothèses intermédiaires sont de somme 1. Elles peuvent être nombreuses. jeudi 17 février 2005 Apprentissages 41 Décision bayesienne • Exemple du test d ’une pièce pipée – Test = faire 5 tirages et obtenir 5 face ou 5 pile – Pièce pipée: 80%/20%, P(pipée) = 10% – donc P(test|¬pipée)=3,1%, P(test|pipée)=41% • Le test est positif – P(test|pipée)*P(pipée) = 0,41*0,1 = 0,041 – P(test|¬pipée)*P(¬pipée) = 0,031*0,9 = 0,028 – Mais si P(pipée)=5%, l ’ordre est inversé. jeudi 17 février 2005 Apprentissages 42 Expérimentations (version naïve) • Analyse des textes de 20 newsgroups • 667 articles de chaque pour l ’apprentissage • 1 attribut par position de mot dans le paragraphe, dont la valeur est ce mot. • Prédire le newsgroup à partir de la descrition • Résultat: 89%de bonne affectation (au hasard: 5%) jeudi 17 février 2005 Apprentissages 43 Evaluation d ’hypothèses • Estimation d ’erreur en généralisation – intervalle de confiance à N% pour e(D,h)quand il y a au moins 30 exemples dans S, – Z(N) va de 0,67 pour 50% à 1,96 pour 95% et 2,58 pour 99%, e(S, h) ! (1 " e(s, H)) e(S, h) ± Z(N) S • Comparaison de méthodes jeudi 17 février 2005 Apprentissages 44 Apprentissage à partir d ’instances • On ne cherche pas à expliciter une théorie • Ces méthodes font de l ’apprentissage « paresseux » • plusieurs cas selon les variables explicatives et la variable à expliquer: – – – – Plus proches voisins Régression locale Raisonnement par cas Support Vector Machines jeudi 17 février 2005 Apprentissages 45 Méthodes à base de plus proches voisins • espace métrique • Affecter à un nouvel objet la classe la plus fréquente parmi les k exemples dont il est le plus proche • Les k voisins peuvent être pondérés par leur distance au point à classer jeudi 17 février 2005 Apprentissages 46 Régression locale • Approximer une fonction en utilisant le principe des plus proches voisins • On suppose que l ’ensemble d ’apprentissage est constitué de variables continues • On va construire un hyperplan de régression parmi les k exemples les plus proches du point à estimer jeudi 17 février 2005 Apprentissages 47 Raisonnement à partir de cas (I.A.) • Les exemples sont mis dans une base de cas et indexés • L ’index est utilisé pour retrouver dans la base un cas ressemblant au cas à traiter • Une partie du cas archivé pourra être réutilisé. • Application à l ’aide à la navigation Web jeudi 17 février 2005 Apprentissages 48 Support Vector Machines jeudi 17 février 2005 Apprentissages 49 Méthodes d’Intelligence Artificielle • • • • Apprentissage de préférences Apprentissage d’ensemble de règles Apprentissage analytique Les « emergent patterns » en fouille de données jeudi 17 février 2005 Apprentissages 50 Apprentissage de préférences • Apprendre la relation binaire – Exemples = couples (a,b) tels que a < b – Exemples négatifs: couples (b,a) – Antisymétrique, réflexive, transitive: la transitivité est garantie si elle est vraie sur les exemples • Apprendre la règle de tri – Arbre de décision – Distance entre suites = nombre de paires mal classées jeudi 17 février 2005 Apprentissages 51 Apprentissage d ’ensembles de règles • Couvrir un ensemble d ’exemples à l ’aide de plusieurs concepts • Le biais d ’apprentissage est ici essentiellement bas é sur des critères d ’ergonomie des règles jeudi 17 février 2005 Apprentissages 52 Apprentissage analytique • Historiquement, « apprentissage à partir d ’explications » • Spécialiser des règles générales données par la théorie • Exemple: intégration formelle jeudi 17 février 2005 Apprentissages 53 Apprentissage analyticoinductif • Combinaison des méthodes analytique et inductive • KBANN: – la théorie du domaine est traduite en un réseau équivalent – elle est ensuite raffinée en utilisant la rétropropagation jeudi 17 février 2005 Apprentissages 54 Emergent Patterns • Fouille de flux de données • EP = conjonction d’attributs qui apporte suffisamment d’information • growthRate GR(X)= su2(X)/su1(X) • EP ssi GR(X) > p donné • Classifieur: score s GR(X) s(T,Ci ) = $ GR(X) +1 % sui (X) X"T ;X#EP(C ) i jeudi 17 février 2005 Apprentissages 55 Méthodes incrémentales • Réseaux de neurones • Algorithmes génétiques • Apprentissage par renforcement jeudi 17 février 2005 Apprentissages 56 Réseaux de neurones • • • • 1 sortie par valeur possible de la variable 1 entrée par valeur de variable explicative Couche cachée qui code la « connaissance » Passage de valeur par combinaison linéaire et fonction sigmoïde. • Rétropropagation du gradient: sur les coefficients des neurones jeudi 17 février 2005 Apprentissages 57 Les neurones formels • Fonction sigmoïde pour le seuil • Chaque wi est le « poids » de (xi,y) X0=1 x1 x2 ... xi ... xn jeudi 17 février 2005 y = " wi ! xi 1 ! (y) = 1 + e" y S s i=n i=0 Apprentissages 58 Les couches de neurones • Couche(s) cachée(s) ... ... sorties entrées jeudi 17 février 2005 Apprentissages 59 La rétropropagation • Pour chaque (x,t) d ’apprentissage: – Calculer la sortie ou de chaque cellule u, – Pour chaque cellule de sortie k: • Calculer dk = ok(1-ok)(tk-ok) – Pour chaque cellule cachée h: • Calculer dh = oh(1-oh) k, S k wkhdk sur ses sorties – Calculer Dwji = hdjxi et actualiser les wji. jeudi 17 février 2005 Apprentissages 60 Justification de la méthode • xi est la valeur de la cellule i, et wji est le poids du lien entre les cellules i et j, • Le paramètre h est fixé au départ, petit devant 1. C ’est le degré d ’apprentissage, • La dérivée s’ de la fonction sigmoïde s est telle que: s’(y) = s(y) (1-s(y)). • Et est l’erreur quadratique moyenne sur l’exemple t: Et = (1/2)S k |dk |2, et on vérifie %Et "w ij =# $ que: %wij jeudi 17 février 2005 Apprentissages 61 Exemple simple sans spleen • Réseau à 2 entrées et 1 sortie, pas de fonction sigmoïde • Poids aléatoires au début • h = 0,25 • Entrées/Sortie 0 1 / 0, 1 1 / 1 jeudi 17 février 2005 0 1 1 Entrées 0,61 0,81 0,62 0,35 0,36 ∆ = -0,81*0,25*0 cible:0,04*0,25*1 0,96 0,81 ∆ = 0,04*0,25*1 -0,81*0,25*1 Sortie Err = 0,04 -0,81 Apprentissages 62 Exemple avec spleen et une couche cachée 0 1 Entrées • Réseau à 2 0,42 0,51 0,55 entrées, 1 -0,17 -0,21 0,62 sortie et 2 cachées Cachées 0,6 0,4 • Spleen par 3 6 0,81 0,35 0,33 0,79 sigmoïde • Mêmes 0,64 Sortie paramètres, Err = -0,64 même cible: ∆ = -0,64*0,25*1*0,46*(1-0,46) -0,64*0,25*0,63*0,64*(1-0,64) -0,64*0,25*0,46*0,64*(1-0,64) -0,64*0,25*0*0,63*(1-0,63) -0,64*0,25*0*0,46*(1-0,46) -0,64*0,25*1*0,63*(1-0,63) 0 1 / 0, 1 1 / jeudi 17 février 2005 Apprentissages 63 1 Exemple de la demo • 15exemples, 10 entrées, 7 sorties – Bonn000000, Brasilia00, Brussels00, Helsinki00, London0000, Madrid0000, Moscow0000, New0Delhi0, Oslo000000, Paris00000, Rome000000, Stockholm0, Tokyo00000, Vienna0000, Washington – Germany, Brasil0, Belgium, Finland, England, Spain00, Russia0, India00, Norway0, France0, Italy00, Sweden0, Japan00, Austria, USA0000 jeudi 17 février 2005 Apprentissages 64 Codage • 6 bits • 0 = 000000,…, 9 = 001001, a = 001010, …, z = 100011, A = 100100, …, Z = 111101, ? = 111110, ? = 111111 • couche 0 (entrée): 60 neurones • Couche 1 (cachée): 24 neurones • couche 2 (sortie): 42 neurones jeudi 17 février 2005 Apprentissages 65 Apprentissage jeudi 17 février 2005 Apprentissages 66 Résultats Bonn000000 Brasilia00 Brussels00 Helsinki00 London0000 Madrid0000 Moscow0000 New0Delhi0 Oslo000000 Paris00000 Rome000000 Stockholm0 Tokyo00000 Vienna0000 Washington ?vvvuvO Jvut?vc J?vtu?u Lvvtrnf Lvvvrnf ?t??vv1 ??vvvve Y?vTru6 ?t??qT7 ?vvv?v5 Ztvv?v4 ?Yvvevc ?vvvvv2 Z?vvvvu Z??vvn8 jeudi 17 février 2005 KvrnanH Jretmt0 Jutsium Fnnlanf Fnnlanf Tpaun00 Rustna0 Ivfia00 Vprzey0 Hvqnuf2 IvvvWn0 TUuten0 ?vruna0 Kvsvrua YTIha20 Apprentissages Kernany Brasil0 Belgium Finland England Spain00 Russia0 India00 Vorway0 France0 IvalG30 SUeden0 Japan00 Austria YSA0000 Germany Brasil0 Belgium Finland England Spain00 Russia0 India00 Norway0 France0 Italy00 Sweden0 Japan00 Austria USA0000 67 Pour en savoir plus... • un site Internet présentant, en Anglais, un support de cours, un index et des applets et applications en Java: • http://rfhs8012.fhregensburg.de/~saj39122/jfroehl/d iplom/e-index.html • Tous types de réseaux de neurones (Hopfield, Rétropropagation, Kohonen,…). jeudi 17 février 2005 Apprentissages 68 Algorithmes génétiques • Application des algorithmes génétiques à l ’apprentissage – Le principe es de construire « au hasard » des classifieurs – Ceux-ci sont ensuite croisés, et mutés jusqu ’à ce qu ’ils obtiennent de bonnes performances • Avantage: des exemples peuvent être ajoutés en cours d ’apprentissage jeudi 17 février 2005 Apprentissages 69 Apprentissage par renforcement [Kaebling 1996] jeudi 17 février 2005 Apprentissages 70 Notion de renforcement • N coups à jouer (borné au départ) • n coups possibles, chacun avec une probabilité de gain pi • Les pi sont indépendants et inconnus du joueur. • Maximiser le gain total • Compromis exploration/gain immédiat jeudi 17 février 2005 Apprentissages 71 Systèmes multi-agents et apprentissage • Un système multi-agents peut utiliser l'apprentissage de deux manières: • faire interagir des agents qui apprennent • faire évoluer par apprentissage les interactions entre agents. • Apprentissage individuel et/ou collectif • Emergence ? jeudi 17 février 2005 Apprentissages 72 Le dilemme du prisonnier • • • • chaque prisonnier peut avouer ou non si aucun n’avoue : 2 ans si les 2 avouent: 4ans si un seul avoue: il est libre et l’autre a 5 ans jeudi 17 février 2005 Apprentissages 73 Le dilemme itéré • Stratégies sur des longues suites: • populations de stratégies • génération proportionnelle au score de la génération précédente • stratégie “donnant donnant” dominante jeudi 17 février 2005 Apprentissages 74 Adaptive load balancing [Shoham et al 1996] • Un agent, au sein d ’un système multiagent doit choisir parmi un ensemble de bars (ou de restaurants). • Chaque agent prend une décision de façon autonome mais la performance du bar (donc des agents qui l ’utilisent) est fonction de sa capacité et du nombre d ’agents qui l ’utilisent. jeudi 17 février 2005 Apprentissages 75 Système stochastique multiagent multi-ressource • 6-tuple (A; R; P; D; C;SR) : – A = {a1,...,aN} ensemble d’agents, – R = {r1 ,..., rM} ensemble de ressources, – – – – P : A x N —> [0, 1] proba de nouv. tâche D : A x N —> R taille de tâche à chaque t C : R x N —> R capacité de r. à chaque t SR règle de sélection de ressource. jeudi 17 février 2005 Apprentissages 76 « Emergent load balancing » • Tous les agents utilisent la même règle, qui s ’appuie sur l ’historique (estimation de l ’efficacité de chaque ressource). • Les agents vont communiquer pour optimiser leur décision • Des groupes d ’agents qui communiquent se forment. jeudi 17 février 2005 Apprentissages 77 Résultats obtenus jeudi 17 février 2005 Apprentissages 78 Systèmes multi-agents et apprentissage • Expérience ICMAS ’96 jeudi 17 février 2005 Apprentissages 79 Expérience ICMAS ’96 • L’ensemble des agents profite de l’expérience et des requêtes de chacun • Mémorisation collective – chaque information (lien hypertexte) est assortie du nombre de fois ou quelqu’un l’a demandée – adapté à une situation de congrès international • Notion de communauté d ’intérêts [Bothorel 99] jeudi 17 février 2005 Apprentissages 80 Agents d ’interface • Agents d’interface – prise de notes [Schimmler 93] – tri du mél [Maes 94] – carnet d’adresses [Schimmler 96] • Carnet d’adresses – reconnaissance de l’écriture manuscrite – rappel des plus récemment utilisés – apprentissage sur l’existant jeudi 17 février 2005 Apprentissages 81 Carnet d ’Adresses: écriture jeudi 17 février 2005 Apprentissages 82 Carnet d ’adresses: matching jeudi 17 février 2005 Apprentissages 83 Carnet d ’adresses: rappel des pru • Mesure du temps mis pour rentrer un même nombre de contacts • ==> C’est lui le gagnant jeudi 17 février 2005 Apprentissages 84 Corporate Memory Management through Agents Partners: •Atos (France) •T-Nova / Deutsche Telecom (Germany) •INRIA (France) •Univ. Parma (Italy) •LIRMM (France) •CSELT / Italia Telecom (Italy), puis CSTB (Paris/Sophia) la 2e année Objectif: • Fournir une structure de support autour de laquelle on peut construire un système assurant intégration cohérente et exploitation de la connaissance dispersée dans la “Corporate Memory”. • Corporate Memory: Une représentation explicite, informelle et persistante de la connaissance et de l ’information dans une organisation. • Techniquement, COMMA n ’est guère plus qu ’un système dédié à la recherche de ‘document’ guidée par des ontologies. jeudi 17 février 2005 Apprentissages 86 CoMMA: La conception du système Auteur du document RDF annotations Document Indexation Mémoire d’entreprise Syst. Multi-Agent MLT Agent de l’auteur MLT Agent du groupe d’intérêts Modèle de Connaissance: - Modèle d’Entreprise - Modèles d’utilisateurs MLT Agent de l’utilisateur Annotations Document ontologie RDF Auteur d’ontologie jeudi 17 février 2005 Employé Apprentissages 87 Adaptation à l ’utilisateur par ML • ML (apprentissage automatique) phase 1: – – – – Relation entre un utilisateur et un document à un moment donné Facteurs possibles influençant cette relation Mesure de la relation (priorité), et des facteurs (valeurs d ’attributs) Mémoriser de telles situations (ensembles de facteurs et de valeurs avec la priorité associée) – Prédire la priorité à partir des données descriptives (facteurs et valeurs). • Cas d ’utilisation de cette phase 1: – – – – Document pushing scenario Document retrieval scenario Fournir de l ’information supplémentaire avec les documents Trier les résultats d ’une recherche (réponse à une requête) jeudi 17 février 2005 Apprentissages 88 Document classifier • Les facteurs viennent de: – Information à propos de l ’utilisateur – Annotations du Document User related information (User Profile) Measurable attributes user, role, COIN, rating, history,… Attribute processor Doc_in_Role Classifier Doc priority Doc_in_COIN Document metadata (Annotations) jeudi 17 février 2005 categories, others’ public ratings,… Return_frec Apprentissages 89 Principe général • Information d ’entrée – Information à propos de l ’utilisateur – Annotations du Document – Attributs combinés • Algorithmes d ’apprentissage – Apprentissage incrémental: • Mettre à jour la connaissance apprise juste après le feed back de l ’utilisateur • Période d ’apprentissage: problèmes – page blanche au départ – Heuristiques initiales – Relations attributs classe définies par le feedback de l ’utilisateur – Implémentation: Weka package jeudi 17 février 2005 Apprentissages 90