transparents
Transcription
transparents
Recherche Locale pour le problème Maximum Parsimonie en Reconstruction Phylogénétique Une étude empirique Adrien Goëffon, Jean-Michel Richer et Jin-Kao Hao Introduction Reconstruction phylogénétique Æ Reconstruction de l’histoire de l’évolution d’un ensemble d’espèces Æ Arbre phylogénétique Intérêt Æ Compréhension de l’histoire du vivant Æ Applications multiples 1 Introduction Méthodes de reconstruction Æ Basées sur les distances (NJ, BioNJ) Æ Basées sur les caractères (MP, ML) Complexité Æ MP est NP-difficile Æ Recours à des méthodes heuristiques Motivation Æ Développer une méthode performante et rapide 2 Déroulement de la présentation MP : présentation du problème Algorithme de recherche locale Résultats expérimentaux Applications Conclusion et perspectives Déroulement de la présentation MP : présentation du problème Algorithme de recherche locale Résultats expérimentaux Applications Conclusion et perspectives Problème MP Un arbre phylogénétique est un graphe orienté décrivant les relations entre un groupe de taxons actuels et leurs ancêtres communs hypothétiques. Æ Taxon : séquence de nucléotides (ADN) Æ Les feuilles de l’arbres sont bijectivement associés aux taxons Æ Nœuds internes : calcul de séquences consensus Æ Utilisation d’arbres binaires enracinés La valeur de parcimonie d’un arbre phylogénétique désigne le nombre minimum de changements d’états nécessaires pour expliquer les séquences associées à ses différents nœuds. 3 Problème MP Donnée : Un ensemble de séquences alignées But : Déterminer l’arbre le plus parsimonieux … Mouse Bovine Lemur Tarsier Gibbon Orang Gorilla Chimp Human … … ACCAAAAAAACATCCAAACACCAACCCCAGCCCTTACGCAATAGCCATACAAAGAATATT ACCAAACCTGTCCCCACCATCTAACACCAACCCACATATACAAGCTAAACCAAAAATACC ACCAAACTAACATCTAACAACTACCTCCAACTCTAAAAAAGCACTCTTACCAAACCCATC ATCTACCTTATCTCCCCCAATCAATACCAACCTAAAAACTCTACAATTAAAAACCCCACC ACTATACCCACCCAACTCGACCTACACCAATCCCCACATAGCACACAGACCAACAACCTC ACCCCACCCGTCTACACCAGCCAACACCAACCCCCACCTACTATACCAACCAATAACCTC ACCCCATTTATCCATAAAAACCAACACCAACCCCCATCTAACACACAAACTAATGACCCC ACCCCATCCACCCATACAAACCAACATTACCCTCCATCCAATATACAAACTAACAACCTC ACCCCACTCACCCATACAAACCAACACCACTCTCCACCTAATATACAAATTAATAACCTC 4 Problème MP n=6 5 Problème MP Score de parcimonie : Algorithme de Fitch T C 3 T A T G T C n=6 k=1 A T G T C C 1 ∪ x2, si x1 ∩ x2 = ∅ x i ∀i, 1 ≤ i ≤ k, x = x1 ∩ xi2, si xi1 ∩ xi2 ≠ ∅ i i i i c i { 5 Problème MP n=6 6 Problème MP n=6 6 Problème MP 945 arbres n=6 n Nombre d’arbres : ∏(2i−3) i=3 6 Problème MP n = 500 1,0.101280 arbres ZILLA n = 100 3,3.10184 arbres n = 50 2,8.1076 arbres ? n = 20 5,4.1022 arbres n = 10 n=6 3,7.107 arbres … … … 945 arbres n Nombre d’arbres : ∏(2i−3) i=3 6 Déroulement de la présentation ; MP : présentation du problème Algorithme de recherche locale Résultats expérimentaux Applications Conclusion et perspectives Recherche Locale Schéma de l’algorithme Générer un arbre initial t Tant que la condition d’arrêt n’est pas satisfaite Générer un arbre t’ voisin de l’arbre courant t Calculer le score de parcimonie de t’ Si la stratégie accepte t’, alors t’ devient l’arbre courant (t ← t’) Retourner le meilleur arbre trouvé durant la recherche 7 Recherche Locale Voisinages connus Æ NNI : Echange de sous-arbres distants d’une seule arrête Æ SPR : On retire un sous-arbre et on le reconnecte ailleurs Æ TBR : On retire une arête et on reconnecte les 2 sous-arbres 8 Recherche locale Voisinage SSN 9 Recherche locale Voisinage SSN 9 Recherche locale Voisinage SSN 9 Recherche locale Stratégie : Descente pure (PD) 16 17 20 18 15 21 17 … … … … … … 15 … 16 16 10 Recherche locale Stratégie : Recherche Locale Itérative (ILS) ……… 18 15 16 17 16 ……… 15 11 Recherche locale Stratégie : Marche aléatoire (RWD) 20 ………………… 18 17 12 Recherche locale Stratégie : Recuit simulé (SA) Dérivé de la méthode du recuit en physique Régulation des perturbations Probabilité d’acceptation variable suivant plusieurs paramètres Æ Importance de la dégradation Æ Avancée de la recherche 13 Déroulement de la présentation ; MP : présentation du problème ; Algorithme de recherche locale Résultats expérimentaux Applications Conclusion et perspectives Résultats expérimentaux Objectifs Æ Comparaison de plusieurs algorithmes de recherche locale (PD, ILS, RWD, SA) Æ Comparaison de notre algorithme avec des logiciels libres DNAPARS du package PHYLIP LVB, algorithme stochastique utilisant le recuit simulé Benchmarks Æ Instances aléatoires de 100 à 180 séquences (100 sites informatifs) 14 Résultats expérimentaux Fréquence du minimum PD RWD RWD PD PD RWD PDPD PD ILS RWD ILSILS ILS SASA ILS DNAPARS DNAPARS SA LVB 100% 100% 100% 80% 80% 80% 60% 60% 60% 40% 40% 40% 20% 20% 20% 0% 0% 0% A100 A100 A120 A120 A140 A160 A180 A180 15 Résultats expérimentaux Distance moyenne par rapport au minimum PD PD RWD PD RWD ILS ILS RWD DNAPARS PDPD PD RWD ILSILS ILS SASA SA DNAPARS LVB 5,0 5,0 4,0 4,0 3,0 3,0 2,0 2,0 1,0 1,0 0,0 0,0 A100 A100 A100 A120 A120 A120 A140 A140 A140 A160 A160 A160 A180 A180 A180 16 Résultats expérimentaux Temps d’exécution moyen ILS PDPD RWD ILS PD PD PD PD PDRWD RWD RWD RWD ILS ILS ILS ILS SA SA SA SADNAPARS LVB LVB LVB 300 3600 240 3000 180 2400 1800 120 120 1200 60 60 600 000 A100 A100 A100 A120 A120 A120 A140 A140 A140 A160 A160 A160 A180 A180 17 Déroulement de la présentation ; MP : présentation du problème ; Algorithme de recherche locale ; Résultats expérimentaux Applications Conclusion et perspectives Applications Génétique des populations Laboratoire Pavé (INRA Angers) Æ Etude de la bactérie Xanthomonas campestris pv. campestris Æ Distinction de souches et liens avec des séquences types Æ Alignement de 96 séquences (548 sites) 18 Applications Instance réelle Algorithme Runs fb Fréq fm σ time PD 50 731 5 734,8 2,6 21’ RWD 5 730 2 731,0 1,1 40’ ILS 5 731 2 732,8 1,5 30’ SA 5 729 2 729,8 0,7 7h DNAPARS 1 731 1 731 - 14h LVB 1 764 1 764 - 4h 19 Conclusion Recherche Locale pour le problème MP Æ Voisinage SSN, Représentation matricielle de l’information Æ Recherche Locale : Comparaison entre 4 approches Voisinage SSN Æ Rapidité et relative efficacité de la Descente Pure Æ Efficacité du Recuit Simulé Comparaisons Æ Bien plus rapide que DNAPARS Æ Performance sur l’instance réelle 20 A l’étude Améliorations du logiciel Æ Un voisinage évolutif (SSN-d) Æ Perturbations par bruitage de la fonction de coût Æ Améliorations notables sur nos dernières expérimentations Expérimentations axées sur la performance Æ Utilisation de très grosses instances (ex : ZILLA) Æ Comparaison avec des logiciels commerciaux (PAUP*, TNT) 21 Recherche Locale pour le problème Maximum Parsimonie en Reconstruction Phylogénétique Une étude empirique Adrien Goëffon, Jean-Michel Richer et Jin-Kao Hao