transparents

Transcription

transparents
Recherche Locale
pour le problème Maximum Parsimonie
en Reconstruction Phylogénétique
Une étude empirique
Adrien Goëffon, Jean-Michel Richer et Jin-Kao Hao
Introduction
Reconstruction phylogénétique
Æ Reconstruction de l’histoire de l’évolution d’un ensemble d’espèces
Æ Arbre phylogénétique
Intérêt
Æ Compréhension de l’histoire du vivant
Æ Applications multiples
1
Introduction
Méthodes de reconstruction
Æ Basées sur les distances (NJ, BioNJ)
Æ Basées sur les caractères (MP, ML)
Complexité
Æ MP est NP-difficile
Æ Recours à des méthodes heuristiques
Motivation
Æ Développer une méthode performante et rapide
2
Déroulement de la présentation
‰ MP : présentation du problème
‰ Algorithme de recherche locale
‰ Résultats expérimentaux
‰ Applications
‰ Conclusion et perspectives
Déroulement de la présentation
‰ MP : présentation du problème
‰ Algorithme de recherche locale
‰ Résultats expérimentaux
‰ Applications
‰ Conclusion et perspectives
Problème MP
Un arbre phylogénétique est un graphe orienté décrivant les
relations entre un groupe de taxons actuels et leurs ancêtres
communs hypothétiques.
Æ Taxon : séquence de nucléotides (ADN)
Æ Les feuilles de l’arbres sont bijectivement associés aux taxons
Æ Nœuds internes : calcul de séquences consensus
Æ Utilisation d’arbres binaires enracinés
La valeur de parcimonie d’un arbre phylogénétique désigne le
nombre minimum de changements d’états nécessaires pour
expliquer les séquences associées à ses différents nœuds.
3
Problème MP
Donnée : Un ensemble de séquences alignées
But : Déterminer l’arbre le plus parsimonieux
…
Mouse
Bovine
Lemur
Tarsier
Gibbon
Orang
Gorilla
Chimp
Human
…
…
ACCAAAAAAACATCCAAACACCAACCCCAGCCCTTACGCAATAGCCATACAAAGAATATT
ACCAAACCTGTCCCCACCATCTAACACCAACCCACATATACAAGCTAAACCAAAAATACC
ACCAAACTAACATCTAACAACTACCTCCAACTCTAAAAAAGCACTCTTACCAAACCCATC
ATCTACCTTATCTCCCCCAATCAATACCAACCTAAAAACTCTACAATTAAAAACCCCACC
ACTATACCCACCCAACTCGACCTACACCAATCCCCACATAGCACACAGACCAACAACCTC
ACCCCACCCGTCTACACCAGCCAACACCAACCCCCACCTACTATACCAACCAATAACCTC
ACCCCATTTATCCATAAAAACCAACACCAACCCCCATCTAACACACAAACTAATGACCCC
ACCCCATCCACCCATACAAACCAACATTACCCTCCATCCAATATACAAACTAACAACCTC
ACCCCACTCACCCATACAAACCAACACCACTCTCCACCTAATATACAAATTAATAACCTC
4
Problème MP
n=6
5
Problème MP
Score de parcimonie : Algorithme de Fitch
T
C
3
T
A
T
G
T
C
n=6
k=1
A
T
G
T
C
C
1 ∪ x2, si x1 ∩ x2 = ∅
x
i
∀i, 1 ≤ i ≤ k, x = x1 ∩ xi2, si xi1 ∩ xi2 ≠ ∅
i
i
i
i
c
i
{
5
Problème MP
n=6
6
Problème MP
n=6
6
Problème MP
945 arbres
n=6
n
Nombre d’arbres :
∏(2i−3)
i=3
6
Problème MP
n = 500
1,0.101280 arbres
ZILLA
n = 100
3,3.10184 arbres
n = 50
2,8.1076 arbres
?
n = 20
5,4.1022 arbres
n = 10
n=6
3,7.107 arbres
…
…
…
945 arbres
n
Nombre d’arbres :
∏(2i−3)
i=3
6
Déroulement de la présentation
; MP : présentation du problème
‰ Algorithme de recherche locale
‰ Résultats expérimentaux
‰ Applications
‰ Conclusion et perspectives
Recherche Locale
Schéma de l’algorithme
Générer un arbre initial t
Tant que la condition d’arrêt n’est pas satisfaite
Générer un arbre t’ voisin de l’arbre courant t
Calculer le score de parcimonie de t’
Si la stratégie accepte t’, alors t’ devient l’arbre courant (t ← t’)
Retourner le meilleur arbre trouvé durant la recherche
7
Recherche Locale
Voisinages connus
Æ NNI : Echange de sous-arbres distants d’une seule arrête
Æ SPR : On retire un sous-arbre et on le reconnecte ailleurs
Æ TBR : On retire une arête et on reconnecte les 2 sous-arbres
8
Recherche locale
Voisinage SSN
9
Recherche locale
Voisinage SSN
9
Recherche locale
Voisinage SSN
9
Recherche locale
Stratégie : Descente pure (PD)
16
17
20
18
15
21
17
…
…
…
…
…
…
15
…
16
16
10
Recherche locale
Stratégie : Recherche Locale Itérative (ILS)
………
18
15
16
17
16
………
15
11
Recherche locale
Stratégie : Marche aléatoire (RWD)
20
…………………
18
17
12
Recherche locale
Stratégie : Recuit simulé (SA)
ƒ
Dérivé de la méthode du recuit en physique
ƒ
Régulation des perturbations
ƒ
Probabilité d’acceptation variable suivant plusieurs
paramètres
Æ Importance de la dégradation
Æ Avancée de la recherche
13
Déroulement de la présentation
; MP : présentation du problème
; Algorithme de recherche locale
‰ Résultats expérimentaux
‰ Applications
‰ Conclusion et perspectives
Résultats expérimentaux
Objectifs
Æ Comparaison de plusieurs algorithmes de recherche locale
(PD, ILS, RWD, SA)
Æ Comparaison de notre algorithme avec des logiciels libres
DNAPARS du package PHYLIP
LVB, algorithme stochastique utilisant le recuit simulé
Benchmarks
Æ Instances aléatoires de 100 à 180 séquences (100 sites informatifs)
14
Résultats expérimentaux
Fréquence du minimum
PD RWD
RWD
PD
PD
RWD
PDPD PD
ILS
RWD
ILSILS ILS
SASA
ILS
DNAPARS
DNAPARS
SA
LVB
100%
100%
100%
80%
80%
80%
60%
60%
60%
40%
40%
40%
20%
20%
20%
0%
0%
0%
A100
A100
A120
A120
A140
A160
A180
A180
15
Résultats expérimentaux
Distance moyenne par rapport au minimum
PD
PD RWD
PD
RWD
ILS
ILS
RWD
DNAPARS
PDPD PD
RWD
ILSILS ILS
SASA SA
DNAPARS
LVB
5,0
5,0
4,0
4,0
3,0
3,0
2,0
2,0
1,0
1,0
0,0
0,0
A100
A100
A100
A120
A120
A120
A140
A140
A140
A160
A160
A160
A180
A180
A180
16
Résultats expérimentaux
Temps d’exécution moyen
ILS
PDPD
RWD
ILS
PD
PD PD
PD
PDRWD
RWD
RWD
RWD
ILS ILS
ILS
ILS
SA SA
SA
SADNAPARS LVB
LVB LVB
300
3600
240
3000
180
2400
1800
120
120
1200
60
60
600
000
A100
A100
A100
A120
A120
A120
A140
A140
A140
A160
A160
A160
A180
A180
17
Déroulement de la présentation
; MP : présentation du problème
; Algorithme de recherche locale
; Résultats expérimentaux
‰ Applications
‰ Conclusion et perspectives
Applications
Génétique des populations
Laboratoire Pavé (INRA Angers)
Æ Etude de la bactérie Xanthomonas campestris pv. campestris
Æ Distinction de souches et liens avec des séquences types
Æ Alignement de 96 séquences (548 sites)
18
Applications
Instance réelle
Algorithme
Runs
fb
Fréq
fm
σ
time
PD
50
731
5
734,8
2,6
21’
RWD
5
730
2
731,0
1,1
40’
ILS
5
731
2
732,8
1,5
30’
SA
5
729
2
729,8
0,7
7h
DNAPARS
1
731
1
731
-
14h
LVB
1
764
1
764
-
4h
19
Conclusion
Recherche Locale pour le problème MP
Æ Voisinage SSN, Représentation matricielle de l’information
Æ Recherche Locale : Comparaison entre 4 approches
Voisinage SSN
Æ Rapidité et relative efficacité de la Descente Pure
Æ Efficacité du Recuit Simulé
Comparaisons
Æ Bien plus rapide que DNAPARS
Æ Performance sur l’instance réelle
20
A l’étude
Améliorations du logiciel
Æ Un voisinage évolutif (SSN-d)
Æ Perturbations par bruitage de la fonction de coût
Æ Améliorations notables sur nos dernières expérimentations
Expérimentations axées sur la performance
Æ Utilisation de très grosses instances (ex : ZILLA)
Æ Comparaison avec des logiciels commerciaux (PAUP*, TNT)
21
Recherche Locale
pour le problème Maximum Parsimonie
en Reconstruction Phylogénétique
Une étude empirique
Adrien Goëffon, Jean-Michel Richer et Jin-Kao Hao