Bioinformatique BTV Reconstruction Phylogénétique

Transcription

Bioinformatique BTV Reconstruction Phylogénétique
Bioinformatique BTVReconstruction Phylogénétique
Bioinformatique BTV
Reconstruction Phylogénétique
Jean-Michel Richer
[email protected]
http://www.info.univ-angers.fr/pub/richer
Juillet 2008
1 / 88
Bioinformatique BTVReconstruction Phylogénétique
Plan
Plan
1
Rappels
2
Minimum d’Evolution
3
Maximum de Parcimonie
4
Méthodes probabilistes
5
Formats de fichiers
2 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Rappels
Rappels
3 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Evolution et phylogénie
Darwin
Depuis Carl Von Linné (1707-1778), Jean-Baptiste Lamarck
(1744-1829) et Charles Darwin (1809-1882) de nombreux
chercheurs ont tenté d’établir l’arbre de la vie.
Dogme
Tous les organismes vivants résultent d’évolutions à partir d’un
ancêtre commun.
• Lamarck : influence du milieu naturel
• Darwin : sélection naturelle
4 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Evolution et phylogénie
Avant
• étude des caractères morphologiques et physiologiques
• pas approprié si espèces différentes (ex Ornithorinque)
Aujourd’hui
• biologie moléculaire : ADN, protéines
• étude du génotype plutôt que du phénotype =⇒ plus précis
5 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Le projet : Tree of Life
Tree of life
The Tree of Life Web Project (ToL) is a collaborative
effort of biologists from around the world. On more
than 10,000 World Wide Web pages, the project
provides information about the diversity of organisms
on Earth, their evolutionary history (phylogeny), and
characteristics
http://tolweb.org/tree/phylogeny.html
6 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Rôles de la phylogénie
Rôles
• mesure de l’évolution
• datation des événements évolutionnaire
• classification des espèces
• études virologiques (HIV) et parasitaires (Xanthomonas
campestris)
7 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Evolution et phylogénie
Cependant ...
Vouloir reconstruire l’histoire évolutive des espèces est
impossible à moins de disposer de données sur plusieurs
millions d’années.
8 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Evolution et reconstruction
AB
AB
A B A B’
A’B
A’B
A’B’
A B’
A B’
Espèces observées :
AB, AB ′
pourtant évolutions différentes de
AB ′
9 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Horloge moléculaire
Definition (Horloge moléculaire)
• Principe selon lequel les mutations génétiques
s’accumulent dans un génome à une vitesse globalement
proportionnelle au temps géologique
• remis en cause :
• non constant
• épisodique (accumulation, arrêt)
10 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Vocabulaire
Definition (Taxon, Taxa, OTU)
• les séquences manipulée lors de la reconstruction
phylogénétique sont appelées OTU pour Operational or
Observed Taxonomic Unit
• on parle également de taxon (pluriel taxa) pour taxonomic
group
11 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Vocabulaire
Definition (Graphe)
un graphe G = (V , E ) est composé
• d’un ensemble de sommets V = {v1 , . . . , vn }
• reliés entre eux par des arcs E = {(vi , vj )}
Definition (Arbre)
un arbre est un graphe sans cycle
12 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Vocabulaire
Definition (noeud, feuille, racine, branche)
• une branche (branch) relie 2 noeuds
• un noeud (node) (appelé sommet pour un graphe) est un
point de jonction entre 2 branches :
• racine (root) : noeud qui n’a pas d’ascendant
• feuille (leaf, leaves) : noeud qui n’a pas de descendant
• les autres noeuds sont dits internes (internal)
13 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Vocabulaire
Definition (arbre enraciné ou non enraciné)
• un arbre enraciné (rooted ) possède une racine (point de
départ de l’arbre)
• un arbre non enraciné (unrooted ) ne possède pas de
racine
14 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Vocabulaire
Definition (arbre binaire ou n-aire)
• arbre binaire (binary) dont chaque noeud (excepté les
feuilles) possède 2 descendants
• arbre n-aire dont chaque noeud (excepté les feuilles)
possède 1 à n descendants
15 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Vocabulaire
B
A
C
C
B
D
A
F IG .: arbres non enracinés
16 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Vocabulaire
racine
E
fils
branche
G
F
pere
A
B
fils
C
noeud
(interne)
D
feuille
freres
F IG .: arbre binaire enraciné
17 / 88
Bioinformatique BTVReconstruction Phylogénétique
Rappels
Méthodes de reconstruction
Méthodes de reconstruction
Il existe trois approches pour la reconstruction phylogénétique
• Minimum d’Evolution (ME) / Méthodes de distances
• Maximum de Parcimonie (MP)
• Maximum de Vraisemblance (Likelihood ) (ML) / Méthodes
Probabilistes
18 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Minimum d’Evolution
Minimum d’Evolution
19 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Méthodes de distances
Principe
1
méthodes agglomératives (clustering)
2
construction d’un arbre par regroupement des séquences
les plus proches (distance)
3
rapidité : algorithme en O(n3 )
20 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Distance
Definition (Métrique ou distance)
On rappelle qu’une métrique sur un ensemble X est une
application d : X × X → R vérifiant les propriétés suivantes :
• d (x, y) ≥ 0, non négativité,
• d (x, y) = 0 ⇐⇒ x = y, identité des indiscernables,
• d (x, y) = d (y, x), symétrie,
• d (x, z) ≤ d (x, y) + d (y, z), inégalité triangulaire.
21 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Distance additive
Definition (Distance additive)
une distance additive satisfait la condition dite des 4 points
(4-point condition) :
• ∀i, j, k, l tels que
• S1 = d (i, j) + d (k, l)
• S2 = d (i, k) + d (j, l)
• S3 = d (i, l) + d (j, k)
• on a S1 ≤ S2 = S3
=⇒ équidistance entre les taxa
22 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Distance additive
additivité non satisfaite
Il se peut que l’additivité ne soit pas satisfaite en raison des
insertions / deletions entre les séquences.
23 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Distance additive
matrice additive
a b c d
e
a 0 9 6 14 11
b 9 0 13 21 18
c 6 13 0 12 11
d 14 21 12 0 19
e 11 18 11 19 0
24 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Additivité
b
A
B
a
c
C

 (1)
(2)

(3)


a+b =9
a+c =6
b + c = 13
a=1
b=8

c=5
25 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Distance additive
dna_matrix2.outtree Sat Mar 21 11:28:01 2009 Page 1 of 1
1
8.250
d
1.000a
2.000
8.000
b
1.000
8.000
1.750
2.000
e
c
F IG .: arbre issu du neighbor-joining
26 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Distance ultramétrique
Definition (Distance ultramétrique)
une distance ultramétrique satisfait la condition dite des 3
points (3-point condition) :
• ∀i, j, k tels que
• S1 = d (i, j)
• S2 = d (i, k)
• S3 = d (j, k)
• on a S1 ≤ S2 = S3
la longueur de toutes les branches des feuilles à la racine est la
même
27 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Distance ultramétrique
matrice ultramétrique
a b c d
e
a 0 6 10 10 10
b 6 0 10 10 10
c 10 10 0 2 6
d 10 10 2 0 6
e 10 10 6 6 0
28 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Distance ultramétrique
dna_matrix1.outtree Sat Mar 21 11:28:01 2009 Page 1 of 1
0.5
3.000
2.000
e
1.000
d
1.000
c
2.000
3.000
b
3.000
a
2.000
F IG .: arbre obtenu par la méthode UPGMA
29 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Méthodes de distances
Méthodes basées sur une distance
1 Fitch-Margoliash
2
UPGMA (Unweighted Pair Group With Arithmetic Mean)
3
WPGMA (Weighted Pair Group With Arithmetic Mean)
4
NJ (Neighbor Joining)
30 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Algorithme UPGMA
UPGMA - [Sokal & Michener, 1958]
entrée : une matrice des distances D d’ordre n
1
L est un ensemble de feuilles {1}, . . . , {n}
2
dist({i}, {j}) = D(i, j)
3
trouver le couple (i, j) tel que dmin = dist(i, j) soit minimale
4
grouper i et j en un arbre de racine k, L = L − {i, j} ∪ {k}
5
i et j sont situés à distance
6
pour tout m 6= i, j, dist(k, m) = dist(m, k) =
7
répéter jusqu’à ce qu’il n’y ait plus que 2 noeuds
dmin
2
de k
dist(i,m)+dist(j,m)
2
31 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Algorithme WPGMA
WPGMA
comme UPGMA avec la formule suivante :
dist(k, m) = dist(m, k) =
|i|.dist(i, m) + |j|.dist(j, m)
|i| + |j|
où |i| et |j| sont le nombre de feuilles des arbres de racine i et j
32 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Inconvénients d’UPGMA
Inconvénients d’UPGMA
• produit un arbre non enraciné, pour enraciner :
• mid point rooting : équidistant
• utilisation d’une OTU très eloignée des autres
• sensibilité à des taux de mutations différents sur les
branches
33 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Sensibilité d’UPGMA
Sensibilité
On considère l’exemple suivant :
1
1
A
1
4
2
1
1
4
B
C
D
3
2
E
F
34 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Sensibilité d’UPGMA
Matrice des distances
A
B
C
D
E
F
A B C D E
0 5 4 7 6
5 0 7 10 9
4 7 0 7 6
7 10 7 0 5
6 9 6 5 0
8 11 8 9 8
F
8
11
8
9
8
0
35 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Sensibilité d’UPGMA
arbre obtenu avec UPGMA
sensib_upgma.outtree Sat Mar 21 11:28:01 2009 Page 1 of 1
0.5
4.400
F
2.500
E
2.500
D
1.250
0.650
3.000
0.750
B
2.000
C
2.000
A
1.000
36 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Algorithme du Neighbor Joining
Neighbor Joining - [Saitou & Nei, 1987]
• basée sur la minisation des moindres carrés
• Gascuel et Steel 2006 ont montré qu’en fait NJ réalise une
optimisation locale lors du choix des séquences qui
s’apparente à une recherche heuristique
37 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Algorithme du Neighbor Joining
Neighbor Joining - [Saitou & Nei, 1987]
ressemble à UPGMA/WPGMA mais choisir dmin n’est pas
suffisant, il faut calculer :
1 P
• Di,j = dist(i, j) − (ri + rj ) avec ri = |L|−2
k ∈L dist(i, k)
• puis
∀m ∈ L, dist(k, m) = 12 (dist(i, m) + dist(j, m) − dist(i, j))
• dist(k, i) = 21 (dist(i, j) + ri − rj )
• dist(k, j) = dist(i, j) − dist(k, i)
38 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Méthodes de distances
Inconvénients des méthodes basées sur une distance
manque de précision :
• matrice additive ou ultramétrique (pas toujours le cas)
• parfois non respect des distances
• pas d’information ou d’interaction entre taxa
• erreurs commises au début sont répercutées par la suite
Avantages
• rapidité
• permettent de traiter un nombre important de taxa
39 / 88
Bioinformatique BTVReconstruction Phylogénétique
Minimum d’Evolution
Logiciels basées sur les distances
Logiciels
• neighbor (PHYLIP)
• weighbor (NJ pondéré)
• bionj
• FastME
40 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Maximum de Parcimonie
Maximum de Parcimonie
41 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Méthodes de caractères
Méthodes de caractères : parcimonie (parsimony)
• repose sur la recherche d’un arbre comprenant le
minimum de changements évolutifs (score de parcimonie)
• le critère d’optimalité détermine le nombre de
changements entre deux nucléotides
42 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Critères d’optimalité
Critères d’optimalité
• Fitch (non ordonnée) : tout changement est équivalent
• Wagner (ordonnée) : nombre de changements
0−1−2−3−4
• Camin-Sokal (irreversible) : 0 < 1 < 2 < 3 < 4
• Dollo
• pondérée (weighted )
43 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Parcimonie selon Fitch, 1971
parcimonie selon Fitch, 1971
non ordonnée, réversible :
A C G T
A 0 1 1 1
C 1 0 1 1
G 1 1 0 1
T 1 1 1 0
44 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Parcimonie selon Wagner, 1961
parcimonie selon Wagner, 1961, Farris 1970
non ordonnée, réversible : A → C → G → T :
A C G T
A 0 1 2 3
C 1 0 1 2
G 2 1 0 1
T 3 2 1 0
45 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Parcimonie selon Camin-Sokal, 1965
parcimonie selon Camin-Sokal, 1965
irréversible : une fois le caractère acquis, il ne peut pas être
perdu
A C G T
A 0 1 2 3
C ∞ 0 1 2
G ∞ ∞ 0 1
T ∞ ∞ ∞ 0
46 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Parcimonie selon Dollo, 1983
parcimonie selon Dollo, 1983
evolution rarely reverts to an earlier specialized form
A
C
G
T
A 0 1×M 2×M 3×M
C 1
0
1×M 2×M
G 2
1
0
1×M
T 3
2
3
0
47 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Parcimonie pondérée
parcimonie pondérée
une transversion est plus coûteuse qu’une transition
A
C
G
T
A C G T
0 2 2 1
2 0 1 2
2 1 0 2
1 2 2 0
48 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Maximum de Parcimonie selon Fitch
Definition (Séquence de parcimonie)
Soit deux séquences S1 et S2 de longueurs k nucléotides :
S1 = x1 · · · xk
S2 = y1 · · · yk
la séquence de parcimonie de Fitch F (S1 , S2 ) = z1 · · · zk est
donnée par :
xi ∪ yi , if xi ∩ yi = ∅
∀i, 1 ≤ i ≤ k, zi =
xi ∩ yi , sinon
49 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Maximum de Parcimonie selon Fitch
Definition (Score de parcimonie)
Le coût de parcimonie de F (S1 , S2 ) est défini par :
φ(F (S1 , S2 )) =
k
X
i=1
ci
telque
ci =
1, if xi ∩ yi = ∅
0, sinon
50 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Maximum de Parcimonie selon Fitch
Parcimonie - exemple 1
score=2
AC
+1 AC
A
AC +1
C
A
C
51 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Maximum de Parcimonie selon Fitch
Parcimonie - exemple 2
AC +1
score=1
A
A
C
A
C
C
52 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Nombre d’arbres enracinés et non enracinés
Nombre d’abres
pour n OTU on a :
• abres enracinés :
n
Y
(2i − 3) =
i=2
(2n − 3)!
× (n − 2)!
2n−2
• abres non enracinés :
n
Y
(2i − 5) =
i=3
(2n − 5)!
× (n − 3)!
2n−3
53 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Nombre d’arbres enracinés et non enracinés
# taxa
3
4
5
10
20
30
40
50
non enracinés
1
3
15
2.027.025
2.22E+020
8.69E+036
1.31E+055
2.84E+074
enracinés
3
15
105
34.459.425
8.20E+021
4.95E+038
1.01E+057
2.75E+076
Combien de temps faut-il pour évaluer tous les arbres non
enracinés pour 20 taxa ?
54 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
NP-Complétude de MP
NP-Complétude de MP
• le problème MP qui consiste à trouver l’arbre de coût
minimum a été démontré NP-complet [Foulds et Graham,
1982]
• en d’autres termes : on ne connaı̂t pas d’algorithme autre
que l’énumération exhaustive pour trouver la solution au
problème
55 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Parcimonie et Optimisation Combinatoire
Optimisation combinatoire
Le problème MP peut être vu comme un problème
d’optimisation combinatoire :
• espace de recherche (population P) : ensemble des arbres
• fonction de voisinage Ω qui à partir d’un individu permet
d’atteindre ses plus proches voisins
• fonction d’évaluation (fitness f ) qui permet d’évaluer
l’adéquation d’un individu
• objectif : rechercher le meilleur individu
56 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Méthodes exactes et approchées
Méthodes exactes et approchées
Une méthode de résolution est dite :
1
exacte : si elle permet d’obtenir la solution optimale du
problème (meilleur individu)
2
approchée : si elle permet d’obtenir une solution proche de
la solution optimale
57 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Méthodes exactes et approchées
Avantages et inconvénients
1
méthode exacte : elle garantit d’obtenir la solution
optimale du problème mais peut se révéler coûteuse en
temps de calcul
2
méthode approchée : elle ne garantit pas d’obtenir la
solution optimale mais est moins coûteuse en temps de
calcul
58 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
branch and bound
Branch and bound - [Hendy et Penny, 1982]
1
génération d’un arbre qui fixe la borne supérieure
2
ajout de taxa au fur et à mesure sur l’ensemble des
branches
3
on garde les arbres de coût inférieur à la borne sup
4
on réitère
Avantages et inconvénients
• méthode exacte
• temps de calcul prohibitif si nombre de taxa > 15
59 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Méthodes approchées pour MP
Méthodes approchées pour MP
1
recherche locale (Local Search)
• descente (Hill Climbing)
• recherche tabu (Tabu Search) Glover, 1986
• recuit simulé (Simulated Annealing) Kirkpatrick et al, 1985
2
algorithmes par colonies de fourmis (Ant Colony) Dorigo,
1992
3
algorithmes génétiques (Genetic Algorithms) Holland,
1975
4
méthodes hybrides (LS + GA)
60 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Recherche Locale pour MP
Algorithme générique LS
1
2
3
4
5
6
7
8
9
10
11
12
i ⋆ ← i ← choisir un individu de P
f ⋆ ← f (i ⋆ )
niter ← 0 // nombre d’itérations
nind ← 1 // nombre d’individus examinés
while f (i) < f ⋆ do
f ⋆ ← f (i)
i⋆ ← i
trouver j ∈ Ω(i)/f (j) < f (i)
i ←j
niter ← niter + 1
end
return i ⋆
61 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Recherche Locale pour MP
Algorithme trouver voisin
1
2
3
4
5
6
7
Data : i un individu
foreach j ∈ Ω(i) do
if f (j) < f (i) then
return j
end
nind ← nind + 1
end
return i
62 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Optimum local et global
fitness
optimum local
optimum global
individus
F IG .: optimum local ou global
63 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Eviter les optimum locaux
Eviter les optimum locaux
afin d’éviter de stagner dans un optimum local (bassin
d’attraction), on peut :
• accepter des individus moins performants (détérioration)
• perturber la solution (détérioration)
• effectuer plusieurs relances
64 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Voisinages d’arbres
Voisinages
• NNI (Nearest Neighbor Interchange)
• SPR (Subtree Pruning and Regrafting)
• TBR (Tree Bisection and Reconnection)
• TF (Tree Fusing)
• PN (Progressive Neighborhood )
• combinaison
65 / 88
Bioinformatique BTVReconstruction Phylogénétique
Maximum de Parcimonie
Logiciels basées sur la parcimonie
Logiciels
• DNAPARS, PROTPARS, DOLLOP, FITCH (PHYLIP)
• MacClade
• Mesquite
• Piwe, NONA, TNT (Goloboff)
66 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Méthodes Probabilistes
Méthodes Probabilistes
67 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Méthodes probabilistes
Definition (Vraisemblance - Fisher, 1912)
méthode permettant de calculer, à partir d’un échantillon
observé, la (les) meilleure(s) valeur(s) d’un paramètre d’une loi
de probabilité
Méthodes probabilistes
deux types de méthodes fondées sur le principe de
vraisemblance
• Maximum de Vraisemblance
• méthode Bayésienne
68 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Maximum de vraisemblance
Maximum de Vraisemblance - [Edwards et Cavalli-Sforza, 1967]
• sélection de l’arbre qui maximise la vraisemblance (ayant
la plus forte probabilité d’avoir conduit aux données)
• limitée par la puissance de calcul des ordinateurs (1970)
• amélioré par l’algorithme de pruning (Felsenstein, 1981)
• estime la phylogénie et le modèle d’évolution des taxa
69 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Approche bayésienne
approche bayésienne
assigne une distribution de probabilités a priori aux différents
arbres et réalise des inférences à partir de la distribution des
probabilités a posteriori de ces arbres
70 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Modèle d’évolution des nucléotides
• purines : A, G
• pyrimidines : C, T
b
A
Transition
G
d
a
f
Transversion
c
C
e
T
F IG .: tree
71 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Modèle d’évolution des nucléotides
Modèle de Jukes-Cantor (JC), 1969
α
A
G
α
α
α
α
C
α
T
72 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Modèle d’évolution des nucléotides
Modèle de Kimura à 2 paramètres (K2P), 1980
α
A
G
β
β
β
β
C
α
T
73 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Modèle d’évolution des nucléotides
Autres modèles
• Kimura à 3 paramètres (K3P) 1981
• Takahata et Kimura à 5 paramètres (TK) 1981
• Hasegawa, Kishino et Yano à 5 paramètres (HKY) 1985
• Gojobori, Ishii et Nei à 6 paramètres (GIN) 1981
74 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Comparaison des méthodes
Méthodes de distance
• hypothèses :
• taux de substition homogène,
• matrice additive, ultramétrique
• arbres non enracinés
• avantages :
• rapide
• gros jeux de données
• inconvénients :
• attraction des branches longues et courtes
• sites traités de manière équivalente (perte d’information)
75 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Comparaison des méthodes
Méthodes de parcimonie
• hypothèses :
• considère le nombre total de changements
• pas de modèle de l’évolution
• avantages :
• permet de traiter des jeux de données de taille moyenne
• inconvénients :
• pas de modèle d’évolution
• fiable si grand nombre de séquences
76 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Comparaison des méthodes
Méthodes probabilistes
• hypothèses :
• repose sur un modèle de l’évolution
• avantages :
• permet de traiter des jeux de données de taille moyenne
• inconvénients :
• très lent
77 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Bootstrap
Definition (Bootstrap ou rééchantillonage)
• mise au point par Efron, 1979 puis Felsenstein, 1985
• technique d’inférence statistique basée sur une succession
de rééchantillonnages
• permet de tester la robustesse d’un arbre
78 / 88
Bioinformatique BTVReconstruction Phylogénétique
Méthodes probabilistes
Principe du bootstrap
Principe du bootstrap
• à partir des données initiales générer 100 jeux de données
en prenant aléatoirement n colonnes
• obtenir les arbres qui correspondent à ces jeux
• compter le nombre de fois ou on obtient les mêmes
sous-arbres
79 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Format PHYLIP
format des fichiers PHYLIP
on indique le nombre d’espèces puis la longueur des
séquences :
2 200
Cow
Carp
ATGGCATATCCCATACAA
ATGGCACACCCAACGCAA
CTTCACTTTCATGACCACACGCT
CTTCACTTCCACGACCACGCATT
...
Remarque : la séquence commence au bout de 10 caractères
après l’apparition de son nom
80 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Format Newick
format des fichiers Newick
permet de décrire les topologies des arbres :
(A:0.1,B:0.2,(C:0.3,D:0.4):0.5);
81 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Format NEXUS
format des fichiers NEXUS
permet de décrire les taxa et les arbres au format Newick :
#nexus
begin data;
dimensions ntax=2 nchar=705;
format datatype=dna interleave=yes gap=- missing=?;
matrix
Cow
ATGGCATATCCCATAC...
Carp
ATGGCACACCCAACGC...
Cow
Carp
CTTCACTTTCATGACC...
CTTCACTTCCACGACC...
;
82 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Format NEXUS
format des fichiers NEXUS (suite)
...
begin trees;
translate
1
Cow
2
Carp
;
tree *PAUP_1 = [&R] (1,2)
end;
83 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Le package logiciel PHYLIP
PHYLIP (Fensenstein, 1980)
• ensemble de logiciels liés à la reconstruction
phylogénétique
• pas facile à utiliser (infile, outfile) : pas de paramètres en
ligne de commande
• implantation des algorithmes de base
84 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Le package logiciel PHYLIP
Programmes PHYLIP
• calcul des matrices de distance :
• dnadist, protdist
• méthode de parcimonie
• dnapars, protpars
• méthode de distance
• neighbor : NJ ou UPGMA
• fitch : least-square, Fitch-Margoliash
• kitch : fitch + horloge moléculaire
85 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Autres logiciels
Autres logiciels
la plupart ne sont pas gratuits !
• PiWe, Nona, TNT (Pablo Goloboff - MP)
• bionj (Olivier Gascuel - ME)
• PAUP (Swofford) : Phylogny Analysis Using Parsimony
• MacClade
• fastdnaml (ML)
86 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Autres logiciels
Autres logiciels (gratuits)
• treeview (visualisation d’arbre)
• treedyn (visualisation d’arbre)
• njplot (newicktops, newicktotxt)
• Mega (Windows, MAC) : alignement, phylogénie
87 / 88
Bioinformatique BTVReconstruction Phylogénétique
Formats de fichiers
Fin
Fin
88 / 88

Documents pareils