Bioinformatique BTV Reconstruction Phylogénétique
Transcription
Bioinformatique BTV Reconstruction Phylogénétique
Bioinformatique BTVReconstruction Phylogénétique Bioinformatique BTV Reconstruction Phylogénétique Jean-Michel Richer [email protected] http://www.info.univ-angers.fr/pub/richer Juillet 2008 1 / 88 Bioinformatique BTVReconstruction Phylogénétique Plan Plan 1 Rappels 2 Minimum d’Evolution 3 Maximum de Parcimonie 4 Méthodes probabilistes 5 Formats de fichiers 2 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Rappels Rappels 3 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Evolution et phylogénie Darwin Depuis Carl Von Linné (1707-1778), Jean-Baptiste Lamarck (1744-1829) et Charles Darwin (1809-1882) de nombreux chercheurs ont tenté d’établir l’arbre de la vie. Dogme Tous les organismes vivants résultent d’évolutions à partir d’un ancêtre commun. • Lamarck : influence du milieu naturel • Darwin : sélection naturelle 4 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Evolution et phylogénie Avant • étude des caractères morphologiques et physiologiques • pas approprié si espèces différentes (ex Ornithorinque) Aujourd’hui • biologie moléculaire : ADN, protéines • étude du génotype plutôt que du phénotype =⇒ plus précis 5 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Le projet : Tree of Life Tree of life The Tree of Life Web Project (ToL) is a collaborative effort of biologists from around the world. On more than 10,000 World Wide Web pages, the project provides information about the diversity of organisms on Earth, their evolutionary history (phylogeny), and characteristics http://tolweb.org/tree/phylogeny.html 6 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Rôles de la phylogénie Rôles • mesure de l’évolution • datation des événements évolutionnaire • classification des espèces • études virologiques (HIV) et parasitaires (Xanthomonas campestris) 7 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Evolution et phylogénie Cependant ... Vouloir reconstruire l’histoire évolutive des espèces est impossible à moins de disposer de données sur plusieurs millions d’années. 8 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Evolution et reconstruction AB AB A B A B’ A’B A’B A’B’ A B’ A B’ Espèces observées : AB, AB ′ pourtant évolutions différentes de AB ′ 9 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Horloge moléculaire Definition (Horloge moléculaire) • Principe selon lequel les mutations génétiques s’accumulent dans un génome à une vitesse globalement proportionnelle au temps géologique • remis en cause : • non constant • épisodique (accumulation, arrêt) 10 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Vocabulaire Definition (Taxon, Taxa, OTU) • les séquences manipulée lors de la reconstruction phylogénétique sont appelées OTU pour Operational or Observed Taxonomic Unit • on parle également de taxon (pluriel taxa) pour taxonomic group 11 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Vocabulaire Definition (Graphe) un graphe G = (V , E ) est composé • d’un ensemble de sommets V = {v1 , . . . , vn } • reliés entre eux par des arcs E = {(vi , vj )} Definition (Arbre) un arbre est un graphe sans cycle 12 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Vocabulaire Definition (noeud, feuille, racine, branche) • une branche (branch) relie 2 noeuds • un noeud (node) (appelé sommet pour un graphe) est un point de jonction entre 2 branches : • racine (root) : noeud qui n’a pas d’ascendant • feuille (leaf, leaves) : noeud qui n’a pas de descendant • les autres noeuds sont dits internes (internal) 13 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Vocabulaire Definition (arbre enraciné ou non enraciné) • un arbre enraciné (rooted ) possède une racine (point de départ de l’arbre) • un arbre non enraciné (unrooted ) ne possède pas de racine 14 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Vocabulaire Definition (arbre binaire ou n-aire) • arbre binaire (binary) dont chaque noeud (excepté les feuilles) possède 2 descendants • arbre n-aire dont chaque noeud (excepté les feuilles) possède 1 à n descendants 15 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Vocabulaire B A C C B D A F IG .: arbres non enracinés 16 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Vocabulaire racine E fils branche G F pere A B fils C noeud (interne) D feuille freres F IG .: arbre binaire enraciné 17 / 88 Bioinformatique BTVReconstruction Phylogénétique Rappels Méthodes de reconstruction Méthodes de reconstruction Il existe trois approches pour la reconstruction phylogénétique • Minimum d’Evolution (ME) / Méthodes de distances • Maximum de Parcimonie (MP) • Maximum de Vraisemblance (Likelihood ) (ML) / Méthodes Probabilistes 18 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Minimum d’Evolution Minimum d’Evolution 19 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Méthodes de distances Principe 1 méthodes agglomératives (clustering) 2 construction d’un arbre par regroupement des séquences les plus proches (distance) 3 rapidité : algorithme en O(n3 ) 20 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Distance Definition (Métrique ou distance) On rappelle qu’une métrique sur un ensemble X est une application d : X × X → R vérifiant les propriétés suivantes : • d (x, y) ≥ 0, non négativité, • d (x, y) = 0 ⇐⇒ x = y, identité des indiscernables, • d (x, y) = d (y, x), symétrie, • d (x, z) ≤ d (x, y) + d (y, z), inégalité triangulaire. 21 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Distance additive Definition (Distance additive) une distance additive satisfait la condition dite des 4 points (4-point condition) : • ∀i, j, k, l tels que • S1 = d (i, j) + d (k, l) • S2 = d (i, k) + d (j, l) • S3 = d (i, l) + d (j, k) • on a S1 ≤ S2 = S3 =⇒ équidistance entre les taxa 22 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Distance additive additivité non satisfaite Il se peut que l’additivité ne soit pas satisfaite en raison des insertions / deletions entre les séquences. 23 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Distance additive matrice additive a b c d e a 0 9 6 14 11 b 9 0 13 21 18 c 6 13 0 12 11 d 14 21 12 0 19 e 11 18 11 19 0 24 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Additivité b A B a c C (1) (2) (3) a+b =9 a+c =6 b + c = 13 a=1 b=8 c=5 25 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Distance additive dna_matrix2.outtree Sat Mar 21 11:28:01 2009 Page 1 of 1 1 8.250 d 1.000a 2.000 8.000 b 1.000 8.000 1.750 2.000 e c F IG .: arbre issu du neighbor-joining 26 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Distance ultramétrique Definition (Distance ultramétrique) une distance ultramétrique satisfait la condition dite des 3 points (3-point condition) : • ∀i, j, k tels que • S1 = d (i, j) • S2 = d (i, k) • S3 = d (j, k) • on a S1 ≤ S2 = S3 la longueur de toutes les branches des feuilles à la racine est la même 27 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Distance ultramétrique matrice ultramétrique a b c d e a 0 6 10 10 10 b 6 0 10 10 10 c 10 10 0 2 6 d 10 10 2 0 6 e 10 10 6 6 0 28 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Distance ultramétrique dna_matrix1.outtree Sat Mar 21 11:28:01 2009 Page 1 of 1 0.5 3.000 2.000 e 1.000 d 1.000 c 2.000 3.000 b 3.000 a 2.000 F IG .: arbre obtenu par la méthode UPGMA 29 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Méthodes de distances Méthodes basées sur une distance 1 Fitch-Margoliash 2 UPGMA (Unweighted Pair Group With Arithmetic Mean) 3 WPGMA (Weighted Pair Group With Arithmetic Mean) 4 NJ (Neighbor Joining) 30 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Algorithme UPGMA UPGMA - [Sokal & Michener, 1958] entrée : une matrice des distances D d’ordre n 1 L est un ensemble de feuilles {1}, . . . , {n} 2 dist({i}, {j}) = D(i, j) 3 trouver le couple (i, j) tel que dmin = dist(i, j) soit minimale 4 grouper i et j en un arbre de racine k, L = L − {i, j} ∪ {k} 5 i et j sont situés à distance 6 pour tout m 6= i, j, dist(k, m) = dist(m, k) = 7 répéter jusqu’à ce qu’il n’y ait plus que 2 noeuds dmin 2 de k dist(i,m)+dist(j,m) 2 31 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Algorithme WPGMA WPGMA comme UPGMA avec la formule suivante : dist(k, m) = dist(m, k) = |i|.dist(i, m) + |j|.dist(j, m) |i| + |j| où |i| et |j| sont le nombre de feuilles des arbres de racine i et j 32 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Inconvénients d’UPGMA Inconvénients d’UPGMA • produit un arbre non enraciné, pour enraciner : • mid point rooting : équidistant • utilisation d’une OTU très eloignée des autres • sensibilité à des taux de mutations différents sur les branches 33 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Sensibilité d’UPGMA Sensibilité On considère l’exemple suivant : 1 1 A 1 4 2 1 1 4 B C D 3 2 E F 34 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Sensibilité d’UPGMA Matrice des distances A B C D E F A B C D E 0 5 4 7 6 5 0 7 10 9 4 7 0 7 6 7 10 7 0 5 6 9 6 5 0 8 11 8 9 8 F 8 11 8 9 8 0 35 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Sensibilité d’UPGMA arbre obtenu avec UPGMA sensib_upgma.outtree Sat Mar 21 11:28:01 2009 Page 1 of 1 0.5 4.400 F 2.500 E 2.500 D 1.250 0.650 3.000 0.750 B 2.000 C 2.000 A 1.000 36 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Algorithme du Neighbor Joining Neighbor Joining - [Saitou & Nei, 1987] • basée sur la minisation des moindres carrés • Gascuel et Steel 2006 ont montré qu’en fait NJ réalise une optimisation locale lors du choix des séquences qui s’apparente à une recherche heuristique 37 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Algorithme du Neighbor Joining Neighbor Joining - [Saitou & Nei, 1987] ressemble à UPGMA/WPGMA mais choisir dmin n’est pas suffisant, il faut calculer : 1 P • Di,j = dist(i, j) − (ri + rj ) avec ri = |L|−2 k ∈L dist(i, k) • puis ∀m ∈ L, dist(k, m) = 12 (dist(i, m) + dist(j, m) − dist(i, j)) • dist(k, i) = 21 (dist(i, j) + ri − rj ) • dist(k, j) = dist(i, j) − dist(k, i) 38 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Méthodes de distances Inconvénients des méthodes basées sur une distance manque de précision : • matrice additive ou ultramétrique (pas toujours le cas) • parfois non respect des distances • pas d’information ou d’interaction entre taxa • erreurs commises au début sont répercutées par la suite Avantages • rapidité • permettent de traiter un nombre important de taxa 39 / 88 Bioinformatique BTVReconstruction Phylogénétique Minimum d’Evolution Logiciels basées sur les distances Logiciels • neighbor (PHYLIP) • weighbor (NJ pondéré) • bionj • FastME 40 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Maximum de Parcimonie Maximum de Parcimonie 41 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Méthodes de caractères Méthodes de caractères : parcimonie (parsimony) • repose sur la recherche d’un arbre comprenant le minimum de changements évolutifs (score de parcimonie) • le critère d’optimalité détermine le nombre de changements entre deux nucléotides 42 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Critères d’optimalité Critères d’optimalité • Fitch (non ordonnée) : tout changement est équivalent • Wagner (ordonnée) : nombre de changements 0−1−2−3−4 • Camin-Sokal (irreversible) : 0 < 1 < 2 < 3 < 4 • Dollo • pondérée (weighted ) 43 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Parcimonie selon Fitch, 1971 parcimonie selon Fitch, 1971 non ordonnée, réversible : A C G T A 0 1 1 1 C 1 0 1 1 G 1 1 0 1 T 1 1 1 0 44 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Parcimonie selon Wagner, 1961 parcimonie selon Wagner, 1961, Farris 1970 non ordonnée, réversible : A → C → G → T : A C G T A 0 1 2 3 C 1 0 1 2 G 2 1 0 1 T 3 2 1 0 45 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Parcimonie selon Camin-Sokal, 1965 parcimonie selon Camin-Sokal, 1965 irréversible : une fois le caractère acquis, il ne peut pas être perdu A C G T A 0 1 2 3 C ∞ 0 1 2 G ∞ ∞ 0 1 T ∞ ∞ ∞ 0 46 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Parcimonie selon Dollo, 1983 parcimonie selon Dollo, 1983 evolution rarely reverts to an earlier specialized form A C G T A 0 1×M 2×M 3×M C 1 0 1×M 2×M G 2 1 0 1×M T 3 2 3 0 47 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Parcimonie pondérée parcimonie pondérée une transversion est plus coûteuse qu’une transition A C G T A C G T 0 2 2 1 2 0 1 2 2 1 0 2 1 2 2 0 48 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Maximum de Parcimonie selon Fitch Definition (Séquence de parcimonie) Soit deux séquences S1 et S2 de longueurs k nucléotides : S1 = x1 · · · xk S2 = y1 · · · yk la séquence de parcimonie de Fitch F (S1 , S2 ) = z1 · · · zk est donnée par : xi ∪ yi , if xi ∩ yi = ∅ ∀i, 1 ≤ i ≤ k, zi = xi ∩ yi , sinon 49 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Maximum de Parcimonie selon Fitch Definition (Score de parcimonie) Le coût de parcimonie de F (S1 , S2 ) est défini par : φ(F (S1 , S2 )) = k X i=1 ci telque ci = 1, if xi ∩ yi = ∅ 0, sinon 50 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Maximum de Parcimonie selon Fitch Parcimonie - exemple 1 score=2 AC +1 AC A AC +1 C A C 51 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Maximum de Parcimonie selon Fitch Parcimonie - exemple 2 AC +1 score=1 A A C A C C 52 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Nombre d’arbres enracinés et non enracinés Nombre d’abres pour n OTU on a : • abres enracinés : n Y (2i − 3) = i=2 (2n − 3)! × (n − 2)! 2n−2 • abres non enracinés : n Y (2i − 5) = i=3 (2n − 5)! × (n − 3)! 2n−3 53 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Nombre d’arbres enracinés et non enracinés # taxa 3 4 5 10 20 30 40 50 non enracinés 1 3 15 2.027.025 2.22E+020 8.69E+036 1.31E+055 2.84E+074 enracinés 3 15 105 34.459.425 8.20E+021 4.95E+038 1.01E+057 2.75E+076 Combien de temps faut-il pour évaluer tous les arbres non enracinés pour 20 taxa ? 54 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie NP-Complétude de MP NP-Complétude de MP • le problème MP qui consiste à trouver l’arbre de coût minimum a été démontré NP-complet [Foulds et Graham, 1982] • en d’autres termes : on ne connaı̂t pas d’algorithme autre que l’énumération exhaustive pour trouver la solution au problème 55 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Parcimonie et Optimisation Combinatoire Optimisation combinatoire Le problème MP peut être vu comme un problème d’optimisation combinatoire : • espace de recherche (population P) : ensemble des arbres • fonction de voisinage Ω qui à partir d’un individu permet d’atteindre ses plus proches voisins • fonction d’évaluation (fitness f ) qui permet d’évaluer l’adéquation d’un individu • objectif : rechercher le meilleur individu 56 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Méthodes exactes et approchées Méthodes exactes et approchées Une méthode de résolution est dite : 1 exacte : si elle permet d’obtenir la solution optimale du problème (meilleur individu) 2 approchée : si elle permet d’obtenir une solution proche de la solution optimale 57 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Méthodes exactes et approchées Avantages et inconvénients 1 méthode exacte : elle garantit d’obtenir la solution optimale du problème mais peut se révéler coûteuse en temps de calcul 2 méthode approchée : elle ne garantit pas d’obtenir la solution optimale mais est moins coûteuse en temps de calcul 58 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie branch and bound Branch and bound - [Hendy et Penny, 1982] 1 génération d’un arbre qui fixe la borne supérieure 2 ajout de taxa au fur et à mesure sur l’ensemble des branches 3 on garde les arbres de coût inférieur à la borne sup 4 on réitère Avantages et inconvénients • méthode exacte • temps de calcul prohibitif si nombre de taxa > 15 59 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Méthodes approchées pour MP Méthodes approchées pour MP 1 recherche locale (Local Search) • descente (Hill Climbing) • recherche tabu (Tabu Search) Glover, 1986 • recuit simulé (Simulated Annealing) Kirkpatrick et al, 1985 2 algorithmes par colonies de fourmis (Ant Colony) Dorigo, 1992 3 algorithmes génétiques (Genetic Algorithms) Holland, 1975 4 méthodes hybrides (LS + GA) 60 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Recherche Locale pour MP Algorithme générique LS 1 2 3 4 5 6 7 8 9 10 11 12 i ⋆ ← i ← choisir un individu de P f ⋆ ← f (i ⋆ ) niter ← 0 // nombre d’itérations nind ← 1 // nombre d’individus examinés while f (i) < f ⋆ do f ⋆ ← f (i) i⋆ ← i trouver j ∈ Ω(i)/f (j) < f (i) i ←j niter ← niter + 1 end return i ⋆ 61 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Recherche Locale pour MP Algorithme trouver voisin 1 2 3 4 5 6 7 Data : i un individu foreach j ∈ Ω(i) do if f (j) < f (i) then return j end nind ← nind + 1 end return i 62 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Optimum local et global fitness optimum local optimum global individus F IG .: optimum local ou global 63 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Eviter les optimum locaux Eviter les optimum locaux afin d’éviter de stagner dans un optimum local (bassin d’attraction), on peut : • accepter des individus moins performants (détérioration) • perturber la solution (détérioration) • effectuer plusieurs relances 64 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Voisinages d’arbres Voisinages • NNI (Nearest Neighbor Interchange) • SPR (Subtree Pruning and Regrafting) • TBR (Tree Bisection and Reconnection) • TF (Tree Fusing) • PN (Progressive Neighborhood ) • combinaison 65 / 88 Bioinformatique BTVReconstruction Phylogénétique Maximum de Parcimonie Logiciels basées sur la parcimonie Logiciels • DNAPARS, PROTPARS, DOLLOP, FITCH (PHYLIP) • MacClade • Mesquite • Piwe, NONA, TNT (Goloboff) 66 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Méthodes Probabilistes Méthodes Probabilistes 67 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Méthodes probabilistes Definition (Vraisemblance - Fisher, 1912) méthode permettant de calculer, à partir d’un échantillon observé, la (les) meilleure(s) valeur(s) d’un paramètre d’une loi de probabilité Méthodes probabilistes deux types de méthodes fondées sur le principe de vraisemblance • Maximum de Vraisemblance • méthode Bayésienne 68 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Maximum de vraisemblance Maximum de Vraisemblance - [Edwards et Cavalli-Sforza, 1967] • sélection de l’arbre qui maximise la vraisemblance (ayant la plus forte probabilité d’avoir conduit aux données) • limitée par la puissance de calcul des ordinateurs (1970) • amélioré par l’algorithme de pruning (Felsenstein, 1981) • estime la phylogénie et le modèle d’évolution des taxa 69 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Approche bayésienne approche bayésienne assigne une distribution de probabilités a priori aux différents arbres et réalise des inférences à partir de la distribution des probabilités a posteriori de ces arbres 70 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Modèle d’évolution des nucléotides • purines : A, G • pyrimidines : C, T b A Transition G d a f Transversion c C e T F IG .: tree 71 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Modèle d’évolution des nucléotides Modèle de Jukes-Cantor (JC), 1969 α A G α α α α C α T 72 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Modèle d’évolution des nucléotides Modèle de Kimura à 2 paramètres (K2P), 1980 α A G β β β β C α T 73 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Modèle d’évolution des nucléotides Autres modèles • Kimura à 3 paramètres (K3P) 1981 • Takahata et Kimura à 5 paramètres (TK) 1981 • Hasegawa, Kishino et Yano à 5 paramètres (HKY) 1985 • Gojobori, Ishii et Nei à 6 paramètres (GIN) 1981 74 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Comparaison des méthodes Méthodes de distance • hypothèses : • taux de substition homogène, • matrice additive, ultramétrique • arbres non enracinés • avantages : • rapide • gros jeux de données • inconvénients : • attraction des branches longues et courtes • sites traités de manière équivalente (perte d’information) 75 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Comparaison des méthodes Méthodes de parcimonie • hypothèses : • considère le nombre total de changements • pas de modèle de l’évolution • avantages : • permet de traiter des jeux de données de taille moyenne • inconvénients : • pas de modèle d’évolution • fiable si grand nombre de séquences 76 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Comparaison des méthodes Méthodes probabilistes • hypothèses : • repose sur un modèle de l’évolution • avantages : • permet de traiter des jeux de données de taille moyenne • inconvénients : • très lent 77 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Bootstrap Definition (Bootstrap ou rééchantillonage) • mise au point par Efron, 1979 puis Felsenstein, 1985 • technique d’inférence statistique basée sur une succession de rééchantillonnages • permet de tester la robustesse d’un arbre 78 / 88 Bioinformatique BTVReconstruction Phylogénétique Méthodes probabilistes Principe du bootstrap Principe du bootstrap • à partir des données initiales générer 100 jeux de données en prenant aléatoirement n colonnes • obtenir les arbres qui correspondent à ces jeux • compter le nombre de fois ou on obtient les mêmes sous-arbres 79 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Format PHYLIP format des fichiers PHYLIP on indique le nombre d’espèces puis la longueur des séquences : 2 200 Cow Carp ATGGCATATCCCATACAA ATGGCACACCCAACGCAA CTTCACTTTCATGACCACACGCT CTTCACTTCCACGACCACGCATT ... Remarque : la séquence commence au bout de 10 caractères après l’apparition de son nom 80 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Format Newick format des fichiers Newick permet de décrire les topologies des arbres : (A:0.1,B:0.2,(C:0.3,D:0.4):0.5); 81 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Format NEXUS format des fichiers NEXUS permet de décrire les taxa et les arbres au format Newick : #nexus begin data; dimensions ntax=2 nchar=705; format datatype=dna interleave=yes gap=- missing=?; matrix Cow ATGGCATATCCCATAC... Carp ATGGCACACCCAACGC... Cow Carp CTTCACTTTCATGACC... CTTCACTTCCACGACC... ; 82 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Format NEXUS format des fichiers NEXUS (suite) ... begin trees; translate 1 Cow 2 Carp ; tree *PAUP_1 = [&R] (1,2) end; 83 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Le package logiciel PHYLIP PHYLIP (Fensenstein, 1980) • ensemble de logiciels liés à la reconstruction phylogénétique • pas facile à utiliser (infile, outfile) : pas de paramètres en ligne de commande • implantation des algorithmes de base 84 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Le package logiciel PHYLIP Programmes PHYLIP • calcul des matrices de distance : • dnadist, protdist • méthode de parcimonie • dnapars, protpars • méthode de distance • neighbor : NJ ou UPGMA • fitch : least-square, Fitch-Margoliash • kitch : fitch + horloge moléculaire 85 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Autres logiciels Autres logiciels la plupart ne sont pas gratuits ! • PiWe, Nona, TNT (Pablo Goloboff - MP) • bionj (Olivier Gascuel - ME) • PAUP (Swofford) : Phylogny Analysis Using Parsimony • MacClade • fastdnaml (ML) 86 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Autres logiciels Autres logiciels (gratuits) • treeview (visualisation d’arbre) • treedyn (visualisation d’arbre) • njplot (newicktops, newicktotxt) • Mega (Windows, MAC) : alignement, phylogénie 87 / 88 Bioinformatique BTVReconstruction Phylogénétique Formats de fichiers Fin Fin 88 / 88