Johan Michaux
Transcription
Johan Michaux
La phylogéographie : méthodologie et applications Johan Michaux CBGP Montpellier, Université Liège. Fluctuations climatiques du Quaternaire Les périodes glaciaires du Quaternaire ont modifiés sérieusement la distribution de la faune et de la flore européenne. Distribution de la végétation Dernier maximum glaciaire (20 000-16 000 BP) Glace Permafrost Toundra Conifères Forêts mixtes Permafrost Toundra Actuellement Conifères Forêts mixtes Flore Méditerranéenne Harrison 1982 Outils génétiques Développement de deux nouvelles disciplines : la phylogéographie et la génétique des populations. Hypothèse phylogéographique classique : refuges glaciaires dans les régions Mediterraneénnes (Espagne, Italie et Balkan). Recolonisation de la région Palaearctique de refuge glaciaires. Taberlet et al. 1998; Hewitt, 1999 Trois grandes patrons de recolonisation postglaciaires Chorthippus parallelus Alnus glutinosa Fagus sylvaticus Erinaceus spp Quercus spp Abies alba Ursus arctos Sorex araneus Microtus agrestis Une situation plus complexe qu’il n’y parait…. - Régions refuges : correspondent-elles seulement aux régions Méditerranéennes? D’autres régions existeraient-elles (Nord de l’Europe, Asie Centrale…) Nouvelles hypothèses concernant les refuges, particulièrement pour les rongeurs: En Scandinavie pour les lemmings (Fedorov & Stenseth 2001). En europe Centrale pour les campagnols (Microtus sp. ) Néanmoins, toujours espèces adaptées aux milieux ouverts, permettant à cellesci de survivre même dans des milieux steppiques ou de toundras. La question de refuges plus nordiques pour les autres espèces demeure sans réponse. - La théorie suggère que la variabilité génétique est plus importante dans les régions refuges que dans les régions récemment recolonisées. Malheureusement, très peu vérifié actuellement : important pour la biologie de la conservation!!! - Les régions caractérisées par un +? -? haut niveau de diversité intraspécifiques peuvent-elles être reliées aux régions présentant de haut niveaux de richesses spécifiques (hot spot de biodiversité). -? -? -? -? +? +? + +? +? Phylogéographie comparée - Est-il possible de déterminer l’influence d’un facteur historique commun pour expliquer la structure phylogéographique des espèces ou chaque espèce a-t-elle survécu de manière indépendante aux changements climatiques? - Des espèces très proches évolutivement, morphologiquement, écologiquement ou comportementalement ont-elle réagi de la même manière aux changements climatique? Est-il possible de découvrir l’influence d’un facteur historique commun entre-elles ou, en fonction de petites différences dans leurs habitures écologiques, ont-elles eu une histoire phylogéographique différente? Première partie : Utilisation des marqueurs moléculaires pour la classification des espèces : la phylogénie moléculaire. Quelques définitions : Systématique évolutioniste : Discipline permettant de décrire, nommer et classifier les organismes vivants selon leur relations de parenté évolutive. Classification : Arrangement des êtres ou choses en groupes selon des critères variables. Actuellement, classification phylogénétique : basée sur des relations de parenté des taxons. Phylogénie : « Enchaînement des espèces animales et végétales au cours du temps » (Haeckel, 1866). Concept exprimé auparavant par le mot GENEALOGIE. Ascendants Descendants mâle Femelle Ancêtre commun 1 2 3 Espèce 1 Espèce 2 Espèce 3 En généalogie, on étudie qui descend de qui? En phylogénie, on étudie qui est le frère de qui? L’ancêtre commun est toujours hypothétique ! Autres définitions de la phylogénie: « Cours historique de la descendance des êtres vivants » (Darwin, 1872) . C’est aussi l’histoire graphique de cette histoire : notion d’arbre phylogénétique Quels sont les moyens pour retracer les liens de parenté et l’histoire évolutive des organismes? Enquête…. Indices : Caractères = tout attribut observable chez un organisme. Il permet de faire des comparaisons entre organismes. Ce caractère peut exister sous différentes formes que l’on appelle les états de caractère. Exemple : Caractère = couleur des yeux Etat de caractère = les différentes couleurs Il existe d’innombrables types de caractères : - niveau morphologique (caractères morphologiques) - niveau anatomique; - niveau éthologique; - niveau histologique (types de tissus); - cytologique (ex. différence entre procaryotes et eucaryotes); - matériel génétique (caractères chromosomiques); - niveau moléculaire (séquences de protéines ou d’ADN). Plus précisément : Séquence 1 : A C T G A T T . . . . . . Séquence 2 : A C T G A T A . . . . . . Au niveau de l’ADN : 5 états de caractère par caractère : A, C, G, T, * Au niveau de l’ARN : 5 états de caractère par caractère : A, C, G, U, * Au niveau protéiques : 21 états de caractères (20 Acides aminès + délétion *) Les caractères peuvent aussi se diviser en : - caractères discrets : multiples états qu’on peut dénombrer (qualitatif, ex. nucléotides ou acides aminés. - caractères continus (quantitatifs, ex. distance immunologique : force avec laquelle un anticorps reconnaît un antigène). Qu’est-ce qu’un taxon: Groupe d’organismes formant une unité à n’importe quel niveau de la classification. Système de nomenclature binomial : nom de genre et nom d’espèce en latin et italique. Sept catégories taxinomiques principales ont été définies : Ex. pour l’homme Homo sapiens : Régne : animalia; Embranchement : Chordata; Classe : Mammalia; Ordre : Primates; Familles : Hominidae; Genre : Homo; Espèce : sapiens. Illustration des relations entre taxons : les arbres de parenté Qu’est-ce qu’un arbre? : C’est une construction en deux dimensions permettant d’illustrer les relations de parenté entre les étudiés. Pour établir un arbre de parenté, il faut que les caractères soient comparables et observés. Exemple : couleur des yeux ou position d’un nucléotide dans une séquence d’ADN. Représentation graphique d’un arbre Groupe interne = ingroup Temps A B Nœud interne = Ancêtre commun hypothétique C D Groupe externe = outgroup E F Taxons terminaux = observations Branches= matérialise la quantité d’évolution = inférences Racine = origine de l’arbre = point d’ancrage du groupe externe Notion de racine : importance du choix de l’outgroup Sans racine : aucune idée sur qui est plus proche parent de qui? A Avec racine : A et B sont Plus proches parents A Racine B C B C Un arbre est phylogénétique que si et seulement si, il possède une racine! Un arbre enraciné spécifie où se situe l’ancêtre commun des taxa, considéré comme la racine de l’arbre La racine est trouvée grâce à un groupe externe (outgroup). Ce groupe externe est plus anciens que le groupe interne étudié : exemple : reptiles pour l’étude des mammifères Groupe interne A B Groupes externes C D E Un bon groupe externe ne doit pas être trop éloigné ni trop proche du groupe interne. Bonne connaissance du groupe qu’on étudie! Notion de longueur de branche : visualise la vitesse d’évolution des taxons! Variété d’arbres Rotation = le même arbreB A C B A C B A C 3 4 1 2 8 7 5 6 9 12 13 10 14 11 15 16 17 3 4 1 2 8 7 5 6 9 12 13 10 14 11 15 16 17 15 13 10 14 11 16 4 12 9 6 17 5 7 8 4 2 1 3 17 0.1 0.1 15 16 7 5 6 912 13 10 14 11 8 3 1 2 Méthodes de reconstruction phylogénétiques 1. Méthodes phénétiques ou de distances - Se basent sur la ressemblance globale des taxons : + ils se ressemblent, + ils sont proches!! - Des matrices de distances pourront être créées sur base de différentes informations (morphologiques, immunologiques ou génétiques : Ex : A B a t c g 100 100 Distance AB = Nombre de nucléotide qui différent Nombre total de nucléotides Ici, 2 différences/100 = 2% Différentes méthodes de reconstruction d’arbres sur base des matrices de distances - UPGMA : Unweighted Pair Group Method with Arithmetic Means Principe : méthode contraignant les distances à être ultra-métrique : tous les taxons sont censé évoluer à la même vitesse : méthode archaïque. - Neighbor-Joining : méthode tenant compte des différences de vitesse d’évolution. Donne des résultats différents de ceux obtenus par UPGMA. Méthode plus préconisée actuellement. On obtient des phénogrammes Avantages de la méthode des distances : - Elles sont rapides. Elles sont les seules à permettre l’analyse de certains type de données : distances immunologiques, distances d’hybridation d’acides nucléiques, de données RFLP…. - - Elles permettent d’intégrer des modèles de changements évolutifs (hétérogénéité des taux de substitutions dans les séquences…) non intégrables dans d’autres méthodes Modèles évolutifs utilisés pour la correction des distances observées Modèle de Jukes-Cantor (JC) C'est un modèle très simple, qui assume que les 4 bases ont les mêmes fréquences et que les substitutions sont équiprobables. Modèle de Tajima-Nei (TN) C'est un modèle qui prenne en compte la variation des fréquences des bases, mais qui assume que la probabilité du changement vers une base donnée ne dépend pas de la base qui change ("equal-input" model). Ainsi, le changement de A vers T a même probabilité que le changement de G ou C vers T. Modèle de Kimura (K2P) Ce modèle tient compte de la proportion entre le nombre de transitions (a) et transversions (b). Les transitions sont beaucoup plus nombreuses que les transversions Désavantages de la méthode des distances : - Le fait que la matrice des caractères est réduites à une matrice de distances induit la perte d’une quantité d’informations. - Elles ne permettent pas de combiner dans une même matrice des caractères de nature différente (ex. morpho et séquences ADN). 2. Méthodes cladistiques S’oppose aux méthodes phénétiques car elle raisonne caractère par caractère. Ensuite, elle fait la synthèse pour proposer un arbre. En cladistique, la phylogénie est reconstruite à l’aide d’une analyse de caractères qui vise à identifier les états plésiomorphes (= primitifs) et apomorphes (=dérivés). Les parentés entre les taxons étudiés sont identifiés sur base des seuls état apomorphes partagés par tel et tel taxon (= synapomorphie). Les synapomorphies sont imputées à un héritage à partir d’une espèce ancestrale propre aux taxons qui les possèdent. Exemple : 6 caractères : abcdef X a’bcdef Y ab’c’def Z ab’cd’e’f’ ab’cdef abcdef Lien étroit entre Y et Z : b’ apparenté aux deux X a’bcdef Y ab’c’def Z ab’cd’e’f’ b’ est un caractère dérivé de b : apomorphe ab’cdef abcdef L’apormophie b’ est partagée par Y et Z : b’ est ainsi un caractére synapomorphique X a’bcdef Y ab’c’def Z ab’cd’e’f’ Apomorphie unique : autapomorphie Il s’agit d’un groupe Monophylétique = Reprenant un ancêtre Et tous ses descendants ab’cdef abcdef X et Y se ressemblent mais par le partage de caractères ancestraux non transformés (plésiomorphes) : le partage de tels caractères n’indique pas une étroite parenté phylogénétique! Partage de tels caractères = symplésiomorphie X a’bcdef Y ab’c’def Il s’agit d’un groupe Paraphylétique = Rassemblant une Partie seulement Des descendants d’un même ancêtre Z ab’cd’e’f’ ab’cdef abcdef Attention! La notion d’apomorphie et de plésiomorphie sont des notions relatives : Exemple : - La présence de 5 doigts à la main et aux pieds est une synapomorphie des tétrapodes par rapport aux espèces non tétrapodes. - C’est par contre une symplésiomorphie au sein des tétrapodes car elle se retrouve Partout! Notion d’homologie : ressemblance héritée d’un ancêtre commun = partage d’apomorphies. Pièges de la cladistique : - Convergence évolutive : acquisition du même état de caractère indépendamment dans plusieurs lignées différentes. Exemple : acquisition de la faculté de vol chez les oiseaux et chauves-souris : convergence pour une adaptation à un même comportement. - Réversion : retour à un état de caractère ancestral . Exemple : les mammifères marins : retour au milieu marin ancestral. Pour séquence : Animal A : C T Animal B : C G T Groupe polyphylétique : groupe défini à la suite d’une convergence ou réversion. Groupe artificiel basé sur le partage de caractères non homologues Homoplasie Reprend l’ensemble des bruits de fonds évolutifs (réversion, convergence). Peut causer le regroupement d’espèces ensemble par le fait qu’elles ont des états de caractères identiques mais qui n’ont pas d’histoire évolutive commune. Remarque : Les méthodes de distances fonctionnent souvent moins bien car elles ne font pas la distinction entre l’homologie et l’homoplasie. Cela provoque un bruit de fond évolutif. Importance de bien choisir les outils (gènes évoluant plus ou moins vite) pour l’étude que l’on veut développer. Construction d’arbres en cladistique L’arbre phylogénétique obtenu en cladistique (ou cladogramme) sera en fait le bilan des informations apportées par tous les caractères étudiés. - Exploration des arbres possibles : à un nombre fixé de taxons correspond un nombre précis d’arbres possibles : Exemple : pour 4 taxons dont 1 est défini comme outgroup : Trois possibilités d’arbres : A B C D A C B D B C A D Pour cinq taxons, il y a 15 arbres racinés possibles etc etc etc Critère de choix du meilleur arbre correspondant à la réalité de nos données : principe de parcimonie Principe : on choisi l’arbre le plus parcimonieux, c’est-à-dire l’arbre qui requiert le plus petit nombre d’événements évolutifs pour les états de caractères observés chez les organismes. En d’autres mots, l’arbre choisi sera le plus court, c’est-à-dire celui qui demande le minimum d’hypothèses de transformations de caractères. Plus parcimonieux G Moins parcimonieux X (A) A A G A G Y (A) G A En génétique, arbre le plus parcimonieux calculé par logiciels Avantages de la méthode cladistique : - Tient compte des types de caractères; Ne réduit pas l’information à un nombre unique (une distance); - Essaie de fournir l’information sur les séquences ancestrales; - Evalue différents arbres : permet de connaître les arbres juste un peu moins parcimonieux que l’arbre choisi. Désavantages de la méthode cladistique : - Méthode très lente en comparaison avec les méthodes de distances. - Ne permet pas d’utiliser des modèles permettant de corriger les substitutions multiples; - Ne calcule pas les longueurs de branches donnant des informations sur les vitesses d’évolution des taxons 2. Méthodes probabilistes (maximum de vraisemblance G X (A) A A G A Y (A) p1 G G A p2 Ces deux scénarios ont chacun une probabilité : p1 et p2. L’histoire évolutive la plus vraisemblable permet de choisir l’arbre le plus probable : p1 > p2. Méthode développée uniquement pour les données moléculaires. Avantages de la méthode maximum de vraisemblance - Considérée actuellement comme la plus fiable de toutes les méthodes phylogénétiques; Elle permet d’appliquer les différents modèles d’évolution (Tamura/Nei, GTR, K2P, HKY85…). Elle permet d’estimer les longueurs de branches en fonction de changements évolutifs. Désavantages Cette méthode demande la plus grosse puissance de calculs et demande énormément de temps. Robustesse et fiabilité des arbres Méthode du bootstrap : Méthode la plus souvent utilisée pour tester la fiabilité des nœuds associant les taxons étudiés. Principe : Tirage des sites au hasard avec remise, c’est-à-dire que dans certaine réplications de bootstrap, certains sites peuvent être présent plusieurs fois, tandis que d’autres peuvent être absent. Chaque réplication produit un nouvel alignement « artificiel » qui est utilisé pour construire un arbre « artificiel ». Méthodes propres à la phylogéographie Espèces étudiées Apodemus sylvaticus Apodemus flavicollis Interêt des deux espèces: - Largement distribuées dans la région Palearctique. - Communes et faciles à collecter. - Presents depuis 3MYR en Europe glaciations du Quaternaire! - Important registre fossile moléculaire -Espèces forestières pendant le Quaternaire. Ils ont survécu aux bonne calibration de l’horloge leurs aires de distribution ont fluctué - Ils sont écologiquement très proches. Echantillonnage d’Apodemus sylvaticus - 102 individus de 38 populations Echantillonnage d’Apodemus flavicollis -110 individus venant de 56 populations Methodes - Sequencage du gène mitochondrial cytochrome b; - Reconstructions phylogenetiques: methodes de distance, maximum parcimonie and maximum vraisemblance (Programs PAUP 4.0b8 and PHYML). - Analyses en réseau (Minimum spanning tree (ARLEQUIN 2.0 program). - Diversité Haplotypiques (H) et nucleotidiques (Pi) (DNASP program). Analyses Phylogénétique chez A. sylvaticus Apodemus mystacinus Apodemus flavicollis 62/95/80 Italy, Balkans, Turkey 99/100/100 100/100/100 100/100/100 92/100/96 96/99/97 90/57/65 Sicily North Africa Italo-Balkan lineage Sicilian lineage North African lineage Western lineage NJK2P/NJGTR/MP Michaux et al.,Mol. ecol., 2003 Analyse en réseau chez Apodemus sylvaticus North Africa Western and Central Europe Sicily Italy + Balkans Analyse de « Mismatch Distribution » Représentation graphique de la distribution des distances génétiques existant entre les individus d’une population pris deux à deux. Population en expansion Population constante Analyse en réseau chez Apodemus sylvaticus North Africa Western and Central Europe Sicily Italy + Balkans Autre méthode basée sur la théorie de la Coalescence : Calcul de la vraisemblance de différents scénarios démographiques (expansion ou déclin/stabilité à travers le temps (programme Fluctuate). Les valeurs de vraisemblance sont comparées (par Likelihood ratio tests) pour chacun des groupes et la vraisemblance du meilleurs scénario peut ainsi être choisie (probabilité des scénarios effectué par test de Chi-Carré : Hypothèse nulle = population stable. Log-likelihood stable population exponential change model model Italy, Balkans (1a) -0.0028 Sicily (1b) Sub-clades Chi-square P 1.6249 3.26 0.071 0.0265 0.1142 0.18 0.675 North Africa (2a) 0.0035 2.2495 4.49 0.034 West Europe (2b) -0.1132 11.2927 22.81 0.0001 Expansion Constant Expansion Expansion Autre méthode basée l’indice F de Fu (1997) et D* et F* (Fu & Li, 1993) ou R2 (Ramos-Onsins & Rosas (2002) Indices intéressants pour tester les expansions démographiques. Indice Fs de FU utilise l’information venant de la distribution des haplotypes pour tester les croissances demographiques. Les effets d’une sélection en “bruit de fond” peuvent être distingués d’un phénomène de croissance démographique ou d’expansion d’aire en comparant les valeurs de Fs, F* et D* : si Fs est significatif et F* et D* ne le sont pas, alors une expansion démographique ou d’aire sera indiquée alors que le résultat inverse suggèrera plutôt un phénomène de sélection. Indices calculés par le programme DNAsp4 (Rozas et al., 2003). L’indice R2 illustre la différence entre le nombre de mutations uniques par rapport à la moyenne du nombre de différences partagées par deux individus. Une population récente en expansion conduira à une faible valeur de cet indice. Autres approches basées sur la coalescence : - Programmes migrate, Mdiv et IM… - Intéressants dans l’absolu pour estimer les taux de flux géniques entre deux populations, leur histoire démographique (expansion, ou pop. constantes), les époques auxquelles elles se sont séparées et elles ont augmenté. - Toutefois, des études récentes tendent à montrer un grand risque d’erreur dans ces paramètres. Ces analyses doivent être répétées plusieurs fois pour s’assurer de leur significance; - Analyses longues en terme de temps (surtout si plusieurs loci et estimation de plusieurs paramètres).. Analyse AMOVA et SAMOVA : analyse de la distribution de la diversité génétique entre groupes géographiques et Génétiques (programmes arlequin et SAMOVA) ---------------------------------------------------------------------Source of Sum of Variance Percentage variation d.f. squares components of variation ---------------------------------------------------------------------Among groups 3 498.947 10.42761 Va 75.96 Among populations within groups 13 65.781 0.51088 Vb 3.72 Within populations 62 172.905 2.78879 Vc 20.32 ---------------------------------------------------------------------Total 78 737.633 13.72728 ---------------------------------------------------------------------- Calcul de l’horloge moléculaire en phylogéographie - Impératif d’avoir un point de calibration sûr, pour bien faire basé sur des données fossiles. Dans notre cas : Séparation A. mystacinus/A. flavicollis : 7 millions d’années. A. flavicollis/ A. sylvaticus : 4 millions d’années. Sinon : estimation globale du taux d’évolution des gènes étudiés (ex. 2-4% par million d’années pour le cytochrome b), mais souvent très approximatif! Autre méthode via la coalescence, mais connaissance obligatoire de la taille effective des populations qu’on étudie ainsi que du taux d’évolution des gènes étudiés. Pas toujours évident … Pour estimer les temps de coalescence ainsi que les époques des mutations les plus importantes, le programme GENETREE (Griffith, http://www.stats.ox.ac.uk/griff/software.html) peut être utilisé. Sur base d’un réseau de coalescence, il produit des estimations ML de mutation, migration et taux de croissances ainsi que l’époque “de l’ancêtre commun le plus récent” (TMRCA) et des ages de mutations dans un arbre phylogénétique donné. Fonctionne selon deux modèles démographiques (taille de population effective constante ou en expansion). Pour calcul du TMRC, demande le temps de génération. - Calcul des différences de taux relatifs entre les différents groupes étudiés : l’horloge moléculaire doit être respectée, à savoir les groupes étudiés ne doivent pas évoluer à une vitesse trop différentes les uns des autres. Test RRT par exemple ou comparaison analyses ML avec ou sans horloge moléculaire. Calcul de la distance génétique existant entre les différentes lignées. Celle-ci doit être corrigée en fonction du polymorphisme ancestral existant au sein de chacune des lignées analysées : Pnet = PAB - 0.5 (PA + PB) où - Pnet = distance corrigée entre les lignées isolées A et B; - PAB est la distance génétique moyenne existant entre les individus des groupes A et B; - PA et PB, sont les distance génétiques existant entre les individus de chacun de ces groupes. Analyses Phylogénétique chez A. sylvaticus Apodemus mystacinus Apodemus flavicollis 62/95/80 Italy, Balkans, Turkey 99/100/100 100/100/100 100/100/100 92/100/96 96/99/97 90/57/65 Sicily North Africa Italo-Balkan lineage Sicilian lineage North African lineage Western lineage NJK2P/NJGTR/MP Michaux et al.,Mol. ecol., 2003 Structure génétique des populations européennes d’A. sylvaticus Expansion de distribution à partir de refuges Pioneer colonists Reduce d diversit y Time 1 Time 2 Time 3 Comparaison des diversités Nucleotidiques entre les populatins du Sud et du Nord. Diversité haplotypique : h = 1 – Σ f2i où fi est la fréquences des i haplotypes Diversité nucléotidique : p = Σ fi, fj, pij où pij est le degré de divergence de séquence entre les i et j haplotypes. Comparaison des diversités Nucleotidiques entre les populations du Sud et du Nord. 0.0052 ± 0.001 0.0064 ± 0.0007 0.0087 ± 0.0009 0.0029 ± 0.0005 0.013 ± 0.0001 Comparaison diversité haplotypique (h) et diversité nucléotidique (π) pour estimer histoire démographique d’une population Faible h et faible π Signal d’un sévère et prolongé bottleneck démographique Fort h et fort π Signal d’une population stable avec grande taille effective. Fort h et faible π Croissance de population rapide à partir d’une population ancestrale à faible effectifs et où temps pas suffisant pour retrouver une forte diversité entre haplotypes. Faible h et fort π Bottleneck éphémère dans une large population ancestrale : Crash rapide peut éliminer beaucoup d’haplotype sans nécessairement affecter la diversité nucléotidique. Peut aussi représenter mélange d’animaux de petite populations précédemment géographiquement séparées. Populations refuges et recolonisations postglaciaires chez A. sylvaticus ? ? ? Italo-Balkanic refuge Analyses phylogénétiques chez A. flavicollis Apodemus mystacinus Apodemus mystacinus Apodemus sylvaticus Apodemus sylvaticus 100 100 Near-Middle Turkey, Israël, Iran 100 100 100 99 51 98 83 77 70 71 81 East lineage Russia (Caspian region, Voronezh) Yougoslavia, Romania Macedonia, Thrace, Lituania, Estonia, Berezina BalkansRussia BalkansNorth Europe Western Other countries of Western and Central Europe Palearctic lineage 65 75 Michaux et al., Mol. Phyl. Evol, 2004 Michaux et al.,Heredity, 2005. Analyse en réseau chez A. flavicollis Caspian region, Yougoslavia, Romania, Voronezh Estonia, Berezina, France, Romania, Greece, Thrace 9 5 45 Turkey, Iran, Israël Other European region Structuration génétique d’A. flavicollis en Europe Comparaison des diversités nucleotidiques entre les populations du Sud et du Nord. 0.0075 0.0092 0.0054 0.015 0.0085 Populations refuges et recolonisations postglaciaires chez A. flavicollis APPROCHE « STATISTIQUE » Nested Clade analysis (NCA) Phylogéographie NCA Fréquences alléliques ue giq alo né gé Génétique des populations st n e tur ruc St Di io ut ir b og gé ue iq h p ra Théorie de la coalescence Etape 1 : Acquisition de séquences d ’animaux appartenant à même espèce ou d ’espèces proches. Etape 2 : construction d ’un réseau en accord avec les limites de parcimonie : - à la main (programme Arlequin 2.0 (Schneider et al., 2000) + Parsprob V1.1 (Posada, 1996) - Programme TCS (http://bioag.byu.edu/zoology/ crandall_lab/tcs.htm). Etape 3 : Construction d ’une série emboitée d'haplotypes étroitement apparentées (Templeton et al. 1987, Templeton & sing, 1993; Crandall, 1996) Estimation automatique : Programme TCS (http://bioag.byu.edu/zoology/crandall_lab/tcs.htm). Tests visant à associer la diversité génétique et la distance géographique - Test basés sur des méthodes de contingence avec permutation. Effectués de deux manières différentes : - analyse de la corrélation entre les haplotypes d'un groupe donné et les localités dans lesquelles se trouvent ces haplotypes. - analyse de la déviation entre les distances géographique réelles entre les sites d'échantillonnage et une situation de non association géographique des haplotypes. deux types de distances géographiques sont définis : Dc (clade distance) : mesure l ’aire géographique d ’un clade particulier comme étant la distance géographique moyenne entre les individus portant les haplotypes dans un clade donné et le centre géographique de ce clade particulier. Dn (nested clade distance) : correspond à la distance géographique moyenne entre les individus portant les haplotypes dans un clade particulier et le centre géographique du clade de niveau supérieur qui le contient. Dc ou Dn (I-T) : soustraction de la Dc ou de la Dn d ’un haplotype intérieur et de la Dc (ou Dn) d ’un haplotype terminal ou externe. Correspond au contraste existant entre un haplotype « ancien » et un haplotype « récent ». Calcul de ces distances pour chaque groupe et comparaison avec une situation de panmixie simulée par des permutations au hasard des données dans les matrices de contingence d'occurrence d'haplotype dans chaque localité. (selon une procédure de Monte Carlo). Possibilité de voir si Dc, Dn, (I-T)Dc et (I-T)Dn sont significativement plus grands ou plus petits qu ’attendu sous une hypothèse de non association géographique des haplotypes. Interprétation sur base d ’une clé d ’inférence reprenant différents modèles de structure et d ’histoire des populations (fragmentations, dispersion…). Calculs effectués par programme geodis version2 (Http://bioag.byu.edu/zoology/crandall_lab/geodis.htm). Exemple de Calcul de Dc, Dn et de I-T Zones d ’échantillonnage Calcul de Dc, Dn et de I-T Centre géographique des haplotypes Calcul de Dc, Dn et de I-T Centre géographique du « nested clade » Calcul de Dc, Dn et de I-T Distances entre les centres géographiques des haplotypes et les zones d ’échantillonnage Avantages de la NCA - Inférences phylogéographiques obtenues de manière objective sur base de prédictions explicites de la théorie de la coalescence et de la dynamique des populations. - Structure des tests statistiques strictement liée à la topologie de la généalogie des gènes. -Identifie les déficiences d ’échantillonnage non identifiées par autres méthodes. - Permet de mieux comprendre la distribution,spatiale et temporelle de la diversité génétiques. - Permet à des haplotypes uniques ou à des populations faiblement échantillonnées d ’être informative dans l ’analyse. Désavantages de la NCA - Le pouvoir d ’inférence de cette méthode est limité par la taille de l ’échantillon et le protocole d ’échantillonnage. - Elle se fonde sur une généalogie de gène pour fonder les inférences phylogéographiques. Si cette généalogie ne reflète pas l ’histoire des populations (introgressions génétiques…) inférences inexactes. - Problème lié à résolution du gène utilisé : si pas assez variable, peu de comparaisons statistiques possibles. - Problème lié aux postulats de base de la NCA : ex. : Haplotypes dérivés ont une distribution géographique plus restreinte qu’haplotypes ancestraux (sous hypothèse nulle absence d ’association géographique) la sélection pourrait donner une structure géographique différente!! La violation du postulat invalidera les inférences proposées!! Problème lié à populations refuges et recolonisation postglaciaires : - Si haplotypes perdus dans la population refuge ancestrale, observation seulement dans la région recolonisée et phénomène d ’expansion non détecté!! - Les contractions répétées des populations dans les régions refuges ont très probablement contribué à la perte de nombreux haplotypes, donnant comme résultat de nombreux haplotype « manquant » à distribution inconuue, pouvant fortement influencer la NCA. • Programme dancing trees de stuart baird associant informations génétique et géographique. En cours de finalisation. • Approche d’Olivier Hardy pour la recherche d’un signal phylogéographique.