Johan Michaux

Transcription

Johan Michaux
La phylogéographie : méthodologie et applications
Johan Michaux
CBGP Montpellier, Université Liège.
Fluctuations climatiques du Quaternaire
ƒ Les périodes glaciaires du Quaternaire ont modifiés
sérieusement la distribution de la faune et de la flore européenne.
Distribution de la végétation
Dernier
maximum
glaciaire
(20 000-16
000 BP)
Glace
Permafrost
Toundra
Conifères
Forêts mixtes
Permafrost
Toundra
Actuellement
Conifères
Forêts mixtes
Flore
Méditerranéenne
Harrison 1982
Outils génétiques
Développement de deux nouvelles
disciplines :
la phylogéographie et la génétique des
populations.
Hypothèse phylogéographique
classique :
ƒ refuges glaciaires dans les
régions Mediterraneénnes
(Espagne, Italie et Balkan).
ƒ Recolonisation de la région
Palaearctique de refuge
glaciaires.
Taberlet et al. 1998; Hewitt, 1999
Trois grandes patrons de recolonisation postglaciaires
Chorthippus parallelus
Alnus glutinosa
Fagus sylvaticus
Erinaceus spp
Quercus spp
Abies alba
Ursus arctos
Sorex araneus
Microtus agrestis
Une situation plus complexe qu’il n’y parait….
- Régions refuges : correspondent-elles seulement aux régions
Méditerranéennes? D’autres régions existeraient-elles (Nord de
l’Europe, Asie Centrale…)
Nouvelles hypothèses concernant les
refuges, particulièrement pour les rongeurs:
ƒ En Scandinavie pour les lemmings
(Fedorov & Stenseth 2001).
ƒ En europe Centrale pour les campagnols
(Microtus sp. )
Néanmoins, toujours espèces adaptées
aux milieux ouverts, permettant à cellesci de survivre même dans des milieux
steppiques ou de toundras.
La question de refuges plus
nordiques pour les autres espèces
demeure sans réponse.
- La théorie suggère que la variabilité génétique est plus importante
dans les régions refuges que dans les régions récemment
recolonisées. Malheureusement, très peu vérifié
actuellement : important pour la biologie de la conservation!!!
- Les régions caractérisées par un
+?
-?
haut niveau de diversité
intraspécifiques peuvent-elles être
reliées aux régions présentant de
haut niveaux de richesses
spécifiques (hot spot de
biodiversité).
-?
-?
-?
-?
+?
+?
+
+?
+?
Phylogéographie comparée
- Est-il possible de déterminer l’influence d’un facteur historique commun
pour expliquer la structure phylogéographique des espèces ou chaque
espèce a-t-elle survécu de manière indépendante aux changements
climatiques?
- Des espèces très proches évolutivement, morphologiquement,
écologiquement ou comportementalement ont-elle réagi de la même manière
aux changements climatique? Est-il possible de découvrir l’influence d’un
facteur historique commun entre-elles ou, en fonction de petites différences
dans leurs habitures écologiques, ont-elles eu une histoire
phylogéographique différente?
Première partie : Utilisation des marqueurs moléculaires pour la
classification des espèces : la phylogénie moléculaire.
Quelques définitions :
Systématique évolutioniste :
Discipline permettant de décrire, nommer et classifier les organismes vivants selon leur
relations de parenté évolutive.
Classification :
Arrangement des êtres ou choses en groupes selon des critères variables. Actuellement,
classification phylogénétique : basée sur des relations de parenté des taxons.
Phylogénie :
« Enchaînement des espèces animales et végétales au cours du temps » (Haeckel, 1866).
Concept exprimé auparavant par le mot GENEALOGIE.
Ascendants
Descendants
mâle
Femelle
Ancêtre
commun
1
2
3
Espèce 1
Espèce 2
Espèce 3
En généalogie, on étudie qui descend de qui?
En phylogénie, on étudie qui est le frère de qui? L’ancêtre commun est toujours hypothétique !
Autres définitions de la phylogénie:
« Cours historique de la descendance des êtres vivants » (Darwin, 1872) .
C’est aussi l’histoire graphique de cette histoire : notion d’arbre phylogénétique
Quels sont les moyens pour retracer les liens de parenté et l’histoire
évolutive des organismes? Enquête….
Indices :
Caractères = tout attribut observable chez un organisme. Il permet de
faire des comparaisons entre organismes.
Ce caractère peut exister sous différentes formes que l’on appelle les
états de caractère.
Exemple :
Caractère = couleur des yeux
Etat de caractère = les différentes couleurs
Il existe d’innombrables types de caractères :
- niveau morphologique (caractères morphologiques)
- niveau anatomique;
- niveau éthologique;
- niveau histologique (types de tissus);
- cytologique (ex. différence entre procaryotes et eucaryotes);
- matériel génétique (caractères chromosomiques);
- niveau moléculaire (séquences de protéines ou d’ADN).
Plus précisément :
Séquence 1 : A C T G A T T . . . . . .
Séquence 2 : A C T G A T A . . . . . .
Au niveau de l’ADN : 5 états de caractère par caractère : A, C, G, T, *
Au niveau de l’ARN : 5 états de caractère par caractère : A, C, G, U, *
Au niveau protéiques : 21 états de caractères (20 Acides aminès + délétion *)
Les caractères peuvent aussi se diviser en :
- caractères discrets : multiples états qu’on peut dénombrer (qualitatif, ex.
nucléotides ou acides aminés.
- caractères continus (quantitatifs, ex. distance immunologique : force avec
laquelle un anticorps reconnaît un antigène).
Qu’est-ce qu’un taxon:
Groupe d’organismes formant une unité à n’importe quel niveau de la
classification.
Système de nomenclature binomial : nom de genre et nom d’espèce en latin
et italique.
Sept catégories taxinomiques principales ont été définies :
Ex. pour l’homme Homo sapiens :
Régne : animalia;
Embranchement : Chordata;
Classe : Mammalia;
Ordre : Primates;
Familles : Hominidae;
Genre : Homo;
Espèce : sapiens.
Illustration des relations entre taxons : les arbres de parenté
Qu’est-ce qu’un arbre? : C’est une construction en deux dimensions
permettant d’illustrer les relations de parenté entre les étudiés.
Pour établir un arbre de parenté, il faut que les caractères soient
comparables et observés. Exemple : couleur des yeux ou position d’un
nucléotide dans une séquence d’ADN.
Représentation graphique d’un arbre
Groupe interne = ingroup
Temps
A
B
Nœud interne =
Ancêtre commun
hypothétique
C
D
Groupe externe
= outgroup
E
F
Taxons terminaux =
observations
Branches= matérialise la
quantité d’évolution =
inférences
Racine = origine de l’arbre =
point d’ancrage du groupe
externe
Notion de racine : importance du choix de l’outgroup
Sans racine :
aucune idée sur qui est
plus proche
parent de qui?
A
Avec racine :
A et B sont
Plus proches
parents
A
Racine
B
C
B
C
Un arbre est phylogénétique que si et seulement si, il possède une racine!
Un arbre enraciné spécifie où se situe l’ancêtre commun des taxa,
considéré comme la racine de l’arbre
La racine est trouvée grâce à un groupe externe (outgroup). Ce groupe
externe est plus anciens que le groupe interne étudié : exemple :
reptiles pour l’étude des mammifères
Groupe interne
A
B
Groupes externes
C
D
E
Un bon groupe externe ne doit pas être trop éloigné ni trop proche
du groupe interne. Bonne connaissance du groupe qu’on étudie!
Notion de longueur de branche : visualise la vitesse d’évolution des
taxons!
Variété d’arbres
Rotation = le même
arbreB
A
C
B
A
C
B
A
C
3
4
1
2
8
7
5
6
9
12
13
10
14
11
15
16
17
3
4
1
2
8
7
5
6
9
12
13
10
14
11
15
16
17
15
13
10
14
11
16
4
12
9
6
17
5
7
8
4
2
1
3
17
0.1
0.1
15
16
7
5
6
912
13
10
14
11
8
3
1
2
Méthodes de reconstruction phylogénétiques
1. Méthodes phénétiques ou de distances
- Se basent sur la ressemblance globale des taxons :
+ ils se ressemblent, + ils sont proches!!
- Des matrices de distances pourront être créées sur base de
différentes informations (morphologiques, immunologiques ou
génétiques :
Ex :
A
B
a
t
c
g
100
100
Distance AB = Nombre de nucléotide qui différent
Nombre total de nucléotides
Ici, 2 différences/100 = 2%
Différentes méthodes de reconstruction d’arbres sur
base des matrices de distances
- UPGMA : Unweighted Pair Group Method with Arithmetic Means
Principe : méthode contraignant les distances à être ultra-métrique
: tous les taxons sont censé évoluer à la même vitesse :
méthode archaïque.
- Neighbor-Joining : méthode tenant compte des différences de
vitesse d’évolution. Donne des résultats différents de ceux
obtenus par UPGMA. Méthode plus préconisée actuellement.
On obtient des phénogrammes
Avantages de la méthode des distances :
- Elles sont rapides.
Elles sont les seules à permettre l’analyse de certains
type de données : distances immunologiques, distances
d’hybridation d’acides nucléiques, de données RFLP….
-
- Elles permettent d’intégrer des modèles de
changements évolutifs (hétérogénéité des taux de
substitutions dans les séquences…) non intégrables
dans d’autres méthodes
Modèles évolutifs utilisés pour la correction des
distances observées
Modèle de Jukes-Cantor (JC)
C'est un modèle très simple, qui assume que les 4 bases ont les mêmes
fréquences et que les substitutions sont équiprobables.
Modèle de Tajima-Nei (TN)
C'est un modèle qui prenne en compte la variation des fréquences des bases,
mais qui assume que la probabilité du changement vers une base donnée ne
dépend pas de la base qui change ("equal-input" model). Ainsi, le
changement de A vers T a même probabilité que le changement de G ou C
vers T.
Modèle de Kimura (K2P)
Ce modèle tient compte de la proportion entre le nombre de transitions (a) et
transversions (b). Les transitions sont beaucoup plus nombreuses que les
transversions
Désavantages de la méthode des distances :
- Le fait que la matrice des caractères est réduites à
une matrice de distances induit la perte d’une quantité
d’informations.
- Elles ne permettent pas de combiner dans une même
matrice des caractères de nature différente (ex. morpho
et séquences ADN).
2. Méthodes cladistiques
S’oppose aux méthodes phénétiques car elle raisonne caractère par
caractère. Ensuite, elle fait la synthèse pour proposer un arbre.
En cladistique, la phylogénie est reconstruite à l’aide d’une analyse de
caractères qui vise à identifier les états plésiomorphes (= primitifs) et
apomorphes (=dérivés). Les parentés entre les taxons étudiés sont
identifiés sur base des seuls état apomorphes partagés par tel et tel
taxon (= synapomorphie). Les synapomorphies sont imputées à un
héritage à partir d’une espèce ancestrale propre aux taxons qui les
possèdent.
Exemple : 6 caractères : abcdef
X
a’bcdef
Y
ab’c’def
Z
ab’cd’e’f’
ab’cdef
abcdef
Lien étroit entre Y et Z : b’ apparenté aux deux
X
a’bcdef
Y
ab’c’def
Z
ab’cd’e’f’
b’ est un caractère dérivé de b :
apomorphe
ab’cdef
abcdef
L’apormophie b’ est partagée par Y et Z :
b’ est ainsi un caractére synapomorphique
X
a’bcdef
Y
ab’c’def
Z
ab’cd’e’f’
Apomorphie unique :
autapomorphie
Il s’agit d’un groupe
Monophylétique =
Reprenant un ancêtre
Et tous ses descendants
ab’cdef
abcdef
X et Y se ressemblent mais par le partage de caractères
ancestraux non transformés (plésiomorphes) : le partage de tels
caractères n’indique pas une étroite parenté phylogénétique!
Partage de tels caractères = symplésiomorphie
X
a’bcdef
Y
ab’c’def
Il s’agit d’un groupe
Paraphylétique =
Rassemblant une
Partie seulement
Des descendants
d’un même ancêtre
Z
ab’cd’e’f’
ab’cdef
abcdef
Attention! La notion d’apomorphie et de plésiomorphie sont
des notions relatives :
Exemple :
- La présence de 5 doigts à la main et aux pieds est une synapomorphie des
tétrapodes par rapport aux espèces non tétrapodes.
- C’est par contre une symplésiomorphie au sein des tétrapodes car elle se retrouve
Partout!
Notion d’homologie : ressemblance héritée d’un ancêtre commun =
partage d’apomorphies.
Pièges de la cladistique :
- Convergence évolutive : acquisition du même état de caractère
indépendamment dans plusieurs lignées différentes. Exemple :
acquisition de la faculté de vol chez les oiseaux et chauves-souris :
convergence pour une adaptation à un même comportement.
- Réversion : retour à un état de caractère ancestral .
Exemple : les mammifères marins : retour au milieu marin ancestral.
Pour séquence :
Animal A : C
T
Animal B : C
G
T
Groupe polyphylétique : groupe défini à la suite d’une
convergence ou réversion. Groupe artificiel basé sur le partage de
caractères non homologues
Homoplasie
Reprend l’ensemble des bruits de fonds évolutifs (réversion, convergence).
Peut causer le regroupement d’espèces ensemble par le fait qu’elles ont
des états de caractères identiques mais qui n’ont pas d’histoire évolutive
commune.
Remarque : Les méthodes de distances fonctionnent souvent
moins bien car elles ne font pas la distinction entre l’homologie
et l’homoplasie. Cela provoque un bruit de fond évolutif.
Importance de bien choisir les outils (gènes évoluant plus ou
moins vite) pour l’étude que l’on veut développer.
Construction d’arbres en cladistique
L’arbre phylogénétique obtenu en cladistique (ou cladogramme)
sera en fait le bilan des informations apportées par tous les
caractères étudiés.
- Exploration des arbres possibles : à un nombre fixé de taxons
correspond un nombre précis d’arbres possibles :
Exemple : pour 4 taxons dont 1 est défini comme outgroup :
Trois possibilités d’arbres :
A
B
C
D
A
C
B
D
B
C
A
D
Pour cinq taxons, il y a 15 arbres racinés possibles etc etc etc
Critère de choix du meilleur arbre correspondant à la réalité
de nos données : principe de parcimonie
Principe : on choisi l’arbre le plus parcimonieux, c’est-à-dire
l’arbre qui requiert le plus petit nombre d’événements
évolutifs pour les états de caractères observés chez les
organismes.
En d’autres mots, l’arbre choisi sera le plus court, c’est-à-dire
celui qui demande le minimum d’hypothèses de
transformations de caractères.
Plus parcimonieux
G
Moins parcimonieux
X (A)
A
A
G
A
G
Y (A)
G
A
En génétique, arbre le plus parcimonieux calculé par logiciels
Avantages de la méthode cladistique :
- Tient compte des types de caractères;
Ne réduit pas l’information à un nombre unique (une
distance);
- Essaie de fournir l’information sur les séquences
ancestrales;
- Evalue différents arbres : permet de connaître les
arbres juste un peu moins parcimonieux que l’arbre
choisi.
Désavantages de la méthode cladistique :
- Méthode très lente en comparaison avec les
méthodes de distances.
- Ne permet pas d’utiliser des modèles permettant de
corriger les substitutions multiples;
- Ne calcule pas les longueurs de branches donnant
des informations sur les vitesses d’évolution des taxons
2. Méthodes probabilistes (maximum de vraisemblance
G
X (A)
A
A
G
A
Y (A)
p1
G
G
A
p2
Ces deux scénarios ont chacun une probabilité : p1 et p2.
L’histoire évolutive la plus vraisemblable permet de choisir l’arbre le plus
probable : p1 > p2.
Méthode développée uniquement pour les données moléculaires.
Avantages de la méthode maximum de
vraisemblance
- Considérée actuellement comme la plus fiable de
toutes les méthodes phylogénétiques;
Elle permet d’appliquer les différents modèles
d’évolution (Tamura/Nei, GTR, K2P, HKY85…).
Elle permet d’estimer les longueurs de branches en
fonction de changements évolutifs.
Désavantages
Cette méthode demande la plus grosse puissance de
calculs et demande énormément de temps.
Robustesse et fiabilité des arbres
Méthode du bootstrap :
Méthode la plus souvent utilisée pour tester la fiabilité des
nœuds associant les taxons étudiés.
Principe :
Tirage des sites au hasard avec remise, c’est-à-dire que dans certaine
réplications de bootstrap, certains sites peuvent être présent plusieurs
fois, tandis que d’autres peuvent être absent.
Chaque réplication produit un nouvel alignement « artificiel » qui est
utilisé pour construire un arbre « artificiel ».
Méthodes propres à la
phylogéographie
Espèces étudiées
Apodemus sylvaticus
Apodemus flavicollis
Interêt des deux espèces:
- Largement distribuées dans la région Palearctique.
- Communes et faciles à collecter.
- Presents depuis 3MYR en Europe
glaciations du Quaternaire!
- Important registre fossile
moléculaire
-Espèces forestières
pendant le Quaternaire.
Ils ont survécu aux
bonne calibration de l’horloge
leurs aires de distribution ont fluctué
- Ils sont écologiquement très proches.
Echantillonnage d’Apodemus sylvaticus
- 102 individus de 38 populations
Echantillonnage d’Apodemus flavicollis
-110 individus venant de 56 populations
Methodes
- Sequencage du gène mitochondrial cytochrome b;
- Reconstructions phylogenetiques: methodes de distance,
maximum parcimonie and maximum vraisemblance (Programs
PAUP 4.0b8 and PHYML).
- Analyses en réseau (Minimum spanning tree (ARLEQUIN 2.0
program).
- Diversité Haplotypiques (H) et nucleotidiques (Pi) (DNASP
program).
Analyses Phylogénétique chez A. sylvaticus
Apodemus mystacinus
Apodemus flavicollis
62/95/80
Italy,
Balkans,
Turkey
99/100/100
100/100/100
100/100/100
92/100/96
96/99/97
90/57/65
Sicily
North
Africa
Italo-Balkan
lineage
Sicilian lineage
North African
lineage
Western lineage
NJK2P/NJGTR/MP
Michaux et al.,Mol. ecol., 2003
Analyse en réseau chez Apodemus sylvaticus
North
Africa
Western
and
Central
Europe
Sicily
Italy + Balkans
Analyse de « Mismatch Distribution »
Représentation graphique de la distribution des distances génétiques
existant entre les individus d’une population pris deux à deux.
Population en
expansion
Population
constante
Analyse en réseau chez Apodemus sylvaticus
North
Africa
Western
and
Central
Europe
Sicily
Italy + Balkans
Autre méthode basée sur la théorie de la Coalescence :
Calcul de la vraisemblance de différents scénarios démographiques
(expansion ou déclin/stabilité à travers le temps (programme Fluctuate).
Les valeurs de vraisemblance sont comparées (par Likelihood ratio tests)
pour chacun des groupes et la vraisemblance du meilleurs scénario peut
ainsi être choisie (probabilité des scénarios effectué par test de Chi-Carré :
Hypothèse nulle = population stable.
Log-likelihood
stable population
exponential
change
model
model
Italy, Balkans (1a)
-0.0028
Sicily (1b)
Sub-clades
Chi-square
P
1.6249
3.26
0.071
0.0265
0.1142
0.18
0.675
North Africa (2a)
0.0035
2.2495
4.49
0.034
West Europe (2b)
-0.1132
11.2927
22.81
0.0001
Expansion
Constant
Expansion
Expansion
Autre méthode basée l’indice F de Fu (1997) et D* et F* (Fu &
Li, 1993) ou R2 (Ramos-Onsins & Rosas (2002)
Indices intéressants pour tester les expansions démographiques. Indice Fs de FU
utilise l’information venant de la distribution des haplotypes pour tester les
croissances demographiques. Les effets d’une sélection en “bruit de fond” peuvent
être distingués d’un phénomène de croissance démographique ou d’expansion d’aire
en comparant les valeurs de Fs, F* et D* : si Fs est significatif et F* et D* ne le sont
pas, alors une expansion démographique ou d’aire sera indiquée alors que le résultat
inverse suggèrera plutôt un phénomène de sélection. Indices calculés par le
programme DNAsp4 (Rozas et al., 2003).
L’indice R2 illustre la différence entre le nombre de mutations uniques par rapport à la
moyenne du nombre de différences partagées par deux individus. Une population
récente en expansion conduira à une faible valeur de cet indice.
Autres approches basées sur la coalescence :
- Programmes migrate, Mdiv et IM…
- Intéressants dans l’absolu pour estimer les taux de flux
géniques entre deux populations, leur histoire
démographique (expansion, ou pop. constantes), les
époques auxquelles elles se sont séparées et elles ont
augmenté.
-
Toutefois, des études récentes tendent à montrer un grand
risque d’erreur dans ces paramètres. Ces analyses doivent être
répétées plusieurs fois pour s’assurer de leur significance;
- Analyses longues en terme de temps (surtout si plusieurs loci et
estimation de plusieurs paramètres)..
Analyse AMOVA et SAMOVA : analyse de la distribution
de la diversité génétique entre groupes géographiques et
Génétiques (programmes arlequin et SAMOVA)
---------------------------------------------------------------------Source of
Sum of
Variance
Percentage
variation
d.f.
squares components
of variation
---------------------------------------------------------------------Among
groups
3
498.947
10.42761 Va
75.96
Among
populations
within
groups
13
65.781
0.51088 Vb
3.72
Within
populations 62
172.905
2.78879 Vc
20.32
---------------------------------------------------------------------Total
78
737.633
13.72728
----------------------------------------------------------------------
Calcul de l’horloge moléculaire en phylogéographie
- Impératif d’avoir un point de calibration sûr, pour bien faire basé
sur des données fossiles. Dans notre cas :
Séparation A. mystacinus/A. flavicollis : 7 millions d’années.
A. flavicollis/ A. sylvaticus : 4 millions d’années.
Sinon : estimation globale du taux d’évolution des gènes étudiés
(ex. 2-4% par million d’années pour le cytochrome b), mais souvent
très approximatif!
Autre méthode via la coalescence, mais connaissance obligatoire de la taille
effective des populations qu’on étudie ainsi que du taux d’évolution des gènes
étudiés. Pas toujours évident …
Pour estimer les temps de coalescence ainsi que les époques des mutations les
plus importantes, le programme GENETREE (Griffith, http://www.stats.ox.ac.uk/griff/software.html) peut être utilisé. Sur base d’un réseau de coalescence, il produit
des estimations ML de mutation, migration et taux de croissances ainsi que
l’époque “de l’ancêtre commun le plus récent” (TMRCA) et des ages de mutations
dans un arbre phylogénétique donné. Fonctionne selon deux modèles
démographiques (taille de population effective constante ou en expansion). Pour
calcul du TMRC, demande le temps de génération.
- Calcul des différences de taux relatifs entre les différents groupes étudiés :
l’horloge moléculaire doit être respectée, à savoir les groupes étudiés ne
doivent pas évoluer à une vitesse trop différentes les uns des autres. Test
RRT par exemple ou comparaison analyses ML avec ou sans horloge
moléculaire.
Calcul de la distance génétique existant entre les différentes lignées.
Celle-ci doit être corrigée en fonction du polymorphisme ancestral
existant au sein de chacune des lignées analysées :
Pnet = PAB - 0.5 (PA + PB)
où
- Pnet = distance corrigée entre les lignées isolées A et B;
- PAB est la distance génétique moyenne existant entre les individus
des groupes A et B;
- PA et PB, sont les distance génétiques existant entre les individus
de chacun de ces groupes.
Analyses Phylogénétique chez A. sylvaticus
Apodemus mystacinus
Apodemus flavicollis
62/95/80
Italy,
Balkans,
Turkey
99/100/100
100/100/100
100/100/100
92/100/96
96/99/97
90/57/65
Sicily
North
Africa
Italo-Balkan
lineage
Sicilian lineage
North African
lineage
Western lineage
NJK2P/NJGTR/MP
Michaux et al.,Mol. ecol., 2003
Structure génétique des populations européennes
d’A. sylvaticus
Expansion de distribution à partir de refuges
Pioneer
colonists
Reduce
d
diversit
y
Time 1
Time 2
Time 3
Comparaison des diversités Nucleotidiques entre
les populatins du Sud et du Nord.
Diversité haplotypique :
h = 1 – Σ f2i où fi est la fréquences des i haplotypes
Diversité nucléotidique :
p = Σ fi, fj, pij où pij est le degré de divergence de séquence entre les i et j
haplotypes.
Comparaison des diversités Nucleotidiques entre les populations
du Sud et du Nord.
0.0052 ± 0.001
0.0064 ± 0.0007
0.0087 ± 0.0009
0.0029 ± 0.0005
0.013 ± 0.0001
Comparaison diversité haplotypique (h) et diversité
nucléotidique (π) pour estimer histoire
démographique d’une population
Faible h et faible π
Signal d’un sévère et prolongé bottleneck démographique
Fort h et fort π
Signal d’une population stable avec grande taille effective.
Fort h et faible π
Croissance de population rapide à partir d’une population
ancestrale à faible effectifs et où temps pas suffisant pour
retrouver une forte diversité entre haplotypes.
Faible h et fort π
Bottleneck éphémère dans une large population ancestrale :
Crash rapide peut éliminer beaucoup d’haplotype sans
nécessairement affecter la diversité nucléotidique.
Peut aussi représenter mélange d’animaux de petite
populations précédemment géographiquement séparées.
Populations refuges et recolonisations postglaciaires
chez A. sylvaticus
? ? ?
Italo-Balkanic
refuge
Analyses phylogénétiques chez A. flavicollis
Apodemus mystacinus
Apodemus mystacinus
Apodemus sylvaticus
Apodemus sylvaticus
100
100
Near-Middle
Turkey,
Israël,
Iran
100
100
100
99
51 98
83
77
70
71
81
East lineage
Russia (Caspian
region, Voronezh)
Yougoslavia,
Romania
Macedonia,
Thrace,
Lituania,
Estonia,
Berezina
BalkansRussia
BalkansNorth Europe
Western
Other countries
of
Western
and
Central Europe
Palearctic
lineage
65
75
Michaux et al., Mol. Phyl. Evol, 2004
Michaux et al.,Heredity, 2005.
Analyse en réseau chez A. flavicollis
Caspian region,
Yougoslavia,
Romania,
Voronezh
Estonia, Berezina, France,
Romania, Greece, Thrace
9
5
45
Turkey,
Iran,
Israël
Other
European
region
Structuration génétique d’A. flavicollis en Europe
Comparaison des diversités nucleotidiques entre
les populations du Sud et du Nord.
0.0075
0.0092
0.0054
0.015
0.0085
Populations refuges et recolonisations
postglaciaires chez A. flavicollis
APPROCHE « STATISTIQUE »
Nested Clade analysis (NCA)
Phylogéographie
NCA
Fréquences alléliques
ue
giq
alo
né
gé
Génétique des
populations
st
n
e
tur
ruc
St
Di
io
ut
ir b
og
gé
ue
iq
h
p
ra
Théorie de la
coalescence
Etape 1 : Acquisition de séquences d ’animaux
appartenant à même espèce ou d ’espèces proches.
Etape 2 : construction d ’un réseau en accord
avec les limites de parcimonie :
- à la main (programme Arlequin 2.0 (Schneider
et al., 2000) + Parsprob V1.1 (Posada, 1996)
- Programme TCS (http://bioag.byu.edu/zoology/
crandall_lab/tcs.htm).
Etape 3 : Construction d ’une série emboitée
d'haplotypes étroitement apparentées (Templeton
et al. 1987, Templeton & sing, 1993; Crandall, 1996)
Estimation automatique : Programme TCS
(http://bioag.byu.edu/zoology/crandall_lab/tcs.htm).
Tests visant à associer la diversité génétique
et la distance géographique
- Test basés sur des méthodes de contingence avec permutation.
Effectués de deux manières différentes :
- analyse de la corrélation entre les haplotypes d'un groupe donné et
les localités dans lesquelles se trouvent ces haplotypes.
- analyse de la déviation entre les distances géographique réelles
entre les sites d'échantillonnage et une situation de non
association géographique des haplotypes.
deux types de distances géographiques sont définis :
Dc (clade distance) : mesure l ’aire géographique d ’un clade
particulier comme étant la distance géographique moyenne entre les
individus portant les haplotypes dans un clade donné et le centre
géographique de ce clade particulier.
Dn (nested clade distance) : correspond à la distance
géographique moyenne entre les individus portant les haplotypes
dans un clade particulier et le centre géographique du clade de
niveau supérieur qui le contient.
Dc ou Dn (I-T) : soustraction de la Dc ou de la Dn d ’un haplotype
intérieur et de la Dc (ou Dn) d ’un haplotype terminal ou externe.
Correspond au contraste existant entre un haplotype « ancien »
et un haplotype « récent ».
Calcul de ces distances pour chaque groupe et comparaison avec
une situation de panmixie simulée par des permutations au
hasard des données dans les matrices de contingence
d'occurrence d'haplotype dans chaque localité.
(selon une procédure de Monte Carlo).
Possibilité de voir si Dc, Dn, (I-T)Dc et (I-T)Dn sont
significativement plus grands ou plus petits qu ’attendu sous
une hypothèse de non association géographique des
haplotypes.
Interprétation sur base d ’une clé d ’inférence reprenant
différents modèles de structure et d ’histoire des populations
(fragmentations, dispersion…).
Calculs effectués par programme geodis version2
(Http://bioag.byu.edu/zoology/crandall_lab/geodis.htm).
Exemple de Calcul de Dc, Dn et de I-T
Zones
d ’échantillonnage
Calcul de Dc, Dn et de I-T
Centre géographique
des haplotypes
Calcul de Dc, Dn et de I-T
Centre géographique
du « nested clade »
Calcul de Dc, Dn et de I-T
Distances entre les
centres géographiques
des haplotypes et les
zones d ’échantillonnage
Avantages de la NCA
- Inférences phylogéographiques obtenues de manière objective sur
base de prédictions explicites de la théorie de la coalescence et
de la dynamique des populations.
- Structure des tests statistiques strictement liée à la topologie de la
généalogie des gènes.
-Identifie les déficiences d ’échantillonnage non identifiées par
autres méthodes.
- Permet de mieux comprendre la distribution,spatiale et temporelle
de la diversité génétiques.
- Permet à des haplotypes uniques ou à des populations faiblement
échantillonnées d ’être informative dans l ’analyse.
Désavantages de la NCA
- Le pouvoir d ’inférence de cette méthode est limité par la taille de
l ’échantillon et le protocole d ’échantillonnage.
- Elle se fonde sur une généalogie de gène pour fonder les inférences
phylogéographiques. Si cette généalogie ne reflète pas l ’histoire des
populations (introgressions génétiques…)
inférences inexactes.
- Problème lié à résolution du gène utilisé : si pas assez variable,
peu de comparaisons statistiques possibles.
- Problème lié aux postulats de base de la NCA :
ex. : Haplotypes dérivés ont une distribution géographique plus
restreinte qu’haplotypes ancestraux (sous hypothèse nulle absence
d ’association géographique)
la sélection pourrait donner une
structure géographique différente!!
La violation du postulat invalidera les inférences proposées!!
Problème lié à populations refuges et
recolonisation postglaciaires :
- Si haplotypes perdus dans la population refuge ancestrale,
observation seulement dans la région recolonisée et phénomène
d ’expansion non détecté!!
- Les contractions répétées des populations dans les régions refuges
ont très probablement contribué à la perte de nombreux haplotypes,
donnant comme résultat de nombreux haplotype « manquant » à
distribution inconuue, pouvant fortement influencer la NCA.
• Programme dancing trees de stuart baird
associant informations génétique et
géographique. En cours de finalisation.
• Approche d’Olivier Hardy pour la
recherche d’un signal phylogéographique.