EVOLUTION DES EXTREMITES CHROMOSOMIQUES HUMAINES:

Transcription

EVOLUTION DES EXTREMITES CHROMOSOMIQUES HUMAINES:
DEA de Génétique Humaine 1999/2000
Yves-marie BORDE
EVOLUTION DES EXTREMITES CHROMOSOMIQUES
HUMAINES:
étude de la phylogénie du domaine sous-télomérique proximal.
IECH, Institut de Génétique et Microbiologie, Université Paris-Sud, 91405 Orsay cedex
Responsable: Gilles VERGNAUD
1
Introduction
Les humains et les primates présentent une très forte similarité au niveau de leur
séquence ADN en dépit des grandes différences existant entre ces espèces. Cependant des
différences caryotypiques sont visibles, notamment localisées aux extrémités des
chromosomes.
Quelques études désignent les extrémités chromosomiques comme des sites privilégiés
de l’évolution des génomes. Ainsi la possibilité que des réarrangements chromosomiques
subtélomériques aient pu altérer la régulation d’un ou plusieurs gènes ayant un impact
significatif sur l’évolution de nos espèces, mérite d’être étudiée. Dans cet objectif et afin de
développer des outils efficaces pour étudier notre évolution récente, les domaines
subtélomériques des chromosomes humains doivent être parfaitement caractérisés.
Chez l’homme et tous les eucaryotes étudiés à ce jour, on observe immédiatement
adjacent au télomère un domaine subtélomérique non spécifique d’un chromosome. La taille
de la zone comprise entre le télomère (T2AG3)n et le domaine propre à un chromosomevarie selon les chromosomes. Ceci résulte d' un degré élevé de polymorphisme de présenceabsence de séquences adjacentes au télomère.
Le séquençage de quelques extrémités chromosomiques a récemment permis de
définir un domaine sous-télomérique distal encadré par le télomère proprement dit et par
quelques centaines de nucléotides d’une séquence de type télomérique TTAGGG dégénérée
immédiatement suivie par le domaine sous-télomérique proximal (figure 1).
Figure 1 : Modèle d’organisation des domaines sous-télomériques
La séquence TTAGGG dégénérée semble constituer une frontière entre ces deux
domaines. Du côté distal on trouve des homologies multiples et courtes avec d’autres régions
2
télomériques ainsi que de nombreuses similitudes avec des portions de séquences ESTs. Du
côté proximal on observe des segments d’homologie de plus grand taille avec quelques
chromosomes seulement.
Des travaux récents (8, 14) combinant l’utilisation des analyses de ségrégation dans de
grandes familles, la marche sur le chromosome, et des études en hybridation in situ, ont
exploré la dissémination dans le domaine subtélomérique proximal de la région « OR » et du
locus DNF92. Cinq régions ont été identifiées, quatre numérotées de 1 à 4 plus la région
« OR » contenant des séquences homologues aux gènes de la famille des récepteurs olfactifs.
La région 1 contient le minisatellite DNF92 et la région 2 se subdivise en région 2 distale et 2
proximale. Un modèle du déroulement de la phylogénie de ces régions a été proposé, dont
l’aspect majeur est l’élimination de la région « OR » au cours de la propagation de DNF92.
La validation de tout ou partie de ce modèle nécessite une exploration plus approfondie des
événements ancestraux ayant conduit à l’organisation actuelle du domaine sous-télomérique
proximal.
Dans les deux cas, OR comme DNF92, une seule localisation est identifiée chez le
chimpanzé, le gorille et l’orang-outan. Cependant dans le cas de OR, cette localisation n’est
orthologue d’aucun des sites présents chez l’homme. Les auteurs favorisent l’hypothèse selon
laquelle la région, multicopie chez un ancêtre commun aux primates supérieurs, aurait été
ensuite perdue en un ou plusieurs sites indépendamment chez les différents primates. La
comparaison de séquences issues des différents sites devrait permettre de trancher entre les
deux hypothèses, propagation ou perte, et de dater les étapes successives de dissémination
chez l’homme. La distribution des séquences, étudiée dans différentes populations humaines,
et chez les primates supérieurs, montre un degré élevé de polymorphisme. La majorité des
locus disséminés se trouve à des extrémités télomériques.
La situation est plus claire pour DNF92 car, dans ce cas, le site unique détecté chez les
primates, en 17qter, est orthologue à l’un des sites détectés chez l’homme. L’analyse
moléculaire de ce site et de la jonction de translocation avec les autres sites conforte
l’hypothèse selon laquelle ce site serait le locus ancestral. Depuis ce site, la région s’est
propagée à au moins dix autres extrémités chromosomiques. Quatre de ces extrémités sont des
sites majeurs, les autres sont plus rarement occupées. Cette propagation est très récente,
comme le montre la similitude de séquence entre les sites majeurs (99% d’identité sur un
fragment de 2 kilobases) (15). Les données moléculaires sont encore insuffisantes pour
fournir le scénario complet et détaillé de la propagation de DNF92. Cependant, les travaux
effectués ont permis d’identifier trois jonctions correspondant à différentes étapes de
propagation de DNF92 au cours de l’évolution récente. Ces trois jonctions définissent quatre
régions dans le domaine sous-télomérique proximal. Ainsi, la jonction 17q/1p,5q,6q définie la
frontière entre la région 1 et la région 2. La région 1 s’étend du télomère à la jonction 17q. La
jonction 6q/1p,5q est utilisée dans (15) pour définir à la fois la frontière région 2/région 3 et le
début d’une petite région, appelée région 4. La région 2 s’étendrait de la jonction 17q à la
jonction 6q. La région 3 quant à elle, s’étendrait de la jonction 6q à la jonction 5q/1p
marquant la fin de celle-ci. Cependant, la situation est moins claire qu’il n’y paraît et demande
à être clarifiée.
D’autre part, les études de FISH (figure 2) semblent montrer l’existence d’une
séparation au niveau de la région 2. Ainsi, on aurait deux sous-région ancestrales, la région 2
distale et la région 2 proximale, qui auraient fusionné au cours de la propagation de DNF92
pour donner la région 2. Les chromosomes portant la région 2 proximale et la région OR ne
montrent aucun signal (en FISH) pour les régions 1 et 2 distale. La propagation de DNF92
aurait, par translocation, mis en continuité les régions 1 et 2 distale avec la région 2 proximale
avec perte de la région OR.
3
Figure 2: Organisation du domaine sous-télomérique proximal (selon Monfouilloux, 1998)
Vers
0kb
télomère 
25kb

région 1
50kb

75kb

100kb

125kb

150kb

175kb

jonction 17q/1p,5q,6q
région 2
jonction 6q/1p,5q
région 3
jonction 5q/1p
région 4
En analysant par FISH la répartition de ces quatre régions sur l’ensemble des
chromosomes humains et de chimpanzé, un déroulement de la dissémination de la région 1
(portant DNF92) au cours de l’évolution récente des extrémités de chromosomes avait pu être
proposé (15).
Dans ce modèle, la région 1 ancestrale aurait été transloquée de 17qter en 7pter pour
se trouver accolée à la région 2 distale. Puis ce fragment région 1/région 2 distale aurait été
transloqué de 7pter en 15qter pour se trouver en continuité avec le fragment 2 proximal. Ce
fragment région 1/ région 2 complète se serait transloqué en 19pter pour prendre la région 4
puis de là en 6qter où il serait resté sous forme région1/région2/région4. Enfin, le fragment
région1/région2 de 6qter aurait été transloqué en 5qter en continuité avec la région3. De 5qter,
cet ensemble se serait transporté en 1pter. Cette séquence d’événements est restée très
hypothétique et demande à être confirmée par des données moléculaires plus précises .
Le présent travail vise donc à éclaircir et préciser la séquence des événements
phylogéniques ayant conduit à l'organisation actuelle du domaine sous-télomérique proximal
chez l'homme en tirant partie des données issues du séquençage du génome. Ceci passera par
la réalisation d'une carte physique où seront précisément positionnées les différentes régions
citées plus haut ainsi que leurs frontières. Cette carte sera construite par identification et
positionnement de clones (PAC, cosmides) porteurs de jonctions entre fragments de régions 1,
2, 3 ou 4 et régions chromosomes spécifiques. Dans un second temps, les fragments de clones
porteurs d'information phylogénétique seront soumis à un logiciels de phylogénie moléculaire
permettant de les ordonner par ordre d'ancestralité dans le temps.
Matériel et méthode
FISH : Les expériences de FISH ont été réalisées au Centre d’Etude du Polymorphisme
Humain (CEPH) par le docteur Arturo Londono et son équipe. Elles ont portées sur 16
individus, et les cosmides utilisés ont été choisis en fonction du travail précédemment réalisé
par Sylvaine Montfouilloux (8). Ces cosmides sont : Icrfc112F151 (portant le mini-satellite
DNF92) réprésentant la région 1 sur la carte physique, L78442 ( aussi appelé f7501, portant la
région OR) représentant la région OR, les cosmides 5D1 et 6A2 représentant la région 2a,
4
6B5 représentant la région 2b, Icrf49 représentant la région 2c, et 5C4 représentant la région
3.
Recherches d'homologie de séquence ADN : L’identification de nouveaux clones d’intérêt se
fait par recherche des homologies de séquences des clones déjà ancrés sur la carte physique
par le serveur BLAST avec la base de donnée de séquence ADN du site NCBI
(http://www.ncbi.nlm.nih.gov )
Les homologies de séquence entre les différents clones ancrés sur la carte sont étudiées
en soumettant deux à deux les clones au logiciel pipmaker du site :
http://nog.cse.psu.edu/pipmaker/.
Choix de primers : Des primers encadrant une zone supposée unique dans le génome dans la
région chromosome spécifique des clones sont choisis par le logiciel Primer3 du site:
http://www.genome.wi.mit.edu/cgi-bin/primer/primer3_www.cgi.
Amplification par PCR : Les réactions de PCR sont effectuées sur le panel d’hybrides
d’irradiation Genebridge 4, sur machine PTC-200 Peltier Thermal Cycler de MJ
Research ou GeneAmp PCR System 9600 de PERKIN ELMER.
PCR: 92°C-2 min ;
92°C-15 s ; 68°C-60 s ; 35 cycles
68°C-10 min
Tampon : 2.25 mM MgCl2, 500 Mm Tris-HCl pH9,2 , 160 Mm (NH4)2SO4, 1%
Tween20.
Les produits d’amplification ont été séparés sur gel d’agarose 1% et visualisés sous
lumière UV après coloration au bromure d’éthidium. L’analyse des résultats a été faite
conformément aux instructions disponibles sur le site :
http://www.hgmp.mrc.ac.uk/Registered/Webapp/rhyme/
Phylogénie : Le logiciel d’alignement multiple CLUSTALW a été utilisé pour les alignements
de séquence (serveur lovelace d'infobiogen, menu bisance choix 11-2).
Les analyses phylogénétiques ont été réalisées en utilisant l’algorithme de parcimonie
du logiciel de phylogénie PHYLIP (5) (serveur lovelace infobiogen, menu bisance choix 122).
La robustesse des arbres a été testée par la technique de bootstrap sur 1000 répétitions
(serveur lovelace infobiogen, menu bisance choix 12-10).
Les résultats fournis ont pu être visualisés grâce au logiciel Treeview disponible sur le
site : http://taxonomy.zoology.gla.ac.uk/rod/rod.html .
Résultats
1.1. Carte physique :
Les analyses de séquences effectuées ont permis d’établir une carte physique théorique
(figure 3) montrant l’organisation des différentes régions du domaine sous-télomérique
proximal. Sur cette carte, on a pu préciser les frontières entre région 1 et région 2, entre région
5
2a, 2b et 2c ainsi que la limite entre la régions 2c et les régions 3 et 4. La construction de la
carte a été initiée par le cosmide Y13543 (nommé icrfc112F151 dans le travail de S.
Monfouilloux) dont on savait qu’il contenait la région 1 (Monfouilloux, 1998). L'analyse de la
séquence de ce cosmide a révélé qu'il contenait un motif (TTAGGG)n dégénéré pouvant
correspondre à la frontière entre les domaines sous-télomérique distal et proximal. Ainsi, le
cosmide icrfc112F151 représente le début de la carte physique virtuelle, par commodité nous
utiliserons comme position de référence ce motif dégénéré. La position 1 est le premier
nucléotide extérieur à cette séquence du côté proximal. Par la suite, l'utilisation des logiciels
de recherche d'homologie de séquence BLAST et Pipmaker a permis d'ancrer en cascade sur
cette carte les clones (PAC : P1 derived artificial chromosome, ou cosmides) porteurs de
zones d'homologies avec les différentes régions du domaine sous-télomérique proximal. Par
cette méthode, 9 PACs et cosmides de référence ont été ancré sur la carte : ICRFc112F151,
AC004908, AC005627, F7501, AC005605, AC004842, AF109718, AC006328, AL031259.
Ces 9 séquences couvrent l’ensemble du domaine sous-télomérique proximal et nous ont
permis de comprendre l’organisation des différentes régions composant ce domaine. Par la
suite, tout les PACs et cosmides présentant une homologie de séquence avec l’un de ces 9
PACs et cosmides de référence ont été analysés par le logiciel de comparaison de séquence
Pipmaker, permettant ainsi de mettre en évidence et de positionner les différentes frontières
(ou zones de jonction) sur la carte physique.
Figure 3 : Carte physique du domaine sous-télomérique proximal
Localisation de la frontière région1/région2: le mini-satellite CEB102 marque la
frontière entre région1 et région2 (Monfouilloux 1998). Afin de localiser précisément
l'emplacement de cette frontière, un "blast 2 sequences" a été effectué entre la séquence du
minisatellite et celle de Y13543. En position 1749 de ce cosmide on observe une rupture
d'homologie conduisant à un motif incomplet du minisatellite. C'est probablement à cet
endroit qu'a eu lieu la translocation ancestrale qui a permis l'accolement entre région 1 et
région 2. De plus, le "blast 2 séquences" entre la séquence du mini-satellite et le PAC
6
AC005627 révèle la présence de la partie proximale de mini-satellite sur ce PAC, qui contient
donc la région 2a dans sa totalité comme cela a pu être confirmé par la comparaison des
séquences de AC004908 avec AC005627 (figure 4). Ainsi, ceci a permis de positionner
précisément la frontière entre région 1 et 2a en 30015 sur la carte physique.
Figure 4 : Comparaison des séquences de AC004908 et AC005627
Frontière région 2a/2b : le PAC AC004908 devient homologue à AC005605 en sa
position 9159, qui correspond à la position 21583 de AC005605. De plus, AC005605 est
homologue de sa position 0 à 15212 au cosmide f7501 (Trask et al., 1998) portant la région
OR. La comparaison par Pipmaker de la séquence du PAC de référence AC004908 avec les
séquences des PACs AC005627 et AC005605 a permis de repérer plus précisément
l’emplacement de cette frontière. En effet, sur AC004908 la frontière se situe en 9105 (soit en
64146 de la carte physique) et elle interrompt deux types de séquences répétées (figure 5).
Figure 5 : Localisation de la frontière entre les régions 2a et 2b
D’une part, une séquence LINE L3/CR1 positionnée en 8815-9080 de la séquence de
AC004908, d’autre part une séquence Tigger5/MER2 type1 en 9160-9616. On retrouve
chacune de ces deux séquences répétées intactes sur deux PACs représentant deux
configurations ancestrales à AC004908, AC005627 qui contient les régions 2a-2c et
AC005605 qui contient les régions OR-2b. Ainsi une translocation a produit l’accolement de
2a et 2b, visible en 9105 de AC004908. Ainsi le PAC AC004908 confirme l'hypothèse
(Monfouilloux 1998) de l’existence de plusieurs régions 2, 2a et 2b dans le cas présent,
définies par la translocation entre d’une part la région OR et d’autre part les régions 1+2a.
Frontière région 2b/2c : la jonction entre les régions 2b et 2c se situe entre 58658 et
58661 de AC004908 soit en 113698-113701 de la carte physique. Dans ce PAC elle associe
un fragment de séquence répétée de type LTR64 présent en 58498-58658 et un fragment de
7
séquence LINE/L1 présent en 58661-59022. Cette séquence serait donc l’un des deux produits
issu d’une recombinaison illégitime entre d’une part une séquence présente sur AC005627 et
d’autre part une seconde séquence présente sur AC055861 (figure 6).
Figure 6 : Localisation de la frontière entre les régions 2b et 2c
Frontière région 2c/ région 3-4 : la localisation de cette frontière s’est avérée complexe
car plusieurs jonctions de réarrangements se sont produites une courte distance.
Une première frontière a été identifiée initialement en prenant la séquence
correspondant à la fin d’homologie parfaite entre les séquences 6qter et 5qter (Monfouilloux,
1998), puis en la soumettant en "blast 2 séquences" à la séquence du PAC AC004908. Ceci a
permis de mettre en évidence une frontière en 70595 de AC004908.
La comparaison deux à deux des séquences des clones AC004908, AC004842,
AL031259, AC006328 et HSCOS10 (figures 7, 8, 9) a permis de mettre en évidence une
nouvelle frontière de fin de région 2c et de comprendre l’organisation des régions 3 et 4.
8
Figure 7 : Comparaison des séquences de AC004908 et AC006328
Figure 8 : Comparaison de la séquence de AC004908 avec AL031259 et
HSCOS10
Figure 9 : Comparaison de la séquence de AC004908 avec AC004842 et HSCOS10
La comparaison des séquences de HSCOS10 et AC006328 (figure 10) montre que la
fin d’homologie entre les deux clones est marquée par la présence d’une séquence
minisatellite.
9
Figure 10 : Comparaison des séquences de HSCOS10 et AC006328
Celui-ci se présente sous une forme classique sur HSCOS10 (nombre entier de motifs) tandis
qu’il est tronqué au milieu d’un motif et donc beaucoup plus court sur AC006328 (figure 11).
ctcccagcaaacaagctcttttggctcagctctgccggcctttgtagaccccgaagtttctgcaaccaagctcttcaggcccacatcccacctcccagaggc
ttgaacagtcccagctccggctggagaagagcgtctgcaggccccactgttgcctcccaggggcgtctccaggcccagctctcaccccactgtggcctccc
aggcccaagtccctgcctgcctcccagcagcccgcatgtgaccctgctcctccctcacggt
ggcctgttgaggaaggggctcacactgacctctctcagtgtgggagg ggccggtgtgaggcaagggctcacgctgacctctctcagtgtgggagg
ggcctgttgaggcagggggtcacgctgacctctgtccgcgtgggagg ggccggtgtgaggcaagggctcacactgacctctctcagcgtgggagg
ggccggtgtgaggcaaggggctcccgctgacctctgtcagcgtgggagg ggccggtgtgaggcaaggggctcccgctgacctctgtcagtgtgggagg
ggccggtgtgaggcaaggg-ctcacgctgacctctgtccgcgtgggagg
ggccggggtgaggcaaggggctcacgctgacctctgtccgcgtgggagg
ggccgatgtgaggcaaggggctcccactgacctctgtc Fin de mini-satellite en AC006328, motif tronqué en 61081
Ggccggtgtgaggcaagggctcacactgacctctctcagcgtgggagg…43 motifs complets, fin en 13124 de HSCOS10
En vert : séquence flanquante commune sur AC006328 et HSCOS10. Cette séquence s'étend de 60587 à
60851 sur AC006328, le mini-satellite commençant en 60852. Elle s'étend de 10775 à 11053 sur HSCOS10,
le mini-satellite commençant en 11054.En bleu : séquence du mini-satellite sur AC006328En noir :
séquence du mini-satellite sur HSCOS10
Figure 11 : Comparaison de la séquence du mini-satellite entre AC006328 et HSCOS10
Ceci indique que la configuration en AC006328 est dérivée d’un réarrangement ayant tronqué
une séquence origine telle qu’on l’observe sur HSCOS10. Ainsi, HSCOS10 serait constitué de
région 2c jusqu’en 13124 de sa séquence, et serait région 3 à partir de cette frontière jusqu’à
la fin de sa séquence comme le montre la comparaison de la séquence de ce cosmide avec
celle de AC005627 (figure 12).
10
Figure 12 : Comparaison des séquences de HSCOS10 et AC005627
AC006328 ne contient pas de région 3. AC004908 contiendrait une région 2c tronquée en
77427 de sa séquence et serait constitué d’une région 4 ancestrale après cette frontière. En
effet, la comparaison de AC004908 avec AL031259, montre que ce dernier contient une
région 2c tronquée découlant d’un réarrangement de la région 4 de AC004908 (figure 13).
Ceci indique l’ancestralité de la configuration de AC004908 sur celle de AL031259, cette
information phylogénique complètera celle obtenue dans l’étude phylogénétique qui va
suivre.
Figure 13 : Phylogénie de la région 4
En résumé, la région 2c est tronquée en 125636 de la carte physique. Ce point marque
le début de la région 4 telle qu’elle est observée sur AL031259. Une deuxième rupture de la
région 2c est observée en 77427 de AC004908 ce qui correspond à une position de 132468
sur la carte physique. Cette frontière marque le début de la région 4 ancestrale observée sur
AC004908. Enfin, la fin de région 2c, marquant le début de la région 3, se situe en 13124 de
HSCOS10 soit en 141320 de la carte physique.
11
Région 5 : La comparaison des séquences des PACs AC004908 et AC005627 (figure
4) révèle l’absence totale de région 2b sur AC005627, remplacée par une petite région de 5
kilobases sans aucune homologie avec l’une ou l’autre des régions déjà décrites. Cette région
que l’on retrouve sur AC006328 a été nommée région 5.
1.2. Détermination de l’origine chromosomique des clones ancrés
sur la carte physique :
La détermination de l’origine chromosomique des clones s’est avérée nécessaire afin
de pouvoir donner un sens à l’étude phylogénétique, un des objectifs de ce travail étant
d’ordonner par ordre d’ancestralité les différentes configurations en régions 1/OR-2a-2b-2c-34 les unes par rapport aux autres. Ainsi, l’origine chromosomique des clones a permis, de
comparer les configurations (en régions 1/OR-2a-2b-2c-3) issues des données de séquences
avec celles identifiées par FISH, et d’attribuer la configuration la plus probable (grâce aux
données de FISH) aux PACs dont l’étude de séquence n’était pas possible pour des raisons de
temps et de séquence incomplète.
L’étude phylogénétique apporte d’autant plus d’informations que le nombre de
séquences étudiées est important. La partie de la carte physique la plus riche en clones ancrés
concerne les régions 2b,2c et 3. C’est donc pour les clones ancrés dans cette zone de a carte
que l’on a cherché à déterminer l’origine chromosomique en priorité.
Deux méthodes nous ont permis d’accéder à ces informations. D’une part, la
soumission du numéro d’accession du clone au site NCBI :
www.ncbi.nlm.nih.gov/genome/clone a permis de savoir si le clone faisait partie d’un contig,
et si oui à quel chromosome appartenait ce contig. De plus ce site permet d’avoir accès à la
fiche signalétique du clone où les auteurs dès que cela s’avère possible signalent l’origine
chromosomique de leur clone. La deuxième méthode consiste à choisir des amorces dans la
zone supposée chromosome spécifique de chaque clone (la spécificité de chaque amorce est
vérifiée par un Blast htgs et un Blast nr), puis à l’aide de ces amorces d’effectuer une PCR sur
le panel d’hybrides d’irradiation Genebridge4. Après migration sur gel des produits
d’amplification, les résultats sont codés en suite de chiffre (1 : présence ; 2 : incertain ; 0 :
absence) et soumis au site http://www.hgmp.mrc.ac.uk/Registered/Webapp/rhyme/
fournissant après interprétation l’origine chromosomique la plus probable.
Les résultats sont résumés tableau 1. Pour certains clones, les résultats Genebridge4
entrent en contradiction avec les données issues du site ncbi. Ainsi, le typage Genebridge4
assigne AC004908 au chromosome 8 alors que l’auteur du contig, Washington University
Genome Sequencing Center (WUGCS), le situe sur le chromosome 7. Un des objectifs de ce
centre étant le séquençage complet du chromosome 7, il n’est pas improbable que certains
PACs multilocus aient été assignés au chromosome 7 par erreur. En ce qui concerne le PAC
AC009954, sa séquence s’est révélée contenir entièrement celle du PAC AL031259. Il s’avère
donc que AC009954 peut être assigné en chromosome 6qter. De même, les deux PACs
AC006328 et AC012005 ont une grande partie de leur séquence en commun et ont été tout
deux assignés chromosome Y par le WUGCS. Ainsi, l’origine chromosomique de ces deux
clones était suffisamment fiable pour ne pas nécessiter de typage Genebridge4. Enfin, le
cosmide HSCOS10 s’est révélé être d’une origine chromosome 3 fiable tel que cela a été
attesté par son auteur (Trask et al., 1998, soumission directe).
Outre les exceptions citées ci-dessus, il faut noter que certains clones utilisés dans
l’étude phylogénétique qui va suivre n’ont pas été typés sur le panel Genebridge4. Etant
donné l’évolution rapide des données de séquence mises à disposition sur internet, il n’a pas
12
été possible pour des raisons de temps de procéder à ces typages. Ainsi, il est important de
souligner qu’en l’état actuel de ce travail et des données de séquences disponibles à ce jour,
les clones n’ayant pas été typés avec succès par le panel d’hybrides d’irradiation Genbridge4
présentent une origine chromosomique pouvant être erronée.
Tableau 1 : Origine chromosomique des clones
N° accession
Données NCBI
Statut
Typage Genbridge4
AC004908
contig NT_002802 chr.7
séquence complète
chr.8p
AC006328
contig NT_002715 chr.Y
séquence complète
non fait
(HSCOS10)
chr.3
séquence complète
non fait
AL031259
contig NT_000312 chr.6
séquence complète
chr.6q
en contig avec contig NT_002179 chr.6
séquence complète
chr.6p
AF109718
AL035696
AC004842
AC012005
contig NT_003572 chr.Y
séquence complète
non fait
AC005627
contig NT_003393 chr.7
séquence complète
non fait
AL161615
chr.13
séquence incomplète non fait
AC009954
chr.6q
séquence incomplète non fait
AC010509
chr.19
séquence incomplète non fait
1.3. Résultats des expériences de FISH :
Toutes les données de FISH, résumées figure 14, ont été produites par l’équipe de
Arturo Londono. Ces données ont été très utiles dans la réalisation de la carte physique. En
effet, en les comparant avec les données de séquences on a pu mieux cerner la localisation des
différentes régions de la carte physique. La comparaison des séquences des clones deux à
deux (résultats non montrés), a permis d’apprécier leur contenu respectif en région 1, 2a, 2b,
2c ou 3/4 . Ces conclusions ont pu être corroborées avec les données de FISH.
13
Figure 14 : Résultats de l'hybridation in situ de 6 cosmides représentatifs sur 16 individus
Ainsi, AC004908 contient d’après l’étude de sa séquence une partie de région 2a, la
région 2b, la région 2c tronquée en 77427 et une région 4 ancestrale. Ceci peut être cohérent
avec une localisation en 8pter comme on le voit sur la figure 14, et serait en accord avec le
résultat du typage Genebridge4 (tableau 1).
AC004842 contient un grand fragment de région 2b, la région 2c dans son entier, un
petit fragment de région 3 de 3.5 kilobases accolé à plusieurs fragments de la région 4
ancestrale de AC004908. Ces données reste insuffisantes pour être comparées aux résultats de
FISH, cependant ces données de FISH n’infirment pas le fait que AC004842 soit d’origine 6p.
AC006328 est constitué de région 2a et de la région 2c tronquée à sa deuxième
frontière (77427 sur AC004908). Ceci peut être cohérent avec les observations faites en FISH
en Yq11.
AL031259 contient quand à lui un grand fragment de région 2b, la région 2c tronquée
(en 125636 de la carte physique) ainsi que la région 4 remaniée à partir de la région 4 présente
sur AC004908. Les données de FISH n’infirment pas le fait qu’une telle configuration puisse
être portée en 6q comme l’ont montré les données sur l’origine chromosomique des clones
(tableau 1).
En ce qui concerne AC005627, il contient la région 2a, un grand fragment de région
2c et de la région 3. En accord avec les données de FISH, ceci peut être cohérent avec une
localisation en 7p.
Enfin, ces données de FISH ont permis de tester la cohérence des différentes
hypothèses concernant la phylogénie du domaine sous-télomérique proximal qui ont été
formulées à partir de l’étude phylogénétique ci-dessous.
14
1.4. Informations phylogéniques fournies par les comparaisons de
séquences :
Comme cela a déjà été décrit dans le paragraphe sur la carte physique, il s’avère que la
configuration portée par le PAC AC055861 dit chromosome 15 et celle portée par AC005627
dit chromosome 7 seraient ancestrales à celle de AC004908 d’origine 8pter (figure 6).
Dans le paragraphe sur la frontière région 2c/région 3-4 il semble que la situation
observée en 8p (AC004908) est ancestrale à celle décrite en 6q (AL031259) (figure 13).
On peut donc déduire des ces comparaisons de séquences deux séquences
phylogéniques avec par ordre décroissant d’ancestralité :
Chromosome 15, chromosome 7 à chromosome 8p
chromosome 8p à chromosome 6q
Il faut cependant faire attention à l’interprétation des deux séquences phylogéniques
ci-dessus. En effet, ce n’est pas parce que les extrémités des chromosomes 15 et 7 portent des
configurations ancestrales qu’ils sont forcément les protagonistes de la translocation à
l’origine de l’accolement des régions 2b et 2c. Ces deux configurations ancestrales pouvaient
fort bien être multilocus, et il est tout à fait possible que deux autres extrémités
chromosomiques, disparues aujourd’hui, aient été impliquées dans cette translocation. Pour
autant, les deux configurations portées aujourd’hui par les chromosomes 15 et 7 dans les
banques de séquences permettent d’affirmer que les configurations OR-2b et 2a-5-2c-3 sont
ancestrales à la configuration 1-2a-2b-2c-4 présente sur l’extrémité 8p. Ainsi, si l’utilisation
des extrémités chromosomiques dans les séquences phylogéniques est abusive, l’emploi des
configurations (régions OR/1-2a…) correspondantes reflète parfaitement la réalité.
Pour l'étude phylogénétique présente nous avons utilisé une méthode d’analyse
cladistique. L’application d’une telle méthode nécessite le refus des hypothèses ad hoc, ou,
tout au moins, leur minimisation, c’est-à-dire l’application du principe de parcimonie. Une
hypothèse ad hoc suppose que la transformation de caractère partagée par deux ou plusieurs
taxons (ici deux ou plusieurs séquences soumises à l’analyse) n’est pas due à une ascendance
commune. L’hypothèse de base admise par l’analyse cladistique est que le même caractère
dérivé observé chez deux taxons ou plus est dû à l’héritage à partir d’une espèce ancestrale
(ou séquence ancestrale dans le cas présent). La méthode de parcimonie de Wagner modifiée
par Fitch (1971) permet l’étude de séquences protéiques ou nucléotidiques. C’est cette
méthode disponible sur le serveur lovelace d’infobiogen qui a été utilisée.
Pour le choix des séquences étudiées, l’attention s’est portée sur les régions 2b et 2c de
la carte, cette zone étant la plus riche en clones ancrés. Trois zones d’environ 10 kilobases ont
été sélectionnées sur AC004908 puis comparées en "Blast 2 séquences" aux séquences des
différents clones ancrés dans la même zone de la carte. Pour l’étude phylogénétique les
séquences les plus grandes et communes au plus grand nombre de clones ont été retenues
(tableau 2).
Les fragments de séquences ont ensuite été alignés par le logiciel ClustalW. Les
alignements de séquences ont été analysés puis « nettoyés » de tous les événements non
phylogéniques pouvant introduire un biais dans l’étude de parcimonie. Ainsi tout les doublets
CG donnant sur l’une ou l’autre des séquences alignées un doublet TG ou CA ont été
éliminés, car ce doublet CG, un point chaud de mutation, représente donc un événement de
faible valeur phylogénétique. De même, tout événement d’insertion ou de délétion impliquant
15
plus d’une base doit être analysé attentivement. En effet, le logiciel de parcimonie interprète
chaque base insérée ou délétée comme un événement phylogénique. Pour éviter tout biais
dans l’analyse phylogénétique, toute insertion ou délétion impliquant plusieurs bases doit être
ramenée à une base c’est-à-dire à un seul événement phylogénique. Un exemple de ces
manipulations de séquences est donné figure 15.
Figure 15 : Exemple illustrant la préparation des fichiers d’alignements avant leur soumission
à l’algorithme de parcimonie.
AC4908
AC4842
31259
133216
AC4916
AC6328
-ATATCATTTCCAAATTCCCCAGCGTTCATATTTGTCAGTGCAAGTAAAGAGCCTTACTG
TATATCATTTCCAAATTCCCCAGCGTTCATATTTGTCAGTGCAAGTAAAGAGCCTTACTG
--TATCATTTCCAAATTCCCCAGCGTTCATATTTGTCAGTGCAAGTAAAGAGCCTTAGTG
-ATATCATTTCCAAATTCCCCAGCATTCATATTTGTCAGTGCAAGTAAAGAGCCTTAGTG
-ATATCATTTCCAAATTCCCCAGCATTCATATTTGTCAGTGCAAGTAAAGAGCCTTAGTG
----------------------------------------GCAAGTAAAGAGCCTTAGTG
***************** **
AC4908
AC4842
31259
133216
AC4916
AC6328
CTGATGAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA
CTGATGAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA
CTGATGAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA
CTGATTAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA
CTGATTAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA
CTGATTAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA
***** ******************************************************
AC4908
AC4842
31259
133216
AC4916
AC6328
TGTGTGCTTCAGGGTACACTTTTTTTTTTTTTTTT-----------GAGACGGAGTCTTG
TGTGTGCTTCAGGGTACACTTTTTTTTTTTTTTT------------GAGACGGAGTCTTG
TGTGTGCTTCAGGGTACACTTTTTTTTTTTTTTTTTT---------GAGACGGAGTCTTG
TGTGTGCTTCAGGGTACACATTTTTTTTTTTTTTTTT---------GAGACGGAGTCTTG
TGTGTGCTTCAGGGTACACTTTTTTTTTTTTTTT------------GAGACGGAGTCTTG
TATGTGCTTCAGGGTACACTTTTTTTTTTTTTTTTTTTTTTTTTTTGAGACGGAGTCTTG
* ***************** **************
**************
AC4908
AC4842
31259
133216
AC4916
AC6328
CTCTGTCGCCCAGGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGCAAGCTCCGTCTCC…
CTCTGTCGCCCAGGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGCAAGCTCCGTCTCC…
CTCTGTCGCCCAGGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGCAAGCTCCGTCTCC…
CTCTGTCGCCGAGGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGCAAGCTCCGTCTCC…
CTCTGTCGCCCAAGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGTAAGCTCCGTCTCC…
TTCTGTCACCCAGGCTGGAGTGCAGCAGTGTGATCTCAGCTCACCGCAAGCTCCGTCTCC…
****** ** * ************* *** *************** *************…
CGCCTTAT : séquence éliminée
Le fichier d’alignement a ensuite été soumis au logiciel Seqboot, dont le résultat a subi
l’analyse parcimonieuse. Les séquences étudiées sont présentées dans le tableau 2 et l’arbre
issu de l’alignement dans la figure 16.
Tableau 2 : Séquences soumises à l'étude phylogénétique
Clones
AC004908
AC004842
AL031259
AC009954
AC010509
AL161615
Fragments de séquences étudiés
Début
Fin
54911
59011
80471
84556
20521
24614
157641
161739
37271
41351
5931
10027
L’arbre présenté sur la figure 16 n’a pu être enraciné faute de séquence pouvant servir
de groupe extérieur. Cependant, les séquences phylogéniques fournies par les comparaisons
de séquences permettent d’attribuer un sens de lecture à cet arbre et donc d’en déduire une
séquence phylogénique : 8p,19 à 6p à 13 à 6q. On constate sur cet arbre que les deux
séquences 6q sont liées à un même nœud de l’arbre. Ces deux séquences servent donc de
16
contrôle interne permettant de corroborer la justesse de l’analyse parcimonieuse. Sur l’arbre,
les séquences 8p et 19 sont reliées à un même nœud. Cela signifie que le logiciel de
parcimonie n’a pas pu classer ces deux séquences par ancestralité. Ceci s’explique par le fait
que les séquences étudiées ici sont très peu divergées et comportent donc peu d’informations
phylogénétiques, ce qui explique la difficulté de l’analyse phylogénétique.
Figure 16 : Arbre phylogénique issu de l'étude parcimonieuse des fragments de séquences de 6 PACsA
chaque extrémité de branche a été indiqué le PAC dont est originaire la séquence étudiée en parcimonie,
l'extrémité chromosomique dont est originaire le PAC et la configuration la plus probable portée par cette
extrémité au regard des données de séquences et de FISH. A noter, la localisation chr13 est douteuse (ce
n'est pas une localisation identifiée figure 14).
Discussion
Les différentes séquences phylogéniques décrites précédemment sont résumées figure
17. Chacune de ces séquences a été confrontée aux données de FISH. Pour chaque extrémité
chromosomique la correspondance en région OR,1/2a/2b/2c/3-4 la plus probable a été
représentée. Comme cela a été expliqué dans la partie sur les informations phylogéniques
fournies par les comparaisons de séquences, l’utilisation des numéros de chromosomes est
abusive. Cependant, pour faciliter la compréhension, ceux-ci sont présentés à titre indicatif
dans les modèles de phylogénie décrits ci-dessous.
17
Figure 17 : Correspondance des configurations chromosomiques de chaque séquence
phylogénique en régions 1-OR/2a/2b/2c/3
Deux modèles de phylogénie du domaine sous-télomérique proximal ont été réalisés,
l’un à partir des séquences phylogéniques issues de l’étude phylogénétique (figure 18), l’autre
à partir des données de FISH (figure 19). Ces deux modèles ont été confrontés aux séquences
phylogéniques 1 et 2 afin que ces dernières puissent s’intégrer de manière logique à la
phylogénie du domaine sous-télomérique proximal.
Figure 18 : Modèle de phylogénie du domaine sous-télomérique proximal issu des données
phylogénétiques et des données de séquences
Le modèle issu des données phylogénétiques (figure 18) se heurte à plusieurs
problèmes lorsqu’il est confronté aux données de séquences. En effet, d’après la séquence
phylogénique 3 (figure 16), les configurations des extrémités chromosomiques 13 et 6p
18
découlent de la configuration 8p. Toutes les configurations des extrémités 13p identifiées en
FISH contiennent de la région 3, or la configuration 8p portée par AC004908 n’en contient
pas. Il est donc impossible d’expliquer comment dans la phylogénie la configuration portée
par l’extrémité 13p pourraient se trouver postérieure à la configuration présente en 8p. Une
explication à ce phénomène pourrait être que le PAC AL161615 noté d’origine chromosome
13 a une origine erronée. Une autre explication est que les données issues de l’étude
phylogénétique ne sont pas aussi robustes qu’on pouvait le penser à l’origine. En effet, l’étude
phylogénétique s’est faite sur des fragments de séquences très proches les uns par rapport aux
autres et donc très pauvres en informations phylogénétiques et sensible aux erreurs de
séquençage. Il est donc possible que le logiciel de parcimonie ne puisse être aussi
discriminant qu’il l’est avec des séquences très divergées. De même, en ce qui concerne la
configuration 6p portée en AC004842, les données de séquence indiquent qu’elle contient un
fragment de 3.5 kilobases de région 3. Il semble donc impossible qu’elle dérive de la
configuration portée sur AC004908. Ce modèle reste cependant plausible quand à
l’ancestralité de la configuration 8p sur la configuration 6q.
Le deuxième modèle, issu des données de FISH (figure 19), semble plus cohérent car
il permet d’intégrer de manière harmonieuse les données de séquences. Ainsi dans ce modèle,
une configuration contenant de la région 3 serait ancestrale à la configuration portée en 6p
contenant ce petit fragment de région 3 et à la configuration présente sur 8p elle même
ancestrale à la configuration 6q.
Figure 19 : Modèle de la phylogénie du domaine sous-télomérique proximal issu des données
de FISH
Un troisième modèle (figure 20) a été proposé, en intégrant harmonieusement au
modèle issu des données de FISH les informations phylogéniques issues des comparaisons de
séquences. Il permet notamment de placer de façon cohérente la configuration portée par
l’extrémité 6p.
19
Figure 20 : Modèle de phylogénie du domaine sous-télomérique proximal intégrant les
données de FISH et les informations phylogéniques issues des données de séquences
20
Cependant, ce modèle reste fragmentaire en ce sens qu’il n’intègre pas toutes les
configurations identifiées en FISH, et il reste critiquable car seules certaines étapes ont pu être
corroborées par les données de séquences. Cependant, il pose une base de travail pour les
futures études de la phylogénie du domaine sous-télomérique proximal. Les banques de
données de séquences vont continuer à s’enrichir dans les mois à venir et fourniront de
nouveaux clones susceptibles de s’ancrer sur la carte et qui seront porteurs de nouvelles
informations phylogénétiques, voire de nouvelles jonctions précisant l’organisation du
domaine sous-télomérique proximal telle qu’elle est décrite dans ce travail. Un autre point
important est qu’avec l’achèvement du séquençage du génome humain, la plupart des clones
disponibles dans les banques de séquence auront une assignation chromosomique sûre.
Une autre perspective intéressante fournie par les futures données de séquence, sera la
possibilité de mieux comprendre la phylogénie des régions 3 et 4 qui reste incomplète à ce
jour, ainsi que de déterminer la position exacte de la fin de la région 3 sur la carte physique.
En conclusion, ce travail mené en grande partie grâce aux données de séquence en
libre accès sur internet, a permis de préciser l’organisation du domaine sous-télomérique
proximal et d’élucider une partie de la phylogénie de ce dernier. Les futures données de
séquences devraient permettre de compléter ces modèles dans une certaines mesure. En effet,
il ne faut pas perdre de vue que des configurations portées par certaines extrémités
chromosomiques ont pu être perdues au cours de l’évolution comme cela a déjà été démontré
(10), ou bien s’avèrent être si rares qu’elles ont peu de chance d’être présentes parmi les
données issues du séquençage du génome humain ou d’être détectées un jour par FISH.
21
Bibliographie :
1. Dutrillaux B. (1997). Comment évoluent les chromosomes de mammifères. La Recherche,
296, 70-75.
2. Brown W. R. A., MacKinnon P. J., Villasanté A., Spurr N., Buckle V. J., Dobson M. J.
(1990). Structure and polymorphism of human telomere-associated DNA. Cell, 63, 119132.
3. Burke W. D., Malik H. S., Lathe W. C., Eickbush T. H. (1998). Are retrotransposons
long-term hitchhikers?. Nature, 392, 141-142.
4. Efstratiadis A., Posakony J. W., Maniatis T., Lawn R. M., O’Connell C., Spritz R. A.,
DeRiel J. K., Forget B. G., Weissman S. M., Slightom J. L., Blechl A. E., Smithies O.,
Baralle F. E., Shoulders C. C., Proudfoot N. J. (1980). The structure and evolution of the
human ß-gobine gene family. Cell, 21, 653-668.
5. Felsenstein J. (1991). Phylogenetic inference programs (PHYLIP). University of
Washington, Seattle/University Herbarium, University of California, Berkeley.
6. Flint J., Thomas K., Micklem G., Raynham H., Clark K., Doggett N. A., King A., Higgs
D. R. (1997). The relationship between chromosome structure and function at a human
telomeric region. Nat. Genet., 15, 252-257.
7. Miyamoto M. M. (1999). Molecular systematics : Perfect SINEs of evolutionnary
history?. Current Biology, 9:R816-R819.
8. Monfouilloux S., Avet-Loiseau H., Armager V., Balazs I., Pourcel C., Vergnaud G.
(1998). Recent Human-Specific Spreading of a Subtelomeric Domain. Genomics, 51, 165176.
9. Pagel M. (1999). Inferring the historical patterns of biological evolution. Nature, 401,
877-884.
10. Royle N. J., Baird D. M., Jeffreys A. J. (1994). A subterminal satellite located adjacent to
telomeres in chimpanzees is absent from the human genome. Nat. Genet., 6, 52-56.
11. Royle N. J. (1995). The proterminal regions and telomeres of human chromosomes.
Advances in Genetics, 32, 273-304.
12. Schwartz S., Zhang Z., Frazer K. A., Smit A., Riemer C., Bouck J., Gibbs R., Hardison
R., Miller w. (2000). PipMaker-A web server for aligning two genomic DNA sequences.
Genome Research, 10, 577-586.
13. Stary A. (1994). La recombinaison illégitime dans les cellules de mammifère.
Médecine/Sciences, 10, 986-994.
14. Trask B. J., Friedman C., Martin-Gallardo A., Rowen L., Akinbami C., Blankenship J.,
Collins C., Giorgi D., Iadonato S., Johnson F., Kuo W., Massa H., Morrish T., Naylor S.,
Nguyen O. T. H., Rouquier S., Smith T., Wong D. J., Youngblom J., Van Den Engh G.
(1998). Menbers of the olfactory receptor gene family are contained in large blocks of
DNA duplicated polymorphically near the ends of human chromosomes. Human
Molecular Genetics, 7 (1), 13-26.
15. Vergnaud G. (1999). Structure et évolution des régions sous-télomériques de l’Homme.
Journal de la Société de Biologie, 193 (1), 35-40.
22
Résumé
Les humains et les primates sont très similaires au niveau de leur séquence
ADN, cependant, des différences caryotypiques sont visibles, la plupart
localisées aux extrémités chromosomiques. Des études indiquent que les
extrémités chromosomiques, très polymorphes, sont des points chauds de
l’évolution des génomes, et la possibilité que des réarrangements
chromosomiques sous-télomériques aient pu altérer la régulation d’un ou
plusieurs gènes ayant eu un impact sur l’évolution de nôtre espèce mérite d’être
explorée. Dans ce but, et pour développer des outils efficaces pour étudier notre
évolution récente, les domaines sous-télomériques humains doivent être
caractérisés en détail. Le domaine sous-télomérique proximal situé entre les
répétitions (TTAGGG)n dégénéré, marquant la frontière avec le domaine soustélomérique distal , et le domaine chromosome spécifique montre un
polymorphisme de taille important au sein de la population humaine et entre les
chromosomes d’un même individu. Une récente étude a révélé l’existence de
quatre sous-domaines distincts. Une carte physique détaillée a été réalisée au
cour de ce travail afin de mieux comprendre l’organisation des ces quatre
régions dans le domaine sous-télomérique proximal. Puis, s’appuyant sur cette
carte et sur le résultats d’expériences de FISH, l’étude de la phylogénie de ce
domaine a permis d’élucider quelques unes des étapes de la dissémination des
quatre régions du domaine sous-télomérique proximal sur différents
chromosomes humains au cours de notre évolution récente.
23

Documents pareils