EVOLUTION DES EXTREMITES CHROMOSOMIQUES HUMAINES:
Transcription
EVOLUTION DES EXTREMITES CHROMOSOMIQUES HUMAINES:
DEA de Génétique Humaine 1999/2000 Yves-marie BORDE EVOLUTION DES EXTREMITES CHROMOSOMIQUES HUMAINES: étude de la phylogénie du domaine sous-télomérique proximal. IECH, Institut de Génétique et Microbiologie, Université Paris-Sud, 91405 Orsay cedex Responsable: Gilles VERGNAUD 1 Introduction Les humains et les primates présentent une très forte similarité au niveau de leur séquence ADN en dépit des grandes différences existant entre ces espèces. Cependant des différences caryotypiques sont visibles, notamment localisées aux extrémités des chromosomes. Quelques études désignent les extrémités chromosomiques comme des sites privilégiés de l’évolution des génomes. Ainsi la possibilité que des réarrangements chromosomiques subtélomériques aient pu altérer la régulation d’un ou plusieurs gènes ayant un impact significatif sur l’évolution de nos espèces, mérite d’être étudiée. Dans cet objectif et afin de développer des outils efficaces pour étudier notre évolution récente, les domaines subtélomériques des chromosomes humains doivent être parfaitement caractérisés. Chez l’homme et tous les eucaryotes étudiés à ce jour, on observe immédiatement adjacent au télomère un domaine subtélomérique non spécifique d’un chromosome. La taille de la zone comprise entre le télomère (T2AG3)n et le domaine propre à un chromosomevarie selon les chromosomes. Ceci résulte d' un degré élevé de polymorphisme de présenceabsence de séquences adjacentes au télomère. Le séquençage de quelques extrémités chromosomiques a récemment permis de définir un domaine sous-télomérique distal encadré par le télomère proprement dit et par quelques centaines de nucléotides d’une séquence de type télomérique TTAGGG dégénérée immédiatement suivie par le domaine sous-télomérique proximal (figure 1). Figure 1 : Modèle d’organisation des domaines sous-télomériques La séquence TTAGGG dégénérée semble constituer une frontière entre ces deux domaines. Du côté distal on trouve des homologies multiples et courtes avec d’autres régions 2 télomériques ainsi que de nombreuses similitudes avec des portions de séquences ESTs. Du côté proximal on observe des segments d’homologie de plus grand taille avec quelques chromosomes seulement. Des travaux récents (8, 14) combinant l’utilisation des analyses de ségrégation dans de grandes familles, la marche sur le chromosome, et des études en hybridation in situ, ont exploré la dissémination dans le domaine subtélomérique proximal de la région « OR » et du locus DNF92. Cinq régions ont été identifiées, quatre numérotées de 1 à 4 plus la région « OR » contenant des séquences homologues aux gènes de la famille des récepteurs olfactifs. La région 1 contient le minisatellite DNF92 et la région 2 se subdivise en région 2 distale et 2 proximale. Un modèle du déroulement de la phylogénie de ces régions a été proposé, dont l’aspect majeur est l’élimination de la région « OR » au cours de la propagation de DNF92. La validation de tout ou partie de ce modèle nécessite une exploration plus approfondie des événements ancestraux ayant conduit à l’organisation actuelle du domaine sous-télomérique proximal. Dans les deux cas, OR comme DNF92, une seule localisation est identifiée chez le chimpanzé, le gorille et l’orang-outan. Cependant dans le cas de OR, cette localisation n’est orthologue d’aucun des sites présents chez l’homme. Les auteurs favorisent l’hypothèse selon laquelle la région, multicopie chez un ancêtre commun aux primates supérieurs, aurait été ensuite perdue en un ou plusieurs sites indépendamment chez les différents primates. La comparaison de séquences issues des différents sites devrait permettre de trancher entre les deux hypothèses, propagation ou perte, et de dater les étapes successives de dissémination chez l’homme. La distribution des séquences, étudiée dans différentes populations humaines, et chez les primates supérieurs, montre un degré élevé de polymorphisme. La majorité des locus disséminés se trouve à des extrémités télomériques. La situation est plus claire pour DNF92 car, dans ce cas, le site unique détecté chez les primates, en 17qter, est orthologue à l’un des sites détectés chez l’homme. L’analyse moléculaire de ce site et de la jonction de translocation avec les autres sites conforte l’hypothèse selon laquelle ce site serait le locus ancestral. Depuis ce site, la région s’est propagée à au moins dix autres extrémités chromosomiques. Quatre de ces extrémités sont des sites majeurs, les autres sont plus rarement occupées. Cette propagation est très récente, comme le montre la similitude de séquence entre les sites majeurs (99% d’identité sur un fragment de 2 kilobases) (15). Les données moléculaires sont encore insuffisantes pour fournir le scénario complet et détaillé de la propagation de DNF92. Cependant, les travaux effectués ont permis d’identifier trois jonctions correspondant à différentes étapes de propagation de DNF92 au cours de l’évolution récente. Ces trois jonctions définissent quatre régions dans le domaine sous-télomérique proximal. Ainsi, la jonction 17q/1p,5q,6q définie la frontière entre la région 1 et la région 2. La région 1 s’étend du télomère à la jonction 17q. La jonction 6q/1p,5q est utilisée dans (15) pour définir à la fois la frontière région 2/région 3 et le début d’une petite région, appelée région 4. La région 2 s’étendrait de la jonction 17q à la jonction 6q. La région 3 quant à elle, s’étendrait de la jonction 6q à la jonction 5q/1p marquant la fin de celle-ci. Cependant, la situation est moins claire qu’il n’y paraît et demande à être clarifiée. D’autre part, les études de FISH (figure 2) semblent montrer l’existence d’une séparation au niveau de la région 2. Ainsi, on aurait deux sous-région ancestrales, la région 2 distale et la région 2 proximale, qui auraient fusionné au cours de la propagation de DNF92 pour donner la région 2. Les chromosomes portant la région 2 proximale et la région OR ne montrent aucun signal (en FISH) pour les régions 1 et 2 distale. La propagation de DNF92 aurait, par translocation, mis en continuité les régions 1 et 2 distale avec la région 2 proximale avec perte de la région OR. 3 Figure 2: Organisation du domaine sous-télomérique proximal (selon Monfouilloux, 1998) Vers 0kb télomère 25kb région 1 50kb 75kb 100kb 125kb 150kb 175kb jonction 17q/1p,5q,6q région 2 jonction 6q/1p,5q région 3 jonction 5q/1p région 4 En analysant par FISH la répartition de ces quatre régions sur l’ensemble des chromosomes humains et de chimpanzé, un déroulement de la dissémination de la région 1 (portant DNF92) au cours de l’évolution récente des extrémités de chromosomes avait pu être proposé (15). Dans ce modèle, la région 1 ancestrale aurait été transloquée de 17qter en 7pter pour se trouver accolée à la région 2 distale. Puis ce fragment région 1/région 2 distale aurait été transloqué de 7pter en 15qter pour se trouver en continuité avec le fragment 2 proximal. Ce fragment région 1/ région 2 complète se serait transloqué en 19pter pour prendre la région 4 puis de là en 6qter où il serait resté sous forme région1/région2/région4. Enfin, le fragment région1/région2 de 6qter aurait été transloqué en 5qter en continuité avec la région3. De 5qter, cet ensemble se serait transporté en 1pter. Cette séquence d’événements est restée très hypothétique et demande à être confirmée par des données moléculaires plus précises . Le présent travail vise donc à éclaircir et préciser la séquence des événements phylogéniques ayant conduit à l'organisation actuelle du domaine sous-télomérique proximal chez l'homme en tirant partie des données issues du séquençage du génome. Ceci passera par la réalisation d'une carte physique où seront précisément positionnées les différentes régions citées plus haut ainsi que leurs frontières. Cette carte sera construite par identification et positionnement de clones (PAC, cosmides) porteurs de jonctions entre fragments de régions 1, 2, 3 ou 4 et régions chromosomes spécifiques. Dans un second temps, les fragments de clones porteurs d'information phylogénétique seront soumis à un logiciels de phylogénie moléculaire permettant de les ordonner par ordre d'ancestralité dans le temps. Matériel et méthode FISH : Les expériences de FISH ont été réalisées au Centre d’Etude du Polymorphisme Humain (CEPH) par le docteur Arturo Londono et son équipe. Elles ont portées sur 16 individus, et les cosmides utilisés ont été choisis en fonction du travail précédemment réalisé par Sylvaine Montfouilloux (8). Ces cosmides sont : Icrfc112F151 (portant le mini-satellite DNF92) réprésentant la région 1 sur la carte physique, L78442 ( aussi appelé f7501, portant la région OR) représentant la région OR, les cosmides 5D1 et 6A2 représentant la région 2a, 4 6B5 représentant la région 2b, Icrf49 représentant la région 2c, et 5C4 représentant la région 3. Recherches d'homologie de séquence ADN : L’identification de nouveaux clones d’intérêt se fait par recherche des homologies de séquences des clones déjà ancrés sur la carte physique par le serveur BLAST avec la base de donnée de séquence ADN du site NCBI (http://www.ncbi.nlm.nih.gov ) Les homologies de séquence entre les différents clones ancrés sur la carte sont étudiées en soumettant deux à deux les clones au logiciel pipmaker du site : http://nog.cse.psu.edu/pipmaker/. Choix de primers : Des primers encadrant une zone supposée unique dans le génome dans la région chromosome spécifique des clones sont choisis par le logiciel Primer3 du site: http://www.genome.wi.mit.edu/cgi-bin/primer/primer3_www.cgi. Amplification par PCR : Les réactions de PCR sont effectuées sur le panel d’hybrides d’irradiation Genebridge 4, sur machine PTC-200 Peltier Thermal Cycler de MJ Research ou GeneAmp PCR System 9600 de PERKIN ELMER. PCR: 92°C-2 min ; 92°C-15 s ; 68°C-60 s ; 35 cycles 68°C-10 min Tampon : 2.25 mM MgCl2, 500 Mm Tris-HCl pH9,2 , 160 Mm (NH4)2SO4, 1% Tween20. Les produits d’amplification ont été séparés sur gel d’agarose 1% et visualisés sous lumière UV après coloration au bromure d’éthidium. L’analyse des résultats a été faite conformément aux instructions disponibles sur le site : http://www.hgmp.mrc.ac.uk/Registered/Webapp/rhyme/ Phylogénie : Le logiciel d’alignement multiple CLUSTALW a été utilisé pour les alignements de séquence (serveur lovelace d'infobiogen, menu bisance choix 11-2). Les analyses phylogénétiques ont été réalisées en utilisant l’algorithme de parcimonie du logiciel de phylogénie PHYLIP (5) (serveur lovelace infobiogen, menu bisance choix 122). La robustesse des arbres a été testée par la technique de bootstrap sur 1000 répétitions (serveur lovelace infobiogen, menu bisance choix 12-10). Les résultats fournis ont pu être visualisés grâce au logiciel Treeview disponible sur le site : http://taxonomy.zoology.gla.ac.uk/rod/rod.html . Résultats 1.1. Carte physique : Les analyses de séquences effectuées ont permis d’établir une carte physique théorique (figure 3) montrant l’organisation des différentes régions du domaine sous-télomérique proximal. Sur cette carte, on a pu préciser les frontières entre région 1 et région 2, entre région 5 2a, 2b et 2c ainsi que la limite entre la régions 2c et les régions 3 et 4. La construction de la carte a été initiée par le cosmide Y13543 (nommé icrfc112F151 dans le travail de S. Monfouilloux) dont on savait qu’il contenait la région 1 (Monfouilloux, 1998). L'analyse de la séquence de ce cosmide a révélé qu'il contenait un motif (TTAGGG)n dégénéré pouvant correspondre à la frontière entre les domaines sous-télomérique distal et proximal. Ainsi, le cosmide icrfc112F151 représente le début de la carte physique virtuelle, par commodité nous utiliserons comme position de référence ce motif dégénéré. La position 1 est le premier nucléotide extérieur à cette séquence du côté proximal. Par la suite, l'utilisation des logiciels de recherche d'homologie de séquence BLAST et Pipmaker a permis d'ancrer en cascade sur cette carte les clones (PAC : P1 derived artificial chromosome, ou cosmides) porteurs de zones d'homologies avec les différentes régions du domaine sous-télomérique proximal. Par cette méthode, 9 PACs et cosmides de référence ont été ancré sur la carte : ICRFc112F151, AC004908, AC005627, F7501, AC005605, AC004842, AF109718, AC006328, AL031259. Ces 9 séquences couvrent l’ensemble du domaine sous-télomérique proximal et nous ont permis de comprendre l’organisation des différentes régions composant ce domaine. Par la suite, tout les PACs et cosmides présentant une homologie de séquence avec l’un de ces 9 PACs et cosmides de référence ont été analysés par le logiciel de comparaison de séquence Pipmaker, permettant ainsi de mettre en évidence et de positionner les différentes frontières (ou zones de jonction) sur la carte physique. Figure 3 : Carte physique du domaine sous-télomérique proximal Localisation de la frontière région1/région2: le mini-satellite CEB102 marque la frontière entre région1 et région2 (Monfouilloux 1998). Afin de localiser précisément l'emplacement de cette frontière, un "blast 2 sequences" a été effectué entre la séquence du minisatellite et celle de Y13543. En position 1749 de ce cosmide on observe une rupture d'homologie conduisant à un motif incomplet du minisatellite. C'est probablement à cet endroit qu'a eu lieu la translocation ancestrale qui a permis l'accolement entre région 1 et région 2. De plus, le "blast 2 séquences" entre la séquence du mini-satellite et le PAC 6 AC005627 révèle la présence de la partie proximale de mini-satellite sur ce PAC, qui contient donc la région 2a dans sa totalité comme cela a pu être confirmé par la comparaison des séquences de AC004908 avec AC005627 (figure 4). Ainsi, ceci a permis de positionner précisément la frontière entre région 1 et 2a en 30015 sur la carte physique. Figure 4 : Comparaison des séquences de AC004908 et AC005627 Frontière région 2a/2b : le PAC AC004908 devient homologue à AC005605 en sa position 9159, qui correspond à la position 21583 de AC005605. De plus, AC005605 est homologue de sa position 0 à 15212 au cosmide f7501 (Trask et al., 1998) portant la région OR. La comparaison par Pipmaker de la séquence du PAC de référence AC004908 avec les séquences des PACs AC005627 et AC005605 a permis de repérer plus précisément l’emplacement de cette frontière. En effet, sur AC004908 la frontière se situe en 9105 (soit en 64146 de la carte physique) et elle interrompt deux types de séquences répétées (figure 5). Figure 5 : Localisation de la frontière entre les régions 2a et 2b D’une part, une séquence LINE L3/CR1 positionnée en 8815-9080 de la séquence de AC004908, d’autre part une séquence Tigger5/MER2 type1 en 9160-9616. On retrouve chacune de ces deux séquences répétées intactes sur deux PACs représentant deux configurations ancestrales à AC004908, AC005627 qui contient les régions 2a-2c et AC005605 qui contient les régions OR-2b. Ainsi une translocation a produit l’accolement de 2a et 2b, visible en 9105 de AC004908. Ainsi le PAC AC004908 confirme l'hypothèse (Monfouilloux 1998) de l’existence de plusieurs régions 2, 2a et 2b dans le cas présent, définies par la translocation entre d’une part la région OR et d’autre part les régions 1+2a. Frontière région 2b/2c : la jonction entre les régions 2b et 2c se situe entre 58658 et 58661 de AC004908 soit en 113698-113701 de la carte physique. Dans ce PAC elle associe un fragment de séquence répétée de type LTR64 présent en 58498-58658 et un fragment de 7 séquence LINE/L1 présent en 58661-59022. Cette séquence serait donc l’un des deux produits issu d’une recombinaison illégitime entre d’une part une séquence présente sur AC005627 et d’autre part une seconde séquence présente sur AC055861 (figure 6). Figure 6 : Localisation de la frontière entre les régions 2b et 2c Frontière région 2c/ région 3-4 : la localisation de cette frontière s’est avérée complexe car plusieurs jonctions de réarrangements se sont produites une courte distance. Une première frontière a été identifiée initialement en prenant la séquence correspondant à la fin d’homologie parfaite entre les séquences 6qter et 5qter (Monfouilloux, 1998), puis en la soumettant en "blast 2 séquences" à la séquence du PAC AC004908. Ceci a permis de mettre en évidence une frontière en 70595 de AC004908. La comparaison deux à deux des séquences des clones AC004908, AC004842, AL031259, AC006328 et HSCOS10 (figures 7, 8, 9) a permis de mettre en évidence une nouvelle frontière de fin de région 2c et de comprendre l’organisation des régions 3 et 4. 8 Figure 7 : Comparaison des séquences de AC004908 et AC006328 Figure 8 : Comparaison de la séquence de AC004908 avec AL031259 et HSCOS10 Figure 9 : Comparaison de la séquence de AC004908 avec AC004842 et HSCOS10 La comparaison des séquences de HSCOS10 et AC006328 (figure 10) montre que la fin d’homologie entre les deux clones est marquée par la présence d’une séquence minisatellite. 9 Figure 10 : Comparaison des séquences de HSCOS10 et AC006328 Celui-ci se présente sous une forme classique sur HSCOS10 (nombre entier de motifs) tandis qu’il est tronqué au milieu d’un motif et donc beaucoup plus court sur AC006328 (figure 11). ctcccagcaaacaagctcttttggctcagctctgccggcctttgtagaccccgaagtttctgcaaccaagctcttcaggcccacatcccacctcccagaggc ttgaacagtcccagctccggctggagaagagcgtctgcaggccccactgttgcctcccaggggcgtctccaggcccagctctcaccccactgtggcctccc aggcccaagtccctgcctgcctcccagcagcccgcatgtgaccctgctcctccctcacggt ggcctgttgaggaaggggctcacactgacctctctcagtgtgggagg ggccggtgtgaggcaagggctcacgctgacctctctcagtgtgggagg ggcctgttgaggcagggggtcacgctgacctctgtccgcgtgggagg ggccggtgtgaggcaagggctcacactgacctctctcagcgtgggagg ggccggtgtgaggcaaggggctcccgctgacctctgtcagcgtgggagg ggccggtgtgaggcaaggggctcccgctgacctctgtcagtgtgggagg ggccggtgtgaggcaaggg-ctcacgctgacctctgtccgcgtgggagg ggccggggtgaggcaaggggctcacgctgacctctgtccgcgtgggagg ggccgatgtgaggcaaggggctcccactgacctctgtc Fin de mini-satellite en AC006328, motif tronqué en 61081 Ggccggtgtgaggcaagggctcacactgacctctctcagcgtgggagg…43 motifs complets, fin en 13124 de HSCOS10 En vert : séquence flanquante commune sur AC006328 et HSCOS10. Cette séquence s'étend de 60587 à 60851 sur AC006328, le mini-satellite commençant en 60852. Elle s'étend de 10775 à 11053 sur HSCOS10, le mini-satellite commençant en 11054.En bleu : séquence du mini-satellite sur AC006328En noir : séquence du mini-satellite sur HSCOS10 Figure 11 : Comparaison de la séquence du mini-satellite entre AC006328 et HSCOS10 Ceci indique que la configuration en AC006328 est dérivée d’un réarrangement ayant tronqué une séquence origine telle qu’on l’observe sur HSCOS10. Ainsi, HSCOS10 serait constitué de région 2c jusqu’en 13124 de sa séquence, et serait région 3 à partir de cette frontière jusqu’à la fin de sa séquence comme le montre la comparaison de la séquence de ce cosmide avec celle de AC005627 (figure 12). 10 Figure 12 : Comparaison des séquences de HSCOS10 et AC005627 AC006328 ne contient pas de région 3. AC004908 contiendrait une région 2c tronquée en 77427 de sa séquence et serait constitué d’une région 4 ancestrale après cette frontière. En effet, la comparaison de AC004908 avec AL031259, montre que ce dernier contient une région 2c tronquée découlant d’un réarrangement de la région 4 de AC004908 (figure 13). Ceci indique l’ancestralité de la configuration de AC004908 sur celle de AL031259, cette information phylogénique complètera celle obtenue dans l’étude phylogénétique qui va suivre. Figure 13 : Phylogénie de la région 4 En résumé, la région 2c est tronquée en 125636 de la carte physique. Ce point marque le début de la région 4 telle qu’elle est observée sur AL031259. Une deuxième rupture de la région 2c est observée en 77427 de AC004908 ce qui correspond à une position de 132468 sur la carte physique. Cette frontière marque le début de la région 4 ancestrale observée sur AC004908. Enfin, la fin de région 2c, marquant le début de la région 3, se situe en 13124 de HSCOS10 soit en 141320 de la carte physique. 11 Région 5 : La comparaison des séquences des PACs AC004908 et AC005627 (figure 4) révèle l’absence totale de région 2b sur AC005627, remplacée par une petite région de 5 kilobases sans aucune homologie avec l’une ou l’autre des régions déjà décrites. Cette région que l’on retrouve sur AC006328 a été nommée région 5. 1.2. Détermination de l’origine chromosomique des clones ancrés sur la carte physique : La détermination de l’origine chromosomique des clones s’est avérée nécessaire afin de pouvoir donner un sens à l’étude phylogénétique, un des objectifs de ce travail étant d’ordonner par ordre d’ancestralité les différentes configurations en régions 1/OR-2a-2b-2c-34 les unes par rapport aux autres. Ainsi, l’origine chromosomique des clones a permis, de comparer les configurations (en régions 1/OR-2a-2b-2c-3) issues des données de séquences avec celles identifiées par FISH, et d’attribuer la configuration la plus probable (grâce aux données de FISH) aux PACs dont l’étude de séquence n’était pas possible pour des raisons de temps et de séquence incomplète. L’étude phylogénétique apporte d’autant plus d’informations que le nombre de séquences étudiées est important. La partie de la carte physique la plus riche en clones ancrés concerne les régions 2b,2c et 3. C’est donc pour les clones ancrés dans cette zone de a carte que l’on a cherché à déterminer l’origine chromosomique en priorité. Deux méthodes nous ont permis d’accéder à ces informations. D’une part, la soumission du numéro d’accession du clone au site NCBI : www.ncbi.nlm.nih.gov/genome/clone a permis de savoir si le clone faisait partie d’un contig, et si oui à quel chromosome appartenait ce contig. De plus ce site permet d’avoir accès à la fiche signalétique du clone où les auteurs dès que cela s’avère possible signalent l’origine chromosomique de leur clone. La deuxième méthode consiste à choisir des amorces dans la zone supposée chromosome spécifique de chaque clone (la spécificité de chaque amorce est vérifiée par un Blast htgs et un Blast nr), puis à l’aide de ces amorces d’effectuer une PCR sur le panel d’hybrides d’irradiation Genebridge4. Après migration sur gel des produits d’amplification, les résultats sont codés en suite de chiffre (1 : présence ; 2 : incertain ; 0 : absence) et soumis au site http://www.hgmp.mrc.ac.uk/Registered/Webapp/rhyme/ fournissant après interprétation l’origine chromosomique la plus probable. Les résultats sont résumés tableau 1. Pour certains clones, les résultats Genebridge4 entrent en contradiction avec les données issues du site ncbi. Ainsi, le typage Genebridge4 assigne AC004908 au chromosome 8 alors que l’auteur du contig, Washington University Genome Sequencing Center (WUGCS), le situe sur le chromosome 7. Un des objectifs de ce centre étant le séquençage complet du chromosome 7, il n’est pas improbable que certains PACs multilocus aient été assignés au chromosome 7 par erreur. En ce qui concerne le PAC AC009954, sa séquence s’est révélée contenir entièrement celle du PAC AL031259. Il s’avère donc que AC009954 peut être assigné en chromosome 6qter. De même, les deux PACs AC006328 et AC012005 ont une grande partie de leur séquence en commun et ont été tout deux assignés chromosome Y par le WUGCS. Ainsi, l’origine chromosomique de ces deux clones était suffisamment fiable pour ne pas nécessiter de typage Genebridge4. Enfin, le cosmide HSCOS10 s’est révélé être d’une origine chromosome 3 fiable tel que cela a été attesté par son auteur (Trask et al., 1998, soumission directe). Outre les exceptions citées ci-dessus, il faut noter que certains clones utilisés dans l’étude phylogénétique qui va suivre n’ont pas été typés sur le panel Genebridge4. Etant donné l’évolution rapide des données de séquence mises à disposition sur internet, il n’a pas 12 été possible pour des raisons de temps de procéder à ces typages. Ainsi, il est important de souligner qu’en l’état actuel de ce travail et des données de séquences disponibles à ce jour, les clones n’ayant pas été typés avec succès par le panel d’hybrides d’irradiation Genbridge4 présentent une origine chromosomique pouvant être erronée. Tableau 1 : Origine chromosomique des clones N° accession Données NCBI Statut Typage Genbridge4 AC004908 contig NT_002802 chr.7 séquence complète chr.8p AC006328 contig NT_002715 chr.Y séquence complète non fait (HSCOS10) chr.3 séquence complète non fait AL031259 contig NT_000312 chr.6 séquence complète chr.6q en contig avec contig NT_002179 chr.6 séquence complète chr.6p AF109718 AL035696 AC004842 AC012005 contig NT_003572 chr.Y séquence complète non fait AC005627 contig NT_003393 chr.7 séquence complète non fait AL161615 chr.13 séquence incomplète non fait AC009954 chr.6q séquence incomplète non fait AC010509 chr.19 séquence incomplète non fait 1.3. Résultats des expériences de FISH : Toutes les données de FISH, résumées figure 14, ont été produites par l’équipe de Arturo Londono. Ces données ont été très utiles dans la réalisation de la carte physique. En effet, en les comparant avec les données de séquences on a pu mieux cerner la localisation des différentes régions de la carte physique. La comparaison des séquences des clones deux à deux (résultats non montrés), a permis d’apprécier leur contenu respectif en région 1, 2a, 2b, 2c ou 3/4 . Ces conclusions ont pu être corroborées avec les données de FISH. 13 Figure 14 : Résultats de l'hybridation in situ de 6 cosmides représentatifs sur 16 individus Ainsi, AC004908 contient d’après l’étude de sa séquence une partie de région 2a, la région 2b, la région 2c tronquée en 77427 et une région 4 ancestrale. Ceci peut être cohérent avec une localisation en 8pter comme on le voit sur la figure 14, et serait en accord avec le résultat du typage Genebridge4 (tableau 1). AC004842 contient un grand fragment de région 2b, la région 2c dans son entier, un petit fragment de région 3 de 3.5 kilobases accolé à plusieurs fragments de la région 4 ancestrale de AC004908. Ces données reste insuffisantes pour être comparées aux résultats de FISH, cependant ces données de FISH n’infirment pas le fait que AC004842 soit d’origine 6p. AC006328 est constitué de région 2a et de la région 2c tronquée à sa deuxième frontière (77427 sur AC004908). Ceci peut être cohérent avec les observations faites en FISH en Yq11. AL031259 contient quand à lui un grand fragment de région 2b, la région 2c tronquée (en 125636 de la carte physique) ainsi que la région 4 remaniée à partir de la région 4 présente sur AC004908. Les données de FISH n’infirment pas le fait qu’une telle configuration puisse être portée en 6q comme l’ont montré les données sur l’origine chromosomique des clones (tableau 1). En ce qui concerne AC005627, il contient la région 2a, un grand fragment de région 2c et de la région 3. En accord avec les données de FISH, ceci peut être cohérent avec une localisation en 7p. Enfin, ces données de FISH ont permis de tester la cohérence des différentes hypothèses concernant la phylogénie du domaine sous-télomérique proximal qui ont été formulées à partir de l’étude phylogénétique ci-dessous. 14 1.4. Informations phylogéniques fournies par les comparaisons de séquences : Comme cela a déjà été décrit dans le paragraphe sur la carte physique, il s’avère que la configuration portée par le PAC AC055861 dit chromosome 15 et celle portée par AC005627 dit chromosome 7 seraient ancestrales à celle de AC004908 d’origine 8pter (figure 6). Dans le paragraphe sur la frontière région 2c/région 3-4 il semble que la situation observée en 8p (AC004908) est ancestrale à celle décrite en 6q (AL031259) (figure 13). On peut donc déduire des ces comparaisons de séquences deux séquences phylogéniques avec par ordre décroissant d’ancestralité : Chromosome 15, chromosome 7 à chromosome 8p chromosome 8p à chromosome 6q Il faut cependant faire attention à l’interprétation des deux séquences phylogéniques ci-dessus. En effet, ce n’est pas parce que les extrémités des chromosomes 15 et 7 portent des configurations ancestrales qu’ils sont forcément les protagonistes de la translocation à l’origine de l’accolement des régions 2b et 2c. Ces deux configurations ancestrales pouvaient fort bien être multilocus, et il est tout à fait possible que deux autres extrémités chromosomiques, disparues aujourd’hui, aient été impliquées dans cette translocation. Pour autant, les deux configurations portées aujourd’hui par les chromosomes 15 et 7 dans les banques de séquences permettent d’affirmer que les configurations OR-2b et 2a-5-2c-3 sont ancestrales à la configuration 1-2a-2b-2c-4 présente sur l’extrémité 8p. Ainsi, si l’utilisation des extrémités chromosomiques dans les séquences phylogéniques est abusive, l’emploi des configurations (régions OR/1-2a…) correspondantes reflète parfaitement la réalité. Pour l'étude phylogénétique présente nous avons utilisé une méthode d’analyse cladistique. L’application d’une telle méthode nécessite le refus des hypothèses ad hoc, ou, tout au moins, leur minimisation, c’est-à-dire l’application du principe de parcimonie. Une hypothèse ad hoc suppose que la transformation de caractère partagée par deux ou plusieurs taxons (ici deux ou plusieurs séquences soumises à l’analyse) n’est pas due à une ascendance commune. L’hypothèse de base admise par l’analyse cladistique est que le même caractère dérivé observé chez deux taxons ou plus est dû à l’héritage à partir d’une espèce ancestrale (ou séquence ancestrale dans le cas présent). La méthode de parcimonie de Wagner modifiée par Fitch (1971) permet l’étude de séquences protéiques ou nucléotidiques. C’est cette méthode disponible sur le serveur lovelace d’infobiogen qui a été utilisée. Pour le choix des séquences étudiées, l’attention s’est portée sur les régions 2b et 2c de la carte, cette zone étant la plus riche en clones ancrés. Trois zones d’environ 10 kilobases ont été sélectionnées sur AC004908 puis comparées en "Blast 2 séquences" aux séquences des différents clones ancrés dans la même zone de la carte. Pour l’étude phylogénétique les séquences les plus grandes et communes au plus grand nombre de clones ont été retenues (tableau 2). Les fragments de séquences ont ensuite été alignés par le logiciel ClustalW. Les alignements de séquences ont été analysés puis « nettoyés » de tous les événements non phylogéniques pouvant introduire un biais dans l’étude de parcimonie. Ainsi tout les doublets CG donnant sur l’une ou l’autre des séquences alignées un doublet TG ou CA ont été éliminés, car ce doublet CG, un point chaud de mutation, représente donc un événement de faible valeur phylogénétique. De même, tout événement d’insertion ou de délétion impliquant 15 plus d’une base doit être analysé attentivement. En effet, le logiciel de parcimonie interprète chaque base insérée ou délétée comme un événement phylogénique. Pour éviter tout biais dans l’analyse phylogénétique, toute insertion ou délétion impliquant plusieurs bases doit être ramenée à une base c’est-à-dire à un seul événement phylogénique. Un exemple de ces manipulations de séquences est donné figure 15. Figure 15 : Exemple illustrant la préparation des fichiers d’alignements avant leur soumission à l’algorithme de parcimonie. AC4908 AC4842 31259 133216 AC4916 AC6328 -ATATCATTTCCAAATTCCCCAGCGTTCATATTTGTCAGTGCAAGTAAAGAGCCTTACTG TATATCATTTCCAAATTCCCCAGCGTTCATATTTGTCAGTGCAAGTAAAGAGCCTTACTG --TATCATTTCCAAATTCCCCAGCGTTCATATTTGTCAGTGCAAGTAAAGAGCCTTAGTG -ATATCATTTCCAAATTCCCCAGCATTCATATTTGTCAGTGCAAGTAAAGAGCCTTAGTG -ATATCATTTCCAAATTCCCCAGCATTCATATTTGTCAGTGCAAGTAAAGAGCCTTAGTG ----------------------------------------GCAAGTAAAGAGCCTTAGTG ***************** ** AC4908 AC4842 31259 133216 AC4916 AC6328 CTGATGAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA CTGATGAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA CTGATGAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA CTGATTAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA CTGATTAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA CTGATTAGGTTTGAGGTATGACCATTTGGCCAGAATTTATGAACTCTACATGTCGCTTGA ***** ****************************************************** AC4908 AC4842 31259 133216 AC4916 AC6328 TGTGTGCTTCAGGGTACACTTTTTTTTTTTTTTTT-----------GAGACGGAGTCTTG TGTGTGCTTCAGGGTACACTTTTTTTTTTTTTTT------------GAGACGGAGTCTTG TGTGTGCTTCAGGGTACACTTTTTTTTTTTTTTTTTT---------GAGACGGAGTCTTG TGTGTGCTTCAGGGTACACATTTTTTTTTTTTTTTTT---------GAGACGGAGTCTTG TGTGTGCTTCAGGGTACACTTTTTTTTTTTTTTT------------GAGACGGAGTCTTG TATGTGCTTCAGGGTACACTTTTTTTTTTTTTTTTTTTTTTTTTTTGAGACGGAGTCTTG * ***************** ************** ************** AC4908 AC4842 31259 133216 AC4916 AC6328 CTCTGTCGCCCAGGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGCAAGCTCCGTCTCC… CTCTGTCGCCCAGGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGCAAGCTCCGTCTCC… CTCTGTCGCCCAGGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGCAAGCTCCGTCTCC… CTCTGTCGCCGAGGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGCAAGCTCCGTCTCC… CTCTGTCGCCCAAGCTGGAGTGCAGCGGTGCGATCTCAGCTCACCGTAAGCTCCGTCTCC… TTCTGTCACCCAGGCTGGAGTGCAGCAGTGTGATCTCAGCTCACCGCAAGCTCCGTCTCC… ****** ** * ************* *** *************** *************… CGCCTTAT : séquence éliminée Le fichier d’alignement a ensuite été soumis au logiciel Seqboot, dont le résultat a subi l’analyse parcimonieuse. Les séquences étudiées sont présentées dans le tableau 2 et l’arbre issu de l’alignement dans la figure 16. Tableau 2 : Séquences soumises à l'étude phylogénétique Clones AC004908 AC004842 AL031259 AC009954 AC010509 AL161615 Fragments de séquences étudiés Début Fin 54911 59011 80471 84556 20521 24614 157641 161739 37271 41351 5931 10027 L’arbre présenté sur la figure 16 n’a pu être enraciné faute de séquence pouvant servir de groupe extérieur. Cependant, les séquences phylogéniques fournies par les comparaisons de séquences permettent d’attribuer un sens de lecture à cet arbre et donc d’en déduire une séquence phylogénique : 8p,19 à 6p à 13 à 6q. On constate sur cet arbre que les deux séquences 6q sont liées à un même nœud de l’arbre. Ces deux séquences servent donc de 16 contrôle interne permettant de corroborer la justesse de l’analyse parcimonieuse. Sur l’arbre, les séquences 8p et 19 sont reliées à un même nœud. Cela signifie que le logiciel de parcimonie n’a pas pu classer ces deux séquences par ancestralité. Ceci s’explique par le fait que les séquences étudiées ici sont très peu divergées et comportent donc peu d’informations phylogénétiques, ce qui explique la difficulté de l’analyse phylogénétique. Figure 16 : Arbre phylogénique issu de l'étude parcimonieuse des fragments de séquences de 6 PACsA chaque extrémité de branche a été indiqué le PAC dont est originaire la séquence étudiée en parcimonie, l'extrémité chromosomique dont est originaire le PAC et la configuration la plus probable portée par cette extrémité au regard des données de séquences et de FISH. A noter, la localisation chr13 est douteuse (ce n'est pas une localisation identifiée figure 14). Discussion Les différentes séquences phylogéniques décrites précédemment sont résumées figure 17. Chacune de ces séquences a été confrontée aux données de FISH. Pour chaque extrémité chromosomique la correspondance en région OR,1/2a/2b/2c/3-4 la plus probable a été représentée. Comme cela a été expliqué dans la partie sur les informations phylogéniques fournies par les comparaisons de séquences, l’utilisation des numéros de chromosomes est abusive. Cependant, pour faciliter la compréhension, ceux-ci sont présentés à titre indicatif dans les modèles de phylogénie décrits ci-dessous. 17 Figure 17 : Correspondance des configurations chromosomiques de chaque séquence phylogénique en régions 1-OR/2a/2b/2c/3 Deux modèles de phylogénie du domaine sous-télomérique proximal ont été réalisés, l’un à partir des séquences phylogéniques issues de l’étude phylogénétique (figure 18), l’autre à partir des données de FISH (figure 19). Ces deux modèles ont été confrontés aux séquences phylogéniques 1 et 2 afin que ces dernières puissent s’intégrer de manière logique à la phylogénie du domaine sous-télomérique proximal. Figure 18 : Modèle de phylogénie du domaine sous-télomérique proximal issu des données phylogénétiques et des données de séquences Le modèle issu des données phylogénétiques (figure 18) se heurte à plusieurs problèmes lorsqu’il est confronté aux données de séquences. En effet, d’après la séquence phylogénique 3 (figure 16), les configurations des extrémités chromosomiques 13 et 6p 18 découlent de la configuration 8p. Toutes les configurations des extrémités 13p identifiées en FISH contiennent de la région 3, or la configuration 8p portée par AC004908 n’en contient pas. Il est donc impossible d’expliquer comment dans la phylogénie la configuration portée par l’extrémité 13p pourraient se trouver postérieure à la configuration présente en 8p. Une explication à ce phénomène pourrait être que le PAC AL161615 noté d’origine chromosome 13 a une origine erronée. Une autre explication est que les données issues de l’étude phylogénétique ne sont pas aussi robustes qu’on pouvait le penser à l’origine. En effet, l’étude phylogénétique s’est faite sur des fragments de séquences très proches les uns par rapport aux autres et donc très pauvres en informations phylogénétiques et sensible aux erreurs de séquençage. Il est donc possible que le logiciel de parcimonie ne puisse être aussi discriminant qu’il l’est avec des séquences très divergées. De même, en ce qui concerne la configuration 6p portée en AC004842, les données de séquence indiquent qu’elle contient un fragment de 3.5 kilobases de région 3. Il semble donc impossible qu’elle dérive de la configuration portée sur AC004908. Ce modèle reste cependant plausible quand à l’ancestralité de la configuration 8p sur la configuration 6q. Le deuxième modèle, issu des données de FISH (figure 19), semble plus cohérent car il permet d’intégrer de manière harmonieuse les données de séquences. Ainsi dans ce modèle, une configuration contenant de la région 3 serait ancestrale à la configuration portée en 6p contenant ce petit fragment de région 3 et à la configuration présente sur 8p elle même ancestrale à la configuration 6q. Figure 19 : Modèle de la phylogénie du domaine sous-télomérique proximal issu des données de FISH Un troisième modèle (figure 20) a été proposé, en intégrant harmonieusement au modèle issu des données de FISH les informations phylogéniques issues des comparaisons de séquences. Il permet notamment de placer de façon cohérente la configuration portée par l’extrémité 6p. 19 Figure 20 : Modèle de phylogénie du domaine sous-télomérique proximal intégrant les données de FISH et les informations phylogéniques issues des données de séquences 20 Cependant, ce modèle reste fragmentaire en ce sens qu’il n’intègre pas toutes les configurations identifiées en FISH, et il reste critiquable car seules certaines étapes ont pu être corroborées par les données de séquences. Cependant, il pose une base de travail pour les futures études de la phylogénie du domaine sous-télomérique proximal. Les banques de données de séquences vont continuer à s’enrichir dans les mois à venir et fourniront de nouveaux clones susceptibles de s’ancrer sur la carte et qui seront porteurs de nouvelles informations phylogénétiques, voire de nouvelles jonctions précisant l’organisation du domaine sous-télomérique proximal telle qu’elle est décrite dans ce travail. Un autre point important est qu’avec l’achèvement du séquençage du génome humain, la plupart des clones disponibles dans les banques de séquence auront une assignation chromosomique sûre. Une autre perspective intéressante fournie par les futures données de séquence, sera la possibilité de mieux comprendre la phylogénie des régions 3 et 4 qui reste incomplète à ce jour, ainsi que de déterminer la position exacte de la fin de la région 3 sur la carte physique. En conclusion, ce travail mené en grande partie grâce aux données de séquence en libre accès sur internet, a permis de préciser l’organisation du domaine sous-télomérique proximal et d’élucider une partie de la phylogénie de ce dernier. Les futures données de séquences devraient permettre de compléter ces modèles dans une certaines mesure. En effet, il ne faut pas perdre de vue que des configurations portées par certaines extrémités chromosomiques ont pu être perdues au cours de l’évolution comme cela a déjà été démontré (10), ou bien s’avèrent être si rares qu’elles ont peu de chance d’être présentes parmi les données issues du séquençage du génome humain ou d’être détectées un jour par FISH. 21 Bibliographie : 1. Dutrillaux B. (1997). Comment évoluent les chromosomes de mammifères. La Recherche, 296, 70-75. 2. Brown W. R. A., MacKinnon P. J., Villasanté A., Spurr N., Buckle V. J., Dobson M. J. (1990). Structure and polymorphism of human telomere-associated DNA. Cell, 63, 119132. 3. Burke W. D., Malik H. S., Lathe W. C., Eickbush T. H. (1998). Are retrotransposons long-term hitchhikers?. Nature, 392, 141-142. 4. Efstratiadis A., Posakony J. W., Maniatis T., Lawn R. M., O’Connell C., Spritz R. A., DeRiel J. K., Forget B. G., Weissman S. M., Slightom J. L., Blechl A. E., Smithies O., Baralle F. E., Shoulders C. C., Proudfoot N. J. (1980). The structure and evolution of the human ß-gobine gene family. Cell, 21, 653-668. 5. Felsenstein J. (1991). Phylogenetic inference programs (PHYLIP). University of Washington, Seattle/University Herbarium, University of California, Berkeley. 6. Flint J., Thomas K., Micklem G., Raynham H., Clark K., Doggett N. A., King A., Higgs D. R. (1997). The relationship between chromosome structure and function at a human telomeric region. Nat. Genet., 15, 252-257. 7. Miyamoto M. M. (1999). Molecular systematics : Perfect SINEs of evolutionnary history?. Current Biology, 9:R816-R819. 8. Monfouilloux S., Avet-Loiseau H., Armager V., Balazs I., Pourcel C., Vergnaud G. (1998). Recent Human-Specific Spreading of a Subtelomeric Domain. Genomics, 51, 165176. 9. Pagel M. (1999). Inferring the historical patterns of biological evolution. Nature, 401, 877-884. 10. Royle N. J., Baird D. M., Jeffreys A. J. (1994). A subterminal satellite located adjacent to telomeres in chimpanzees is absent from the human genome. Nat. Genet., 6, 52-56. 11. Royle N. J. (1995). The proterminal regions and telomeres of human chromosomes. Advances in Genetics, 32, 273-304. 12. Schwartz S., Zhang Z., Frazer K. A., Smit A., Riemer C., Bouck J., Gibbs R., Hardison R., Miller w. (2000). PipMaker-A web server for aligning two genomic DNA sequences. Genome Research, 10, 577-586. 13. Stary A. (1994). La recombinaison illégitime dans les cellules de mammifère. Médecine/Sciences, 10, 986-994. 14. Trask B. J., Friedman C., Martin-Gallardo A., Rowen L., Akinbami C., Blankenship J., Collins C., Giorgi D., Iadonato S., Johnson F., Kuo W., Massa H., Morrish T., Naylor S., Nguyen O. T. H., Rouquier S., Smith T., Wong D. J., Youngblom J., Van Den Engh G. (1998). Menbers of the olfactory receptor gene family are contained in large blocks of DNA duplicated polymorphically near the ends of human chromosomes. Human Molecular Genetics, 7 (1), 13-26. 15. Vergnaud G. (1999). Structure et évolution des régions sous-télomériques de l’Homme. Journal de la Société de Biologie, 193 (1), 35-40. 22 Résumé Les humains et les primates sont très similaires au niveau de leur séquence ADN, cependant, des différences caryotypiques sont visibles, la plupart localisées aux extrémités chromosomiques. Des études indiquent que les extrémités chromosomiques, très polymorphes, sont des points chauds de l’évolution des génomes, et la possibilité que des réarrangements chromosomiques sous-télomériques aient pu altérer la régulation d’un ou plusieurs gènes ayant eu un impact sur l’évolution de nôtre espèce mérite d’être explorée. Dans ce but, et pour développer des outils efficaces pour étudier notre évolution récente, les domaines sous-télomériques humains doivent être caractérisés en détail. Le domaine sous-télomérique proximal situé entre les répétitions (TTAGGG)n dégénéré, marquant la frontière avec le domaine soustélomérique distal , et le domaine chromosome spécifique montre un polymorphisme de taille important au sein de la population humaine et entre les chromosomes d’un même individu. Une récente étude a révélé l’existence de quatre sous-domaines distincts. Une carte physique détaillée a été réalisée au cour de ce travail afin de mieux comprendre l’organisation des ces quatre régions dans le domaine sous-télomérique proximal. Puis, s’appuyant sur cette carte et sur le résultats d’expériences de FISH, l’étude de la phylogénie de ce domaine a permis d’élucider quelques unes des étapes de la dissémination des quatre régions du domaine sous-télomérique proximal sur différents chromosomes humains au cours de notre évolution récente. 23