La phylogénomique témoin de processus de duplications en bloc
Transcription
La phylogénomique témoin de processus de duplications en bloc
La phylogénomique témoin de processus de duplications en bloc chez les vertébrés. Anne MIQUELIS1, Etienne DANCHIN2, Alexandre VIENNE2, André GILLES2 et Pierre PONTAROTTI2*. 1 Association pour l’étude de l’évolution biologique, 14 rue Ranque, 13001 Marseille. 2 EGEE Université de Provence, 3 place Victor HUGO, 13331 Marseille cedex 3. * Correspondance Mots clefs : polyploïde, Amphioxus, évolution, phylogénie Certaines parties du génome humain résulteraient d'un doublement de la quantité d'information génétique (polyploïdisation) présente chez nos ancêtres triploblastiques (tous les organismes possédant une organisation en trois feuillets cellulaires : ectoderme, mésoderme endoderme). L’observation de phénomènes de polyploidisation (doublement du matériel génétique) est fréquente et récurrente dans le monde vivant. De nombreux cas ont ainsi été décrits chez le coton ou Arabidopsis thaliana pour le règne végétal, la levure, différentes espèces de poissons (des salmonidés, et des catostomidés) ….pour le règne animal. Cependant, l’éventualité que le génome des vertébrés ancestraux ait été affecté par de tels processus constitue un sujet de polémique depuis plus de trois décennies. Au cours de leurs travaux, le Dr Ohno et ses collaborateurs ont déterminé la taille des génomes de différents chordés (Ohno et Atkin, 1966 ; Atkin et Ohno, 1967, Wolf et al., 1969). Se faisant, ils ont démontré : 1) que le génome de l'Amphioxus (céphalochordés, figure 1, figure 3) dont la taille est comparable à celle des plus petits génomes de vertébrés équivaut à 17% de celle du génome humain, 2) que la taille du génome des céphalochordés est de plus trois fois supérieure à celle des urochordés (figure 3). Sur la base de ces résultats, le Dr Ohno (1970) a alors supposé que : 1) l'expansion du génome des vertébrés résulterait d’un processus de polyploidisation (figure 2) i.e. que ce génome aurait évolué via plusieurs tours de duplications (figure 3), 2) ce phénomène se serait en outre produit dans la lignée des chordés avant la séparation céphalochordésvertébrés mais après l’individualisation des urochordés (figure 3). L’hypothèse ainsi formulée par le Dr Ohno laisse supposer que : 1) l’Amphioxus devrait présenter la même complexité génomique qu’un certain nombre de vertébrés, le nombre de gènes de ces deux taxa (groupes) étant supérieur à celui des urochordés, 2) les grands sauts de l'évolution tels que la transition invertébrés-vertébrés seraient la conséquence de duplications complètes de génomes, 3) ces phénomènes de polyploïdisation auraient conduit à l'apparition de milliers de copies de gènes capables d'engendrer des fonctions nouvelles. En effet, le mécanisme de duplication est connu pour jouer un rôle important dans la création de matériel génétique, de copies dans un premier temps redondantes, mais qui seraient, par la suite, libres d’évoluer vers de nouvelles fonctions. Or, les scientifiques n’ont disposé que récemment d’outils et de données (moléculaires et informatiques) leur permettant d’envisager de tester tout ou partie de cette hypothèse formulée il y a déjà plus de 30 ans. Nous verrons par la suite que bien qu’ayant raison sur l’hypothèse de duplications (au moins de larges portions du génome), les temps qu’il proposait pour ces événements étaient inexacts. Le rôle qu’a tenu la polyploïdisation dans la structuration du génome des vertébrés est sujette à discussion, et de nombreuses études sont réalisées afin de tenter de mettre en évidence ces événements du passé ayant participé grandement à l’élaboration des génomes actuels (Seoighe 2003). Ceci a été le cas pour le génome de Arabidopsis thaliana (Blanc, Wolfe et al 2002) pour lequel il a été montré une duplication à l’échelle du génome très ancienne. Son génome aurait connu un événement de tétraploïdisation (duplication complète d’un génome diploïde, figure 2) il y a de cela environ 65 millions d’années. Cependant, des incertitudes demeurent quant au type de tétraploïdisation : s’agit-il de la fusion du génome de deux espèces différentes (allotétraploïdisation), ou alors de la même espèce (autotétraploïdisation) ? Ce genre d’analyse a également été mené au sein du génome d’un poisson téléostéen, Takifugu rubripes (le fugu), dont le génome complet a été récemment séquencé (Aparicio et al 2002). De nombreuses questions persistaient concernant la structuration de son génome, et il semble maintenant évident que ce dernier ait connu un événement de polyploïdisation (duplication complète du génome) très tôt durant l’évolution des poissons (Christoffels et al 2004). Le premier argument avancé par les scientifiques pour soutenir l'existence de ces phénomènes de duplication a été le nombre de gènes. Après avoir supposé que 15 000 à 20 000 gènes constituaient le génome de « l'ancêtre triploblastique », on a estimé que celui de l’homme en comportait quant à lui 60 000 à 80 000 (Antequera et Bird 1994). Cette différence (environ 4 fois) a alors été considérée comme la mise en évidence de deux tours de duplications du génome ancestral qui se seraient produits au cours de l'évolution (Skrabanek et Wolfe, 1998). Or, de très récentes études ont démontré que le génome humain n'est en fait constitué que de 35 000 gènes (Lander et al. 2001 ; Venter et al. 2001). Cette différence ajoutée au fait que la duplication soit un processus continue au cours de l'évolution (les immunoglobulines, les récepteurs olfactifs ... font partie de grandes familles géniques qui se développent et rétrécissent de façon dynamique dans différentes lignées de vertébrés (Abi-Rached et al., 1999)), ne remettent pas en cause l’existence des phénomènes de duplications complètes du génome ou en blocs de certaines régions mais rendent leur mise en évidence et leur datation plus complexe. Un certain nombre de travaux réalisés au cours des dernières années mettent à notre disposition les premiers éléments de réponse. Vision et al. (2000) ont ainsi démontré qu'après des duplications à grande échelle, seule une petite fraction (d'environ 10%) des gènes dupliqués est conservée. Le second argument des scientifiques en faveur de l'existence de ces phénomènes de duplication complète des génomes est basé sur les relations entre gènes co-orthologues chez les vertébrés et les invertébrés. Ainsi, de nombreux gènes présents chez Drosophila melanogaster (Sidow, 1996 ; Spring, 1997) et l'Amphioxus ont des co-orthologues chez les vertébrés (pour un gène donné chez la Drosophile ou l’Amphioxus, les auteurs trouvaient plusieurs gènes correspondants (coorthologues) chez les vertébrés), ce qui démontre en outre que la duplication de ces gènes se serait produite après la séparation céphalochordés-vertébrés. Wang et Gu (2000) ont pour leur part analysé 49 familles géniques de vertébrés, constituées chacune de 3 à 4 gènes qui sont supposées avoir émergé très peu de temps avant l'origine des vertébrés et/ou très tôt au cours de leur évolution. Leurs résultats sont compatibles avec l'existence de polyploïdisation du génome. Toutefois, si de tels processus se sont produits au cours de l'évolution des chordés, on peut s'attendre à trouver un réseau de régions homologues au sein d’un même génome chez les vertébrés à mâchoires, résultant de duplications à partir d’une région ancestrale (Lundin, 1993). De telles régions seront dites parasynténiques. En outre, si elles résultent d’événements de polyploïdisation, toutes les paires de gènes dupliquées observées dans ces régions devraient avoir subit cet événement simultanément. L'analyse de la carte du génome humain (Lundin, 1993 ; Venter et al., 2001) a permis d'identifier différentes régions de paralogie de ce type : 1) le CMH (Endo et al., 1997 ; Hugues, 1998 ; Kasahara et al., 1997), 2) la région 8p12-21 (Pebusque et al., 1998), 3) les groupes Hox (Garcia-Fernandez et Holland, 1994), cette dernière observation avait conduit Holland et ses collaborateurs (1994) à reconsidérer les temps de polyploïdisation (figure 3). Dans les deux premiers cas, les relations phylogénétiques ont été étudiées mais le temps de divergence des duplications n'a pas été, dans un premier temps, clairement estimé. Dans le cas de la région 8p12-21 et de ses régions de paralogie, la date des duplications a été estimée par référence à la position dans les arbres phylogénétiques, des séquences provenant de différents organismes (donc par encadrement). Pour le CMH et ses régions de paralogie, cela a été fait par estimation moléculaire du temps de divergence (Hugues, 1998) mais avec les mêmes biais potentiels que ceux décrits par Wang et Gu (2000). Par ailleurs, des régions correspondantes et non dupliquées (orthosynténiques) ont été recherchées chez Drosophila melanogaster et Caenorhabditis elegans (Trachtulec et al., 1997 ; Pebusque et al., 1998), mais les relations d'orthologie entre les gènes de ces régions chez les différentes espèces de même que la signification statistique n'ont pas été estimées. Partant de ce constat, notre laboratoire a revisité les données génomiques disponibles pour la Drosophile et les régions de paralogie du CMH ; et en procédant à une analyse comparative des gènomes humains et de Drosophile (couplant études phylogénétiques et tests statistiques), nous avons réussi à mettre en évidence des traces significatives de conservation d’une région ressemblant par sa composition en gènes aux régions de paralogie du CMH humain chez la Drosophile (Danchin et al. 2003). Cette région orthosynténique chez la Drosophile tendrait à montrer que si il existe bien une région ancestrale à l’origine des régions de paralogie du CMH chez l’homme, son origine pourrait être encore bien plus ancienne que ce que l’on considérait jusqu’à présent. Pour la région du chromosome 8 et de ses régions paralogues, une étude récente (Vienne et al 2003) réalisée au sein de notre laboratoire a permis de mieux comprendre leur évolution. En effet, en se basant sur l’analyse de 38 familles de gènes à l’échelle des domaines protéiques, et cela afin d’éviter d’éventuels biais dus au mécanisme de shuffling (brassage d’exons), par l’utilisation d’outils de reconstruction phylogénétique, mais aussi par des estimations de temps de duplications, il nous a été possible de montrer que ces régions avaient émergées par deux tours de duplication en bloc. La datation de ces phénomènes a été estimée à -738± 74,84 millions d’années (après la séparation protostomiens/deuterostomiens) pour le premier tour de duplications, et à 532± 57,84 millions d’années (avant la séparation actinoptérygien/sarcoptérygiens) pour le deuxième tour de duplications (émergence des téléostéens). Dans le cas de ces régions de paralogie, notre laboratoire a également recherché des régions d’orthosynténie chez d’autres espèces pouvant révéler une plus large conservation de ces régions et une origine plus ancestrale. En utilisant cette fois encore une approche phylogénétique couplée à une analyse statistique nous avons pu révéler des régions ressemblant à ce groupe de paralogie chez la Drosophile, l’Anopheles, et le Zebrafish (poisson zèbre) ces ressemblances sont statistiquement très significatives et ne peuvent s’expliquer par le hasard (Danchin et al. 2004). Dans le troisième exemple, un groupe Hox a été trouvé chez l'Amphioxus et 4 chez de nombreux vertébrés, ce qui pourrait indiquer qu'une duplication en bloc s'est produite après la séparation de l'Amphioxus et des ancêtres des vertébrés. Malheureusement, les analyses phylogénétiques réalisées sur le domaine des homéobox ne sont pas concluantes et ne fournissent pas assez d'informations pour résoudre les événements de duplication survenus dans ces groupes. De ce fait, il est possible que 4 groupes Hox aient existé chez l'ancêtre des céphalochordés et que 3 aient été perdus. Par conséquent, le groupe Hox de l'Amphioxus ne peut pas être définitivement considéré comme une version non dupliquée des 4 groupes Hox des mammifères. Néanmoins, l’identification des gènes Hox au sein du génome de la Cione montre l’existence d’un cluster unique, résultat plutôt en faveur d’une région unique à la base des chordés. Cette région semble cependant être d’une longueur plus importante, et être divisé en différentes portions (Spagnuolo et al 2003). C’est après avoir dressé cet « état des lieux » scientifique mettant en évidence les lacunes concernant l’analyse de la signification statistique des liens existant entre ces différentes régions, les relations phylogénétiques des gènes ou encore l’absence de datation fiable des duplications que notre groupe a abordé cette problématique. L'hypothèse de travail de notre équipe est la suivante : si des phénomènes de polyploïdisation suivis de réarrangements chromosomiques ont eu lieu dans le génome de nos ancêtres pré-vertébrés, on doit retrouver la trace de ces régions chromosomiques homologues dans le génome des vertébrés y compris chez l'homme. D’autre part, pour différencier des duplications simples survenues au cours d'une longue période, d'une duplication en bloc opérée sur une courte période géologique, on peut : 1) chercher à dater les duplications, 2) chercher des structures géniques conservées entre les régions supposées parasynténiques et orthosynténiques chez une espèce dont on a supposé qu’elle possède une région non dupliquée. C’est dans ce but que nous avons choisi l'Amphioxus (ou lancelet) comme animal modèle (Abi-Rached et al. (2002)). En effet, l’analyse bibliographique, dont les données restaient sommaires, semblait indiquer que si un phénomène de polyploïdisation s’était bien produit alors le génome de cette espèce n’en avait pas fait l’objet. Sous ce nom de genre devenu au fil du temps un nom commun se rangent les 29 espèces morphologiquement définies de ce céphalochordé. Ces organismes constituent le groupe frère des vertébrés et représentent à ce titre un phylum (groupe) «charnière » ayant une position clef dans l'arbre évolutif des métazoaires (figure 3). D'autre part, le génome de l'Amphioxus (500 mégabases) est six fois plus petit que celui de l’homme. Les gènes du Complexe Majeur d'Histocompatibilité (CMH), impliqués dans les réponses immunitaires qui constituent l'une des régions de paralogie ont été retenus dans le cadre de cette étude (Abi-Rached et al. (2002)). En outre, de précédentes études avaient mis en évidence la présence à proximité des gènes humains du CMH, de gènes «ancres» à évolution relativement plus lente. Quatre exemplaires des régions homologues dans lesquels ces gènes particuliers se trouvent ont été identifiés chez l'homme (Abi-Rached et al. 1999). Afin de savoir si notre génome ancestral a subi des duplications à grande échelle, notre équipe a décidé : 1) d’analyser en détail les gènes dupliqués présents dans la série de paralogie du CMH (analyses phylogénétiques et cartes), 2) de vérifier l'éventualité qu'ils aient dupliqué en bloc près de la radiation des vertébrés, et 3) de cloner les gènes équivalents chez l'Amphioxus. En adéquation avec l'hypothèse d'une duplication à grande échelle, de tels gènes équivalents chez l'Amphioxus devraient être les orthologues de tous les co-orthologues de vertébrés trouvés dans les 4 régions parasynténiques. De plus, à proximité des gènes ancres orthologues de l'Amphioxus, doivent se trouver d’autres gènes ayant des relations d'orthologie avec les gènes se positionnant dans les régions humaines du CMH ou ses régions de paralogie. La définition de la région génomique de l’Amphioxus équivalente aux régions de paralogie du CMH humain s’est faite en plusieurs étapes : 1) le choix des gènes ancres, 2) le clonage de leurs équivalents chez l'Amphioxus, 3) l'isolation des régions génomiques correspondantes chez l'Amphioxus et l'analyse des gènes voisins (plus particulièrement leurs relations phylogénétiques avec les gènes humains), 4) l'étude de la distribution des gènes humains orthologues des gènes de l'Amphioxus. Deux approches ont été utilisées pour choisir les gènes ancres : une méthode directe liée à l’étude des synténies préservées entre l'homme et les poissons osseux et une indirecte résultant de l’analyse des régions de paralogie du CMH. Dans le premier cas, les séquences provenant du programme de séquençage du Fugu (HGMP (Human Genome Mapping Project) (http://fugu.hgmp.mrc.ac.uk) ont été analysées afin de définir quels sont les gènes présents dans les régions génomiques du CMH à la fois chez l'homme et le Fugu. Les synténies conservées représentent vraisemblablement l'état ancestral des vertébrés osseux. Ces synténies préservées qui ont été répertoriées chez le Fugu par Clark et al. (2001), existent également chez d'autres téléostéens (Hansen et al., 1999 ; Takami et al., 1997). Dans le deuxième cas, si les régions de paralogie résultaient de duplications en blocs, les synténies conservées et observables auraient été présentes dans la région génomique ancestrale avant la duplication en bloc. Nous avons pris (Abi-Rached et al., 1999 ; 2002) comme point de départ le travail de Kasahara (Kasahara et al., 1997) et l’avons complété en cherchant les régions de paralogie afin de trouver de nouveaux gènes paralogues dans les bases de données et en cherchant les relations phylogénétiques pour tous les gènes paralogues. Nous avons ensuite conservé uniquement les gènes paralogues pour lesquels la duplication a eu lieu après la séparation protostomiens/deutérostomiens mais avant la radiation des vertébrés osseux. 18 gènes ancres ont ainsi été retenus dans le cadre de cette étude. Parmi les 18 gènes ancres ainsi définis, 11 ont été sélectionnés, amplifiés par PCR dont 9 ont été clonés chez l’Amphioxus. Pour chaque gène ancre, un cosmide cloné est entièrement séquencé et analysé pour étudier à la fois le contenu du gène et les relations phylogénétiques des gènes de l’Amphioxus et de leurs correspondants chez l’homme. Au total, 10 cosmides d’Amphioxus ont été clonés (2 cosmides différents pour le gène RXR, et 8 cosmides pour les 8 autres gènes ancres). A partir des 10 cosmides clonés et séquencés, nous avons utilisé les séquences de quarante et un gènes « prédits » pour rechercher des séquences semblables chez d’autres espèces dans les bases de données. Des similitudes significatives avec des séquences existantes dans les bases de données ont été observées pour 34 gènes, parmi lesquels 33 correspondent à des séquences humaines. La construction et l’analyse des jeux de données ont alors permis l’attribution du critère d’orthologie à 31 gènes de l’Amphioxus dont 9 sont des gènes ancres et 22 des gènes adjacents (au total ces 31 gènes se regroupent en 11 familles de 1, 2, 3 ou 4 membres). D’autre part, l’analyse des relations phylogénétiques des gènes ancres de l’Amphioxus a permis de conclure que les duplications ayant engendré les différentes familles de gènes ancres chez les vertébrés se sont produites après la séparation céphalochordés/vertébrés. L’utilisation de ces onze familles a de plus permis d’estimer l’origine de la divergence entre céphalochordés et vertébrés à -779,5± 20,4 millions d’années (écart type). Cette valeur est en outre très proche de celle estimée par Hedges (2000) au cours d’une étude réalisée sur neuf autres gènes (-750,5 ± 31,9 Ma). La comparaison des moyennes pour ces échantillons indiquant qu'il n'y a pas de différences significatives, les échantillons de Abi-Rached et al. (2002) et de Hedges (2000) ont donc été regroupés dans le but d’affiner l’estimation : 766,4 Ma ± 17,8 Ma. En résumé, toutes les duplications des gènes ancres se sont produites entre 766-420 Ma (pour la séparation Actinopterrygiens/Tétrapodes) et probablement entre 766-528 Ma (pour la séparation Chondrichthyens/Ostéichthyens) (figure 3). La démarche employée par Abi-Rached et al. (2002) a été en partie reconduite concernant l’analyse de la région 8p11-8p21 et de ses régions paralogues. En effet, l’identification de gènes orthologues chez l’Amphioxus à des gènes localisés dans les régions d’intérêt permettrait d’apporter de plus amples informations quant à la structure ancestrale à ces régions dupliquées (résultats non publiés). En utilisant les gènes EGR et FGFR, deux cosmides ont pu être identifiés sur la banque ADN d’Amphioxus. L’identification et l’analyse phylogénétique des gènes à proximité de EGR et FGFR nous a permis de montrer que, bien que les orthologues humains ne soient pas présents au nombre de 4 copies, signe évident de deux tours de duplications, trois des cinq gènes identifiés possèdent un orthologue localisé dans les régions de paralogie d’intérêt. La perte de gène semble apparemment avoir joué un rôle important au niveau de ces régions. Répartition des équivalents humains des gènes proches des gènes ancres de l'Amphioxus (figure 4). Afin de mieux définir les processus de duplication responsables de l'émergence des régions de paralogie du CMH, les chercheurs ont établi la carte des gènes humains orthologues des gènes adjacents aux gènes ancres de l'Amphioxus et analysé leur distribution. Afin de ne pas biaiser l'analyse, les gènes humains orthologues des gènes ancres de l'Amphioxus n’ont pas été pris en compte dans cette partie de l’étude. Parmi les trente-deux gènes supposés adjacents aux gènes ancres de l'Amphioxus, 22 ont au moins un gène humain orthologue dont 13 ont au moins un orthologue situé dans la région de paralogie du CMH. L’analyse de la signification statistique de la distribution des gènes humains orthologues des gènes de l'Amphioxus a été réalisée dans les quatre régions de paralogie du CMH humain, sur les chromosomes 1, 6, 9 et 19. Vingt-deux gènes de l'Amphioxus situés au voisinage des gènes ancres clonés ont au moins un gène humain orthologue pour un total de 42 orthologues humains. Parmi ces 42 orthologues, seize sont localisés dans une région de paralogie du CMH. La distribution des gènes humains orthologues des gènes voisins des gènes ancres de l'Amphioxus est statistiquement différente d'une distribution au hasard pour ces quatre régions ce qui indique, l’existence d’un lien évolutif entre les régions génomiques de l'Amphioxus et les quatre régions génomiques de l'homme. La même chose est observée quand on supprime l'effet des duplications au sein de chaque famille génique. Le modèle le plus probable permettant d’expliquer le lien évolutif entre les régions génomiques de l'Amphioxus et les régions de paralogie dans le CMH humain, est l’existence d’une région ancestrale commune aux quatre régions génomiques humaines qui aurait dupliqué en bloc après la séparation céphalochordés/vertébrés. En outre, comme la limite inférieure pour quelques gènes ancres est la spéciation des Gnathostomes (ou vertébrés à mâchoires), cette limite constitue également la limite inférieure de la duplication en bloc. Les régions de paralogie du CMH sont donc des régions parasynténiques qui ont dupliqué en bloc au cours d’une période comprise entre 766 et 528 Ma. Evolution de la région génomique ancestrale proto-CMH (figure 4). Pour reconstruire la région du proto-CMH ancestral des vertébrés à mâchoires : 1) on considère le modèle le plus probable pour expliquer le lien entre les régions de l'Amphioxus et celles de paralogie du CMH humain, 2) on utilise les informations sur l'organisation des régions orthosynténiques de l'Amphioxus et des régions parasynténiques de l'homme. La duplication entre tous les gènes ancres est compatible avec un processus de duplication en bloc, et la signification du lien entre les régions de l'Amphioxus et les régions de paralogie du CMH a été calculé en utilisant tous les gènes provenant de tous les cosmides clonés. L'aspect le plus frappant de l'évolution des régions dupliquées est le nombre de gènes fixés. la région génomique du chromosome 9 contient en effet, beaucoup moins de pertes de gènes en comparaison aux trois autres régions sur les chromosomes 1, 6, et 19. Par exemple parmi les gènes identifiés dans les cosmides d’Amphioxus a proximité des gènes ancres, 17 ont des orthologues humain dans la région du chromosome 9 contre seulement. 7, 8, 8 pour les régions des chromosomes 1, 6 et 19 respectivement). Ainsi, en terme d'organisation génomique, la région du chromosome 9 est beaucoup plus semblable à la région génomique ancestrale supposée que les trois autres régions de paralogie du CMH. Le caractère ancestral de la région du chromosome 9 est également observé au niveau des gènes. En effet, l'analyse du modèle de substitution des familles géniques ayant plus de deux paralogues dans les régions de paralogie du CMH (six familles paralogues) montre que les gènes de la région du chromosome 9 ont toujours un taux de substitution faible comparé aux trois autres régions paralogues (6 gènes sur 6) (statistiquement significatif, Abi-Rached et al. 2002). Les gènes ayant un profil de substitution rapide sont présents de manière aléatoire dans les trois autres régions. Evolution de la région dupliquée Une telle observation peut être également réalisée chez les végétaux, même si cela n’est pas mis en avant par les auteurs (Ku et al., 2000), ou dans le cas de duplications segmentaires, une des régions dupliquées chez A. thaliana a conservé une organisation beaucoup plus semblable à celle prédite pour l’organisation de la région ancestrale que les trois autres régions de paralogie. Concernant la région dupliquée localisée sur la chromosome 9, l’analyse de 4 cosmides supplémentaires par « marche chromosomique » a permis l’identification de nouveaux gènes (Vienne et al 2004), de lier ces nouveaux cosmides à certains de ceux séquencés dans le passé, et d’approcher ainsi d’une reconstruction plus fine de la région orthosynténique chez l’Amphioxus. Plus récemment encore, les travaux d’hybridation in situ de Castro et al. 2004 ont permis de montrer qu’au moins 7 des 10 cosmides identifiés par Abi-Rached et al. étaient colocalisés sur le même chromosome chez l’amphioxus. De plus, les 4 nouveaux cosmides identifiés par marche chromosomique par Vienne et al.ont également pu être placés sur cette région, ce qui amène à un total de 11 cosmides colocalisés et 26 gènes d’amphioxus prédits dans cette région ayant des similarités significatives avec l’humain. En outre, parmi ces 26 gènes 17 ont de orthologues humains dans les régions du CMH ou ses régions de paralogie. Ce travail aura également permis de confirmer les résultats obtenus par Abi-Rached et al (2002) concernant l’émergence de ces régions par duplication en bloc à partir d’une région ancestrale, mais également de montrer, tout comme pour les zones dupliquées au sein du génome d’A. thaliana, une structure dont l’organisation semble plus proche de l’état ancestral (plésiomorphe) pour l’une des régions dupliquées (ici la région du chromosome 9). Cette dernière aurait ainsi moins subi de perte de gènes ou de remaniement chromosomiques que les autres. Ce parallèle avec la région du chromosome 9 est intéressant, et tend à prouver qu’il s’agit là d’un phénomène répandu. L’essence d’un tel mécanisme reste obscure, mais divers processus peuvent être impliqués tels que les contraintes fonctionnelles, les contraintes d’expression, de régulation (expression ubiquiste versus tissu-spécifique). Il a en effet été démontré au travers du génome humain que les gènes hautement exprimés sont groupés dans des domaines chromosomiques en fonction du niveau d’expression (Caron et al., 2001). Ces contraintes peuvent également être liées à l’architecture nucléaire (Cremer et Cremer, 2001). Dans le cas présent, le maintien d’une organisation ancestrale dans l’une des régions dupliquée et l’analyse de l’importance des organisations génomiques à grande échelle a montré que les gènes ne sont pas distribués au hasard dans le génome humain. Cette observation doit être confirmée par l’analyse d’autres régions génomiques, aussi bien que par la comparaison avec le génome de l’Amphioxus. Si ce processus est confirmé, il serait d’un grand intérêt de comprendre les processus agissant dans le maintien d’une telle organisation. Ce travail suggère également que les régions dupliquées peuvent avoir des destins différents : une région peut être « préservée » et entretenir une fonction ancestrale alors que d’autres peuvent êtres plus « libres », conduisant potentiellement à l’émergence de nouveaux gènes et/ou familles géniques comme on en a émis l’hypothèse pour la « véritable » région génomique du CMH sur le chromosome 6 (Abi-Rached et al., 1999). De nouveau, l’échantillonnage d’autres régions génomiques est nécessaire afin de contrôler à quel point ce phénomène peut être généralisé. Duplications segmentaires ou duplications à grande échelle (polyploïdisation) Notre équipe a donc montré que les régions de paralogie du CMH : 1) sont réellement issues d’une duplication en bloc, 2) sont issues d’une région ancestrale commune qui a subit une duplication en bloc après la séparation céphalochordés/vertébrés (766 Ma) mais avant la spéciation des vertébrés à mâchoires (528 Ma). La question soulevée par cette observation est le degré de généralisation du phénomène: est-ce simplement une importante duplication segmentaire, ou l'indication de duplications plus grandes telles que des polyploïdisations? Leur étude peut être considérée comme étant la première étape de la mise en évidence des phénomènes de polyploïdisation subis par notre génome ancestral. Néanmoins, on doit noter que malgré l'analyse rigoureuse réalisée par ces chercheurs, il est difficile de dire si la duplication de cette région s'est produite via deux tours de duplication du génome entier, deux ou trois duplications segmentaires indépendantes ou par alloduplication. Le nombre de groupes paralogues ayant quatre membres est faible et les nœuds entre les différents paralogues ne sont pas fortement soutenus dans de nombreux cas, de ce fait, l'histoire au sein des paralogues est difficile à établir. Savoir si le génome des vertébrés a effectivement subi deux tours de tétraploïdisation est le sujet d’un important débat (Wolfe, 2001). De nombreux travaux sont réalisés au sein de différents laboratoires afin de tenter d’apporter de plus amples informations concernant les processus de mise en place du génome des vertébrés. Une étude récente (McLysaght et al 2002) a permis l’identification de 1642 régions de parasynténie (appelées aussi paralogons) au sein du génome humain. Ces observations peuvent être interprétées de différentes façons, et peuvent soutenir les hypothèses d’un unique tour de duplication à l’échelle du génome (polyploïdisation), ou encore de duplications à grandes échelles ayant eut lieu de manière indépendantes durant l’évolution des chordés. Un travail réalisé par Gu et al. (2002) sur 749 familles de gènes, correspondant à 1739 évènements de duplications, a conduit les auteurs à la prudence. Bien que de nombreux gènes soient présents en trois ou quatre copies pour de nombreuses familles de gènes, ce qui appuierait la théorie des deux tours de duplications, il est difficile pour le moment de choisir entre ce modèle et l’hypothèse la plus parcimonieuse selon laquelle un tour de duplication à grande échelle aurait eut lieu, accompagné de duplications à plus petite échelle (duplications segmentaires) mais ayant lieu de manière continue. Toutefois, il est important de démontrer en premier lieu l'occurrence de polyploïdisation dans le génome de l'ancêtre commun des vertébrés, et cela même si l’hypothèse des deux tours de duplications est soutenue par de nombreuses analyses (Panopoulou et al. 2003). Pour atteindre ce but, et permettre d’éclaircir de nombreux points de discussions, d'autres régions potentiellement parasynténiques doivent être analysées rigoureusement et comparées aux régions orthosynténiques non dupliquées de l'Amphioxus. Si les mêmes conclusions peuvent être tirées pour plusieurs autres régions génomiques, i.e. duplication segmentaire autour de la même période de temps, de tels résultats devraient parler en faveur des polyploïdisations. Les régions dupliquées ont été mises en évidence dans le génome humain malheureusement, la datation des duplications n'a pas fait l'objet de recherches (Venter et al., 2001), ou du moins pas de façon aussi rigoureuse que dans le travail réalisé par notre équipe. Si l'hypothèse de la polyploïdisation est démontrée, il sera important de regarder les relations phylogénétiques entre gènes dupliqués afin de distinguer les différents processus de duplication (autopolyploïdisation ou allopolyploïdisation). La qualité de la constitution du jeu de données aussi bien que celle des reconstructions phylogénétiques sera d'une importance capitale à ce stade. Conclusions Cette étude valide donc l’hypothèse de la duplication « au moins » en bloc des régions de paralogie du CMH à partir d’une région ancestrale, elle va également dans le sens, sans les confirmer définitivement, des hypothèses de polyploïdisation qui se seraient produites dans notre génome ancestral, entre 766 et 528 Ma, i.e. après la séparation céphalochordés/vertébrés et avant la radiation des Gnathostomes. En outre, en reconstruisant la région ancestrale des quatre régions de pararlogie du CMH, nous avons découvert un aspect inattendu de l’évolution des régions dupliquées : une région a conserve un état ancestral à la fois en terme d’organisation et de profil de substitution des gènes. Ainsi, le génome renferme une grande région apparemment sous sélection négative, un concept appliqué peu fréquemment aux gènes pris individuellement ou aux segments de gènes. Il est important de déterminer dans quelle mesure cette découverte peut être généralisée à d’autres régions du génome. Ces analyses soulignent l’importance de la phylogénie et de la génomique comparative (phylogénomie), non seulement pour révéler l’histoire évolutive de notre génome mais également pour une meilleure compréhension des organisations génomiques actuelles. Idéalement nous aimerions maintenant analyser de la même manière toutes les régions dupliquées en bloc chez un maximum d’espèces différentes afin de retracer leur histoire évolutive et à terme d’en déduire l’organisation du génome ancestral. Une telle analyse à grande échelle, passera nécessairement par une automatisation des processus d’analyses phylogénétiques et de génomique comparative. Remerciements. Nous tenons à remercier la société Phygenix (www.phygenix.com) avec laquelle nous collaborons et qui a mis, gracieusement à la disposition de notre laboratoire, leur plate-forme informatique multi-utilisateurs automatisant les analyses phylogénétiques. Références Abi-Rached, L., Gilles, A., Shiina, T., Pontarotti, P. & Inoko, H. Evidence of en bloc duplication in vertebrate genomes. Nature Genetics. 31, 100-5 (2002). Abi-Rached, L., McDermott, M.F. & Pontarotti, P. The MHC big bang. Immunol.Rev. 167, 33-44 (1999). Antequerra, F et Bird, A. Predicting the total number of human genes. Nature Genetics. 8, 114 (1994). Aparicio, S., Chapman, J., Stupka, E., Putnam, N., Chia, J.M., Dehal, P., Christoffels, A., Rash, S., Hoon, S., Smit, A.F., Sollewijn Gelpke, M.D., Roach, J., Oh, T., Ho, I.Y., Wong, M., Detter, C., Verhoef, F., Predki, P., Tay, A., Lucas, S., Richardson, P., Smith, S.F., Clark, M.S., Edwards, Y.J.K., Doggett, N., Zharkikh, A., Tavtigian, S.V., Pruss, D., Barnstead, M., Evans, C., Baden, H., Powell, J., Glusman, G., Rowen, L., Hood, L., Tan, Y.H., Elgar, G., Hawkins, T., Venkatesh, B., Rokhsar, D., Brenner, S. Whole-genome shotgun assembly and analysis of the genome of Fugu rubripes. Science 297, 1301-1310 (2002) Atkin, N.B., Ohno, S., 1967. DNA values of four primitive chordates. Chromosoma 23, 10-13. Caron, H. et al. The human transcriptome map: clustering of highly expressed genes in chromosomal domains. Science 291, 1289-1292 (2001). Castro LF, Furlong RF, Holland PW. An antecedent of the MHC-linked genomic region in amphioxus. Immunogenetics. 2004 Feb;55(11):782-4. Christoffels, A., Koh, E. G. L., Chia, J.M., Brenner, S., Aparicio, S., and Venkatesh, B. Fugu Genome Analysis Provides Evidence for a Whole-Genome Duplication Early During the Evolution of Ray-Finned Fishes. Mol. Biol. Evol. (2004) Clark, M.S., Shaw, L., Kelly, A., Snell, P. & Elgar, G. Characterization of the MHC class I region of the Japanese pufferfish (Fugu rubripes). Immunogenetics 52, 174-185 (2001). Cremer, T. & Cremer, C. Chromosome territories, nuclear architecture and gene regulation in mammalian cells. Nat.Rev.Genet. 2, 292-301 (2001). Danchin EG, Abi-Rached L, Gilles A, Pontarotti P. Conservation of the MHC-like region throughout evolution. Immunogenetics. 2003 Jun;55(3):141-8. Danchin EG, and Pontarotti P. Statistical evidence for a more than 800 Million years old evolutionary conserved genomic region in our genome. J. Mol. Evol. 2004 In press. Endo, T., Imanishi, T., Gojobori, T. & Inoko, H. Evolutionary significance of intra-genome duplications on human chromosomes. Gene 205, 19-27 (1997). Garcia-Fernandez, J. & Holland, P.W. Archetypal organization of the Amphioxus Hox gene cluster. Nature 370, 563-566 (1994). Graur, D., & Li, W.-H. Fundamentals of Molecular Evolution. Second Edition. (Sinauer Associates, Inc. 2000) Gu et al (2002) Gu, X., Y. Wang, and J. Gu. Age distribution of human gene families shows significant roles of both large- and smallscale duplications in vertebrate evolution. Nat. Genet. 31, 205–209 (2002). Hansen, J.D., Strassburger, P., Thorgaard, G.H., Young, W.P. & Du Pasquier, L. Expression, linkage, and polymorphism of MHC-related genes in rainbow trout, Oncorhynchus mykiss. J.Immunol. 163, 774-786 (1999). Hedges, S.B. Molecular evidence for the early history of living vertebrates. In Major Events in Early Vertebrate Evolution: Palaeontology, Phylogeny, and Development. (ed. Ahlberg, E.), 119-134 (Taylor & Francis, London, 2000). Holland, P.W.H., Garcia-Fernandez, J., Williams, N. A. & Sidow, A. Gene duplications and the origins of vertebrate development. Development (Suppl.) 125-133 (1994). Hughes, A.L. Phylogenetic tests of the hypothesis of block duplication of homologous genes on human chromosomes 6, 9, and 1. Mol.Biol.Evol. 15, 854-870 (1998). Kasahara, M., Nakaya, J., Satta, Y. & Takahata, N. Chromosomal duplication and the emergence of the adaptive immune system. Trends.Genet. 13, 90-92 (1997). Ku, H.M., Vision, T., Liu, J. & Tanksley, S.D. Comparing sequenced segments of the tomato and Arabidopsis genomes: large-scale duplication followed by selective gene loss creates a network of synteny. Proc.Natl.Acad.Sci.U.S.A 97, 9121-9126 (2000). Lander, E.S. et al. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001). Lecointre, G. & Le Guyader, H. Classification phylogénétique du vivant. (Editions Belin, 2001). Lundin, L.G. Evolution of the vertebrate genome as reflected in paralogous chromosomal regions in man and the house mouse. Genomics 16, 1-19 (1993). McLysaght (2002) McLysaght, A., K. Hokamp, and K. H. Wolfe. Extensive genomic duplication during early chordate evolution. Nat. Genet. 31, 200–204 (2002). Ohno, S. Evolution by Gene Duplication (Springer, Berlin, 1970). Ohno, S., Atkin, N.B. 1966. Comparative DNA values and chromosome complements of eight species of fishes. Chromosoma 18, 455-466. Panopoulou, G., Hennig, S., Groth, D., Krause, A., Poustka, A.J., Herwig, R., Vingron, M., Lehrach, H. New evidence for genome-wode duplications at the origin of vertebrates using Amphioxus gene set and completed animal genomes. Genome Research 13, 1056-1066 (2003) Pebusque, M.J., Coulier, F., Birnbaum, D. & Pontarotti, P. Ancient large-scale genome duplications: phylogenetic and linkage analyses shed light on chordate genome evolution. Mol.Biol.Evol. 15 , 1145-1159 (1998). Seoighe, C. Turning the clock back on ancient genome duplication. Current Opinion in Genetics and Development 13, 636-643 (2003) Sidow, A. Gen(om)e duplications in the evolution of early vertebrates. Curr.Opin.Genet.Dev. 6, 715-722 (1996). Skrabanek, L. & Wolfe, K.H. Eukaryote genome duplication - where's the evidence? Curr.Opin.Genet.Dev. 8, 694-700 (1998). Spagnuolo, A., Ristoratore, F., Di Gregorio, A., Aniello, F., Branno, M., Di Lauro, R. Unusual number and genomic organization of Hox genes in the tunicate Ciona intestinalis. Gene 309, 71-79 (2003). Spring, J. Vertebrate evolution by interspecific hybridisation--are we polyploid? FEBS Lett. 400, 28 (1997). Takami, K., Zaleska-Rutczynska, Z., Figueroa, F. & Klein, J. Linkage of LMP, TAP, and RING3 with Mhc class I rather than class II genes in the zebrafish. J.Immunol. 159, 6052-6060 (1997). Trachtulec, Z. et al. Linkage of TATA-binding protein and proteasome subunit C5 genes in mice and humans reveals synteny conserved between mammals and invertebrates. Genomics 44, 17 (1997). Venter, J.C. et al. The sequence of the human genome. Science 291, 1304-1351 (2001). Vienne, A., Rasmussen, J., Abi-Rached, L., Pontarotti, P., Gilles, A. Systematic Phylogenomic Evidence of en Bloc Duplication of the Ancestral 8p11.21–8p21.3-like Region. Mol. Biol. Evol. 20, 1290–1298 Vienne, A., Shiina, T., Abi-Rached, L., Danchin, E., Vitiello, V., Cartault, F., Inoko, H., Pontarotti, P. Evolution of the proto-MHC ancestral region: more evidence for the plesiomorphic organisation of human chromosome 9q34 region. Immunogenetics 55, 429-436 (2003) Wang, Y. & Gu, X. Evolutionary patterns of gene families generated in the early stage of vertebrates. J.Mol.Evol. 51, 88-96 (2000). Wolf, U., Ritter, H., Atkin, N.B., Ohno, S. 1969. Polyploidization in the fish family Cyprinidae, order Cypriniformes. I. DNA content and chromosome sets in various species of Cyprinidae. Humangenetik 7, 240-244. Wolfe, K.H. Yesterday's polyploids and the mystery of diploidization. Nat.Rev.Genet. 2, 333-341 (2001). Légendes Figure 1. L’Amphioxus : Branchiostoma lanceolatum (Photo extraite de l’Encyplopédie illustrée du monde animal, © 1964 by Artia, Prague, avec l’aimable autorisation des Editions Gründ, Paris). Figure 2. Schéma montrant un processus de polyploïdisation (duplication intégrale du génome) avec évolution indépendante des régions dupliquées (les gènes paralogues A1 et A2 évoluent indépendamment et sont différents). Cette étape est suivie d’une diploïdisation permettant le retour à un génome diploïde par brassage et cassure des différents chromosomes. Le deuxième tour de duplication se produit ensuite à partir des chromosomes C1, C2, C3, et C4. Figure 3. Cladogramme montrant les relations phylogénétiques des principaux groupes actuels (les longueurs de branches ne sont pas proportionnelles au temps de divergence séparant deux lignées terminales de leur ancêtre commun). Pour de plus amples informations se reporter à l’ouvrage de Lecointre et Le Guyader (2001). Les temps de divergence sont calculés à partir des données moléculaires (sous l’hypothèse de l’horloge moléculaire et calibrée à partir de données fossiles) et doivent être interprétés comme une échelle relative. Les deux points verts représentent les premiers et deuxième tours de duplication à grande échelle conformément à l’hypothèse de Ohno (1970). Les deux points rouges T1 et T2 représentent le premier et le deuxième tour de duplication à grande échelle suivant l’hypothèse de Holland et al. (1994). Figure 4. Evolution de la région du proto-CMH des chordés et de ses gènes. Hypothèse de reconstitution de l’évolution des régions génomiques paralogues du CMH. En comparant les régions de l’Amphioxus et les régions de paralogie humaines, il est possible de reconstituer le proto-CMH ancestral des vertébrés à machoires. L’état de la région génomique du chordé ancestral reste incertain du fait que jusqu’à récemment (Castro et al. 2004) la liaison des cosmides d’Amphioxus était inconnue. Cependant, il a maintenant été démontré que 7 des 10 cosmides représentés dans cette figure sont liés sur un même chromosome chez l’Amphioxus. Les gènes ancres sont indiqués en rouge, les gènes adjacents aux gènes ancres de l’Amphioxus et de leurs orthologues humains sont indiqués en noir. Glossaire Homologie : l’un des concepts fondamentaux en biologie comparative et évolutive, elle fait référence à des séquences, ou structures, ayant évolué à partir d’un ancêtre commun. Othologues : deux gènes sont qualifiés « d’orthologues » si ils sont issus d’un événement de spéciation, c’est-à-dire crées par la séparation de lignées taxonomiques. Paralogues : deux gènes sont dits « paralogues » si ils sont issus d’un événement de duplication au sein du génome d’un même individu. Polyploïdisation : définie comme étant "l'addition de un ou plusieurs jeux complets de chromosomes au nombre de chromosomes initial", ce qui constitue une duplication totale. Il ne faut pas confondre ce terme et celui de "polysomie", qui correspond à une duplication partielle en bloc aboutissant à un ou plusieurs chromosomes surnuméraires. Régions orthosynténiques : terme faisant référence à des régions génomiques dont la divergence est le résultat d'événements de spéciation. Régions de paralogie : terme utilisé pour les cas de duplications de régions entières. Elle fait appelle à une hypothèse d'homologie, c'est-à-dire qu'elle implique la notion d'homologie secondaire et non la seule notion de ressemblance. Régions parasynténiques : terme qui fait référence à des régions génomiques dont la divergence est due à des événements de duplication. Synténie : terme qui fait référence à deux ou plusieurs gènes localisés sur le même chromosome. Synténie conservée : terme utilisé lorsque deux ou plusieurs gènes homologues sont synténiques au sein de deux espèces (Graur et Li, 2000). Figure 1 I Figure 2 II A B C D E F G I J K L M N O Tétraploïdisation II1 II2 H I1 H C1 A1 B1C1 D1 1 E 1 F 1 G 1 H 2 M 2 N 2n chromosomes n=2 P I2 A1 B1C1 D1 1 E 1 F 1 G 1 Espèce A, diploïde ancestrale A2 B2C2 D2 2 E 2 F 2 G H2 P J2 Espèce B, tétraploïde 4n chromosomes n=2 P P Diploïdisation C2 C3 A2 B2C2 D2 2 O 2 I2 K2 L2 2 M N2 2 2O I1 1 J 1 K L1 1 M N1 1 1O 1 1O P E2 G2 F2 H2 C4 I2 2 J K2 L2 I1 J1 1 K L1 1 M N1 Espèce C, diploïde 2n chromosomes n=4 Exemple de regions paralogues Lisamphibiens Actinoptérygiens T2 564 751 T1 >751 T1 <833-993 Chondrichthyens (requins) Pétromyzontides (lamproie) Myxinoïdes (myxine) Céphalochordés (amphioxus) Urochordés (Cione) Echinodermes Insectes (Drosophile) 833-993 Nématodes (vers ronds) Deutérostomiens 528 Protostomiens 450 Amniotes Vertébrés 360 Gnathostomes ? Ostéichthyens T2 Tétrapodes Figure 3 6p21.3 9q32-34 19p13 1p31-11 1q23-31 CMH Figure 4 Régions de paralogies du CMH humain Proto-CMH de l’ancêtre Proto-CMH de l’ancêtre des vertébrés à mâchoires Proto-CMH de l’amphioxus des Chordés