Université d`Evry Val d`Essonne

Transcription

Université d`Evry Val d`Essonne
Université d’Evry Val d’Essonne
Ecole doctorale : Des génomes aux organismes
Thèse de doctorat
Présentée par
Olivier Jaillon
Le 15 décembre 2006
La séquence du génome de Tetraodon nigroviridis
comme outil dans l’inventaire des gènes humains
et dans l’analyse de l’évolution des chromosomes
de vertébrés.
Rapporteurs
Examinateurs
Directeurs
Hervé Le Guyader
Laurent Duret
Pierre Pontarotti
Alain Vignal
Jean Weissenbach
William Saurin
2
En souvenir de ma mère
3
Au cours de ces années de nombreuses personnes m’ont accompagné et fait progresser. Ce
mémoire est aussi en partie le leur.
C’est un chemin où je me suis fait piégé par un petit poisson qui a souvent gardé mes
esprits dans un bocal. Je lui dois des nuits en eaux sombres, des réveils d’angoisse mais
aussi le plaisir aigu de percer la surface en remontant du fond des morceaux de mondes
engloutis.
Les eaux furent rarement calmes et de nombreuses personnes ont apporté leur contribution
pour réduire le tumulte. En premier lieu, Jean Weissenbach et William Saurin m’ont offert leur
confiance et leur soutien. J’ai beaucoup appris auprès d’eux. Leur contact est précieux.
Une part importante du projet et donc de ce mémoire revient directement à Hugues Roest
Crollius. La bicéphalie est révolue aujourd’hui et je salue son professionnalisme et ses
multiples talents. Nous avons fait résonné de nombreux murs et partagé de nombreuses
anecdotes. Je me souviendrai de son mouvement de paupières lors d’une pause d’un
colloque à Kansas City en m’entendant demander, sans le savoir, à une éditrice de Science
son sujet de travail chez la société AAAS indiquée sur son badge.
J’évoque dans ce manuscrit l’impact de nos présupposés dans le dessin que l’on fait de la
génétique. Avec Hugues, nous avions imaginé deux façons qui nous paraissaient
convenables d’estimer le nombre de gènes humains. La première aboutissait à 104000
gènes, résultat que nous avions précipitamment communiqué à Jean, agréablement surpris
par ce résultat plutôt au-dessus des valeurs attendues. Avec la seconde méthode, la valeur
devait être beaucoup plus basse et nous ne l’avons pas vraiment considérée pendant des
heures. Je crois que nous avons alors considérablement biaisé notre appréciation par notre a
priori au point de ne pas voir une grossière erreur de raisonnement. Nous avons dû faire
appel à la logique de William pour être terrassés par la réalité. Il a fallu ensuite des semaines
et des semaines de chasse à l’erreur pour s’assurer de la validité du résultat.
La seconde moitié de cette aventure est marquée, je devrais dire révolutionnée, par JeanMarc Aury. La force tranquille.
Claude Scarpelli, gardien du phare a toujours été là. A de nombreuses reprises, j’ai été sauvé
par ses lumières.
Je regrette encore le départ un peu prématuré vers d’autres rives de Michael Levy. Aussi à
l’aise en C, en algorithmique de fouille de texte qu’en arrachage de moquette, j’espère que
nous pourrons travailler à nouveau ensemble un jour.
Francis Quétier patrouille les eaux depuis le début. Je le remercie vivement pour toute son
aide irremplaçable.
Merci à Vincent Schachter pour sa bienveillance envers la rédaction de ce mémoire.
Fin octobre 2000, dans un courriel dont le sujet était « petit poisson mangé par plus gros
que lui », Jean nous annonçait la résurrection du projet Fugu et de son financement massif,
4
synonyme de mort de notre projet Tetraodon. Sans la décision alors d’Eric Lander de faire
participer le broad institute à l’effort de séquençage, nous ne saurions sans doute pas si le
génome de ce poisson est un bon modèle. Je lui suis très modestement reconnaissant.
Le projet Tetraodon était structuré autour d’une équipe, ex groupe wanda. Je ne sais si c’est
le souvenir de ces sandwiches garnis à la mie ou les résultats tirés à la dernière minute que
l’on y présentait mais je garde une part de nostalgie de ces déjeuners de travail qui nous
réunissaient et m’épuisaient. Je salue Alain Bernot, Laurence Bouneau, Corinne Dasilva,
Cécile Fischer et Sophie Nicaud. Des personnes annexes à ce groupe ont significativement
contribué au travail. En premier lieu, nous avons profité ponctuellement du savoir-faire de
Jean-Louis Petit et Marcel Salanoubat. Avec eux, nous avons pu hisser la grande voile. Je
salue aussi ici le succès d’une collaboration avec Marc Robinson Rechavi et Frederic Brunet à
l’école normale supérieure de Lyon. Je fais référence au travail de Frédéric dans mon
manuscrit, mais je tiens à le souligner. Merci aussi à Catherine Ozouf-Costaz du muséum
national d’histoire naturelle.
Je crains d’oublier de citer toutes celles et ceux qui devraient l’être. Je remercie
chaleureusement toute l’équipe informatique et bioinformatique de Genoscope. Certains
sont partis, d’autres arrivés, l’excellence est constante. Je ne saurais les citer tous, qu’ils me
pardonnent. Tout de même, Véronique Anthouard, François Artiguenave, Carole Dossat,
Ralph Eckenberg, Claire Jubin, Eric Pelletier, Laurent Saint Marthe, Sumita Samair, Claude
Verdier Discala sont directement intervenus dans certains aspects que je présente dans ce
mémoire.
Genoscope est un paquebot. Merci à tous ceux qui ont mouillé leur blouse des remous de
Tetraodon. Et en premier lieu Patrick Wincker. Merci aussi à Véronique De Berardinis, Julie
Poulain, Béatrice Segurens et bien d’autres.
J’apprécie quotidiennement le soutien qu’apporte Monique Meunier. L’occasion m’est
donnée pour lui témoigner ma gratitude. Je remercie aussi Catherine Sarlande et Corinne
Kopec toujours serviables.
J’ai la chance de partager le port avec deux sirènes Florence et Eva. Leur chant ne me fait pas
perdre la raison, tout au contraire c’est une ressource vitale. Aujourd’hui, je peux fredonner
avec ma fille sans amertume que « les petits poissons dans l’eau nagent aussi bien que les
gros ».
Je remercie toute ma famille qui m’a encouragé dans l’entreprise. J’espère qu’elle n’a pas
désespéré de me voir perdre ce statut d’étudiant. Mais je le retrouverai peut-être.
Enfin, je remercie les membres du jury qui ont consacré de leur temps ce qui
précieux.
5
6
Tétraodon Noir et vert. (Tetr, nigroviridis. N.)
Corps lisse ; dos d’un vert brillant, orné, ainsi que les flancs, de taches noires et rondes.
Un seul individu, observé dans une mare d’eau douce sur la côte N.E. de Sumatra, avait environ 2½ pouces
de long.
Marion de Procé in :
Bulletin des sciences par la société philomatique de Paris. Année 1822. pp130131
7
Sommaire
Sommaire...............................................................................................................................8
1
Avant-propos................................................................................................................11
2
Introduction .................................................................................................................11
2.1.1
Evolution des génomes............................................................................................................. 11
2.1.2
De la génomique à la génomique comparative .......................................................................... 15
2.1.3
Programme génome humain ..................................................................................................... 17
2.1.3.1
Historique....................................................................................................................... 17
2.1.3.2
Stratégies d’assemblage du génome humain .................................................................... 18
2.1.3.3
Stratégies de détection des gènes ..................................................................................... 20
2.1.3.4
Accompagner le génome humain par d’autres génomes ................................................... 21
2.1.4
Takifugu rubripes : Un génome modèle de vertébré .................................................................. 22
2.1.4.1
Taille réduite de l’ADN................................................................................................... 23
2.1.4.2
Premières analyses des génomes de mammifères en utilisant celui de T. rubripes............. 24
2.1.5
Choix du séquençage de Tetraodon nigroviridis........................................................................ 25
3
Caractérisation du génome de Tetraodon nigroviridis.................................................26
3.1.1
Caractérisation cytogénétique................................................................................................... 26
3.1.2
Caractérisation génomique : Article 1 "Characterization and repeat analysis of the compact
genome of the freshwater pufferfish Tetraodon nigroviridis." Genome Res 10(7): 939-49. ...................... 26
4
Détection d’exons humains par homologie de séquences avec Tetraodon nigroviris...38
4.1
4.1.1
4.1.2
4.1.3
4.1.4
4.2
4.2.1
4.2.2
Généralités......................................................................................................................38
Définitions............................................................................................................................... 38
Mesurer la performance d’une annotation ................................................................................. 38
Méthodes ab-initio ................................................................................................................... 40
Méthodes par comparaison ....................................................................................................... 42
Exofish ............................................................................................................................44
La problématique ..................................................................................................................... 44
Développements autour de la comparaison de séquences........................................................... 45
4.3
Article 2 "Estimate of human gene number provided by genome-wide analysis using
Tetraodon nigroviridis DNA sequence." Nat Genet 25(2): 235-8..............................................48
4.4
Test de généralisation d’exofish à d’autres phylums ....................................................53
4.4.1
Généralités............................................................................................................................... 53
4.4.2
Article 3 "Assessing the Drosophila melanogaster and Anopheles gambiae genome annotations
using genome-wide sequence comparisons." Genome Res 13(7): 1595-9. ............................................... 54
4.5
De la détection d’exons à la structure de gènes par la conservation de l’ordre des
exons (des ecores aux ecotigs) .....................................................................................................60
4.5.1
Principe ................................................................................................................................... 60
4.5.2
Résultats .................................................................................................................................. 61
4.5.3
Article 4 "Genome-wide analyses based on comparative genomics." Cold Spring Harb Symp
Quant Biol 68: 275-82............................................................................................................................ 63
4.6
5
6
8
Limites d’exofish ............................................................................................................72
Autres méthodes de détection d’exons par homologie..................................................74
5.1
De l’homologie dans des modèles de Markov ................................................................74
5.2
Multiplier les séquences de génomes informants...........................................................76
5.3
Synthèse par un modèle statistique................................................................................78
Evolution de l’organisation des gènes et des chromosomes de vertebrés .....................83
6.1
Article 5 "Genome duplication in the teleost fish Tetraodon nigroviridis reveals the
early vertebrate proto-karyotype." Nature 431(7011): 946-57..................................................83
6.2
Scénario évolutif des chromosomes de vertebrés ..........................................................97
6.2.1
Introduction ............................................................................................................................. 97
6.2.2
Inférer une structure chromosomique ancestrale à partir de résultats de synténie...................... 100
6.2.2.1
Entre mammifères et Tetraodon .................................................................................... 100
6.2.2.2
Compléter par l’utilisation de la séquence du poulet Gallus gallus ................................. 101
6.3
Perspectives ..................................................................................................................104
6.3.1
Inférer l’ordre des gènes sur un génome ancestral ................................................................... 104
6.3.1.1
Acquisition de données génomiques .............................................................................. 105
6.3.1.2
Problèmes méthodologiques.......................................................................................... 106
6.3.2
Inférer une séquence ancestrale .............................................................................................. 107
7
Conclusion .................................................................................................................110
7.1
Sur les questions abordées ...........................................................................................110
7.1.1
Exofish, expliquer et prédire................................................................................................... 110
7.1.1.1
Estimation du nombre de gènes humains ....................................................................... 111
7.1.1.2
Proposition de 900 gènes humains non annotés.............................................................. 116
7.1.1.3
Généralisation d’exofish................................................................................................ 117
7.1.2
Duplication complète de génome chez les téléostéens ............................................................. 118
7.1.2.1
Généralités.................................................................................................................... 118
7.1.2.2
Etendue des duplications totales de génome chez les vertébrés....................................... 120
7.1.2.3
Démonstration de la duplication ancestrale du génome de Tetraodon ............................. 123
7.1.2.4
L’hypothèse 2R............................................................................................................. 123
7.1.3
Hypothèses ............................................................................................................................ 125
7.1.3.1
Scénario évolutif des génomes de vertébrés ................................................................... 125
7.1.3.2
Cooccurrence de la duplication totale de génome de téléostéens et leur radiation............ 127
7.1.3.3
Complexité des génomes............................................................................................... 128
7.2
Discussion autour de questions non abordées .............................................................129
7.2.1
Pseudogènes .......................................................................................................................... 129
7.2.2
Epissage alternatif.................................................................................................................. 130
7.2.3
La compaction ....................................................................................................................... 131
7.2.3.1
Généralités.................................................................................................................... 131
7.2.3.2
Compaction et éléments transposables ........................................................................... 132
7.2.3.3
Compaction et introns .................................................................................................. 133
7.2.3.4
Conclusion sur la compaction........................................................................................ 138
7.3
Utilisation des séquences de Tetraodon par d’autres équipes .....................................140
7.4
Vastes perspectives.......................................................................................................141
Références .........................................................................................................................142
8
Compléments..............................................................................................................159
8.1
Données supplémentaires de l'article 2 "Estimate of human gene number provided by
genome-wide analysis using Tetraodon nigroviridis DNA sequence." Nat Genet 25(2): 235-8.
159
8.2
Données supplémentaires de l'article 5 "Genome duplication in the teleost fish
Tetraodon nigroviridis reveals the early vertebrate proto-karyotype." Nature 431(7011): 94657.
161
8.3
8.3.1
8.3.2
8.3.3
8.3.4
Assemblage ...................................................................................................................223
Détection des chevauchements ............................................................................................... 223
Disposition des fragments ...................................................................................................... 223
Définir une séquence consensus.............................................................................................. 224
Assemblage de grands génomes.............................................................................................. 224
Figures ..............................................................................................................................226
9
Figure 1 Distribution de conservation de 2 gènes humains le long de leur séquence...................................... 226
Figure 2 Nombre de publications par année depuis 1945 d’anatomie comparée (rouge) et de génomique
comparative (bleu)........................................................................................................................................ 226
Figure 3 Takifugu rubripes. .......................................................................................................................... 227
Figure 4. Cladogramme simplifié des vertébrés............................................................................................. 227
Figure 5 Comparaison à léchelle de la région humaine du gène de la maladie de Huntington et de son
orthologue chez Takifugu rubripes. ............................................................................................................... 228
Figure 6. Mesures des tailles d'ADN de différents poissons par Hinegardner. ................................................ 229
Figure 7 Tetraodon nigroviridis. ................................................................................................................... 229
Figure 8 Représentation des différentes fraction nucléotidiques d'une annotation. ......................................... 230
Figure 9 Représentation des différents types d'exons prédits par une annotation. ........................................... 230
Figure 10. Modèle de Markov à états cachés implémenté dans Genscan ........................................................ 230
Figure 11. Matrice de score de tblastx construite pour exofish entre Tetraodon et l'humain ........................... 231
Figure 12 Distribution du nombre d'ecores (ou exons) par ecotig (ou par gène)............................................. 231
Figure 13 Le plus long ecotig sur le génome humain. ................................................................................... 232
Figure 14 Distribution de la précision des écotigs. ........................................................................................ 233
Figure 15. Ombrage phylogénétique (phylogenetic shadowing) ..................................................................... 234
Figure 16. Proportion de la séquence humaine contenue dans les alignements de différents vertébrés............ 235
Figure 17. Modélisation d'alignement multiple .............................................................................................. 235
Figure 18 Modèle théorique de sélection des alignements entre Tetraodon et l'humain................................... 236
Figure 19. Distribution des alignements de séquences par exofish entre Tetraodon et l'humain. ..................... 237
Figure 20. Matrice de sélection des alignements d'exofish entre Anopheles et Drosophila. ............................. 238
Figure 21 Distribution des longueurs des fragments synteniques entre Tetraodon et l'humain, ou entre Tetraodon
et la souris.................................................................................................................................................... 238
Figure 22 Carte d'orthologie entre Tetraodon et le poulet.............................................................................. 239
Figure 23. Principe des DCS : Double synténie conservée............................................................................. 240
Figure 24 Carte d'orthologie entre Tetraodon et le poulet, avec blocs ancestraux. ......................................... 241
Figure 25. Carte d'orthologie entre Tetraodon nigroviridis et l'humain.......................................................... 242
Figure 26 Carte d'orthologie entre l'humain et le poulet, avec blocs ancestraux............................................. 243
Figure 27 Distribution des régions chromosomiques ancestrales sur les chromosomes modernes de Tetraodon.
..................................................................................................................................................................... 244
Figure 28 Distribution des régions chromosomiques ancestrales sur les chromosomes modernes de poulet
Gallus gallus. ............................................................................................................................................... 245
Figure 29. Caryotype d'un vertebré ancestral à 12 chromosomes................................................................... 246
Figure 30. Carte de syntenie entre le chromosome 13 de Tetraodon et les chromosomes humains ayant des gènes
orthologues................................................................................................................................................... 247
Figure 31. Distribution des paris sur le nombre de gènes réalisés lors de la conférence de génomique en mai
2000 à Cold Spring Harbor........................................................................................................................... 247
Figure 32. Scénario évolutif hypothétiques des gènes Hox ............................................................................. 248
Figure 33. Nombre de publications référencées contenant "Tetraodon" dans le résumé.................................. 249
10
1 Avant-propos
Ce document est une compilation de résultats et de commentaires issus de plusieurs années de
travaux. Les résultats sont pour beaucoup le fruit d’un travail d’équipe. Presque tous sont
présentés sous la forme d’articles scientifiques publiés. J’ai retenu les articles qui résultent
d’une contribution importante de ma part, et qui forment un ensemble cohérent. J’ai essayé de
replacer chaque article dans son contexte et d’ajouter au besoin de nouveaux résultats qui me
paraissent nécessaires. La rédaction elle-même s’est étalée sur plusieurs années et j’espère
avoir évité les anachronismes et les hypothèses obsolètes.
Ce document peut être divisé en 2 parties qui correspondent à 2 résultats principaux.

Détection de gènes humains. Cette partie est le fruit du développement d’un
outil bioinformatique : exofish. Son application a débouché sur une estimation du
nombre de gènes humains (article 2). Son utilisation dans d’autres phylums démontre
la généralisation de l’approche (articles 3 et 4).

Evolution des chromosomes de vertébrés depuis un ancêtre commun. Cette partie
correspond à une analyse comparée des chromosomes de vertébrés et à une
proposition de scénario évolutif depuis un ancêtre commun (article 5).
L’ensemble s’inscrit dans le projet de séquençage et d’analyse du génome du poisson
téléostéen Tetraodon nigroviridis. Je présenterai le contexte scientifique de ce projet. La
description de ce génome est faite dans les articles 1 et 5.
2 Introduction
2.1.1 Evolution des génomes
Au cours de ce manuscrit, j’utiliserai à de nombreuses reprises la notion d’évolution des
espèces. Nous nous plaçons dans un cadre théorique de l’évolution selon lequel une mutation
intervient de façon aléatoire, puis subit la sélection naturelle. Par conséquent, la probabilité de
transmission d’une mutation dépend à la fois de ses conséquences fonctionnelles et du degré
de contrainte qui s’y applique.
Ce cadre global s’accorde avec la théorie neutraliste de l’évolution proposée par Motoo
Kimura :
« La majorité des substitutions nucléotidiques au cours de l’évolution résulte de la fixation
aléatoire de mutants neutres » (Kimura, 1968). Ce principe proposé avant la découverte des
11
introns chez les eucaryotes a été explicité par la suite par Kimura lui-même pour en tenir
compte :
« Selon la théorie neutraliste, plus les contraintes fonctionnelles sont faibles, plus la
proportion de mutations sélectivement neutres est importante, et par conséquent, plus le taux
d'évolution est élevé. »(Kimura, 1983).
Au temps écoulé correspond une dérive aléatoire des nucléotides. Cette dérive se caractérise
par des mutations. Mais leur conservation d’une génération à l’autre dépend alors de la
sélection naturelle. Les mutations n’ayant aucun effet sont dites « neutres » et ne subissent
aucune sélection négative ou positive. Les mutations qui apportent un gain d’efficacité seront
sélectionnées positivement. D’autres au contraire seront contre sélectionnées, par exemple si
leur effet est létal.
Lorsque nous comparons plusieurs génomes en tout ou parti, nous admettons que ceux-ci
dérivent d’un ancêtre commun. Cet élément est évidemment fondamental. Depuis le dernier
ancêtre commun, chaque génome a subi sa propre évolution. Les mutations se produisent de
manière aléatoire indépendamment sur chaque génome, mais les types de forces qui les
régulent sont communs. Les régions du génome qui sont non fonctionnelles (en dehors des
exons et des régions régulatrices) ont peu de contraintes et accumulent librement les
mutations. Par opposition, la plupart des régions fonctionnelles subissent une pression de
sélection et les mutations fixées sont beaucoup moins nombreuses. Une partie des régions
fonctionnelles subissent une pression positive et accumulent alors plus de mutations que de
façon aléatoire.
Dans l’introduction de Evolution by gene duplication, Susumo Ohno exprime en quelques
lignes un point de vue un peu différent :
Evolution is nothing but the consequence of continuous accumulation of genetic
changes within the genome, and natural selection operates only because individuals
which comprise a population invariably display some degree of genetic diversity.
(Ohno, 1970)
La figure 1 (Figure 1) illustre 2 exemples de la distribution de la conservation de 2 gènes
humains. Ces exemples sont tirés d’un outil permettant une consultation graphique de la
séquence et des annotations de plusieurs génomes (dont le génome humain). Cet outil,
communément appelé « genomebrowser » a été développé par l’université de Santa-Cruz en
12
Californie et est accessible par internet (http://genome.ucsc.edu). (Karolchik et al., 2003; Kent
et al., 2002)
Dans ces 2 exemples, un score de conservation oscille le long du gène. Nous pouvons
considérer ici ce score comme une valeur inversement proportionnelle au taux de substitution
nucléotidique entre l’humain et un ensemble d’espèces dont la distance phylogénétique est
prise en compte. Ici, la séquence humaine a été comparée à celle des génomes de chimpanzé,
souris, rat, chien, poulet, fugu et poisson-zèbre. A chaque exon, la valeur de conservation est
maximale. Les mutations ne sont donc pas maintenues de façon aléatoire le long du gène mais
sont sous-représentées dans les exons. Cette distribution non homogène de la conservation est
le reflet de l’effet de la sélection naturelle.
Dans ces exemples, le score de conservation est minimal, c’est-à-dire que les substitutions
nucléotidiques sont maximales, dans les introns et exons non codants (UTR). Cette proportion
importante de substitutions confirme une moindre contrainte fonctionnelle par rapport aux
exons qui permet leur accumulation librement. Cependant, le score peut aussi être maximal
dans ces régions non codantes, reflétant potentiellement d’autres contraintes fonctionnelles
locales.
Une variabilité de conservation est aussi attendue en fonction des exons d’une même protéine,
ou plutôt en fonction du rôle des exons dans la protéine. Par exemple, le site catalytique d’une
enzyme subit une pression de sélection plus importante que les zones dépourvues de rôle
fonctionnel autre que structurant. La comparaison du protéome de souris et de l’humain l’a
confirmé à l’échelle du génome entier (Waterston et al., 2002b). En moyenne, leur protéines
orthologues s’alignent avec 78.5% d’identité. Cependant, au niveau des domaines catalytiques
l’identité est en moyenne de 96.6%. Tandis qu’au niveau des zones protéiques dépourvues de
tout domaine, l’identité est de 71.1%. Cette dernière valeur est même une surestimation car
l’identification des domaines est faite par prédiction, et est sans doute encore incomplète.
La conservation n’est pas homogène selon la fonction des gènes. Ainsi, parmi les
mammifères, les gènes du système immunitaire sont moins conservés que les gènes impliqués
dans le développement et dans le système nerveux central (Sironi et al., 2005).
Cette accumulation de substitution au cours de l’évolution nous donne un moyen de mesure
de la distance séparant 2 génomes. Si l’on est capable de relier le taux de substitution d’une
13
région à sa contrainte fonctionnelle, nous pouvons aussi utiliser cette propriété comme un
accès aux régions fonctionnelles.
La première partie de ce document et les articles publiés correspondants traitent de cet aspect.
Les insertions et délétions subissent bien sûr aussi la pression de sélection. Elles s’observent
en effet majoritairement dans les régions non fonctionnelles.
L’impact de ces mutations peut être considérable, la fonction d’une protéine peut en être
altérée. La détection de ce type de mutations se fait à une résolution fine, à l’échelle du gène.
Les programmes successifs de cartographie du génome humain avaient, entre autres, pour
objectif, la détection de gènes dont des mutations les rendent responsables de maladies
génétiques (Cohen, Chumakov & Weissenbach, 1993; Cox et al., 1994; Dib et al., 1996;
Schuler et al., 1996). L’efficacité de ces cartes dépend grandement de leur résolution.
Il existe un type d’événements qui s’observe à une résolution beaucoup plus large, à l’échelle
de chromosomes entiers, les réarrangements chromosomiques. Un génome contenant n gènes
sur p chromosomes a subi au cours de l’évolution des événements qui ont modifié la
répartition des gènes sur les chromosomes et leur ordre. Ni l’ordre des gènes, ni n, ni p n’est
stable. Des régions de l’ADN peuvent se dupliquer, se déléter, se transloquer à proximité ou
sur un autre chromosome, se fragmenter et créer des chromosomes supplémentaires, ou se
concaténer et diminuer le nombre de chromosomes. Le génome est une entité plastique au
cours du temps.
Si la comparaison de 2 gènes mesure un pourcentage d’identité qui traduit l’évolution au
nucléotide près, la comparaison de 2 génomes entiers doit mesurer une distance qui traduit le
nombre de réarrangements chromosomiques. La notion de distance génomique correspond au
nombre minimum de réarrangements permettant la transformation d’un chromosome en un
autre (Pevzner, 2000). Formellement, il existe 2 types de réarrangements : translocations (un
ensemble de gènes d’un chromosome provenant d’un autre chromosome) et inversions
(inverse l’ordre des n gènes consécutifs sur un chromosome). La translocation peut être
inégale, un chromosome peut perdre plus de gènes qu’il n’en reçoit. Les événements de
cassures et de fusions sont des cas particuliers de translocations très inégales où un
chromosome a une taille nulle (cassure) et où un chromosome ne reçoit rien et donne tout
(fusion). En supposant connaître les régions homologues, il est envisageable de comparer 2
génomes complets afin d’analyser les caractéristiques de ces réarrangements (leur nombre,
leur emplacements etc.…). Aussi, la cartographie respective de régions homologues entre 2
14
génomes indique le parcours évolutif depuis leur dernier ancêtre commun. Ainsi, entre les
génomes de l’humain et de la souris, il existe environ 300 blocs communs. Les 2 génomes se
différencient par l’organisation de ces blocs (leur ordre, leur localisation chromosomique)
(Waterston et al., 2002b).
Aux réarrangements doit s’ajouter un type d’événements évolutifs majeurs : les duplications.
Une duplication est une région génomique plus ou moins grande « copiée » et intégrée à un
autre endroit dans le même génome. La duplication est dite segmentale lorsqu’elle fait
intervenir une zone limitée du génome. Elle peut être aussi totale dans le cas où l’ensemble
du génome est dupliqué, chaque gène, chaque chromosome se trouvant alors en 2 copies. La
duplication est considérée comme une vraisemblable source importante d’acquisition de
nouvelles fonctions pour un organisme. Une des 2 copies d’un gène peut dériver soit vers son
élimination progressive, soit vers une modification de sa fonction (et donc potentiellement un
avantage évolutif), l’autre copie continuant à assurer sa fonction première (Ohno, 1970).
La seconde partie de ce document et l’article 5 présentent une analyse évolutive de
l’organisation chromosomique des vertébrés.
2.1.2 De la génomique à la génomique comparative
Le terme génomique comparative est la francisation directe de l’anglais « comparative
genomic ». Par analogie à d’autres disciplines plus anciennes, il aurait peut-être été préférable
de parler de « génomique comparée » comme « anatomie comparée ». L’usage en est
autrement, reflétant sans doute la position du point d’équilibre géographique des principaux
acteurs du domaine.
Quant au terme génome, il a été introduit la première fois par Winkler en 1920 en combinant
gène et chromosome (Ruddle, 1998). Il signifie l’ensemble haploïde des gènes présents sur
les chromosomes d’une espèce. Notons que le terme fut utilisé à une époque où la nature
chimique du gène était inconnue. Mais le terme entendait bien la notion d’héritabilité.
La génomique comparative n’implique pas une utilisation restrictive des séquences nucléiques
mais se rapporte globalement à l’utilisation d’informations du génome. L’appellation sousentend une utilisation d’un volume important de données, à l’échelle d’un génome entier ou
d’une partie significative.
15
Comparer des séquences (nucléiques ou protéiques) implique souvent de quantifier leur
similarité. Selon le contexte, on parlera alors de distance génomique (nombre de
réarrangements minimum mesurables) ou de distance d’édition, de pourcentage d’identité ou
de similarité (termes assez neutres qui ne font a priori aucune hypothèse sur l’évolution).
Les objectifs possibles sont très nombreux, mais on peut distinguer deux catégories. Un
premier ensemble consiste à apporter de l’information sur une ou plusieurs séquences. Par
exemple, localiser une région fonctionnelle au sein d’une séquence (un exon entier, un
promoteur, un site d’épissage etc.). L’annotation dite structurale correspond à cette notion à
grande échelle (un génome entier) et se contente de déterminer des positions sur la séquence
pour décrire la structure exon/intron des gènes par exemple. Une annotation dite fonctionnelle
peut être ajoutée et apporte des éléments d’information sur la fonction des gènes.
L’autre type d’approche consiste à rechercher et analyser des relations entre séquences. La
comparaison d’un ensemble de
séquences
biologiques pouvant
être
apparentées
évolutivement peut permettre différents types d’analyses de leur évolution. Un but possible
consiste à classer et hiérarchiser les séquences entre elles. Par exemple, calculer une
phylogénie d’un groupe de gènes. Un autre but peut être la recherche des événements
évolutifs passés de chacun des génomes comparés et déduire de ces réarrangements
génomiques des caractéristiques du génome du dernier ancêtre commun voire sa séquence.
D’autres applications ne sont pas directement liées à l’évolution. Par exemple, analyser la
redondance d’un ensemble de séquences de petites tailles comme la construction de groupes
d’ADNc à partir d’une grande collection.
Un exemple célèbre d’outil est blast (Altschul et al., 1990) qui permet une comparaison rapide
de séquences nucléiques ou protéiques. Cet outil qui est cité dans le résumé de plus de 14 000
publications allie une implémentation efficace d’un algorithme de fouille de texte, un modèle
probabiliste de significativité, et une simplicité d’utilisation. La génomique comparative est
donc à la frontière de plusieurs disciplines, informatique : mathématiques, génétique et
évolution. C’est une discipline récente. Les premières publications référencées datent de 1993
(Figure 2), en corrélation avec les premiers programmes de séquençage de génomes complets.
Chaque année le nombre de publications est grandissant, reflétant le dynamisme de cette
discipline qui est donc en plein essor.
Une grande partie des travaux présentés dans ce document pourrait être étiquetée comme des
exemples d’application de la génomique comparative.
16
2.1.3 Programme génome humain
En février 2001, était publiée une première analyse d’une version de travail (draft) de la
séquence du génome humain (Lander et al., 2001). Un nombre considérable d’articles de
presse et d’ouvrages divers ont salué non seulement une performance technologique et
scientifique (allant jusqu’à présenter ce programme comme une des principales aventures
humaines telle que la conquête spatiale), mais ont surtout appuyé la portée symbolique de
l’événement. Nous connaissons désormais l’intégralité moléculaire qui supporte notre
hérédité et notre évolution. L’écho médiatique de l’événement s’amplifia avec la publication
simultanée d’une seconde séquence réalisée par l’entreprise privée Celera dont le
charismatique président Craig Venter avait annoncé 2 ans plus tôt ce dessein en bouleversant
les plans du programme public (Venter et al., 2001). Cette course à la publication entre
initiative publique et privée affichant 2 visions distinctes du projet rappelait aux médias là
aussi la compétition entre Etats-Unis et Union Soviétique dans la course à la lune. La version
de la séquence humaine considérée « finale » fut annoncée en 2003, 50 ans après la mise en
évidence de la structure en double hélice de l’ADN par James Watson et Francis Crick. Les 2
hommes ont pu suivre de leur vivant (Francis Crick est mort en juillet 2004) l’ensemble du
chemin parcouru. James Watson s’est d’ailleurs investi pour supporter le programme génome
humain (Watson, 2001).
Nous rappellerons simplement ici le nécessaire pour introduire notre projet, car il en dépend à
la marge.
2.1.3.1 Historique
Le programme « Human Genome Project » est né dans les années 80 aux Etats-Unis suite à
un débat lancé par Robert Sinsheimer à l’université de Santa Cruz sur la faisabilité du
séquençage du génome humain. Il s’ensuivit une série de financements d’abord limités au
département américain à l’énergie (DOE), ensuite soutenus par l’académie américaine des
sciences (U.S. National Academy of Sciences). Dans la perspective d’une connaissance de
notre génome, notamment à des fins thérapeutiques, il était d’abord question d’un programme
de cartographie, le séquençage complet étant difficilement envisageable à cette époque.
L’initiation de ce projet devait changer les façons de penser et de travailler en biologie. En
effet, la biologie « traditionnelle » est conduite par le principe d’une hypothèse formulée au
départ qui est validée ou invalidée par des expériences. Ici, l’expérience est réalisée sans
hypothèse. Le produit de l’expérience, la carte ou la séquence, servira de support aux analyses
futures. Le projet s’apparente donc à la conquête d’un territoire au contour mal dessiné.
17
Dans les années 90, de nombreux travaux de cartographie ont été réalisés (Cohen et al., 1993;
Cox et al., 1994; Dib et al., 1996; Hudson et al., 1995; Schuler et al., 1996), plus de 16 000
marqueurs génétiques ont été localisés. Cependant, seule la séquence génomique complète
devrait permettre d’inventorier exhaustivement les gènes humains. Le séquençage public du
génome humain s’est organisé autour d’un consortium international suivant un programme
défini par le « Human Genome Project » (HGP) faisant intervenir 20 laboratoires de 7 pays
(Allemagne, Chine, Etats-Unis, France, Grande Bretagne, Japon), mais avec une grande
prédominance des groupes anglo-saxons et mené par Francis Collins (Collins & Galas, 1993;
Collins, Morgan & Patrinos, 2003; Collins et al., 1998). Ces laboratoires, centres de
séquençage, se sont créés en quelques années suivant les progrès continus dans la
robotisation. Mais le principe de séquençage utilisé n’est pas vraiment nouveau, les progrès
correspondent surtout à des améliorations de la mise en œuvre de la technique décrite par
Sanger (Sanger, Nicklen & Coulson, 1977).
Deux faits scientifiques majeurs ont eu un réel impact sur le programme génome humain.
2.1.3.2 Stratégies d’assemblage du génome humain
Le succès du séquençage complet du génome du nématode Caenorhabditis elegans a prouvé
que de tels projets sont devenus possibles avec des métazoaires (C. elegans Sequencing
Consortium, 1998). Le but du projet initial de Sydney Brenner était de comprendre la
différenciation cellulaire depuis l’œuf jusqu’au 959 cellules de l’adulte. La stratégie suivie au
cours de ce projet de séquençage était incrémentale, dite clone à clone. Le séquençage était
initié à partir de plusieurs points d’ancrage répartis de façon homogène le long des
chromosomes. Ces points sont constitués de « Sequences Target Site » (STS) (Olson et al.,
1989) avec une densité de 1 par 100Kb. Des clones contenant les inserts chevauchant ces sites
d’initiation sont ensuite choisis à partir d’une collection de Chromosomes Artificiels de
Bactéries (BAC). Chaque clone est ensuite séquencé de façon aléatoire (en fragmentant) puis
assemblé, avec éventuellement une étape de finition. Une étape finale consiste à reconstituer
les chromosomes entiers à partir des séquences de chaque BAC. D’autres génomes ont été
séquencés et assemblés de cette façon, comme la levure Saccharomyces cerevisiae (Goffeau
et al., 1996).
18
Craig Venter et Eugene Myers ont proposé une alternative à cette stratégie : le « Whole
Genome Shotgun » (WGS) (Venter et al., 1998; Weber & Myers, 1997) pouvant être utilisé
pour les futurs projets de séquençage et en particulier celui du génome humain. Puisque les
robots de séquençage sont restreints à des lectures de quelques centaines de nucléotides, l’idée
est d’obtenir en un minimum de temps un maximum de « cycles » de ces appareils. Les
régions séquencées étant tirées au hasard dans le génome, on s’attend à une redondance et un
chevauchement des lectures entre elles selon une loi de probabilité connue (Lander &
Waterman, 1988). La reconstitution de la séquence finale devant se faire par un programme
informatique d’«assemblage» le programme d’assemblage doit d’abord détecter les
chevauchements entre lectures puis les organiser les unes par rapport aux autres de façon
cohérente.
Eugene Myers défendait cette stratégie en proposant de choisir des inserts de tailles variables
qui se complètent, d’utiliser l’information de «lien clone » (2 extrémités séquencées d’un
même clone permettent de fixer leur éloignement et leur orientation mutuelles dans
l’assemblage). Il proposait aussi d’utiliser les ressources d’EST, qui potentiellement couvrent
de grandes régions génomiques du fait de l’élimination des introns qui sont très longs chez les
mammifères.
Devant la complexité du génome humain (grande taille et nombreuses séquences répétées
pouvant créer des ambiguïtés sur le placement des lectures dans l’assemblage), la
communauté était d’abord sceptique quant au succès de l’entreprise (Green, 1997). Phil Green
mettait surtout en avant une grande prudence face à une stratégie qui n’avait jamais été tentée
à cette échelle au regard de l’importance du projet. La réussite du WGS était spéculative sur
les difficultés non encore rencontrées.
Cependant le groupe de Venter a validé cette technique en publiant la séquence complète de la
mouche modèle Drosophila melanogaster (Adams et al., 2000; Myers et al., 2000) réalisée
sur ce schéma. Malgré le succès apparent de cette technique, l’assemblage de la séquence
humaine publiée dans Science a été réalisé en utilisant les données du consortium public
contrairement aux annonces (Myers et al., 2002; Venter et al., 2001; Waterston, Lander &
Sulston, 2002a; Waterston, Lander & Sulston, 2003). Cependant, aujourd’hui la technique de
WGS est communément employée pour de nombreux projets car plus économique. Et les
programmes d’assemblage d’un très grand nombre de fragments sont de plus en plus efficaces
(Batzoglou et al., 2002; Jaffe et al., 2003). Par contre, cette approche conduit à minimiser la
taille totale du génome. En effet, un WGS tend à éliminer les grandes régions dupliquées
(supérieures à 15Kb et similaires à plus de 97%). She et al. proposent d’améliorer la qualité
19
du résultat d’un WGS en clonant un certain nombre de BAC cartographiés (She et al., 2004).
Cela devrait permettre d’éviter cet artéfact à moindre coût.
2.1.3.3 Stratégies de détection des gènes
Bien évidemment, la disponibilité de la séquence d’ADN n’est pas suffisante pour disposer de
l’inventaire des gènes. Entre les débuts du projet HGP et la version actuelle de la séquence du
génome humain, le nombre de gènes annotés est passé de quelques centaines à 22 242 dans la
version 31 de Ensembl (www.ensembl.org, (Hubbard et al., 2005)). Mais paradoxalement
l’estimation du nombre total de gènes humains a été divisée par 4, passant d’environ 80 000 100 000, à 20 000 – 25 000 aujourd’hui (International Human Genome Sequencing
Consortium, 2004). En 1996, seulement la moitié environ des gènes humains était au moins
en partie représentée dans les banques de séquences exprimées d’EST (Hillier et al., 1996), et
comme nous le verrons plus loin, il aurait été possible d’en détecter au moins 75% en
disposant à moindre coût d’une séquence complète d’un génome de vertébré et d’un outil de
comparaison adéquat. Parallèlement au projet de séquençage il était indispensable de
développer les outils pour identifier, annoter les régions fonctionnelles du génome humain. Il
existe 3 voies d’investigations.
1. La détection des régions codantes par leurs propriétés statistiques. Ces techniques
dites ab-initio ont l’avantage d’être simple à appliquer. Elles souffrent de ne pas être
supportées par des données biologiques expérimentales.
2. La détection des régions codantes par comparaison avec des protéines ou des transcrits
connus. Ces approches sont très puissantes car elles apportent une validation
expérimentale. Elles sont techniquement difficiles et coûteuses à mettre en place et
peuvent être particulièrement biaisées.
3. La détection des régions codantes par comparaison avec d’autres espèces en exploitant
la différence de conservation avec les régions non codantes. L’inconvénient est de
disposer de suffisamment de données d’autres génomes de phylums adéquats.
Communément, une annotation globale tente de suivre toutes les approches et de définir une
collection de gènes en réconciliant toutes les ressources disponibles. Le groupe d’Ensembl a
été un des premiers à appliquer à grande échelle une annotation automatique par
réconciliation (Birney et al., 2004a; BIRNEY & ENSEMBL TEAM, 2003; Hubbard et al.,
2002). Il existe aujourd’hui différents outils disponibles qui définissent des « modèles de
gènes » par réconciliation (Allen, Pertea & Salzberg, 2004; Foissac et al., 2003; Howe,
Chothia & Durbin, 2002). L’analyse du génome de Tetraodon nigroviridis présentée dans
20
l’article 5 s’appuie sur la première annotation automatique d’un vertébré par un autre
protocole que celui d’Ensembl. Elle a été réalisée en réconciliant différentes ressources avec
le logiciel Gaze, développé par Kevin Howe (Howe et al., 2002).
2.1.3.4 Accompagner le génome humain par d’autres génomes
Avant la disponibilité de nombreuses séquences génomiques, la puissance des comparaisons
de génomes en tant qu’outil de prédiction de régions fonctionnelles de mammifère étaient
déjà démontrée. Par exemple en 1992, l’équipe de Francis Collins a découvert, chez l’humain,
une protéine nucléaire CSBP-1 répresseur de l’expression de la globine gamma qui se fixe en
amont du gène sur une région génomique d’une vingtaine de nucléotides. Les auteurs ont
identifié cette protéine en recherchant un site potentiel de fixation conservé chez plusieurs
mammifères par « phylogenetic footprinting ». Le principe repose sur la conservation des
régions fonctionnelles (exons et régions régulatrices) communes aux mammifères, qui sont
appelées empreintes phylogénétiques (Gumucio et al., 1992). Depuis la disponibilité de la
séquence complète de plusieurs génomes de mammifères, ce principe est aujourd’hui utilisé à
grande échelle.
Le programme HGP prévoyait la nécessité de disposer d’autres génomes de vertébrés pour
aider l’analyse du génome humain; de là, le terme de génome modèle. Il était concevable de
séquencer l’ADN d’une ou plusieurs espèces qui ne sont pas des animaux de laboratoire
classiques, mais que l’on pourrait choisir en raison des avantages que procurent leur génome.
Le choix doit être guidé par l’objectif de détecter le maximum de gènes humains, la distance
évolutive ne doit donc pas être trop grande. Il doit aussi et surtout être fixé par la faisabilité.
Le programme HGP avait initialement prévu le séquençage du génome de la souris à la suite
de l’humain. Cela est réalisé aujourd’hui et les comparaisons de génomes entre les 2
mammifères ont enrichi nos connaissances sur la génétique et l’évolution des mammifères
(Bradley, 2002; Waterston et al., 2002b). D’un point de vue génétique, la souris présente de
nombreux avantages. En tant que mammifère, la grande majorité des gènes humains ont un
orthologue chez la souris avec dans la plupart des cas la même fonction.
Les 2 premiers métazoaires séquencés C. elegans et D. melanogaster ont confirmé qu’un
large ensemble de gènes peuvent être identifiés par des comparaisons massives interespèces.
Mais en fonction de la distance évolutive, l’image obtenue est plus ou moins nette. Ainsi
seulement 30% des gènes de D. melanogaster ont un orthologue avec C. elegans, mais au
21
moins 60% ont un orthologue humain y compris parmi des gènes connus de maladies (Rubin
et al., 2000).
Le séquençage de différents génomes modèles est nécessaire, mais il doit être accompagné de
développement de nouveaux outils. Il s’agit de pouvoir comparer un volume important de
données. Le résultat doit non seulement éclairer les zones similaires ou non en tenant compte
des propriétés de l’évolution. Les techniques mises en œuvre sont celles de la génomique
comparative que nous avons définie plus tôt.
Les programmes de séquençage ont concerné jusqu’alors essentiellement quelques génomes
modèles et les comparaisons se faisaient essentiellement entre un petit nombre de génomes.
Aussi, pour compléter le séquençage de ces génomes modèles, de nombreux programmes en
cours ont pour mission de séquencer de nombreux génomes évolutivement proches les uns
des autres, voire plusieurs individus d’une même espèce (Margulies et al., 2005). Et il existe
des modèles pouvant estimer a priori l’efficacité de la comparaison de n espèces en fonction
de leur distance évolutive (Eddy, 2005).
2.1.4 Takifugu rubripes : Un génome modèle de vertébré
Au début des années 1990, la perspective de séquençage complet du génome humain était
considérée avec sérieux grâce aux progrès techniques de clonage et de séquençage. Par
ailleurs, ce projet devait être accompagné par le développement d’outils permettant l’analyse
de la séquence et en particulier la détection des gènes. Parallèlement, la possibilité de
détection de gènes par génomique comparative était démontrée (voir ci-dessus). La nécessité
de disposer au moins de la séquence complète d’un autre génome modèle pour aider l’analyse
du génome humain était donc admise. Cependant, le séquençage d’un autre génome de
mammifère représentait alors un coût trop important notamment en raison de sa taille. Par
ailleurs, un temps de divergence assez faible pourrait poser un problème pour la détection
sans ambiguïté d’un maximum de régions fonctionnelles (pas assez d’accumulations de
mutations dans les régions non fonctionnelles pour les distinguer des régions fonctionnelles).
D’autres génomes modèles d’eucaryotes, plus petits en nombre de nucléotides, paraissaient
beaucoup plus accessibles et donc plus prioritaires comme la levure (4,7Mb), C. elegans
(14Mb) ou la drosophile (165Mb). Le rapport entre la taille de ces génomes et celui d’un
mammifère modèle comme la souris (2.5Gb) correspond au rapport du coût financier
(respectivement 640, 215 et 18 fois). De plus ces génomes, bien qu’eucaryotes, n’auraient
22
certainement pas permis de détecter l’ensemble des gènes humains en raison d’une divergence
évolutive très grande. Le nombre de gènes attendus chez l’humain, environ 100 000 à
l’époque (Antequera & Bird, 1993), étant beaucoup plus grand que celui de la drosophile
(environ 14 000 (Adams et al., 2000)), la plupart des gènes humains ne pourraient être
détectés simplement par orthologie.
Le problème posé fut donc de concilier à la fois une distance évolutive permettant une
conservation des régions fonctionnelles, un ensemble de gènes équivalents, et un coût
restreint. A priori, choisir un génome de vertébré non mammifère (car trop proche) permet de
disposer d’un modèle d’organisme ayant le même plan de développement que les mammifères
et les mêmes fonctions.
En 1993, Sydney Brenner proposa d’utiliser le génome d’un poisson téléostéen dont la taille
du génome est environ 8 fois plus petite que celui de l’humain : le fugu (Takifugu rubripes)
(Brenner et al., 1993) (Figure 3). La séparation entre les téléostéens et les mammifères est
datée à environ 450 millions d’années (Powers, 1991) depuis la radiation des osteichtii
(Figure 4). Cette relative petitesse du génome est due à une structure dite compacte. Les
régions intergéniques et introniques sont en moyenne 8 fois plus courtes que chez l’homme.
Cependant la structure exon/intron est conservée, c’est-à-dire que pour un même gène chez
l’humain et chez T. rubripes le nombre d’exons est identique ainsi que les positions
d’épissage (Figure 5). Le clonage et le séquençage de la région homologue du gène de la
maladie de Huntington (HD) a permis de vérifier de façon spectaculaire cette propriété
(Baxendale et al., 1995). Ce gène contient 67 exons dans les 2 génomes, mais le gène couvre
170Kb chez l’homme et 23Kb chez T. rubripes (ratio = 7,4) (Figure 5).
2.1.4.1 Taille réduite de l’ADN
En 1968, Ralph Hinegardner a mesuré le contenu cellulaire en ADN de plus de 200 espèces
de poissons téléostéens (Hinegardner, 1968; Hinegardner, 1976). Il remarqua une gamme très
large répartie entre 0,40 et 4,4 pg (Figure 6). Avec une valeur modale autour de 1,0 pg. Les
plus grands génomes ont été mesurés dans le groupe des Callichthyidae. Mais la famille des
Tetraodontidae a un génome 10 fois plus court, environ 0,4 pg soit 6 à 8 fois moins que
l’ADN humain (Hinegardner, 1968; Hinegardner, 1976). La publication en 2002 de la
séquence du génome complet (Aparicio et al., 2002) a confirmé une taille d’environ 365 Mb.
23
2.1.4.2 Premières analyses des génomes de mammifères en utilisant celui de
T. rubripes
Si les premières comparaisons génomiques ont montré une meilleure conservation de régions
fonctionnelles de mammifères chez T. rubripes, confirmant les théories d’évolution
neutraliste, il fallait démontrer la fonctionnalité de ces régions dans chaque lignée. Samuel
Aparicio et al ont réalisé une expérience de constructions de souris transgéniques prouvant la
fonctionnalité de régions conservées avec T. rubripes. Ils ont identifié 3 régions conservées à
proximité du gène Hox-b4 de m. musculus. Une souris transgénique dépourvue de la première
région est aussi dépourvue de l’expression du gène Hox-b4 dans le mésoderme et dans
l’ectoderme. Mais surtout une construction de souris transgénique en incluant un autre
fragment du gène hox-b4 de T. rubripes conservé, permet l’expression de celui-ci (Aparicio et
al., 1995).
Cette expérience montre qu’il est possible de détecter des régions fonctionnelles de
mammifères avec la séquence
génomique de T. rubripes. Elle montre aussi que, sans
connaissance a priori, de la génétique de T. rubripes, il est possible de restaurer ou d’induire
une fonction chez m. musculus avec un fragment génomique conservé.
Certaines analyses de la synténie entre l’humain et T. rubripes ont montré que, sur certaines
régions génomiques, l’ordre des gènes est conservé entre T. rupripes et l’humain (Trower et
al., 1996; Yamaguchi et al., 1999; Yu et al., 2001). Cependant, là aussi, aucune analyse à
l’échelle du génome voire d’un chromosome n’avait pu être faite.
Entre 1995 et 2000, de nombreuses analyses de régions génomiques de T. rubripes choisies en
raison d’une homologie avec une région d’intérêt chez l’humain ont conclu à la conservation
des régions fonctionnelles et à une synténie importante à l’échelle du gène (Aparicio et al.,
1997; Boeddrich et al., 1999; Brunner et al., 2000; Coutelle et al., 1998; Elgar et al., 1999;
Elgar et al., 1995; Gellner & Brenner, 1999; How, Venkatesh & Brenner, 1996; Koh, Oon &
Brenner, 1997; Lim & Brenner, 1995; Lim & Brenner, 1997; Lim & Brenner, 1999; Lim et
al., 1997; Macrae & Brenner, 1995; Mason et al., 1995; Naito et al., 1998; Peixoto & Brenner,
2000; Peixoto, Mikawa & Brenner, 2000; Riboldi Tunnicliffe et al., 2000; Richardson et al.,
2001; Sandford et al., 1996; Sarwal et al., 1996; Schofield et al., 1997; Trower et al., 1996;
Venkatesh & Brenner, 1997; Venkatesh & Brenner, 1998; Venkatesh et al., 1996; Yamaguchi
& Brenner, 1997; Yamaguchi, Macrae & Brenner, 1996; Yamaguchi et al., 1999; Yeo et al.,
1997; Yu et al., 2001). Suite à ces analyses, la communauté a disposé de nombreuses
24
informations sur la synténie entre les génomes de T. rubripes et de l’humain mais ces données
étaient trop parcellaires pour les extrapoler au génome entier. Nous avons montré par la suite
que de nombreux remaniements chromosomiques (translocations, fusions, cassures) ont eu
lieu depuis la radiation entre la lignée des téléostéens et la lignée des mammifères. Ces
réarrangements ont rompu l’ordre des gènes à l’échelle des chromosomes. Mais il est vrai
qu’à l’échelle de quelques gènes consécutifs, l’ordre est parfois conservé.
Par ailleurs, dans une perspective de détection des gènes humains, la conservation des régions
fonctionnelles décrite dans ces analyses ne donne pas assez d’éléments pour envisager une
analyse sur tout le génome. En particulier, les auteurs décrivent une distinction entre introns et
exons aisée grâce à une moindre conservation dans les introns. Cependant qu’en est-il pour
tous les gènes ? Est-ce que tous les exons ont le même degré de conservation et les introns le
même degré de divergence ? Afin de détecter tous les gènes humains de cette façon, il
nécessiterait que l’exon le moins conservé le soit plus que le plus conservé des introns. Qu’en
est-il ? Par ailleurs comment comparer 2 génomes de vertébrés avec un ordinateur dans une
durée et avec une occupation mémoire acceptable ?
2.1.5 Choix du séquençage de Tetraodon nigroviridis
Vers la fin des années 1990, le projet de séquençage du génome humain par un consortium
public international était initié sous la coordination de Francis Collins. Suite aux projets de
cartographies (Dib et al., 1996), la connaissance de la séquence complète du génome humain
devait faciliter l’identification de gènes responsables de maladies. Aussi, les perspectives
thérapeutiques attendues ont nettement argumenté en faveur de ce projet (Collins, 1997;
Collins et al., 1998; Fink & Collins, 1997).
Parmi les différentes solutions d’identification de gènes, la génomique comparative était
reconnue comme performante et l’intérêt du génome de T. rubripes démontré. Cependant,
malgré ces bénéfices évidents de disposer de la séquence complète du génome d’un vertébré
tel qu’un poisson téléostéen (voir ci-dessus), aucun organisme de recherche ne proposait alors
un projet de séquençage complet. En 1997, une très faible fraction de la séquence génomique
de T. rubripes était disponible (moins de 5%). De plus, la toxicité de ce poisson le rend
difficile d’utilisation.
Une équipe a alors proposé l’utilisation d’un autre Tetraodontidae : Tetraodon fluviatilis.
Assez proche de T. rubripes d’un point de vue phylogénétique (environ 20 millions d’années
25
de divergence)(Crnogorac-Jurcevic et al., 1997), celui-ci présente l’avantage d’être non
toxique et de pouvoir être élevé en aquarium d’eau douce. Son génome étant même plus petit
que celui de T. rubripes et le plus petit parmi les Tetraodontidae : 0,4pg mesuré par Ralph
Hinegardner (Hinegardner, 1968).
Notre laboratoire a alors lancé un programme de séquençage de régions génomiques d’un
Tetraodon, Tetraodon nigroviridis (Figure 7), en 2 étapes :

Séquençage d’une collection restreinte de courtes séquences génomiques. L’analyse
de cet échantillon devait permettre de caractériser ce génome et de valider son
utilisation comme outil d’analyse du génome humain en facilitant la détection de
gènes.

Séquençage d’une collection
supplémentaire
de séquences permettant
une
représentation très significative de l’ensemble du génome et une identification d’un
maximum de gènes humains.
3 Caractérisation du génome de Tetraodon nigroviridis
3.1.1 Caractérisation cytogénétique
Notre laboratoire a analysé le caryotype de T. nigroviridis (Fischer et al., 2000). La petite
taille des chromosomes et leur homogénéité a compliqué cette étude. Cette espèce a 2n=42
chromosomes (20 méta ou submétacentrique et 22 subtélocentrique). Ce nombre de
chromosomes est inférieur à la valeur modale du nombre de chromosomes chez les
téléostéens (2n = 48). Cette analyse suggérait déjà une fusion de chromosomes ancestraux
faisant passer le caryotype de 2n=48 à 2n=42. Nous avons confirmé cette hypothèse par la
suite par comparaison de la séquence complète des génomes de T. nigroviridis et de l’humain
(voir article 5).
3.1.2 Caractérisation génomique : Article 1 "Characterization and repeat
analysis of the compact genome of the freshwater pufferfish Tetraodon
nigroviridis." Genome Res 10(7): 939-49.
26
Letter
Characterization and Repeat Analysis of the
Compact Genome of the Freshwater Pufferfish
Tetraodon nigroviridis
H. Roest Crollius,1,4 O. Jaillon,1 C. Dasilva,1 C. Ozouf-Costaz,2 C. Fizames,1
C. Fischer,1 L. Bouneau,1 A. Billault,3 F. Quetier,1 W. Saurin,1 A. Bernot,1 and
J. Weissenbach1
1
Genoscope, 2 rue Gaston Crémieux, CP 5706, 91057 Evry Cedex, France; 2Muséum National d’Histoire Naturelle, 75231
Paris Cedex 05, France; 3Centre d’Etude du Polymorphisme Humain, 75010 Paris, France
Tetraodon nigroviridis is a freshwater pufferfish 20–30 million years distant from Fugu rubripes. The genome of both
tetraodontiforms is compact, mostly because intergenic and intronic sequences are reduced in size compared to
other vertebrate genomes. The previously uncharacterized Tetraodon genome is described here together with a
detailed analysis of its repeat content and organization. We report the sequencing of 46 megabases of bacterial
artificial chromosome (BAC) end sequences, which represents a random DNA sample equivalent to 13% of the
genome. The sequence and location of rRNA gene clusters, centromeric and subtelocentric satellite sequences
have been determined. Minisatellites and microsatellites have been cataloged and notable differences were
observed in comparison with microsatellites from Fugu. The genome contains homologies to all known families of
transposable elements, including Ty3-gypsy, Ty1-copia, Line retrotransposons, DNA transposons, and
retroviruses, although their overall abundance is <1%. This structural analysis is an important prerequisite to
sequencing the Tetraodon genome.
[The sequence data described in this paper have been submitted to the EMBL data library under accession
nos. AJ245809, AJ270048, AJ245808, AJ270029–AJ270047, DS42722 and AL305790–AL352938.]
The human genome is in the process of being completely sequenced, and an attempt is being made in
parallel to systematically identify functionally relevant
sequences. Current gene identification methods are
based on software predictions or comparisons with expressed sequence tags and still lack accuracy and completeness. Comparisons between the human genomic
sequence and the complete sequence of another vertebrate should be a useful complement to rapidly and
accurately reveal regions of functional interest. Indeed,
two vertebrate genomes that are evolutionarily distant
should only show strong conservation of sequences of
functional importance (protein coding regions; tRNA;
rRNA) while other segments submitted to random mutations will show much less similarity. It has been amply demonstrated that the genomic sequence of a tetraodontiform such as Fugu rubripes is a powerful yet
efficient tool to reveal such coding regions (Elgar 1996;
Elgar et al. 1999).
We have chosen Tetraodon nigroviridis to develop
such comparative analyses on a genome scale (Roest
Crollius et al. 2000) because of its widespread availability and trivial and inexpensive maintenance in the
laboratory. It was also reasoned that studying a species
4
Corresponding author.
E-MAIL [email protected]; FAX 33 1 608 72589.
related to Fugu but distant by 20–30 million years
(Crnogorac-Jurcevic et al. 1997) would enable the identification of functionally important sequences that appeared after the human/teleostean divergence. We
have initiated a random sequencing approach of the
Tetraodon genome based on bacterial artificial chromosome (BAC) end templates and have generated 46 Mb
of DNA or 13% of the genome. The average read length
is 1 kb, which contributes to making this approach a
very fast and cost-effective method of genome scanning. BAC end sequencing provides an added advantage by physically linking two sequences over a relatively short distance (75–200 kb), allowing direct comparisons between linked sequences in Tetraodon and
other genomes. It also represents an ideal genomic resource for long-range physical mapping, as well as an
STC resource (Mahairas et al. 1999) to assist shotgun
sequencing in specific regions.
This Tetraodon genome sample was exploited in
combination with fluorescence in situ hybridization
experiments, to decipher the organization of repeat sequences. This study serves several purposes. First, repeat sequences occur naturally in multiple copies in
the genome either in tandem or in dispersed distribution, and therefore can seriously hamper clustering
studies or sequence assemblies. In any case such sequences must be identified and eliminated, generally
10:939–949 ©2000 by Cold Spring Harbor Laboratory Press ISSN 1088-9051/00 $5.00; www.genome.org
Genome Research
www.genome.org
939
Roest Crollius et al.
by masking, during sequence comparison procedures
to avoid the formation of unwanted repeat alignments.
Second, major satellite and rRNA gene clusters form
heterochromatic blocks in the genome that are easily
recognizable cytogenetically. These blocks can serve as
useful markers when the chromosome formula is difficult to establish, as is the case in pufferfishes (Barat
and Khuda-Bukhsh 1984; Miyaki et al. 1995; Grützner
et al. 2000; Fischer et al. 2000). Finally, repeat sequences are important elements of the genome from
an evolutionary point of view (Charlesworth et al.
1994). They can contribute an important fraction of
the DNA in a genome, between <10% for tetraodontiforms (Brenner et al. 1993 and this work) to >50% in
some mammalian species. In addition, repeat sequences and in particular transposable elements, can
influence chromosome evolution by promoting chromosome breakage, deletions, inversions and amplifications (Lim and Simmons 1994; Dimitri et al. 1997;
O’Neill et al. 1998). Transposable elements and tandem repeats are closely associated in heterochromatic
regions of the genomes of many distant eukaryotes
such as Drosophila (Pimpinelli et al. 1995) and plants
(Presting et al. 1998), a situation that further supports
the structural role of such repeats in genome evolution
(Dimitri and Junakovic 1999). It is therefore of particular interest to investigate repeat distribution in Tetraodon considering its unusual evolution which positions
it today as the smallest known vertebrate genome.
We have identified the major satellite sequences,
which are localized in the centromeres and acrocentric
arms. The complete sequence of rRNA genes has been
determined and their cluster localized on a small heteromorphic chromosome. The detection of minisatellite sequences essentially reveals their paucity in the
genome. A comprehensive cataloguing of microsatellites compared with Fugu, shows that this genome is
particularly rich in polyA stretches. We have found homologies to transposable elements (TEs) belonging to
all major families, although their overall abundance is
low compared to other eukaryotes. Globally, the genome contains 6.17% of repeated sequence. Taken together, these results represent a structural basis on
which new studies focused on genome organization,
evolution, and coding potential can be initiated.
and library B (pBeloBAC11/HindIII) comprise 20,352
and 22,658 clones respectively. Based on field inversion gel electrophoresis separation of 1792 control
clones, the average insert size is 126 kb and 153 kb for
libraries A and B respectively. Taking into account that
7% of the clones in each library have no visible insert,
both libraries together represent 14.5 genomic equivalents of the Tetraodon genome. A total of 52,619 BAC
end sequences have been generated (60% library A,
40% library B). Control clones were also re-sequenced
and therefore represent duplicate sequences spread
evenly in the library, which serve as indicators of possible errors which may have occurred at any point
along the production line. The average raw sequence
length is 1075 bases, reduced to 969.2 bases after clipping off vector and low quality sequence at both ends
of each read. The resulting sequences contain 3.2% of
uncalled bases (N).
A database of 47599 reads was created after removal of redundant (same BAC end sequenced more
than once) and contaminating (E. coli, vector) sequences. This set is available for similarity searches at
http://www.genoscope.cns.fr/tetraodon and is the basis of the studies described here. The fraction of unique
DNA in the database has been estimated by performing
a BLAST search (Altschul et al. 1990) of the database
against itself. This estimate is essential to evaluate the
efficiency of the sequencing strategy as well as the
probability to obtain a match when querying the database. In the present case, redundancy can be contributed either by cloning biases, supernumerary reads of
the same BAC end or repeated sequences. The major
families of repeated sequences are described in this report and include rRNA genes, tandem and interspersed
repeats. It is however impossible to exclude at this
stage that other types of repeated elements remain undetected, rendering attempts at formally distinguishing between the different types of redundancy unreliable. On the other hand it is possible to clearly separate
the unique fraction, i.e. sequences that do not find any
other match in the database than themselves, from the
redundant fraction. Unique sequences represent 87%
of the reads, equivalent to approximately 41 Mb of
DNA.
Genome Size and Compositional Patterns
RESULTS
Genomic Clone Library Construction,
Characterization, and Sequencing
In order to limit possible cloning biases and redundancy in sequencing templates, two BAC libraries were
constructed from the same fish specimen, using different vectors (pBAC3e.6 and pBeloBAC11) and two restriction enzymes to fractionate genomic DNA (EcoRI
and HindIII). The resulting library A (pBAC3e.6/EcoRI)
940
Genome Research
www.genome.org
Measurement of haploid DNA content by a variety of
methods initially suggested that Tetraodon has a haploid genome size around 380 Mb (Hinegardner 1968;
Pizon et al. 1984) However more recent estimates based
on flow cytometry indicate a genome size of 350 Mb
(Lamatsch et al. 2000). Tetraodon possess 21 chromosome pairs (Grutzner et al. 1999; Fischer et al. 2000)
which range in size between approximately 11 and 28
Mb, based on measurements of metaphase chromosomes and correlation with the haploı̈d genome size of
Tetraodon nigroviridis Genome Characterization
350 Mb. Thus the largest chromosome is still approximately twice smaller than the smallest human chromosome. The genome is 45.5% G + C rich, with BAC
end sequences ranging from 15% to 70% G + C. The
relative abundance of dinucleotides (␳XY= fXY/fXfY,
where fX denotes the frequency of the nucleotide X
and fXY the frequency of the dinucleotide XY) deviates
significantly from expected values for CpG (0.60), TpA
(0.62), TpT/ApA (1.20) and TpG/CpA (1.21).
Ribosomal RNA Genes
The typical eukaryotic rRNA gene array consists of a
tandem repetition of a basic unit, separated from the
next by an intergenic spacer (IGS). Each unit starts
with a 5⬘ external transcribed spacer (ETS), followed by
the 18S, 5.8S and 28S genes separated by two internal
transcribed spacers (ITS1 and ITS2), and ending with a
3⬘ETS (Fig. 1). Gene sequences are extremely well conserved from mammals to bacteria, although the number and distribution of the genes and of the repeating
units may vary between and within species.
The high degree of sequence conservation of rRNA
genes among vertebrates led us to select the complete
and well annotated human repeated unit (U13369) to
identify the Tetraodon homologous genes. The complete human transcribed unit was searched against the
Tetraodon database and retrieved 606 reads (0.73% of
the nucleotides in the database; Table 1). Assembly by
Phred and Phrap of these sequences delineated one
contig that covers the complete transcribed region. We
have thus established the first consensus sequence of
the transcribed rRNA repeated unit of a fish containing
the 18S, 5.8S and 28S genes (Fig. 1). The sequence is
8303 bases long and includes a partial 5⬘ETS and 3⬘ETS.
Compared to the homologous human sequence which
measures 10502 bp, the Tetraodon sequence has smaller
intergenic spacers and shows significant deletions in
the 28S gene. Fluorescence in situ hybridization experi-
ments with a 28S probe identify a small pair of chromosomes containing a characteristic heterochromatic
region (Fig. 2B). This Nucleolar Organizer Region
(NOR) is partly 4⬘,6-diamidino-2-phenylindole (DAPI)and strongly propidium iodide (PI)-positive and entirely covered by the hybridization signal.
The sequence of the complete 5S gene (120 bp)
and its spacer (289 bp) has also been determined. In all
vertebrates the 5S rRNA gene is organized in tandem
repetitions and generally in separate cluster(s) from
those formed by the 18S, 5.8S and 28S genes. A Tetraodon 5S rDNA PCR product was used as an in situ probe
and gives a single signal on the short arms of one of the
smallest chromosome pairs, but different from the pair
bearing the other rRNA gene cluster. No real size polymorphism could be observed between the two arms.
Localization of Tetraodon rRNA gene clusters (5S and
18S-5.8S-28S) on two different chromosome pairs will
facilitate the unequivocal identification of the latter in
a karyotype where the majority of chromosomes are of
similar size (Grutzner et al. 1999; Fischer et al. 2000).
Centromeric Satellite Repeat
Centromeres of higher eukaryotes are often associated
with tandem repetitions of a basic repeat unit that do
not appear evolutionarily conserved between species,
and no definite sequence-specific function has yet
been determined for such repeats. However, it is clear
that in most species, several—and sometimes all—
chromosomes contain the same satellite sequence, indicating that a mechanism of concerted evolution is
operating within populations (Elder and Turner 1995).
The sequence of satellite repeats has been determined
in several fish species, and some have been assigned to
centromeres. For instance, tandemly repeated monomers of 355 bp and 168 bp are found in all centromeres
of Hoplias malabaricus (Haaf et al. 1993) and of Sparus
Aurata (Garrido-Ramos et al. 1994), respectively.
Figure 1 Schematic representation of the human (top) and Tetraodon (bottom) rRNA gene organization. In humans, a 30-kb nontranscribed spacer (open boxes, partially represented) separates a tandem repetition of the 18S, 5.8S, and 28S genes (black boxes)
interspersed by intergenic transcribed spacers and external transcribed spacers (ITSs and ETSs, respectively; horizontal lines). In the
8303-bp Tetraodon sequence, the positions of the first and last base of each gene are indicated based on their homology with the human
sequence. The sequence and position of the Tetraodon nontranscribed spacer is unknown. A multiple alignment of the Tetraodon
sequence is available under EMBL accession number DS42722.
Genome Research
www.genome.org
941
Roest Crollius et al.
Table 1. Summary of Tetraodon Sequence Resources, Genome Characteristics and Repeat
Abundance, in Comparison with Fugua
Sequence resource
Number of sequences
Sequencing protocol
Sequencing templates
Average raw sequence length
Average sequence length after clipping
Total DNA in database
Fraction of genome covered
Uncalled bases
T. nigroviridis
F. rubripes
47,599
Dye primer/LiCor
BAC clone ends
1,075 bp
969 bp
46,133 Mb
∼13%
3.2%
52,668
Dye terminator/ABI377
Cosmid shotgun clones
N.A.b
463 bp
24,385 Mb
∼6%
5.3%*
∼350 Mb
21
45.5%
∼400 Mb
22
47.67%
Genome characteristics
Genome size
Chromosome pairs
%GC
Repeat abundance
rRNA DNA
Microsatellites
Centromeric 118-bp satellite
Transposable elements
Minisatellites
Subtelocentric 10-bp satellite
0.77%
3.21%
0.34%
0.90%
0.41%
0.54%
N.A.
2.12%*
0.3%
1.89%
N.A.
N.A.
Microsatellite distribution
Sequences with at least one motif
Motifs per sequence (average)
Fraction of all 501 motifs observed
79.5%
1.67
94.8%
40.0%
0.56
82.8%
a
All figures for the Fugu genome are from Elgar et al. (1999), except for those indicated by (*) which are from
this work.
N.A., not available.
b
Figure 2 Fluorescence in situ hybridization of repetitive probes
on Tetraodon nigroviridis metaphase chromosome. (A) A cloned
180-bp fragment of the 118-bp satellite hybridizes uniformly to
all centromeres. Fluorescein isothiocyanate signals are in green,
and chromosomes are counterstained with DAPI. (B) A synthetic
probe that includes 4 consecutive monomers of the 10 bp satellite labels specifically the short arms of 10 pairs of subtelocentric
chromosomes. Fluorescein isothiocyanate signals are in yellow,
and chromosomes are counterstained with DAPI and PI. Arrows
indicate the 11th pair of subtelocentric chromosomes that carries
the 18S-5.8S-28S rRNA gene clusters and which is strongly
stained with propidium iodide.
In Tetraodon, we have found a 118-bp repeated
monomer in a large number of sequences (0.34% of
942
Genome Research
www.genome.org
nucleotides). Its organization in clusters is indicated by
the observation that when a 118-bp tandem repeat is
found at one end of a BAC, it is frequently found at the
other end as well (27% of cases). A cloned monomer
was hybridized to Tetraodon chromosomes and labels
uniformly all centromeres (Fig. 2A), demonstrating its
centromeric origin and pointing towards a concerted
evolution of this satellite sequence. However, a more
detailed comparison of the sequences of randomly
chosen monomers reveals that this repeat is highly
variable in a ∼60 bp region, while the remaining half is
remarkably constant (Fig. 3A). This sequence variation
is present within at least some centromeres, since examination of both end sequences belonging to the
same BAC clones (the last eight sequences above the
consensus in Fig. 3A) show that each end contains different variants. The monomer has a sequence composition of 57.6% A/T, close to the genome average
(56.1% A/T).
A Fugu tandem repeat sequence of identical monomer size has also been described (Brenner et al. 1993)
with a probable centromeric origin (Elgar et al. 1999).
A gapped alignment between the two monomer sequences shows 56.6% identity (Fig. 3B).
Tetraodon nigroviridis Genome Characterization
Figure 3 (A) Alignment of 22 different 118 bp monomers of the centromeric satellite sequence. The first 4 monomers with names
starting with 118 are cloned PCR products; the first clone was used as in situ probe in Figure 1C. The last 8 monomers, with names
identical two by two except for the last letter, are extracted from the two ends of the same BAC clones. (B) Smith-Waterman alignment
between the Tetraodon and the Fugu 118 bp repeat unit. The optimal alignment was obtained by comparing in forward and reverse
orientation the Tetraodon sequence to a database of 118 versions of the Fugu monomer obtained by shifting the starting position by one
base. (C) Alignment of 25 consecutive subtelocentric satellite monomers, together with the resulting consensus sequence. The only
nonvariable base is the thymidine in fifth position.
Subtelocentric Satellite Repeats
A second abundant tandem repeat of monomer size 10
bp was found in Tetraodon BAC end sequences. A
prominent feature of this repeat is its high sequence
variability, while the monomer size is strictly conserved. For instance, the alignment of 25 consecutive
monomers found in a BAC end sequence (accession
number AL315101; Fig. 3C) shows that this stretch is
composed of 21 variant monomers. Interestingly, a
thymidine is always found in the 5th position in the
monomer in all sequences examined. Other bases
show 4% to 48% variation on the sample described in
Figure 3C.
The organization of this repeat in potentially very
large arrays was suggested by the observation that out
of all BAC clones that contain the repeat at at least one
end, 30% of clones contain the repeat at both ends. We
have investigated the genome distribution of this repeat. A 40-mer oligonucleotide probe, containing
twice the consensus sequence interspersed by the two
most abundant variants, was hybridized on Tetraodon
metaphase chromosomes. The probe specifically hybridizes to the complete length of the short arms of 10
out of 11 pairs of subtelocentric chromosomes (Fig.
2B). The subtelocentric pair that does not hybridize is
the pair bearing the 18S-5.8S-28S rRNA genes.
Similarity searches with the BAC end AL315101 in
Fugu sequences identifies sequences that contain a 20mer tandem repeat. The Tetraodon 10-mer consensus
sequence (GGCGTCTGAG) is 80% identical to half of
the Fugu 20-mer consensus sequence (GGCATCT-
GATCCTGGTAGCT), which may point toward a common origin for this satellite sequence in Tetraodontidae.
Minisatellite Repeats
The definition of a minisatellite repeat is not well standardized in the literature and can vary in terms of repeat unit size (or period) and total array size (Franck et
al. 1991; Charlesworth 1994). We chose to use this category loosely and include all tandem repeats that are
neither microsatellite nor satellite sequences. Thus, our
definition includes all sequences of repeat unit larger
than 6 bases, tandemly repeated at least 3 times, and
that are not satellite sequences. We used the software
Tandem Repeat Finder (Benson 1999) with default parameters, except for the maximum period size that was
set to 300 bases. Indeed, no motif of more than 300
bases repeated at least 3 times can be detected in sequences of average size 1 kb. Figure 4 shows the percentage of bases in the genome contributed by repeats
of period sizes comprised between 7 and 300 bases. The
two major peaks correspond to the subtelocentric (10mer) and centromeric (118-mer) satellite sequences.
Clearly no other tandem repeat contributes any substantial amount of DNA. The total fraction of nucleotides represented by minisatellites, excluding the 10mer and 118-mer repeat, is 0.41%.
Microsatellite Repeats
Microsatellite repeats are defined as short tandem repetitions of monomer units of 1 to 6 bases that are pre-
Genome Research
www.genome.org
943
Roest Crollius et al.
genomic sequence (13.7 Mb, Fugu
Landmark Mapping Project), a
sample size similar to that used by
Edwards et al. (1998), and found a
total microsatellite content of
2.12%.
The motif frequency distribution is relatively similar between
the Tetraodon and Fugu genomes
when analyzed with our approach
(Fig. 5), except for one noticeable
difference: the polyA repeat is
twice as frequent in Tetraodon
(15%) than in Fugu (7%). Table 1
summarizes other features of microsatellite distribution in both genomes. There are twice as many
reads containing at least one microsatellite in Tetraodon compared
to Fugu, which correlates with the
Tetraodon sequences being twice
Figure 4 Distribution of the percentage of DNA contributed by tandemly repeated se- as long (969 bp and 473 bp in Tetraodon and Fugu respectively).
quences in the Tetraodon genome according to their period size (7 to 300 bases).
Provided microsatellites are similarly distributed in both genomes,
this constitutes good evidence that their identification
sent in most if not all eukaryotic genomes. Their wideis not dependent upon differences in sequence quality
spread distribution and high heterozygosity have proor sequencing chemistry between the two samples. A
moted their use as polymorphic markers in genetic
microsatellite occurs on average once every 588 bases
mapping (Dib et al. 1996) and population genetics
in Tetraodon and once every 850 bases in Fugu. The
(Jarne and Lagoda 1996). Their identification and charlongest microsatellite in Tetraodon is a 502-bp AGAT
acterization is essential in whole genome studies based
repeat, and the most abundant in nucleotides are AC
on sequence analysis because their high frequency and
(18%) and A (13%) which together constitute 31% of
repetitive nature tends to hinder clustering analysis
all microsatellites. In Fugu, the same repeats represent
and homology studies. Early characterization of the
only 20% of all microsatellites.
Fugu genome (Brenner et al. 1993) has shown that microsatellites are the second most abundant class of reTransposable Elements (TEs)
peats in this species, and a more exhaustive classificaConsidering the relative small size of the Tetraodon getion has since been performed (Edwards et al. 1998;
nome and the impact TEs may have on genome size, it
Elgar et al. 1999). A direct comparison of microsatellite
is of interest to investigate their presence in pufferdistribution in Fugu and Tetraodon genomes is possible
fishes, which have the smallest known vertebrate gebecause both species benefit from large, publicly availnome. We have performed a detailed cataloguing of
able sequence samples that have been randomly genTEs in Tetraodon and show that elements belonging to
erated from genomic clones (Elgar et al. 1999 and this
all known families have been integrated in the genome
work).
(Table 2). This observation is based on comparisons
Our method, based on the Smith-Waterman algobetween translated Tetraodon genomic sequences and
rithm, underestimates the total content of microsatelall known eukaryotic TEs annotated in nonredundant
lite sequences in the sample, because only one alignproteic and nucleic databases. The 732 BAC end sement is produced per motif per sequence. Thus, for
quences displaying such homologies were then subdiinstance, if two (CA)n are present in a sequence, only
vided into the following families based on database
one will be reported. Despite this bias, we observe that
annotation: Ty3/gypsy, Ty1/copia, Line, Retrovirus,
3.21% of the Tetraodon genome consists of microsatelTC1/mariner and Hobo. The Tetraodon sequences belites, versus 1.29% measured by Edwards et al. (1998)
longing to each group show little or no sequence simiin Fugu. This disparity between two figures measured in
larity between each other and thus form distinct famiclosely related genomes is not negligible and is most
lies in the genome as suggested by the database
probably due to the different strategies used in both
matches. The total DNA content of TE-like regions in
studies. To resolve this, we repeated our study on Fugu
944
Genome Research
www.genome.org
Tetraodon nigroviridis Genome Characterization
average frequency of TE sequences in the database.
This would suggest that TEs have a tendency to be
organized in clusters in the Tetraodon genome.
DISCUSSION
Figure 5 Distribution of microsatellite relative frequencies in
Tetraodon (top) and Fugu (bottom).
Tetraodon is only 0.9%, a large fraction of which is contributed by Line elements (0.4%). Out of the 27 TEs
that are present in Tetraodon DNA, 10 are more similar
to anonymous Fugu sequences than to any cognate TE
in public databases (Table 2). From this, we deduce that
these TEs are also present in the Fugu genome. TEs
belonging to all families are present in both species,
except for Hobo and Ty1/copia, which are present in
the Tetraodon sequence sample only. However, these
families are underrepresented in Tetraodon and their
absence in Fugu may simply be a reflection of the
smaller amount of DNA currently available for screening in this species (Table 1).
Of the 732 BAC end sequences that contain a TE,
the frequency of this occurring at both ends of a given
BAC clone is 10 times higher than expected from the
A large sample of the Tetraodon nigroviridis genomic
sequence has been analyzed to characterize repeat organization in this genome, in comparison with the
Fugu genome. The sequence of the Tetraodon genome is
45.5% GC rich, which is within the vertebrates range,
between 40% for Bos taurus and 48% for Sus scrofa
(Karlin and Mrazek 1997). However, we observe a suppression of the CpG dinucleotide (␳CG = 0.6) as has
previously been observed in Fugu (Elgar et al. 1999),
although not as strong as in mammals where the odds
ratio ␳CG is comprised between 0.22 (Mus musculus)
and 0.33 (S. scrofa) (Karlin and Mrazek 1997). We also
observe a suppression of the TpA dinucleotide and a
clear overrepresentation of the TpT/ApA and TpG/CpA
dinucleotides. The mechanisms that drive these deviations from the expected values are not yet understood.
It is, however, clear that tetraodontiforms and perhaps
teleosts in general do not present extremes of suppression or overrepresentation for the same dinucleotides
as mammals.
The two major satellite sequences reported here
(centromeric and subtelocentric) are located in the
main heterochromatic blocks of the chromosome
complement. The subtelocentric repeat displays a
highly variable monomer sequence within the genome, but its 10-bp length appears strictly conserved.
The centromeric satellite, on the other hand, is less
variable, but here the conservation of the monomer
length has probably extended well beyond the Tetraodon species. Indeed, a similar satellite repeat of exact
same monomer length (118 bp) but different sequence
(56.6% similar) has been found in Fugu and is presumably also of centromeric origin (Brenner et al. 1993;
Elgar 1996; Elgar et al. 1999). This would suggest that
for both types of satellites evolutionary constraints
have been much stronger on monomer length than on
monomer sequence composition. The processes that
affect satellite sequence evolution are not yet understood, although a number of models have been proposed (for review see Charlesworth et al. 1994) to
explain variations in the number of consecutive
monomers rather than the sequence of the monomer
itself. We can envisage two possible explanations for
the conservation of monomer length despite their
sequence variation. It is possible that a still-unknown
structural role for such satellite sequences requires a
fixed monomer length but places few requirements on
sequence composition per se. The alternative is that
maintenance of the monomer length may only be the
consequence of an amplification mechanism that
would generate motifs of identical size, but without
Genome Research
www.genome.org
945
Roest Crollius et al.
Table 2.
TE Elements Identified in the Tetraodon Genome
Description
Method
Acc. Nr.
P. value
Fugu
Family
% DNA
F. rubripes SUSHI retrotransposon
B. mori MAG retrotransposon
D. melanogaster retrotransposon 17.6
D. melanogaster ZAM retrotransposon
D. ananassae Tom retrotransposon
C. elegans CER1 retrotransposon
Z. mays Gypsy-like retrotransposon Reina
A. comosus Dea1 retrotransposon
C. elegans gypsy like retrotransposon
NUCX
SPTR
SPTR
NUCX
SPTR
SPTR
NUCX
NUCX
SPTR
Gb:AF030881
Pir:S08505
Sw:P04323
gb:AJ000387
pir:S34639
sptr:Q17329
gb:U69258
gb:Y12432
sptr:O45092
8.5e-99
7.2e-52
1.4e-31
2.9e-47
3.1e-49
6.1e-14
2.3e-47
1.3e-59
3.3e-18
Y
N
N
N
Y
N
N
N
Y
Class I Ty3/gypsy
0.163%
S. tuberosum reverse transcriptase
N. tabacum Ttol retrotransposon
SPTR
SPTR
sptr:O64387
gp:TOBAA_1
3.2e-14
1.5e-48
N
N
Class I Ty1/copia
0.067%
D. melanogaster I factor
S. mansoni SR2 reverse transcriptase
P. spixii CR1-like LINE
D. melanogaster reverse transcriptase
A. maritima retrotransposon R2
D. rerio LINE like element
B. baikalensis retrotransposon
SPTR
SPTR
SPTR
SPTR
SPTR
NUCX
NUCX
sptr:O44317
gp:AF025672_1
sptr:O42109
pir:A32713
sptr:O44319
gb:AB004653
gb:U18939
3.3e-08
1.0e-06
5.1e-05
7.2e-13
2.8e-13
2.2e-28
2.0e-45
N
Y
Y
Y
N
Y
N
Class I Line
0.407%
Feline leukemia retrovirus
Walleye epidermal hyperplasia virus type 2
SPTR
SPTR
sptr:Q85521
sptr:O36977
2.2e-08
6.6e-76
Y
N
Retrovirus
0.055%
S. salar Tc1-like transposon
X. laevis TX1 transposon
C. elegans Tc1-like transposase
C. elegans Mariner element
Pacific hagfish TC1-like element
A. albimanus TC1-like sequence
D. melanogaster Hobo element
NUCX
SPTR
SPTR
SPTR
SPTR
SPTR
NUCX
gb:L12206
sw:P14381
sw:Q21679
sptr:Q23373
pir:B46189
sptr:Q16925
gb:M69216
6.7e-102
7.2e-59
1.5e-10
1.5e-14
7.1e-09
2.0e-33
6.3e-07
N
Y
Y
N
N
N
N
Class II Tc1-mariner
0.211%
Class II Hobo
Total
0.903%
The first column indicates the description of the best alignment in public protein (SPTR) or in translated nucleic acid (NUCX)
databases. In each case the accession number of the best match, the P value of the alignment with the Tetraodon sequence, its
presence (Y) or absence (N) in Fugu, its classification, and its contribution in nucleotides to the Tetraodon genome is indicated.
any strict requirement on sequence composition, except perhaps for a few critical bases. The poor sequence
homogeneity of the 10-bp subtelocentric satellite is at
odds with the generally accepted notion of concerted
evolution that tend to maintain the sequence similarity of repeating units within a population or a species
(Elder and Turner 1995).
Microsatellite sequence distributions have been investigated in a number of vertebrate species, although
different software, sample size, and even microsatellite
definition were often used (Beckmann and Weber
1992; Edwards et al. 1998; Jurka and Pethiyagoda 1995;
Moran 1993; Van Lith and Van Zutphen 1996). Precise
comparisons are therefore limited to studies performed
in identical conditions. The most striking differences
between Tetraodon and Fugu concern the overall microsatellite content (3.21% and 2.12% of the genome,
respectively) and the overrepresentation of the mononucleotide A in Tetraodon (15% versus 7%). Poly(A)
tails are also the most abundant microsatellite family
in the human genome, where they are often introduced by retrotransposons, and in particular by Line
946
Genome Research
www.genome.org
and Alu sequences (Boeke 1997). In the Tetraodon genome such retrotransposons are rare (Line) or absent
(Alu), and cannot be considered as a source of overrepresentation for poly(A) repeats.
TEs are DNA sequences that can move or copy
themselves within a host genome, to which they can
contribute a large fraction. For instance, approximately
50% of the maı̈ze (SanMiguel et al. 1996), 35% of the
human (Smit 1996), and 10% of the Drosophila melanogaster (Finnegan 1989) genomes are made of such
elements. They can be classified according to their
transposition mechanisms. Class I elements replicate
via an RNA intermediate and may be flanked by long
terminal repeats (LTR-retrotransposons, such as Ty3gypsy and Ty1-copia families) or end with an A-rich
tail in 3⬘ (non-LTR retrotransposons, such as the LINE
and SINE families). Class II elements are essentially
DNA-based transposons that code for a transposase
and include Tc1-mariner and Hobo families. Early
studies in Fugu on a small sequence sample concluded
that this genome was devoid of interspersed repeats
(Brenner et al. 1993). However, a Ty3/gypsy LTR-
Tetraodon nigroviridis Genome Characterization
retrotransposon and a Line element have since been
described in this genome (Poulter and Butler 1998;
Poulter et al. 1999) and additional homologies to reverse transcriptase identified (Elgar et al. 1999). TEs
have been documented in many teleosts (Britten et al.
1995; Duvernell and Turner 1998; Flavell and Smith
1992; Ivics et al. 1996; Izsvak et al. 1995; Koga et al.
1996; Tristem et al. 1995; ). In Tetraodon, the representation of these sequences is below 1%, similar to the
1.89% found in Fugu. It appears, therefore, that although a wide variety of TEs have repeatedly integrated the genome of pufferfishes, their amplification
and spreading has been drastically limited compared to
other eukaryotes. It is possible that this situation is
related to the fact that these genomes are the smallest
among vertebrates. The mechanisms that have limited
TE amplification in the pufferfish genomes are not
known, but investigating their distribution and local
organization in the chromosome complement may
shed light on this unusual phenomenon.
The characterization of the Tetraodon genome presented here lays the foundation for comparative genomic studies that may take several orientations. From
an evolutionary point of view, results of rRNA genes
and satellite sequences, when compared to those of
other teleosts, particularly Fugu, may help us understand the complex processes involved in repeat dynamics over relatively short evolutionary distances in
vertebrates. Comparative genomics with Tetraodon
will, however, take its full dimension in the context of
gene identification and analysis (Roest Crollius et al.
2000). Gene identification in human and other vertebrates sequence is one of the primary goals in sequencing Tetraodon. However, a large sample of teleost genomic sequence will also be invaluable to help us understand phenomenons such as genome duplication
(Amores et al. 1998; Wittbrodt et al. 1998), or the importance and extent of conserved synteny over long
evolutionary distances.
METHODS
Fluorescence In Situ Hybridization
All specimens were provided by the same supplier. We don’t
know their geographic origin, but they were positively identified as Tetraodon on the basis of morphological characters
and genotyping using mitochondrial sequences. Fishes were
injected with 2µl/g b.w. of 0.05% colchicine solution 1 hr. 15
min. before killing. Cephalic kidney and spleen were separated on a 350-µm mesh stainless steel sieve directly in a
0.075-M KCl hypotonic solution. After a 30-min hypotonic
treatment at 29°C, suspension was centrifuged, and the pellet
was fixed for 20 min in a 3:1 methanol–acetic acid solution
that was changed only one time. The fixed cell suspension
was immediately dropped on cleaned slides and stored deepfrozen at ⳮ20°C after 30 min drying. All probes were labeled
with digoxigenin (Boehringer Mannheim) and hybridized according to standard protocols. The centromeric probe was a
180-bp PCR product cloned in the pAmp1 system (Gibco BRL)
using primers (5⬘- ATGCAGCACACAGATTTCCA-3⬘) and (5⬘TCCATCATTCTGCACCAAAC-3⬘). The subtelocentric probe
was a 40-base oligomer (GGCGTCTGAGGGCGTCTGATGGTGTCTGATGGCGTCTGAT) consisting of two consensus
monomers interspersed with the two most frequent variants.
The probe was synthesized with a 5⬘ digoxigenin label (Genosys Biotechnologies Ltd.).
BAC Library Construction and Sequencing
Two BAC libraries were constructed from erythrocyte DNA
from a single Tetraodon specimen identified as such by morphological characters and genotyping using mitochondrial sequences. DNA was partially digested with EcoRI (library A)
and HindIII (library B) and separated on a 1% agarose gel by
pulse field gel electrophoresis. For each digest, three sizeselected samples (∼50 ng) ranging from approximately 100 kb
to 175 kb were ligated to 10-ng vector DNA (pBACe3.6 for
library A; pBeloBAC11 for library B). The BAC vectors pBeloBAC11 (Kim et al. 1996) and pBACe3.6 (Genbank accession
number U80929) were gifts from H. Shizuya, Department of
Biology, California Institute of Technology, Pasadena, CA and
P. de Jong, Roswell Park Cancer Institute, Human Genetics
Department, Buffalo, NY, respectively. Ligation reactions
were electroporated into DH10B electrocompetent cells
(Gibco-BRL) and plated on 2YT agar containing 12.5 µg/ml
chloramphenicol and 5% saccharose. Recombinant clones
were picked in microtiter plates, grown in 2YT media containing 12.5 µg/ml chloramphenicol and 5% glycerol, and subsequently frozen at ⳮ80°C. In total, 20,352 clones were picked
from library A (EcoRI/pBAC3e.6) and 22,658 from library B
(HindIII/pBeloBAC11). A sub-library, termed the control library, was arranged by selecting 16 clones in the central part
of each microtiter plate (1792 clones) of libraries A and B.
DNA from all control clones was isolated, digested by NotI to
release the insert, and separated by field inversion gel electrophoresis in order to characterize a representative amount of
clones covering the entire libraries. All clones in the control
library were also resequenced. Templates for sequencing were
prepared by alkaline lysis and purified on Qiagen columns.
Sequences were obtained by sequencing the same template
with two different dye primers in the same reaction. Four
reactions were required in total, one for each base. One reaction contained 25 ng/µl DNA, 0.1 µM each primer, and 4.5 µl
ThermoSequenase mix (Amersham) in a final volume of 11 µl.
Primers were TET3 (TGACACTATAGAAGGATCCG) and T7
(TAATACGACTCACTATAGGG) for BACs from library A and
BELO1 (CTATTTAGGTGACACTATAG) and T7 for BACs from
library B. Reactions were loaded on 4.8% acrylamide gels on
LiCor4200 machines, and images were collected and analyzed
by BaseImagir V4.00. Graph files were then transferred to a
UNIX environment, and sequences that showed at least a 300base window containing <6 ambiguous bases were further
processed by routine quality checks and vector clipping prior
to analysis.
Sequence Comparison and Assembly
All sequence comparisons between large sets of sequences
were performed using standard algorithms such as BLAST
(Altschul et al. 1990) or Smith-Waterman (Smith and Waterman 1981) implemented in LASSAP version 1.1.3 (Large Scale
Sequence Comparison Package; [Glemet and Codani 1997]).
Most calculations were performed on one digital quadriprocessor (AXP 21164; each processor at 440 MHz), although
Genome Research
www.genome.org
947
Roest Crollius et al.
when required, we used up to four quadriprocessors simultaneously. Sequence assembly was performed with Phrap and
Phred (Ewing and Green 1998)
EMBL data library under accession nos. AL163976–
AL305789.
Tandem Repeat Analysis
REFERENCES
The Tetraodon sequences consist of 47,599 single reads of average size 969.57 bases (45,742 Mb of DNA). For minisatellite
detection, the software Tandem Repeat Finder (version 2.02,
[Benson 1999]) was used with the following parameters:
match: 2, mismatch: 7, delta: 7, PM: 80, PI: 10, minscore: 50,
maxperiod: 300. The output was filtered to retain motifs of
period size of at least 7 bases, repeated 3 times or more. When
adding the percentage of bases contributed by each motif size,
redundant motifs were eliminated by taking into account
only the motifs with the smallest period size. For microsatellite analysis, our approach is very similar to that used for the
identification of microsatellites in Fugu (Edwards et al. 1998),
although some modifications were made. The repeat definition is the same, i.e., a motif of size 1 to 6 bases repeated at
least three times, and of a total size of at least 12 bases. We
also allowed up to 15% variation over the complete length of
the sequence, between the microsatellite and the perfectly
repeated motif of same length. However, here this definition
is strictly observed regardless of the size of the repeat and
implies that a 12-base microsatellite may also include up to
one mismatch. This double constraint on size and identity is
used when selecting microsatellites that respect the definition
and eliminates the need for an arbitrary minimal score. The
Fugu sequences were retrieved from the Human Genome Mapping Project web site (http://fugu.hgmp.mrc.ac.uk/fugu/fugu)
and consist of 29,078 sequences (release 07/20/98) of average
size of 473 bases (13,753 Mb of DNA). The reference microsatellite library consists of all 501 possible motifs from monomer to hexamer, repeated over 500 bases, in forward and in
reverse complement (1002 sequences; (Jin et al. 1994). Comparisons between this library and pufferfish genomic DNA
were performed exclusively with the Smith-Waterman algorithm (Smith and Waterman 1981) implemented in
LASSAP version 1.1.3. The scoring matrix and gap costs were
as follows: match +10, mismatch ⳮ30, ambiguity (N) ⳮ5, gap
opening ⳮ40, gap extension ⳮ30. The results consist of the
best local alignment per sequence and per motif (47.3 million
alignments), to which two filters are applied. The first retains
alignments that respect the definition of a microsatellite: a
repetition of at least 3 motifs of at least 12 bases, with at least
85% identity over the complete length of the alignment. In
cases where several similar motifs overlapped over the same
region of a query sequence, a second filter was applied to
retain only the motif with the highest percentage of identity.
ACKNOWLEDGMENTS
We thank Patrick Lafaite and the Museum National d’Histoire
Naturelle for assistance with photographic work and the sequencing teams of Genoscope, in particular Patrick Wincker
and Philippe Brottier.
The publication costs of this article were defrayed in part
by payment of page charges. This article must therefore be
hereby marked “advertisement” in accordance with 18 USC
section 1734 solely to indicate this fact.
NOTE ADDED IN PROOF
After the submission of this article, an additional 100
Mb of Tetraodon DNA has been submitted to the
948
Genome Research
www.genome.org
Altschul, S.F., Gish W., Miller W., Myers E.W., and Lipman D J.
1990. Basic local alignment search tool. J. Mol. Biol. 215: 403–10.
Amores, A., Force, A., Yan, Y.L., Joly, L., Amemiya, C., Fritz, A., Ho,
R.K., Langeland, J., Prince, V., Wang, Y.L., et al. 1998. Zebrafish
hox clusters and vertebrate genome evolution. Science
282: 1711–4.
Barat, A., and Khuda-Bukhsh, A.R. 1984. Karyomorphology of a
sea-frog Tetraodon fluviatilis (Tetraodontidae, pisces). Current
Science 53: 1108–1109.
Beckmann, J.S., and Weber, J.L. 1992. Survey of human and rat
microsatellites. Genomics 12: 627–631.
Benson, G. 1999. Tandem repeats finder: a program to analyze DNA
sequences. Nucleic Acids Res 27: 573–80.
Boeke, J.D. 1997. LINEs and Alus - the polyA connection. Nature
Genetics 16: 6–7.
Brenner, S., Elgar, G., Sandford, R., Macrae, A., Venkatesh, B., and
Aparicio, S. 1993. Characterization of the pufferfish (Fugu)
genome as a compact model vertebrate genome. Nature
366: 265–8.
Britten, R.J., McCormack, T.J., Mears, T.L., and Davidson, E.H. 1995.
Gypsy/Ty3-class retrotransposons integrated in the DNA of
herring, tunicate, and echinoderms. J. Mol. Evol. 40: 13–24.
Charlesworth, B., Sniegowski, P., and Stephan, W. 1994. The
evolutionary dynamics of repetitive DNA in eukaryotes. Nature
371: 215–20.
Crnogorac-Jurcevic, T., Brown, J.R., Lehrach, H., and Schalkwyk, L.C.
1997. Tetraodon fluviatilis, a new puffer fish model for genome
studies. Genomics 41: 177–84.
Dib, C., Faure, S., Fizames, C., Samson, D., Drouot, N., Vignal, A.,
Millasseau, P., Marc, S., Hazan, J., Seboun, E., Lathrop, M.,
Gyapay, G., Morissette, J., and Weissenbach, J. 1996. A
comprehensive genetic map of the human genome based on
5,264 microsatellites. Nature 380: 152–4.
Dimitri, P., Arca, B., Berghella, L., and Mei, E. 1997. High genetic
instability of heterochromatin after transposition of the
LINE-like I factor in Drosophila melanogaster. Proc. Natl. Acad.
Sci. 94: 8052–7.
Dimitri, P., and Junakovic, N. 1999. revising the selfish DNA
hypothesis: new evidence on accumulation of transposable
elemnts in heterochromatin. Trends Genet. 15: 123–124.
Duvernell, D.D., and Turner, B.J. 1998. Swimmer 1, a new
low-copy-number LINE family in teleost genomes with sequence
similarity to mammalian L1. Mol. Biol. Evol. 15: 1791–3.
Edwards, Y.J., Elgar, G., Clark, M.S., and Bishop, M.J. 1998. The
identification and characterization of microsatellites in the
compact genome of the Japanese pufferfish, Fugu rubripes:
perspectives in functional and comparative genomic analyses. J.
Mol. Biol. 278: 843–54.
Elder, J.F., Jr., and Turner, B.J. 1995. Concerted evolution of
repetitive DNA sequences in eukaryotes. Q. Rev. Biol.
70: 297–320.
Elgar, G. 1996. Quality not quantity: the pufferfish genome. Hum.
Mol. Genet. 5: 1437–42.
Elgar, G., Clark, M.S., Meek, S., Smith, S., Warner, S., Edwards, Y.J.,
Bouchireb, N., Cottage, A., Yeo, G.S., and Umrania, Y., et al.
1999. Generation and analysis of 25 Mb of genomic DNA from
the pufferfish Fugu rubripes by sequence scanning. Genome Res.
9: 960–71.
Ewing, B., and Green, P. 1998. Base-calling of automated sequencer
traces using phred. II. Error probabilities. Genome Res. 8: 186–94.
Finnegan, D.J. 1989. Eukaryotic transposable elements and genome
evolution. Trends Genet. 5: 103–7.
Fischer, C., Ozouf-Costaz, C., Roest Crollius, H., Dasilva, C., Jaillon,
O., Bouneau, L., Bonillo, C., Weissenbach, J., and Bernot, A.
2000. Karyotype and chromosomal localization of characteristic
tandem repeats in the pufferfish Tetraodon nigroviridis. Cytogenet.
Tetraodon nigroviridis Genome Characterization
Cell Genet. 88: 50–55.
Flavell, A.J., and Smith, D.B. 1992. A Ty1-copia group
retrotransposon sequence in a vertebrate. Mol. Gen. Genet.
233: 322–6.
Franck, J.P.C., Harris, A.S., Bentzen, P., Denovan-Wright, E.M., and
Wright, J.M. 1991. Organization and evolution od satellite,
minisatellite and microsatellite DNAs in teleost fishes. In Oxford
Surveys on Eukaryotic Genes, pp. 51–82. Oxford University Press,
Oxford, UK.
Garrido-Ramos, M.A., Jamilena, M., Lozano, R., Ruiz Rejon, C., and
Ruiz Rejon, M. 1994. Cloning and characterization of a fish
centromeric satellite DNA. Cytogenet. Cell. Genet. 65: 233–237.
Glemet, E., and Codani, J. 1997. Lassap, a large scale sequence
comparisons package. CABIOS 13: 137–143.
Grützner, F., Lutjens, G., Rovira, C., Barnes, D.W., Ropers, H.H., and
Haaf, T. 2000. Classical and molecular cytogenetics of the
pufferfish Tetraodon nigroviridis. Chromosome Res. 7: 655–62.
Haaf, T., Schmid, M., Steinlein, C., Galetti, P.M., Jr., and Willard,
H.F. 1993. Organization and molecular cytogenetics of a satellite
DNA family from Hoplias malabaricus (Pisces, Erythrinidae).
Chromosome Res. 1: 77–86.
Hinegardner, R. 1968. Evolution of Celullar DNA Content in Teleost
fishes. The American Naturalist 102: 517–523.
Ivics, Z., Izsvak, Z., Minter, A., and Hackett, P.B. 1996. Identification
of functional domains and evolution of Tc1-like transposable
elements. Proc. Natl. Acad. Sci. 93: 5008–13.
Izsvak, Z., Ivics, Z., and Hackett, P.B. 1995. Characterization of a
Tc1-like transposable element in zebrafish (Danio rerio). Mol.
Gen. Genet. 247: 312–22.
Jarne, P., and Lagoda, P.J.L. 1996. Microsatellites, from molecules to
populations and back. Trends Ecol. Evol. 11: 424–429.
Jin, L., Zhong, Y., and Chakraborty, R.. 1994. The exact numbers of
possible microsatellite motifs. Am. J. Hum. Genet. 55: 582–583.
Jurka, J., and Pethiyagoda, C. 1995. Simple repetitive DNA sequences
from primates: compilation and analysis. J. Mol. Evol. 40: 120–6.
Karlin, S., and Mrazek, J. 1997. Compositional differences within
and between eukaryotic genomes. Proc. Natl. Acad. Sci.
94: 10227–32.
Kim, U.J., Birren, B.W., Slepak, T., Mancino, V., Boysen, C., Kang,
H.L., Simon, M.I., and Shizuya, H. 1996. Construction and
characterization of a human bacterial artificial chromosome
library. Genomics 34: 213–8.
Koga, A., Suzuki, M., Inagaki, H., Bessho, Y., and Hori, H. 1996.
Transposable element in fish. Nature 383: 30.
Lamatsch, D.K., Steinlein, C., Schmid, M., and Schartl, M. 2000.
Noninvasive determination of genome size and ploidy level in
fishes by flow cytometry: detection of triploid Poecilia formosa.
Cytometry 39: 91–5.
Lim, J.K., and Simmons, M.J. 1994. Gross chromosome
rearrangements mediated by transposable elements in Drosophila
melanogaster. Bioessays 16: 269–75.
Mahairas, G.G., Wallace, J.C., Smith, K., Swartzell, S., Holzman, T.,
Keller, A., Shaker, R., Furlong, J., Young, J., Zhao, S. et al. 1999.
Sequence-tagged connectors: a sequence approach to mapping
and scanning the human genome. Proc. Natl. Acad. Sci.
96: 9739–44.
Miyaki, K., Tabeta, O., and Kayano, H. 1995. Karyotypes in siw
species of pufferfishes Takifugu (Tetraodondontidae,
Tetraodontiformes). Fisheries Science 61: 594–598.
Moran, C. 1993. Microsatellite repeats in pig (Sus domestica) and
chicken (Gallus domesticus) genomes. J. Hered. 84: 274–80.
O’Neill, R.J., O’Neill, M.J., and Graves, J.A.. 1998. Undermethylation
associated with retroelement activation and chromosome
remodelling in an interspecific mammalian hybrid. Nature
393: 68–72.
Pimpinelli, S., Berloco, M., Fanti, L., Dimitri, P., Bonaccorsi, S.,
Marchetti, E., Caizzi, R., Caggese, C., and Gatti, M. 1995.
Transposable elements are stable structural components of
Drosophila melanogaster heterochromatin. Proc. Natl. Acad. Sci.
92: 3804–8.
Pizon, V., Cuny, G., and Bernardi, G. 1984. Nucleotide sequence
organization in the very small genome of a tetraodontid fish,
Arothron diadematus. Eur. J. Biochem. 140: 25–30.
Poulter, R., and Butler, M. 1998. A retrotransposon family from the
pufferfish (fugu) Fugu rubripes. Gene 215: 241–9.
Poulter, R., Butler, M, and Ormandy, J. 1999. A LINE element from
the pufferfish (fugu) Fugu rubripes which shows similarity to the
CR1 family of non-LTR retrotransposons. Gene 227: 169–79.
Presting, G.G., Malysheva, L., Fuchs, J., and Schubert, I. 1998. A
Ty3/gypsy retrotransposon-like sequence localizes to the
centromeric regions of cereal chromosomes. Plant J. 16: 721–728.
Roest Crollius, H., Jaillon, O., Bernot, A., Dasilva, C. Bouneau, L.,
Fizames, C., Wincker, P., Brottier, P., Quetier, F., Saurin, W. et al.
2000 Estimate of human gene number provided by genome-wide
analysis using Tetraodon nigroviridis DNA sequence. Nature Genet.
25: 235–238.
SanMiguel, P., Tikhonov, A., Jin, Y.K., Motchoulskaia, N., Zakharov,
D., Melake-Berhan, A., Springer, P.S., Edwards, K.J., Lee, M.,
Avramova, Z. et al. 1996. Nested retrotransposons in the
intergenic regions of the maize genome. Science 274: 765–8.
Smit, A.F. 1996. The origin of interspersed repeats in the human
genome. Curr. Opin. Genet. Dev. 6: 743–8.
Smith, T.F., and Waterman, M.S. 1981. Identification of common
molecular subsequences. J. Mol. Biol. 147: 195–7.
Tristem, M., Kabat, P., Herniou, E., Karpas, A., and Hill, F. 1995.
Easel, a gypsy LTR-retrotransposon in the Salmonidae. Mol. Gen.
Genet. 249: 229–36.
Van Lith, H.A., and Van Zutphen, L.F. 1996. Characterization of
rabbit DNA microsatellites extracted from the EMBL nucleotide
sequence database. Anim. Genet. 27: 387–95.
Wittbrodt, J., Meyer, A., and Schartl, M. 1998. More genes in fish?
Bioessays 20: 511–515.
Received October 28, 1999; accepted in revised form May 17, 2000.
Genome Research
www.genome.org
949
4 Détection
d’exons
humains
par
homologie
de
séquences avec Tetraodon nigroviris.
4.1 Généralités
4.1.1 Définitions
Par la suite nous emploierons à plusieurs reprises le terme annotation qui correspond à la
caractérisation et la représentation de la structure du gène, c'est-à-dire la cartographie sur une
séquence génomique des exons et des introns. Cependant, il n’existe pas de définition d’usage
de l’annotation d’un gène sur une séquence génomique. En pratique, le terme dépend
essentiellement de la méthode. La plupart des stratégies ont certes pour objectif de
cartographier les gènes, mais leur résolution est variable selon les méthodes (au nucléotide
près de la structure complète du gène, ou simple localisation imprécise d’une région codante).
Certaines méthodes sont dites prédictives (comme les méthodes ab-initio voir plus bas) et
nous parlerons alors de prédictions de gènes. Le terme détection de gènes est communément
employé avec certaines méthodes comparatives basées par exemple sur l’alignement
génomique de protéines connues. Le terme annotation de gènes est plus général et s’entend
pour des méthodes qui utilisent à la fois différentes approches et réalisent éventuellement une
recombinaison. Nous emploierons le plus souvent le terme annotation pour n’utiliser les
termes « prédiction » et « détection » que dans leur contexte précis décrit plus haut.
4.1.2 Mesurer la performance d’une annotation
Une prédiction de gène est une liste de coordonnées sur une séquence génomique
correspondant à la structure exon/intron de celui-ci. D’un point de vue plus technique, les
différents programmes de prédiction construisent des modèles de gènes. Le modèle
correspond alors à une suite d’objets (les exons) contenus dans une structure commune (le
gène) en fonction de contraintes (respect de la phase ouverte de lecture par exemple). La
plupart des auteurs des programmes s’attachent à modéliser une suite d’exons codants (CDS)
liés au sein d’une même phase ouverte de lecture (ORF), mais le modèle peut être élargi et
inclure promoteur, exons non codants, site poly-A…
38
Le développement d’un outil de prédiction doit être accompagné d’une série de mesures
permettant une évaluation de ses performances. Pour cela, il est primordial de disposer d’un
ensemble de positions de gènes connus sur une séquence génomique.
En 1996, Roderic Guigo et Moises Burset ont réalisé une évaluation de différents programmes
de prédiction de gènes (Burset & Guigo, 1996). A cette fin, les auteurs ont constitué un
ensemble de 570 séquences de gènes de vertébrés disponibles dans les banques publiques. Ils
ont aussi proposé un ensemble de règles permettant de mesurer la proportion des différents
cas de prédiction :

Vrai positif (TP). Une prédiction correspondant exactement à un gène.

Vrai négatif (TN). Une absence de prédiction où il y a absence de gène.

Faux négatif (FN). Un gène non prédit.

Faux positif (FP). Une prédiction ne correspondant pas à un gène.
La performance est alors mesurée en terme de sensibilité (SN) qui reflète le taux de faux
négatif, et de spécificité (SP) qui reflète le taux de faux positif. SP et SN peuvent être mesurée
au niveau du gène, de l’exon ou du nucléotide.
SN 
TP
(TP  FN )
SP 
TP
(TP FP)
Au niveau nucléotidique, TP correspond au nombre de nucléotides prédits qui chevauchent un
exon, FP au nombre de nucléotides hors exons (Figure 8).
Au niveau exonique, TP correspond au nombre d’exons prédits parfaitement en accord avec
des exons réels, les exons prédits chevauchant des exons réels (bornes de début et/ou de fin
différentes ne sont pas TP) (Figure 9).
Par conséquent :
SN 
Nce
Nae
SP 
Nce
Npe
39
ME 
Nme
Nae
WE 
Nwe
Npe
Avec :

SN : Sensibilité au niveau exonique.

SP : Spécificité au niveau exonique.

ME : Autre mesure de la sensibilité.

WE : Autre mesure de la spécificité.

Nce : Nombre d’exons prédits correctement.

Nae : Nombre d’exons vrais.

Npe : Nombre total d’exons prédits.

Nme : Nombre d’exons manquant dans les prédictions.

Nwe : Nombre d’exons prédits non chevauchant avec un exon vrai.
Par nature, SP et SN sont inférieures (ou égales) au niveau du gène qu’au niveau de l’exon, et
inférieures (ou égales) au niveau de l’exon qu’au niveau du nucléotide. En effet, pour un gène
prédit avec plusieurs exons, il suffit d’un exon réel non prédit pour invalider la prédiction du
gène entier (un faux positif), alors que tous les exons sauf un, seront des vrais positifs.
Parce que SN et SP sont complémentaires, ces 2 mesures sont nécessaires pour l’évaluation
d’un programme de prédiction. Cependant pour comparer les performances de plusieurs
programmes, il est préférable de disposer d’une seule mesure. D’où la possibilité d’utiliser le
coefficient de corrélation CC :
CC 
(TP  TN )  ( FN  FP)
(TP  FN )  (TN  FP)  (TP  FP)  (TN  FN )
D’autres types de mesures permettent d’estimer le degré de fragmentation (m modèles prédits
correspondant à n objets réels avec m<n) ou de fusion (m>n) de la prédiction.
4.1.3 Méthodes ab-initio
40
Le terme ab-initio est couramment attribué aux outils qui identifient la position des gènes le
long d’une séquence génomique sans autre information. Cependant cette vision est quelque
peu trompeuse. Si lors de l’exécution du programme, aucune autre donnée que la séquence
n’est requise, l’outil doit au préalable être calibré à partir d’un ensemble de données le plus
représentatif possible. Les outils les plus performants utilisent des développements
statistiques appelés modèles de Markov.
D’un point de vue très global, ces méthodes utilisent la connaissance que nous avons a priori
de la nature de la séquence des gènes. Pour les vertébrés notamment, il existe un certain
nombre de « signaux » communs. L’ensemble des exons d’un gène est dans une même phase
de lecture qui s’arrête en fin d’exon 3’ par un codon stop. Le premier codon du premier exon
codant en 5’ code la méthionine par ATG. Les exons epissés sont bornés par des sites
donneurs et accepteurs, etc.… Cependant, si ces quelques signaux sont nécessaires, ils ne sont
pas suffisants à définir un gène. Notamment, la composition en base des exons n’est pas
aléatoire, et est régie par l’utilisation du code génétique qui est très dépendant de l’espèce.
Tous les triplets de bases ne sont pas équiprobables à une position d’un gène donné, mais il en
est de même pour les motifs de taille supérieur. Alors, la probabilité d’observer un nucléotide
donné à une position donnée dépend des k nucléotides précédents. Les outils basés sur des
modèles de Markov utilisent ce type de représentation statistique. Ils requièrent un calibrage
sur un ensemble de gènes connus. Ils attribuent à chaque base le long de la séquence une
probabilité d’être dans un certain état du modèle statistique. (Eddy, 2004a). Les outils
développés pour les séquences de vertébrés représentent souvent la séquence comme une série
de transitions passant par des états (exons, introns, etc.…) qui sont indépendants et cachés,
d’où le terme de modèle de Markov à états cachés (Figure 10). Le parcours le plus probable
est alors retenu.
D’un point de vue utilisateur, ces outils ont pour avantage de ne pas nécessiter d’autres
expériences biologiques que le séquençage et un ensemble de gènes connus pour le calibrage.
Par contre, leur efficacité dépend beaucoup de l’ensemble de gènes utilisés en calibrage.
Ce type de méthode atteint son efficacité sans tenter de modéliser le processus moléculaire
utilisé lors de la transcription, mais en modélisant une représentation statistique de la
séquence. Le tour de force est là.
41
Ce type d’outil est le plus communément utilisé dans l’annotation des eucaryotes, et en
particulier des vertébrés. Le plus populaire, Genscan (Burge & Karlin, 1997), a une spécificité
et une sensibilité évaluées autour de 93% au niveau nucléique, 78% et 81 % au niveau
exonique (Claverie, 1997) sur un ensemble test de gènes humains. Sur des chromosomes
entiers, la spécificité chute. La popularité de ce type d’outil témoigne de la facilité
d’utilisation et de son efficacité. La relative bonne efficacité indique deux choses :

Il est possible de décrire dans une sorte de grammaire et en terme statistique des
propriétés de la séquence des gènes.

La connaissance que nous avons des gènes est suffisamment précise pour décrire
dans des conditions favorables au mieux 78% des exons avec un taux d’erreur de
19%.
Cependant, une comparaison récente de différentes méthodes d’annotation du génome humain
montre que ces outils perdent de l’intérêt à partir d’un certain degré d’information disponible.
Il semble qu’aujourd’hui pour le génome humain, chaque gène soit couvert au moins
partiellement par au moins une séquence d’ARNm. Les outils ab-initio ne permettent plus
d’annoter de nouveaux gènes, au contraire ils n’apportent que des faux positifs. Enfin, des
techniques basés uniquement sur l’alignement de séquences d’ARNm et de protéines, ou des
méthodes utilisant plusieurs approches à la fois, atteignent de meilleurs résultats (Djeballi S.
et al. in preparation). La connaissance théorique de l’information de séquence contenue dans
un gène manqué est donc vraisemblablement incomplète. Il sera nécessaire de comprendre
pourquoi chaque méthode ab-initio ne détecte pas un certain nombre de gènes que nous
pouvons désormais inventorier. La nécessité d’amélioration des méthodes ab-initio,
désormais n’est plus dans une perspective d’annotation du génome humain, mais dans celle de
l’amélioration des connaissances de génétique.
4.1.4 Méthodes par comparaison
La recherche de gènes par comparaison repose sur un modèle d’évolution où les mutations se
fixent préférentiellement dans les régions non fonctionnelles. Le problème posé consiste à
détecter les exons d’une espèce A en comparant la séquence de ce génome avec celle d’un
génome apparenté. Une plus importante similarité de séquence est attendue dans les exons,
sous l’hypothèse d’un plus petit nombre de mutations que dans les zones non codantes.
42
Il existe de nombreuses méthodes de comparaisons de séquences. Une famille essentielle de
méthodes suit des algorithmes dits de programmation dynamique (Eddy, 2004b). Très
brièvement, un algorithme de programmation dynamique est une récursivité au travers d’un
ensemble de chemins possibles pour en extraire le plus optimal selon des pénalités ou des
gains pris à chaque étape. Typiquement cette classe de méthodes garantit d’obtenir le meilleur
alignement entre deux séquences par exemple, soit localement(Smith & Waterman, 1981),
soit sur toute leur longueur (Needleman & Wunsch, 1970). Cependant, le temps et l’espace
requis par ces algorithmes sont quadratiques avec la longueur des séquences, et il est
aujourd’hui impossible matériellement d’utiliser ces méthodes à grande échelle.
Pour cette raison, les méthodes les plus utilisées passent par des euristiques qui diminuent le
plus possible le temps et/ou l’espace, en diminuant le moins possible la quantité et/ou la
qualité des résultats. La méthode la plus utilisée est Blast (Altschul et al., 1990) qui suit une
euristique pour un gain de temps. Nous détaillerons l’euristique plus loin. Cependant depuis
quelques années, de nouveaux algorithmes, dits gloutons, ont tendance à se substituer à blast
pour les comparaisons de très grandes séquences (Kent, 2002). Mais le gain de temps obtenu
par les euristiques suivies par cette classe de programmes est aux dépens de la sensibilité si le
pourcentage de similarité est inférieur à 80%. Aussi, ces programmes sont recommandés pour
des comparaisons de génomes peu distants.
Cependant, on peut ranger dans les méthodes d’annotation par comparaison, celles utilisées
pour aligner des séquences codantes connues (ARNm ou protéines) de l’espèce étudiée ou
d’une autre. Ces approches sont très performantes et offrent un degré de confiance qui dépend
essentiellement de la qualité de la ressource et moins de la méthode. Dans les 2 cas, la
séquence de la molécule doit être découpée et alignée exon par exon, en respectant la
contiguïté et la présence de signaux d’épissage. L’outil classique pour aligner des protéines
sur une séquence génomique est Genewise qui combine l’avantage de suivre un modèle de
Markov (Birney, Clamp & Durbin, 2004b). L’idée était déjà suivie dans le programme
Procrustes mais celui-ci n’utilise pas de modèle de Markov (Gelfand, Mironov & Pevzner,
1996).
L’alignement de séquences d’ARNm sur génomique, s’il représente un problème équivalent à
celui des protéines, est plus problématique en pratique. En effet, la plus grande fraction de ces
séquences disponibles correspond à de petits fragments qui sont parfois même restreints aux
zones non codantes (UTR). Régulièrement, de nouveaux programmes sont disponibles (Florea
et al., 1998; Kent, 2002; Mott, 1997; Wheelan, Church & Ostell, 2001).
43
Au début de nos travaux, dans la perspective d’annotation du génome humain, quelques
centaines seulement de protéines humaines étaient disponibles et relativement peu d’ARNm.
Dans la perspective où ces ressources allaient progresser au cours du programme génome
humain, nous avons développé une approche complémentaire d’alignement de génomes
complets.
4.2 Exofish
4.2.1 La problématique
L’objectif de cette partie des travaux est de mettre en place une méthode de détection de
gènes humains par comparaison de régions génomiques humaines et de régions génomiques
de T. nigroviridis.
Deux types de problèmes sont à résoudre qui ne peuvent pas être complètement dissociés en
pratique. L’identification des régions codantes doit se faire sur la base d’une meilleure
conservation que celle des régions non codantes. Cependant, le niveau de conservation peut
être très variable. Nous faisons aussi l’a priori que l’ordre des gènes dans les 2 génomes n’est
pas suffisamment conservé pour être utilisé. De plus, nous avons à manipuler des séquences
d’extrémité de Bac ou plasmide (voir articles 1 et 2) de longueur avoisinant 800 bases et
réparties de façon aléatoire sur le génome. Le nombre de ces lectures étaient grandissant avec
l’avancée du projet, ce qui cause une redondance de la représentation de chaque région
génomique dans la collection de séquences selon une loi de recouvrement de fragments
aléatoires (Lander & Waterman, 1988). En parallèle, au fil de l’avancement du projet de
séquençage du génome humain, les séquences humaines étaient assemblées en grand
fragments, puis organisées en chromosomes. Cette version de la séquence humaine était alors
appelée « goldenpath ». Les données n’étaient donc pas « stables ». Le second problème est
pratique et est dû au grand volume de données que représente l’ensemble des séquences. Le
fait de disposer de séquences de Tetraodon non assemblées, et de ne pas supposer une
conservation de l’ordre des gènes, implique de comparer 2 à 2 toutes les séquences des 2
génomes entre elles. Comparer toutes les séquences de Tetraodon à toutes les séquences de
génome humain, ce type de comparaison n’avait jamais été réalisé à cette échelle et la
faisabilité n’était pas acquise. En effet, le temps de calcul, la mémoire requise et le volume de
données en entrée et en sortie doivent rester dans des dimensions possibles.
44
4.2.2 Développements autour de la comparaison de séquences
Parmi les différents algorithmes permettant de comparer entre elles 2 banques de séquences
afin d’identifier des similarités locales, nous avons rapidement choisi d’utiliser Blast
(Altschul et al., 1990) en raison de sa rapidité. C’est d’ailleurs un outil très largement utilisé
pour ce type de problématique (environ 14 000 publications faisant référence à Blast
aujourd’hui).
Blast identifie des régions locales similaires en construisant un alignement sans insertion ni
délétion. Chaque alignement a un score calculé avec une matrice de scores qui attribue une
valeur pour chaque paire possible de caractères de l’alphabet.
Définitions : Etant donné 2 chaînes de caractères S1 et S2, une paire de segments est
une paire de sous-chaînes de même longueur de S1 et S2 alignées sans espace. Un
HSP (High Scoring Pair) est une paire de segments dont le score d’alignement sans
espace ne peut croître en élargissant ou en diminuant l’alignement de chaque coté.
Un MSP est l’HSP de score maximum parmi tous les HSP de S1 et S2.
En comparant 2 banques de séquences, une banque doit être choisie comme la « database » et
l’autre est considérée comme une liste de séquences « query ». Chaque séquence query est
traitée individuellement et est comparée à toutes les séquences de la database. Blast est un
algorithme disponible sous différentes implémentations dont toutes ne permettent pas la
comparaison d’une banque contre une banque. Pour cette raison, parmi d’autres, nous avons
utilisé la version commerciale appelée initialement Lassap (aujourd’hui Biofacet) (Glemet &
Codani, 1997).
Pour chaque séquence query, Blast identifie toutes les séquences de la database dont le MSP a
un score supérieur à un seuil S. Ensuite blast calcule et rend tous les HSP de score supérieur à
S2. Un calcul de probabilité de chaque alignement est aussi réalisé et permet de rendre un
alignement dont le score ne serait pas suffisant (Karlin & Altschul, 1993).
Blast est décliné en plusieurs programmes qui permettent de comparer différents types de
séquences entre elles.
45

ADN contre ADN (blastn)

ADN contre protéine, ou inversement (blastx ou tblastn). Nécessite la traduction de la
séquence d’ADN dans toutes les 6 phases possibles ou dans une ou plusieurs phases
choisies par l’expérimentateur.

Protéine contre protéine (blastp)

ADN contre ADN au niveau protéique (tblastx). Nécessite la traduction des 2
séquences d’ADN dans toutes les phases possibles ou dans une ou plusieurs phases
choisies. La comparaison se fait alors entre chaque phase choisie de la séquence query
et chaque phase de la séquence de la database.
Pour les comparaisons au niveau protéique, la stratégie essentielle est la suivante : Blast
identifie tous les mots de longueur w de S1 qui s’alignent avec les mots de longueur w de S2
avec un score supérieur à t. Ce score est calculé en fonction de la matrice score associée.
Chaque mot constitue alors une ancre (ou une graine) qui est étendue de part et d’autre (phase
d’extension de l’alignement) pour constituer un alignement potentiellement HSP ou MSP.
Pour chaque mot w de la séquence query S1 blast établit le dictionnaire de tous les mots
voisins dont le score de similarité est supérieur à t. Ensuite chaque mot du dictionnaire est
localisé dans la database (match exact) et l’extension est initiée. Cette étape permet de ne pas
se limiter à un mot d’ancrage identique entre les 2 séquences, augmente donc le nombre
d’alignements possibles par autant de mots voisins présents dans le dictionnaire.
La durée de calcul croît de façon linéaire avec le nombre de mots w (donc la longueur de la
séquence query) et avec la taille du dictionnaire généré D.
Au niveau nucléique, le dictionnaire n’est pas généré. L’extension est initiée directement avec
un mot d’ancrage identique entre les 2 séquences.
Cette différence dans l’algorithme au niveau nucléique et protéique entraîne une très grande
variation de complexité en terme de temps de calcul. Au niveau nucléique, pour une séquence
query donnée, le temps de calcul est directement linéaire avec la taille de la banque. Le temps
de calcul est fonction du nombre d’ancrages et d’extensions, qui dépend du nombre de mots w
et de la taille de la banque. Au niveau protéique, pour chaque mot w de la séquence query, ce
46
sont en réalité Dw mots qui sont testés avec autant de sites d’ancrages et d’extension
potentiels.
Nous avons d’abord testé la comparaison des séquences de Tetraodon et de l’humain au
niveau protéique (comparaison type tblastx) ou nucléique. Les résultats donnés dans l’article
2 montrent une meilleure sensibilité avec tblastx.
Concernant l’espace de recherche, c'est-à-dire le nombre de caractères comparés, en réalisant
un tblastx, chaque séquence est traduite à la volée dans les 6 phases. L’espace exploré S est
donc :
 6m   6n 
Stblastx  
 
 3   3 
Stblastx  4mn
Avec m : longueur de la query et n : longueur de la banque.
Etant donné qu’au niveau nucléique une des 2 séquences (la query ou la banque) doit être
comparée sur le brin direct, et sur son complémentaire inverse, l’espace de recherche est
donc :
Sblastn  2mn
L’espace de recherche est donc seulement 2 fois plus grand en tblastx qu’en blastn.
Le gain de sensibilité obtenu au niveau protéique est simplement dû à la dégénérescence du
code génétique. Plusieurs triplets codant le même acide aminé, des variations au niveau
nucléotidique peuvent ne pas avoir d’incidence sur les acides aminés (le pourcentage
d’identité au niveau nucléique est inférieur ou égal au pourcentage d’identité au niveau
protéique). Aussi, en fonction de la divergence entre les séquences comparées, il peut être
préférable d’utiliser tblastx plutôt que blastn, ou inversement. A petite distance évolutive, le
pourcentage d’identité au niveau protéique sera peu informatif car proche de 100%, alors
qu’au niveau nucléique, il sera possible de détecter les substitutions au niveau des codons.
Toutefois, blastn ne permet pas d’utiliser l’information de codons. Ce sont les nucléotides
individuellement qui sont comparés et non des triplets.
47
Cependant, il est possible de diminuer considérablement la durée d’exécution de tblastx. Il est
possible de réduire la taille du dictionnaire de mots construits à partir du mot d’ancrage. Notre
idée est de limiter le dictionnaire à ce mot seul. Nous posons alors la contrainte d’avoir au
moins w acides aminés strictement conservés. Pour cela, nous avons construit une nouvelle
matrice de score et nous avons adapté les paramètres de comparaison. Nous avons fixé dans la
matrice de score toutes les valeurs d’identité à 15 (Figure 11). Dans le jeu de paramètres, nous
avons fixé T  15  w . Ce paramètre T est le score d’édition requis entre chaque mot du
dictionnaire et le mot d’ancrage. Ainsi, chaque mot différent du mot d’ancrage aura
nécessairement un score d’édition inférieur à T.
Nous avons utilisé cette version de blast qui ne gère pas les insertions et délétions. Mais il
existe une version plus récente, blast2 qui a cette fonctionnalité (Altschul et al., 1997). Nous
ne l’avons pas retenue car :

La comparaison de génomes entiers requière une mise en place assez lourde et une
gestion informatique appropriée pour rendre l’opération possible. Pour cette raison
nous avons utilisé une implémentation facilitant la comparaison de grandes banques
de séquences en parallélisant les calculs et en optimisant la compaction des résultats
(Glemet & Codani, 1997). Or, blast2 n’y était pas implémenté.

La calibration d’exofish nécessite de maîtriser tous les paramètres de l’alignement. En
particulier nous avons utilisé deux paramètres longueurs et pourcentage d’identité qui
deviendraient ambigus en autorisant des insertions et délétions. De même, les versions
disponibles de blast2 ne permettent pas de créer sa propre matrice de scores.
4.3 Article 2 "Estimate of human gene number provided by
genome-wide analysis using Tetraodon nigroviridis DNA
sequence." Nat Genet 25(2): 235-8.
48
letter
© 2000 Nature America Inc. • http://genetics.nature.com
Estimate of human gene number provided by genomewide analysis using Tetraodon nigroviridis DNA
sequence
© 2000 Nature America Inc. • http://genetics.nature.com
Hugues Roest Crollius, Olivier Jaillon, Alain Bernot, Corinne Dasilva, Laurence Bouneau, Cécile Fischer,
Cécile Fizames, Patrick Wincker, Philippe Brottier, Francis Quétier, William Saurin & Jean Weissenbach
The number of genes in the human genome is unknown, with
estimates ranging from 50,000 to 90,000 (refs 1,2), and to more
than 140,000 according to unpublished sources. We have developed ‘Exofish’, a procedure based on homology searches, to
identify human genes quickly and reliably. This method relies on
the sequence of another vertebrate, the pufferfish Tetraodon
nigroviridis, to detect conserved sequences with a very low background. Similar to Fugu rubripes, a marine pufferfish proposed
by Brenner et al.3 as a model for genomic studies, T. nigroviridis is
a more practical alternative4 with a genome also eight times
more compact than that of human. Many comparisons have been
made between F. rubripes and human DNA that demonstrate the
potential of comparative genomics using the pufferfish
genome5. Application of Exofish to the December version of the
working draft sequence of the human genome and to Unigene
showed that the human genome contains 28,000–34,000 genes,
and that Unigene contains less than 40% of the protein-coding
fraction of the human genome.
To determine the conditions that would generate alignments in
coding regions between human DNA and a pufferfish distant by
400 million years, we first tested a large number of BLAST conditions on a small set of 13 annotated human-pufferfish homologous genes (Table 1). We used F. rubripes genes because no
complete T. nigroviridis gene sequence existed at the time of this
work. We then applied the optimal conditions to a larger set of 322
annotated human genes and the partial T. nigroviridis genome
sequence (33% of which has been determined), in which the positions of genes are unknown. We found that the existing sequence
of the T. nigroviridis genome detects 26.5% of the 2,693 human
exons in conditions in which no alignments fall in introns (Fig.
1a). The 724 exons detected are distributed in 64.9% of the genes
(209/322). To estimate the influence of the amount of T.
nigroviridis genome sequenced on the sensitivity of this approach
in detecting exons and genes in human DNA, we represented the
fraction of exons and genes identified with increasing amounts of
T. nigroviridis sequence (Fig. 1b). The fraction of human exons
detected increases at a rate proportional to the amount of T.
nigroviridis genome coverage generated. The probability of identifying a gene by at least one of its exons is higher because genes in
general contain many exons, in addition to the fact that the random sequence tag (RST) database represents approximately
170,000 random sequences in the genome.
To reflect the fact that different T. nigroviridis sequences may generate overlapping alignments over the same exon and define a
single, conserved human region, we defined the contiguous
assembly of the different overlapping alignments as an ‘ecore’
(for evolutionary conserved region). In the set of 322 reference
genes, the 209 genes (or 724 exons) that were detected by T.
nigroviridis contained 831 ecores (2.58 ecores per gene). This
result (Fig. 1a) provides a means to decide if new alignments
between human and T. nigroviridis DNA overlap human exons,
based on their length and percentage of identity. This criterion is
the basis of the Exofish (for exon finding by sequence homology)
selection mechanism (Fig. 2). To confirm the sensitivity of
Exofish in detecting human genes, we performed a second comparison on a set of 4,888 complete human cDNA sequences
extracted from Unigene version 105 (ref. 6). Using this set, 70%
of the genes were identified, and each gene contained an average
of 3.18 ecores (including the 30% of undetected genes). This
ratio was used to derive a number of genes from a given number
of ecores detected by Exofish.
We analysed the sequence of chromosome 22 (ref. 7) with
Exofish to estimate its capacity to confirm existing annotations
and to detect new genes. We found 1,525 ecores over the complete length of the chromosome (Fig. 3). The distribution of
ecores among the different types of annotated features showed
Table 1 • Performance of different BLAST configurations
Method
Matrix
W
X
L
I (%)
Sn (%)
Sp (%)
BLASTN
BLASTN
BLASTN
TBLASTX
TBLASTX
TBLASTX
TBLASTX
TBLASTX
TBLASTX
NUC.4.4
NUC.4.4
NUC.4.4
BLOSUM62
BLOSUM62
BLOSUM62
CNS
CNS
CNS
8 bases
8 bases
10 bases
3 aa
4 aa
5 aa
4 aa
5 aa
5 aa
5
9
13
9
3
1
25
13
25
30 bases
40 bases
30 bases
13 aa
13 aa
13 aa
13 aa
13 aa
13 aa
70
70
70
60
70
70
70
70
70
66
76
68
85
80
84
85
85
89
93
94
40
55
94
96
96
96
94
T (s)
4.8
5.7
4.3
74.8
1,065.2
1,160.9
10.0
29.4
29.3
Each program was run with 1,340 different conditions, and a representative selection of results is shown. A range of values for W (initial size of the search word)
and X (threshold score for consecutive mismatching residues or bases) were tested. For amino acid alignments, a non-substitutive matrix (CNS, match = +15, mismatch = –12) was tested as well as the standard BLOSOM62 matrix. A minimal length (L) and percentage identity (I) were applied to select alignments for which
a sensitivity (Sn) and specificity (Sp) were calculated in terms of numbers of overall matching exons. T indicates the time in seconds needed to compare the 13
homologues against each other. The last row shows the optimal performance that was retained for Exofish.
Genoscope and CNRS FRE2231, Evry cedex, France. Correspondence should be addressed to J.W. ([email protected]).
nature genetics • volume 25 • june 2000
235
© 2000 Nature America Inc. • http://genetics.nature.com
Fig. 1 Construction of Exofish. a, Distribution of 8.3 million alignments generated by comparing the partial T. nigroviridis genome with a set of 322 human
genes (2,693 exons). Each circle represents a population of alignments of a
given length and a given percentage of identity, with a clear boundary between
those which exclusively fall in exons (p) of human genes and those for which at
least one alignment falls in an intron (P). This provides robust selection criteria
to determine if any new alignment corresponds to a human exon, based on its
length and identity with a T. nigroviridis sequence. For convenience, all alignments longer than 60 aa were arbitrarily drawn at 60, the longest measuring
245 aa. b, Evolution of the theoretical T. nigroviridis genome coverage (—) and
observed sensitivity in gene detection (+) and exon detection (◊) by Exofish in
the set of 322 human genes, as a function of T. nigroviridis sequences produced
(10% increments). The dotted line is positioned at the current status of the
sequencing project (33% of genome coverage). The theoretical coverage is calculated on the basis of a Poisson distribution of sequences of average size 886
bases on a genome of 385 Mb.
percentage identity
letter
fraction of Tetraodon genome,
or human genes and exons.
© 2000 Nature America Inc. • http://genetics.nature.com
length of alignment (a.a.)
number of Tetraodon sequences
important variations (Table 2). Related genes (based on homologies to protein and genes from human and other species) and
predicted genes (based on EST sequences) contained less ecores
than known genes. These two categories of annotations also contained less annotated exons per gene, presumably because their
respective counterparts in sequence databases are only partially
homologous or are incomplete. In fact, 70 of 148 predicted genes
consisted of a single exon. We estimate that approximately 50%
of the 181 ecores that fell outside of annotations belonged to
genes that are incompletely annotated or to pseudogenes. Therefore, the remaining 90 ecores corresponded to approximately 30
novel genes on chromosome 22 (Fig. 3b,c). We thus estimate that
chromosome 22 contains less than 600 genes.
Of the 1,344 ecores that fell within the boundaries of the
annotations, 1,197 (89%) corresponded to genes and 147 (11%)
to pseudogenes. To estimate the sensitivity of Exofish in detecting genes on chromosome 22, we considered only the 247
known genes, because others are likely to be incomplete. Ecores
were found in 32.0% of the 2,298 exons and 66.8% of the 247
known genes. These values are comparable to the 26.5% of exons
and 64.5% of genes identified in the reference set of 322 human
genes, and to the 70% sensitivity obtained on 4,888 full-length
cDNA sequences. Exofish detects only 8% of the 325 genes predicted by Genscan that are not confirmed by homologies (compared with 64.5% for known genes), suggesting that most of
these predictions are false positives.
It is possible to exploit the compactness of the T. nigroviridis
genome to confirm that several neighbouring ecores that fell outside of existing annotations do belong to the same gene. For
instance, the five isolated ecores (Fig. 3c) were joined by three T.
nigroviridis RSTs. Subsequent to the release of the sequence of
chromosome 22 (ref. 7), a human cDNA clone and a homologous gene in a Caenorhabditis elegans cosmid clone have confirmed that these ecores define a true gene. By contrast, ecores
236
identified inside the boundaries of the 545 annotated genes, but
outside exons (that is, in introns), would correspond to exons
that remained undetected by other homology-based approaches,
presumably because of alternative splicing. We found 25 ecores in
the introns of 21 annotated genes, of which 19 were also predicted by Genscan (Fig. 3d). Approximately 50% of ecores that
fell either in introns or outside of annotations have been confirmed as exons by the chromosome 22 annotation team at the
Sanger Centre (J. Collins, D. Beare and I. Dunham, pers. comm.).
To estimate the number of genes in the human genome, we
analysed the human working draft sequence with Exofish. In
release 61 (December 1999) of the EMBL database, the publicly
available human working draft sequence contained 1,272.3 Mb
of non-redundant human DNA. Analysis of this fraction of the
human genome (∼42.4%) by Exofish generated 42,066 ecores.
Results on human chromosome 22 indicated that 89% of ecores
fell in genes, whereas the remaining 11% fell in pseudogenes.
Based on the result that Exofish detects on average 3.18 ecores per
human gene, the human genome would contain (42,066×0.89)/
0.424=88,299 ecores and 88,299/3.18=27,767 genes. We estimated the gene distribution for each chromosome and compared
the results with the EST gene map of the human genome8 (Fig.
4). The gene-dense chromosomes (17, 19, 22) have an excess of
ecores compared with ESTs, as does chromosome 16. To set an
upper limit to our estimate, another calculation was based on the
lower ratio of ecores per gene found in the initial gene test set and
Fig. 2 Schematic of Exofish.
nature genetics • volume 25 • june 2000
© 2000 Nature America Inc. • http://genetics.nature.com
Fig. 3 Examples of chromosome 22
results. Open blue boxes linked by broken
lines represent gene annotations from
ref. 7. Red boxes represent exons predicted by Genscan. Green boxes represent
ecores generated by Exofish that overlap
gene annotations, and dark blue boxes
represent ecores that do not overlap
annotations. The scale in nucleotides is
relative to the sequence described in ref.
7. a, Typical result in which a known gene
with 19 exons (encoding carnitine palmitoyltransferase I) is partially predicted by
Genscan (17 exons) and Exofish (9 exons).
b, On the ‘Up’ strand (above the scale),
five ecores indicate a new gene that is not
predicted by Genscan, whereas two genes
on the top and the bottom strand (similar
to mouse Htf9c and Ranbp1, respectively)
have several exons predicted by Exofish,
whereas none are correctly predicted by
Genscan. c, On the ‘Up’ strand, both Genscan and Exofish partially confirm a
known gene (HMG2L1), whereas on the
same strand a new gene seems to be predicted by both approaches. d, LIMK2 has
16 annotated exons, of which 14 are predicted by Genscan and 6 by Exofish. Two
additional exons that are presumably
alternatively spliced are predicted by
Exofish (arrows), one of which is also predicted by Genscan.
a
b
c
d
© 2000 Nature America Inc. • http://genetics.nature.com
letter
gave 88,299/2.58=34,224 genes. We therefore estimate that the
human genome contains 28,000–34,000 genes.
We used Exofish on the non-redundant set of human gene
sequences represented by Unigene6 to estimate more accurately the
fraction of protein-coding DNA present in publicly available databases. Release 105 of Unigene contains 10,501 clusters represented
by known genes, whereas the remaining 82,430 clusters only contain EST sequences. When matched to the selected sequences representing Unigene clusters, Exofish detected 33,079 ecores, which
identified 62% of the 10,501 known genes and only 4.2% of the EST
sequences. As the human genome is estimated to contain 88,299
ecores, the 33,079 ecores found in Unigene represent only 37.5% of
the coding fraction of human genes. This result is coherent with the
very low number of matches obtained on the EST sequences. Most
selected ESTs representing Unigene clusters (87%) are 3´ reads of
cDNA clones, and most likely correspond to untranslated regions.
Because a genome is a finite entity that contains all genes with
all exons necessary to express all the proteins required at any
stage or in any tissue, the sensitivity of Exofish is not biased by
the traditional problems encountered in cDNA databases, such
as alternative splicing and varying gene-expression levels. This is
confirmed by the fact that Exofish identifies the same fraction of
genes (∼2/3) in three collections of human genes of diverse origins and characteristics. Our finding that the human genome
contains only 28,000–34,000 genes is unexpected, considering
that it corresponds to just over twice the number of genes in the
fly or worm. It is therefore to be expected that organismal complexity is not a direct consequence of gene number, but has its
source in other mechanisms that may include alternative splicing and multi-domain proteins. As Unigene contains 92,000
clusters, and Exofish predicts 28,000–34,000 genes in the
genome, Unigene is partially redundant and also contains
mostly non-coding sequences. It is likely, however, that Unigene
contains a ‘tag’ for most human genes and as such is an invaluable resource for gene identification. Exofish still cannot detect
one-third of human genes (false negatives), including those for
which the corresponding T. nigroviridis sequence is not yet
known, those that evolve rapidly and for which protein sequence
similarity is weak, and those that are strictly specific to mammals. It is likely, however, that smaller protein domains also participate in the detection process and enable Exofish to detect
genes outside the limits of orthologous or paralogous genes. As
described here, two immediate applications for Exofish include
the annotation of genomic DNA and the estimation of the coding fraction in cDNA collections. Exofish also enables comparison of the T. nigroviridis genome with entire vertebrate genomes
at the protein level in a few hours of computation time, and as
such it is a powerful tool to explore new avenues in vertebrate
genome research in a way so far only possible for bacteria or unicellular eukaryotes.
Table 2 • Distribution of ecores in chromosome 22 annotations
Feature
known genes
related genes
predicted genes
pseudogenes
outside annotations
Genscan genes
Genscan genes
outside annotations
No. of features
on chromosome 22
No. of
ecores
Average no. of ecores
per feature
Average no. of exons
No. of features
per feature
identified by Exofish
% features
identified by Exofish
247
150
148
134
–
817
848
289
60
147
181
1,330
3.44
1.93
0.41
1.10
–
1.63
9.11
5.24
3.03
1.66
–
8.17
165
83
22
62
–
307
66.8%
55.3%
14.8%
46.3%
–
37.6%
325
49
0.15
4.71
26
8.0%
nature genetics • volume 25 • june 2000
237
letter
© 2000 Nature America Inc. • http://genetics.nature.com
b
relative gene or ecore density
gene density per chromosome
(Exofish)
a
ecore density per chromosome
(Exofish)
human chromosomes
Fig. 4 Distribution of gene and ecores on individual human chromosomes according to the EST physical map8 and Exofish. a, Exofish confirms the density of
genes obtained by EST mapping for most chromosomes, except chromosomes 16, 17, 19 and 22, and introduces an estimate for chromosome Y. b, The two independent data sets show a good correlation (correlation factor 0.88), which confirms (in most cases) the distribution obtained by physical mapping of ESTs.
© 2000 Nature America Inc. • http://genetics.nature.com
Methods
Construction of Exofish. A summary of the approach used to select the
optimal BLAST conditions for Exofish is shown (Table 1) and a full
description is available (see Methods, http://genetics.nature.com/
supplementary_info). Exofish is available as an annotation tool for human
sequences (http://www.genoscope.cns.fr/exofish). We constructed a set of
322 complete human genes by global BLASTN alignments between a database of 10,067 human mRNA sequences and 3,930 genomic clones. Details
of the parameters and selections used, as well as a file of the 322 human
genes in fasta format, are available (see Methods, http://genetics.nature.
com/supplementary_info).
T. nigroviridis genomic sequence. BAC library construction and insertend sequencing are described elsewhere9 Genomic DNA from a male T.
nigroviridis specimen (ascertained as T. nigroviridis using morphological
and mitochondrial DNA sequence characteristics) was extracted to construct a plasmid library. DNA was mechanically sheared, separated on a
preparative agarose gel, and a size fraction corresponding to ∼3 kb was
excised, end-repaired and cloned in pcDNA2. After electroporation in
DH10B electrocompetent cells, clones were plated on 2YT agar plates containing 70 µg/ml carbenicilin and 100,000 recombinants were robotically
picked and replicated in microtitre plates. We sequenced 127,229 insert
ends as described9. Including the BAC ends database, 174,828 sequences
of an average useful length of 886 nt were produced, equivalent to 154.9
Mb of combined DNA. T. nigroviridis repeats (rRNAs, transposable elements, satellites) and microsatellite repeats were masked following
BLASTN alignments against a T. nigroviridis repeat database9 and
microsatellite database, respectively10. Minisatellites were identified by
Tandem Repeat Finder11 and subsequently masked. Microsatellites were
further masked based on TBLASTX alignments, and low-complexity
regions were identified and masked by RepeatMasker. In total, 11% of
nucleotides were masked in the T. nigroviridis genomic sequence database.
the human DNA section of EMBL release 61, and for each sequence the
highest version number was retained to remove internal redundancy.
Sequences were distributed as follows: HTG1, containing genomic clone
sequences in unordered segments (726.9 Mb, 24.2%); HTG2, in which
contigs were ordered within each genomic clone (55.5 Mb, 1.8%); HTG3,
in which genomic clones are represented as a contiguous sequence (36.4
Mb, 1.2%); and HUM, in which sequences are considered finished, with an
error rate of less than one in 104 bases (480.9 Mb, 16.0%). All sequences
were filtered to remove remaining cloning vector sequences (0.21%) and
stretches of ‘N’ used to separate sequence contigs in HTG1 and HTG2
(1.87%). We used Unigene version 105 (January 2000) for comparisons
with the T. nigroviridis genome.
Computing alignments. All alignments were computed with the suite of
BLAST (ref. 12) algorithms or with the SMITH-WATERMAN (ref. 13) algorithm, implemented in LASSAP (Large Scale Sequence Comparison Package) version 1.1.5 (ref. 14). For all calculations, hardware consisted of four
Digital quadriprocessor (AXP 21264 (EV6) at 525 MHz) computers (Compaq GS60) with 4 Go of memory each, except for comparison of the partial
T. nigroviridis genome with the human working draft sequence, for which a
SUN Enterprise 10000 server with 64 UltraSPARC-II (400 MHz) processors
and 64 Go central memory were used with LASSAP version 1.2.0a.
Accession numbers. T. nigroviridis sequences, EMBL AL163976 to
AL352938; human cDNA clone, AB033118.
Acknowledgements
We thank the sequencing and template preparation team at Genoscope; Sun
Microsystems for access to the SUN benchmark centre; and F. Francis for
critical reading of the manuscript. This work would not have been possible
without the public availability of a large fraction of the sequence of the
human genome, and we thank all contributing genome centres.
Human working draft sequence and Unigene. We retrieved the entire
HTG1, HTG2 and HTG3 sections, and sequences larger than 35 kb from
Received 10 March; accepted 2 May 2000.
1.
8.
2.
3.
4.
5.
6.
7.
Fields, C., Adams, M.D., White, O. & Venter, J.C. How many genes in the human
genome? Nature Genet. 7, 345–346 (1994).
Antequera, F. & Bird, A. Number of CpG islands and genes in human and mouse.
Proc. Natl Acad. Sci. USA 90, 11995–11999 (1993).
Brenner, S. et al. Characterization of the pufferfish (Fugu) genome as a compact
model vertebrate genome. Nature 366, 265–268 (1993).
Crnogorac-Jurcevic, T., Brown, J.R., Lehrach, H. & Schalkwyk, L.C. Tetraodon
fluviatilis, a new puffer fish model for genome studies. Genomics 41, 177–184
(1997).
Elgar, G. et al. Generation and analysis of 25 Mb of genomic DNA from the
pufferfish Fugu rubripes by sequence scanning. Genome Res. 9, 960–971 (1999).
Schuler, G.D. et al. A gene map of the human genome. Science 274, 540–546
(1996).
Dunham, I. et al. The DNA sequence of human chromosome 22. Nature 402,
489–495 (1999).
238
9.
10.
11.
12.
13.
14.
Deloukas, P. et al. A physical map of 30,000 human genes. Science 282, 744–746
(1998).
Roest Crollius, H. et al. Characterization and repeat analysis of the compact
genome of the freswater pufferfish Tetraodon nigroviridis. Genome Res. (in
press).
Jin, L., Zhong, Y. & Chakraborty, R. The exact numbers of possible microsatellite
motifs. Am. J. Hum. Genet. 55, 582–583 (1994).
Benson, G. Tandem repeats finder: a program to analyze DNA sequences. Nucleic
Acids Res. 27, 573–580 (1999).
Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. Basic local alignment
search tool. J. Mol. Biol. 215, 403–410 (1990).
Smith, T.F. & Waterman, M.S. Identification of common molecular subsequences.
J. Mol. Biol. 147, 195–197 (1981).
Glemet, E. & Codani, J. LASSAP, a large scale sequence comparisons package.
Comput. Appl. Biosci. 13, 137–143 (1997).
nature genetics • volume 25 • june 2000
4.4 Test de généralisation d’exofish à d’autres phylums
4.4.1 Généralités
Tel que nous l’avons défini précédemment, notre objectif principal dans cette première partie,
porte sur l’annotation du génome humain. Exofish est une méthode qui est performante et est
calibrée pour détecter les régions codantes chez l’humain en utilisant la séquence génomique
de Tetraodon. Mais au-delà, nous faisons l’hypothèse que le principe est vrai et applicable à
d’autres phylums. Se posent alors des questions relatives à la méthode et des questions liées à
l’évolution et aux caractéristiques génétiques des espèces utilisées :

Quelles seraient les performances en terme de sensibilité et de spécificité d’exofish en
fonction des phylums ?

La structure exon/intron des gènes impacte-t-elle sur l’efficacité ?
Nous avons testé ces questions sur les séquences des génomes de Drosophila melanogaster et
d’Anopheles gambiae. Les article 3 et 4 (Jaillon et al., 2003a; Jaillon et al., 2003b) présentent
en détail les résultats obtenus qui confirment qu’exofish est applicable à d’autres phylums que
les vertébrés. Nous avons obtenu une spécificité de 96% et une sensibilité de 57,7% au niveau
exonique et 87,7% au niveau des gènes à partir d’un ensemble de gènes définis par ADNc
complets.
Dans ce contexte, les deux génomes sont annotés indépendamment d’exofish et notre
méthode peut apporter alors des compléments de ressources. En effet, nous avons identifié
plus de 1000 ecores (2,3%) situés entre des bordures de gènes mais en dehors des annotations
d’exons de la drosophile, et qui sont des candidats d’exons transcrits alternativement et donc
conservés chez Anophèle (voir table 1 de l’article 3). Globalement environ 7% des ecores sont
en dehors des annotations des gènes de drosophile. Il est difficile d’extrapoler directement
cette valeur à la proportion de gènes non annotés, car il est vraisemblable que ces gènes soient
atypiques puisque non annotés.
Par contre, il semble vraisemblable que l’annotation d’Anopheles réalisée par le groupe
Ensembl (version 10.2.1) soit moins complète que celle de la drosophile puisque environ 25%
des ecores sont en dehors des modèles de gènes (voir table 2 de l’article 3).
Cependant le nombre d’ecores est supérieur chez l’anophèle à celui chez la drosophile (53132
vs 46742). Plusieurs raisons mutuellement non exclusives sont possibles :
53

Si la structure exon/intron est semblable entre les 2 insectes, l’anophèle a plus de
gènes que la drosophile.

La structure exon/intron est différente. Pour un exon drosophile peuvent correspondre
plusieurs exons d’anophèle.

De nombreux pseudogènes chez l’anophèle

Des régions répétées chez anophèles conservées chez la drosophile.
4.4.2 Article 3 "Assessing the Drosophila melanogaster and
Anopheles gambiae genome annotations using genome-wide
sequence comparisons." Genome Res 13(7): 1595-9.
54
Letter
Assessing the Drosophila melanogaster
and Anopheles gambiae Genome Annotations
Using Genome-Wide Sequence Comparisons
Olivier Jaillon,1 Carole Dossat,1 Ralph Eckenberg,1 Karin Eiglmeier,2
Béatrice Segurens,1 Jean-Marc Aury,1 Charles W. Roth,2 Claude Scarpelli,1
Paul T. Brey,2 Jean Weissenbach,1 and Patrick Wincker1,3
1
Genoscope/Centre National de Séquençage and CNRS UMR 8030, 91057 Evry Cedex, France; 2Unité de Biochimie
et Biologie Moléculaire des Insectes, Institut Pasteur, Paris 75724 Cedex 15, France
We performed genome-wide sequence comparisons at the protein coding level between the genome sequences of
Drosophila melanogaster and Anopheles gambiae. Such comparisons detect evolutionarily conserved regions (ecores)
that can be used for a qualitative and quantitative evaluation of the available annotations of both genomes.
They also provide novel candidate features for annotation. The percentage of ecores mapping outside
annotations in the A. gambiae genome is about fourfold higher than in D. melanogaster. The A. gambiae genome
assembly also contains a high proportion of duplicated ecores, possibly resulting from artefactual sequence
duplications in the genome assembly. The occurrence of 4063 ecores in the D. melanogaster genome outside
annotations suggests that some genes are not yet or only partially annotated. The present work illustrates the
power of comparative genomics approaches towards an exhaustive and accurate establishment of gene models
and gene catalogues in insect genomes.
Whole-genome sequence comparisons between genomes
from metazoans can be used to detect sequence conservation
both in coding and noncoding regions. Whereas conservation
of coding regions can be detected between species separated
by large evolutionary distances (e.g., between mammals and
fish; Roest Crollius et al. 2000), the conservation of noncoding regions is usually much weaker and mainly detected between species that are separated by shorter evolutionary distances (e.g., within mammals; Kent 2002; Mural et al. 2002).
In other words, the kind and amount of information that can
be deduced from genomic DNA comparisons depend on the
evolutionary distance between the species.
The annotation process used for Drosophila (Rubin et al.
2000) relied on protein database searches, cDNA, and EST
matches and ab initio gene predictions. The power of protein
comparisons was high, but not exhaustive, because they concerned mainly species such as yeast, Caenorhabditis elegans
and mammals that are relatively distant from the fruit fly.
However, ab initio predictions and cDNA sequencing could
notably complement the annotations beyond conserved
genes, and a total of 13,666 genes was proposed for the analysis of the fly genome (Adams et al. 2000; Misra et al. 2002).
While finishing and analysis of the fly genome sequence was
still in progress, an additional set of genes was proposed (Gopal et al. 2001). The establishment of a draft sequence of the
genome of Anopheles gambiae (Holt et al. 2002) offers the possibility of reevaluation of the present D. melanogaster gene
inventory using a rationale that we used previously to compare a fraction of the human genome to that of a teleost fish,
Tetraodon nigroviridis (Roest Crollius et al. 2000). Conversely,
it will also provide an evaluation of the initial Anopheles ge3
Corresponding author.
E-MAIL [email protected]; FAX 33 1 60 87 25 89.
Article and publication are at http://www.genome.org/cgi/doi/10.1101/
gr.922503.
nome annotations. We therefore carried out this type of global comparison between these two insect genomes.
RESULTS AND DISCUSSION
The Drosophila Annotation
The Exofish procedure (for EXOn FInding by Sequence Homology) that we developed for large-scale genome comparisons is based on the BLAST algorithm (Altschul et al. 1990). To
minimize background of false positive alignments outside
coding regions and to maximize the detection of evolutionarily conserved regions (ecores), TBLASTX parameters and filter conditions were adjusted on a set of reference sequences
(see Methods).
The available sequence assembly of A. gambiae (http://
www.ensembl.org/Anopheles_gambiae) and the last two versions of the D. melanogaster genome (http://www.fruitfly.org/
annot/release2.html and http://www.fruitfly.org/annot/
release3.html) were compared using the adjusted settings of
Exofish. A whole-genome comparison between the two genomes resulted in a total of 47,134 ecores (for release 2) or
46,742 ecores (for release 3) in the D. melanogaster genome
(Table 1; available at www.genoscope.cns.fr/Exofish/Fly).
These numbers are slightly different as the genome sequence
has changed between the two releases (Celniker et al. 2002).
The ecores created using release 3 were mapped on the collection of gene models defined by the annotations of fulllength cDNAs designated as the “Drosophila Gene Collection”
(Stapleton et al. 2002; we used a subset of 6,006 transcripts as
explained in the Methods section). We only considered ecores
located between the start and the end positions of the models.
We detected ecores in 87.7% of the genes and in 57.7% of the
exons. Six hundred thirty-seven (3.2%) ecores mapped outside the boundaries of annotated exons, and may correspond
to alternative exons, nested genes or false positives. In other
words, the specificity in this large set was higher than 96%.
13:1595–1599 ©2003 by Cold Spring Harbor Laboratory Press ISSN 1088-9051/03 $5.00; www.genome.org
Genome Research
www.genome.org
1595
Jaillon et al.
fruitfly.org/annot/release3.html,
Misra et al. 2002; Table 1). We observed a significant increase in the
percentage of ecores falling inside
gene models between the two releases (93.5% versus 90.5%). This
provides an independent verification of the improvement of the D.
melanogaster annotation between
the two versions.
The gene number estimate is
based on a ratio of ecores per gene
determined using existing annotations and, as a consequence, could
reflect a bias in this set. This bias
would in particular depend on the
level of sequence conservation of
genes and on their structure (length
and number of exons). However,
the collection of 6006 full-length
cDNAs from the Drosophila Gene
Collection is based on biologic observations, and hence considered as
representative. Altogether, these genome comparisons reveal the presence of 4063 ecores outside of annotated exons in the Drosophila genome. Because the mean ecore
number in the Drosophila Gene Collection is higher than in other annotated genes, we expect that some
Figure 1 Exofish analysis on a region on arm 2L of the genome of Drosophila from two different
gene models are still incomplete or
releases of annotations, and around the same ecores. (Top) Results from release 2 of BDGP. (Bottom)
fragmented. We expect that most of
Results from release 3 of BDGP. (A, D) BDGP annotations on the 5⬘-3⬘ strand. (B, E) BDGP annotations
these would correspond to addion the 3⬘-5⬘ strand. The genes are represented by boxes, with vertical lines separating exons (red) and
tional exons of partially annotated
introns (white). (C, F) Ecores (blue). In release 2 (top), five ecores (numbers 7, 8, 9, 11,12) overlap four
gene models, and seven ecores (numbers 1, 2, 3, 4, 5, 6, 10) do not overlap any annotation. In release
genes. Conversely, it is not ex3, a large gene model overlaps all the ecores that fall exclusively in exons except ecore number 9. This
pected that these 4063 ecores will
ecore is part of a gene model on the 5⬘-3⬘ strand, which is predicted inside one intron on the 5⬘-3⬘
contribute to a substantial increase
strand.
in the total gene number of Drosophila. A verified example of a
The mean number of ecores per gene was equal to 3.22 when
modification of a predicted gene indicated by Exofish is
we considered only ecores overlapping exons, and to 3.33
shown in Figure 1. In this case, a series of additional exons in
when considering all ecores within a gene model. Applying
the release 2 annotation is predicted by Exofish, suggesting
these ratios of ecores per gene to the whole genome provides
that a significant number of exons were missed in this region
a gene number estimate in Drosophila between 14,036
(Fig. 1A). We reexamined the same region in release 3, and
(46,742/3.33) and 14,516 (46,742/3.22).
observed that after the new annotation, all ecores are placed
Ecores were also compared to the two last BDGP (Berkein two gene models (Fig.1B). A second example is seen in
ley Drosophila Genome Project) genome annotations (http://
Figure 2, where the presence of two ecores in a region without
www.fruitfly.org/annot/release2.html and http://www.
annotation in the two insect genomes revealed the exis-
Table 1. Distributions of Ecores in the Sequence of Drosophila in Two Successive Annotations
Set
BDGP
BDGP
BDGP
BDGP
Release
Release
Release
Release
2
2
3
3
(number)
(%)
(number)
(%)
Ecores
Genes
Genes
detected
47,134
n.d.
46,742
n.d.
13,468
n.d.
13,666
n.d.
11,147
82.8
11,167
81.7
Ecores
within
genes
42,633
90.5
43,705
93.5
Exons
Exons
detected
Ecores
overlapping
exons
Ecores
overlapping
genes not
overlapping
exons
54,771
n.d.
61,085
n.d.
31,751
58.0
33,996
55.7
41,332
87.7
42,679
91.3
1072
2.3
1026
2.2
Genes and exons stand for annotated genes and exons in the corresponding versions.
1596
Genome Research
www.genome.org
Ecores/
gene
3.17
n.d.
3.2
n.d.
Drosophila/Anopheles Genomes Comparison
eral explanations that are not mutually exclusive may account for
this observation. The high number
of ecores could be the consequence
of (1) an increased coding capacity
in the genome of Anopheles, or (2) a
larger number of pseudogenes or
unmasked tranposable elements in
Anopheles, or (3) problems in the sequence assembly. Explanations (1)
and (2) were not supported by a
previous comparative analysis
(Zdobnov et al. 2002). The presence
of at least two different haplotypes
in the A. gambiae strain sequenced
is known to have introduced a
Figure 2 Ecores detecting a new gene model. The scale refers to the position on the chromosome
number of redundancies in the asarm 2L of the genome of Anopheles. (A) Ensembl gene predictions on the 5⬘-3⬘ strand. (B) Ensembl
sembly, essentially as linked artegene predictions on the 3⬘-5⬘ strand. The genes are represented by boxes, with vertical lines separating
factual duplications and unanexons (red) and introns (white). (C) Ecores (blue). (D) A confirmatory cDNA sequence is in green, with
chored duplicated scaffolds (Holt et
a potential intron in white. Only one cDNA, matching with two consecutive unanotated ecores, is
al. 2002). We analyzed the redunrepresented here. This cDNA (corresponding to the assembly of entries BX034944 and BX034945)
matches a region unannotated in both Drosophila and Anopheles genomes.
dancy in both genomes looking for
multiple occurrences of two ecores
in one genome created by a single
tence of a totally new gene, confirmed by a spliced mosquito
common region in the other genome. A striking result was
cDNA.
observed for the alignments occurring once in Drosophila and
We also ran Exofish against the additional 1042 canditwice in Anopheles (n = 3476), which were more abundant
date genes recently proposed for Drosophila (Gopal et al. 2001;
than the reverse (once in Anopheles and twice in Drosophila,
http://genomes.rockefeller.edu/dm). We obtained ecores on
n = 1650, see Methods). We observed significantly more du18.7% of these new gene models (the list of the matches can
plicated ecores in the same chromosome in Anopheles (77% of
be found at www.genoscope.cns/externe/Fly). This low fracthe duplicated cases) than with Drosophila (60%). One exception could result from a very low conservation of these genes
tion was noted for chromosome X, where duplicated ecores
between Anopheles and Drosophila, possibly representing a
have their second copy randomly present in the Anopheles
subset of rapidly evolving genes, or from a substantial number
genome. This corresponds to the expectation, because chroof false-positive predictions. However, Exofish can serve to
mosome X is the only Anopheles chromosome assembled esvalidate a number of these potential genes.
sentially from a single haplotype (Holt et al. 2002), apparently
because of selection in the sequenced strain. An even more
The Anopheles Annotation
striking result is obtained when looking at small, unmapped
scaffolds. These sequences represent only 16% of the size of
We also attempted to use Exofish in a reverse mode to identify
the whole assembly, but contained about 35% of the dupliecores in Anopheles, assuming that if one ecore in the genome
cated ecores. Taken together, these results indicate that an
of Drosophila flags a coding sequence, the corresponding ecore
important fraction of the excess ecores resides in regions with
in Anopheles should flag a coding sequence. To test the reverse
mode, we applied Exofish to a 585kb region from the Pen1 locus of
Anopheles using the whole genome
of Drosophila. This region had been
independently annotated manually
(unpublished results). We detected
100 ecores in this region, with only
six of them lying outside of annotated exons, while 83% of the annotated genes are confirmed by at
least one ecore. This shows that the
expected sensitivity of Exofish
should be comparable in this reverse mode. A genome-wide analysis was then performed with the
whole A. gambiae assembly.
Figure 3 Ecores defining a new gene model on A. gambiae chromosome 2R. The scale refers to the
We found more ecores in the
Anopheles assembly (54,069 for re- position on the chromosome. (A) Ensembl gene predictions on the 5⬘-3⬘ strand. The genes are represented by boxes, with vertical lines separating exons (red) and introns (white). (B) Ecores (blue). (C)
lease 6.01a) than in the Drosophila
Anopheles cDNA clone (green), with potential introns in white. Only one cDNA, matching with three
genome (ratio = 1.16). The mean consecutive unanotated ecores is represented here. This cDNA (corresponding to the assembly of
size of the ecores is identical for
entries BX063894 and BX063895) matches all along its sequence with the Drosophila Innexin-7 gene.
This gene is not annotated in both releases of the Anopheles annotation.
both species (251 nucleotides). Sev-
Genome Research
www.genome.org
1597
Jaillon et al.
(21%) of Anopheles ecores map outside of annotations. These observations indicate that a substantial
fraction of exons were not annotated and that a number of gene
models should be revised.
A new version of the Anopheles
assembly and annotation was recently released (version 10.2.1).
This new version addressed some
misassembly problems and corrected a number of automatic gene
predictions using recent data. Surprisingly, the percentage of ecores
outside of annotation increased
from 21%–25.6% (Table 2). However, an improvement between the
two versions was seen at the level of
the redundant ecores. We found
that a significant fraction of the duplicated ecores that were present in
the release 6.1a have been discarded as haplotype variants. This
explained in large part the net disappearance of 937 ecores between
the two versions.
Three main types of annotation problems were observed that
remained in the two versions. They
Figure 4 Ecores correcting a gene model. The scale refers to the position on the chromosome arm
are exemplified here: absence of an3L of the genome of Anopheles. (A) Ensembl gene predictions (release 6.1a) on the 5⬘-3⬘ strand. The
notation in both genomes (Fig. 2);
genes are represented by boxes, with vertical lines separating exons (red) and introns (white). (B)
absence of annotation in Anopheles
Ecores (blue). (C) A cDNA sequence is in green, with potential introns in white. Only one cDNA,
of a known gene in Drosophila (Fig.
matching with unannotated ecores, is represented here. This cDNA (corresponding to the assembly of
entries BX062803 and BX062804) matches two of the three orphan ecores. It is homologous through3); incorrectly predicted gene lackout to a Drosophila tetraspanin family member. The version 6.1a of the annotation apparently fused the
ing some exons and integrating intwo last exons of the gene with two putative exons, originating from a transposable element. The large
correct ones (Fig. 4). In the three exsizes of the two first introns may induce such erroneous model constructions. In release 10.2.1, the
amples shown in the figures, the
region is entireley unannotated.
ecores were confirmed by the existence of Anopheles cDNA clones.
potential assembly problems. Further improvements of the A.
This study shows how whole genome comparisons based
gambiae genome annotation will be greatly dependent on
on a tool like Exofish can be used as an efficient method to
resolution of the misassembled regions.
evaluate the quality and to improve existing annotations of
We compared the 54,069 ecores from the assembly of
insect genomes. In particular, it provides an independent asAnopheles to release 6.1a of the Celera-Ensembl joint annotasessment of the improvement of the Drosophila annotation
tions of Anopheles (http://www.ensembl.org/Anopheles_
across the successive releases. The fact that 4,063 ecores do not
gambiae). We found that 79% of the ecores matched with
overlap annotated Drosophila exons illustrates the potential of
79.1% of the gene candidates (Table 2). The fraction of annointerspecies comparisons, even for extensively studied species
tated Anopheles genes that is detected by Exofish is thus
like Drosophila. The number of ecores outside annotations in A.
slightly lower than in Drosophila. Conversely, a large fraction
gambiae (13,791; Table 2) is higher than for Drosophila, showing
Table 2. Comparisons Between Ecores on the Assembly of Anopheles and the Successive Ensembl Annotations
Set
EnsEMBL
EnsEMBL
EnsEMBL
EnsEMBL
Release
Release
Release
Release
6.1a (number)
6.1a (%)
10.2.1 (number)
10.2.1 (%)
Ecores
Genes
Genes
detected
54,069
n.d.
53,132
n.d.
15,088
n.d.
14,658
n.d.
11,929
79.1
10,759
73.4
Ecores
overlapping
genes
42,693
79.0
39,749
74.8
Genes and exons stand for annotated genes and exons in the corresponding versions.
1598
Genome Research
www.genome.org
Exons
Exons
detected
Ecores
overlapping
exons
Ecores
overlapping
genes not
overlapping
exons
53,693
n.d.
56,573
n.d.
32,553
60.6
32,610
57.6
40,278
74.5
39,247
73.9
2,415
4.5
502
0.9
Drosophila/Anopheles Genomes Comparison
that the present automated annotation is probably missing a
substantial number of coding sequences. Two successive versions of the annotation gave globally comparable results, reflecting the slow progress in the acquisition of functional and comparative data for annotating this organism. Anopheles/Drosophila
ecores can clearly serve to refine and improve the next versions of the Anopheles annotation. The precise locations of
ecores in each genome are available for improving both annotations (http://www.genoscope.cns.fr/Exofish/Fly). More
generally, this study illustrates the power of whole-genome
comparisons, and could be extended to other species combinations with the availability of newly sequenced genomes.
METHODS
Exofish Procedure
To determine the conditions that would generate alignment in
coding regions, we first tested a large range of TBLASTX (Altscul
et al. 1990) conditions (W,X, scoring matrix) between the ADH
region of Drosophila that contains 222 transcripts (Ashburner et
al. 1999), and a collection of 16 Mb of shotgun reads from the
Anopheles genome. All sequences were masked against known
repeats. For each condition, we kept an alignment if all of the
alignments with the same length and percent identity were located in a coding region. We selected the conditions that provided the highest sensitivity (match score = 15, mismatch
score = ⳮ3, W = 4, X = 19). We created a general filter based on
the combination of length and percent identity that distinguish
alignments falling exclusively in exons from others. For this
purpose, we added a collection of sequences of 591 introns of
chromosome X of Drosophila (Benos et al. 2001) to the ADH
region. We compared this resource to a collection of 310 Mb
of shotgun reads from the Anopheles genome. Applying these
criteria a series of alignments was selected. We joined overlapping alignments to form ecores. Exofish is a three-step process: compute alignments/filter/create ecores.
Reverse Mode and Ecores Duplicated
Ecores can be built either on the sequence of one species, or
on the sequence of the other one among the two genomes
being compared (reverse mode). We can link one ecore on one
genome to one ecore (eventually more than one) on the other
genome if they have common local alignments. To investigate duplications, we selected situations where one ecore on
one genome is linked to two ecores (on the other genome)
that are both exclusively linked to the same ecore.
Selection of a Drosophila Reference Gene Set
To have a good estimate of sensitivity and specificity of
Exofish, we needed a collection of nonredundant and complete genes. We choose the BDGP gene models that correspond to a DGC reference (Stapleton et al. 2002). We eliminate the genes that have at least one intron overlapped by
another annotation of the BDGP from this set. Hence, we
retained 6006 gene models.
Computations
Anopheles cDNA were mapped on the genomic sequence using Sim4 (Florea et al. 1998).
The series of BLAST comparisons were performed using
the Lassap package (Glemet and Codani 1997). All the computations were performed on a cluster of 40 CPU ␣ (EV6.8/
1GHz) organized in eight nodes (7 ES45 + 1 GS160-12) using
the Cluster File System.
ACKNOWLEDGMENTS
The publication costs of this article were defrayed in part by
payment of page charges. This article must therefore be
hereby marked “advertisement” in accordance with 18 USC
section 1734 solely to indicate this fact.
REFERENCES
Adams, M.D., Celniker, S.E., Holt, R.A., Evans, C.A., Gocayne, J.D.,
Amanatides, P.G., Scherer, S.E., Li, P.W., Hoskins, R.A., Galle,
R.F., et al. 2000. The genome sequence of Drosophila
melanogaster. Science 287: 2185–2195.
Altschul, S.F., Gish, W., Miller, W., Myers, E.W., and Lipman, D.J. 1990.
Basic local alignment search tool. J. Mol. Biol. 215: 403–410.
Ashburner, M., Misra, S., Roote, J., Lewis, S.E., Blazej, R., Davis, T.,
Doyle, C., Galle, R., George, R., Harris, N., et al. 1999. An
exploration of the sequence of a 2.9-Mb region of the genome of
Drosophila melanogaster: The Adh region. Genetics 153: 179–219.
Benos, P.V., Gatt, M.K., Murphy, L., Harris, D., Barrell, B., Ferraz, C.,
Vidal, S., Brun, C., Demaille, J., and Cadieu, E. 2001. From first
base: The sequence of the tip of the X chromosome of Drosophila
melanogaster, a comparison of two sequencing strategies. Genome
Res. 11: 710–730.
Celniker, S.E., Wheeler, D.A., Kronmiller, B., Carlson, J.W., Halpern,
A., Patel, S., Adams, M., Champe, M., Dugan, S.P., and Frise, E.
2002. Finishing a whole-genome shotgun: Release 3 of the
Drosophila melanogaster euchromatic genome sequence. Genome
Biol. 3: 7901–7914.
Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., and Miller, W. 1998.
A computer program for aligning a cDNA sequence with a
genomic DNA sequence. Genome Res. 8: 967–974.
Glemet, E. and Codani, J.J. 1997. LASSAP, a LArge Scale Sequence
compArison Package. Comput. Appl. Biosci. 13: 137–143.
Gopal, S., Schroeder, M., Pieper, U., Sczyrba, A., Aytekin-Kurban, G.,
Bekiranov, S., Fajardo, J.E., Eswar, N., Sanchez, R., Sali, A., et al.
2001. Homology-based annotation yields 1,042 new candidate genes
in the Drosophila melanogaster genome. Nat. Genet. 27: 337–340.
Holt, R.A., Subramanian, G.M., Halpern, A., Sutton, G.G., Charlab, R.,
Nusskern, D.R., Wincker, P., Clark, A.G., Ribeiro, J.M., Wides, R., et
al. 2002. The genome sequence of the malaria mosquito Anopheles
gambiae. Science 298: 129–149.
Kent, W.J. 2002. BLAT—The BLAST-like alignment tool. Genome Res.
12: 656–664.
Misra, S., Crosby, M.A., Mungall, C.J., Matthews, B.B., Campbell, K.S.,
Hradecky, P., Huang, Y., Kaminker, J.S., Millburn, G.H., Prochnik, S.E.,
et al. 2002. Annotation of the Drosophila melanogaster euchromatic
genome: A systematic review. Genome Biol. 3: 8301–8322.
Mural, R.J., Adams, M.D., Myers, E.W., Smith, H.O., Miklos, G.L.,
Wides, R., Halpern, A., Li, P.W., Sutton, G.G., Nadeau, J., et al.
2002. A comparison of whole-genome shotgun-derived mouse
chromosome 16 and the human genome. Science 296: 1161–1171.
Roest Crollius, H., Jaillon, O., Bernot, A., Dasilva, C., Bouneau, L.,
Fischer, C., Fizames, C., Wincker, P., Brottier, P., Quetier, F., et al.
2000. Estimate of human gene number provided by genome-wide
analysis using Tetraodon nigroviridis DNA sequence. Nat. Genet.
25: 235–238.
Rubin, G.M., Yandell, M.D., Wortman, J.R., Gabor Miklos, G.L.,
Nelson, C.R., Hariharan, I.K., Fortini, M.E., Li, P.W., Apweiler, R.,
Fleischmann, W., et al. 2000. Comparative genomics of the
eukaryotes. Science 287: 2204–2215.
Stapleton, M., Liao, G., Brokstein, P., Hong, L., Carninci, P., Shiraki, T.,
Hayashizaki, Y., Champe, M., Pacleb, J., Wan, K., et al. 2002. The
Drosophila gene collection: Identification of putative full-length
cDNAs for 70% of D. melanogaster genes. Genome Res. 12: 1294–1300.
Zdobnov, E.M., Von Mering, C., Letunic, I., Torrents, D., Suyama,
M., Copley, R.R., Christophides, G.K., Thomasova, D., Holt, R.A.,
Subramanian, G.M., et al. 2002. Comparative genome and
proteome analysis of Anopheles gambiae and Drosophila
melanogaster. Science 298: 149–159.
WEB SITE REFERENCES
http://www.fruitfly.org/DGC; BDGP; Drosophila gene collection.
http://www.fruitfly.org/annot/release2.html; BDGP; Drosophila
genome annotation release 2.
http://www.ensembl.org/Anopheles_gambiae; ENSEMBL mosquito
genome server.
http://www.genoscope.cns.fr/Exofish/Fly; Genoscope
Anopheles/Drosophila Exofish database.
http://genomes.rockfeller.edu/dm; A collection of additional
candidate genes in Drosophila.
Received October 24, 2002; accepted in revised form April 25, 2003.
Genome Research
www.genome.org
1599
4.5 De la détection d’exons à la structure de gènes par la
conservation de l’ordre des exons (des ecores aux ecotigs)
4.5.1 Principe
Nous avons montré que les ecores correspondent à des candidats d’exons. Même si les bornes
des ecores ne correspondent pas aux bornes réelles des exons, ils permettent toutefois de
déterminer une région codante parmi un ensemble vaste non codant. Cependant, dans
l’hypothèse où l’ordre des exons est conservé dans un même gène entre les 2 espèces
comparées, mais l’ordre des gènes, lui, n’est pas conservé, alors il est possible de tirer parti de
cette propriété pour associer plusieurs ecores dans une structure propre à un même gène. Il
devient possible de distinguer les régions codantes et non codantes avec les ecores, mais aussi
les régions géniques et intergéniques avec cette structure appelée ecotig. Les ecotigs sont
construits à partir des alignements filtrés par exofish, selon un principe de colinéarité sur les 2
génomes comparés, représenté par le pseudo code suivant.
Initialement
ens  hsp1,.., hspn où deb(hspi )  deb(hspi  1); i  1..n
ecotig  hsp1
resultat  
j2
Tant que
jn
si
Dtarget (hspj  1), target (hspj ) 1
alors
ecotig  ecotig  hspj
sinon
resultat  resultat  ecotig
ecotig  hspj
j ;
60
fin tant que
si
ecotig  
alors resultat  resultat  ecotig
rendre resultat
La construction des ecotigs est aussi décrite dans l’article 4 (Jaillon et al., 2003a).
Pour bénéficier des ecotigs, il faut bien sûr disposer d’une séquence génomique assemblée en
fragments (contigs) de tailles suffisantes pour ne pas fragmenter les ecotigs.
4.5.2 Résultats
L’article 4 (Jaillon et al., 2003a) présente un bilan des ecotigs obtenus entre des paires de
génomes de vertébrés, d’insectes et de plantes. Cet article discute notamment de l’apport des
ecotigs dans un processus d’annotation. Les ecotigs permettent d’évaluer globalement la
qualité d’une annotation réalisée par ailleurs. Mais les ecotigs
permettent localement
d’améliorer une annotation :

En détectant des gènes conservés non annotés.

En proposant des extensions de modèles de gènes.
Nous présentons ci-dessous un complément d’analyse des ecotigs.
Pour analyser la conservation de l’ordre des exons ou des gènes (synténie), il est nécessaire de
disposer d’une annotation la plus aboutie possible. Pour les résultats suivants, nous avons
utilisé une annotation du génome humain dont chaque gène a été expertisé humainement. Il
s’agit des annotations référencées par le projet Vega qui regroupe aujourd’hui (version du 02
mars 2005) 7373 gènes sur les chromosomes 6,7,9,10, 13, 14, 20, 22, X (Ashurst et al.,
2005).
Entre les séquences de Tetraodon et de l’humain, nous regroupons en moyenne 3.6 ecores par
ecotig alors que le nombre moyen d’exons codants dans un gène humain est de 7.9. Ce
rapport est en accord avec la sensibilité en exons d’exofish qui est ici de 50.3% (Figure 12).
Cependant les valeurs médianes de nombre d’exons par gène, 5 et de nombre d’ecores par
ecotig, 2, sont inférieures à leurs moyennes respectives en raison des gènes à grand nombre
61
d’exons (Figure 12). Le maximum observé dans l’annotation de Vega est de 114 exons pour
le gène SYNE2 (dénomination HUGO) situé sur le chromosome 14 en 14q23. Mais ce gène
ne contient que 35 ecores alors que le plus long ecotig en contient 116. Ce plus long ecotig se
trouve sur le chromosome 17 mais fusionne plusieurs gènes (Figure 13).
Fusion et rupture de gènes.
Dans une situation où l’ordre des gènes et des exons a été parfaitement conservé, nous
incorporerions un très grand nombre d’ecores par ecotig. A un ecotig, correspondrait un très
grand nombre de gènes. Cette situation pourrait révéler une contrainte évolutive sur la
conservation de la proximité et de l’ordre de certains gènes. Or, le nombre de gènes humains
par ecotig se distribue de façon exponentielle (distribution noire sur la (Figure 14)). Ce type
de distribution est en accord avec une répartition aléatoire des positions de remaniements
génomiques. Une observation semblable a été faite chez les mammifères entre les génomes
humains et de la souris (Kent et al., 2003; Pevzner & Tesler, 2003a; Waterston et al., 2002b).
Cependant, il existe une controverse sur l’existence de « points chauds » dans les génomes de
mammifères, région génomique subissant à plusieurs reprises des remaniements (Pevzner &
Tesler, 2003b). Sur une distribution des tailles de régions génomiques dont l’organisation en
gènes a été conservée, cela se traduit par un nombre important de petites régions (inférieures
au mégabase entre les 2 mammifères). Entre le génome humain et celui de Tetraodon, nous
n’observons pas une telle situation, du moins en analysant les gènes conservés.
Cependant, dans la très grande majorité des cas (91%), les ecotigs ne fusionnent pas 2 gènes
consécutifs. Cela reflète le nombre important de remaniements génomiques qui se sont
produits depuis le dernier ancêtre commun. Une plus grande analyse de l’évolution de la
synténie entre les 2 espèces sera traitée dans l’article 5 (Jaillon et al., 2004).
En résumé, les ecotigs permettent d’apporter un niveau d’information supplémentaire aux
ecores. En fonction des paires de génomes comparés, ecores et ecotigs permettent de délimiter
respectivement des zones incluses dans des exons, et des zones incluses dans des gènes. Dans
un processus d’annotation de génome, il est alors envisageable de considérer les zones entre
les ecores, ou entre les ecotigs, comme des introns ou des régions intergéniques potentielles.
Ce principe a été utilisé dans le procédé d’annotation automatique de la séquence complète de
Tetraodon, ce qui sera décrit dans l’article 5.
62
4.5.3 Article 4 "Genome-wide analyses based on comparative
genomics." Cold Spring Harb Symp Quant Biol 68: 275-82.
63
Genome-wide Analyses Based on Comparative Genomics
O. JAILLON, J.-M. AURY, H. ROEST CROLLIUS, M. SALANOUBAT, P. WINCKER,
C. DOSSAT, V. CASTELLI, N. BOUDET, S. SAMAIR, R. ECKENBERG, S. BONNEVAL,
W. SAURIN, C. SCARPELLI, V. SCHÄCHTER, AND J. WEISSENBACH
CNRS UMR8030, Genoscope and University of Evry, Evry, France
The establishment of an exhaustive inventory of genes
is the primary goal of genome sequencing projects. When
looking at multicellular genome annotations that are
available in sequence data banks or on other sites, the
level of available information is quite variable from
genome to genome, and the degree of completion that has
been reached among the gene inventories of the genomes
sequenced to date is very difficult to assess. These gene
inventories are typically carried out in an automated fashion by the annotation platforms of the major data banks,
and rely mainly on two types of predictions: ab initio predictions and those based on sequence comparisons. A genomic DNA sequence can be subjected to direct or indirect comparisons. In direct comparisons the genomic
DNA sequence is aligned with sequences of expression
products, namely ESTs, cDNAs, or proteins from the
same species. In indirect comparisons the genomic sequence is aligned with genomic or expressed sequences
from other organisms.
To date, whole-genome comparisons have not been
used extensively for a variety of reasons: They are rather
demanding in computing capacity and, until recently, the
number of complete or draft genome sequences was very
limited. In addition, such comparisons generate massive
data sets, from which the significant fraction is sometimes difficult to extract. Such massive sequence alignments can be performed at both DNA and protein levels.
Whole-genome comparisons between genomes from
multicellular organisms can be used to detect sequence
conservation in both coding and noncoding regions.
Whereas conservation of coding regions can be detected
between species separated by large evolutionary distances (e.g., between mammals and fish), the conservation of noncoding regions is usually much weaker and
mainly detected between species that are separated by
shorter evolutionary distances (e.g., within mammals). In
the work described here, our primary interest was to identify yet undetected coding sequences belonging to unknown or already identified genes. For that purpose, we
have developed a two-level procedure aimed at predicting (1) exons and (2) genes: (1) The first level, dubbed
“Exofish,” searches for ecores (Evolutionary COnserved
REgions) between pairs of genomes that can be very
specifically ascribed to protein-coding DNA segments
when using appropriate parameters determined on training sets of exhaustively annotated known genes. (2) Sets
of ecores satisfying a certain colinearity property are then
assembled into candidate gene models called ecotigs
(ECOre conTIGS). Since Exofish (the first level) was first
introduced and applied to the comparison of a set of annotated human genes and a collection of random shotgun
sequence reads from Tetraodon nigroviridis (Roest Crollius et al. 2000), several comparative gene prediction
methods have been introduced (for review, see Ureta-Vidal et al. 2003). These “dual-gene predictors” take one of
the two following approaches: Asymmetrical “informant” methods (Korf et al. 2001; Wiehe et al. 2001; Yeh
et al. 2001) complement traditional hidden Markov models (HMM) of gene structure on the target sequence with
information from its alignment with another sequence,
whereas symmetrical “Pair-HMM” methods (Meyer and
Durbin 2002; Pachter et al. 2002) rely on a single HMM
of a pair of sequences joined by orthology links to predict
gene structure on both sequences simultaneously.
The “Exofish + ecotigs” approach takes a slightly different route. Its aim is not to perform ab initio gene prediction alone, but to provide a highly reliable set of core
predictions that can be used jointly with other methods or
resources for an initial annotation, or to improve existing
annotations. Therefore, Exofish clearly favors specificity
over sensitivity.
In addition, whereas the two levels of our method correspond roughly to the steps traditionally found in ab initio gene prediction algorithms (exon prediction, gene
model construction), it is purely comparative—i.e., it
does not rely on an a priori model of gene structure—and
therefore quite simple; its levels are uncoupled; i.e., the
gene prediction method builds on, but is independent of,
the exon prediction method.
In this paper, we briefly describe our comparative procedure, show how Exofish comparisons and construction
of derived gene models (ecotigs) have been applied to
several pairs of multicellular eukaryotic genomes, and
discuss how these comparisons can be used to reevaluate
the degree of completion and accuracy of gene and exon
identification in these genomes.
METHODOLOGY
Our aim is to annotate a target genome using comparisons with a query genome. The results of sequence alignments are positioned on the target genome.
Cold Spring Harbor Symposia on Quantitative Biology, Volume LXVIII. © 2003 Cold Spring Harbor Laboratory Press 0-87969-709-1/04.
275
276
JAILLON ET AL.
Detection of Evolutionary Conserved
Sequences (Ecores)
The methodology we are currently using is based on
comparisons of the translated phases between two DNA
sequences using TBLASTX (Altschul et al. 1990) as an
engine. Although TBLASTX computation generates a
huge number of sequence matches called HSPs (high
scoring pairs), these can be categorized as true positives
(matches that are located within coding exons) or false
positives (located elsewhere).
We showed that it was possible to minimize the background of false-positive matches (Roest Crollius et al.
2000) to about 1% by (1) applying extensive and stringent
masking of low-complexity repeats, and (2) filtering HSPs
using appropriate combinations of threshold values for sequence identity rate and length of sequence alignments.
For a given length of sequence match, we use a specific
percentage of sequence identity. These settings were initially determined as a broken line manually, i.e., the frontier between putative true positives and false positives
was empirically approximated by a piecewise linear function, using reference annotations. Since the number of
properly annotated genes is well above 1000 in several
genomes, we are now using polynomial approximations
both for practical reasons and to improve accuracy.
Finally, sets of overlapping true positive matches are
assembled, and the resulting genomic regions are called
ecores. Although an ecore designates a pair of corresponding regions, one on the target genome and one on
the query genome, the pair of regions may be composed
of HSPs that are not in strict correspondence. Depending
on the context, we will employ the term “ecore” indifferently for the pair or for one of its components.
An example of such an optimization is shown in Figure
1 for a set of 1589 Arabidopsis thaliana genes that were
compared to the Syngenta (Goff et al. 2002) sequence
draft of the rice genome. The fraction of false positives in
the test set on the right part of the curve (alignments
above thresholds for length and sequence identity) is below 0.2%. However, this high specificity is at the expense
of sensitivity which is limited to ~64% of exons of the set
of tested genes. These settings have to be defined for each
pair of genomes compared.
Detection of Conserved Contiguity of
Ecores (Ecotigs)
Sequence conservation between genomic sequences of
species that have diverged for 100 Myr or more is essentially restricted to coding segments. In a large majority of
cases, there is only a single ecore match in exons that are
matched. In addition, if two ecores remain consecutive
(contiguous) in both genomes A and B, they are highly
likely to belong to the same gene. In order to identify
ecores that conserve such colinearity, named hereafter
ecotigs (ECOres conTIGuous), we designed an algorithm
that identifies conserved contiguity of ecores between
two genomes A and B by constructing well-chosen paths
in the joint “contiguity-similarity” graph. Contiguity
Figure 1. The conditions that generate optimal alignment in
coding regions were first tested using a large range of
TBLASTX (Altschul et al. 1990) conditions (W, X, scoring matrix) between a well-annotated set of 1589 genes including introns, exons, and 100 bp of intergenic region at both ends of
each gene (P. Rouzé and S. Aubourg , pers. comm.) and the Syngenta rice draft sequence (Goff et al. 2002). The BLAST settings
providing the highest sensitivity are: match score = 15, mismatch score = –3, W = 4, X = 13. All sequences were masked
against known repeats from rice and Arabidopsis. For each condition, a filter was applied based on the length and percent identity of alignments. The gray dots correspond to HSPs that overlapped exons in 100% of cases. The circles correspond to HSPs
that overlapped exons in less than 100% of cases. HSPs situated
to the left of the curve were discarded.
edges were induced by exon neigborhood relationships of
ecores from both genomes and similarity edges by correspondence between ecores (J.M. Aury et al., in prep.).
Figure 2 outlines the rationale of the procedure we use
to identify and construct ecotigs. Ecotigs group ecores together as long as colinearity is preserved, up to a fixed tolerated “gap” in ecore succession. In other words, ecores
that are consecutive in genome A will be included in an
ecotig if they consist of at least two HSPs that are consecutive or separated by one (the chosen gap value) additional
HSP at most on genome B (distance 1 and 2, respectively,
in Fig. 2). When constructing ecotigs on genome A, we
first consider the ecore pairs i and ii that are consecutive
on genome A (ia and iia). Ecore ia is linked to ecores ib1
and ib2 on genome B. These latter are separated by a distance ≤2 from ecore iib. According to the chosen rules, i
and ii will be grouped in the same ecotig. The ecotig is
then tentatively extended to ecore iii. The distance separating iib and iiib on genome B is 2. Consequently, iii will
be incorporated into the existing ecotig. By iterating of the
process, we can group ecores i, ii, iii, iv, and v in a single
ecotig. Ecores v and vi are contiguous on genome A (va
and via) but are not syntenic on genome B, and vb and vib
are hence separated by an infinite distance. This will stop
extension of the ecotig. A new tentative ecotig is then initiated with ecore vi and the process is iterated.
A single ecotig on one genome may be related to multiple ecotigs on the other one. In addition, ecotigs may be
composed of sequences from more than one gene, since
WHOLE-GENOME COMPARISONS
277
Figure 2. Construction of ecotigs. The two first lines represent, respectively, the ecores (boxes) and the HSPs (segments) detected on
genome B, using genome A as a query. The two following lines represent, respectively, the HSPs and the ecores detected on genome
A, using genome B as a query. The bottom line represents the ecotig gene models constructed on genome A. Matching HSPs are linked
by dotted lines. Matching ecores are identified by the same prefix (i, ii, etc.). Numbers over (or under) arrows represent distances separating ecores that are consecutive on genome A (number of consecutive ecores minus one).
genes may remain colinear on the pair of compared
genomes, depending on the degree of conserved synteny
of the genome pair analyzed. In the rest of this paper, we
designate the pair of matched genomes with the following
notation: (query/target).
RESULTS
The ecore detection and ecotig construction procedures
have been applied to compare draft or complete genome
sequences from various multicellular organisms. We applied Exofish comparisons to several genome pairs between plant, insect, and vertebrate genomes, namely,
mammals (mouse/human) with pufferfish (Tetraodon/
Takifugu), the Drosophila melanogaster sequence with
the Anopheles gambiae draft, and the Arabidopsis sequence with the rice genome draft. Such comparisons
were used (1) to detect gene models or exons that have
not yet been identified in one or both genomes, (2) to extend existing gene models, and (3) to determine the degree of completion of existing annotations.
Plant Genomes
The recent availability of a draft sequence of the rice
genome with sufficient coverage (Goff et al. 2002) has
opened the possibility of comparing whole plant genomes
for the first time. In addition, the genome of Arabidopsis
has been the focus of several extensive annotation projects that make this genome one of the best documented
to date. This situation enabled us to use Arabidopsis as a
reference on which Exofish performances can be evalu-
ated. Such an evaluation benefited also from the availability of a source of new cDNA sequences that have not
yet been used in the Arabidopsis genome analyses but
have served as a support for experimental validation of
comparison-based predictions.
Exofish was first calibrated using a set of 1589 Arabidopsis genes that had been manually annotated. The optimal conditions we determined produce a specificity
above 99% and a sensitivity at the exon and gene level of
64% and 93%, respectively. The global Exofish comparison was performed between the finished Arabidopsis
genome sequence The Arabidopsis Genome Initiative
(2000) used as a target and the BAC-based sequence draft
established by the International Rice Genome Sequencing Program used as a query. Ecores were mapped relative to the Arabidopsis genome annotation.
Statistics on ecores detected within and outside annotations are shown in Table 1. A total of 74% of the annotated genes (MIPS annotation) included one ecore at
least, and 47% of the annotated exons are matched by one
or more ecores. Conversely, 91% of the ecores are localized within the boundaries of annotated genes, and only
about 1% of these ecores do not match an annotated exon.
In a subset of 60 nonmatching ecores, experimental evidence based on new cDNAs showed that 59 cases correspond to novel exons. We thus estimate that about 98% of
the ecores within gene annotations, but which do not
match annotated exons, correspond to real exons that
were missed during the annotation process. Taking into
account that only one exon out of two is detected as an
ecore (Table 1), an extrapolation of this analysis suggests
that about 900 internal exons are still missing in the set of
278
JAILLON ET AL.
Table 1. Distribution of (Rice/Arabidopsis) Ecores in the Sequence of Arabidopsis thaliana
Numbers
(%)
Ecores
Genes
Genes
detected
80,010
(100)
26,027
(100)
19,235
(74)
Ecores
within
genes
73,119
(91)
11,620 annotated Arabidopsis genes for which no corresponding full-length cDNA is available.
A total of 6891 ecores were found to be located outside
gene annotations. Of these, 2980 were found in other annotated features such as transposons, tRNAs, or pseudogenes. The presence of ecores in pseudogenes is expected
and difficult to avoid. Transposons that were matched by
ecores correspond to cases that escaped masking. However, we expect that a substantial fraction of the 3911 remaining un-annotated ecores correspond to gene extensions or to undetected genes. Again, experimental
evidence based on new cDNAs confirmed that 150 ecores
could be included in 93 gene extensions. It is, however,
impossible to estimate the fraction of genes that could be
extended, since we cannot determine the fraction of truly
full length cDNAs in the collection of novel cDNAs that
is being used for experimental validation.
To analyze these gene extensions further, we constructed ecotig gene models (see Methodology). Of the
80,010 ecores, 70,847 were incorporated in 15,311
ecotigs and 9,163 remained as singletons. A total of
14,308 ecotigs (67,607 ecores) matched 15,496 genes in
Arabidopsis; 712 gene models are overlapped by two or
more ecotigs (1,433 ecotigs). Conversely, 1,413 ecotigs
led to the fusion of 3,307 annotated genes. It remains to
be seen whether these fusions are correlated with conservation of synteny between genes from both plants. This is
an obvious drawback of the ecotig method that may nevertheless be of interest in the identification of conservation of synteny between two genomes, for which it could
even provide a measurement.
The construction of ecotigs can first be applied to extend gene models, and in their present stage, 697 annotated Arabidopsis genes could be potentially extended on
the basis of the ecotigs (914 ecores). Of the 93 gene extensions that were experimentally supported by cDNA
sequences described above, 64 could be included in
ecotigs.
Among the 1,003 ecotigs (3,240 ecores) located in regions with no gene annotation, 619 match a transposon, a
tRNA, or a pseudogene. Of the 384 remaining ecotigs,
245 were subjected to manual curation, which selected 98
(255 ecores) as potential gene candidates. Experimental
evidence based on cDNAs was available for 19 of these
candidates. In addition, singleton ecores may also indicate the existence of additional genes, since about 40 such
singletons were confirmed by novel cDNAs. Interestingly, many of these novel gene candidates (55%) encode
small open reading frames (smORFs) with a CDS <100
amino acids, suggesting that many such smORFs remain
undetected and should become a major focus for future
Exons
Exons
detected
Ecores
overlapping
exons
Ecores in
genes not
in exons
135,318
(100)
64,032
(47)
72,396
(90)
723
(1)
systematic searches (Kessler et al. 2003). The possibility
that a fraction of them correspond to pseudogenes cannot
be excluded, but non-detection of a corresponding real
gene in the Arabidopsis genome using those novel
cDNAs argues against this hypothesis. An analysis of the
Exofish comparison and ecotig construction applied to
the rice genome is in progress.
Insect Genomes
Comparisons between insect genomes have also become possible with the recent availability of a sequence
draft from the malaria vector mosquito Anopheles gambiae (Holt et al. 2002). The D. melanogaster genome has
been the focus of several major annotation efforts and can
be considered as one of the most exhaustively annotated
genomes of a model organism. This situation is thus very
similar to that of the pair of plant genomes compared as
described above and has been exploited for the same purposes.
The available sequence assembly of A. gambiae was
compared to the last two versions of the genome sequence
of the fruit fly using Exofish with conditions determined
on a set of reference genes (Jaillon et al. 2003). The
global ecore counts obtained for releases 2 and 3 of the fly
genome (Table 2) show a very slight decrease from
47,134 to 46,742 ecores, respectively, probably reflecting
some minor changes in the sequence assembly (Celniker
et al. 2002). More importantly, we observed a significant
increase in the fraction of ecores mapping inside gene
models (Misra et al. 2002), from 90.5% to 93.5% between
the two releases. This illustrates how Exofish can provide
a quantitative evaluation of the improvement of two successive versions of a whole-genome analysis of gene content.
Mosquito/fly genome comparisons reveal the presence
of 4,063 ecores outside of annotated exons in the D.
melanogaster genome. Since the mean ecore number in
the D. melanogaster Gene Collection (used as a reference
set) is higher than in other annotated genes, we expect
that some gene models are still incomplete or fragmented.
We expect that most of these ecores would correspond to
additional exons of partially annotated genes. Conversely, it is not expected that the 4,063 ecores will contribute to a substantial increase in the total gene number
of D. melanogaster. A verified example of a modification
of a predicted gene indicated by Exofish is shown in Figure 3. In this case, a series of additional exons in the annotation of release 2 was predicted by Exofish, suggesting that a significant number of exons were missed in this
region (Fig. 3, top). We reexamined the same region in re-
WHOLE-GENOME COMPARISONS
279
Table 2. Distributions of (Anopheles/D.melanogaster) Ecores in the Sequence of Drosophila
in Two Successive Annotations
BDGP
annotation Ecores
Release 2
(%)
Release 3
(%)
47,134
(100)
46,742
(100)
Genes
Genes
detected
Ecores
within
genes
13,468
(100)
13,666
(100)
11,147
(83)
11,167
(82)
42,633
(90.5)
43,705
(93.5)
lease 3 and observed that, at present, all ecores have been
placed in two gene models (Fig. 3, bottom).
Based on remote protein sequence or structure homologies, an additional set of 1,042 D. melanogaster candidate
genes has been proposed (Gopal et al. 2001) (http://
genomes.rockefeller.edu/dm). Ecores could be found in
18.7% of these new gene models (the list of the matches
can be found at www.genoscope.cns/externe/Fly). This
low fraction of matches could either result from a very low
conservation of these genes between A. gambiae and D.
melanogaster, possibly representing a subset of rapidly
evolving genes, or indicate that a large fraction of these
hypothetical genes should be dismissed. However, Exofish can also serve to validate a number of these potential
genes. A genome-wide analysis was also performed on
Exons
Exons
detected
Ecores
overlapping
exons
Ecores in
genes not
in exons
54,771
(100)
61,085
(100)
31,751
(58)
33,996
(56)
41,332
(88)
42,679
(91.5)
1072
(2.5)
1026
(2)
the assembly of the A. gambiae genome sequence draft
(Holt et al. 2002). We found more ecores in the Anopheles assembly (54,069 in release 6.01a) than in the D.
melanogaster genome (ratio = 1.16). Several explanations that are not mutually exclusive may account for this
observation. The high number of ecores could reflect (1)
an increased coding capacity in the genome of Anopheles
or (2) a larger number of pseudogenes or unmasked tranposable elements in Anopheles or (3) problems in the sequence assembly. The presence of at least two different
haplotypes in the A. gambiae strain sequenced is known
to have introduced a number of redundancies in the assembly, essentially as linked artefactual duplications and
unanchored duplicated scaffolds (Holt et al. 2002). Work
is in progress to test these hypotheses. We compared the
Figure 3. Exofish analysis on a region on arm 2L of the genome of D. melanogaster from 2 different releases of annotations, and
around the same ecores. (Top) Results from release 2 of BDGP. (Bottom) Results from release 3 of BDGP. (A,D) BDGP annotations
on the 5´–3´ strand. (B,E) BDGP annotations on the 3´–5´ strand. The genes are represented by boxes, with exons in black and introns
in white. (C,F) Ecores (gray boxes). In release 2 (top), 5 ecores (numbers 7, 8, 9, 11, 12) overlap 4 gene models, and 7 ecores (numbers 1, 2, 3, 4, 5, 6, 10) do not overlap any annotation. In release 3, a large gene model overlaps all the ecores that fall exclusively in
exons except ecore number 9. This ecore is part of a gene model on the 5´–3´ strand, which is predicted inside an intron on the 3´–5´
strand.
280
JAILLON ET AL.
Table 3. Distribution of (D.melanogaster/Anopheles) Ecores on the Assembly of Anopheles in
Two Successive Ensembl Annotations
Ensembl
annotation
Ecores
Genes
Release 6.1a
(%)
Release 10.2.1
(%)
54,069
(100)
53,132
(100)
15,088
(100)
14,658
(100)
Ecores
Genes overlapping
detected
genes
11,929
(79)
10,759
(73.5)
42,693
(79)
39,749
(75)
54,069 ecores from the assembly of Anopheles to release
6.1a of the Celera-Ensembl joint annotations of Anopheles
(http://www.ensembl.org/Anophelesgambiae). We found
that 79% of the ecores matched 79.1% of the gene candidates (Table 3). The fraction of annotated Anopheles genes
that is detected by Exofish is thus slightly lower than in D.
melanogaster. Conversely, a large fraction (21%) of
Anopheles ecores map outside of annotations. These observations indicate that a substantial fraction of exons were
not annotated and that a number of gene models should be
revised.
A more recent version of the Anopheles assembly and
annotation has been released (version 10.2.1). Surprisingly, the percentage of ecores outside of annotations increased from 21% to 25.6% (Table 3). We found that a
significant fraction of the duplicated ecores that were present in release 6.1a have been discarded as haplotype
variants. This explained in large part the net disappearance of 937 ecores between the two versions.
Vertebrate Genomes
The increase in the number of vertebrate genome drafts
amplifies dramatically the number of possible genomewide comparisons. Exofish is particularly suited to
genomes that are separated by substantial evolutionary
distances. We therefore applied Exofish to compare the
available pufferfish genome drafts from Takifugu (Aparicio et al. 2002) and Tetraodon (recently assembled at the
Whitehead Institute using the Arachne genome assembler) with the mammalian genomes from human and
mouse (Lander et al. 2001; Waterston et al. 2002). The
main difficulty with vertebrate genomes remains in the
definition of a set of exhaustively annotated genes. Because alternative splicing involves about half of mammalian genes (Dunham et al. 1999; Heilig et al. 2003) and
has only been exhaustively studied for a handful of genes,
Exons
53,693
(100)
56,573
(100)
Ecores
Ecores in
Exons overlapping genes not
detected
exons
in exons
32,553
(60.5)
32,610
(57.5)
40,278
(74.5)
39,247
(74)
2,415
(4.5)
502
(1)
the estimates given hereafter remain tentative. Nevertheless, the additional ecores or gene models proposed by
Exofish are worth taking into account and deserve further
experimental investigations. The overall numbers of
ecores observed in pairwise comparisons (one fish versus
one mammal) are shown in Table 4. Both mammalian
genomes show a very similar number of ecores regardless
of the query fish genome. The difference between pufferfish ecores detected in human and mouse genomes is very
low and may just reflect a difference in the degree of
completion of each genome. Conversely, mammalian sequences match about 10% more ecores in Tetraodon than
in Takifugu. However, the Tetraodon alignments on the
mammalian genomes do not detect more ecores than Takifugu alignments. This suggests that the additional
Tetraodon ecores do not correspond to sequences that are
absent in Takifugu but rather to some redundancy in the
Tetraodon assembly. It remains to be seen whether or not
such redundancy is artefactual, possibly resulting from
diverged haplotypes that were considered as distinct loci
in the assembly process.
Combining ecores matched by both pufferfishes results
in an overall increase in the number of ecores observed in
mammals: Each fish draft sequence contains 7–8%
ecores not found in the other fish genome. We conclude
that these drafts each cover ~92–93% of the complete sequence. The overall ecore content in Takifugu and mammals is very close. However, this estimate remains global
and cannot, for instance, detect gene families that would
have undergone an increase or reduction in gene number
in some species or groups of species. A similar number of
ecores in pufferfish and mammals argues against a
whole-genome duplication event in teleosts as has been
proposed (Amores et al. 1998; Wittbrodt et al. 1998).
To evaluate the degree of completion of various sets of
data or annotations of the human genome, we estimated
the number of ecores located within and outside gene
Table 4. Ecores Determined by Pairwise Genome-wide Gxofish Comparisons
Target genomeb
Tetraodon
Query genomea
human
mouse
Tetraodon
Takifugu
Combined pufferfish
Human
Mouse
Combined mammals
141,623
142,052
152,208
NA
ND
NA
135,924
137,635
146,714
ND
NA
NA
NA
ND
NA
151,791
150,444
161,623
(NA) Not applicable. (ND) Not determined.
a
Genome sequence that is compared to the target genome using Exofish.
b
Genome on which the matching ecores are localized.
Takifugu
ND
NA
NA
135,031
133,537
143,555
WHOLE-GENOME COMPARISONS
models defined by Ensembl or by a RefSeq cDNA
aligned on the human genome assembly. Some 28,400
(Tetraodon/human) ecores did not overlap Ensembl annotations and corresponded to 32,500 (human/
Tetraodon) ecores. Of these, 29,200 turned out to have a
(Tetraodon/mouse) counterpart, of which 16,600 mapped
within Ensembl mouse annotations and 12,600 did not.
This indicates that a very large fraction of (Tetraodon/human) ecores (90%) that are not in human annotations are
conserved in mouse and are related to (Tetraodon/mouse)
ecores that are frequently (57%) located in mouse gene
models. Work is in progress to determine the fraction of
possible background due to pseudogenes or simple sequences and to check whether such ecores are in conserved synteny in mammals. About 6% of (Tetraodon/human) ecores that mapped within a gene model did not
match an exon defined by these resources (Table 5).
Ecotigs can be used to evaluate the fraction of ecores that
extend annotated gene models. We found 3,416 ecotigs
that extended existing Ensembl annotations by one ecore
at least. A RefSeq sequence exists for a subset of 2,701
extending ecotigs, suggesting that a substantial number of
these cDNAs are not yet complete.
CONCLUSIONS
The studies summarized above show how wholegenome comparisons based on a tool like Exofish can be
an efficient method to evaluate quality and to improve existing annotations of genomes as diverse as plants, insects, and vertebrates. Exofish has certain limitations. Because it was designed to maximize specificity, its
sensitivity is rather low, probably reflecting an uneven
rate of evolution between different genes, and even
within coding regions of a single gene, that depend on
nonuniform selective constraints imposed on the various
proteins of an organism. Despite such limitations, Exofish data and ecotigs can be used at both genome-wide
and gene-specific levels.
At the genome-wide level, ecores and ecotigs provide
an independent assessment of the quality and improve-
281
ment of analyses across successive annotation rounds for
a given genome. The fact that a significant number of
ecores do not overlap annotated exons, even for extensively studied species such as D. melanogaster, A.
thaliana, H. sapiens, and M. musculus, illustrates the potential for interspecies comparisons. It also provides a
measure of the amount of work and the type of additional
experimental results that will be needed to improve existing annotations, especially for species like A. gambiae,
for which it helps to set priorities.
At a gene-specific level, potential additional internal
exons or gene extensions can be pinpointed, and Exofish
predictions can be used for targeted experimental work,
such as searches for splicing variants and/or 5´UTRs using RT-PCR. Exofish comparisons also provide highly
reliable confirmation of ab initio gene and exon predictions. A web tool specifically designed to display pairwise genome comparisons and derived ecotig construction is available at www.genoscope.cns.fr/comparative.
Exofish was designed to address a precise type of problem, the identification of exons. Each setting is a compromise between sensitivity and reduction of background
noise and has to be adjusted to the pair of genomes that
are being compared. Other comparative studies should be
able to highlight other essential features such as regulatory regions at the DNA level or at the transcript level, especially in UTRs.
Comparative studies have also shown that small open
reading frames (smORFs) are conserved during evolution
(Kessler et al. 2003). These studies, however, are just beginning, and most smORFs remain to be detected. Their
discovery can greatly benefit from renewed analyses
based on EST and cDNA collections in combination with
comparative studies.
We have shown here that the use of conservation of
contiguity between ecores in the construction of ecotigs is
a valuable procedure for attempting to extend genes. This
procedure is, however, not sufficient per se, since it may
link ecores from consecutive genes together and should
therefore be experimentally verified. It is hypothesized
that the fusion of consecutive gene models into a single
Table 5. Whole-genome Comparison between Target, Human Genome Assembly (Build 31) and Query,
Tetraodon Genome Assembly (Whitehead Institute/Genoscope)
Ecotigs
Ecores
Ensembl
genes
Ensembl
exons
Total 34,057
Ecotigs overlapping
Ensembl genes
141,623
23,298
23,436
113,240
190,869
17,294
15,383
126,202
Ecotigs overlapping
Ensembl exons
19,160
106,557
16,180
91,868
6,090
16,180
Ecores outside
Ecotigs/Ensembl
exons
RefSeq
genes
RefSeq
exons
145,416
Ecotigs overlapping
RefSeq genes
18,474
92,015
12,604
100,429
Ecotigs overlapping
RefSeq exons
15,227
86,226
12,130
75,236
282
JAILLON ET AL.
ecotig is a result of conservation of synteny between the
pair of genomes analyzed. Ecotigs could therefore also be
used to evaluate the degree of such conserved synteny.
Comparative genomics is a challenging new field of research that is still in its infancy. Its future will require the
development of analysis tools which depend on a better
understanding of the nature and action of evolutionary
forces that shape the genomes of multicellular organisms.
ACKNOWLEDGMENTS
This work was supported by Consortium national de
recherche en génomique.
REFERENCES
Altschul S.F., Gish W., Miller W., Myers E.W., and Lipman D.J.
1990. Basic local alignment search tool. J. Mol. Biol. 215:
403.
Amores A., Force A., Yan Y.L., Joly L., Amemiya C., Fritz A.,
Ho R.K., Langeland J., Prince V., Wang Y.L., Westerfield
M., Ekker M., and Postlethwait J.H. 1998. Zebrafish hox clusters and vertebrate genome evolution. Science 282: 1711.
Aparicio S., Chapman J., Stupka E., Putnam N., Chia J.M., Dehal P., Christoffels A., Rash S., Hoon S., Smit A., Gelpke
M.D., Roach J., Oh T., Ho I.Y., Wong M., Detter C., Verhoef
F., Predki P., Tay A., Lucas S., Richardson P., Smith S.F.,
Clark M.S., Edwards Y.J., and Doggett N., et al. 2002.
Whole-genome shotgun assembly and analysis of the genome
of Fugu rubripes. Science 297: 1301.
Arabidopsis Genome Initiative. 2000. Analysis of the genome
sequence of the flowering plant Arabidopsis thaliana. Nature
408: 796.
Celniker S.E., Wheeler D.A., Kronmiller B., Carlson J.W.,
Halpern A., Patel S., Adams M., Champe M., Dugan S.P.,
Frise E., Hodgson A., George R.A., Hoskins R.A., Laverty T.,
Muzny D.M., Nelson C.R., Pacleb J.M., Park S., Pfeiffer
B.D., Richards S., Sodergren E.J., Svirskas R., Tabor P.E.,
Wan K., and Stapleton M., et al. 2002. Finishing a wholegenome shotgun: Release 3 of the Drosophila melanogaster
euchromatic genome sequence. Genome Biol. 3: RESEARCH0079.
Dunham I., Shimizu N., Roe B.A., and Chissoe S. 1999. The
DNA sequence of human chromosome 22. Nature 402: 489.
Goff S.A., Ricke D., Lan T.H., Presting G., Wang R., Dunn M.,
Glazebrook J., Sessions A., Oeller P., Varma H., Hadley D.,
Hutchison D., Martin C., Katagiri F., Lange B.M.,
Moughamer T., Xia Y., Budworth P., Zhong J., Miguel T.,
Paszkowski U., Zhang S., Colbert M., Sun W.L., and Chen L.,
et al. 2002. A draft sequence of the rice genome (Oryza sativa
L. ssp. japonica). Science 296: 92.
Gopal S., Schroeder M., Pieper U., Sczyrba A., Aytekin-Kurban
G., Bekiranov S., Fajardo J.E., Eswar N., Sanchez R., Sali A.,
and Gaasterland T. 2001. Homology-based annotation yields
1,042 new candidate genes in the Drosophila melanogaster
genome. Nat. Genet. 27: 337.
Heilig R., Eckenberg R., Petit J.L., Fonknechten N., Da Silva C.,
Cattolico L., Levy M., Barbe V., de Berardinis V., Ureta-Vidal A., Pelletier E., Vico V., Anthouard V., Rowen L., Madan
A., Qin S., Sun H., Du H., Pepin K., Artiguenave F., Robert
C., Cruaud C., Bruls T., Jaillon O., and Friedlander L., et al.
2003. The DNA sequence and analysis of human chromosome 14. Nature 421: 601.
Holt R.A., Subramanian G.M., Halpern A., Sutton G.G., Charlab R., Nusskern D.R., Wincker P., Clark A.G., Ribeiro J.M.,
Wides R., Salzberg S.L., Loftus B., Yandell M., Majoros
W.H., Rusch D.B., Lai Z., Kraft C.L., Abril J.F., Anthouard
V., Arensburger P., Atkinson P.W., Baden H., de Berardinis
V., Baldwin D., and Benes V., et al. 2002. The genome sequence of the malaria mosquito Anopheles gambiae. Science
298: 129.
Jaillon O., Dossat C., Eckenberg R., Eiglmeier K., Segurens B.,
Aury J.M., Roth C.W., Scarpelli C., Brey P.T., Weissenbach
J., and Wincker P. 2003. Assessing the Drosophila
melanogaster and Anopheles gambiae genome annotations
using genome-wide sequence comparisons. Genome Res. 13:
1595.
Kessler M.M., Zeng Q., Hogan S., Cook R., Morales A.J., and
Cottarel G. 2003. Systematic discovery of new genes in the
Saccharomyces cerevisiae genome. Genome Res. 13: 264.
Korf I., Flicek P., Duan D., and Brent M.R. 2001. Integrating genomic homology into gene structure prediction. Bioinformatics (suppl. 1) 17: S140.
Lander E.S., Linton L.M., Birren B., Nusbaum C., Zody M.C.,
Baldwin J., Devon K., Dewar K., Doyle M., FitzHugh W.,
Funke R., Gage D., Harris K., Heaford A., Howland J., Kann
L., Lehoczky J., LeVine R., McEwan P., McKernan K.,
Meldrim J., Mesirov J.P., Miranda C., Morris W., and Naylor
J., et al. (International Human Genome Sequencing Consortium). 2001. Initial sequencing and analysis of the human
genome. Nature 409: 860.
Meyer I.M. and Durbin R. 2002. Comparative ab initio prediction of gene structures using pair HMMs. Bioinformatics 18:
1309.
Misra S., Crosby M.A., Mungall C.J., Matthews B.B., Campbell
K.S., Hradecky P., Huang Y., Kaminker J.S., Millburn G.H.,
Prochnik S.E., Smith C.D., Tupy J.L., Whitfied E.J., Bayraktaroglu L., Berman B.P., Bettencourt B.R., Celniker S.E., de
Grey A.D., Drysdale R.A., Harris N.L., Richter J., Russo S.,
Schroeder A.J., Shu S.Q., and Stapleton M., et al. 2002. Annotation of the Drosophila melanogaster euchromatic
genome: A systematic review. Genome Biol. 3: RESEARCH0083.
Pachter L., Alexandersson M., and Cawley S. 2002. Applications of generalized pair hidden Markov models to alignment
and gene finding problems. J. Comput. Biol. 9: 389.
Roest Crollius H., Jaillon O., Bernot A., Dasilva C., Bouneau L.,
Fischer C., Fizames C., Wincker P., Brottier P., Quetier F.,
Saurin W., and Weissenbach J. 2000. Estimate of human gene
number provided by genome-wide analysis using Tetraodon
nigroviridis DNA sequence. Nat. Genet. 25: 235.
Ureta-Vidal A., Ettwiller L., and Birney E. 2003. Comparative
genomics: Genome-wide analysis in metazoan eukaryotes.
Nat. Rev. Genet. 4: 251.
Waterston R.H., Lindblad-Toh K., Birney E., Rogers J., Abril
J.F., Agarwal P., Agarwala R., Ainscough R., Alexandersson
M., An P., Antonarakis S.E., Attwood J., Baertsch R., Bailey
J., Barlow K., Beck S., Berry E., Birren B., Bloom T., Bork
P., Botcherby M., Bray N., Brent M.R., Brown D.G., and
Brown S.D., et al. (Mouse Genome Sequencing Consortium).
2002. Initial sequencing and comparative analysis of the
mouse genome. Nature 420: 520.
Wiehe T., Gebauer-Jung S., Mitchell-Olds T., and Guigo R.
2001. SGP-1: Prediction and validation of homologous genes
based on sequence alignments. Genome Res. 11: 1574.
Wittbrodt J., Meyer A., and Schartl M. 1998. More genes in fish?
Bioessays 20: 511.
Yeh R.F., Lim L.P., and Burge C.B. 2001. Computational inference of homologous gene structures in the human genome.
Genome Res. 11: 803.
4.6 Limites d’exofish
Exofish est une méthode de détection de régions codantes protéiques conservées. Nous
l’avons développée dans une perspective d’annotation du génome humain où les gènes sont
morcelés entre introns et exons. Exofish localise imparfaitement des exons. La méthode ne
construit pas de modèles d’exons (les sites d’épissage ne sont pas recherchés pour borner les
ecores), ni de modèles de gènes. Toutefois, en rejoignant des ecores successifs par colinéarité,
l’extension en ecotig est une étape vers la localisation des bornes de gènes. Mais elle dépend
du niveau de synténie entre les 2 espèces comparées. Cette extension doit s’appliquer entre
deux phylums dont le nombre de réarrangements chromosomiques est tel qu’il n’existe plus
de colinéarité entre les gènes. Par contre, on suppose qu’il persiste une colinéarité au niveau
exonique. En particulier, son application entre les séquences de la drosophile et de l’anophèle,
d’une part et entre l’arabette et le riz d’autre part, est satisfaisante à cet égard (voir articles 3
et 4).
L’outil de comparaison central que nous utilisons est Blast (Altschul et al., 1990) au niveau
protéique (tblastx). Il est envisageable d’utiliser le principe suivi dans Blastz qui aurait
l’intérêt d’avoir un mot d’ancrage imparfait tout en maintenant une rapidité d’exécution
(Schwartz et al., 2003). Ainsi, nous pourrions améliorer la sensibilité. Car actuellement, nous
ne pouvons pas détecter toute région codante qui n’a pas au moins 5 acides aminés consécutif
identiques (pour les comparaisons Tetraodon – mammifères). Blastz utilise un mot d’ancrage
de W caractères dont X devant être identiques mais est restreint (sans sa configuration
actuelle) aux comparaisons au niveau nucléique.
Il est aussi possible d’optimiser la matrice de scores de Blast afin d’améliorer les
performances globales. En particulier, le score d’alignement des triplets TGA, TAG et TAA,
correspondant aux codons de terminaison de la traduction, est le même que pour tout autre
triplet. Or s’il n’existe qu’un seul « vrai » codon stop par gène, nous souhaitons que
l’alignement s’y termine. Pour favoriser l’interruption d’alignement sur le codon stop, nous
pouvions très fortement pénaliser le score d’alignement de ces 3 triplets contre tout autre
triplet. De cette manière aucun alignement ne pourrait contenir un stop. Aussi, dans les
régions non fonctionnelles, si nous supposons que chaque triplet est équiprobable, chacun sera
72
rencontré en moyenne toutes les 64 bases. Et donc toutes les 22 bases, un de ces 3 triplets peut
être rencontré. Aussi, nous pouvons nous attendre à avoir très peu d’alignements plus longs
que 22 bases dans les régions non codantes. Ce nombre d’alignements plus longs que 22 bases
devant décroître selon une distribution binomiale centrée sur 22.
Sur un plan plus évolutif, les performances d’exofish dépendent beaucoup de la distance
évolutive. Comme nous le verrons dans le chapitre consacré à la modélisation statistique, la
sensibilité et la spécificité sont fonctions du nombre de génomes comparés et de la distance
évolutive (nombre de mutations). Les étapes d’essais et de paramétrages entre les premières
séquences de Tetraodon et des gènes humains ont validé la faisabilité du projet. Par contre,
nous ne pourrions pas utiliser la séquence de Tetraodon pour détecter des exons dans
n’importe quel phylum. Par exemple nous avons testé la performance d’exofish entre
Tetraodon et Takifugu qui sont distants d’environ 20 millions d’années (Ks=0,35 voir table
SI11 données supplémentaires de l’article 5). A cette distance nous n’avons pas pu avoir une
discrimination correcte entre régions codantes et non codantes. Le seul critère de conservation
s’est avéré défaillant puisque nous avons dû le combiner avec la probabilité de codage en
utilisant Genscan (Burge & Karlin, 1997) (voir données supplémentaires 6.3 de l’article 5
(Jaillon et al., 2004)).
Nous nous sommes ainsi approchés des outils existants comme
Twinscan (Korf et al., 2001) et SGP2 (Parra et al., 2003) que nous discutons dans le chapitre
suivant.
Exofish détecte des régions codantes protéiques conservées et donc n’est pas appropriée pour
l’identification de gènes à évolution rapide, sous pression positive. La disponibilité récente de
séquences de génomes de plusieurs primates, moins éloignés de l’humain, offre une telle
possibilité. Parmi ces gènes sous pression positive, une bonne partie est impliquée dans
l’immunité (co-évolution avec certains parasites), mais on peut y trouver aussi certaines
fonctions sensorielles (olfaction) et la gamétogenèse (Nielsen et al., 2005). De façon
intéressante les gènes du chromosome X seraient en proportion plus sujets à une pression de
sélection positive. Par ailleurs, certains de ces gènes auraient évolués sous l’influence de notre
développement culturel moderne. C’est le cas de la lactase dont l’expression à l’age adulte est
possible par un haplotype qui aurait été sélectionné récemment, depuis 10 000 ans
parallèlement au développement de l’agriculture laitière (Bersaglieri et al., 2004). Concernant
les gènes exprimés dans le cerveau, un débat est ouvert. Après plusieurs descriptions de gènes
sujets à une pression positive (Evans et al., 2005; Mekel-Bobrov et al., 2005) une analyse à
grande échelle présente cet effet comme mineur (Nielsen et al., 2005).
73
5 Autres méthodes de détection d’exons par homologie
De nombreux développements et idées ont été portés par la publication de génomes de
mammifères. Dans un premier temps, le consortium d’analyse du génome de la souris a tenté
d’adapter exofish, mais en vain, en raison de la trop grande conservation des introns.
La comparaison du génome de souris et de l’humain a révélé que 5% des bases sont sous
pression de sélection (Waterston et al., 2002b). L’ensemble des exons représentant environ
1% des bases, une grande fraction du génome humain sous contrainte fonctionnelle n’est pas
encore annoté. Car paradoxalement, il a été possible d’estimer la fraction du génome humain
sous pression
de sélection, mais il n’a pas été possible de le déterminer pour chaque
nucléotide.
5.1 De l’homologie dans des modèles de Markov
Un objectif essentiel du programme de séquençage et d’analyse du génome de la souris a été
l’annotation du génome humain dans un esprit semblable à celui de l’utilisation de la
séquence de Tetraodon. Aussi, dans les premiers mois du projet de séquençage de la souris,
les membres du consortium ont tenté d’adopter la même stratégie qu’exofish entre l’humain et
la souris. Or, exofish s’est avéré d’un intérêt limité à cette distance évolutive car de
nombreuses régions non codantes sont conservées. D’autre part, le temps de calcul est environ
8 fois plus grand que pour les comparaisons Tetraodon-humain, ce qui pouvait être limitant.
Aussi certains auteurs ont proposé des méthodes mixtes, alliant modèles de Markov à états
cachés et comparaisons de séquences. Deux programmes principaux ont alors été développés :
Twinscan et SGP2 (Korf et al., 2001; Parra et al., 2003). Dans les 2 cas, un alignement est
réalisé entre une séquence génomique cible (l’humain) et une séquence informante (la souris).
L’alignement est fait au niveau protéique (tblastx) dans SGP2 et nucléique (blastn) dans
Twinscan. Les alignements obtenus servent ensuite à pondérer des transitions d’un modèle de
Markov à états cachés. Les auteurs de Twinscan ont ré-implémenté Genscan (Burge & Karlin,
1997) ((Figure 10) tandis que les auteurs de SGP2 ont utilisé Geneid (Parra, Blanco & Guigo,
2000).
74
Les deux outils apportent un gain en spécificité par rapport à Genscan seul. Selon les
publications originales, la spécificité au niveau exonique passe dans le pire des cas de 0,58 à
0,66, et dans le meilleur des cas de 0,75 à 0,79. Quant à la sensibilité, Twinscan améliore
légèrement celle de Genscan (0,63 vs 0,68), mais SGP2 la diminue (0,84 vs 0,80).
Globalement les performances ne sont pas significativement différentes de Genscan seul.
Ces 2 approches considèrent un des deux génomes « informants » pour le génome cible. Il
existe une autre approche qui traite les 2 génomes en parallèle. Dans ce cas, l’idée est de
comparer et annoter réciproquement deux génomes en suivant une double hypothèse :

Meilleure conservation des exons que les introns

Colinéarité des exons
Irmtraud Meyer et Richard Durbin ont suivi cette approche en utilisant une complexification
des modèles de Markov à états cachés, le pair-HMM. Dans ce modèle sont pris en compte
l’information sur les sites d’épissage et la probabilité de codage en même temps que
l’information de similarité, et ceci sans avoir à calculer un alignement au préalable. Un
modèle pair-HMM est une série d’états connectés par des transitions comme dans un modèle
de Markov à états cachés « classique ». Chaque état du modèle lit une suite de caractères (des
nucléotides) dans l’une ou dans les deux séquences. Le modèle y assigne une probabilité
d’émission. Le modèle pair-HMM passe au travers d’un autre état et assigne à nouveau une
probabilité de transition. Cette procédure est répétée jusqu’au bout des deux séquences. La
séquence des états par lesquels le modèle passe est un chemin d’états. A chaque état et aux
caractères associés, correspond un caractère, exon, intron, etc.…
Un problème algorithmique à résoudre est le grand nombre de chemins possibles. L’objectif
est d’obtenir le chemin créant l’annotation la plus correcte pour les deux séquences. Ce
chemin est choisi de façon probabilistique.
Bien que cette méthode allie méthodes de similarité et ab-initio, les performances sont peu
différentes de celles de Genscan. Au niveau exonique, les auteurs mesurent une sensibilité de
81% (84% pour genscan) et une spécificité de 74% (82% pour genscan). Cette relative baisse
de performance par rapport à Genscan est discutée par les auteurs qui pensent toutefois
pouvoir l’améliorer en complexifiant le modèle. Cet outil est à notre connaissance peu utilisé.
Il est vraisemblable que dans l’avenir, avec la multiplication des séquences disponibles, de
nouveaux modèles soient développés en n’utilisant plus seulement de la similarité entre deux
75
séquences mais un alignement multiple sur la base de caractéristiques statistiques des régions
codantes.
5.2 Multiplier les séquences de génomes informants
La détection des exons humains avec le génome de Tetraodon repose sur l’hypothèse que les
régions codantes sont mieux conservées que les régions non codantes. La sensibilité et la
spécificité de cette approche dépendent grandement de la distance évolutive. La spécificité
augmente avec la distance évolutive tandis que la sensibilité décroît. Ainsi entre le génome
humain et celui de Tetraodon, nous obtenons environ 75% de sensibilité au niveau du gène et
50% au niveau exonique avec une spécificité supérieure à 95%. Les performances seraient
très différentes entre l’humain et la souris. Une fraction de 40% du génome de la souris qui
est non fonctionnelle s’aligne avec la séquence humaine (Waterston et al., 2002b). Aussi il
semble qu’il n’existe pas de génome dont il n’existe aucun exon moins conservé que la plus
conservée des régions non codantes. D’où l’idée d’inverser le concept avec le même objectif.
Pour détecter un maximum de régions fonctionnelles humaines avec une grande spécificité, il
est peut-être bon de disposer de séquences de nombreuses espèces à courte distance évolutive
au lieu d’une espèce éloignée. Et ainsi, suivre le principe, qu’au-delà d’un certain nombre
d’espèces, ce qui n’est pas fonctionnel dans une est variant chez au moins une autre (Figure
15).
Une comparaison de séquences provenant de 17 espèces de primates avec le génome humain
confirme que la conservation est la règle et la variation l’exception. Cependant, pour une
position donnée chez l’humain, la fréquence de mutations chez les autres primates est
inversement proportionnelle à la probabilité d’être fonctionnelle (Boffelli et al., 2003). De
cette manière la distance phylogénétique utilisée est la somme de chaque distance unitaire.
Avec cette approche on peut espérer pallier au problème de sensibilité que nous avons en
comparant 2 vertébrés distants. En effet, si entre Tetraodon et l’humain, ou entre le poulet et
l’humain, il existe des régions non codantes qui n’ont pas subi (encore) de variation selon un
simple modèle aléatoire de répartitions des mutations, alors en parcourant une autre branche
évolutive, nous réduisons la probabilité de ne pas avoir de mutation sur ce site. Cette stratégie
est sans doute applicable entre l’humain et de nombreux vertébrés distants (poissons, reptiles,
oiseaux). Dans cet esprit, l’équipe d’Eric Green a analysé la séquence orthologue d’une région
génomique humaine contenant une dizaine de gènes autour du gène CFTR sur le chromosome
7, chez 12 espèces de vertébrés (chimpanzé, babouin, chat, chien, vache, porc, rat, souris,
76
poulet, fugu, Tetraodon et poisson zèbre) (Thomas et al., 2003). Bien sur selon les espèces, la
région humaine se projette sur une ou plusieurs autres régions. De cette façon, les auteurs ont
pu caractériser le degré de conservation sur les régions codantes et non codantes en fonction
des distances phylogénétiques. Ces auteurs confirment qu’entre l’humain et les téléostéens
analysés, les alignements sont plus spécifiques aux régions codantes que les autres vertébrés.
En terme de sensibilité, 69% des bases codantes ne s’alignent pas. Et 14% des alignements
sont hors des régions codantes. Ces valeurs sont comparables aux performances d’exofish. Un
résultat important de cette étude est la découverte de régions conservées chez de multiples
espèces (MCS)(Margulies et al., 2003). Or seulement 32% des bases des MCS sont connues
pour être codantes chez l’humain, mais elles couvrent 98% des bases codantes et 67% des
UTRs. De façon intéressante, la spécificité des alignements humain-poisson aux régions
codantes leur fait éviter la plupart des MCS. S’il était question d’isoler l’espèce qui
représenterait le meilleur compromis sensibilité et spécificité par rapport aux régions
codantes, le poulet serait celle-là (Figure 16). En effet, les alignements humain-poulet
couvrent 40% des MCS, 94% des régions codantes et 29% des bases non codantes des MCS.
Ces stratégies consistant à multiplier les séquences dans un maximum de branches évolutives
semblent donc efficaces mais il reste le problème d’obtention de la séquence. Obtenir la
séquence complète d’un mammifère ou d’un autre vertébré représente encore un coût
important. Michelle Clamp et Elliot Margulies ont alors proposé de s’arrêter à un niveau de
séquençage partiel correspondant à une profondeur moyenne de 2X (avec une stratégie de
séquençage aléatoire) (Margulies et al., 2005). Si le but est principalement la détection de
régions codantes humaines, un assemblage à seulement 2X permet de couvrir 86% des
nucléotides (Lander & Waterman, 1988). Et les auteurs montrent qu’une séquence d’une
espèce supplémentaire à 2X permet de détecter plus de régions codantes que de séquencer à
plus grande profondeur. Pour obtenir par exemple 52% des MCS avec 5 mammifères
(lémurien, chien, cheval, herisson et souris) un séquençage à 3.5X est nécessaire (revient à
séquencer 17.5X en tout si les génomes ont une taille équivalente). Mais pour 8 mammifères
(ajout du porc, tatou et lapin), un séquençage à 1X est suffisant (revient à séquencer 8X en
tout). Le gain est donc d’environ un facteur 2 à ce niveau. Une détection de 86% des MCS est
possible avec 11 mammifères à 2X (en complétant avec la séquence du chat, de la vache et du
rat). Et ce niveau de sensibilité n’est pas atteignable avec 5 mammifères. Si le coût d’obtenir
2X de couverture pour 11 mammifères est le même qu’obtenir 11X pour 2, l’apport n’est pas
du tout le même en terme d’analyse du génome humain.
77
Le choix des espèces à choisir est guidé par la distance phylogénétique par rapport à
l’homme, ou plutôt par le taux de mutations moyen par site. L’idée est formalisée dans un
modèle statistique présenté dans le chapitre suivant.
5.3 Synthèse par un modèle statistique
En
recherchant des régions génomiques fonctionnelles par génomique comparative, on
considère un génome cible (G0) sur lequel des segments codants sont conservés au cours de
l’évolution avec N génomes informants (Gi) (i compris entre 1 et N). Le génome cible peut
être arbitrairement décomposé en 2 parties :

Des régions codantes, conservées avec les génomes informants.

Des régions non codantes (neutres), non conservées avec les génomes informants.
Par conséquent, la détection de chaque segment conservé repose sur plusieurs paramètres :

Le nombre N de génomes informants Gi et 1  i  N .

La distance évolutive Di de chaque génome Gi par rapport au génome cible G0.

La longueur L du segment. C'est-à-dire la résolution de la méthode. La résolution la
plus fine est le nucléotide. La résolution la plus large est l’exon chez les eucaryotes.
La qualité du résultat final se mesure essentiellement par la sensibilité (SN) et la spécificité
(SP) de la méthode.
En recherchant les régions conservées sur un génome G0, nous pouvons poser différents types
de questions :

Quelles longueurs L de régions codantes peut-on détecter en disposant de N génomes
dont nous connaissons les distances évolutives ?

A combien de génomes Gi et à quelle distance évolutive Di est-il suffisant et
nécessaire de comparer G0 afin de détecter les régions conservées de longueur L ?
Nous reprenons ici des idées développées initialement par Sean Eddy (Eddy, 2005).
On considère acquis un alignement nucléique de longueur L d’une région du génome cible
avec les régions homologues sur les N génomes informants. On écarte ici le problème de
l’obtention de cet alignement. On suppose un alignement sans gap composé d’une succession
78
de match et de mismatch. Pour chaque génome Gi,
chaque position
j
de l’alignement
( 1  j  L ) correspond une différence ou une identité par rapport au génome cible G0. Il
existe alors c différences dans les NL nucléotides impliqués dans l’alignement (Figure 17).
Le critère de conservation dépend du nombre de différences c observées. Au-delà d’un seuil
C, le nombre de différences sera considéré trop important et la région non conservée. Le filtre
des alignements que nous appliquons dans la méthode exofish utilise la même approche. Pour
chaque longueur d’alignement, un pourcentage d’identité minimum (donc un nombre
minimum de mismatch) est requis pour sélectionner l’alignement.
Une mesure possible de la distance évolutive Di est le taux de substitution neutre. Le taux de
substitution neutre est mesurable avec le taux de substitution dans les codons sur les sites
nucléotidiques n’ayant pas d’incidence sur le codage de l’acide aminé. Cette valeur est
variable selon les génomes.
Cependant le taux de substitutions neutres n’est pas uniforme le long du génome. Aussi, si
une région génomique évolue de manière neutre mais avec un nombre de substitutions faible
(c<C), nous étiquetterons cette région par erreur conservée (annotation d’un faux positif FP).
Le nombre de FP affecte directement la spécificité (SP). La probabilité d’annoter un faux
positif (FP) correspond donc à la probabilité d’avoir un nombre de différences c avec
0  c  C dans un alignement d’une région neutre. Cette probabilité se représente par une
distribution binomiale cumulative.
La distribution binomiale cumulative a la forme suivante.
K


n!
k
P  
 1  E   E n k 
k  0  k!( n  k )!

n : Nombre d’épreuves.
k : Nombre d’échecs.
K : Nombre maximal d’échecs.
E : Probabilité de succès.
79
Dans notre situation, n est le nombre de nucléotides NL de l’alignement. K et k correspondent
aux nombres de substitutions C et c. E est la probabilité que 2 nucléotides identiques ont
divergé en réalité par D substitutions sous un modèle d’évolution donné.
4
Selon le modèle de Jukes-Cantor, cette probabilité est
1 3 3D
 e
. Ce modèle suppose que
4 4
tous les types de substitutions ont la même probabilité d’apparition, et, par conséquent les 4
nucléotides ont la même fréquence (0,25) dans le génome.
En utilisant ce modèle d’évolution, la probabilité d’obtenir un faux positif avec un alignement
est :
c

 3 3  43D 
NL!
FP   
   e 
c
!
(
NL

c
)!

c 0
4 4


C
 1 3  43D 
   e 
4 4

NL  c




Le modèle de Sean Eddy exprime la différence de divergence dans les régions neutres et non
neutres par un coefficient ω tel que le nombre de substitutions accumulées dans un segment
conservé est ωD, et D dans un segment neutre (ω est compris entre 0 et 1). Une valeur ω=0
représente un cas extrême où la région conservée n’a accumulé aucune substitution.
Une faiblesse de ce modèle est de ne pas pouvoir différencier les taux de substitutions relatifs
de chacun des génomes informants. Les paramètres D et ω doivent être approximés comme
des valeurs représentatives de tout l’alignement. Cette approximation est cohérente dans des
situations d’homogénéité des distances évolutives des génomes informants par rapport au
génome ou lorsque le nombre de génomes est égal à 2.
Mais supposons, par exemple, l’alignement d’une région fonctionnelle humaine avec 10
régions homologues de vertébrés, dont 9 primates de distance égales D=0,03 et 1 poisson
téléostéen de distance D=0.6. Quelle distance D utiliser ? La distance moyenne résultante de
0,09 ne représenterait ici aucune réalité. Le modèle a donc besoin d’être adapté.
Le contexte d’exofish est un cas où nous avons un seul génome informant pour un génome
cible (N=1). Nous pouvons confronter ce modèle a posteriori à exofish. Par exemple, si nous
80
fixons un taux de FP maximum, et en connaissant les taux de substitutions neutres et non
neutres (D et ωD), nous pouvons alors estimer pour chaque région conservée de longueur L, le
nombre de substitutions c qui permet un minimum de FN (un maximum de sensibilité SN).
Nous déduirons alors pour chaque longueur de segment conservé, le pourcentage d’identité
minimum pour le détecter avec un taux FP donné. Ce schéma correspond à la matrice de
sélection des alignements de blast dans la procédure exofish, où pour chaque longueur
d’alignement, un pourcentage d’identité minimum est requis pour être sélectionné.
Nous verrons dans l’article 5 que le taux de substitution neutre entre T. nigroviridis et H.
sapiens est 0.63 et le pourcentage d’identité nucléique moyen est 60.1 %.
Aussi :
D  0.63
D  0.40
Et donc :
  0.63
En utilisant ces paramètres, nous pouvons tracer le pourcentage d’identité minimum requis
pour chaque longueur de région conservée en fixant différents taux de faux positifs autorisés
(Figure 18). Nous obtenons une allure de courbe qui est semblable au filtre de sélection des
alignements d’exofish (Figure 19). Lorsque la longueur de la région conservée augmente, il
est possible de baisser le pourcentage d’identité minimum en conservant le même taux de
faux positif.
La figure montre aussi qu’en augmentant le nombre de faux positif, alors la sélection est plus
permissive sur la longueur et le pourcentage d’identité.
Cependant ce modèle a de nombreuses limites. Si l’allure des courbes de la Figure 18 est
conforme à ce que nous avons obtenu avec exofish entre Tetraodon et l’humain (Figure 19),
entre Anopheles et Drosophila (Figure 20) mais aussi entre Arabidopsis et le riz, les valeurs
sont différentes. En particulier, les courbes théoriques se situent sur des longueurs de régions
de quelques bases. Le filtre déterminé empiriquement d’exofish est beaucoup plus sévère. On
peut émettre plusieurs raisons à cela.
81

Le modèle théorique suppose un alignement acquis optimal d’une région
fonctionnelle. En pratique la situation est plus complexe. Les ecores ne couvrent pas
nécessairement les exons et ne les délimitent pas exactement. Un ecore est une région
candidate pour supporter la présence d’un exon. Avec exofish, l’alignement de Blast
se fait de façon à maximiser le score. Notamment, les deux extrémités de l’alignement
doivent comporter au moins 1 match. Tandis que le modèle peut prendre en compte
des régions conservées dont les extrémités ont accumulé des substitutions. Le nombre
de match en début et en fin d’alignement de blast dépend des valeurs de la matrice de
score de Blast. Avec une matrice où les valeurs de match sont identiques entre elles,
ainsi que les pénalités de mismatch, le nombre de match nécessaires en bordure
d’alignement est égal au ratio match/mismatch (en valeur absolue), soit : 15/12= 1,25
pour le paramétrage T. nigroviridis H. sapiens. Tous les alignements doivent
commencer par au moins un match et terminer par au moins un match ce qui est la
solution la moins contraignante possible.

Le modèle statistique ne prend pas en compte les événements récents mais suppose
une divergence continue depuis la séparation des espèces. Les pseudogènes par
exemple sont négligés. Or, de nombreux pseudogènes humains sont apparus
récemment, postérieurement à la radiation humain/souris (Hillier et al., 2003; Torrents
et al., 2003). Ce sont donc des régions non codantes dont la dérive neutre est plus
récente. Il est possible que de nombreux alignements entre Tetraodon et l’humain
correspondant à des pseudogènes soient de longueurs intermédiaires (entre les
alignements des régions codantes et les alignements de zones non codantes). Ainsi,
nous avons probablement augmenté la sévérité du filtre sur la longueur de
l’alignement pour éviter ces régions.

La plupart des régions régulatrices sont encore indéterminées. Pourtant, parmi ces
régions, les plus grandes participent sans doute à la collection d’alignements.

Avec exofish, l’alignement se fait au niveau protéique alors que le modèle suppose un
alignement nucléique.

Le modèle théorique est basé sur un modèle d’évolution assez rudimentaire qui
suppose que les transitions et transversions se produisent à même fréquence.
82
6 Evolution
de
l’organisation
des
gènes
et
des
chromosomes de vertebrés
6.1 Article 5 "Genome duplication in the teleost fish Tetraodon
nigroviridis reveals the early vertebrate proto-karyotype."
Nature 431(7011): 946-57.
83
articles
Genome duplication in the teleost fish
Tetraodon nigroviridis reveals the early
vertebrate proto-karyotype
Olivier Jaillon1, Jean-Marc Aury1, Frédéric Brunet2, Jean-Louis Petit1, Nicole Stange-Thomann3, Evan Mauceli3, Laurence Bouneau1,
Cécile Fischer1, Catherine Ozouf-Costaz4, Alain Bernot1, Sophie Nicaud1, David Jaffe3, Sheila Fisher3, Georges Lutfalla5, Carole Dossat1,
Béatrice Segurens1, Corinne Dasilva1, Marcel Salanoubat1, Michael Levy1, Nathalie Boudet1, Sergi Castellano6, Véronique Anthouard1,
Claire Jubin1, Vanina Castelli1, Michael Katinka1, Benoı̂t Vacherie1, Christian Biémont7, Zineb Skalli1, Laurence Cattolico1, Julie Poulain1,
Véronique de Berardinis1, Corinne Cruaud1, Simone Duprat1, Philippe Brottier1, Jean-Pierre Coutanceau4, Jérôme Gouzy8, Genis Parra6,
Guillaume Lardier1, Charles Chapple6, Kevin J. McKernan9, Paul McEwan9, Stephanie Bosak9, Manolis Kellis3, Jean-Nicolas Volff10,
Roderic Guigó6, Michael C. Zody3, Jill Mesirov3, Kerstin Lindblad-Toh3, Bruce Birren3, Chad Nusbaum3, Daniel Kahn8,
Marc Robinson-Rechavi2, Vincent Laudet2, Vincent Schachter1, Francis Quétier1, William Saurin1, Claude Scarpelli1, Patrick Wincker1,
Eric S. Lander3,11, Jean Weissenbach1 & Hugues Roest Crollius1*
1
UMR 8030 Genoscope, CNRS and Université d’Evry, 2 rue Gaston Crémieux, 91057 Evry Cedex, France
Laboratoire de Biologie Moléculaire de la Cellule, CNRS UMR 5161, INRA UMR 1237, Ecole Normale Supérieure de Lyon, 46 allée d’Italie, 69364 Lyon Cedex 07,
France
3
Broad Institute of MIT and Harvard, 320 Charles Street, Cambridge, Massachusetts 02141, USA
4
Muséum National d’Histoire Naturelle, Département Systématique et Evolution, Service de Systématique Moléculaire, CNRS IFR 101, 43 rue Cuvier, 75231 Paris,
France
5
Défenses Antivirales et Antitumorales, CNRS UMR 5124, 1919 route de Mende, 34293 Montpellier Cedex 5, France
6
Grup de Recerca en Informàtica Biomèdica, IMIM-UPF and Programa de Bioinformàtica i Genòmica (CRG), Barcelona, Catalonia, Spain
7
CNRS UMR 5558 Biométrie et Biologie Evolutive, Université Lyon 1, 69622 Villeurbanne, France
8
INRA-CNRS Laboratoire des Interactions Plantes Micro-organismes, 31326 Castanet Tolosan Cedex, France
9
Agencourt Bioscience Corporation, Massachusetts 01915, USA
10
Biofuture Research Group, Evolutionary Fish Genomics, Physiologische Chemie I, Biozentrum, University of Wuerzburg, Am Hubland, D-97074 Wuerzburg, Germany
11
Whitehead Institute for Biomedical Research, Cambridge, Massachusetts 02142, USA
2
* Present address: CNRS UMR8541, Ecole Normale Supérieure, 46 rue d’Ulm, 75005 Paris, France
...........................................................................................................................................................................................................................
Tetraodon nigroviridis is a freshwater puffer fish with the smallest known vertebrate genome. Here, we report a draft genome
sequence with long-range linkage and substantial anchoring to the 21 Tetraodon chromosomes. Genome analysis provides a
greatly improved fish gene catalogue, including identifying key genes previously thought to be absent in fish. Comparison with
other vertebrates and a urochordate indicates that fish proteins have diverged markedly faster than their mammalian homologues.
Comparison with the human genome suggests ,900 previously unannotated human genes. Analysis of the Tetraodon and human
genomes shows that whole-genome duplication occurred in the teleost fish lineage, subsequent to its divergence from mammals.
The analysis also makes it possible to infer the basic structure of the ancestral bony vertebrate genome, which was composed of
12 chromosomes, and to reconstruct much of the evolutionary history of ancient and recent chromosome rearrangements leading
to the modern human karyotype.
Access to entire genome sequences is revolutionizing our understanding of how genetic information is stored and organized in
DNA, and how it has evolved over time. The sequence of a genome
provides exquisite detail of the gene catalogue within a species, and
the recent analysis of near-complete genome sequences of three
mammals (human1, mouse2 and rat3) shows the acceleration in the
search for causal links between genotype and phenotype, which can
then be related to physiological, ecological and evolutionary observations. The partial sequence of the compact puffer fish Takifugu
rubripes genome was obtained recently and this survey provided a
preliminary catalogue of fish genes4. However, the Takifugu assembly is highly fragmented and as a result important questions could
not be addressed.
Here, we describe and analyse the genome sequence of the
freshwater puffer fish Tetraodon nigroviridis with long-range linkage
and extensive anchoring to chromosomes. Tetraodon resembles
Takifugu in that it possesses one of the smallest known vertebrate
genomes, but as a popular aquarium fish it is readily available and is
easily maintained in tap water (see Supplementary Notes for
946
naming conventions, natural habitat and phylogeny). The two
puffer fish diverged from a common ancestor between 18–30
million years (Myr) ago and from the common ancestor with
mammals about 450 Myr ago5. This long evolutionary distance
provides a good contrast to distinguish conserved features from
neutrally evolving DNA by sequence comparison. Tetraodon
sequences in fact had an important role in providing a reliable
estimate of the number of genes in the human genome6.
There has been a vigorous and unresolved debate as to whether a
whole-genome duplication (WGD) occurred in the ray-finned fish
(actinopterygians) lineage after its separation from tetrapods7–9. By
exploiting the extensive anchoring of the Tetraodon sequence to
chromosomes, we provide a definitive answer to this question. The
distribution of duplicated genes in the genome reveals a striking
pattern of chromosome pairing, and the correspondence of orthologues with the human genome show precisely the signatures
expected from an ancient WGD followed by a massive loss of
duplicated genes.
Moreover, we find that relatively few interchromosomal
©2004 Nature Publishing Group
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
articles
Table 1 Assembly statistics
Parameter
Number
N50 length
(kb)
Size with gaps
included (Mb)
Size with gaps
excluded (Mb)
Longest
(kb)
Percentage of the genome
with gaps included
...................................................................................................................................................................................................................................................................................................................................................................
All contigs
All scaffolds
All ultracontigs
Mapped contigs
Mapped scaffolds
Mapped ultracontigs
49,609
25,773
128
16,083
1,588
39
16
984
7,622
26
608
8,701
312.4
342.4
276.4
197.7
218.4
219.7
312.4
312.4
247.0
197.7
197.7
197.7
258
7,612
12,035
258
7,612
12,035
91.9
100.7
81.3
58.1
64.2
64.6
...................................................................................................................................................................................................................................................................................................................................................................
rearrangements occurred in the Tetraodon lineage over several
hundred million years after the WGD. This allows us to propose a
karyotype of the ancestral bony vertebrate (Osteichthyes) composed
of 12 chromosomes, and to uncover many unknown evolutionary
breakpoints that occurred in the human genome in the past
450 Myr.
The Tetraodon genome sequence
Sequencing and assembly
The Tetraodon genome was sequenced using the whole-genome
shotgun (WGS) approach. Random paired-end sequences providing 8.3-fold redundant coverage were produced at Genoscope
(GSC) and the Broad Institute of MITand Harvard (see Supplementary Table SI1). From this, the assembly program Arachne10,11
constructed 49,609 contigs for a total of 312 megabases (Mb;
Table 1), which it then connected into 25,773 scaffolds (or supercontigs) covering 342 Mb (including gaps; see Supplementary
Information). Half of the assembly is in 102 scaffolds larger than
731 kilobases (kb; the N50 length) and the largest scaffold measures
7.6 Mb, the typical length of a Tetraodon chromosome arm.
We produced additional data to physically link scaffolds and
anchor them to chromosomes. These data include probe hybridizations to arrayed bacterial artificial chromosome (BAC) libraries,
Figure 1 The Tetraodon genome is composed of 21 chromosomes. Red areas indicate
the location of 5S and 28S ribosomal RNA gene arrays on chromosome 10 and
chromosome 15, respectively. Many chromosomes are subtelocentric; that is, they only
possess a very short heterochromatic arm. The extent of 39 sequence-based ultracontigs
that cover about 64% of their length is shown in blue. In addition, approximately 16% of
the genome is contained in another 89 ultracontigs that are not yet anchored on
chromosomes, and the remaining 20% of the genome is in 23,210 smaller scaffolds.
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
restriction digest fingerprints of BAC clones, additional linking
clone sequence, alignment to available Takifugu sequence and twocolour fluorescence in situ hybridization (FISH) (see Supplementary Information). The impact of these additional mapping data was
twofold: first, we could join 2,563 scaffolds in 128 ‘ultracontigs’ that
cover 81.3% of the assembly, and second, we were able to anchor the
39 ultracontigs among the largest (covering 64.6% of the assembly,
with an N50 size of 8.7 Mb) to Tetraodon chromosomes (Fig. 1; see
also Supplementary Table SI2 and Supplementary Notes).
The accuracy of the assembly was experimentally tested and the
inter-contig links found to be correct in .99% of cases. On the basis
of a re-sequencing experiment, we estimate that the assembly covers
.90% of the euchromatin of the Tetraodon genome (Supplementary Information). Finally, the overall genome size was directly
measured by flow cytometry experiments on several fish; an
average value of 340 Mb was obtained, consistent with the sequence
assembly and smaller than the previously reported estimate of
350–400 Mb.
The Tetraodon draft sequence has roughly 60-fold greater con-
Figure 2 Distribution of the G þ C content. a, Distribution in 5-kb non-overlapping
windows across Tetraodon (red squares) and Takifugu (blue circles) scaffolds, and in
50-kb windows in human (black triangles) and mouse (green inverted triangles)
chromosomes. Windows containing more than 25% ambiguous or unknown nucleotides
(gaps) were excluded from the analysis. b, Cumulative sum of annotated coding bases in
Tetraodon and Takifugu (5-kb non-overlapping windows) and human and mouse (50-kb
windows) as a function of G þ C content. c, In sharp contrast to Takifugu4 the density of
genes increases with the G þ C content (%) in Tetraodon (red circles) much more than in
human (black triangles). d, The three major families of repeats in Tetraodon are not
distributed uniformly in the genome: long terminal repeat (LTR) and LINE elements (red
diamonds and green squares, respectively) concentrate in (G þ C)-rich regions and SINE
elements (blue circles) concentrate in (A þ T)-rich regions. In contrast, the distribution of
these elements is much more uniform in Takifugu (Supplementary Fig. S4).
©2004 Nature Publishing Group
947
articles
Table 2 Comparison between Tetraodon and Takifugu annotations
Parameter
Tetraodon
Takifugu*
Takifugu†
.............................................................................................................................................................................
Annotated genes
Annotated transcripts
Average number of coding exons per gene
Average number of UTR exons per gene
Average gene size (bp)
Average CDS size (bp)
Average exon size (bp)
Number of annotated bases (Mb)
Coding
UTR
27,918
27,918
6.9
0.4
4,778
1,230
178
35,180
38,510
4.3
0‡
2,754
745
171
20,796
33,003
8.6
0.07
6,547
1,397
163
33.9
2.4
26.1
0‡
29.1
0.02
.............................................................................................................................................................................
* Takifugu annotations are from Ensembl version 18.2.1.
† Takifugu annotations are from Ensembl version 23.2.1.
‡ Takifugu annotations from Ensembl version 18.2.1 do not include UTRs.
tinuity at the level of N50 ultracontig size than the Takifugu draft
sequence (7.62 Mb versus 125 kb). Critically, the anchoring of the
assembly provides a comprehensive view of a fish genome sequence
organized in individual chromosomes.
Genome landscape
A consequence of the remarkably compact nature of the Tetraodon
genome is that its GþC content is much higher than in the larger
genomes of mammals. Although the GþC content is shifted
markedly, it still shows the same asymmetric bell-shaped distribution with an excess of higher values as seen in human and mouse
(Fig. 2a). (GþC)-rich regions tend to be gene-rich in mammals, and
analysis of our data shows that this is also true for Tetraodon
(Fig. 2b, c). The Tetraodon genome thus cannot be considered as
a single homogeneous component but, as in mammals, it is a mosaic
of relatively gene-rich and gene-poor regions.
Transposable elements are very rare in the Tetraodon genome12,13:
we estimate here that they do not exceed 4,000 copies; however, with
73 different types, they are richly represented (Supplementary Notes
and Supplementary Table SI3). In sharp contrast, the human and
mouse genomes contain only ,20 different types but are riddled
with millions of transposable element copies. One of the intriguing
features of the human genome is that the distribution of short
interspersed nucleotide elements (SINEs) is biased towards (GþC)rich regions, whereas long interspersed nucleotide elements
(LINEs) favour (AþT)-rich regions. In Tetraodon, these preferences
are precisely reverse: LINEs occur preferentially in (GþC)-rich
regions and SINEs in (AþT)-rich regions (Fig. 2d). The reason
for these differences is not clear.
The Tetraodon genome shows certain striking differences from
the previously reported Takifugu genome sequence. Takifugu contains eightfold more copies of transposable elements4 than Tetraodon, which may contribute to its slightly larger genome size
(approximately 370 Mb; see Supplementary Information). More
surprisingly, the GþC content of Takifugu does not show the
characteristic asymmetry seen in mammals and in Tetraodon
(Fig. 2a) nor the biases in SINE and LINE distribution (Supplementary Fig. S4). Why would the (GþC)-rich component be lacking in
the Takifugu sequence, when this fraction is gene dense in mammals
and in Tetraodon? This cannot be ascribed to transposable elements,
which represent less than 5% of the assembly in both of these puffer
fish species. One possible explanation is that the (GþC)-rich
fraction exists in Takifugu, but was markedly under-represented as
a result of aspects of the cloning, sequencing or assembly process.
The fact that Tetraodon (GþC)-rich regions contain an excess of
genes with no apparent orthologues in the Takifugu genome supports this hypothesis. Indeed, the Tetraodon genome appears to
contain ,16.5% more coding exons than Takifugu (see below).
Tetraodon genes
Gene catalogue
The most prevalent features of the Tetraodon genome are proteincoding genes, which span 40% of the assembly. We constructed a
catalogue of genes by adapting the GAZE14 computational framework (Supplementary Fig. S5) in order to combine three types of
data: Tetraodon complementary DNA mapping, similarities to
human, mouse and Takifugu proteins and genomes, and ab initio
gene models (Supplementary Notes and Supplementary Tables SI4
and SI5).
The current Tetraodon catalogue is composed of 27,918 gene
models, with 6.9 coding exons per gene on average (7.3 including
untranslated regions (UTRs); Table 2). Assuming that fish and
mammal genes possess similar gene structures, this suggests that
some Tetraodon annotated genes are partial or fragmented because
human and mouse genes respectively show 8.7 and 8.4 coding exons
per gene2. Adjusting the gene count for such fragmentation (by
multiplying by 6.9/8.6) would yield an estimated gene count of
22,400 genes, whereas accounting for unsequenced regions of the
genome might increase the estimate slightly further. Although such
Table 3 Comparative InterPro analysis of fish, mammal and urochordate proteomes
Tetraodon
Takifugu
Human
Mouse
Ciona
InterPro description
...................................................................................................................................................................................................................................................................................................................................................................
Actinopterygian-enriched
61
33
21
141
15
17
3
Sarcopterygian-enriched
0
0
3
0
0
0
0
0
0
Vertebrate-enriched
52
252
62
94
65
78
29
16
191
28
15
4
22
11
8
86
6
5
0
21
13
7
97
4
4
0
48
33
6
52
19
27
1
Sodium:neurotransmitter symporter
Naþ/solute symporter
Sodium/calcium exchanger membrane region
Collagen triple helix repeat
HAT dimerization
Peptidase M12A, astacin
Inosine/uridine-preferring nucleoside hydrolase
0
0
0
0
0
0
0
0
0
275
14
25
9
13
3
22
11
7
173
8
29
95
21
3
11
9
8
0
0
0
0
0
0
0
0
0
KRAB box
KRAB-related
High mobility group protein HMG14 and HMG17
Vomeronasal receptor, type 1
Keratin, high sulphur B2 protein
Keratin, high-sulphur matrix protein
Mammalian taste receptor
Pancreatic RNase
b-Defensin
40
253
56
83
56
82
240
80
75
70
102
228
55
74
135
9
88
9
19
17
Histone core
Homeobox
Zn finger, B box
Zn-binding protein, LIM
HMG1/2 (high mobility group) box
...................................................................................................................................................................................................................................................................................................................................................................
Supplementary Table SI7 contains the top 100 InterPro domains in Tetraodon.
948
©2004 Nature Publishing Group
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
articles
Table 4 Evolutionarily conserved regions between mammals and fish
Target genome
Query genome
Tetraodon nigroviridis
Takifugu rubripes
Homo sapiens
Mus musculus
...................................................................................................................................................................................................................................................................................................................................................................
Tetraodon nigroviridis
Takifugu rubripes
Combined fish
Homo sapiens
Mus musculus
Combined mammals
NA
ND
NA
142,820
140,407
151,668
ND
NA
NA
133,239
129,996
140,965
139,316
139,932
151,708
NA
ND
NA
133,091
131,835
142,804
ND
NA
NA
...................................................................................................................................................................................................................................................................................................................................................................
NA, not applicable; ND, not determined.
estimates are somewhat imprecise, it seems likely that Tetraodon has
between 20,000–25,000 protein coding genes.
The Tetraodon gene catalogue appears to be the most complete so
far for a fish, with coding exons and UTRs totalling ,36 Mb (,11%
of the genome; Table 2). The Takifugu paper4 reported an estimate of
35,180 genes, but it did not account for a high degree of fragmentation (,4.3 exons per gene model). More recent, unpublished
analyses have revised this number sharply downward (Table 2).
The human and Tetraodon genomes have a similar distribution of
exon sizes but markedly different distributions of intron size
(Supplementary Fig. S6a). Although neither genome seems to
tolerate introns below approximately 50–60 base pairs, Tetraodon
has accumulated a much higher frequency of introns at this lower
limit. Interestingly, this phenomenon is not uniform across the
genome: there is an excess of genes with many small introns
(Supplementary Fig. S6b), suggesting that intron sizes fluctuate in
a regional fashion.
Proteome comparison between vertebrates
We examined in detail two gene families with unusual properties
that represent challenges for automatic annotation procedures and
have particular biological interest. The first is the family of selenoproteins, where the UGA codon encodes a rare cysteine analogue
named selenocysteine (Sec) instead of signalling the end of translation as in all other genes15. We annotated 18 distinct families in
Tetraodon based on similarities with the 19 protein families known
in eukaryotes, and discovered a new selenoprotein that seems to be
restricted to the actinopterygians among vertebrates and does not
have a Cys counterpart in mammals. We also catalogued type I
helical cytokines and their receptors (HCRI), a group of genes that
were not found in the Takifugu genome4 because of their poor
sequence conservation, leading to the hypothesis that fish may not
possess this large family that includes hormones and interleukins.
Tetraodon, in fact, contains 30 genes encoding HCRIs with a typical
D200 domain (Supplementary Fig. S7) and represents all families
previously described in mammals16.
InterPro17 domains were annotated in protein sequences predicted in the Tetraodon, Takifugu, human, mouse and the urochordate Ciona intestinalis18 genome using InterProScan19. We did not
identify major differences between fish and mammal InterPro
families, except for a few striking cases (Table 3): (1) collagen
molecules are much more diverse in fish than in mammals, with
one Tetraodon gene containing 20 von Willebrand type A domains,
the largest number found so far in a single protein. (2) Some
domains associated with sodium transport are noticeably enriched
in fishes and Ciona, perhaps a reflection of their adaptation to saline
aquatic environments that was lost in land vertebrates. (3) Purine
nucleosidases usually involved in the recovery of purine nucleosides
are more abundant in fish, including an allantoin pathway for
purine degradation that is present in Tetraodon and absent in
human. (4) Several hundred KRAB box transcriptional repressors
involved in chromatin-mediated gene regulation exist in mammals
and are totally absent in fish. (5) Proteins involved in general gene
regulation are more abundant in vertebrates than in Ciona.
Protein annotation with gene ontology (GO) classifications20
shows only subtle differences between fish and mammals, as was
already observed between human and mouse2. The largest differences between species are seen with the GO classification in
molecular functions (Supplementary Fig. S9). Interestingly, the
two puffer fish and Ciona often vary together, showing for instance
a higher frequency of enzymatic and transporter functions, and a
lower frequency of signal transducer and structural molecules than
both mammals (human and mouse). These global observations are
difficult to relate to evolutionary or physiological mechanisms but
provide a framework to understand the emergence or decline of
molecular functions in vertebrates.
Number of genes in mammals and teleosts
The total amount of coding sequence conserved between the two
fish and the two mammalian genomes provides a measure of their
respective coding capacity. The Exofish method6 is well suited to
measure this, because it translates entire genomes in all six frames
and identifies conserved coding regions (ecores) with a high
specificity and independently of prior genome annotation
(Table 4; see also Supplementary Information). The four vertebrate
genomes contain remarkably similar numbers of ecores, apart from
minor differences attributable to varying degrees of sequence
completion. This suggests that they possess fairly similar numbers
of genes. In fact, the gene count may be slightly less in mammals
than in fish because the proportion of ecores corresponding to
pseudogenes is higher in mammals21.
The human ecores can be used to search for previously unrecognized human genes. The discovery of new human genes is becoming
an increasingly rare event, given the scale and intensity of international efforts to annotate the genome by systematic annotation
pipelines and by human experts. Roughly 14,500 human ecores
Table 5 Rates of DNA evolution in vertebrates
Species
Total number
of orthologues
Number of
orthologues used
Average per cent
identity
(without gaps)
Observed number
of substitutions
per 4D site
Estimated amount
of neutral evolution
Estimated rate of
neutral evolution
(sites per Myr)
Ka
...................................................................................................................................................................................................................................................................................................................................................................
Human–mouse
Tetraodon–Takifugu
Tetraodon–human
Tetraodon–mouse
Takifugu–human
Takifugu–mouse
14,889
12,909
9,975
9,666
9,143
8,956
5,802
5,802
5,802
5,802
5,802
5,802
91.76
90.51
69.90
69.46
70.05
69.67
0.32
0.27
0.63
0.63
0.63
0.63
0.43
0.35
1.54*
1.53*
1.52*
1.52*
0.0057
0.0146
–
–
–
–
0.05
0.06
0.24
0.25
0.24
0.25
...................................................................................................................................................................................................................................................................................................................................................................
* These values are saturated and cannot be considered reliable estimates.
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
©2004 Nature Publishing Group
949
articles
conserved with Tetraodon sequences do not overlap any ‘known’
features (genes or pseudogenes) in the human genome. Using these
as anchors for local gene identification using the GAZE program, we
identified 904 novel human gene predictions. Of these, 63% are also
supported by expressed sequence tag (EST) data (from human or
other species) and 50% contain predicted InterPro protein domains
(Supplementary Table SI9). The most convincing evidence supporting these gene predictions is that they are strongly enriched on
chromosomes that have not yet been annotated by human experts
(Supplementary Table SI10). The novel gene predictions have
relatively small size (average coding sequence (CDS) of 469 bp),
which may have caused them to be eliminated by systematic
annotation procedures. They provide a rich resource to help
complete the human gene catalogue.
Tetraodon gene evolution
We measured rates of sequence divergence between fish and
mammals to estimate the relative speed with which functional
and non-functional sequences evolve in these lineages. We used
fourfold degenerate (4D) site substitutions in orthologous proteins
as a proxy for neutral nucleotide mutations, an approach that has
been shown to be robust across entire genomes2. To optimize
further the selection of sites used for comparison, we only considered the 5,802 proteins that are identified as orthologues in all
pairwise comparisons between human, mouse, Tetraodon and
Takifugu. The average neutral nucleotide substitution rate, inferred
using the REV model22,23, shows that the divergence between
Tetraodon and Takifugu is about twice as fast per year as between
human and mouse (Table 5), or between mouse and rat3.
We were interested to see whether this higher mutation rate is also
seen in protein sequences. Pairwise comparison of all possible
combinations of the 5,802 four-way orthologous proteins clearly
indicates that proteins between the two puffer fish are more
divergent than between the two mammals, despite the shorter
evolutionary time that has elapsed (Fig. 3). This is confirmed by
Figure 3 Distribution of the per cent identity between pairs of orthologous protein sets.
Comparisons were performed with 2,289 proteins that are orthologous between the
chordate C. intestinalis and all four vertebrates—Tetraodon, Takifugu, human and mouse
(asterisks)—and with 5,802 proteins orthologous between all four vertebrates only,
between fish and mammals (triangles) or between the two fish (circles), and between the
two mammals (squares). As expected, all vertebrates show the same distribution profile
compared to Ciona and both fish show the same distribution profile compared to
mammals. Surprisingly, the distribution profile of the comparison between the two fish
and between the two mammals is also very similar, despite the much shorter evolutionary
time since the tetraodontiform radiation.
950
the fact that the average frequency of non-synonymous mutations
(leading to an amino acid change, K a) between C. intestinalis and
human proteins is lower than between Ciona and Tetraodon (see
Methods).
Independent of the overall rate of change, the ratio of nonsynonymous to synonymous changes (K a/K s ratio) is much higher
between the two puffer fish than between human and mouse
(Supplementary Table SI11 and Supplementary Information),
suggesting that protein evolution is proceeding more rapidly
along the puffer fish lineage. The reasons for this faster tempo of
protein change are unknown, although it is likely to be positively
correlated with the higher rate of neutral mutation.
Genome evolution
Genome-wide sequence provides a rare opportunity to address key
evolutionary questions in a global fashion, circumventing biases
due to small sequence and gene samples. In this respect, the
combination of long-range linkage in the Tetraodon sequence and
its evolutionary divergence from the mammalian lineage at 450 Myr
ago makes it possible to explore overall genome evolution in the
vertebrate clade.
Evidence for whole-genome duplication
The occurrence of WGD in the ray-finned fish lineage is a hotly
debated question due both to the cataclysmic nature of such an event
and to the difficulty in establishing that it actually occurred24–26.
Figure 4 Genome duplication. a, Distribution of K s values of duplicated genes in
Tetraodon (left) and Takifugu (right) genomes. Duplicated genes broadly belong to two
categories, depending on their K s value being below or higher than 0.35 substitutions per
site since the divergence between the two puffer fish (arrows). b, Global distribution of
ancient duplicated genes (K s . 0.35) in the Tetraodon genome. The 21 Tetraodon
chromosomes are represented in a circle in numerical order and each line joins duplicated
genes at their respective position on a given pair of chromosomes.
©2004 Nature Publishing Group
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
articles
Definitive proof of WGD requires identifying certain distinctive
signatures in long-range genome organization, which has previously been impossible to address with the data available.
It is expected that after WGD the resulting polyploid genome
gradually returns to a diploid state through extensive gene deletion,
with only a small proportion of duplicated copies ultimately
Figure 5 Synteny maps. a, For each Tetraodon chromosome, coloured segments
represent conserved synteny with a particular human chromosome. Synteny is defined as
groups of two or more Tetraodon genes that possess an orthologue on the same human
chromosome, irrespective of orientation or order. Tetraodon chromosomes are not in
descending order by size because of unequal sequence coverage. The entire map
includes 5,518 orthologues in 900 syntenic segments. b, On the human genome the map
is composed of 905 syntenic segments. See Supplementary Information for the synteny
map between Tetraodon and mouse (Supplementary Fig. S11).
retained as sources of functional innovation26. Paralogous chromosomes will thus each retain only a small subset of their initially
common gene complement and then will be broken into smaller
segments by genomic rearrangements. WGD will thus leave two
distinctive signs for considerable periods before eventually fading.
The first distinctive sign is duplicated genes on paralogous
chromosomes. In the absence of chromosomal rearrangement it
would be simple to recognize two paralogous chromosomes arising
from a WGD from the genome-wide distribution of duplicate genes:
the chromosomes would each contain one member from many
duplicated gene pairs occurring in the same order along their length.
The difficulty is that this neat picture will eventually be blurred
by interchromosomal rearrangement, which will disrupt the 1:1
correspondence between chromosomes, and intrachromosomal
rearrangement, which will disrupt gene ordering along
chromosomes.
We analysed the genome-wide distribution of duplicated gene
pairs to see whether a strong correspondence between chromosomes could be detected. We identified 1,078 and 995 pairs of
duplicated genes in the Tetraodon and Takifugu genomes, respectively, using conservative criteria (see Supplementary Information).
On the basis of the frequencies of silent mutations (K s) between
copies, ,75% are ‘ancient’ duplications that arose before the
Tetraodon–Takifugu speciation (Fig. 4a).
The chromosomal distribution of these ancient duplicates follows a striking pattern characteristic of a WGD. Genes on one
chromosome segment have a strong tendency to possess duplicate
copies on a single other chromosome (Fig. 4b). The correspondence
is not a perfect 1:1 match owing to interchromosomal exchange, but
it is vastly stronger than expected by chance (Supplementary Table
SI12). As expected from a WGD, all chromosomes are involved.
Remarkably, some duplicate chromosome pairs such as Tetraodon
chromosome 9 (Tni9) and Tni11 have remained largely undisturbed by chromosome translocations since the duplication event.
In other cases, one chromosome has links to two or three others,
suggestive of either fusion or fragmentation (for example, Tni13
matches Tni5 and Tni19).
The second distinctive sign, which is an even more powerful
signature of genome duplication, comes from comparison with a
related species carrying a genome that did not undergo the WGD.
Such a comparison was recently used to prove the existence of an
ancient WGD in the yeast Saccharomyces cerevisiae based on
comparison with a second yeast species Kluyveromyces waltii that
diverged before the WGD27,28. Although two ancient paralogous
regions typically retained only a few genes in common, they could
be readily recognized because they showed a characteristic 2:1
mapping with interleaving; that is, they both showed conserved
synteny and local order to the same region of the K. waltii genome
with the S. cerevisiae genes interleaving in alternating stretches. Such
regions were called blocks of DCS (doubly conserved synteny).
Whereas the first distinctive sign of WGD depends only on a
Table 6 Distribution of human orthologues on Tetraodon chromosomes listed by their ancestral chromosome of origin
Ancestral chromosome
A
B
C
D
E
F
G
H
I
J
K
L
...................................................................................................................................................................................................................................................................................................................................................................
Tetraodon chromosome (copy 1)
Number of orthologues on copy 1
Percentage of orthologues on copy 1*
Tetraodon chromosome (copy 2)
Number of orthologues on copy 2
Percentage of orthologues on copy 2*
Tetraodon chromosome (copy 3)
Number of orthologues on copy 3
Percentage of orthologues on copy 3*
4
141
32.0
12
299
68.0
–
–
–
17
30
19.2
18
94
60.26
20
32
20.5
2
130
31.4
3
166
40.1
18
118
28.50
2
318
62.1
3
97
18.9
17
97
18.9
5
187
52.1
13
172
47.9
–
–
–
13
145
58.5
19
103
41.5
–
–
–
7
136
58.1
16
98
41.9
–
–
–
1
143
58.8
7
100
41.2
–
–
–
1
151
61.6
15
94
38.4
–
–
–
10
262
52.5
14
237
47.5
–
–
–
9
214
45.2
11
259
54.8
–
–
–
6
111
36.4
8
129
42.3
21
65
21.31
...................................................................................................................................................................................................................................................................................................................................................................
* Only orthologues that belong to syntenic groups are indicated here. For instance, ancestral chromosome A could be reconstructed with 141 Tetraodon–human orthologues belonging to Tetraodon
chromosome 4 and 299 to chromosome 12.
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
©2004 Nature Publishing Group
951
articles
minority of duplicated genes, the DCS signature considers all genes
for which orthologues can be found in the related species.
We used 6,684 Tetraodon genes localized on individual chromosomes that possess an orthologue in either human or mouse to
create a high-resolution synteny map (Fig. 5 and Supplementary
Fig. S11, respectively). The map contains 900 syntenic groups
composed of at least two consecutive genes (average 6.1; maximum
55) having orthologues on the same human chromosome; the
syntenic groups include 76% of Tetraodon–human orthologues.
The synteny map with mouse contains 1,011 syntenic groups,
probably reflecting the higher degree of chromosomal rearrangement in the rodent lineage2.
The synteny map typically associates two regions in Tetraodon
with one region in human. Using precise criteria (see Methods) we
defined DCS blocks for Tetraodon relative to human; in contrast to
the yeast study, strict conservation of gene order within DCSs was
not required. Notably, most (79.6%) orthologous genes in syntenic
groups can be assigned to 90 DCS blocks (Fig. 6). As in S. cerevisiae27,
we see the distinctive interleaving pattern expected from WGD
followed by massive gene loss. Analysis of the interleaving pattern
shows that the gene loss occurred through many small deletions in a
balanced fashion over the two Tetraodon sister chromosomes
(average balance 42% and 58% of retention; Supplementary
Information); this is consistent with the results in yeast.
These two analyses provide definitive evidence that the Tetraodon
genome underwent a WGD sometime after its divergence from the
mammalian lineage. The first test used only the ,3% of genes that
represent duplicated gene pairs retained from the WGD. The second
test used the pattern of 2:1 mapping with interleaving involving
,80% of orthologues between Tetraodon and human.
Figure 6 Duplicate mapping of human chromosomes reveals a whole-genome
duplication in Tetraodon. Blocks of synteny along human chromosomes map to two (or
three) Tetraodon chromosomes in an interleaving pattern. Small boxes represent groups
of syntenic orthologous genes enclosed in larger boxes that define the boundaries of 110
DCS blocks. Black circles indicate human centromeres. A region of human chromosomes
Xq and 16q are shown in detail with individual Tetraodon orthologous genes depicted on
either side.
952
©2004 Nature Publishing Group
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
articles
Figure 7 Composition of the ancestral osteichthyan genome. The 110 DCS blocks
identified on the human genome are grouped according to their composition in terms of
Tetraodon chromosomes, thus delineating 12 ancestral chromosomes containing 90 DCS
blocks. The order of DCSs within an ancestral chromosome is arbitrary. The 20 blocks
denoted by the letters U, V, W and Z (Supplementary Information) could not be assigned to
an ancestral chromosome because each has a unique composition, probably due to
rearrangements in the human or Tetraodon genome. Colour codes are as in Fig. 6.
Figure 8 Reconstructing ancient genome rearrangements. Model of chromosome
duplication followed by the four simplest chromosome rearrangements: (1) no
rearrangement; (2) two different duplicate copies fused recently; (3) two different
duplicate copies fused early after the duplication; (4) a duplicate chromosome fragmented
very recently. In each model, the distribution of human orthologues from a given
chromosomal region on two or three duplicate Tetraodon chromosomal regions is
expected to be different (each dot is an orthologue, positioned in the human genome on
the vertical axis and in the Tetraodon genome on the horizontal axis). The distinction
between early or late events follows the assumption that intrachromosomal shuffling
progressively redistributes genes over a given chromosome. A recent fusion would thus
bring together two sets of genes that appear compartmented on their respective
segments, whereas an ancient fusion shows the same pattern except that genes have
been redistributed over the length of the fused chromosome. It should be noted that a fifth
case exists, consisting of a chromosome break early after duplication but it is not
represented here. The lower panel shows excerpts of data illustrating the four types of
event. The complete Oxford grid is shown in Supplementary Fig. SI12.
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
©2004 Nature Publishing Group
953
articles
The presence of supernumerary HOX clusters in zebrafish7,
Tetraodon (Fig. S8) and many other percomorphs29 but not in the
bichir Polypterus senegalus30 indicates that the event has affected
most teleosts but not all actinopterygians. This timing early in the
teleost lineage is in agreement with recent evolutionary analyses in
Takifugu that estimated the divergence time for most duplicated
gene pairs at ,320–350 Myr ago31,32.
The analyses above also shed light on the rate of intra- and
interchromosomal exchange. The synteny analysis shows extensive
syntenic segments in which gene content has been well preserved
but gene order has been extensively scrambled (striking examples
include conserved synteny of Tni20 with human chromosome 4q
(Hsa4q) and Tni1 with HsaXq); this is consistent with observations
in zebrafish33. The duplication analysis within Tetraodon also shows
that the chromosomal correspondence of duplicated gene pairs has
been extensively preserved, whereas local gene order has been
largely scrambled. Both analyses thus indicate that a relatively
high degree of intrachromosomal rearrangement and a relatively
low degree of interchromosomal exchange have taken place in the
Tetraodon lineage.
Figure 9 Model for the reconstruction of an ancestral bony vertebrate karyotype
comprising 12 chromosomes, based on the pairing information provided by duplicated
Tetraodon chromosomes showing interleaved patterns on human chromosomes. The ten
major rearrangements (two ancient fusions, three recent fusions, one ancient and one
recent fission, and three ancient translocations) are deduced by fitting the distribution of
orthologues to the four simple theoretical models of chromosome evolution. The order
between events is arbitrary although the approximate timeline differentiates between
ancient and recent events respectively before and after the dashed line. Arrowheads point
to the direction of three ancient translocations.
Figure 10 Proposed model for the distribution of ancestral chromosome segments in the
human and the Tetraodon genomes. The composition of Tetraodon chromosomes is
based on their duplication pattern (Fig. 9), whereas the composition of human
chromosomes is based on the distribution of orthologues of Tetraodon genes (Fig. 6). A
vertical line in Tetraodon chromosomes denotes regions where sequence has not yet been
assigned. With 90 blocks in human compared with 44 in Tetraodon, the complexity of the
mosaic of ancestral segments in human chromosomes underlines the higher frequency of
rearrangements to which they were submitted during the same evolutionary period.
954
©2004 Nature Publishing Group
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
articles
Ancestral genome of bony vertebrates
We then sought to use the correspondence between the Tetraodon
and human genomes to attempt to reconstruct the karyotype of
their osteichthyan (bony vertebrate) ancestor. The DCS blocks
define Tetraodon regions that arose from duplication of a common
ancestral region. Notably, the DCS blocks largely fall into 12 simple
patterns: eight cases involving the interleaving of two current
Tetraodon chromosomes and four cases involving three current
Tetraodon chromosomes (Fig. 7 and Table 6). The first group
represents cases in which the ancestral chromosomes have remained
largely untouched by interchromosomal exchange; the second
group represents cases in which one major translocation has
occurred.
The distribution of Tetraodon orthologues in the human genome
(shown as an Oxford grid in Supplementary Fig. S12) provides a
detailed record that can be used to partially reconstruct the history
of rearrangements in both lineages. We considered the expected
distribution resulting from various types of interchromosomal
rearrangements, assuming a relatively high degree of intrachromosomal shuffling (Fig. 8; see also Supplementary Information).
We found that only ten large-scale interchromosomal events suffice
to largely explain the data, connecting an ancestral vertebrate
karyotype of 12 chromosomes to the modern Tetraodon genome
of 21 chromosomes (Fig. 9). Eleven of the Tetraodon chromosomes
appear to have undergone no major interchromosomal rearrangement. For example, 13 DCS blocks in human are composed of
interleaved syntenic groups mapping to Tni9 and Tni11, which are
presumed to be derived from a common ancestral chromosome
denoted chromosome K (AncK; Fig. 7). The orthologue distribution between the two chromosomes (Fig. 8) confirms that they
derive by duplication from AncK (Fig. 9). In a more complex case,
Tni13 is systematically interleaved with Tni5 (AncE) or Tni19
(AncF), but Tni5 and Tni19 are never interleaved together; the
orthologue distribution among the three chromosomes (Fig. 8)
implies that the duplication partners of Tni5 and Tni19 fused soon
after the WGD to give rise to Tni13 (Fig. 9). The overall model is
consistent with a complete WGD, in that it accounts for all
Tetraodon chromosomes.
Several lines of evidence support the historical reconstitution
presented here. First, the pairing of Tetraodon chromosomes agrees
with the independently derived distribution of duplicated genes in
the genome (Fig. 4b). Second, centric fusions of the three largest
chromosomes are consistent with cytogenetic studies34, and the
recent timing of the fusion leading to Tni1 is supported by
cytogenetic studies showing its absence in Takifugu35. Third, the
modal value for the haploid number of chromosomes in teleosts is
24 (refs 36–38), consistent with a WGD of an ancestral genome
composed of 12 chromosomes.
The analysis also sheds light on genome evolution in the human
lineage, with the interleaving patterns on human chromosomes
delineating the mosaic of ancestral segments in the human genome
(Figs 6 and 10). The results are consistent with and extend several
known cases of rearrangements in the human lineage. The model
correctly shows the recent fusion of two primate chromosomes
leading to Hsa2 (ref. 39) occurring at the junction between two
ancestral segments (D2 and D3; Fig. 6) in 2q13.2-2q14.1. It shows
HsaXp and HsaXq to be of different origins (corresponding to
AncD and AncH, respectively), consistent with the fact that HsaXp
is known to be absent in non-placental mammals40. The map
indicates that most of HsaXq and Hsa5q were once part of the
same chromosome, but that the tip of HsaXq (Xq28) originates
from a different ancestral segment and is thus a later addition. Some
pairs of human chromosomes show similar or identical compositions, suggesting that they derived by fission from the same
ancestral chromosome, with examples being Hsa13–Hsa21 and
Hsa12–Hsa22; the latter case is consistent with cytogenetic studies
showing that a fission occurred in the primate lineage41.
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
The results show a major difference in the evolutionary forces
shaping the Tetraodon and the human genomes (Fig. 10). Whereas
11 Tetraodon chromosomes did not undergo interchromosomal
exchange over 450 Myr, only one human chromosome (Hsa14) was
similarly undisturbed. Hsa7 is an extreme case, with contributions
from six ancestral chromosomes. A possible explanation for the
difference may be the massive integration of transposable elements
in the human genome. The presence of transposable elements may
increase the overall frequency of chromosome breaks, as well as the
likelihood that a chromosome break fails to disrupt a gene (by
increasing the size of intergenic intervals). It will be interesting to
see whether teleosts that carry many more transposable elements
(such as zebrafish) show a higher frequency of interchromosomal
exchanges.
Conclusion
The purpose of sequencing the Tetraodon genome was to use
comparative analysis to illuminate the human genome in particular
and vertebrate genomes in general. The Tetraodon sequence, which
has been made freely available during the course of this project, has
already had a major impact on human gene annotation. It has
provided the first clear evidence of a sharply lower human gene
count6 and has been used in the annotation of several human
chromosomes42–45. Here, we show that it suggests an additional
,900 predicted genes in the human genome. Given its compact size,
the Tetraodon genome will probably also prove valuable in identifying key conserved regulatory features in intergenic and intronic
regions.
In addition, the Tetraodon genome provides fundamental insight
into genome evolution in the vertebrate lineage. First, the analysis
here shows that Tetraodon is the descendant of an ancient WGD
that most probably affected all teleosts. Together with the recent
demonstration of an ancient WGD in the yeast lineage, this suggests
that WGD followed by massive gene loss may be an extremely
important mechanism for eukaryote genome evolution—perhaps
because it allows for the neofunctionalization of entire pathways
rather than simply individual genes. There remains a fierce debate
about whether one or more earlier WGD events occurred in early
vertebrate evolution25,46–50, with no direct and conclusive evidence
found so far51,52. The examples of yeast and Tetraodon show that
ultimate proof will probably best come from the sequence of a
related non-duplicated species. An obvious candidate is amphioxus,
as its non-duplicated status is supported by the presence of
many single-copy genes (including one HOX cluster53) instead of
two or more in vertebrates, and it is among our closest nonvertebrate relatives based on anatomical and evolutionary
observations.
Second, the remarkable preservation of the Tetraodon genome
after WGD makes it possible to infer the history of vertebrate
chromosome evolution. The model suggests that the ancestral
vertebrate genome was comprised of 12 chromosomes, was compact, and contained not significantly fewer genes than modern
vertebrates (inasmuch as the WGD and subsequent massive gene
loss resulted in only a tiny fraction of duplicate genes being
retained). The explosion of transposable elements in the mammalian lineage, subsequent to divergence from the teleost lineage, may
have provided the conditions for increased interchromosomal
rearrangements in mammals; in contrast, the Tetraodon genome
underwent much less interchromosomal rearrangement.
With the availability of additional vertebrate genomes (dog,
marsupial, chicken, medaka, zebrafish and frog are underway), it
will be possible to explore intermediate nodes such as the last
common ancestor of amniotes, of sarcopterygians and of actinopterygians, and to gain an increasingly clearer picture of the early
vertebrate ancestor. Because the early vertebrate genome is ‘closer’
to current invertebrates, this should in turn facilitate comparison
between vertebrate and invertebrate evolution.
A
©2004 Nature Publishing Group
955
articles
Methods
Sequencing, assembly and data access
Sequencing was performed as described previously for Genoscope54 and the Broad
Institute1,2. Approximately 4.2 million plasmid reads were cloned and sequenced from
DNA extracted from two wild Tetraodon fish and passed extensive checks for quality
and source, representing approximately 8.3-fold sequence coverage of the Tetraodon
genome. To alleviate problems due to polymorphism, the assembly proceeded in four
stages: (1) reads from a single fish were assembled by Arachne as described
previously10,11; (2) reads from the second individual were added to increase sequencing
depth; (3) scaffolds were constructed using plasmid and BAC paired reads; and (4)
contigs from a separate assembly combining both individuals were added if they did not
overlap with the first assembly. The final assembly can be downloaded from the EMBL/
GenBank/DDBJ databases under accession number CAAE01000000. Full-length
Tetraodon cDNAs have been submitted under accession numbers CR631133–CR735083.
Ultracontigs organized in chromosomes are available from http://www.genoscope.org/
tetraodon. This site also contains an annotation browser and further information on
the project.
Gene annotation
Protein-coding genes were predicted by combining three types of information: alignments
with proteins and genomic DNA from other species, Tetraodon cDNAs, and ab initio
models. All alignments with genomic DNA from human and mouse were performed with
Exofish as described previously6, whereas a new Exofish method was developed to align
Takifugu genomic DNA. Proteins predicted from human and mouse were also matched
using Exofish and a selected subset was then aligned using Genewise. The integration of
these data sources was performed with GAZE14. A specific GAZE automaton was designed,
and parameters were adjusted on a training set of 184 manually annotated Tetraodon
genes. See Supplementary Information for details.
Evolution of coding and non-coding DNA
To identify orthologous genes between human, mouse, Tetraodon, Takifugu and Ciona,
their predicted proteomes were compared using the Smith–Waterman algorithm and
reciprocal best matches were considered as orthologous genes between two species.
However, only those genes that were reciprocal best matches between four or five species,
and only sites that were aligned between the four or five genes, were further considered to
compute the percentage identity, K a, K s and fourfold degenerate sites by the PBL
method applying Kimura’s two-parameter model55–57. See Supplementary Information for
details.
Genome duplication
A core set of Tetraodon duplicated genes was identified by an all-against-all comparison
of Tetraodon predicted protein using Exofish. Only proteins that matched a single other
protein by reciprocal best match were considered further and realigned by the Smith–
Waterman algorithm to compute K a and K s values. Duplicates with a K s . 0.35 (the
amount of neutral substitution since the Tetraodon–Takifugu divergence) were
considered ‘ancient’ and used to calculate P-values for chromosome pairing
(Supplementary Table SI12). Rules for classifying alternating patterns of syntenic
groups along human chromosomes in DCS blocks included the following criteria:
number of genes in syntenic groups, number of syntenic groups in the DCS region,
number of Tetraodon chromosomes that alternate, and number of times the same
combination of Tetraodon chromosomes occur in the human genome. See
Supplementary Information for details.
Ancestral genome reconstruction
One category of DCS with the following definition encompassed most orthologues:
“alternating series of i syntenic groups that belong to two (i . ¼ 2) or three (i . ¼ 3)
Tetraodon chromosomes. The series may only be interrupted by groups from categories
‘unassigned singletons’ or ‘background singletons’. A given combination of two or three
Tetraodon chromosomes must appear at least twice in the human genome”. These DCS
blocks showed 12 recurring combinations of Tetraodon chromosomes, and were thus
further classified in 12 groups labelled A to L. Each of the 12 groups, consisting of at least
two DCS blocks with the same combination of alternating Tetraodon chromosomes,
represents a proto-chromosome from the ancestral bony vertebrate (Osteichthyes). A
model was then designed to account for the possible fates of chromosomes after
duplication of the ancestral genome in the teleost lineage (Fig. 8). The model only deals
with orthologous gene distribution between two genomes. It is simply based on the
postulate that interchromosomal shuffling of genes within a genome increases with time,
which is a measure to distinguish between ancient and recent events (for example,
chromosome fusions or fissions). The two-dimensional distribution of 7,903 Tetraodon–
human orthologues (Oxford Grid, Supplementary Fig. S12) was then confronted to the
model and all 21 Tetraodon chromosomes could be grouped in pairs or triplets and
assigned to a given type of event. See Supplementary Information for details.
Received 14 July; accepted 8 September 2004; doi:10.1038/nature03025.
1. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human
genome. Nature 409, 860–921 (2001).
2. Mouse Genome Sequencing Consortium. Initial sequencing and comparative analysis of the mouse
genome. Nature 420, 520–562 (2002).
3. Rat Genome Sequencing Project Consortium. Genome sequence of the Brown Norway rat yields
insights into mammalian evolution. Nature 428, 493–521 (2004).
4. Aparicio, S. et al. Whole-genome shotgun assembly and analysis of the genome of Fugu rubripes.
Science 297, 1301–1310 (2002).
956
5. Hedges, S. B. The origin and evolution of model organisms. Nature Rev. Genet. 3, 838–849
(2002).
6. Roest Crollius, H. et al. Human gene number estimate provided by genome wide analysis using
Tetraodon nigroviridis genomic DNA. Nature Genet. 25, 235–238 (2000).
7. Amores, A. et al. Zebrafish hox clusters and vertebrate genome evolution. Science 282, 1711–1714
(1998).
8. Robinson-Rechavi, M., Marchand, O., Escriva, H. & Laudet, V. An ancestral whole-genome
duplication may not have been responsible for the abundance of duplicated fish genes. Curr. Biol. 11,
R458–R459 (2001).
9. Taylor, J. S., Braasch, I., Frickey, T., Meyer, A. & Van de Peer, Y. Genome duplication, a trait shared by
22000 species of ray-finned fish. Genome Res. 13, 382–390 (2003).
10. Batzoglou, S. et al. ARACHNE: a whole-genome shotgun assembler. Genome Res. 12, 177–189
(2002).
11. Jaffe, D. B. et al. Whole-genome sequence assembly for mammalian genomes: Arachne 2. Genome Res.
13, 91–96 (2003).
12. Roest Crollius, H. et al. Characterization and repeat analysis of the compact genome of the freshwater
pufferfish Tetraodon nigroviridis. Genome Res. 10, 939–949 (2000).
13. Bouneau, L. et al. An active non-LTR retrotransposon with tandem structure in the compact genome
of the pufferfish Tetraodon nigroviridis. Genome Res. 13, 1686–1695 (2003).
14. Howe, K. L., Chothia, T. & Durbin, R. GAZE: a generic framework for the integration of geneprediction data by dynamic programming. Genome Res. 12, 1418–1427 (2002).
15. Hatfield, D. L. Selenium: Its Molecular Biology and Role in Human Health (Kluwer, Dordrecht,
2001).
16. Boulay, J. L., O’Shea, J. J. & Paul, W. E. Molecular phylogeny within type I cytokines and their cognate
receptors. Immunity 19, 159–163 (2003).
17. Mulder, N. J. et al. InterPro: an integrated documentation resource for protein families, domains and
functional sites. Brief. Bioinform. 3, 225–235 (2002).
18. Dehal, P. et al. The draft genome of Ciona intestinalis: insights into chordate and vertebrate origins.
Science 298, 2157–2167 (2002).
19. Zdobnov, E. M. & Apweiler, R. InterProScan—an integration platform for the signature-recognition
methods in InterPro. Bioinformatics 17, 847–848 (2001).
20. Harris, M. A. et al. The Gene Ontology (GO) database and informatics resource. Nucleic Acids Res. 32
(Database issue), D258–D261 (2004).
21. Torrents, D., Suyama, M., Zdobnov, E. & Bork, P. A genome-wide survey of human pseudogenes.
Genome Res. 13, 2559–2567 (2003).
22. Tavaré, S. Some probabilistic and statistical problems in the analysis of DNA sequences. Lect. Math.
Life Sci. 17, 57–86 (1986).
23. Gu, X. & Li, W. H. A general additive distance with time-reversibility and rate variation among
nucleotide sites. Proc. Natl Acad. Sci. USA 93, 4671–4676 (1996).
24. Holland, P. W. H. Introduction: gene duplication in development and evolution. Semin. Cell Dev. Biol.
10, 515–516 (1999).
25. Martin, A. Is tetralogy true? Lack of support for the “one-to-four” rule. Mol. Biol. Evol. 18, 89–93
(2001).
26. Wolfe, K. H. Yesterday’s polyploids and the mystery of diploidization. Nature Rev. Genet. 2, 333–341
(2001).
27. Kellis, M., Birren, B. W. & Lander, E. S. Proof and evolutionary analysis of ancient genome duplication
in the yeast Saccharomyces cerevisiae. Nature 428, 617–624 (2004).
28. Dietrich, F. S. et al. The Ashbya gossypii genome as a tool for mapping the ancient Saccharomyces
cerevisiae genome. Science 304, 304–307 (2004).
29. Prohaska, S. J. & Stadler, P. F. The duplication of the Hox gene clusters in teleost fishes. Theor. Biosci.
123, 89–110 (2004).
30. Chiu, C. H. et al. Bichir HoxA cluster sequence reveals surprising trends in ray-finned fish genomic
evolution. Genome Res. 14, 11–17 (2004).
31. Vandepoele, K., De Vos, W., Taylor, J. S., Meyer, A. & Van de Peer, Y. Major events in the genome
evolution of vertebrates: paranome age and size differ considerably between ray-finned fishes and land
vertebrates. Proc. Natl Acad. Sci. USA 101, 1638–1643 (2004).
32. Christoffels, A. et al. Fugu genome analysis provides evidence for a whole-genome duplication early
during the evolution of ray-finned fishes. Mol. Biol. Evol. 21, 1146–1151 (2004).
33. Woods, I. G. et al. A comparative map of the zebrafish genome. Genome Res. 10, 1903–1914
(2000).
34. Fischer, C. et al. Karyotype and chromosomal localization of characteristic tandem repeats in the
pufferfish Tetraodon nigroviridis. Cytogenet. Cell Genet. 88, 50–55 (2000).
35. Grutzner, F. et al. Classical and molecular cytogenetics of the pufferfish Tetraodon nigroviridis.
Chromosome Res. 7, 655–662 (1999).
36. Ohno, S., Wolf, U. & Atkin, N. B. Evolution from fish to mammals by gene duplication. Hereditas 59,
169–187 (1968).
37. Ojima, Y. in Chromosomes in Evolution of Eukaryotic Groups (eds Sharma, A. K. & Sharma, A.)
111–145 (CRC Press, Boca Raton, 1983).
38. Naruse, K. et al. A medaka gene map: the trace of ancestral vertebrate proto-chromosomes revealed by
comparative gene mapping. Genome Res. 14, 820–828 (2004).
39. Yunis, J. J. & Prakash, O. The origin of man: a chromosomal pictorial legacy. Science 215, 1525–1530
(1982).
40. Graves, J. A., Gecz, J. & Hameister, H. Evolution of the human X—a smart and sexy chromosome that
controls speciation and development. Cytogenet. Genome Res. 99, 141–145 (2002).
41. Richard, F., Lombard, M. & Dutrillaux, B. Reconstruction of the ancestral karyotype of eutherian
mammals. Chromosome Res. 11, 605–618 (2003).
42. The chromosome 21 mapping and sequencing consortium, The DNA sequence of human
chromosome 21. Nature 405, 311–319 (2000).
43. Deloukas, P. et al. The DNA sequence and comparative analysis of human chromosome 20. Nature
414, 865–871 (2001).
44. Collins, J. E. et al. Reevaluating human gene annotation: a second-generation analysis of chromosome
22. Genome Res. 13, 27–36 (2003).
45. Heilig, R. et al. The DNA sequence and analysis of human chromosome 14. Nature 421, 601–607
(2003).
46. Holland, P. W., Garcia-Fernandez, J., Williams, N. A. & Sidow, A. Gene duplications and the
©2004 Nature Publishing Group
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
articles
origins of vertebrate development. Development (suppl.), 125–133 (1994).
47. Spring, J. Vertebrate evolution by interspecific hybridisation–are we polyploid? FEBS Lett. 400, 2–8
(1997).
48. Friedman, R. & Hughes, A. L. Pattern and timing of gene duplication in animal genomes. Genome Res.
11, 1842–1847 (2001).
49. Hughes, A. L., da Silva, J. & Friedman, R. Ancient genome duplications did not structure the human
Hox-bearing chromosomes. Genome Res. 11, 771–780 (2001).
50. Thornton, J. W. Evolution of vertebrate steroid receptors from an ancestral estrogen receptor by ligand
exploitation and serial genome expansions. Proc. Natl Acad. Sci. USA 98, 5671–5676 (2001).
51. McLysaght, A., Hokamp, K. & Wolfe, K. H. Extensive genomic duplication during early chordate
evolution. Nature Genet. 31, 200–204 (2002).
52. Panopoulou, G. et al. New evidence for genome-wide duplications at the origin of vertebrates using an
amphioxus gene set and completed animal genomes. Genome Res. 13, 1056–1066 (2003).
53. Garcia-Fernandez, J. & Holland, P. W. Archetypal organization of the amphioxus Hox gene cluster.
Nature 370, 563–566 (1994).
54. Artiguenave, F. et al. Genomic exploration of the hemiascomycetous yeasts: 2. Data generation and
processing. FEBS Lett. 487, 13–16 (2000).
55. Kimura, M. A simple method for estimating evolutionary rates of base substitutions through
comparative studies of nucleotide sequences. J. Mol. Evol. 16, 111–120 (1980).
56. Li, W. H., Wu, C. I. & Luo, C. C. A new method for estimating synonymous and nonsynonymous rates
of nucleotide substitution considering the relative likelihood of nucleotide and codon changes. Mol.
Biol. Evol. 2, 150–174 (1985).
NATURE | VOL 431 | 21 OCTOBER 2004 | www.nature.com/nature
57. Pamilo, P. & Bianchi, N. O. Evolution of the Zfx and Zfy genes: rates and interdependence between the
genes. Mol. Biol. Evol. 10, 271–281 (1993).
Supplementary Information accompanies the paper on www.nature.com/nature.
Acknowledgements This work was supported by Consortium National de Recherche en
Génomique. We thank T. Itami and S. Watabe for their gift of Takifugu blood samples; C. Nardon
and M. Weiss for help with flow cytometry experiments; K. Howe for discussions regarding
GAZE; R. Heilig for help with the annotation; the Centre Informatique National de
l’Enseignement Supérieur for computer resources; and Gene-IT for assistance with the Biofacet
software package.
Competing interests statement The authors declare that they have no competing financial
interests.
Correspondence and requests for materials should be addressed to J.W.
([email protected]). The final assembly is available at EMBL/GenBank/DDBJ under
accession number CAAE01000000. Full-length Tetraodon cDNAs have been deposited under
accession numbers CR631133–CR735083; ultracontigs organized in chromosomes are available
from http://www.genoscope.org/tetraodon.
©2004 Nature Publishing Group
957
Article 5 "Genome duplication in the teleost fish Tetraodon nigroviridis reveals the early
vertebrate proto-karyotype." Nature 431(7011): 946-57. Page 12
96
6.2 Scénario évolutif des chromosomes de vertebrés
6.2.1 Introduction
S’il était possible de comparer l’ordre des gènes d’une espèce avec celui des gènes d’une
espèce ancestrale, des différences pourraient être constatées et mesurées. Ces remaniements
qui modifient l’ordre des gènes et la structure des chromosomes sont des événements
évolutifs majeurs puisqu’ils touchent l’intégrité de la molécule d’ADN.
Au même titre que les protéines de 2 espèces divergent par un certain pourcentage d’identité,
leurs séquences d’ADN se distinguent par le nombre, le type et les positions de
réarrangements. Ce type de mutations subit une pression de sélection qui ne porte pas
directement sur la structure de la protéine, mais plutôt sur l’organisation de la chromatine, et
donc de la situation du gène dans son environnement. La contrainte est à l’échelle du
chromosome. Les réarrangements passés représentent ainsi une signature évolutive propre à
chaque génome. Déduire le chemin évolutif de ces réarrangements est une étape indispensable
pour comprendre les différences physiologiques de 2 espèces.
En pratique, nous ne disposons pas de données de séquences de génomes ancestraux (au titre
de fossile génomique), aussi les comparaisons ne peuvent s’effectuer qu’entre génomes
d’espèces actuelles pour lesquelles un certain nombre de gènes orthologues (ou d’autres
marqueurs) sont connus. Il est alors envisageable d’inférer l’ordre le plus probable des gènes
sur leur dernier ancêtre commun et de déterminer les caractéristiques évolutives de chaque
lignée en terme de réarrangements chromosomiques. Parmi différents scénarii possibles, le
plus probable est celui qui retient le moins d’événements nécessaires pour passer de
l’organisation ancestrale à l’organisation actuelle (minimisation des coûts ou principe de
parcimonie).
Une des premières analyses comparées des réarrangements chromosomiques fut réalisée en
1937 par Sturtevant et Dobzhansky. Ils ont démontré que certaines différences observées en
comparant 2 chromosomes de souches différentes de drosophile résultent d’inversions locales
de la chromatine. Les réarrangements chromosomiques sont modélisés comme des unitaires
simples qui s’ajoutent, et il est possible d’en déduire leur chronologie, et donc aussi une
situation ancestrale. Dobzhansky et Sturtevant ont réalisé une analyse comparée des
chromosomes de différentes souches de Drosophila pseudoobscura et ont déterminé des
scénarii de réarrangements chromosomiques pour passer d’une souche à une autre. A la suite
de croisements, les auteurs observaient des structures de boucles sur les chromosomes de la
97
descendance. En comprenant qu’une boucle correspond à l’inversion d’un fragment
chromosomique dans un allèle, et donc dans la structure chromosomique d’une souche
parentale, ils ont pu caractériser certains types de réarrangements chromosomiques
observables selon différents types de boucles. En comparant alors 2 souches, un certain
nombre d’inversions chromosomiques pouvaient être déduites depuis la séparation des 2
souches. Reconstruire le scénario des événements, c'est-à-dire les événements et leur ordre
chronologique, est possible en suivant un principe de parcimonie. Le plus petit nombre
d’inversions étant le plus probable. Par exemple pour passer de la séquence ABCDEFGHI à
la séquence AFEHGBCDI, 2 inversions sont nécessaires : ABCDEFGHI vers AFEDCBGHI,
puis AFEDCBGHI vers AFEHGBCDI. Ces 2 événements sont considérés distants dans le
temps, mais chevauchants.
De cette façon les auteurs ont pu déduire que certaines souches sont à l’origine de 2 autres
souches indépendantes et donc déduire la structure chromosomique la plus ancienne possible
(Dobzhansky & Sturtevant, 1938).
Aujourd’hui un programme de séquençage de 50 souches de Drosophila melanogaster en
cours (Charles Langley, communication personnelle) permettra de reprendre les travaux
historiques de Sturtevant et d’affiner les conclusions en utilisant cette fois les 13600 gènes
identifiés aujourd’hui (Adams et al., 2000) comme autant de marqueurs au lieu des quelques
loci chromosomiques identifiables en 1937. De ce point de vue, le programme de séquençage
permet un changement d’échelle dans la résolution mais la problématique et les bases
méthodologiques sont les mêmes que 70 ans auparavant.
A partir de données génomiques à grande échelle, et en utilisant un grand nombre de
marqueurs orthologues, analyser les réarrangements nécessaires pour transformer la structure
chromosomique d’une espèce A vers la structure chromosomique d’une espèce B apporte une
compréhension fine des mécanismes évolutifs caractéristiques de chaque lignée (a l’échelle du
gène). Cependant, pour les génomes ayant plusieurs chromosomes, les inversions seules ne
suffisent pas à expliquer les observations comme ont pu le faire Dobzhansky et Sturtevant. Il
faut tenir compte des éventuelles translocations inter-chromosomiques, des cassures et des
fusions. Mais selon le même principe de parcimonie, le nombre minimal d’évènements
correspond à la distance génomique entre les génomes.
Une des questions fondamentales à ce niveau porte sur la nature des positions de
réarrangements. Est-ce que les translocations se produisent au hasard, et sont distribuées de
98
façon aléatoire sur la chromatine ? Ou est-ce qu’il existe des points chauds où les
réarrangements se produisent préférentiellement ?
Le modèle le plus communément admis est celui de Nadeau et Taylor (Nadeau & Taylor,
1984). Il propose que les réarrangements chromosomiques (cassures, translocations) se
produisent au hasard (random breakpoint model). Et le nombre de fragments conservés se
distribue selon une loi exponentielle en fonction de leur longueur selon l’expression :
N ( x )  1 L e  x L
Avec :
x : Longueur du segment conservé.
L : Moyenne des longueurs des segments conservés.
N(x) : Nombre de fragments de longueur x
Avec la publication de la séquence du génome de la souris, s’est présentée pour la première
fois la possibilité d’analyse des réarrangements qui se sont produits dans la lignée de la souris
et dans celle de l’humain depuis leur dernier ancêtre commun. A priori, la
proximité
évolutive des ces organismes faciliterait cette étude puisque les régions orthologues sont très
conservées. Environ 300 blocs de synténie ont été dénombrés. Malheureusement, ces analyses
de synténies entre les génomes humains et de souris, n’ont initialement pu confirmer (ni
infirmer) le modèle de Nadeau et Taylor en raison de l’état encore fragmentaire de
l’assemblage (Kent et al., 2003; Waterston et al., 2002b). Pour ce type de comparaisons, le
niveau de qualité de la séquence disponible fixe le niveau de résolution de l’analyse. Les
blocs retenus dans l’article principal du génome de souris ont été filtrés selon leur taille
(supérieurs à 1 Mb) et ne représentent donc que la partie la plus épargnée par les
réarrangements. Car en tenant compte des petits fragments synténiques, leur nombre dévie du
modèle aléatoire. Un modèle de sites fragiles (fragile breakpoint model) a alors été proposé
(Pevzner & Tesler, 2003b). Dans ce modèle, les auteurs proposent que certains sites dans le
génome seraient le lieu de plusieurs réarrangements successifs. Avec la multiplication des
données de séquences de mammifères, l’équipe de Pevzner a récemment conforté le modèle
de réutilisation des sites de coupures depuis la radiation des mammifères (Larkin et al., 2005).
99
6.2.2 Inférer une structure chromosomique ancestrale à partir de
résultats de synténie
6.2.2.1 Entre mammifères et Tetraodon
L’analyse des fragments synténiques entre les génomes de T. nigroviridis et de l’humain ou
de la souris (fig 5 et fig S11 de l’article 5) nous permet de poser la même question à une
échelle évolutive plus grande. Au vu de la distribution des longueurs des fragments
synténiques, nous observons un nombre relativement important de petits fragments (Figure
21). Mais comme pour les comparaisons initiales de mammifères, cela peut être dû
simplement à l’assemblage qui est de qualité non finie. Nous ne pouvons pas exclure une
répartition aléatoire des sites de coupures sur les chromosomes.
La disponibilité de fragments orthologues entre 2 génomes permet d’analyser la répartition
des sites de cassures. L’examen de leur localisation sur le génome nous renseigne sur une
répartition aléatoire ou non, ou s’il existe des biais sur les types de gènes environnants. Mais
les conclusions sur l’évolution de la structure des chromosomes restent très limitées, il n’est
pas possible d’en déduire un scénario évolutif et donc la structure ancestrale.
Supposons une espèce S1 à 2 chromosomes, et une espèce S2 à 1 chromosome. Si chacun des
chromosomes de S1 est orthologue à une moitié du chromosome de S2, que peut-on conclure
sur la structure chromosomique du dernier ancêtre commun ? Par parcimonie, nous pouvons
conclure que les gènes de chaque moitié du chromosome de S2 étaient déjà présents sur ce
même loci. Par contre nous ne pouvons pas déduire si le génome ancestral avait 1 ou 2
chromosomes. Autrement dit, nous ne pouvons pas décider si une cassure s’est produite dans
la lignée de S1, ou une fusion dans la lignée de S2. Pour cela, il faut disposer d’une troisième
espèce S3 qui aurait divergé antérieurement (intervention d’un « outgroup »). Si S3 avait 1
seul chromosome, alors l’hypothèse d’un ancêtre à 2 chromosomes fait intervenir une fusion
dans la lignée de S2 et une fusion dans la lignée de S3, tandis que, l’hypothèse d’un ancêtre à
1 chromosome fait intervenir une cassure dans la lignée de S1. Aussi, par parcimonie,
l’hypothèse d’un ancêtre à un seul chromosome est préférable dans cet exemple.
Dans certains cas, il est toutefois possible d’inférer la structure chromosomique ancestrale à
partir de seulement 2 génomes. Lorsqu’un génome a subi une duplication totale ancienne,
alors il est possible d’inférer la structure du génome avant sa duplication en considérant alors
le second génome comme référence extérieure. Si la duplication s’est produite peu de temps
après la séparation des 2 lignées, la structure déduite est proche alors de celle du dernier
100
ancêtre commun. Nous avons suivi cette approche dans l’article 5 en comparant la topologie
des gènes orthologues entre Tetraodon et l’humain.
6.2.2.2 Compléter par l’utilisation de la séquence du poulet Gallus gallus
La disponibilité imminente de génomes d’autres lignées de vertébrés permet d’affiner les
analyses, et éventuellement de remarquer des propriétés évolutives de certaines lignées. A cet
effet, nous avons utilisé les ressources associées au génome de poulet (Hillier et al., 2004).
Pour cela, nous avons récupéré les coordonnées génomiques de 4989 gènes orthologues entre
T. nigroviridis, H. sapiens et G. gallus depuis le système de récupération de données
génomiques ensmart (Kasprzyk et al., 2004).
Entre Tetraodon et le poulet, la matrice de répartition chromosomique des gènes orthologues
n’est pas du tout aléatoire et on retrouve des îlots de conservations (Figure 22) de façon
semblable à ce que l’on observe sur la figure S13 de l’article 5 entre Tetraodon et l’humain.
Ainsi le nombre de remaniements chromosomiques dans la lignée du poulet ayant eu lieu
depuis la séparation avec la lignée humaine semble limité.
De même, les gènes orthologues de certains chromosomes de poulet se distribuent très
majoritairement sur 2 chromosomes de Tetraodon. Par exemple, Ggi13 se « projette » sur
Tni1 et Tni7, Ggi12 sur Tni9 et Tni11. Cette caractéristique est le résultat de la duplication
totale du génome dans la lignée de Tetraodon.
6.2.2.2.1 Méthode
Selon la même approche que dans l’article 5, nous avons recherché les régions génomiques de
poulet dont les gènes sont synténiques de façon alternatives avec 2 chromosomes de
Tetraodon (DCS : double conserved synteny) (Figure 23). Pour cela, nous avons appliqué
l’algorithme suivant :
Pour chaque paire possible de chromosomes Tetraodon Tnii et Tnij,
si il existe w gènes consécutifs de poulet orthologues sur Tnii ou Tnij,
alors étendre tant que x gènes consécutifs ne sont pas orthologues ni à Tnii ni à
Tnij.
Le DCS est retenu s’il contient n blocs (un bloc est une suite de gènes de poulet
orthologues à un seul chromosome de Tetraodon).
101
Cet algorithme est inspiré de Blast pour le principe de l’ancrage et de l’extension. Il a
l’avantage d’être exhaustif dans la recherche de paires de chromosomes.
En pratique, nous avons itérativement appliqué cet algorithme 3 fois avec des critères de
moins en moins stricts.
Au premier tour : w=5, x=3, n=5
Au deuxième tour : w=3, x=2, n=3
Au troisième tour : w=5, x=3, n=5 (en recherchant les triplets de chromosomes et non des
paires).
6.2.2.2.2 Résultats
Dans l’article 5, nous avions identifié 12 groupes de DCS faisant intervenir les 21
chromosomes de Tetraodon (voir table 6 de l’article 5). La plupart des DCS impliquent 2
chromosomes, mais parfois 3 pour les situations de cassures ou grosses translocations. Nous
avions assigné à chaque type de DCS un chromosome ancestral potentiel. Le calcul des DCS
avec les orthologues de poulet de la manière décrite ci-dessus rend les mêmes associations de
chromosomes Tetraodon qu’en utilisant l’humain tel que dans l’article 5. Mais ici des
associations supplémentaires apparaissent. Après examen, ces nouveaux DCS correspondent à
des cas de translocations non décrites dans l’article 5 et peuvent aisément être assignés aux
différents chromosomes ancestraux que nous avions désignés de AncA à AncL.

AncA
Tni4 et Tni12 : même association de chromosomes que dans l’article 5.

AncB
Tni17, Tni18 et Tni20 : même association de chromosomes que dans l’article 5.

AncC
Tni2, Tni3 et Tni18 : même association de chromosomes que dans l’article 5.

AncD
Associations Tni2 Tni3 Tni17 et Tni5. Nous n’avions pas identifié Tni5 dans l’article 5.
102
Sur le chromosome Ggi1, les orthologues Tetraodon correspondent très majoritairement à
Tni2 (127 gènes) et Tni3 (66 gènes). Mais entre les positions 122 083 227 et 139 096 994, 11
gènes orthologues de Tni5 s’alternent avec 22 Tni3 et 48 Tni2. Cela peut s’expliquer par une
translocation Tni3->Tni5.

AncE
Tni5 et Tni13 : même association de chromosomes que dans l’article 5.

AncF
Tni13 et Tni19 : même association de chromosomes que dans l’article 5.

AncG
Tni7 et Tni16 : même association de chromosomes que dans l’article 5.

AncH
Tni1 et Tni7 : même association de chromosomes que dans l’article 5.

AncI
Tni1, Tni15 et Tni16. Nous n’avions pas identifié Tni16 dans l’article 5.
Les chromosomes Ggi8 et Ggi9 sont très fortement associés à Tni1 (105 gènes) et Tni15 (93
gènes). Les chromosomes Ggi8 et Ggi9 résultent donc d’une cassure d’un ancien
chromosome. Sur Ggi9, on constate une alternance entre Tni1 (22 gènes) Tni15 (42 gènes) et
Tni16 (29 gènes) répartie sur toute la longueur du chromosome. Cela peut s’expliquer par une
translocation Tni1->Tni16 ancienne suivie de réarrangements ultérieurs.

AncJ
Tni5, Tni10, Tni14 et Tni17. Seule l’association Tni10 Tni14 était mise en évidence dans
l’article 5 présentant ainsi l’origine commune des chromosomes Tni10 (259 gènes) et Tni14
(276 gènes). Toutefois nous avions décrit une translocation ancienne Tni10->Tni17 (avec 132
gènes sur Tni17). En examinant les chromosomes de poulet, les gènes de AncJ se trouvent
très majoritairement sur Ggi3 et Ggi5 (Figure 24). Mais 94% des orthologues de Tni17 se
trouvent sur Ggi3. Cela indique que Ggi3 et Ggi5 sont issus d’une cassure plus ancienne que
la translocation Tni10->Tni17 et très tôt dans la lignée du poulet.
103
Quant à Tni5, ses orthologues sont uniquement sur Ggi3 (43 gènes). Nous n’avons pas assez
d’éléments ici pour choisir entre une translocation Tni10->Tni5 ou Tni14->Tni5.

AncK
Tni9 et Tni11 : même association de chromosomes que dans l’article 5.

AncL
Tni6, Tni8, Tni10, Tni15 et Tni21. Nous avions montré dans l’article 5 l’origine commune de
Tni6, Tn8, et Tni21, Tni6 et Tni21 étant issus d’une cassure. Sur le génome de poulet on
retrouve leur orthologues majoritairement sur Ggi2 mais en alternance aussi avec des gènes
de Tni15 (Figure 24). Les orthologues de Tni15 étant surtout situés dans une zone pauvre en
orthologues de Tni21, une translocation récente Tni21->Tni15 est probable.
Les orthologues de Tni10 sont situés exclusivement sur Ggi23 (22 gènes) en alternance avec
Tni8 (7 gènes) et Tni21 (20 gènes), mais aucune alternance avec Tni6. Une translocation
Tni6->Tni10 est donc très probable.
A partir de l’identification des DCS et de l’assignation sur les 12 chromosomes ancestraux,
nous pouvons alors utiliser une figuration que nous avons utilisée dans l’article 5 (figure S13
des données supplémentaires) mais en assignant pour chaque point une couleur correspondant
à un chromosome ancestral (Figure 24). Et nous pouvons bien sur aussi l’appliquer pour les
gènes orthologues Tetraodon-humain (Figure 25)et humain-poulet (Figure 26).
La Figure 27 représente les chromosomes de Tetraodon avec les positions des DCS humains
et de poulet. La Figure 28 représente les chromosomes de poulet et est le pendant de la figure
6 de l’article 5 qui représente les chromosomes humains de la même façon.
De la même façon que dans l’article 5, nous pouvons à partir des DCS reconstituer une
ébauche de l’organisation des chromosomes du dernier osteichthy ancestral commun (Figure
29).
6.3 Perspectives
6.3.1 Inférer l’ordre des gènes sur un génome ancestral
Nous avons pu déduire dans l’article 5 que les phylums de vertébrés retiennent
préférentiellement certains types de réarrangements plutôt que d’autres. Si la lignée qui a
104
conduit à T. nigroviridis semble avoir subi assez peu de translocations, ce n’est pas le cas de
la lignée qui a conduit à l’humain. L’analyse du génome de poulet indique que sa lignée a
subi de nombreuses cassures mais peu de fusions.
Quant aux inversions, elles semblent être intervenues à plus faible fréquence dans les 3
lignées. En effet, les cartes de synténies ont confirmé qu’entre les sites de translocation ou de
cassures, il existe des blocs de séquences où l’ordre des gènes est conservé entre les 3
phylums de vertébrés que nous avons explorés. Par exemple, la colinéarité des gènes entre
l’humain et le poulet peut être spectaculaire comme par exemple entre les chromosomes Gga6
et Hsa3 (Figure 26). Quant aux cartes faisant intervenir Tetraodon, c'est-à-dire un génome
ayant subi une duplication totale, la colinéarité a lieu entre fragment chromosomique humain
ou de poulet et 2 fragments de Tetraodon (DCS Double synténie conservée) ce qui n’apparaît
pas directement (Figure 25 et Figure 24) mais est révélée en ne faisant figurer qu’un seul
chromosome par paire (Figure 30).
Nous avons décrit précédemment qu’il est possible de déterminer un ensemble de DCS qui se
répartissent en 12 groupes correspondant aux reliques de 12 chromosomes ancestraux.
Cependant, la détermination de l’ordre des DCS entre eux et des gènes au sein d’un DCS dans
un hypothétique génome ancestral de vertébré osseux n’a pas été explorée. Une meilleure
compréhension de l’évolution des chromosomes de vertébrés nécessite d’affiner cette
résolution. Il faut suivre 2 axes présentés dans les chapitres suivants. Un axe d’acquisition et
d’amélioration de données génomiques de vertébrés d’une part, et un axe méthodologique
pour inférer un ordre ancestral de gènes dans un contexte de réarrangements nombreux.
6.3.1.1 Acquisition de données génomiques
Aujourd’hui, il existe 5 génomes de vertébrés publiés pour lesquels une majorité de
l’assemblage est assignée aux chromosomes : 3 mammifères (H. sapiens, M. musculus, R.
norvegicus), 1 oiseau (G. gallus) et 1 poisson téléostéen (T. nigroviridis). La représentation
de l’embranchement des vertébrés est donc très faible et répartie non uniformément. A ce titre
nous pouvons nous réjouir de différents projets de séquençage de plusieurs lignées de
vertébrés, dont plusieurs reptiles, un poisson cartilagineux (Venkatesh et al., 2005), plusieurs
poissons téléostéens. Au niveau de Tetraodon, il reste un tiers de l’ADN assemblé qui n’est
assigné à aucun chromosome, et seulement 56% de ce qui est assigné est orienté. L’analyse
des gènes dupliqués restés en 2 exemplaires est limitée par cette incomplétude. Si on suppose
que la fraction d’ADN non assigné est équitablement répartie, chaque copie des gènes doit
105
avoir une probabilité de 56% d’être assignée et orientée. Aussi, la probabilité d’avoir les 2
copies assignées et orientées est seulement de 31%. Toutefois le nombre de 748 gènes
identifiés en 2 copies n’est probablement pas affecté par cette limitation. En effet, cette
collection de gènes a été identifiée sur l’ensemble de l’assemblage en comparant l’ensemble
des modèles de gènes entre eux (voir article 5). Une plus grande proportion de ces gènes
assignés pourrait être grandement profitable à la communauté. Notre laboratoire vient de
lancer un programme de séquençage de 100 000 extrémités de fosmides correspondant à une
couverture en clone à 5X. Nous espérons relier des contigs assignés et des contigs non
assignés, et augmenter ainsi la fraction de l’assemblage assigné aux chromosomes.
6.3.1.2 Problèmes méthodologiques
L’axe méthodologique est certainement lui aussi très limité et demande à s’accroître.
Définition du problème : Etant donné n génomes, trouver l’arbre phylogénétique décrivant le
scénario de réarrangements chromosomiques le plus probable depuis le dernier ancêtre
commun.
D’une façon générale, lorsque les marqueurs orthologues sont non ordonnés et non orientés
(dits aussi non signés) le nombre minimum de réarrangements nécessaires pour transformer
un génome en un autre génome est un problème NP complet (Caprara, 1997). Lorsque les
marqueurs sont ordonnés et signés, il existe une résolution du problème selon un algorithme
polynomial proposé par Hannenhalli et Pevzner (HP). Cet algorithme permet de calculer la
distance génomique, c'est-à-dire le nombre minimum d’inversions, translocations, cassures et
fusions nécessaires pour transformer un génome en un autre. En utilisant les données de
cartographies de l’époque, les auteurs ont obtenu une distance de 131 entre l’humain et la
souris.
Cependant la complexité du problème suit la complexité des génomes pour lesquels il est
question. En effet, le nombre de marqueurs communs et le nombre de chromosomes par
organisme sont des facteurs importants qui limitent la faisabilité. Il est bien sûr plus aisé de
traiter une comparaison de peu de marqueurs non orientés entre 2 chromosomes, plutôt que
comparer plusieurs milliers de marqueurs orientés sur des génomes ayant plusieurs
chromosomes. Ce problème connu comme le « multiple génome réarrangement problem » a
été approché récemment en utilisant les données de mammifères en utilisant l’algorithme HP
(Bourque & Pevzner, 2002) (Bourque, Pevzner & Tesler, 2004) (Gibbs et al., 2004).
Toutefois ces méthodes ne permettraient pas de traiter la situation observée entre Tetraodon et
l’humain en raison de la duplication totale du génome chez les poissons. En effet, les
106
méthodes publiées jusqu’alors ne modélisent qu’un nombre incomplet d’événements évolutifs
(inversions, translocations, cassures et fusion). Ces événements représentent certes la majorité
des événements et suffisent dans certains cas. Cela implique que l’orthologie entre marqueurs
soit non ambiguë. Mais une duplication d’un marqueur dans une lignée n’est pas prise en
compte parmi ces événements. En pratique certains auteurs détectent a priori les cas de
duplications locales (cas de relations n-m entre marqueurs) et les éliminent dans le but de ne
conserver que des relations 1-1 (Miller et al. 2005. communication personnelle).
Mais
l’analyse de l’évolution des chromosomes dans le phylum des vertébrés doit prendre en
compte la duplication totale du génome dans la lignée des actinoptérigiens. Dans la situation
classique, 2 gènes A, B consécutifs dans une espèce mais sur 2 chromosomes différents sur
une autre espèce suppose au moins une translocation dans une des deux lignées. Dans notre
situation, 2 gènes peuvent être consécutifs sur un chromosome humain, sur 2 chromosomes de
Tetraodon sans événement de translocation. Il faut faire intervenir la duplication totale du
génome et les délétions éventuelles d’une des copies de chaque gène. Globalement il ne reste
qu’un très petit nombre de gènes en 2 copies dans le génome de Tetraodon (748/28000), et
nous avons estimé que les délétions se sont produites aléatoirement sur une des 2 copies de
chromosomes. Puisque l’absence de colinéarité entre les gènes de Tetraodon et de l’humain
n’implique pas nécessairement une translocation, les outils disponibles actuellement ne
peuvent pas répondre à la question.
Pour cela, les modèles doivent tenir compte des événements de duplications. Certains auteurs
ont déjà énoncé le problème (El-Mabrouk & Sankoff, 1999). Mais à notre connaissance, la
question des délétions intervenant à la suite d’une duplication n’est pas prise en compte. Il
n’existe non plus aucune implémentation logicielle inférant une séquence ancestrale avant
duplication.
Une simplification du problème consisterait à traiter chaque grand phylum au préalable :
d’abord inférer l’évolution parmi les actinoptérigiens, reconstituer l’ordre des gènes dans leur
caryotype ancestral, faire de même pour les sarcoptérygiens. Puis ne traiter qu’une paire de
séquences reconstituées. Cette proposition revient à poser la question du « multiple genome
rearrangement problem » en prenant en compte la position phylogénétique relative des
espèces connue a priori.
6.3.2 Inférer une séquence ancestrale
Inférer une séquence ancestrale, à l’échelle du nucléotide, serait l’étape suivante.
107
Comme nous l’avons précédemment discuté, notre niveau de formalisme de la structure du
gène chez l’humain est incomplet mais suffisant pour en détecter un grand nombre. Mais nous
savons mal décrire les autres régions fonctionnelles (éléments de régulation) qui peuvent ne
pas être conservées. C’est le cas aussi pour les régions que l’on pense être non fonctionnelles.
Aussi, nous concevons la séquence d’ADN avant tout comme support des gènes.
Mais le peu de connaissance sur les autres composants de l’ADN est très limitant. Les
comparaisons homme-souris ont montré que 5% de la séquence de mammifère est sous
pression de sélection et que nous ne savons aligner qu’environ 50% des bases (Waterston et
al., 2002b). Il est donc impossible sans données supplémentaires d’en déduire les événements
évolutifs sur ces fractions « fantômes ». Si nous pouvions annoter plus finement cette part non
codante et non conservée chez les vertébrés, l’espace de recherche de sites orthologues serait
réduit.
Mais paradoxalement, si nous disposions a priori d’une séquence ancestrale, alors
l’annotation des séquences modernes serait facilitée. En effet, dans cette approche de type
« bottom-up » nous pourrions comparer chaque génome moderne à l’ancêtre commun et ainsi
diviser par 2 la distance évolutive parcourue.
Mais quelles informations la séquence du vertébré ancestral pourrait apporter aujourd’hui ? Il
existe aujourd’hui un effort de plusieurs équipes pour déduire la séquence du dernier ancêtre
de l’humain et de différents autres mammifères en cours de séquençage. L’exemple le plus
abouti est sans doute le résultat publié par Mathieu Blanchette (Blanchette et al., 2004) d’une
reconstruction d’une séquence ancestrale d’euthérien de 1,1 Mb (région CFTR) en utilisant
des séquences de 19 mammifères actuels. Cette séquence a notamment permis d’affiner
l’annotation de séquences répétées sur le génome moderne à partir de la séquence ancestrale.
Par ailleurs, parmi les mutations produites dans la lignée humaine sur cette région, 2 positions
de changements d’acides aminés correspondent à une maladie connue (fibrose cystique). La
maladie apparaît chez les individus ayant les acides aminés ancestraux à ces positions (Phe>Leu et Met->Ile). Ces travaux ont confirmé que la séquence du mammifère placentaire
ancestral était plus courte que la plupart des génomes actuels en raison d’insertions récentes
d’éléments Alu. Et, les différentes lignées de mammifères n’ont pas la même plasticité
génomique. La lignée du cheval serait la plus stable, et à l’inverse, la moins stable serait celle
des rongeurs. Cependant, le succès de ces travaux dépend essentiellement de l’exactitude des
arbres phylogénétiques qui sont utilisés.
108
La reconstitution d’états ancestraux représente donc un effort qui peut faciliter grandement
l’annotation des génomes actuels. Cependant ces travaux sont à leur début, et la reconstitution
d’une séquence d’un vertébré ancestral de 400 millions d’années commun aux poissons
téléostéens et aux mammifères est aujourd’hui impossible. En effet, nous ne pouvons aligner
avec fiabilité entre mammifères et poissons que les régions codantes. Il faudrait procéder par
étapes intermédiaires, lignée évolutive par lignée évolutive en disposant pour chacune des
séquences de plusieurs espèces. Nous sommes encore loin de réaliser une reconstitution de
cette nature.
109
7 Conclusion
7.1 Sur les questions abordées
Exofish a ouvert un chantier de réflexion autour de la comparaison de génomes à grande
échelle. D’un point de vue technique, de la même façon que Blast a été développé pour
répondre aux besoins de comparer les premières données de séquences, des algorithmes dits
« gloutons » ont été développés pour pouvoir comparer le génome humain et le génome de
souris (Kent, 2002). Tandis que Blast laisse la possibilité d’aligner 2 séquences très
divergentes,
ces nouveaux algorithmes reposent sur un principe d’une conservation
importante (au moins 80% d’identité). Une nouvelle déclinaison de blast a aussi été développé
(Schwartz et al., 2003). Un des intérêts de Blastz est d’éviter la contrainte d’un mot d’ancrage
identique. Dans cet algorithme l’ancrage se fait sur une fenêtre autorisant un certain nombre
d’erreurs. Une optimisation fine du nombre et du placement des erreurs dans l’ancrage a été
réalisée. Par ailleurs, nous avons discuté de stratégies alternatives qui ont été développées
pour affiner la précision de l’annotation du génome humain, soit en multipliant le nombre de
génomes informants, soit en combinant modèles statistiques des propriétés des gènes des
techniques ab-initio et modèles évolutifs des approches comparatives.
7.1.1 Exofish, expliquer et prédire
La théorie de l’évolution prédit que les régions non fonctionnelles accumulent des mutations
librement, de façon neutre, à la différence des régions fonctionnelles Une conséquence directe
de ce concept est la notion de conservation de la séquence d’ADN et des protéines entre
espèces. Entre 2 espèces divergentes, les régions codantes sont plus (ou mieux) conservées
que les régions non codantes. Cette notion s’exprime et est mesurable au niveau de la
séquence d’ADN entre deux régions orthologues par une distance.
En développant exofish, la première partie de notre démarche est de tester cette hypothèse
entre deux grandes lignées de vertébrés, actinopterygii et sarcopterygii, en calculant tous les
meilleurs alignements locaux entre des séquences réparties aléatoirement dans le génome de
Tetraodon et 322 gènes humains (exons et introns). Chaque alignement peut être considéré
comme un test de conservation entre une région génomique humaine et une région génomique
de Tetraodon. Un élément essentiel est que nous ne connaissions pas apriori les régions
orthologues entre les 2 espèces, nous étions dans une situation aveugle.
110
Nous avons décidé d’exprimer le niveau de conservation par la longueur et le pourcentage
d’identité de chaque alignement. Conformément à l’hypothèse initiale, nous observons que les
alignements de hauts pourcentages d’identité et de grandes longueurs correspondent à des
régions codantes. Et, réciproquement nous n’observons aucune région non codante conservée
au-delà d’un certain domaine défini par les deux critères de pourcentage d’identité et de
longueur. Cette réciprocité confirme que les substitutions s’accumulent plus dans les régions
non codantes que dans les régions codantes. Mais nous n’avons pas testé ici la notion
d’ « accumulation libre » des substitutions.
Une fois ces propriétés de l’alignement observées et admises, et une fois les paramètres de
l’algorithme de comparaison optimisés, nous utilisons l’ensemble comme un outil de
prédiction de régions codantes. Pour cela, nous utilisons simplement un principe de
généralisation sur une population à partir d’un échantillon représentatif. Nous avons utilisé cet
outil de prédiction dans un premier temps entre Tetraodon et les différentes versions
successives de l’assemblage de la séquence humaine. Les résultats ont été utilisés parmi
d’autres ressources pour annoter le génome humain. Nous avons généralisé ces résultats en
comparant les séquences des génomes de Tetraodon et de Takifugu contre celles de l’humain
et de la souris (voir article 5). L’approche a été étendue à d’autres phylums, chez les insectes
entre Anopheles gambiae et Drosophila melanogaster, et parmi les plantes entre Arabidopsis
thaliana et le riz (article 3 et article 4). La spécificité approche les 100% et la répartition des
alignements obéit à la même loi.
L’universalité de la méthode n’est que le reflet de celle des propriétés de l’évolution. En effet,
l’agrégation des alignements selon ces critères de longueur et de pourcentage d’identité est un
résultat qui répond à ce que l’on attend dans le contexte de la théorie de l’évolution. Ceci
délimite nettement les contours du cadre théorique d’Exofish. Et ce cadre théorique est
probablement fondamental pour expliquer la robustesse des prédictions et des estimations.
7.1.1.1 Estimation du nombre de gènes humains
La méthode exofish repose uniquement sur la théorie de l’évolution. La dérive aléatoire des
génomes et la sélection darwinienne conduisent nécessairement à une plus grande
conservation de l’ADN dans les régions sous pression de sélection négative. Par ailleurs, la
111
théorie suppose une corrélation directe entre région sous pression de sélection négative et
région fonctionnelle. Exofish en est une confirmation expérimentale. Les régions sous
pression de selection positive acumulent plus de mutations qu’aléatoirement et ne peuvent pas
être détéctées par la méthode. Nous avons considéré que cette fraction est négligeable pour la
précision attendue de l’estimation du nombre total de gènes. Une forte déviation ne pourrait
intervenir uniquement si la fraction de gènes humains sous pression positive est importante et
si elle n’est pas correctement représentée dans le groupe de calibration.
Aujourd’hui, suite à l’achèvement de plus de 90% de la séquence humain, le nombre de
gènes est estimé dans une fourchette de 20.000 à 25.000 (International Human Genome
Sequencing Consortium, 2004) et l’estimation que nous avions faite en 2000 en était proche
(article 2).
La légère surestimation que nous avions faite est imputable à des biais d’échantillonnage. En
particulier, les régions génomiques humaines séquencées dans un premier temps étaient plus
denses en gènes que celles qui le furent par la suite.
Cela s’explique sans doute par plusieurs causes :

L’amorce du séquençage dans certaines régions cibles a certainement contribué à obtenir
des régions situées à proximité de gènes et donc surestimer la densité en gènes.

De nombreuses régions difficiles à séquencer en raison de la nature de la chromatine
(contenu en AT atypique, motifs répétés, etc..) ne l’ont été que récemment au prix d’un
effort de finition. Ces régions sont par nature pauvres en gènes.
Il existe deux autres types d’estimation du nombre de gènes humains qui ont fourni des
résultats dans des fourchettes très variables.
Le premier type d’estimation repose sur une corrélation entre la présence de gènes et la
présence d’îlots CpG.
Les îlots CpG constituent une fraction distincte des génomes de mammifères. A la différence
de la plus grande partie de l’ADN, ces régions ne sont pas méthylées. Une cytosine suivie par
une guanine (CpG) est propice à sa méthylation. Au cours de l’évolution, la cytosine méthylée
tend à muter en thymidine par déamination. Alors la fréquence de CpG diminue.
En conséquence, la présence d’îlots CpG est le signe d’une pression de sélection portant sur la
séquence à cet endroit. Ces îlots sont utilisés comme marqueurs de gènes car ils ont été
détectés fréquemment à proximité 5’ et/ou 3’ de gènes (Gardiner-Garden & Frommer, 1987),
témoins vraisemblables d’une activité de régulation.
112
Une analyse de référence a débouché sur une estimation de 45.000 îlots CpG dans le génome
humain alors qu’une autre estimation les porte à 30.000 chez la souris (Antequera & Bird,
1993). Par ailleurs avec une collection de 152 gènes humains et 81 gènes de souris, la
proportion de gènes associés à un îlot CpG est estimée à 56% chez l’humain et 47% chez la
souris. Sur cette base, l’extrapolation sur le génome complet donne un nombre d’environ
80.000 gènes pour chaque mammifère.
Sur la séquence du génome humain de mai 2004 (hg17), sont recensés environ 28 000 îlots
CpG (http://genome.ucsc.edu). Cette valeur est 60% plus basse que l’estimation citée cidessus mais surtout le ratio nombre d’îlots/nombre de gènes est très différent : 56% vs 120%.
L’incomplétude de la séquence a donc provoqué une double erreur. Cependant, il n’en reste
pas moins vrai que la densité en îlots CpG est assez bien corrélée avec la densité en gènes
(Lander et al., 2001). D’autres ont montré que de telles analyses reposent sur des critères
arbitraires de définition d’îlots CpG et dont l’estimation du nombre global peut varier de 522
à 5 211 sur le génome humain, soit un facteur 10 (Venter et al., 2001). Le lien entre îlots CpG
et fonctionalité reste ambigüe. Cependant des données d’expression ont permis de montrer
que les gènes exprimés très tôt dans le développement des mammifères sont associés à un îlot
CpG en 5’ (Ponger, Duret & Mouchiroud, 2001). Les gènes exprimés dans la lignée
germinale échapperaient à la méthylation, et donc à une plus forte probabilité de mutation qui
serait transmissible, à la différence des gènes de la lignée somatique.
Le second type d’estimation porte sur une corrélation entre nombre de gènes et nombre
d’étiquettes de séquences exprimées (EST « Expressed Sequence Tag »).
Les EST représentent un moyen d’accès aux gènes. Ils sont communément utilisés soit dans
un contexte où la séquence du génome n’est pas disponible, dans ce cas, ils apportent un
aperçu de la diversité génétique de l’espèce, soit dans le cadre où la séquence génomique est
connue et dans ce cas, ils servent de « ressource » d’annotation. En pratique, les EST sont des
courtes séquences beaucoup plus courtes que le gène entier. Cependant, s’il existe une
collection importante non biaisée d’EST, alors il est raisonnable de considérer cette ressource
comme représentative de la diversité en gènes de l’espèce. A cette fin, il convient de
regrouper (clusteriser) les EST entre eux. Alors, toujours dans un contexte sans biais, chaque
groupe d’EST (cluster) représente un gène indépendant. Cette approche a été utilisée par
différentes équipes, mais le nombre de gènes estimé chez l’humain est très variable selon les
auteurs.
113
Des estimations du nombre de gènes humains utilisant les EST varient entre 35 000 et 120
000. Et les 2 valeurs extrêmes ont été publiées dans le même journal et le même jour que
notre article 4. L’estimation de 120000 gènes a été faite par une équipe du Tigr en utilisant
une collection publique de plus de 1,6 millions d’EST (Liang et al., 2000). Les 69 000
groupes d’EST résultants sont assemblés en 75 000 séquences consensus. En estimant
qu’environ la moitié (54%) des gènes connus ne se retrouve pas dans les séquences
consensus, les auteurs extrapolent directement le nombre de gènes humains. La variation
éventuelle de l’estimation en raison de l’épissage alternatif est bien discutée par les auteurs
mais le taux de faux positifs parmi leurs données n’est pas du tout évalué.
Dans le même journal, une estimation de 35 000 gènes a été proposée par une équipe qui a
aussi utilisé 1 million d’EST (Ewing & Green, 2000). En partant de 43 000 séquences
assemblées, les auteurs calculent la fréquence de gènes par séquence assemblée. Pour cela, ils
comparent leur jeu de séquences à 2 ensembles de références (l’annotation du chromosome 22
humain et une collection d’ARN humains) et obtiennent simplement un ratio nombre de gènes
/ nombre de séquences d’environ 1,2. Le nombre total de gènes de 35 000 est directement
déduit du nombre de 43 000 séquences. Implicitement, dans cette approche les auteurs
tiennent compte d’un taux de faux positifs.
Les 3 types d’estimations reposent sur des extrapolations et dépendent donc de l’échantillon
sur lequel elles ont été réalisées. De plus, il existe plusieurs différences majeures entre notre
estimation et les 2 autres, dont la principale est l’approche initiale. Notamment, notre
estimation a été faite suite à une comparaison d’une grande quantité d’ADN génomique de 2
vertébrés différents, ce qui se distingue des autres.
Au-delà des différences techniques, nous pouvons noter des différences entre les cadres
théoriques qui justifient les expériences. Exofish repose sur la théorie de l’évolution. Les 2
autres types d’estimations reposent sur des corrélations observées mais dont il existe un cadre
théorique seulement indirect. La première repose sur la constatation qu’il existe des îlots CpG
et qu’une fraction d’entre eux est située à proximité des gènes. La méthode de raisonnement
de l’estimation procède par induction en se référant à cette fraction. Mais la corrélation entre
gène et îlots CpG ne s’intègre pas dans une théorie bien établie. La fraction de gènes associés
à des îlots CpG était erronée et suite à l’extrapolation la valeur absolue de l’erreur s’est
naturellement amplifiée. Ce qui a conduit à supposer un nombre de gènes humains avoisinant
les 80.000. Cependant un facteur irrationnel a probablement contribué à l’acceptation de cette
114
valeur. L’idée anthropocentrique de la complexité apparente de l’organisme humain par
rapport aux autres espèces a certainement influencé le débat. Les premiers achèvements de
séquençage de génomes eucaryotes et les inventaires de gènes associés montrant une
gradation dans le nombre de gènes avec la taille du génome confortaient cette sorte d’échelle
de complexité attendue. Sachant que la drosophile contient environ 14.000 gènes, la valeur de
80.000 pour l’humain paraissait donc raisonnable. Par ailleurs, certains groupes
pharmaceutiques ont avancé des estimations allant jusqu’à 140 000 gènes, basées sur des
extrapolations faites à partir des îlots CpG. L’éventualité de commercialiser le plus de cibles
thérapeutiques potentielles a influencé le débat (Dickson, 1999).
La seconde méthode repose essentiellement sur une technologie dont l’efficacité s’est avérée
limitée. De façon optimale, le regroupement d’une collection d’EST selon leur
chevauchement devrait nécessairement délimiter un gène. Or, on peut identifier trois
problèmes à cette technologie.

Premièrement, de nombreuses séquences d’EST sont en fait des régions génomiques
non codantes qui contaminent la banque.

En raison aussi de la technologie, plusieurs groupes d’EST peuvent correspondre au
même gène lorsque la longueur du transcrit est grande.

De même, en fonction de la méthode de regroupement, les situations d’épissage
alternatif peuvent fragmenter les groupes.
Ensemble, ces raisons conduisent mécaniquement à un nombre de groupe d’EST plus grand
que le nombre de gènes correspondant. Mais là aussi, le nombre de groupe d’EST et le
nombre estimé de gènes étaient en accord avec l’ordre de grandeur attendu. Cette seconde
méthode repose donc sur un principe d’extrapolation semblant aussi « raisonnable » a priori.
La théorie sous-jacente à cette méthode est le rapport direct entre gène et transcrit. Mais les
différentes expériences réalisées sont sorties de ce cadre puisque l’objet observé, l’EST, ne
peut être lié directement à un transcrit sans difficultés. Et ces difficultés inhérentes à cette
méthode n’ont pas été formalisées et les erreurs ni mesurées expérimentalement.
Nous avons discuté de l’ampleur du débat qui s’est créé en 2000 autour de cette question et
qui provenait certainement en grande partie de la relation implicite attendue entre complexité
et nombre de gènes. Si l’estimation du nombre de gènes humains correspond à une période
charnière dans l’histoire des sciences, c’est peut-être aussi qu’elle a été le premier résultat
115
direct de la disponibilité de la séquence complète. Entre 2000 et 2003, au cours du congrès de
génomique de Cold Spring Harbor, a eu lieu un pari anecdotique sur le nombre de gènes
humains. Les valeurs des paris ont été diverses autour de 60000 environ (Figure 31) ce qui
reflète à nouveau le doute, le scepticisme mais aussi l’intérêt de la communauté sur cette
question. En 2003 la communauté a largement accepté comme estimation une valeur
d’environ 25 000 gènes et Ewan Birney a annoncé en clôture des paris que l’estimation faite
dans notre article 2 était certainement la plus juste.
7.1.1.2 Proposition de 900 gènes humains non annotés
Nous avons discuté précédemment du rapport entre la connaissance du nombre de gènes
d’une espèce, en particulier chez l’homme, et la notion de complexité. Une autre façon
d’utiliser la séquence du génome de Tetraodon pour explorer dans le détail le contenu en gène
de la séquence humaine est de l’annoter. C'est-à-dire, comme nous l’avons défini
précédemment, localiser et définir des structures de gènes le long de la chaîne d’ADN.
Au moment, où les 2 séquences de Tetraodon et de l’humain sont disponibles sous une forme
assemblée, nous pouvons essayer de les annoter réciproquement. Nous avons suivi cette idée
en deux étapes.
Dans un premier temps, nous avons annoté 28 000 gènes sur le génome de Tetraodon en
utilisant différentes ressources, dont le génome humain via exofish (voir article 5).
Dans un second temps, alors que l’annotation de référence du groupe d’Ensembl existait pour
l’humain (Birney et al., 2004a; Lander et al., 2001) nous avons cherché à annoter des gènes
humains « manqués » par Ensembl mais conservés chez Tetraodon. Pour cela, nous avons
isolé 14500 ecores sur le génome humain en dehors de toute annotation, et nous avons annoté
ces régions génomiques humaines. Pour cela, nous avons utilisé les ressources publiques
disponibles (collection d’ADNc, EST, protéines, programmes ab-initio etc.… voir article5) et
appliqué la même méthode d’annotation que pour Tetraodon. Ainsi, nous avons retenu 904
modèles de gènes. Il est très difficile d’estimer la proportion de gènes codants parmi cette
collection. Nous ne pouvons pas exclure qu’une partie non négligeable corresponde à des
pseudogènes ou des ARN non codants. La petite taille de ces gènes (469 bases codantes vs
1788 bases en moyenne pour les gènes connus (Heilig et al., 2003)) et le fait que nous ayons
annoté le codon initiateur ATG pour seulement 20% d’entre eux explique que ces gènes
candidats n’aient pas été annotés au préalable. Par contre, un argument important qui indique
116
qu’une grande fraction de cette collection n’est pas un artéfact vient de leur faible fréquence
sur les chromosomes annotés manuellement par le groupe Vega (Ashurst et al., 2005)(table
SI10 données supplémentaires de l’article 5). Il est vraisemblable qu’une grande partie de ces
gènes n’aient pas été annotés par ailleurs en raison, à la fois de leur taille réduite et d’erreurs
dans la séquence génomique qui provoque un décalage de phase de lecture (ce qui
expliquerait la faible proportion de codons initiateurs annotés).
Au-delà et d’un point de vue technique, cette analyse montre qu’il est possible d’annoter
l’ensemble de la séquence humaine avec des outils relativement simples.
Une équipe espagnole a récemment établi une liste de 311 gènes humains putatifs conservés
avec le génome de poulet (Castelo et al., 2005) dans un esprit semblable au nôtre. De façon
surprenante, les 2 listes sont peu recouvrantes car seulement 6 gènes y sont communs.
Cependant, le groupe espagnol a retenu seulement 95 gènes de notre liste pouvant encore être
considérés « nouveaux ». En effet, 438 gènes de notre collection sont aujourd’hui annotés par
les ressources habituelles (ce qui valide en grande partie nos modèles). De plus, cette équipe
n’a retenu que les candidats pluri-exoniques. Parmi les 6 gènes communs entre les 2 listes,
des RT-PCR ont été réalisées sur 4 d’entre eux afin de vérifier le caractère transcriptionnel.
Une expérience sur les 4 s’est révélée positive. Les auteurs estiment alors un ratio équivalent
de 25% de gènes non annotés parmi les gènes conservés à la fois chez le poulet et chez
Tetraodon et concluent que le nombre de gènes humains non annotés est très faible. Il faut
modérer cette conclusion par le fait qu’il reste difficile de caractériser les gènes courts et/ou
monoexoniques. Et d’ailleurs cette équipe les a exclu de son test. De plus, les RT-PCR ont été
réalisées sur un échantillon de très petite taille et c’est un protocole expérimental qui est
intéressant lorsque le résultat est positif. En effet, bien que les auteurs aient expérimenté 24
tissus, il est évident que ni tous les tissus, ni tous les stades de développement, toutes les
phases du cycle cellulaire, sous toutes les conditions environnementales ont été testées. Et
finalement le pourcentage de 25% de positifs semble satisfaisant face au 12% de RT-PCR
positives obtenues dans la même étude pour 50 candidats conservés chez le poulet.
7.1.1.3 Généralisation d’exofish
Au-delà du résultat sur l’estimation du nombre de gènes humains, la méthode exofish est
avant tout une application utilisant une caractéristique supposée être universelle de l’évolution
telle que nous l’avons définie précédemment, la différence du taux de mutations entre régions
codantes et non codantes. Aussi il était important de tester si notre méthode pouvait
117
s’appliquer à d’autres phylums que les vertébrés. Pour cela, nous avons choisi dans un
premier temps de comparer les séquences de génomes de Drosophila melanogaster et
Anopheles gambiae. Nous avons imposé les mêmes contraintes de paramétrages de la
méthode. Le point le plus essentiel est de disposer d’un jeu étalon le moins biaisé possible
(connaissance fine des positions des exons, et des régions répétées). Une fois cette contrainte
levée, la méthode exofish s’est révélée parfaitement adaptée. Les articles 3 et 4 rappellent les
principaux résultats. Nous avons montré qu’environ un quart des régions codantes d’anophèle
n’était pas identifié. De même alors que la drosophile est une espèce modèle classique,
utilisée dans de nombreux laboratoires, nous avons estimé que bien que le nombre global de
gènes, couramment accepté (14 600) soit proche de notre propre estimation, la définition de
leur structure reste incomplète.
De façon remarquable les propriétés de synténie se sont révélées assez bien adaptées à cette
comparaison. En effet, l’assez bonne corrélation entre les ecotigs et les bordures de gènes
révèlent la colinéarité au niveau exonique et non au niveau des gènes. Ce trait est un point
important qui nous servira de transition avec la partie suivante. Il est possible de déduire le
niveau de remaniements chromosomiques par comparaisons de séquences génomiques.
L’article 4 présente de la même manière qu’exofish s’est révélé efficace en comparant deux
séquences génomiques de plantes Arabidopsis thaliana et celle du riz.
7.1.2 Duplication complète de génome chez les téléostéens
7.1.2.1 Généralités
Le concept d’acquisition de nouvelles fonctions, de nouveaux gènes par duplication de gènes
préexistants, revient selon la plupart des auteurs à Susumo Ohno (Ohno, 1970).
Susumo Ohno a émis la théorie que les duplications, soit de gènes, soit du génome total,
représentent une source essentielle d’innovations de fonctions au cours de l’évolution
(compartimentation cellulaire, acquisition de mâchoires, etc..). L’idée supportant cette théorie
est que les copies de gènes échappent, du moins partiellement, à la sélection qui affecte la
« version d’origine » du gène. Chaque duplicata dérivant alors de façon neutre, a la possibilité
d’acquérir une nouvelle fonction.
Ohno a aussi proposé que deux duplications totales du génome se soient succédées dans
l’évolution primitive des vertébrés. Cette hypothèse est connue sous le nom de l’hypothèse 2R
(discutée plus loin).
118
La présence de nombreuses familles de gènes est une preuve de l’importance évolutive des
duplications de gènes. Les membres d’une même famille sont désignés paralogues alors que
le terme orthologue est réservé aux relations entre espèces différentes. La taille d’une famille
peut différer d’une espèce à une autre, et dans certains cas la fonction peut alors être
différente. Les récepteurs sensoriels de mammifères sont un bon exemple. Les rongeurs
disposent d’un plus grand nombre de gènes de récepteurs olfactifs que l’homme. La
duplication du gène de l’opsine chez l’homme permet de distinguer la lumière sous 3
longueurs d’ondes différentes, au lieu de 2 chez la souris. De même, au cours des 15 derniers
millions d’années d’évolution, un plus grand nombre de duplications semble avoir eu lieu
dans le génome humain par rapport aux autres primates. Et une partie de ces gènes serait
impliquée dans le développement cérébral (Fortna et al., 2004).
Si les duplications de gènes représentent un moteur important d’innovation dans l’évolution,
il est bien entendu que tout duplicat ne conduit pas in fine à une nouvelle fonction, mais en
représente une opportunité. En reprenant l’idée de Susumo Ohno, ce n’est que lorsqu’un gène
se trouve redondant avec un autre, qu’il peut accumuler des mutations interdites (selon
l’expression de Ohno) et une nouvelle fonction peut alors émerger.
Suite à un événement de duplication, les 2 copies d’un même gène peuvent suivre 3 destins
selon les modèles classiques :

Non-fonctionalisation.
Une copie ne devient pas fonctionnelle et, à terme, est éliminée ou « noyée » dans l’ADN
non fonctionnel. Par exemple, si une mutation crée un codon stop prémature.

Neo-fonctionalisation.
Une copie accumule rapidement des mutations et se distingue de l’original par l’acquisition
d’une nouvelle fonction et perd la fonction d’origine. Il existe des exemples documentés de
gènes dupliqués dont 1 copie accumule rapidement des mutations (Zhang, Rosenberg & Nei,
1998) et (Zhang, Gu & Li, 2003).

Sub-fonctionalisation.
Les 2 copies de gènes se partagent le domaine d’expression du gène original. Ce peut être une
répartition dans l’espace (expression dans des tissus différents) ou dans le temps (expression à
des niveaux de développements différents). Ce peut être aussi une répartition de fonctions
distinctes entre les 2 copies qui étaient assurées par le gène originel. Chez la souris, il existe 2
copies du gène CDYL. Une copie est exprimée spécifiquement dans les testicules alors que
119
l’autre est exprimée de façon ubiquitaire. Chez l’homme, une troisième copie existe dont
l’expression est spécifique aux testicules alors que les 2 autres ne le sont pas (Dorus et al.,
2003).
Chez Tetraodon, le gène POMC (code différentes hormones) est en 2 copies et a subi 2 subfonctionnalisation différentes. Une copie du gène s’exprime uniquement dans le noyau latéral
de l’hypothalamus, et l’autre copie dans l’aire préoptique du cerveau. Par ailleurs, une copie
dispose d’un segment peptidique correspondant à une béta-endorphine fonctionnelle, alors
que l’autre copie dispose d’un segment incomplet et dont le taux de mutation correspond à
une évolution neutre (de Souza et al., 2005).
Si le concept de duplication, comme élément important pour l’acquisition de nouvelles
fonctions, semble être relativement accepté par la communauté, de nombreux débats
persistent quant à l’importance relative des duplications totales vs les duplications
segmentales. Ce débat est, en partie, alimenté par l’impression de cataclysme que procure le
principe d’une duplication totale de génome. Toute notre culture moderne de l’évolution
repose sur le principe de fixation de mutations dans une population. Mais nous entendons par
mutations des événements à l’échelle de la base ou du gène. Ici, il faut accepter un type de
mutation à l’échelle d’un génome entier. D’ailleurs, dans la littérature consacrée, le terme
« événement » est toujours préféré à mutation pour désigner une duplication totale de
génome, y compris par ses fervents défenseurs. S’il s’agit bien d’un événement évolutif
transmissible à la population, pourquoi ne pas parler alors de mutation.
Nous montrons que différentes analyses récentes convergent vers l’idée que les duplications
totales apparaissent de façon récurrente dans de nombreux phylums. Chez les vertébrés, une
partie de l’analyse du génome de Tetraodon a démontré une duplication totale et ancienne du
génome parmi les téléostéens. Et notre travail est complété par la démonstration de deux
anciennes duplications totales communes aux vertébrés.
Ainsi, sans les falsifier, la communauté confirme et affine les théories de Ohno 30 ans plus
tard.
7.1.2.2 Etendue des duplications totales de génome chez les vertébrés
Avant de disposer de séquences couvrant une grande fraction de génomes, une analyse de
référence portant spécifiquement sur les gènes de la famille hox a suggéré un événement de
120
duplication totale de génome, très tôt dans la lignée des téléostéens (Amores et al., 1998). Les
gènes hox sont à l’origine des différenciations cellulaires le long de l’axe antéropostérieur
chez les chordés et vertébrés. Ces gènes sont regroupés sur les chromosomes, cependant, en
fonction des phylums, le nombre de groupes est variable. Les invertébrés ont un seul groupe
hox, alors que les tétrapodes en ont 4. En comparant l’organisation de ces gènes dans
différents organismes, il est possible d’isoler un groupe primitif de 13 gènes. Et en fonction
des phylums, certains gènes disparaissent (Figure 32).
Dans l’article de Amores et al., il est montré que le poisson téléostéen Danio rerio a 7
groupes de gènes Hox. En s’appuyant sur des approches de phylogénie, les auteurs proposent
que chaque gène hox de D. rerio a un orthologue chez Takifugu rubripes. Ils proposent que le
surnombre de gènes hox par rapport aux tétrapodes résulte d’une duplication chromosomique
et d’une perte d’une copie d’un groupe hox. L’analyse de l’organisation des gènes hox a été
un argument important pour les défenseurs de l’hypothèse d’une duplication totale de génome
commune aux téléostéens. Cependant certains auteurs ont argumenté que ces résultats ne
suffisent pas à démontrer une duplication totale mais peuvent correspondre à des
amplifications de certaines familles de gènes (Robinson-Rechavi et al., 2001a; RobinsonRechavi et al., 2001b).
Au-delà de la querelle d’école, cette controverse est à l’image de l’importance des
duplications dans l’évolution des eucaryotes et reflète un état d’attente de la communauté face
à un problème scientifique. Quelle est la part des duplications totales de génomes dans
l’évolution face aux duplications locales ? Si l’amplitude de la seconde n’est pas contestée, ni
discutée ici, ce n’est pas le cas de la première. En effet, comment concevoir l’état d’un
organisme dont tous les gènes se trouvent en 2 copies ? Comment un tel événement peut-il
être préservé ? La plus ou moins grande rareté de ce type d’événement peut nous aiguiller sur
son degré cataclysmique. Et si de tels événements peuvent être décrits dans de nombreux
phylums, et s’il est possible de démontrer qu’ils se produisent d’une façon répétitive, nous
devons simplement accepter qu’ils ne représentent qu’une force de l’évolution parmi les
autres. S’il est possible de mesurer l’accumulation neutre des nucléotides entre espèces
apparentées, il n’en est rien pour les duplications génomiques totales. Car si la majorité des
substitutions peut être maintenue, une duplication génomique totale l’est ou ne l’est pas.
Une étude de la fréquence d’apparition de duplication totale a été menée dans les embryons de
différents mammifères. Une duplication spontanée est détectée dans 0,1 à 4% des embryons
de mammifères. Cela est généralement dû à une séparation incomplète des cellules lors de la
première division. Chez l’humain, un avortement spontané intervient vers 11 semaines mais
121
quelques cas de naissance à terme ont été recensés. Ces enfants présentent de graves défauts
morphologiques et histologiques (Warbuton, Byrne & Canki, 1991).
Il est intéressant de noter que des duplications complètes, entraînant des polyploïdies existent
fréquemment
dans
certains
tissus,
notamment
de
mammifères,
on
parle
alors
d’endopolyploïdie (muscle squelettique, hépatocyte, mégacaryocytes, myocarde, épithélium
de vessie). Cela est dû soit à des endoduplications, soit à des fusions cellulaires (Keighren &
West, 1993). Une des conséquences serait une augmentation de la taille des cellules et une
plus grande élasticité qui faciliterait la fonction du tissu comme la vessie par exemple.
Chez les mammifères, la polyploïdie est considérée peu probable en raison de l’inactivation
d’un chromosome X chez la femelle d’une part, et en raison de la ségrégation des
chromosomes sexuels lors de la méiose. En supposant une tétraploïdie de type XXYY,
l’équilibre entre mâle et femelle ne serait plus assuré, car il existerait plus que 2 types de
gamètes. Toutefois, un rongeur tétraploïde a récemment été découvert. Tympanoctomys
barrerae (Octodontidae) vit dans des régions désertiques d’Argentine et dispose de tous les
chromosomes en 4 copies, sauf les chromosomes X et Y qui sont en 1 copie (Gallardo et al.,
1999).
Face aux différentes mesures de tailles d’ADN des poissons qui sont supérieurs aux chordés,
Ohno envisageait à la fois une hypothèse faisant intervenir des duplications en tandem et une
hypothèse de duplication totale. Cependant il semble qu’il était intimement convaincu de
l’existence de duplications totales chez les vertébrés. « It is our contention that the ancestors
or reptiles, birds, and mammals have experienced at least one tetraploid evolution either at the
stage of fish or at the stage of amphibians” (Ohno, 1970). Il existe plusieurs groupes de
vertébrés dont au moins certains membres présentent une polyploïdie. Nous venons de citer
un exemple, semble-t-il exceptionnel, parmi les mammifères. La tétraploïdie existe aussi chez
les amphibiens avec Xenopus laevis et Xenopus vestitus (Jeffreys et al., 1980; Tymowska,
Fischberg & Tinsley, 1977).
Parmi les poissons téléostéens, une tétraploïdie est commune aux salmonidae (Johnson,
Wright & May, 1987) et la cartographie des gènes hox s‘y accorde (Moghadam, Ferguson &
Danzmann, 2005). Cette duplication est parfois appelée 4R en référence à l’hypothèse 2R des
tours de duplications communes à tous les vertébrés et à la duplication supplémentaire, 3R,
commune aux poissons téléostéens.
122
7.1.2.3 Démonstration de la duplication ancestrale du génome de Tetraodon
Dans l’article 5, nous avons présenté deux évidences de la duplication génomique totale
(WGD) ancestrale de Tetraodon qui utilisent des données différentes.
La première évidence résulte d’une collaboration avec Frédéric Brunet à l’école normale
supérieure de Lyon, qui a identifié 1078 gènes en 2 copies. La distribution bimodale de leurs
valeurs de Ks (taux de substitution neutre) caractérise nettement un ensemble de 748 gènes
ayant 2 copies aussi chez Takifugu (avec une valeur de Ks>0,35) (figure 4a de l’article 5), les
orthologues chez Takifugu (Ks>0,35) des autres gènes n’ayant qu’une copie. Ces premiers
résultats semblent indiquer que le premier sous-groupe de gènes résulte d’un ou plusieurs
événements de duplications, plus anciens que la séparation Tetraodon-Takifugu. Alors que le
second groupe de gènes résulterait d’événements de duplications récents. La cartographie
génomique des liens entre les gènes dupliqués du premier groupe montre, sans ambiguïté
aucune, des appariements à l’échelle des chromosomes de Tetraodon (figure 4b de l’article 5).
La seconde évidence nous est donnée par l’analyse des relations de synténie avec un génome
de référence n’ayant pas subi cette duplication. Lorsque l’on constitue une carte d’orthologie
entre les gènes de Tetraodon et les gènes humains, il apparaît très nettement que de larges
fragments chromosomiques humains se projettent, via les relations d’orthologie de 7903
gènes, sur des paires de chromosomes différents de Tetraodon (figure S13 de l’article 5,
figures 25 et 24). Par ailleurs ces appariement entre chromosomes de Tetraodon sont les
mêmes que ceux réalisés par les 748 gènes dupliqués sur la figure 4b de l’article 5. En
regroupant ces sites de DCS (Double conserved synteny), nous pouvons caractériser une
douzaine de types correspondant à autant de groupes de liaison ancestraux.
Cette double évidence falsifie les hypothèses de duplications locales et affine l’hypothèse
d’une duplication totale de génome commune aux téléostéens en proposant un ensemble de 12
groupes de liaisons pré-duplication.
7.1.2.4 L’hypothèse 2R
On désigne par hypothèse 2R deux duplications successives et totales de génome apparues
très tôt dans la lignée des vertébrés (Figure 4). Cette double duplication aurait apporter le
« matériel » suffisant à la complexité physiologique et aux nombreuses spéciations
caractéristiques des vertébrés (Ohno, 1970).
Le nombre de gènes dans les différentes espèces a souvent été utilisé comme argument de
soutien à l’hypothèse 2R. En particulier jusqu’à la période récente où le nombre de gènes
humains était estimé à 80.000, c'est-à-dire un facteur 4 par rapport aux 15000 gènes des
123
invertébrés. Avec 20000 à 25000 gènes chez les mammifères, le seul argument du nombre de
gènes ne tient plus. Makalowski a proposé qu’une phylogénie de groupes de gènes, même en
petits nombre devrait résoudre ce problème (Makalowski, 2001). Mais ce test a parfois
invalidé, du moins à partir d’un petit nombre de gènes, l’hypothèse 2R (Friedman & Hughes,
2001; Hughes, 1999; Hughes & Friedman, 2003). Cependant, d’autres conclusions contraires,
semblant confirmer l’hypothèse, ont alimenté une controverse (Larhammar, Lundin &
Hallbook, 2002; Meyer & Schartl, 1999; Wang & Gu, 2000). Mais sans aucun doute, le plus
grand soutien « historique » de l’hypothèse 2R provient de l’identification d’un nombre de
gènes Hox 4 fois plus grand chez les vertébrés que chez les invertébrés (voir plus haut)(Figure
32).
Les raisons de la controverse de l’hypothèse 2R viennent essentiellement de la pauvreté des
données disponibles. Cette pauvreté a deux origines. Jusqu’à récemment peu de génomes de
vertébrés étaient disponibles en totalité et le nombre de gènes connus utilisables était très
faible. Deuxièmement, les analyses de duplication totale révèlent que la très grande majorité
des gènes reviennent progressivement à un seul exemplaire. Ce retour passe par un état de
non-fonctionnalisation d’une des copies (Lynch & Conery, 2000; Lynch et al., 2001). Sachant
que de nombreux gènes sont en plusieurs copies de façon spécifique dans un génome suite
aux duplications segmentales, en comparant un génome dupliqué à un génome non dupliqué,
il se trouve ainsi des gènes en double copies chez chacun et le nombre de gènes restés en deux
copies depuis la duplication totale est très faible (article 5) (Dujon et al., 2004; Kellis, Birren
& Lander, 2004). Aussi, les gènes présents en 4 exemplaires chez les vertébrés et en un seul
chez les vertébrés sont rares.
Récemment une démonstration de deux duplications totales anciennes du génome des
vertébrés par Dehal et Boore a probablement éteint la controverse et affiné l’hypothèse de
Ohno (Dehal & Boore, 2005). Dans cet article, les auteurs utilisent une stratégie semblable à
celle que nous avons suivie dans l’article 5. Malgré la perte massive de duplicats suite à une
duplication totale, il persiste une trace de cet événement au niveau génomique. En utilisant les
séquences génomiques de l’humain, de la souris, du fugu et de l’invertébré Ciona intestinalis,
il est possible d’identifier des segments sur 4 loci différents pour chacun des vertébrés dont
les gènes orthologues se trouvent colinéaires chez C. intestinalis.
Cet article complète très bien l’article 5. En effet, en utilisant les séquences de fugu qui ne
sont pas ancrées sur chromosome, la question de la duplication de génome des téléostéens n’a
124
pas pu être posée. Cela souligne l’importance pour ce type d’analyse de disposer de données à
la fois de grande échelle, mais aussi avec un degré d’achèvement assez avancé (nécessité
d’assignation chromosomique préférable à une qualité finie de la séquence).
7.1.3 Hypothèses
Selon Karl Popper, la science ne progresse que par falsification de théories ou en affinant des
théorie existantes (devenant ainsi plus facilement falsifiables) (Popper, 1959).
Comme nous l’a fait remarquer un des examinateurs anonymes de l’article 5, il est difficile
d’affirmer que nos travaux ont prouvé (de façon matérielle) l’existence de la duplication totale
de génome des téléostéens. Cependant, selon une logique poppérienne, nous avons affiné la
théorie de duplication génomique des téléostéens en proposant des ébauches de scénarii
évolutifs sous l’hypothèse de la duplication totale de génome. Ces scénarii seraient alors
différents dans les grandes lignées de vertébrés.
D’un autre point de vue, à partir du moment où une hypothèse est poussée à un certain niveau
de détails, la communauté accepte un certain nombre de points qui constituent alors le socle
d’un domaine ou du moins un axe de recherche. Nous assistons je crois, à ce type de
transition tel que peut le définir Thomas Kuhn (Kuhn, 1970). Une fois l’existence de la
duplication de génomes chez les téléostéens admise par la communauté, des questions d’un
nouvel ordre peuvent être adressées, et d’anciens problèmes peuvent être réenvisagés sous une
nouvelle perspective. Nous allons l’illustrer par deux exemples liés à l’évolution des
vertébrés. Le premier a été posé dans l’article 5 et concerne la façon dont les chromosomes de
vertébrés se réarrangent selon les lignées évolutives depuis leur dernier ancêtre commun. Le
second exemple traite du rapport entre émergence de nouvelles espèces et événements de
duplication totale de génome.
7.1.3.1 Scénario évolutif des génomes de vertébrés
La première conséquence de l’acceptation de la duplication totale de génome, et surtout de la
caractérisation de loci génomiques humains correspondant à des paires de régions
génomiques de Tetraodon de façon alternative, est de pouvoir déduire des propriétés d’un
génome ancestral. Pour cela, nous avons suivi un principe de parcimonie fixant que chaque
paire de segments de Tetraodon correspondant à un même segment humain descend d’une
125
unique région chromosomique ancestrale. Ainsi nous avons pu déduire que la lignée ayant
conduit à Tetraodon a subi moins de réarrangements que la lignée humaine.
Ce type d’analyse peut donner des informations très fines sur les événements évolutifs
caractéristiques de certains embranchements et surtout affine les modèles d’évolution à
l’échelle des chromosomes.
Avec les données de carte génétique, mais surtout de séquençage des génomes de l’homme,
de la souris, du rat et du chien, il a été montré que certains sites de réarrangements sont
réutilisés au cours de l’évolution (« Fragile modele ») (Lindblad-Toh et al., 2005; Pevzner &
Tesler, 2003b).
Cette découverte falsifie le modèle, jusque-là accepté, d’une répartition
aléatoire des positions de coupure, proposé par Nadeau et Taylor (Nadeau & Taylor, 1984).
Une comparaison récente de cartes génétiques de 8 mammifères a aussi montré qu’à
proximité de ces sites, la densité en gènes est plus forte que la moyenne (Murphy et al., 2005).
Cette finesse d’analyse n’est réalisable qu’entre espèces proches et dont le nombre de
réarrangements chromosomiques est limité. Notre comparaison entre Tetraodon et l’humain
présentée dans l’article 5, a montré que ces deux grandes lignées de vertébrés n’ont pas subi
les mêmes types d’événements avec la même fréquence. Les résultats montrent clairement
que la lignée conduisant à Tetraodon a subi beaucoup moins de réarrangements
interchromosomiques. Et à ce titre, la structure du génome est beaucoup plus primitive que
celle de l’humain. On peut émettre l’hypothèse que cette plus grande stabilité des
chromosomes de Tetraodon est liée à la compaction du génome. En effet, même si les
données de mammifères montrent que certains sites de cassures sont réutilisés, globalement
ceux-ci sont répartis de façon aléatoire sur le génome. Or, si un événement de cassure se
produit de façon aléatoire, il se produira d’autant plus fréquemment dans une région codante
que le génome est compact. Et un tel événement serait probablement létal. Nous discuterons
de cet aspect dans la section consacrée à la compaction du génome. Depuis la radiation des
mammifères, les différentes lignées se distinguent aussi par des différences de fréquences des
différents types de réarrangements. Les réarrangements interchromosomiques sont plus
fréquents chez l’humain alors que les réarrangements intrachromosomiques sont plus
fréquents chez le chien, et beaucoup plus chez les rongeurs souris et rats (Lindblad-Toh et al.,
2005). Une conséquence évidente d’un caryotype à 12 chromosomes d’un vertébré ancestral
est la forte réduction du nombre de chromosomes chez les mammifères. Avec en moyenne 24
chromosomes, la lignée des poissons téléostéens semblent avoir une plus grande « stabilité »
du caryotype. Comme le suggérait John Postlewait les 20 à 30 chromosomes des mammifères
126
euthériens indiqueraient une tendance à la fragmentation dans cette lignée (Postlethwait et al.,
2000).
Nous avons déduit une ébauche de l’organisation des chromosomes d’un vertébré ancestral
avant la duplication totale de génome commune des téléostéens. Nous avons émis l’hypothèse
que cette duplication des téléostéens s’est déroulée peu de temps après l’émergence de ce
groupe évolutif. Par conséquent il est probable que peu de réarrangements majeurs se soient
produits et que notre reconstruction corresponde à un schéma du dernier ancêtre commun des
vertébrés. Cependant, récemment, une équipe allemande a proposé un schéma de caryotype
ancestral commun aux vertébrés à 12 chromosomes. Pour cela, ils ont suivi la même approche
que nous, mais ont utilisé les données du génome de poulet ainsi que des autres poissons
téléostéens disponibles aujourd’hui (Kohn et al., 2006).
Ce type de reconstruction de génome ancestral est très préliminaire. Nous avons replacé
certaines régions du génome actuel sur un même chromosome ancestral, mais nous n’avons
pas pu en déterminer l’ordre, a fortiori la séquence ancestrale. Nous avons évoqué
précédemment l’existence de tels travaux réalisés chez les mammifères dont la quantité de
données disponibles le permet (Blanchette et al., 2004; Bourque et al., 2004).
7.1.3.2 Cooccurrence de la duplication totale de génome de téléostéens et
leur radiation
Dans l’évolution des chordés, des duplications totales de génomes semblent être intervenues
de façon concomitante à l’origine des vertébrés, des gnatostomes et des téléostéens (Holland
et al., 1994). Le même type de co-occurrence a été mis en évidence chez les plantes avant la
séparation d’Arabidopsis des autres dicotylédones (Bowers et al., 2003; Ku et al., 2000). Et,
de même, chez les levures (Scannell et al., 2006).
Initialement, Susumo Ohno a proposé l’hypothèse que des duplications totales auraient
comme conséquence de favoriser l’apparition de nouvelles espèces. Cet effet serait lié au
grand nombre de pertes de gènes qui auraient lieu indépendamment dans des souspopulations, ce qui conduirait à leur incompatibilité reproductive. L’équipe de Kenneth Wolfe
a récemment utilisé les données de génomes de levures pour tester ces hypothèses. Ils
confirment que des spéciations interviennent rapidement à la suite d’une duplication totale
(Scannell Nature 2006). De plus, les pertes de gènes interviennent massivement dans un
127
premier temps et surtout, de façon passive. L’isolement reproductif n’est alors qu’une
conséquence neutre. Ce mécanisme de spéciation par isolement reproductif passif a aussi été
proposé dans la lignée des poissons (Taylor Van de Peer Trends Genet 2001 ; ) (Postlethwait
et al., 2004)
La duplication que nous avons mise en évidence dans l’article 5 était déjà proposée par
différents auteurs (Hoegg et al., 2004; Holland et al., 1994; Meyer & Schartl, 1999;
Postlethwait et al., 2000) et discutée comme étant commune à Takifugu et Danio (Taylor 2003
Genome Res 2003 Vandepoele PNAS 2004). Par contre, l’analyse des gènes
Hox de Polypterus, un actinoptérygien mais non téléostéen, indique plutôt l’absence de trace
de cet événement chez cette espèce (Hoegg et al., 2004). Cet événement de duplication totale
se serait donc produit à l’origine des poissons téléostéens (Crow et al., 2006).
L’apparente grande diversité des téléostéens en nombre d’espèces (environ 23 000), mais
aussi diversité en morphologie et physiologie, pointe sans doute l’importance que cet
événement de duplication a eu, dans la multiplication, des solutions adaptatives.
7.1.3.3 Complexité des génomes
J’ai discuté précédemment de la notion de complexité, mais nous pouvons y revenir car les
discussions liées à l’évolution des vertébrés et des duplications de génomes peuvent apporter
un nouveau point de vue.
Nous avons discuté précédemment du nombre de gènes humains et rappelé que l’idée de
complexité de notre espèce était entretenue et entretenait une estimation d’un nombre de
gènes autour de 80 000 à 100 000. Et notre estimation de l’article 2 a situé l’espèce humaine
plus proche d’espèces considérées d’antan plus « primitives » comme la mouche en terme de
nombre de gènes du moins. A l’heure actuelle, c’est toute l’échelle des nombres de gènes qui
est resserrée mais le nombre de gènes humains reste pour le moment un des plus élevé.
Comme nous l’avons discuté dans l’article 5, et bien que nous ne puissions pas être
complètement affirmatifs, les poissons téléostéens ont vraisemblablement plus de gènes que
les mammifères. Cela en raison de la duplication totale de génome qui leur est propre.
Puisqu’à la suite d’une duplication totale, le nombre de gènes double puis décroît dans le
temps, il existe un lien entre ancienneté de la duplication et nombre de gènes. Par ailleurs, il
est très probable que nous découvrirons dans les toutes prochaines années des organismes
avec un nombre de gènes beaucoup plus important que celui de l’homme. Nous pouvons
supposer que l’espèce de mammifère tétraploïde découverte récemment (Gallardo et al., 1999)
128
a un nombre de gènes entre 40 000 et 50 000, la tétraploïdie semblant en effet récente. Il sera
intéressant d’affiner alors le lien entre nombre de gènes et duplication totale. Le génome de
Paramecium tetraurelia que nous avons commencé à analyser au laboratoire, avec environ
39000 gènes, est aujourd’hui l’espèce séquencée la plus riche en gènes. Le rapport du nombre
de gènes entre cette paramécie et l’humain est très proche de celui entre l’humain et la
drosophile (facteurs d’environ 1,6 et 1,7). Mais que peut-on dire de la complexité de la
paramécie par rapport à celle de l’humain ?
A propos des gènes, si nous (la communauté) avons surestimé leur nombre, n’est-ce pas lié au
fait que nous n’en comprenons pas suffisamment leur impact réel ? L’idée a priori que
l’inconnu est complexe reste peut-être une des plus rassurante, et est donc parfois plus
aisément admise.
7.2
Discussion autour de questions non abordées
Nous regroupons ici un certain nombre de questions dont le champ s’est modifié au fil de
l’avancée de nos travaux. En particulier, nous avons déjà discuté que la réduction du nombre
estimé de gènes humains a modifié les questions relatives à la compléxité génétique. Un
problème de contingence se pose à nouveau concernant les gènes non-codants et les variants
d’épissage.
7.2.1 Pseudogènes
Chez Tetraodon, nous n’avons pas annoté de pseudogènes mais nous ne pouvons pas exclure
leur présence. Et nous n’avons pas estimé leur densité mais nous avons discuté de leur rareté
voire
quasi-absence
dans
l’euchromatine.
Il
existe
2
classes
de
pseudogènes,
rétropseudogènes et pseudogènes. Pour les pseudogènes à transposons, leur absence peut être
liée à la compaction du génome. La compaction résulte soit d’un phénomène actif, soit d’un
phénomène passif. Mais elle a pour effet de tendre vers une compartimentation de certains
éléments répétés et réduit la fraction de régions non codantes. Ce point sera discuté dans la
partie concernant la compaction.
Chez l’humain, des analyses récentes montrent que le nombre de pseudogènes est sans doute
plus important que le nombre de gènes. Mais la dérive des pseudogènes étant neutres seuls les
plus récents sont détectables car ils conservent une certaine similarité avec un gène codant
(Torrents et al., 2003).
129
7.2.2 Epissage alternatif
Le nombre de transcrits par gène est une question d’actualité car, même pour les espèces dont
nous disposons le plus de données (humain, souris, rat, drosophile), nous ne connaissons pas
exactement le nombre de transcrits, ni le nombre de gènes sujets à l’épissage différentiel. Il
existe différents types d’épissages alternatifs. La combinatoire concerne non seulement les
exons qui peuvent être présents ou absents dans le transcrit, mais aussi les positions
d’épissage.
Est-ce que toutes les structures de transcrits possibles en utilisant toutes les combinaisons
d’exons sont réalisées ? On constate aujourd’hui avec le séquençage de collection d’ADNc
que les types de transcrits sont fonctions de l’espèce, du tissu et du stade de développement
(Magen & Ast, 2005).
Plus de la moitié des gènes humains présenteraient plusieurs formes de transcrits (Lareau
Brenner 2004). Le nombre de protéines chez l’homme serait nettement supérieur au nombre
de gènes. Il est attendu aujourd’hui autour de 90.000 protéines. Curieusement cette valeur est
identique à la valeur attendue du nombre de gènes avant 2000, et la question posée
sensiblement la même. Un cas extrême communément présenté d’épissage alternatif est le
gène DSCAM de Drosophila melanogaster dont le nombre de variants possibles est supérieur
à 38.000 (Schmucker,D., Clemens,J.C., Shu,H., Worby,C.A., Xiao,J., Muda,M.,
Dixon,J.E. and Zipursky,S.L. (2000). D’un point de vue expérimental, la description de
différents variants d’un gène peut nécessiter le séquençage de collections d’ADNc. Des
contraintes techniques et le coût de la méthode sont des facteurs limitants aujourd’hui qui ne
permettent pas de disposer de l’ensemble des formes de transcrits d’un gène. Chez Tetraodon,
la méthode d’annotation que nous avons utilisé combine une collection d’ADNc et d’autres
types de ressources (voir article5). Mais l’outil de génération de modèles de gènes que nous
avons utilisé ne permet pas de caractériser des formes multiples d’épissage alternatif et nous
n’avons annoté qu’un seul transcrit par gène. Toutefois, nous n’avons aucun élément pour
rejeter l’hypothèse d’un épissage alternatif actif chez Tetraodon. Et si le nombre de gènes est
semblable entre Tetraodon et l’humain, la question reste ouverte en ce qui concerne le
nombre de protéines et a fortiori pour le nombre d’interactions protéine-protéine. L’idée
d’une complexité supérieure des mammifères est simplement déplacée.
130
7.2.3
La compaction
7.2.3.1 Généralités
La comparaison des tailles de génomes eucaryotes révèle ce qui est appelé le paradoxe C. La
valeur C est communément utilisée pour exprimer la taille de l’ADN haploïde d’une espèce.
Et il n’existe pas toujours de corrélation entre taille du génome et position phylogénétique.
Par exemple, le génome humain est 800 fois plus grand que celui de la levure S. cerevisiae
(Dujon et al., 2004; Kellis et al., 2004) mais 800 fois plus petit que celui de l’amibe Amoebia
dubia (Gregory & Hebert, 1999). La taille de l’ADN et le nombre de gènes ne sont pas
directement corrélés. Les génomes dits compacts ont une densité en gènes relativement plus
grande que celle de génomes apparentés. Le génome de Tetraodon a été choisi en raison de
cette particularité. Sa taille d’ADN est la plus petite mesurée par Hinegardner parmi les
poissons (Hinegardner, 1968). Une comparaison directe de la taille d’ADN de Tetraodon
nigroviridis et Drosophila melanogaster montre environ un facteur 2 de différence. Et nous
estimons une taille de génome de 340Mb (voir article 5) alors que celle de l’humain est
estimée à 3.080Mb (International Human Genome Sequencing Consortium, 2004), soit un
facteur 9. Le poisson téléostéen modèle danio rerio a une taille mesurée de 1.600 à 1.800 Mb
(Juana Ciudad, 2002) www.genomesize.com), soit 5 fois plus que Tetraodon. Le paradoxe C
est valable au sein même des vertébrés puisque la longueur du génome de Tetraodon est plus
proche de celle d’un diptère que d’un autre poisson téléostéen.
Si la compaction porte globalement sur la densité en région codante, chez certains génomes
eucaryotes, le nombre d’introns aussi est relativement petit. Notamment chez de nombreux
unicellulaires le pourcentage de gènes disposant d’introns est faible. C’est le cas par exemple
de l’algue Cyanidioschyzon merolae dont seulement 26 gènes sur 5300 sont épissés
(Matsuzaki et al., 2004), ou 5% chez la levure (Goffeau et al., 1996; Kellis et al., 2003), et
seulement 13 introns sur 2000 gènes putatifs ont été décrits chez la microsporidie
Encephalitozoon cuniculi (Katinka et al., 2001).
Chez les vertébrés, il semble que la compaction n’implique pas le nombre d’introns mais
seulement leur taille. Nous avons en effet discuté dans l’article 5 que la structure des gènes de
Tetraodon est probablement identique à celle de l’humain. Nous pouvons nous interroger
alors sur l’importance fonctionnelle que présentent les introns puisqu’ils sont maintenus.
Nous allons discuter du rapport entre introns et compaction par la suite. Mais au préalable,
nous posons la question des éléments transposables qui représentent une fraction importante
131
de
l’ADN
de
mammifères
séquencés
alors
qu’ils
présentent
une
remarquable
compartimentation dans de nombreux génomes compacts.
7.2.3.2 Compaction et éléments transposables
Les éléments transposables (TE) sont des séquences d’ADN qui peuvent se déplacer ou se
dupliquer à l’intérieur d’un génome. Ils peuvent ainsi contribuer significativement à la taille
globale du génome. On estime ainsi qu’ils contribuent pour 35% au contenu en bases de
l’ADN humain (Eickbush & Furano, 2002; Lander et al., 2001), et 50% de celui du maïs
(SanMiguel et al., 1996). Ils sont répertoriés sous 2 classes.

Les éléments de classe I se répliquent en utilisant un ARN intermédiaire et peuvent
être bordés par des motifs répétés terminaux (LTR) ou se terminent avec une queue 3’
riche en adénine (par exemple les éléments SINE et LINE).

Les éléments de classe II sont surtout des transposons à ADN qui codent une
transposase.
Chez de nombreux eucaryotes (hamster, arabidopsis, maïs, drosophile), les TE sont
concentrés dans l’hétérochromatine (Dimitri & Junakovic, 1999). Chez Tetraodon, tous les
éléments répétés, bien que très rares globalement sur tout le génome et en particulier dans les
régions riches en gènes, sont très concentrés dans les petites régions d’hétérochromatine
(Dasilva et al., 2002; Fischer et al., 2004). Ce trait est ainsi commun avec les autres génomes
compacts (drosophile, arabette), alors que par exemple chez l’humain et la souris les
retrotransposons ne sont pas rares dans l’euchromatine (Lander et al., 2001; Waterston et al.,
2002b). A noter que cette concentration dans l’hétérochromatine, partagée par de nombreuses
espèces, n’est pas le propre d’un embranchement particulier. Mais le type de familles de TE
qui s’accumule peut être caractéristique d’une espèce. Ainsi, chez D. rerio, les fréquences des
LTR et non LTR sont semblables alors que chez Takifugu et Tetraodon, les LTR sont moins
représentés que les non LTR. Mais les non LTR ont la même fréquence que chez D. rerio, ce
qui suggère une élimination des LTR chez les poissons compacts ou leur dissémination chez
le poisson zèbre (Volff et al., 2003). D’un certain point de vue, le profil des TE dans les
différents génomes brise les cladistiques. Ainsi, le type de dispersion des TE dans les
génomes compacts de poissons séquencés est plus proche de celui de la drosophile que de
celui d’autres vertébrés comme l’humain par exemple.
132
Cette compartimentation des TE dans l’hétérochromatine est sujette à deux hypothèses
évolutives qui balancent le poids d’un mécanisme passif et d’un mécanisme actif :

Sélection négative des insertions de TE dans l’euchromatine.

Elimination active des TE après insertion dans l’euchromatine.
La première hypothèse vient de l’idée que la présence de TE dans l’euchromatine augmente la
probabilité de recombinaisons homologues ectopiques qui seraient majoritairement délétères.
Aussi, ces réarrangements délétères seraient contre-selectionnés. Les données de drosophile
sont en accord avec cette hypothèse (Bartolome, Maside & Charlesworth, 2002). Notamment
le taux de recombinaisons homologues ectopiques semble être beaucoup plus important que
chez les mammifères (Eickbush & Furano, 2002). Par ailleurs le génome de C. elegans ne
supporte pas l’hypothèse d’un mécanisme actif d’élimination des transposons. L’argument
vient de l’absence de corrélation inverse entre densité en TE et taux de recombinaisons chez
cette espèce (Duret, Marais & Biemont, 2000).
La seconde hypothèse semble être privilégiée par certains auteurs pour certains génomes. En
particulier chez Tetraodon et le fugu, les rares insertions de TE dans l’euchromatine sont
sélectivement neutres à la différence de la drosophile (Neafsey, Blumenstiel & Hartl, 2004).
La compartimentation semble être due à une régulation autre qu’une sélection négative.
Aussi, cela implique que la grande concentration de TE dans l’hétérochromatine est le résultat
d’insertions préférentielles ou d’excisions de recombinaisons plutôt qu’une sélection négative
des insertions dans l’euchromatine (Neafsey et al., 2004).
7.2.3.3 Compaction et introns
En éloignant les exons d’un même gène les uns des autres par de l’ADN en apparence non
codant, les introns représentent un paradoxe dans la biologie. En effet, cette invasion des
régions codantes par des régions en apparence non fonctionnelles est un surcoût énergétique.
Une partie de la consommation en énergie et en métabolites associée à la réplication de
l’ADN ne servirait qu’à transmettre de génération en génération des régions non
fonctionnelles. Aussi quel est l’avantage évolutif à la présence des introns ? Il existe
différentes hypothèses évolutives qui offrent un cadre et un axe de recherche essentiel.
Dans un même phylum, si le nombre d’introns semble assez maintenu entre espèces
apparentées, la longueur des introns peut être très variable. En particulier, si les génomes
133
compacts semblent avoir maintenu un nombre d’introns semblable aux autres espèces
apparentées, la taille des introns est considérablement réduite. Aussi, s’il existe un ou
plusieurs rôles fonctionnels contenus dans la séquence des introns, une taille réduite devrait
en faciliter leur détection. En particulier, la génomique comparative pourrait être couronnée
de succès en utilisant des principes semblables à ceux suivis pour la détection de régions
codantes.
La compaction du génome de Tetraodon nigroviridis pourrait être ici aussi un excellent
modèle d’étude.
Il existe 3 types d’introns. Les introns de type I et II sont dits « autoépissables ». Les introns
de type III sont présents dans le noyau des eucaryotes. Leur épissage nécessite un complexe
protéique, le spliceosome. L’épissage des introns est une nécessité pour assurer une protéine
fonctionnelle.
L’existence des introns dans tous les phylums des eucaryotes indique une origine très
ancienne. Et l’origine des introns a été vivement débattue entre deux théories principales. La
première propose que les introns précèdent la radiation procaryote eucaryote («introns
early»). Une partie des introns dans un génome ancestral auraient facilité l’émergence de
nouveaux gènes grâce à l’ « exon shuffling » (Gilbert, 1987). L’absence actuelle d’introns
chez les procaryotes serait la conséquence d’une sélection ultérieure.
Les partisans de la seconde défendent une invasion plus tardive des gènes par les introns dans
l’évolution (« introns late »). Cet événement se serait produit plus ou moins aléatoirement au
sein de gènes existants (Cavalier-Smith, 1991).
Un examen de la conservation des positions d’introns entre phylums très divergents pourrait
aider à répondre à la question. En effet, une conservation des positions des introns dans des
gènes orthologues dans des phylums éloignés tendrait à confirmer la première hypothèse.
Alors qu’au contraire une tendance à la non conservation des positions d’introns serait en
faveur de la seconde hypothèse. Or les deux types d’observations ont été faites par des
équipes indépendantes qui chacune ont alors proposé des évidences soit pour « intron-late »
(Logsdon et al., 1995), soit pour « intron-early » (de Souza et al., 1998; Marchionni &
Gilbert, 1986).
134
Il est clair que les difficultés dérivent directement des postulats initiaux. Les 2 hypothèses
proposent une origine si ancienne que tous les eucaryotes partagent cette caractéristique. Soit
un événement de « naissance » des introns a eu lieu, mais il n’en reste plus de trace. Soit
aucun événement de « naissance » n’a eu lieu, et il n’y en a donc pas de trace.
La difficulté de comprendre l’origine évolutive des introns revient peut-être aussi de notre
représentation du monde vivant qui distingue si clairement procaryote et eucaryote. Les
introns ne sont pas directement à l’origine de cette cladistique (historiquement et
étymologiquement) mais ils s’y accordent parfaitement puisqu’ils restent dans le noyau des
eucaryotes. Aussi, la compréhension de l’origine des introns émergera probablement d’une
plus grande connaissance de cette importante radiation de l’évolution.
Depuis la découverte des introns et l’émergence des théories qui leur sont consacrées, les
observations du monde vivant ne sont pas faites à un niveau de résolution différent, mais
portent sur les mêmes types d’objets (séquences d’ADN, gènes, etc.…). Les observations ont
été multipliées verticalement (de l’observation de quelques gènes aux séquençages et
annotations de génomes complets) et horizontalement (de nombreux phylums). Puisqu’un
grand nombre d’observations n’ont pas suffi à invalider une de ces hypothèses, il est possible
que l’exploration de certains phylums encore peu analysés apportera cette clef.
Une analyse récente de nombreux gènes de l’annélide Platynereis dumerilii montre un
pourcentage très élevé d’introns conservés avec l’humain (Raible et al. communication
personnelle). Cela suggère que la majorité des introns des eucaryotes bilatéraux ont une
origine ancestrale commune. Ce qui s’accorde avec la théorie « introns early ». Le taux de
pertes et de gains d’exons serait alors très variable d’un phylum à un autre.
En résumé, il serait probablement très utile d’explorer le monde vivant à un autre degré de
résolution. Une meilleure compréhension du rôle des introns chez les eucaryotes n’invalidera
aucune des 2 hypothèses, puisqu’on ne fera que confirmer que les 2 phylums sont bien
différents.
Si les introns sont maintenus chez les espèces à génome compact, nous devons nous
interroger sur les contraintes fonctionnelles qui sont attachées. La littérature propose un grand
nombre d’hypothèses d’avantages évolutifs des introns. Il est possible de les classer en 3
types :

Avantages dus à la distanciation des exons entre eux.
135

Avantages dus au fait de créer une zone pouvant accueillir des éléments fonctionnels
au sein même d’un gène.

Avantages dus au fait de créer des zones sans pression de sélection entre les exons.
La conséquence première de la présence d’introns est de distancier les exons les uns des
autres. Alors que chez les procaryotes l’unité fonctionnelle est le gène, chez les eucaryotes
chaque exon peut être assimilé à une « brique » fonctionnelle. Ainsi comme Walter Gilbert le
proposait dès la découverte des introns chez les eucaryotes, si l’élément fonctionnel est
l’exon, alors les introns offrent la possibilité de recombiner une suite d’exons en une autre
suite (de Souza et al., 1998; Gilbert, 1978). Cette faculté d’« exon shuffling » augmente les
possibilités fonctionnelles. Toutefois, cette combinatoire dépend d’une longueur des exons
qui soit multiple de 3 afin de préserver la phase codante. Or c’est majoritairement le cas. Cet
élément est un argument de plus en faveur de la théorie « introns early ».
Une seconde conséquence du découpage des gènes est de pouvoir réaliser plusieurs transcrits
par gène par épissage alternatif. Cette falsification du dogme « un gène, un polypeptide » qui
prévalait jusqu’alors avait aussi été prédite par Walter Gilbert.
La troisième conséquence que je mentionnerai dans cette catégorie est indirecte. Le fait de
distancier les exons entre eux favorise l’effet de Hill&Robertson. Cet effet serait même
proportionnel avec la longueur des introns. Cette théorie de l’évolution propose que la
probabilité de recombinaison entre deux loci soit proportionnelle à leurs distances. De grands
introns augmenteraient la probabilité de recombinaison entre exons d’allèles différents et
donc l’efficacité de sélection (Comeron & Kreitman, 2000; Hill & Robertson, 1966). S’il en
résulte un avantage évolutif, l’association de loci provenant d’allèles différents sera d’autant
favorisée que leur distance est importante.
La seconde série de propositions d’avantages évolutifs est liée à la vision des introns comme
conteneurs possibles de régions fonctionnelles. Il a été observé chez l’humain une corrélation
entre le nombre d’exons (et donc d’introns) et le niveau d’expression (Comeron, 2004). Au
laboratoire, nous constatons le même effet sur le génome de Paramecium tetraurelia ce qui
suggère une importance fonctionnelle des introns. De même chez la levure, les gènes pourvus
d’introns sont parmi les plus exprimés (Warner, 1999).
136
L’invasion des introns dans les gènes aurait ouvert la possibilité de stocker de l’information
complémentaire de la séquence des exons. Il est envisageable que les zones introniques soient
plus accessibles pour des complexes protéiques que les régions intergéniques. En raison de la
proximité des exons et du biais de composition qui leur est associé, la structure de la
chromatine est vraisemblablement différente dans les introns par rapport aux régions
intergéniques. Il est possible de tester ces hypothèses en utilisant des approches de
génomiques comparatives. S’il existe des régions fonctionnelles dans les introns, elles
subissent une pression de sélection qui les rend plus conservées avec d’autres génomes. Chez
la drosophile, des courtes régions (24 bases) sont conservées dans les régions non exoniques
mais leur distribution n’est pas significativement différente dans les introns par rapport aux
les régions intergéniques (Bergman & Kreitman, 2001). Les descriptions d’éléments
fonctionnels dans les introns ne sont plus rares. La distribution de ces éléments fonctionnels
dans le gène n’est pas homogène. Leur fréquence est en effet supérieure dans le premier
intron ce qui suggère un lien fonctionnel avec le promoteur du gène (Duret, 2001; Marais et
al., 2005). D’ailleurs, chez l’humain, le premier intron est souvent plus long que les autres
(Comeron, 2004).
De façon indirecte, la présence des introns pourrait représenter un gain dans la qualité des
transcrits qui sont produits. En particulier certains auteurs mettent en relation la présence
d’introns et la fonction de surveillance des transcrits en erreurs (Lynch & Richardson, 2002).
Les ARNm contenant un codon de terminaison prémature (PTC) sont sujets à produire
potentiellement des protéines tronquées délétères. Il existe chez les eucaryotes un processus
d’élimination de ces ARN appelé « nonsense mediated decay » (NMD). Le NMD a été mis en
évidence chez les plantes, les animaux et champignons et il existe en fonction des phylums
deux mécanismes différents (Maquat & Carmichael, 2001). Une corrélation directe entre
intron et NMD a été mise en évidence chez les mammifères dont les gènes dépourvus
d’introns sont insensibles aux NMD (Maquat & Li, 2001). D’autres évidences convergent
vers la possibilité que le rôle de surveillance du NMD soit restreint à une zone limitée du
transcrit. Les introns permettraient en quelque sorte de délimiter des zones de surveillance.
Une conséquence immédiate serait l’avantage évolutif associé au placement des positions
d’introns le long du transcrit. Celui-ci devrait avoir tendance à maximiser l’effet du NMD. La
répartition globalement uniforme des introns le long du gène va dans ce sens.
137
Le dernier type d’avantages évolutifs associés aux introns qui est proposé est une réduction
d’un risque associé aux recombinaisons multiples. Du fait que chez les eucaryotes de
nombreux gènes existent en familles en raison de duplications, la probabilité de
recombinaisons entre paralogues est importante. Or les introns (en dehors de la présence
éventuelle de zones fonctionnelles) sont des régions qui accumulent librement des mutations.
Aussi les paralogues dérivent-ils rapidement, du moins par la séquence de leurs introns. La
fragmentation des gènes par les introns permettraient aux gènes paralogues de se
« distinguer » rapidement (Kricker, Drake & Radman, 1992)
Par ailleurs, il existe un certain nombre de contraintes physiques comme la longueur minimale
en deçà de laquelle l’épissage semble être défaillant. Des introns de 18 bases ont été décrits
chez une algue chlorarachniophyte (Gilson & McFadden, 1996) et c’est aussi la longueur du
plus petit intron confirmé par ADNc que nous observons au laboratoire dans le génome P.
tetraurelia. Par contre cette longueur minimale connue est 39 chez C. elegans, 42 chez la
drosophile et 60 chez l’arabette. Cependant, parmi le groupe de gènes connus chez l’humain
« known gènes » construit par l’université de Santa Cruz (Hsu et al., 2006), on trouve
quelques introns inférieurs à 20 bases. Globalement, cela suggère que l’épissage nécessite une
longueur d’intron minimale qui est liée aux contraintes du complexe d’épissage, mais que ces
contraintes peuvent varier d’un phylum à un autre. Le complexe d’épissage étant un ensemble
ribonucléoprotéique, il n’est pas surprenant que s’il existe des contraintes physiques, elles
soient partagées au sein d’un embranchement comme les vertébrés au même titre que la
conservation des protéines.
7.2.3.4 Conclusion sur la compaction
Chez Tetraodon, la compaction dans les gènes ne se caractérise pas par un nombre restreint
d’introns par rapport aux vertébrés non compacts, mais par une taille réduite d’un facteur 8.
Si la compaction des gènes est un phénomène continu dans l’évolution, elle tend à conserver
toutefois le nombre d’introns et donc l’épissage. S’il s’exerce sur les introns des pressions de
sélection contraires (voir ci-dessus les avantages évolutifs et effets délétères possibles des
introns), la résultante chez Tetraodon semblerait avoir maintenu la possibilité d’« exons
shuffling ». L’économie métabolique due à la réduction de la longueur des introns serait aux
dépens du gain de variabilités génétiques qu’offrent les possibilités de recombinaisons en cas
de longs introns.
138
Par ailleurs la fréquence de TE, étant semblable dans les introns à celle des régions
intergéniques, semble indiquer que la compaction est essentiellement due à leur
compartimentation. Et les introns n’auraient probablement pas de rôle direct dans la
compaction.
Le génome du poulet Gallus gallus est certainement un excellent modèle d’analyse de la
compaction chez les vertébrés. En effet, le degré de compaction est variable en fonction des
chromosomes. Le génome de poulet mesure 1,2Gb et est organisé en 5 chromosomes de
grandes tailles, appelés macro-chromosomes, 5 chromosomes de tailles intermédiaires, et 28
chromosomes courts appelés microchromosomes. Dans ce génome, la fraction d’ADN
correspondant aux TE atteint 10% dans les macro-chromosomes et seulement 4% dans les
micro-chromosomes (Hillier et al., 2004). Cette distinction entre macro et microchromosomes est assez artificielle. Il existe plutôt un gradient de la densité en gènes des plus
grands vers les plus courts chromosomes.
C’est une situation non unique chez les vertébrés (on la retrouve chez certains sauriens) mais
qui pose de nouvelles questions. Puisqu’il existe un gradient de compaction en fonction des
chromosomes, la réceptibilité des chromosomes face à la compaction, ou au contraire à
l’extension, est variable. Est-ce simplement le reflet du hasard d’un processus en cours qui
s’est initié sur un petit nombre de chromosomes et qui s’étend progressivement à tous ? Ou
est-ce un état stable qui reflète alors des variations de contraintes structurales de l’ADN sur
les différents chromosomes ?
La comparaison des propriétés de chromosomes de G. gallus en fonction de leur densité peut
éclairer le phénomène de compaction. Par exemple, le taux de recombinaisons est corrélé
positivement avec le degré de compaction et donc inversement avec la fréquence de TE. Et il
existe un cas de fusion récente d’un micro-chromosome sur un macro-chromosome (GGA4p).
Et il semble que GGA4p ait conservé les propriétés ancestrales de micro-chromosomes
(compaction et fort taux de recombinaison).
Par ailleurs, il est possible de tester avec cette séquence si la compaction est un phénomène
plus récent que la radiation avian-mamifères (-310 millions d’années). En effet, si la
compaction des micro-chromosomes prédate cette radiation, on peut supposer que le degré de
synténie est supérieur dans les micro-chromosomes. En effet, les réarrangements, s’ils se
produisent au hasard, seront plus souvent délétères dans des régions denses en gènes. Or, nous
n’avons pas observé significativement une telle différence. Nous ne pouvons alors pas rejeter
l’hypothèse que la compaction est un phénomène récent. Il résulte, de l’analyse de différents
vertébrés pour lesquels le taux de recombinaisons est connu, que cette valeur est corrélée avec
139
la densité en gènes. Il est alors vraisemblable que cet effet soit une force importante parmi
celles qui régulent la structure des génomes et qu’elle explique aussi, du moins en partie, la
compaction de Tetraodon.
Cependant, nous ne pouvons pas exclure la possibilité que la compaction de Tetraodon résulte
aussi d’une élimination active. Ces 2 forces interviennent probablement à des degrés
différents en fonction des phylums. Ainsi, chez le nématode C. elegans, des processus actifs
d’élimination d’introns et de TE sont proposés (Kent & Zahler, 2000; Witherspoon &
Robertson, 2003) alors que l’hypothèse portant sur le taux de recombinaison est peu supportée
par les données (Duret et al., 2000).
7.3 Utilisation des séquences de Tetraodon par d’autres équipes
Il est difficile de connaître l’étendue de l’utilisation des données de Tetraodon. De nombreux
travaux de génomiques comparatives l’utilisent seuls ou en association avec d’autres
ressources. Toutefois, avant la parution de l’article 5, la séquence était utilisée essentiellement
pour rechercher des gènes humains ou analyser leur conservation. Ce fut le cas pour les
analyses de la séquence des chromosomes humains 5, 6, 7, 10, 13, 14, 20, 21 et X (Deloukas
et al., 2004; Deloukas et al., 2001; Dunham et al., 2004; Hattori et al., 2000; Heilig et al.,
2003; Hillier et al., 2003; Mungall et al., 2003; Ross et al., 2005; Schmutz et al., 2004).
Avant que notre laboratoire travaille sur Tetraodon, très peu d’équipes travaillaient sur cet
animal puisqu’on recense seulement 5 articles dont le titre le mentionne. Alors que, depuis
1997, 41 articles sont parus contenant Tetraodon dans le titre et 106 le mentionnant dans le
résumé (7 avant 1997) (Figure 33).
Aujourd’hui la séquence et l’annotation que nous avons produite sont disponibles à partir de 3
navigateurs de génomes.

Celui de l’université de Californie Santa-Cruz (ucsc) : http://genome.ucsc.edu/
(Karolchik et al., 2003)

Celui du groupe Ensembl à Hinxton : http://www.ensembl.org (Hubbard et al., 2005)

Celui
que
nous
avons
mis
en
place
au
laboratoire :
http://www.genoscope.cns.fr/externe/tetranew/ . Il est basé sur un navigateur
générique de génome (GGB) (Stein et al., 2002)
140
7.4 Vastes perspectives
Avec les développements technologiques en génétique, en particulier en matière de
séquençage, les investissements financiers se sont massivement concentrés dans les années 90
sur le programme génome humain. On constate actuellement une répartition sur deux axes.
D’abord ce que l’on pourrait appeler la suite du programme génome humain. C’est l’héritage
des cartes génétiques et de la séquence. Cela passe par le séquençage d’autres modèles
vivants, en particulier des mammifères (Margulies et al., 2005) avec un but de comparaison
avec les données du génome humain pour mieux le comprendre, et à des fins thérapeutiques.
C’est aussi la caractérisation des variations haplotypiques des individus que vise le
programme Hapmap (The International Hapmap consortium, 2003).
Le deuxième volet peut être placé génériquement sous l’appellation génétique ou génomique
de l’environnement. Cela comprend les programmes de séquençage des génomes d’un
écosystème dans son ensemble (programmes métagénomes) afin de comprendre son équilibre
d’un point de vue génétique. Cela passera par la caractérisation de fonctions métaboliques
inconnues jusqu’alors (Tringe & Rubin, 2005). Les perspectives sous-jacentes sont
directement liées à la situation environnementale et économique que cause l’utilisation du
carbone, l’activité économique humaine étant basée sur la dégradation oxydative du carbone
fossile qui lui-même se raréfie. Il est très probable que les acquis de ces dernières années par
la communauté autour de la génomique comparative ont forgé un cadre à la fois de pensée et
aussi d’approches expérimentales qui profiteront à ces deux grands axes de recherches.
141
Références
ADAMS, M. D., CELNIKER, S. E., HOLT, R. A., EVANS, C. A., GOCAYNE, J. D., AMANATIDES, P. G., SCHERER, S. E., LI, P.
W., HOSKINS, R. A., GALLE, R. F., GEORGE, R. A., LEWIS, S. E., RICHARDS, S., ASHBURNER, M., HENDERSON, S.
N., SUTTON, G. G., WORTMAN, J. R., YANDELL, M. D., ZHANG, Q., CHEN, L. X., BRANDON, R. C., ROGERS, Y.
H., BLAZEJ, R. G., CHAMPE, M., PFEIFFER, B. D., WAN, K. H., DOYLE, C., BAXTER, E. G., HELT, G., NELSON, C.
R., GABOR, G. L., ABRIL, J. F., AGBAYANI, A., AN, H. J., ANDREWS-PFANNKOCH, C., BALDWIN, D., BALLEW, R.
M., BASU, A., BAXENDALE, J., BAYRAKTAROGLU, L., BEASLEY, E. M., BEESON, K. Y., BENOS, P. V., BERMAN, B.
P., BHANDARI, D., BOLSHAKOV, S., BORKOVA, D., BOTCHAN, M. R., BOUCK, J., BROKSTEIN, P., BROTTIER, P.,
BURTIS, K. C., BUSAM, D. A., BUTLER, H., CADIEU, E., CENTER, A., CHANDRA, I., CHERRY, J. M., CAWLEY, S.,
DAHLKE, C., DAVENPORT, L. B., DAVIES, P., DE PABLOS, B., DELCHER, A., DENG, Z., MAYS, A. D., DEW, I.,
DIETZ, S. M., DODSON, K., DOUP, L. E., DOWNES, M., DUGAN-ROCHA, S., DUNKOV, B. C., DUNN, P., DURBIN, K.
J., EVANGELISTA, C. C., FERRAZ, C., FERRIERA, S., FLEISCHMANN, W., FOSLER, C., GABRIELIAN, A. E., GARG,
N. S., GELBART, W. M., GLASSER, K., GLODEK , A., GONG, F., GORRELL, J. H., GU, Z., GUAN, P., HARRIS, M.,
HARRIS, N. L., HARVEY, D., HEIMAN, T. J., HERNANDEZ, J. R., HOUCK , J., HOSTIN, D., HOUSTON, K. A.,
HOWLAND, T. J., WEI, M. H., IBEGWAM, C., et al. (2000). The genome sequence of Drosophila melanogaster.
Science 287, 2185-95.
ALLEN, J. E., PERTEA, M. & SALZBERG, S. L. (2004). Computational Gene Prediction Using Multiple Sources of
Evidence. Genome Res. 14, 142-148.
ALTSCHUL, S. F., GISH, W., MILLER, W., MYERS, E. W. & LIPMAN, D. J. (1990). Basic local alignment search tool. J Mol
Biol 215, 403-10.
ALTSCHUL, S. F., MADDEN, T. L., SCHAFFER, A. A., ZHANG, J., ZHANG, Z., MILLER, W. & LIPMAN, D. J. (1997). Gapped
BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25, 3389402.
AMORES, A., FORCE, A., YAN, Y. L., JOLY, L., AMEMIYA, C., FRITZ, A., HO, R. K., LANGELAND, J., PRINCE, V., WANG, Y.
L., WESTERFIELD, M., EKKER, M. & POSTLETHWAIT, J. H. (1998). Zebrafish hox clusters and vertebrate
genome evolution. Science 282, 1711-4.
ANTEQUERA, F. & BIRD, A. (1993). Number of CpG islands and genes in human and mouse. Proc Natl Acad Sci U S A
90, 11995-9.
APARICIO, S., CHAPMAN, J., STUPKA, E., PUTNAM, N., CHIA, J. M., DEHAL, P., CHRISTOFFELS, A., RASH, S., HOON, S.,
SMIT, A., GELPKE, M. D., ROACH, J., OH, T., HO, I. Y., WONG, M., DETTER, C., VERHOEF, F., PREDKI, P., TAY,
A., LUCAS, S., RICHARDSON, P., SMITH, S. F., CLARK , M. S., EDWARDS, Y. J., DOGGETT, N., ZHARKIKH, A.,
TAVTIGIAN, S. V., PRUSS, D., BARNSTEAD, M., EVANS, C., BADEN, H., POWELL, J., GLUSMAN, G., ROWEN, L.,
HOOD, L., TAN, Y. H., ELGAR, G., HAWKINS, T., VENKATESH, B., ROKHSAR, D. & BRENNER, S. (2002). Wholegenome shotgun assembly and analysis of the genome of Fugu rubripes. Science 297, 1301-10.
APARICIO, S., HAWKER, K., COTTAGE, A., MIKAWA, Y., ZUO, L., VENKATESH, B., CHEN, E., KRUMLAUF, R. & BRENNER,
S. (1997). Organization of the Fugu rubripes Hox clusters: evidence for continuing evolution of vertebrate
Hox complexes. Nat Genet 16, 79-83.
APARICIO, S., MORRISON, A., GOULD, A., GILTHORPE, J., CHAUDHURI, C., RIGBY, P., KRUMLAUF, R. & BRENNER, S.
(1995). Detecting Conserved Regulatory Elements with the Model Genome of the Japanese Puffer Fish, Fugu
rubripes. PNAS 92, 1684-1688.
ASHURST, J. L., CHEN, C. K., GILBERT, J. G., JEKOSCH, K., KEENAN, S., MEIDL, P., SEARLE, S. M., STALKER, J., STOREY,
R., TREVANION, S., WILMING, L. & HUBBARD, T. (2005). The Vertebrate Genome Annotation (Vega)
database. Nucleic Acids Res 33 Database Issue, D459-65.
BARTOLOME, C., MASIDE, X. & CHARLESWORTH, B. (2002). On the abundance and distribution of transposable
elements in the genome of Drosophila melanogaster. Mol Biol Evol 19, 926-37.
BATZOGLOU, S., JAFFE, D. B., STANLEY, K., BUTLER, J., GNERRE, S., MAUCELI, E., BERGER, B., MESIROV, J. P. &
LANDER, E. S. (2002). ARACHNE: a whole-genome shotgun assembler. Genome Res 12, 177-89.
BAXENDALE, S., ABDULLA, S., ELGAR, G., BUCK, D., BERKS, M., MICKLEM, G., DURBIN, R., BATES, G., BRENNER, S. &
BECK , S. (1995). Comparative sequence analysis of the human and pufferfish Huntington's disease genes. Nat
Genet 10, 67-76.
142
BERGMAN, C. M. & KREITMAN, M. (2001). Analysis of conserved noncoding DNA in Drosophila reveals similar
constraints in intergenic and intronic sequences. Genome Res 11, 1335-45.
BERSAGLIERI, T., SABETI, P. C., PATTERSON, N., VANDERPLOEG, T., SCHAFFNER, S. F., DRAKE, J. A., RHODES, M., REICH,
D. E. & HIRSCHHORN, J. N. (2004). Genetic signatures of strong recent positive selection at the lactase gene.
Am J Hum Genet 74, 1111-20.
BIRNEY, E., ANDREWS, T. D., BEVAN, P., CACCAMO, M., CHEN, Y., CLARKE, L., COATES, G., CUFF, J., CURWEN, V.,
CUTTS, T., DOWN, T., EYRAS, E., FERNANDEZ-SUAREZ, X. M., GANE, P., GIBBINS, B., GILBERT, J., HAMMOND,
M., HOTZ, H. R., IYER, V., JEKOSCH, K., KAHARI, A., KASPRZYK , A., KEEFE, D., KEENAN, S., LEHVASLAIHO, H.,
MCVICKER, G., MELSOPP, C., MEIDL, P., MONGIN, E., PETTETT, R., POTTER, S., PROCTOR, G., RAE, M.,
SEARLE, S., SLATER, G., SMEDLEY, D., SMITH, J., SPOONER, W., STABENAU, A., STALKER, J., STOREY, R.,
URETA-VIDAL, A., WOODWARK , K. C., CAMERON, G., DURBIN, R., COX, A., HUBBARD, T. & CLAMP, M.
(2004a). An overview of Ensembl. Genome Res 14, 925-8.
BIRNEY, E., CLAMP, M. & DURBIN, R. (2004b). GeneWise and Genomewise. Genome Res 14, 988-95.
BIRNEY, E. & ENSEMBL TEAM, T. (2003). Ensembl: A Genome Infrastructure. Cold Spring Harbor Symposia on
Quantitative Biology 68, 213-216.
BLANCHETTE, M., GREEN, E. D., MILLER, W. & HAUSSLER, D. (2004). Reconstructing large regions of an ancestral
mammalian genome in silico. Genome Res 14, 2412-23.
BOEDDRICH, A., BURGTORF, C., ROEST CROLLIUS, H., HENNIG, S., BERNOT, A., CLARK , M., REINHARDT, R., LEHRACH,
H. & FRANCIS, F. (1999). Analysis of the spermine synthase gene region in Fugu rubripes, Tetraodon
fluviatilis, and Danio rerio. Genomics 57, 164-8.
BOFFELLI, D., MCAULIFFE, J., OVCHARENKO, D., LEWIS, K. D., OVCHARENKO, I., PACHTER, L. & RUBIN, E. M. (2003).
Phylogenetic shadowing of primate sequences to find functional regions of the human genome. Science 299,
1391-4.
BOURQUE, G. & PEVZNER, P. A. (2002). Genome-scale evolution: reconstructing gene orders in the ancestral species.
Genome Res 12, 26-36.
BOURQUE, G., PEVZNER, P. A. & TESLER, G. (2004). Reconstructing the genomic architecture of ancestral mammals:
lessons from human, mouse, and rat genomes. Genome Res 14, 507-16.
BOWERS, J. E., CHAPMAN, B. A., RONG, J. & PATERSON, A. H. (2003). Unravelling angiosperm genome evolution by
phylogenetic analysis of chromosomal duplication events. Nature 422, 433-8.
BRADLEY, A. (2002). Mining the mouse genome. Nature 420, 512-4.
BRENNER, S., ELGAR, G., SANDFORD, R., MACRAE, A., VENKATESH, B. & APARICIO, S. (1993). Characterization of the
pufferfish (Fugu) genome as a compact model vertebrate genome. Nature 366, 265-8.
BRUNNER, B., GRUTZNER, F., YASPO, M. L., ROPERS, H. H., HAAF , T. & KALSCHEUE, V. M. (2000). Molecular cloning
and characterization of the Fugu rubripes MEST/COPG2 imprinting cluster and chromosomal localization
in Fugu and Tetraodon nigroviridis. Chromosome Res 8, 465-76.
BURGE, C. & KARLIN, S. (1997). Prediction of complete gene structures in human genomic DNA. J Mol Biol 268, 78-94.
BURSET, M. & GUIGO, R. (1996). Evaluation of gene structure prediction programs. Genomics 34, 353-67.
C. ELEGANS SEQUENCING CONSORTIUM. (1998). Genome sequence of the nematode C. elegans: a platform for
investigating biology. Science 282, 2012-8.
CAPRARA, M. (1997). Sorting by reversal is difficult. In Proceedings of the first Annual International Conference on
Computational Molecular Biology (RECOMB 97) (ed. P. A. P. S. Istrail, M.S. Waterman;), pp. 75-83. ACM
Press, Santa Fe.
CASTELO, R., REYMOND, A., WYSS, C., CAMARA, F., PARRA, G., ANTONARAKIS, S. E., GUIGO, R. & EYRAS, E. (2005).
Comparative gene finding in chicken indicates that we are closing in on the set of multi-exonic widely
expressed human genes. Nucleic Acids Res 33, 1935-9.
143
CAVALIER-SMITH, T. (1991). Intron phylogeny: a new hypothesis. Trends Genet 7, 145-8.
CLAVERIE, J. M. (1997). Computational methods for the identification of genes in vertebrate genomic sequences. Hum
Mol Genet 6, 1735-44.
COHEN, D., CHUMAKOV, I. & WEISSENBACH, J. (1993). A first-generation physical map of the human genome. Nature
366, 698-701.
COLLINS, F. & GALAS, D. (1993). A new five-year plan for the U.S. Human Genome Project. Science 262, 43-6.
COLLINS, F. S. (1997). Sequencing the human genome. Hosp Pract (Off Ed) 32, 35-43, 46-9, 53-4.
COLLINS, F. S., MORGAN, M. & PATRINOS, A. (2003). The Human Genome Project: lessons from large-scale biology.
Science 300, 286-90.
COLLINS, F. S., PATRINOS, A., JORDAN, E., CHAKRAVARTI, A., GESTELAND, R. & WALTERS, L. (1998). New goals for the
U.S. Human Genome Project: 1998-2003. Science 282, 682-9.
COMERON, J. M. (2004). Selective and mutational patterns associated with gene expression in humans: influences on
synonymous composition and intron presence. Genetics 167, 1293-304.
COMERON, J. M. & KREITMAN, M. (2000). The correlation between intron length and recombination in drosophila.
Dynamic equilibrium between mutational and selective forces. Genetics 156, 1175-90.
COUTELLE, O., NYAKATURA, G., TAUDIEN, S., ELGAR, G., BRENNER, S., PLATZER, M., DRESCHER, B., JOUET, M.,
KENWRICK , S. & ROSENTHAL, A. (1998). The neural cell adhesion molecule L1: genomic organisation and
differential splicing is conserved between man and the pufferfish Fugu. Gene 208, 7-15.
COX, D. R., GREEN, E. D., LANDER, E. S., COHEN, D. & MYERS, R. M. (1994). Assessing mapping progress in the Human
Genome Project. Science 265, 2031-2.
CRNOGORAC-JURCEVIC, T., BROWN, J. R., LEHRACH, H. & SCHALKWYK , L. C. (1997). Tetraodon fluviatilis, a new
puffer fish model for genome studies. Genomics 41, 177-84.
CROW, K. D., STADLER, P. F., LYNCH, V. J., AMEMIYA, C. & WAGNER, G. P. (2006). The "fish-specific" Hox cluster
duplication is coincident with the origin of teleosts. Mol Biol Evol 23, 121-36.
DASILVA, C., HADJI, H., O ZOUF-COSTAZ, C., NICAUD, S., JAILLON, O., WEISSENBACH, J. & CROLLIUS, H. R. (2002).
Remarkable compartmentalization of transposable elements and pseudogenes in the heterochromatin of the
Tetraodon nigroviridis genome. Proc Natl Acad Sci U S A 99, 13636-41.
DE SOUZA, F. S., BUMASCHNY, V. F.,
LOW, M. J. & RUBINSTEIN, M. (2005). Subfunctionalization of Expression and
Peptide Domains Following the Ancient Duplication of the Proopiomelanocortin Gene in Teleost Fishes. Mol
Biol Evol 22, 2417-2427.
DE SOUZA, S. J.,
LONG, M., KLEIN, R. J., ROY, S., LIN, S. & GILBERT, W. (1998). Toward a resolution of the introns
early/late debate: only phase zero introns are correlated with the structure of ancient proteins. Proc Natl
Acad Sci U S A 95, 5094-9.
DEHAL, P. & BOORE, J. L. (2005). Two rounds of whole genome duplication in the ancestral vertebrate. PLoS Biol 3,
e314.
DELOUKAS, P., EARTHROWL, M. E., GRAFHAM, D. V., RUBENFIELD, M., FRENCH, L., STEWARD, C. A., SIMS, S. K., JONES,
M. C., SEARLE, S., SCOTT, C., HOWE, K., HUNT, S. E., ANDREWS, T. D., GILBERT, J. G., SWARBRECK , D.,
ASHURST, J. L., TAYLOR, A., BATTLES, J., BIRD, C. P., AINSCOUGH, R., ALMEIDA, J. P., ASHWELL, R. I.,
AMBROSE, K. D., BABBAGE, A. K., BAGGULEY, C. L., BAILEY, J., BANERJEE, R., BATES, K., BEASLEY, H., BRAYALLEN, S., BROWN, A. J., BROWN, J. Y., BURFORD, D. C., BURRILL, W., BURTON, J., CAHILL, P., CAMIRE, D.,
CARTER, N. P., CHAPMAN, J. C., CLARK , S. Y., CLARKE, G., CLEE, C. M., CLEGG, S., CORBY, N., COULSON, A.,
DHAMI, P., DUTTA, I., DUNN, M., FAULKNER, L., FRANKISH, A., FRANKLAND, J. A., GARNER, P., GARNETT, J.,
GRIBBLE, S., GRIFFITHS, C., GROCOCK , R., GUSTAFSON, E., HAMMOND, S., HARLEY, J. L., HART, E., HEATH, P.
D., HO, T. P., HOPKINS, B., HORNE, J., HOWDEN, P. J., HUCKLE, E., HYNDS, C., JOHNSON, C., JOHNSON, D.,
KANA, A., KAY, M., KIMBERLEY, A. M., KERSHAW, J. K., KOKKINAKI, M., LAIRD, G. K., LAWLOR, S., LEE, H.
M., LEONGAMORNLERT, D. A., LAIRD, G., LLOYD, C., LLOYD, D. M., LOVELAND, J., LOVELL, J., MCLAREN, S.,
MCLAY, K. E., MCMURRAY, A., MASHREGHI-MOHAMMADI, M., MATTHEWS, L., MILNE, S., NICKERSON, T.,
144
NGUYEN, M., OVERTON-LARTY, E., PALMER, S. A., PEARCE, A. V., PECK, A. I., PELAN, S., PHILLIMORE, B.,
PORTER, K., RICE, C. M., ROGOSIN, A., et al. (2004). The DNA sequence and comparative analysis of human
chromosome 10. Nature 429, 375-81.
DELOUKAS, P., MATTHEWS, L. H., ASHURST, J., BURTON, J., GILBERT, J. G., JONES, M., STAVRIDES, G., ALMEIDA, J. P.,
BABBAGE, A. K., BAGGULEY, C. L., BAILEY, J., BARLOW, K. F., BATES, K. N., BEARD, L. M., BEARE, D. M.,
BEASLEY, O. P., BIRD, C. P., BLAKEY, S. E., BRIDGEMAN, A. M., BROWN, A. J., BUCK, D., BURRILL, W., BUTLER,
A. P., CARDER, C., CARTER, N. P., CHAPMAN, J. C., CLAMP, M., CLARK , G., CLARK , L. N., CLARK , S. Y., CLEE,
C. M., CLEGG, S., COBLEY, V. E., COLLIER, R. E., CONNOR, R., CORBY, N. R., COULSON, A., COVILLE, G. J.,
DEADMAN, R., DHAMI, P., DUNN, M., ELLINGTON, A. G., FRANKLAND, J. A., FRASER, A., FRENCH, L., GARNER,
P., GRAFHAM, D. V., GRIFFITHS, C., GRIFFITHS, M. N., GWILLIAM, R., HALL, R. E., HAMMOND, S., HARLEY, J.
L., HEATH, P. D., HO, S., HOLDEN, J. L., HOWDEN, P. J., HUCKLE, E., HUNT, A. R., HUNT, S. E., JEKOSCH, K.,
JOHNSON, C. M., JOHNSON, D., KAY, M. P., KIMBERLEY, A. M., KING, A., KNIGHTS, A., LAIRD, G. K., LAWLOR,
S., LEHVASLAIHO, M. H., LEVERSHA, M., LLOYD, C., LLOYD, D. M., LOVELL, J. D., MARSH, V. L., MARTIN, S.
L., MCCONNACHIE, L. J., MCLAY, K., MCMURRAY, A. A., MILNE, S., MISTRY, D., MOORE, M. J., MULLIKIN, J.
C., NICKERSON, T., OLIVER, K., PARKER, A., PATEL, R., PEARCE, T. A., PECK, A. I., PHILLIMORE, B. J.,
PRATHALINGAM, S. R., PLUMB, R. W., RAMSAY, H., RICE, C. M., ROSS, M. T., SCOTT, C. E., SEHRA, H. K.,
SHOWNKEEN, R., SIMS, S., SKUCE, C. D., et al. (2001). The DNA sequence and comparative analysis of human
chromosome 20. Nature 414, 865-71.
DIB, C., FAURE, S., FIZAMES, C., SAMSON, D., DROUOT, N., VIGNAL, A., MILLASSEAU, P., MARC, S., HAZAN, J., SEBOUN,
E., LATHROP, M., GYAPAY, G., MORISSETTE, J. & WEISSENBACH, J. (1996). A comprehensive genetic map of
the human genome based on 5,264 microsatellites. Nature 380, 152-4.
DICKSON, D. (1999). Gene estimate rises as US and UK discuss freedom of access. Nature 401, 311.
DIMITRI, P. & JUNAKOVIC, N. (1999). Revising the selfish DNA hypothesis: new evidence on accumulation of
transposable elements in heterochromatin. Trends Genet 15, 123-4.
DOBZHANSKY, T. & STURTEVANT, A. H. (1938). INVERSIONS IN THE CHROMOSOMES OF DROSOPHILA
PSEUDOOBSCURA. Genetics 23, 28-64.
DORUS, S., GILBERT, S. L., FORSTER, M. L., BARNDT, R. J. & LAHN, B. T. (2003). The CDY-related gene family:
coordinated evolution in copy number, expression profile and protein sequence. Hum Mol Genet 12, 1643-50.
DUJON, B., SHERMAN, D., FISCHER, G., DURRENS, P., CASAREGOLA, S., LAFONTAINE, I., DE MONTIGNY, J., MARCK , C.,
NEUVEGLISE, C., TALLA, E., GOFFARD, N., FRANGEUL, L., AIGLE, M., ANTHOUARD, V., BABOUR, A., BARBE, V.,
BARNAY, S., BLANCHIN, S., BECKERICH, J. M., BEYNE, E., BLEYKASTEN, C., BOISRAME, A., BOYER, J.,
CATTOLICO, L., CONFANIOLERI, F., DE DARUVAR, A., DESPONS, L., FABRE, E., FAIRHEAD, C., FERRY-DUMAZET,
H., GROPPI, A., HANTRAYE, F., HENNEQUIN, C., JAUNIAUX, N., JOYET, P., KACHOURI, R., KERREST, A.,
KOSZUL, R., LEMAIRE, M., LESUR, I., MA, L., MULLER, H., NICAUD, J. M., NIKOLSKI, M., OZTAS, S., OZIERKALOGEROPOULOS, O., PELLENZ, S., POTIER, S., RICHARD, G. F., STRAUB, M. L., SULEAU, A., SWENNEN, D.,
TEKAIA, F., WESOLOWSKI-LOUVEL, M., WESTHOF, E., WIRTH, B., ZENIOU-MEYER, M., ZIVANOVIC, I.,
BOLOTIN-FUKUHARA, M., THIERRY, A., BOUCHIER, C., CAUDRON, B., SCARPELLI, C., GAILLARDIN, C.,
WEISSENBACH, J., WINCKER, P. & SOUCIET, J. L. (2004). Genome evolution in yeasts. Nature 430, 35-44.
DUNHAM, A., MATTHEWS, L. H., BURTON, J., ASHURST, J. L., HOWE, K. L., ASHCROFT, K. J., BEARE, D. M., BURFORD, D.
C., HUNT, S. E., GRIFFITHS-JONES, S., JONES, M. C., KEENAN, S. J., OLIVER, K., SCOTT, C. E., AINSCOUGH, R.,
ALMEIDA, J. P., AMBROSE, K. D., ANDREWS, D. T., ASHWELL, R. I., BABBAGE, A. K., BAGGULEY, C. L., BAILEY,
J., BANNERJEE, R., BARLOW, K. F., BATES, K., BEASLEY, H., BIRD, C. P., BRAY-ALLEN, S., BROWN, A. J.,
BROWN, J. Y., BURRILL, W., CARDER, C., CARTER, N. P., CHAPMAN, J. C., CLAMP, M. E., CLARK , S. Y.,
CLARKE, G., CLEE, C. M., CLEGG, S. C., COBLEY, V., COLLINS, J. E., CORBY, N., COVILLE, G. J., DELOUKAS,
P., DHAMI, P., DUNHAM, I., DUNN, M., EARTHROWL, M. E., ELLINGTON, A. G., FAULKNER, L., FRANKISH, A. G.,
FRANKLAND, J., FRENCH, L., GARNER, P., GARNETT, J., GILBERT, J. G., GILSON, C. J., GHORI, J., GRAFHAM, D.
V., GRIBBLE, S. M., GRIFFITHS, C., HALL, R. E., HAMMOND, S., HARLEY, J. L., HART, E. A., HEATH, P. D.,
HOWDEN, P. J., HUCKLE, E. J., HUNT, P. J., HUNT, A. R., JOHNSON, C., JOHNSON, D., KAY, M., KIMBERLEY, A.
M., KING, A., LAIRD, G. K., LANGFORD, C. J., LAWLOR, S., LEONGAMORNLERT, D. A., LLOYD, D. M., LLOYD,
C., LOVELAND, J. E., LOVELL, J., MARTIN, S., MASHREGHI-MOHAMMADI, M., MCLAREN, S. J., MCMURRAY, A.,
MILNE, S., MOORE, M. J., NICKERSON, T., PALMER, S. A., PEARCE, A. V., PECK , A. I., PELAN, S., PHILLIMORE,
B., PORTER, K. M., RICE, C. M., SEARLE, S., SEHRA, H. K., SHOWNKEEN, R., et al. (2004). The DNA sequence
and analysis of human chromosome 13. Nature 428, 522-8.
DURET, L. (2001). Why do genes have introns? Recombination might add a new piece to the puzzle. Trends Genet 17,
172-5.
145
DURET, L., MARAIS, G. & BIEMONT, C. (2000). Transposons but not retrotransposons are located preferentially in
regions of high recombination rate in Caenorhabditis elegans. Genetics 156, 1661-9.
EDDY, S. R. (2004a). What is a hidden Markov model? Nat Biotechnol 22, 1315-6.
EDDY, S. R. (2004b). What is dynamic programming? Nat Biotechnol 22, 909-10.
EDDY, S. R. (2005). A model of the statistical power of comparative genome sequence analysis. PLoS Biol 3, e10.
EICKBUSH, T. H. & FURANO, A. V. (2002). Fruit flies and humans respond differently to retrotransposons. Curr Opin
Genet Dev 12, 669-74.
ELGAR, G., CLARK , M. S., MEEK , S., SMITH, S., WARNER, S., EDWARDS, Y. J., BOUCHIREB, N., COTTAGE, A., YEO, G. S.,
UMRANIA, Y., WILLIAMS, G. & BRENNER, S. (1999). Generation and analysis of 25 Mb of genomic DNA from
the pufferfish Fugu rubripes by sequence scanning. Genome Res 9, 960-71.
ELGAR, G., RATTRAY, F., GREYSTRONG, J. & BRENNER, S. (1995). Genomic structure and nucleotide sequence of the
p55 gene of the puffer fish Fugu rubripes. Genomics 27, 442-6.
EL-MABROUK , N. & SANKOFF, D. (1999). On the Reconstruction of Ancient Doubled Circular Genomes Using
Minimum Reversals. Genome Inform Ser Workshop Genome Inform 10, 83-93.
EVANS, P. D., GILBERT, S. L., MEKEL-BOBROV, N., VALLENDER, E. J., ANDERSON, J. R., VAEZ-A ZIZI, L. M., TISHKOFF, S.
A., HUDSON, R. R. & LAHN, B. T. (2005). Microcephalin, a gene regulating brain size, continues to evolve
adaptively in humans. Science 309, 1717-20.
EWING, B. & GREEN, P. (1998). Base-calling of automated sequencer traces using phred. II. Error probabilities.
Genome Res 8, 186-94.
EWING, B. & GREEN, P. (2000). Analysis of expressed sequence tags indicates 35,000 human genes. Nat Genet 25, 232-4.
EWING, B., HILLIER, L., WENDL, M. C. & GREEN, P. (1998). Base-calling of automated sequencer traces using phred. I.
Accuracy assessment. Genome Res 8, 175-85.
FINK, L. & COLLINS, F. S. (1997). The Human Genome Project: view from the National Institutes of Health. J Am Med
Womens Assoc 52, 4-7, 15.
FISCHER, C., BOUNEAU, L., COUTANCEAU, J. P., WEISSENBACH, J., VOLFF, J. N. & O ZOUF-COSTAZ, C. (2004). Global
heterochromatic colocalization of transposable elements with minisatellites in the compact genome of the
pufferfish Tetraodon nigroviridis. Gene 336, 175-83.
FISCHER, C., OZOUF-COSTAZ, C., ROEST CROLLIUS, H., DASILVA, C., JAILLON, O., BOUNEAU, L., BONILLO, C.,
WEISSENBACH, J. & BERNOT, A. (2000). Karyotype and chromosome location of characteristic tandem
repeats in the pufferfish Tetraodon nigroviridis. Cytogenet Cell Genet 88, 50-5.
FLOREA, L., HARTZELL, G., ZHANG, Z., RUBIN, G. M. & MILLER, W. (1998). A computer program for aligning a cDNA
sequence with a genomic DNA sequence. Genome Res 8, 967-74.
FOISSAC, S., BARDOU, P., MOISAN, A., CROS, M.-J. & SCHIEX, T. (2003). EUGENE'HOM: a generic similarity-based
gene finder using multiple homologous sequences. Nucl. Acids Res. 31, 3742-3745.
FORTNA, A., KIM, Y., MACLAREN, E., MARSHALL, K., HAHN, G., MELTESEN, L., BRENTON, M., HINK, R., BURGERS, S.,
HERNANDEZ-BOUSSARD, T., KARIMPOUR-FARD, A., GLUECK, D., MCGAVRAN, L., BERRY, R., POLLACK , J. &
SIKELA, J. M. (2004). Lineage-specific gene duplication and loss in human and great ape evolution. PLoS Biol
2, E207.
FRIEDMAN, R. & HUGHES, A. L. (2001). Pattern and timing of gene duplication in animal genomes. Genome Res 11,
1842-7.
GALLARDO, M. H., BICKHAM, J. W., HONEYCUTT, R. L., OJEDA, R. A. & KOHLER, N. (1999). Discovery of tetraploidy in
a mammal. Nature 401, 341.
GARDINER-GARDEN, M. & FROMMER, M. (1987). CpG islands in vertebrate genomes. J Mol Biol 196, 261-82.
146
GELFAND, M. S., MIRONOV, A. A. & PEVZNER, P. A. (1996). Gene recognition via spliced sequence alignment. Proc Natl
Acad Sci U S A 93, 9061-6.
GELLNER, K. & BRENNER, S. (1999). Analysis of 148 kb of genomic DNA around the wnt1 locus of Fugu rubripes.
Genome Res 9, 251-8.
GIBBS, R. A., WEINSTOCK , G. M., METZKER, M. L., MUZNY, D. M., SODERGREN, E. J., SCHERER, S., SCOTT, G., STEFFEN,
D., WORLEY, K. C., BURCH, P. E., OKWUONU, G., HINES, S., LEWIS, L., DERAMO, C., DELGADO, O., DUGANROCHA, S., MINER, G., MORGAN, M., HAWES, A., GILL, R., CELERA, HOLT, R. A., ADAMS, M. D., AMANATIDES,
P. G., BADEN-TILLSON, H., BARNSTEAD, M., CHIN, S., EVANS, C. A., FERRIERA, S., FOSLER, C., GLODEK , A.,
GU, Z., JENNINGS, D., KRAFT, C. L., NGUYEN, T., PFANNKOCH, C. M., SITTER, C., SUTTON, G. G., VENTER, J. C.,
WOODAGE, T., SMITH, D., LEE, H. M., GUSTAFSON, E., CAHILL, P., KANA, A., DOUCETTE-STAMM, L.,
WEINSTOCK , K., FECHTEL, K., WEISS, R. B., DUNN, D. M., GREEN, E. D., BLAKESLEY, R. W., BOUFFARD, G. G.,
DE JONG, P. J., OSOEGAWA, K., ZHU, B., MARRA, M., SCHEIN, J., BOSDET, I., FJELL, C., JONES, S.,
KRZYWINSKI, M., MATHEWSON, C., SIDDIQUI, A., WYE, N., MCPHERSON, J., ZHAO, S., FRASER, C. M., SHETTY,
J., SHATSMAN, S., GEER, K., CHEN, Y., ABRAMZON, S., NIERMAN, W. C., HAVLAK , P. H., CHEN, R., DURBIN, K.
J., EGAN, A., REN, Y., SONG, X. Z., LI, B., LIU, Y., QIN, X., CAWLEY, S., COONEY, A. J., D'SOUZA, L. M.,
MARTIN, K., WU, J. Q., GONZALEZ-G ARAY, M. L., JACKSON, A. R., KALAFUS, K. J., MCLEOD, M. P.,
MILOSAVLJEVIC, A., VIRK , D., VOLKOV, A., WHEELER, D. A., ZHANG, Z., BAILEY, J. A., EICHLER, E. E., TUZUN,
E., et al. (2004). Genome sequence of the Brown Norway rat yields insights into mammalian evolution.
Nature 428, 493-521.
GILBERT, W. (1978). Why genes in pieces? Nature 271, 501.
GILBERT, W. (1987). The exon theory of genes. Cold Spring Harb Symp Quant Biol 52, 901-5.
GILSON, P. R. & MCFADDEN, G. I. (1996). The miniaturized nuclear genome of eukaryotic endosymbiont contains
genes that overlap, genes that are cotranscribed, and the smallest known spliceosomal introns. Proc Natl
Acad Sci U S A 93, 7737-42.
GLEMET, E. & CODANI, J. J. (1997). LASSAP, a LArge Scale Sequence compArison Package. Comput Appl Biosci 13,
137-43.
GOFFEAU, A., BARRELL, B. G., BUSSEY, H., DAVIS, R. W., DUJON, B., FELDMANN, H., GALIBERT, F., HOHEISEL, J. D.,
JACQ, C., JOHNSTON, M., LOUIS, E. J., MEWES, H. W., MURAKAMI, Y., PHILIPPSEN, P., TETTELIN, H. &
OLIVER, S. G. (1996). Life with 6000 genes. Science 274, 546, 563-7.
GREEN, P. (1994). Phrap documentation. http://www.phrap.org.
GREEN, P. (1997). Against a Whole-Genome Shotgun. Genome Res. 7, 410-417.
GREGORY, T. R. & HEBERT, P. D. (1999). The modulation of DNA content: proximate causes and ultimate
consequences. Genome Res 9, 317-24.
GUMUCIO, D. L., HEILSTEDT-WILLIAMSON, H., GRAY, T. A., TARLE, S. A., SHELTON, D. A., TAGLE, D. A., SLIGHTOM, J.
L., GOODMAN, M. & COLLINS, F. S. (1992). Phylogenetic footprinting reveals a nuclear protein which binds to
silencer sequences in the human gamma and epsilon globin genes. Mol Cell Biol 12, 4919-29.
GUSFIELD, D. (1997). Sequence assembly. In Algorithms on strings, trees, and sequences (ed. C. U. press), pp. 420-424.
HATTORI, M., FUJIYAMA, A., TAYLOR, T. D., WATANABE, H., YADA, T., PARK, H. S., TOYODA, A., ISHII, K., TOTOKI, Y.,
CHOI, D. K., GRONER, Y., SOEDA, E., OHKI, M., TAKAGI, T., SAKAKI, Y., TAUDIEN, S., BLECHSCHMIDT, K.,
POLLEY, A., MENZEL, U., DELABAR, J., KUMPF, K., LEHMANN, R., PATTERSON, D., REICHWALD, K., RUMP, A.,
SCHILLHABEL, M., SCHUDY, A., ZIMMERMANN, W., ROSENTHAL, A., KUDOH, J., SCHIBUYA, K., KAWASAKI, K.,
ASAKAWA, S., SHINTANI, A., SASAKI, T., NAGAMINE, K., MITSUYAMA, S., ANTONARAKIS, S. E., MINOSHIMA, S.,
SHIMIZU, N., NORDSIEK , G., HORNISCHER, K., BRANT, P., SCHARFE, M., SCHON, O., DESARIO, A., REICHELT, J.,
KAUER, G., BLOCKER, H., RAMSER, J., BECK , A., KLAGES, S., HENNIG, S., RIESSELMANN, L., DAGAND, E.,
HAAF, T., WEHRMEYER, S., BORZYM, K., GARDINER, K., NIZETIC, D., FRANCIS, F., LEHRACH, H., REINHARDT,
R. & YASPO, M. L. (2000). The DNA sequence of human chromosome 21. Nature 405, 311-9.
HEILIG, R., ECKENBERG, R., PETIT, J. L., FONKNECHTEN, N., DA SILVA, C., CATTOLICO, L., LEVY, M., BARBE, V., DE
BERARDINIS, V., URETA-VIDAL, A., PELLETIER, E., VICO, V., ANTHOUARD, V., ROWEN, L., MADAN, A., QIN, S.,
SUN, H., DU, H., PEPIN, K., ARTIGUENAVE, F., ROBERT, C., CRUAUD, C., BRULS, T., JAILLON, O., FRIEDLANDER,
L., SAMSON, G., BROTTIER, P., CURE, S., SEGURENS, B., ANIERE, F., SAMAIN, S., CRESPEAU, H., ABBASI, N.,
AIACH, N., BOSCUS, D., DICKHOFF, R., DORS, M., DUBOIS, I., FRIEDMAN, C., GOUYVENOUX, M., JAMES, R.,
147
MAIREY-ESTRADA, B., MANGENOT, S., MARTINS, N., MENARD, M., OZTAS, S., RATCLIFFE, A., SHAFFER, T.,
TRASK , B., VACHERIE, B., BELLEMERE, C., BELSER, C., BESNARD-GONNET, M., BARTOL-MAVEL, D., BOUTARD,
M., BRIEZ-SILLA, S., COMBETTE, S., DUFOSSE-LAURENT, V., FERRON, C., LECHAPLAIS, C., LOUESSE, C.,
MUSELET, D., MAGDELENAT, G., PATEAU, E., PETIT, E., SIRVAIN-TRUKNIEWICZ, P., TRYBOU, A., VEGACZARNY, N., BATAILLE, E., BLUET, E., BORDELAIS, I., DUBOIS, M., DUMONT, C., GUERIN, T., HAFFRAY, S.,
HAMMADI, R., MUANGA, J., PELLOUIN, V., ROBERT, D., WUNDERLE, E., GAUGUET, G., ROY, A., SAINTEMARTHE, L., VERDIER, J., VERDIER-DISCALA, C., HILLIER, L., FULTON, L., MCPHERSON, J., MATSUDA, F.,
WILSON, R., SCARPELLI, C., GYAPAY, G., WINCKER, P., SAURIN, W., QUETIER, F., WATERSTON, R., HOOD, L. &
WEISSENBACH, J. (2003). The DNA sequence and analysis of human chromosome 14. Nature 421, 601-7.
HILL, W. G. & ROBERTSON, A. (1966). The effect of linkage on limits to artificial selection. Genet Res 8, 269-94.
HILLIER, L. D., LENNON, G., BECKER, M., BONALDO, M. F., CHIAPELLI, B., CHISSOE, S., DIETRICH, N., DUBUQUE, T.,
FAVELLO, A., GISH, W., HAWKINS, M., HULTMAN, M., KUCABA, T., LACY, M., LE, M., LE, N., MARDIS, E.,
MOORE, B., MORRIS, M., PARSONS, J., PRANGE, C., RIFKIN, L., ROHLFING, T., SCHELLENBERG, K., MARRA, M.
& ET AL. (1996). Generation and analysis of 280,000 human expressed sequence tags. Genome Res 6, 807-28.
HILLIER, L. W., FULTON, R. S., FULTON, L. A., GRAVES, T. A., PEPIN, K. H., WAGNER-MCPHERSON, C., LAYMAN, D.,
MAAS, J., JAEGER, S., WALKER, R., WYLIE, K., SEKHON, M., BECKER, M. C., O'LAUGHLIN, M. D., SCHALLER,
M. E., FEWELL, G. A., DELEHAUNTY, K. D., MINER, T. L., NASH, W. E., CORDES, M., DU, H., SUN, H.,
EDWARDS, J., BRADSHAW-CORDUM, H., ALI, J., ANDREWS, S., ISAK, A., VANBRUNT, A., NGUYEN, C., DU, F.,
LAMAR, B., COURTNEY, L., KALICKI, J., OZERSKY, P., BIELICKI, L., SCOTT, K., HOLMES, A., HARKINS, R.,
HARRIS, A., STRONG, C. M., HOU, S., TOMLINSON, C., DAUPHIN-KOHLBERG, S., KOZLOWICZ-REILLY, A.,
LEONARD, S., ROHLFING, T., ROCK, S. M., TIN-WOLLAM, A. M., ABBOTT, A., MINX, P., MAUPIN, R.,
STROWMATT, C., LATREILLE, P., MILLER, N., JOHNSON, D., MURRAY, J., WOESSNER, J. P., WENDL, M. C.,
YANG, S. P., SCHULTZ, B. R., WALLIS, J. W., SPIETH, J., BIERI, T. A., NELSON, J. O., BERKOWICZ, N.,
WOHLDMANN, P. E., COOK, L. L., HICKENBOTHAM, M. T., ELDRED, J., WILLIAMS, D., BEDELL, J. A., MARDIS,
E. R., CLIFTON, S. W., CHISSOE, S. L., MARRA, M. A., RAYMOND, C., HAUGEN, E., GILLETT, W., ZHOU, Y.,
JAMES, R., PHELPS, K., IADANOTO, S., BUBB, K., SIMMS, E., LEVY, R., CLENDENNING, J., KAUL, R., KENT, W. J.,
FUREY, T. S., BAERTSCH, R. A., BRENT, M. R., KEIBLER, E., FLICEK , P., BORK, P., SUYAMA, M., BAILEY, J. A.,
PORTNOY, M. E., TORRENTS, D., CHINWALLA, A. T., GISH, W. R., et al. (2003). The DNA sequence of human
chromosome 7. Nature 424, 157-64.
HILLIER, L. W., MILLER, W., BIRNEY, E., WARREN, W., HARDISON, R. C., PONTING, C. P., BORK, P., BURT, D. W.,
GROENEN, M. A., DELANY, M. E., DODGSON, J. B., CHINWALLA, A. T., CLIFTEN, P. F., CLIFTON, S. W.,
DELEHAUNTY, K. D., FRONICK , C., FULTON, R. S., GRAVES, T. A., KREMITZKI, C., LAYMAN, D., MAGRINI, V.,
MCPHERSON, J. D., MINER, T. L., MINX, P., NASH, W. E., NHAN, M. N., NELSON, J. O., ODDY, L. G., POHL, C.
S., RANDALL-MAHER, J., SMITH, S. M., WALLIS, J. W., YANG, S. P., ROMANOV, M. N., RONDELLI, C. M.,
PATON, B., SMITH, J., MORRICE, D., DANIELS, L., TEMPEST, H. G., ROBERTSON, L., MASABANDA, J. S., GRIFFIN,
D. K., VIGNAL, A., FILLON, V., JACOBBSON, L., KERJE, S., ANDERSSON, L., CROOIJMANS, R. P., AERTS, J., VAN
DER POEL, J. J., ELLEGREN, H., CALDWELL, R. B., HUBBARD, S. J., GRAFHAM, D. V., KIERZEK , A. M.,
MCLAREN, S. R., OVERTON, I. M., ARAKAWA, H., BEATTIE, K. J., BEZZUBOV, Y., BOARDMAN, P. E., BONFIELD,
J. K., CRONING, M. D., DAVIES, R. M., FRANCIS, M. D., HUMPHRAY, S. J., SCOTT, C. E., TAYLOR, R. G., TICKLE,
C., BROWN, W. R., ROGERS, J., BUERSTEDDE, J. M., WILSON, S. A., STUBBS, L., OVCHARENKO, I., GORDON, L.,
LUCAS, S., MILLER, M. M., INOKO, H., SHIINA, T., KAUFMAN, J., SALOMONSEN, J., SKJOEDT, K., WONG, G. K.,
WANG, J., LIU, B., YU, J., YANG, H., NEFEDOV, M., KORIABINE, M., DEJONG, P. J., GOODSTADT, L., WEBBER,
C., DICKENS, N. J., LETUNIC, I., SUYAMA, M., TORRENTS, D., VON MERING, C., ZDOBNOV, E. M., et al. (2004).
Sequence and comparative analysis of the chicken genome provide unique perspectives on vertebrate
evolution. Nature 432, 695-716.
HINEGARDNER, R. (1968). Evolution of cellular DNA content in teleost fishes. American Naturalist 102, 517-523.
HINEGARDNER, R. (1976). The cellular DNA content of sharks, rays and some other fishes. Comp Biochem Physiol B
55, 367-70.
HOEGG, S., BRINKMANN, H., TAYLOR, J. S. & MEYER, A. (2004). Phylogenetic timing of the fish-specific genome
duplication correlates with the diversification of teleost fish. J Mol Evol 59, 190-203.
HOLLAND, P. W., GARCIA-FERNANDEZ, J., WILLIAMS, N. A. & SIDOW, A. (1994). Gene duplications and the origins of
vertebrate development. Dev Suppl, 125-33.
HOW, G. F., VENKATESH, B. & BRENNER, S. (1996). Conserved linkage between the puffer fish (Fugu rubripes) and
human genes for platelet-derived growth factor receptor and macrophage colony-stimulating factor
receptor. Genome Res 6, 1185-91.
148
HOWE, K. L., CHOTHIA, T. & DURBIN, R. (2002). GAZE: a generic framework for the integration of gene-prediction
data by dynamic programming. Genome Res 12, 1418-27.
HSU, F., KENT, W. J., CLAWSON, H., KUHN, R. M., DIEKHANS, M. & HAUSSLER, D. (2006). The UCSC Known Genes.
Bioinformatics 22, 1036-46.
HUANG, X., WANG, J., ALURU, S., YANG, S. P. & HILLIER, L. (2003). PCAP: a whole-genome assembly program.
Genome Res 13, 2164-70.
HUBBARD, T., ANDREWS, D., CACCAMO, M., CAMERON, G., CHEN, Y., CLAMP, M., CLARKE, L., COATES, G., COX, T.,
CUNNINGHAM, F., CURWEN, V., CUTTS, T., DOWN, T., DURBIN, R., FERNANDEZ-SUAREZ, X. M., GILBERT, J.,
HAMMOND, M., HERRERO, J., HOTZ, H., HOWE, K., IYER, V., JEKOSCH, K., KAHARI, A., KASPRZYK , A., KEEFE,
D., KEENAN, S., KOKOCINSCI, F., LONDON, D., LONGDEN, I., MCVICKER, G., MELSOPP, C., MEIDL, P., POTTER,
S., PROCTOR, G., RAE, M., RIOS, D., SCHUSTER, M., SEARLE, S., SEVERIN, J., SLATER, G., SMEDLEY, D., SMITH,
J., SPOONER, W., STABENAU, A., STALKER, J., STOREY, R., TREVANION, S., URETA-VIDAL, A., VOGEL, J.,
WHITE, S., WOODWARK , C. & BIRNEY, E. (2005). Ensembl 2005. Nucleic Acids Res 33 Database Issue, D44753.
HUBBARD, T., BARKER, D., BIRNEY, E., CAMERON, G., CHEN, Y., CLARK , L., COX, T., CUFF, J., CURWEN, V., DOWN, T.,
DURBIN, R., EYRAS, E., GILBERT, J., HAMMOND, M., HUMINIECKI, L., KASPRZYK , A., LEHVASLAIHO, H.,
LIJNZAAD, P., MELSOPP, C., MONGIN, E., PETTETT, R., POCOCK, M., POTTER, S., RUST, A., SCHMIDT, E.,
SEARLE, S., SLATER, G., SMITH, J., SPOONER, W., STABENAU, A., STALKER, J., STUPKA, E., URETA-VIDAL, A.,
VASTRIK , I. & CLAMP, M. (2002). The Ensembl genome database project. Nucleic Acids Res 30, 38-41.
HUDSON, T. J., STEIN, L. D., GERETY, S. S., MA, J., CASTLE, A. B., SILVA, J., SLONIM, D. K., BAPTISTA, R., KRUGLYAK ,
L., XU, S. H., HU, X., COLBERT, A. M., ROSENBERG, C., REEVE-DALY, M. P., ROZEN, S., HUI, L., WU, X.,
VESTERGAARD, C., WILSON, K. M., BAE, J. S., MAITRA, S., GANIATSAS, S., EVANS, C. A., DEANGELIS, M. M.,
INGALLS, K. A., NAHF, R. W., HORTON, L. T., JR., ANDERSON, M. O., COLLYMORE, A. J., YE, W.,
KOUYOUMJIAN, V., ZEMSTEVA, I. S., TAM, J., DEVINE, R., COURTNEY, D. F., RENAUD, M. T., NGUYEN, H.,
O'CONNOR, T. J., FIZAMES, C., FAURE, S., GYAPAY, G., DIB, C., MORISSETTE, J., ORLIN, J. B., BIRREN, B. W.,
GOODMAN, N., WEISSENBACH, J., HAWKINS, T. L., FOOTE, S., PAGE, D. C. & LANDER, E. S. (1995). An STSbased map of the human genome. Science 270, 1945-54.
HUGHES, A. L. (1999). Phylogenies of developmentally important proteins do not support the hypothesis of two rounds
of genome duplication early in vertebrate history. J Mol Evol 48, 565-76.
HUGHES, A. L. & FRIEDMAN, R. (2003). 2R or not 2R: testing hypotheses of genome duplication in early vertebrates. J
Struct Funct Genomics 3, 85-93.
HUSON, D. H., REINERT, K., KRAVITZ, S. A., REMINGTON, K. A., DELCHER, A. L., DEW, I. M., FLANIGAN, M., HALPERN,
A. L., LAI, Z., MOBARRY, C. M., SUTTON, G. G. & MYERS, E. W. (2001). Design of a compartmentalized
shotgun assembler for the human genome. Bioinformatics 17, 132S-139.
INTERNATIONAL HUMAN GENOME SEQUENCING CONSORTIUM. (2004). Finishing the euchromatic sequence of the human
genome. Nature 431, 931-45.
JAFFE, D. B., BUTLER, J., GNERRE, S., MAUCELI, E., LINDBLAD-TOH, K., MESIROV, J. P., ZODY, M. C. & LANDER, E. S.
(2003). Whole-genome sequence assembly for mammalian genomes: Arachne 2. Genome Res 13, 91-6.
JAILLON, O., AURY, J. M., BRUNET, F., PETIT, J. L., STANGE-THOMANN, N., MAUCELI, E., BOUNEAU, L., FISCHER, C.,
O ZOUF-COSTAZ, C., BERNOT, A., NICAUD, S., JAFFE, D., FISHER, S., LUTFALLA, G., DOSSAT, C., SEGURENS, B.,
DASILVA, C., SALANOUBAT, M., LEVY, M., BOUDET, N., CASTELLANO, S., ANTHOUARD, V., JUBIN, C., CASTELLI,
V., KATINKA, M., VACHERIE, B., BIEMONT, C., SKALLI, Z., CATTOLICO, L., POULAIN, J., DE BERARDINIS, V.,
CRUAUD, C., DUPRAT, S., BROTTIER, P., COUTANCEAU, J. P., GOUZY, J., PARRA, G., LARDIER, G., CHAPPLE, C.,
MCKERNAN, K. J., MCEWAN, P., BOSAK, S., KELLIS, M., VOLFF, J. N., GUIGO, R., ZODY, M. C., MESIROV, J.,
LINDBLAD-TOH, K., BIRREN, B., NUSBAUM, C., KAHN, D., ROBINSON-RECHAVI, M., LAUDET, V., SCHACHTER,
V., QUETIER, F., SAURIN, W., SCARPELLI, C., WINCKER, P., LANDER, E. S., WEISSENBACH, J. & ROEST
CROLLIUS, H. (2004). Genome duplication in the teleost fish Tetraodon nigroviridis reveals the early
vertebrate proto-karyotype. Nature 431, 946-57.
JAILLON, O., AURY, J. M., ROEST CROLLIUS, H., SALANOUBAT, M., WINCKER, P., DOSSAT, C., CASTELLI, V., BOUDET, N.,
SAMAIR, S., ECKENBERG, R., BONNEVAL, S., SAURIN, W., SCARPELLI, C., SCHACHTER, V. & WEISSENBACH, J.
(2003a). Genome-wide analyses based on comparative genomics. Cold Spring Harb Symp Quant Biol 68, 27582.
149
JAILLON, O., DOSSAT, C., ECKENBERG, R., EIGLMEIER, K., SEGURENS, B., AURY, J. M., ROTH, C. W., SCARPELLI, C.,
BREY, P. T., WEISSENBACH, J. & WINCKER, P. (2003b). Assessing the Drosophila melanogaster and Anopheles
gambiae genome annotations using genome-wide sequence comparisons. Genome Res 13, 1595-9.
JEFFREYS, A. J., WILSON, V., WOOD, D., SIMONS, J. P., KAY, R. M. & WILLIAMS, J. G. (1980). Linkage of adult alphaand beta-globin genes in X. laevis and gene duplication by tetraploidization. Cell 21, 555-64.
JOHNSON, K. R., WRIGHT, J. E., JR. & MAY, B. (1987). Linkage relationships reflecting ancestral tetraploidy in
salmonid fish. Genetics 116, 579-91.
JUANA CIUDAD, E. C., ALMUDENA VELASCO, JUAN M. LARA, JOSÉ AIJÓN, ALBERTO ORFAO,. (2002). Flow cytometry
measurement of the DNA contents of G0/G1 diploid cells from three different teleost fish species. Cytometry
48, 20-25.
KARLIN, S. & ALTSCHUL, S. F. (1993). Applications and statistics for multiple high-scoring segments in molecular
sequences. Proc Natl Acad Sci U S A 90, 5873-7.
KAROLCHIK , D., BAERTSCH, R., DIEKHANS, M., FUREY, T. S., HINRICHS, A., LU, Y. T., ROSKIN, K. M., SCHWARTZ, M.,
SUGNET, C. W., THOMAS, D. J., WEBER, R. J., HAUSSLER, D. & KENT, W. J. (2003). The UCSC Genome
Browser Database. Nucleic Acids Res 31, 51-4.
KASPRZYK , A., KEEFE, D., SMEDLEY, D., LONDON, D., SPOONER, W., MELSOPP, C., HAMMOND, M., ROCCA-SERRA, P.,
COX, T. & BIRNEY, E. (2004). EnsMart: a generic system for fast and flexible access to biological data.
Genome Res 14, 160-9.
KATINKA, M. D., DUPRAT, S., CORNILLOT, E., METENIER, G., THOMARAT, F., PRENSIER, G., BARBE, V., PEYRETAILLADE,
E., BROTTIER, P., WINCKER, P., DELBAC, F., EL ALAOUI, H., PEYRET, P., SAURIN, W., GOUY, M.,
WEISSENBACH, J. & VIVARES, C. P. (2001). Genome sequence and gene compaction of the eukaryote parasite
Encephalitozoon cuniculi. Nature 414, 450-3.
KEIGHREN, M. & WEST, J. D. (1993). Analysis of cell ploidy in histological sections of mouse tissues by DNA-DNA in
situ hybridization with digoxigenin-labelled probes. Histochem J 25, 30-44.
KELLIS, M., BIRREN, B. W. & LANDER, E. S. (2004). Proof and evolutionary analysis of ancient genome duplication in
the yeast Saccharomyces cerevisiae. Nature 428, 617-24.
KELLIS, M., PATTERSON, N., ENDRIZZI, M., BIRREN, B. & LANDER, E. S. (2003). Sequencing and comparison of yeast
species to identify genes and regulatory elements. Nature 423, 241-54.
KENT, W. J. (2002). BLAT--the BLAST-like alignment tool. Genome Res 12, 656-64.
KENT, W. J., BAERTSCH, R., HINRICHS, A., MILLER, W. & HAUSSLER, D. (2003). Evolution's cauldron: duplication,
deletion, and rearrangement in the mouse and human genomes. Proc Natl Acad Sci U S A 100, 11484-9.
KENT, W. J., SUGNET, C. W., FUREY, T. S., ROSKIN, K. M., PRINGLE, T. H., ZAHLER, A. M. & HAUSSLER, D. (2002). The
human genome browser at UCSC. Genome Res 12, 996-1006.
KENT, W. J. & ZAHLER, A. M. (2000). Conservation, regulation, synteny, and introns in a large-scale C. briggsae-C.
elegans genomic alignment. Genome Res 10, 1115-25.
KIMURA, M. (1968). Evolutionary rate at the molecular level. Nature 217, 624-6.
KIMURA, M. (1983). Théorie neutraliste de l'évolution, 1 edition. Flammarion.
KOH, C. G., OON, S. H. & BRENNER, S. (1997). Serine/threonine phosphatases of the pufferfish, Fugu rubripes. Gene
198, 223-8.
KOHN, M., HOGEL, J., VOGEL, W., MINICH, P., KEHRER-SAWATZKI, H., GRAVES, J. A. & HAMEISTER, H. (2006).
Reconstruction of a 450-My-old ancestral vertebrate protokaryotype. Trends Genet.
KORF, I., FLICEK , P., DUAN, D. & BRENT, M. R. (2001). Integrating genomic homology into gene structure prediction.
Bioinformatics 17 Suppl 1, S140-8.
150
KRICKER, M. C., DRAKE, J. W. & RADMAN, M. (1992). Duplication-targeted DNA methylation and mutagenesis in the
evolution of eukaryotic chromosomes. Proc Natl Acad Sci U S A 89, 1075-9.
KU, H. M., VISION, T., LIU, J. & TANKSLEY, S. D. (2000). Comparing sequenced segments of the tomato and
Arabidopsis genomes: large-scale duplication followed by selective gene loss creates a network of synteny.
Proc Natl Acad Sci U S A 97, 9121-6.
KUHN, T., S. (1970). La structure des révolutions scientifiques. Flammarion.
LANDER, E. S., LINTON, L. M., BIRREN, B., NUSBAUM, C., ZODY, M. C., BALDWIN, J., DEVON, K., DEWAR, K., DOYLE, M.,
FITZHUGH, W., FUNKE, R., GAGE, D., HARRIS, K., HEAFORD, A., HOWLAND, J., KANN, L., LEHOCZKY, J.,
LEVINE, R., MCEWAN, P., MCKERNAN, K., MELDRIM, J., MESIROV, J. P., MIRANDA, C., MORRIS, W., NAYLOR,
J., RAYMOND, C., ROSETTI, M., SANTOS, R., SHERIDAN, A., SOUGNEZ, C., STANGE-THOMANN, N., STOJANOVIC,
N., SUBRAMANIAN, A., WYMAN, D., ROGERS, J., SULSTON, J., AINSCOUGH, R., BECK , S., BENTLEY, D., BURTON,
J., CLEE, C., CARTER, N., COULSON, A., DEADMAN, R., DELOUKAS, P., DUNHAM, A., DUNHAM, I., DURBIN, R.,
FRENCH, L., GRAFHAM, D., GREGORY, S., HUBBARD, T., HUMPHRAY, S., HUNT, A., JONES, M., LLOYD, C.,
MCMURRAY, A., MATTHEWS, L., MERCER, S., MILNE, S., MULLIKIN, J. C., MUNGALL, A., PLUMB, R., ROSS, M.,
SHOWNKEEN, R., SIMS, S., WATERSTON, R. H., WILSON, R. K., HILLIER, L. W., MCPHERSON, J. D., MARRA, M.
A., MARDIS, E. R., FULTON, L. A., CHINWALLA, A. T., PEPIN, K. H., GISH, W. R., CHISSOE, S. L., WENDL, M. C.,
DELEHAUNTY, K. D., MINER, T. L., DELEHAUNTY, A., KRAMER, J. B., COOK, L. L., FULTON, R. S., JOHNSON, D.
L., MINX, P. J., CLIFTON, S. W., HAWKINS, T., BRANSCOMB, E., PREDKI, P., RICHARDSON, P., WENNING, S.,
SLEZAK , T., DOGGETT, N., CHENG, J. F., OLSEN, A., LUCAS, S., ELKIN, C., UBERBACHER, E., FRAZIER, M., et al.
(2001). Initial sequencing and analysis of the human genome. Nature 409, 860-921.
LANDER, E. S. & WATERMAN, M. S. (1988). Genomic mapping by fingerprinting random clones: a mathematical
analysis. Genomics 2, 231-9.
LARHAMMAR, D., LUNDIN, L. G. & HALLBOOK, F. (2002). The human Hox-bearing chromosome regions did arise by
block or chromosome (or even genome) duplications. Genome Res 12, 1910-20.
LARKIN, D. M., MURPHY, W. J., EVERTS- VAN DER WIND, A., BOURQUE, G., TESLER, G., AUVIL, L., BEEVER, J. E.,
CHOWDHARY, B. P., GALIBEZRT, F., GATZKE, L., HITTE, C., MEYERS, S. N., OSTRANDER, E. A., PAPE, G.,
PARKER, H. G., RAUDSEPP, T., ROGATCHEVA, M. B., SCHOOK, L. B., SKOW, L. C., WELGE, M., WOMACK , J. E.,
O'BRIEN, S. J., PEZVNER, P. A. & LEWIN, H. A. (2005). Dynamics of mammalian chromosome evolution
inferred from multispecies comparative maps. In The Biology of the Genomes, vol. 1 (ed. N. Y. Cold Spring
Harbor), pp. 155. Cold Spring Harbor, Cold Spring Habor Laboratory.
LIANG, F., HOLT, I., PERTEA, G., KARAMYCHEVA, S., SALZBERG, S. L. & QUACKENBUSH, J. (2000). Gene index analysis
of the human genome estimates approximately 120,000 genes. Nat Genet 25, 239-40.
LIM, E. H. & BRENNER, S. (1995). Sequence analysis of Mhc class II beta-like fragments in the pufferfish Fugu
rubripes. Immunogenetics 42, 432-3.
LIM, E. H. & BRENNER, S. (1997). Short-range linkage relationships of the valyl-tRNA synthetase gene in Fugu
rubripes. Immunogenetics 46, 332-6.
LIM, E. H. & BRENNER, S. (1999). Short-range linkage relationships, genomic organisation and sequence comparisons
of a cluster of five HSP70 genes in Fugu rubripes. Cell Mol Life Sci 55, 668-78.
LIM, E. H., CORROCHANO, L. M., ELGAR, G. & BRENNER, S. (1997). Genomic structure and sequence analysis of the
valyl-tRNA synthetase gene of the Japanese pufferfish, Fugu rubripes. DNA Seq 7, 141-51.
LINDBLAD-TOH, K., WADE, C. M., MIKKELSEN, T. S., KARLSSON, E. K., JAFFE, D. B., KAMAL, M., CLAMP, M., CHANG, J.
L., KULBOKAS, E. J., 3RD, ZODY, M. C., MAUCELI, E., XIE, X., BREEN, M., WAYNE, R. K., OSTRANDER, E. A.,
PONTING, C. P., GALIBERT, F., SMITH, D. R., DEJONG, P. J., KIRKNESS, E., ALVAREZ, P., BIAGI, T., BROCKMAN,
W., BUTLER, J., CHIN, C. W., COOK, A., CUFF, J., DALY, M. J., DECAPRIO, D., GNERRE, S., GRABHERR, M.,
KELLIS, M., KLEBER, M., BARDELEBEN, C., GOODSTADT, L., HEGER, A., HITTE, C., KIM, L., KOEPFLI, K. P.,
PARKER, H. G., POLLINGER, J. P., SEARLE, S. M., SUTTER, N. B., THOMAS, R., WEBBER, C., BALDWIN, J.,
ABEBE, A., ABOUELLEIL, A., AFTUCK , L., AIT-ZAHRA, M., ALDREDGE, T., ALLEN, N., AN, P., ANDERSON, S.,
ANTOINE, C., ARACHCHI, H., ASLAM, A., AYOTTE, L., BACHANTSANG, P., BARRY, A., BAYUL, T., BENAMARA,
M., BERLIN, A., BESSETTE, D., BLITSHTEYN, B., BLOOM, T., BLYE, J., BOGUSLAVSKIY, L., BONNET, C.,
BOUKHGALTER, B., BROWN, A., CAHILL, P., CALIXTE, N., CAMARATA, J., CHESHATSANG, Y., CHU, J., CITROEN,
M., COLLYMORE, A., COOKE, P., DAWOE, T., DAZA, R., DECKTOR, K., DEGRAY, S., DHARGAY, N., DOOLEY, K.,
DORJE, P., DORJEE, K., DORRIS, L., DUFFEY, N., DUPES, A., EGBIREMOLEN, O., ELONG, R., FALK , J., FARINA,
151
A., FARO, S., FERGUSON, D., FERREIRA, P., FISHER, S., FITZG ERALD, M., FOLEY, K., et al. (2005). Genome
sequence, comparative analysis and haplotype structure of the domestic dog. Nature 438, 803-19.
LOGSDON, J. M., JR., TYSHENKO, M. G., DIXON, C., J, D. J., WALKER, V. K. & PALMER, J. D. (1995). Seven newly
discovered intron positions in the triose-phosphate isomerase gene: evidence for the introns-late theory. Proc
Natl Acad Sci U S A 92, 8507-11.
LYNCH, M. & CONERY, J. S. (2000). The evolutionary fate and consequences of duplicate genes. Science 290, 1151-5.
LYNCH, M., O'HELY, M., WALSH, B. & FORCE, A. (2001). The probability of preservation of a newly arisen gene
duplicate. Genetics 159, 1789-804.
LYNCH, M. & RICHARDSON, A. O. (2002). The evolution of spliceosomal introns. Curr Opin Genet Dev 12, 701-10.
MACRAE, A. D. & BRENNER, S. (1995). Analysis of the dopamine receptor family in the compact genome of the puffer
fish Fugu rubripes. Genomics 25, 436-46.
MAGEN, A. & AST, G. (2005). The importance of being divisible by three in alternative splicing. Nucleic Acids Res 33,
5574-82.
MAKALOWSKI, W. (2001). Are We Polyploids? A Brief History of One Hypothesis. Genome Res. 11, 667-670.
MAQUAT, L. E. & CARMICHAEL, G. G. (2001). Quality control of mRNA function. Cell 104, 173-6.
MAQUAT, L. E. & LI, X. (2001). Mammalian heat shock p70 and histone H4 transcripts, which derive from naturally
intronless genes, are immune to nonsense-mediated decay. Rna 7, 445-56.
MARAIS, G., NOUVELLET, P., KEIGHTLEY, P. D. & CHARLESWORTH, B. (2005). Intron size and exon evolution in
Drosophila. Genetics 170, 481-5.
MARCHIONNI, M. & GILBERT, W. (1986). The triosephosphate isomerase gene from maize: introns antedate the plantanimal divergence. Cell 46, 133-41.
MARGULIES, E. H., BLANCHETTE, M., NISC COMPARATIVE SEQUENCING PROGRAM, HAUSSLER, D. & GREEN, E. D.
(2003). Identification and Characterization of Multi-Species Conserved Sequences. Genome Res. 13, 25072518.
MARGULIES, E. H., VINSON, J. P., MILLER, W., JAFFE, D. B., LINDBLAD-TOH, K., CHANG, J. L., GREEN, E. D., LANDER, E.
S., MULLIKIN, J. C. & CLAMP, M. (2005). An initial strategy for the systematic identification of functional
elements in the human genome by low-redundancy comparative sequencing. Proc Natl Acad Sci U S A 102,
4795-800.
MASON, P. J., STEVENS, D. J., LUZZATTO, L., BRENNER, S. & APARICIO, S. (1995). Genomic structure and sequence of
the Fugu rubripes glucose-6-phosphate dehydrogenase gene (G6PD). Genomics 26, 587-91.
MATSUZAKI, M., MISUMI, O., SHIN, I. T., MARUYAMA, S., TAKAHARA, M., MIYAGISHIMA, S. Y., MORI, T., NISHIDA, K.,
YAGISAWA, F., YOSHIDA, Y., NISHIMURA, Y., NAKAO, S., KOBAYASHI, T., MOMOYAMA, Y., HIGASHIYAMA, T.,
MINODA, A., SANO, M., NOMOTO, H., OISHI, K., HAYASHI, H., OHTA, F., NISHIZAKA, S., HAGA, S., MIURA, S.,
MORISHITA, T., KABEYA, Y., TERASAWA, K., SUZUKI, Y., ISHII, Y., ASAKAWA, S., TAKANO, H., OHTA, N.,
KUROIWA, H., TANAKA, K., SHIMIZU, N., SUGANO, S., SATO, N., NOZAKI, H., OGASAWARA, N., KOHARA, Y. &
KUROIWA, T. (2004). Genome sequence of the ultrasmall unicellular red alga Cyanidioschyzon merolae 10D.
Nature 428, 653-7.
MEKEL-BOBROV, N., GILBERT, S. L., EVANS, P. D., VALLENDER, E. J., ANDERSON, J. R., HUDSON, R. R., TISHKOFF, S. A.
& LAHN, B. T. (2005). Ongoing adaptive evolution of ASPM, a brain size determinant in Homo sapiens.
Science 309, 1720-2.
MEYER, A. & SCHARTL, M. (1999). Gene and genome duplications in vertebrates: the one-to-four (-to-eight in fish)
rule and the evolution of novel gene functions. Curr Opin Cell Biol 11, 699-704.
MOGHADAM, H. K., FERGUSON, M. M. & DANZMANN, R. G. (2005). Evidence for Hox gene duplication in rainbow trout
(Oncorhynchus mykiss): a tetraploid model species. J Mol Evol 61, 804-18.
152
MOTT, R. (1997). EST_GENOME: a program to align spliced DNA sequences to unspliced genomic DNA. Comput
Appl Biosci 13, 477-8.
MULLIKIN, J. C. & NING, Z. (2003). The phusion assembler. Genome Res 13, 81-90.
MUNGALL, A. J., PALMER, S. A., SIMS, S. K., EDWARDS, C. A., ASHURST, J. L., WILMING, L., JONES, M. C., HORTON, R.,
HUNT, S. E., SCOTT, C. E., GILBERT, J. G., CLAMP, M. E., BETHEL, G., MILNE, S., AINSCOUGH, R., ALMEIDA, J.
P., AMBROSE, K. D., ANDREWS, T. D., ASHWELL, R. I., BABBAGE, A. K., BAGGULEY, C. L., BAILEY, J.,
BANERJEE, R., BARKER, D. J., BARLOW, K. F., BATES, K., BEARE, D. M., BEASLEY, H., BEASLEY, O., BIRD, C.
P., BLAKEY, S., BRAY-ALLEN, S., BROOK, J., BROWN, A. J., BROWN, J. Y., BURFORD, D. C., BURRILL, W.,
BURTON, J., CARDER, C., CARTER, N. P., CHAPMAN, J. C., CLARK, S. Y., CLARK , G., CLEE, C. M., CLEGG, S.,
COBLEY, V., COLLIER, R. E., COLLINS, J. E., COLMAN, L. K., CORBY, N. R., COVILLE, G. J., CULLEY, K. M.,
DHAMI, P., DAVIES, J., DUNN, M., EARTHROWL, M. E., ELLINGTON, A. E., EVANS, K. A., FAULKNER, L.,
FRANCIS, M. D., FRANKISH, A., FRANKLAND, J., FRENCH, L., GARNER, P., GARNETT, J., GHORI, M. J., GILBY, L.
M., GILLSON, C. J., GLITHERO, R. J., GRAFHAM, D. V., GRANT, M., GRIBBLE, S., GRIFFITHS, C., GRIFFITHS, M.,
HALL, R., HALLS, K. S., HAMMOND, S., HARLEY, J. L., HART, E. A., HEATH, P. D., HEATHCOTT, R., HOLMES, S.
J., HOWDEN, P. J., HOWE, K. L., HOWELL, G. R., HUCKLE, E., HUMPHRAY, S. J., HUMPHRIES, M. D., HUNT, A.
R., JOHNSON, C. M., JOY, A. A., KAY, M., KEENAN, S. J., KIMBERLEY, A. M., KING, A., LAIRD, G. K.,
LANGFORD, C., LAWLOR, S., LEONGAMORNLERT, D. A., LEVERSHA, M., et al. (2003). The DNA sequence and
analysis of human chromosome 6. Nature 425, 805-11.
MURPHY, W. J., LARKIN, D. M., EVERTS- VAN DER WIND, A., BOURQUE, G., TESLER, G., AUVIL, L., BEEVER, J. E.,
CHOWDHARY, B. P., GALIBERT, F., GATZKE, L., HITTE, C., MEYERS, S. N., MILAN, D., OSTRANDER, E. A., PAPE,
G., PARKER, H. G., RAUDSEPP, T., ROGATCHEVA, M. B., SCHOOK, L. B., SKOW, L. C., WELGE, M., WOMACK , J.
E., O'BRIEN S, J., PEVZNER, P. A. & LEWIN, H. A. (2005). Dynamics of mammalian chromosome evolution
inferred from multispecies comparative maps. Science 309, 613-7.
MYERS, E. W., SUTTON, G. G., DELCHER, A. L., DEW, I. M., FASULO, D. P., FLANIGAN, M. J., KRAVITZ, S. A., MOBARRY,
C. M., REINERT, K. H., REMINGTON, K. A., ANSON, E. L., BOLANOS, R. A., CHOU, H. H., JORDAN, C. M.,
HALPERN, A. L., LONARDI, S., BEASLEY, E. M., BRANDON, R. C., CHEN, L., DUNN, P. J., LAI, Z., LIANG, Y.,
NUSSKERN, D. R., ZHAN, M., ZHANG, Q., ZHENG, X., RUBIN, G. M., ADAMS, M. D. & VENTER, J. C. (2000). A
whole-genome assembly of Drosophila. Science 287, 2196-204.
MYERS, E. W., SUTTON, G. G., SMITH, H. O., ADAMS, M. D. & VENTER, J. C. (2002). On the sequencing and assembly of
the human genome. Proc Natl Acad Sci U S A 99, 4145-6.
NADEAU, J. H. & TAYLOR, B. A. (1984). Lengths of chromosomal segments conserved since divergence of man and
mouse. Proc Natl Acad Sci U S A 81, 814-8.
NAITO, T., SAITO, Y., YAMAMOTO, J., NOZAKI, Y., TOMURA, K., HAZAMA, M., NAKANISHI, S. & BRENNER, S. (1998).
Putative pheromone receptors related to the Ca2+-sensing receptor in Fugu. Proc Natl Acad Sci U S A 95,
5178-81.
NEAFSEY, D. E., BLUMENSTIEL, J. P. & HARTL, D. L. (2004). Different regulatory mechanisms underlie similar
transposable element profiles in pufferfish and fruitflies. Mol Biol Evol 21, 2310-8.
NEEDLEMAN, S. B. & WUNSCH, C. D. (1970). A general method applicable to the search for similarities in the amino
acid sequence of two proteins. J Mol Biol 48, 443-53.
NIELSEN, R., BUSTAMANTE, C., CLARK , A. G., GLANOWSKI, S., SACKTON, T. B., HUBISZ, M. J., FLEDEL-ALON, A.,
TANENBAUM, D. M., CIVELLO, D., WHITE, T. J., J, J. S., ADAMS, M. D. & CARGILL, M. (2005). A scan for
positively selected genes in the genomes of humans and chimpanzees. PLoS Biol 3, e170.
OHNO, S. (1970). Evolution by gene duplication. Spinger-Verlag, New-York.
OLSON, M., HOOD, L., CANTOR, C. & BOTSTEIN, D. (1989). A common language for physical mapping of the human
genome. Science 245, 1434-5.
PARRA, G., AGARWAL, P., ABRIL, J. F., WIEHE, T., FICKETT, J. W. & GUIGO, R. (2003). Comparative gene prediction in
human and mouse. Genome Res 13, 108-17.
PARRA, G., BLANCO, E. & GUIGO, R. (2000). GeneID in Drosophila. Genome Res 10, 511-5.
PEIXOTO, B. R. & BRENNER, S. (2000). Characterization of approximately 50 kb of the immunoglobulin VH locus of
the Japanese pufferfish, Fugu rubripes. Immunogenetics 51, 443-51.
153
PEIXOTO, B. R., MIKAWA, Y. & BRENNER, S. (2000). Characterization of the recombinase activating gene-1 and 2 locus
in the Japanese pufferfish, Fugu rubripes. Gene 246, 275-83.
PEVZNER, P. (2000). Computational Molecular Biology (ed. T. M. Press).
PEVZNER, P. & TESLER, G. (2003a). Genome rearrangements in mammalian evolution: lessons from human and mouse
genomes. Genome Res 13, 37-45.
PEVZNER, P. & TESLER, G. (2003b). Human and mouse genomic sequences reveal extensive breakpoint reuse in
mammalian evolution. Proc Natl Acad Sci U S A 100, 7672-7.
PONGER, L., DURET, L. & MOUCHIROUD, D. (2001). Determinants of CpG islands: expression in early embryo and
isochore structure. Genome Res 11, 1854-60.
POPPER, K., R. (1959). La logique de la découverte scientifique. Hutchinson / Payot, London.
POSTLETHWAIT, J., AMORES, A., CRESKO, W., SINGER, A. & YAN, Y. L. (2004). Subfunction partitioning, the teleost
radiation and the annotation of the human genome. Trends Genet 20, 481-90.
POSTLETHWAIT, J. H., WOODS, I. G., NGO-HAZELETT, P., YAN, Y. L., KELLY, P. D., CHU, F., HUANG, H., HILL-FORCE, A.
& TALBOT, W. S. (2000). Zebrafish comparative genomics and the origins of vertebrate chromosomes.
Genome Res 10, 1890-902.
POWERS, D. A. (1991). Evolutionary genetics of fish. Adv Genet 29, 119-228.
RIBOLDI TUNNICLIFFE, G., GLOECKNER, G., ELGAR, G. S., BRENNER, S. & ROSENTHAL, A. (2000). Comparative analysis
of the PCOLCE region in Fugu rubripes using a new automated annotation tool. Mamm Genome 11, 213-9.
RICHARDSON, M. P., TAY, B. H., GOH, B. Y., VENKATESH, B. & BRENNER, S. (2001). Molecular cloning and genomic
structure of a gene encoding interferon regulatory factor in the pufferfish (Fugu rubripes). Mar Biotechnol
(NY) 3, 145-51.
ROBINSON-RECHAVI, M., MARCHAND, O., ESCRIVA, H., BARDET, P. L., ZELUS, D., HUGHES, S. & LAUDET, V. (2001a).
Euteleost fish genomes are characterized by expansion of gene families. Genome Res 11, 781-8.
ROBINSON-RECHAVI, M., MARCHAND, O., ESCRIVA, H. & LAUDET, V. (2001b). An ancestral whole-genome duplication
may not have been responsible for the abundance of duplicated fish genes. Curr Biol 11, R458-9.
ROSS, M. T., GRAFHAM, D. V., COFFEY, A. J., SCHERER, S., MCLAY, K., MUZNY, D., PLATZER, M., HOWELL, G. R.,
BURROWS, C., BIRD, C. P., FRANKISH, A., LOVELL, F. L., HOWE, K. L., ASHURST, J. L., FULTON, R. S.,
SUDBRAK , R., WEN, G., JONES, M. C., HURLES, M. E., ANDREWS, T. D., SCOTT, C. E., SEARLE, S., RAMSER, J.,
WHITTAKER, A., DEADMAN, R., CARTER, N. P., HUNT, S. E., CHEN, R., CREE, A., GUNARATNE, P., HAVLAK , P.,
HODGSON, A., METZKER, M. L., RICHARDS, S., SCOTT, G., STEFFEN, D., SODERGREN, E., WHEELER, D. A.,
WORLEY, K. C., AINSCOUGH, R., AMBROSE, K. D., ANSARI-LARI, M. A., ARADHYA, S., ASHWELL, R. I.,
BABBAGE, A. K., BAGGULEY, C. L., BALLABIO, A., BANERJEE, R., BARKER, G. E., BARLOW, K. F., BARRETT, I.
P., BATES, K. N., BEARE, D. M., BEASLEY, H., BEASLEY, O., BECK, A., BETHEL, G., BLECHSCHMIDT, K., BRADY,
N., BRAY-ALLEN, S., BRIDGEMAN, A. M., BROWN, A. J., BROWN, M. J., BONNIN, D., BRUFORD, E. A., BUHAY, C.,
BURCH, P., BURFORD, D., BURGESS, J., BURRILL, W., BURTON, J., BYE, J. M., CARDER, C., CARREL, L., CHAKO,
J., CHAPMAN, J. C., CHAVEZ, D., CHEN, E., CHEN, G., CHEN, Y., CHEN, Z., CHINAULT, C., CICCODICOLA, A.,
CLARK , S. Y., CLARKE, G., CLEE, C. M., CLEGG, S., CLERC-BLANKENBURG, K., CLIFFORD, K., COBLEY, V.,
COLE, C. G., CONQUER, J. S., CORBY, N., CONNOR, R. E., DAVID, R., DAVIES, J., DAVIS, C., DAVIS, J.,
DELGADO, O., DESHAZO, D., et al. (2005). The DNA sequence of the human X chromosome. Nature 434, 32537.
RUBIN, G. M., YANDELL, M. D., WORTMAN, J. R., GABOR MIKLOS, G. L., NELSON, C. R., HARIHARAN, I. K., FORTINI, M.
E., LI, P. W., APWEILER, R., FLEISCHMANN, W., CHERRY, J. M., HENIKOFF, S., SKUPSKI, M. P., MISRA, S.,
ASHBURNER, M., BIRNEY, E., BOGUSKI, M. S., BRODY, T., BROKSTEIN, P., CELNIKER, S. E., CHERVITZ, S. A.,
COATES, D., CRAVCHIK , A., GABRIELIAN, A., GALLE, R. F., GELBART, W. M., GEORGE, R. A., GOLDSTEIN, L. S.,
GONG, F., GUAN, P., HARRIS, N. L., HAY, B. A., HOSKINS, R. A., LI, J., LI, Z., HYNES, R. O., JONES, S. J.,
KUEHL, P. M., LEMAITRE, B., LITTLETON, J. T., MORRISON, D. K., MUNGALL, C., O'FARRELL, P. H., PICKERAL,
O. K., SHUE, C., VOSSHALL, L. B., ZHANG, J., ZHAO, Q., ZHENG, X. H. & LEWIS, S. (2000). Comparative
genomics of the eukaryotes. Science 287, 2204-15.
RUDDLE, F. H. (1998). Mapping and sequencing of the human genome. Jpn J Cancer Res 89, inside front cover.
154
SANDFORD, R., SGOTTO, B., BURN, T. & BRENNER, S. (1996). The tuberin (TSC2), autosomal dominant polycystic
kidney disease (PKD1), and somatostatin type V receptor (SSTR5) genes form a synteny group in the Fugu
genome. Genomics 38, 84-6.
SANGER, F., NICKLEN, S. & COULSON, A. R. (1977). DNA sequencing with chain-terminating inhibitors. Proc Natl Acad
Sci U S A 74, 5463-7.
SANKOFF, D. (2000). The early introduction of dynamic programming into computational biology. Bioinformatics 16,
41-47.
SANM IGUEL, P., TIKHONOV, A., JIN, Y. K., MOTCHOULSKAIA, N., ZAKHAROV, D., MELAKE-BERHAN, A., SPRINGER, P. S.,
EDWARDS, K. J., LEE, M., AVRAMOVA, Z. & BENNETZEN, J. L. (1996). Nested retrotransposons in the
intergenic regions of the maize genome. Science 274, 765-8.
SARWAL, M. M., SONTAG, J. M., HOANG, L., BRENNER, S. & WILKIE, T. M. (1996). G protein alpha subunit multigene
family in the Japanese puffer fish Fugu rubripes: PCR from a compact vertebrate genome. Genome Res 6,
1207-15.
SCANNELL, D. R., BYRNE, K. P., GORDON, J. L., WONG, S. & WOLFE, K. H. (2006). Multiple rounds of speciation
associated with reciprocal gene loss in polyploid yeasts. Nature 440, 341-5.
SCHMUTZ, J., MARTIN, J., TERRY, A., COURONNE, O., GRIMWOOD, J., LOWRY, S., GORDON, L. A., SCOTT, D., XIE, G.,
HUANG, W., HELLSTEN, U., TRAN-GYAMFI, M., SHE, X., PRABHAKAR, S., AERTS, A., ALTHERR, M., BAJOREK ,
E., BLACK , S., BRANSCOMB, E., CAOILE, C., CHALLACOMBE, J. F., CHAN, Y. M., DENYS, M., DETTER, J. C.,
ESCOBAR, J., FLOWERS, D., FOTOPULOS, D., GLAVINA, T., GOMEZ, M., GONZALES, E., GOODSTEIN, D.,
GRIGORIEV, I., GROZA, M., HAMMON, N., HAWKINS, T., HAYDU, L., ISRANI, S., JETT, J., KADNER, K., KIMBALL,
H., KOBAYASHI, A., LOPEZ, F., LOU, Y., MARTINEZ, D., MEDINA, C., MORGAN, J., NANDKESHWAR, R., NOONAN,
J. P., PITLUCK , S., POLLARD, M., PREDKI, P., PRIEST, J., RAMIREZ, L., RETTERER, J., RODRIGUEZ, A., ROGERS,
S., SALAMOV, A., SALAZAR, A., THAYER, N., TICE, H., TSAI, M., USTASZEWSKA, A., VO, N., WHEELER, J., WU,
K., YANG, J., DICKSON, M., CHENG, J. F., EICHLER, E. E., OLSEN, A., PENNACCHIO, L. A., ROKHSAR, D. S.,
RICHARDSON, P., LUCAS, S. M., MYERS, R. M. & RUBIN, E. M. (2004). The DNA sequence and comparative
analysis of human chromosome 5. Nature 431, 268-74.
SCHOFIELD, J. P., ELGAR, G., GREYSTRONG, J., LYE, G., DEADMAN, R., MICKLEM, G., KING, A., BRENNER, S. & VAUDIN,
M. (1997). Regions of human chromosome 2 (2q32-q35) and mouse chromosome 1 show synteny with the
pufferfish genome (Fugu rubripes). Genomics 45, 158-67.
SCHULER, G. D., BOGUSKI, M. S., STEWART, E. A., STEIN, L. D., GYAPAY, G., RICE, K., WHITE, R. E., RODRIGUEZ-TOME,
P., AGGARWAL, A., BAJOREK, E., BENTOLILA, S., BIRREN, B. B., BUTLER, A., CASTLE, A. B., CHIANNILKULCHAI,
N., CHU, A., CLEE, C., COWLES, S., DAY, P. J., DIBLING, T., DROUOT, N., DUNHAM, I., DUPRAT, S., EAST, C.,
EDWARDS, C., FAN, J. B., FANG, N., FIZAMES, C., GARRETT, C., GREEN, L., HADLEY, D., HARRIS, M.,
HARRISON, P., BRADY, S., HICKS, A., HOLLOWAY, E., HUI, L., HUSSAIN, S., LOUIS-DIT-SULLY, C., MA, J.,
MACGILVERY, A., MADER, C., MARATUKULAM, A., MATISE, T. C., MCKUSICK , K. B., MORISSETTE, J.,
MUNGALL, A., MUSELET, D., NUSBAUM, H. C., PAGE, D. C., PECK , A., PERKINS, S., PIERCY, M., QIN, F.,
QUACKENBUSH, J., RANBY, S., REIF, T., ROZEN, S., SANDERS, C., SHE, X., SILVA, J., SLONIM, D. K., SODERLUND,
C., SUN, W. L., TABAR, P., THANGARAJAH, T., VEGA-CZARNY, N., VOLLRATH, D., VOYTICKY, S., WILMER, T.,
WU, X., ADAMS, M. D., AUFFRAY, C., WALTER, N. A., BRANDON, R., DEHEJIA, A., GOODFELLOW, P. N.,
HOULGATTE, R., HUDSON, J. R., JR., IDE, S. E., IORIO, K. R., LEE, W. Y., SEKI, N., NAGASE, T., ISHIKAWA, K.,
NOMURA, N., PHILLIPS, C., POLYMEROPOULOS, M. H., SANDUSKY, M., SCHMITT, K., BERRY, R., SWANSON, K.,
TORRES, R., VENTER, J. C., SIKELA, J. M., BECKMANN, J. S., WEISSENBACH, J., MYERS, R. M., COX, D. R.,
JAMES, M. R., et al. (1996). A gene map of the human genome. Science 274, 540-6.
SCHWARTZ, S., KENT, W. J., SMIT, A., ZHANG, Z., BAERTSCH, R., HARDISON, R. C., HAUSSLER, D. & MILLER, W. (2003).
Human-mouse alignments with BLASTZ. Genome Res 13, 103-7.
SHE, X., JIANG, Z., CLARK, R. A., LIU, G., CHENG, Z., TUZUN, E., CHURCH, D. M., SUTTON, G., HALPERN, A. L. &
EICHLER, E. E. (2004). Shotgun sequence assembly and recent segmental duplications within the human
genome. Nature 431, 927-30.
SIRONI, M., MENOZZI, G., COMI, G. P., CAGLIANI, R., BRESOLIN, N. & POZZOLI, U. (2005). Analysis of intronic
conserved elements indicates that functional complexity might represent a major source of negative selection
on non-coding sequences. Hum. Mol. Genet. 14, 2533-2546.
SMITH, T. F. & WATERMAN, M. S. (1981). Identification of common molecular subsequences. J Mol Biol 147, 195-7.
155
STEIN, L. D., MUNGALL, C., SHU, S., CAUDY, M., MANGONE, M., DAY, A., NICKERSON, E., STAJICH, J. E., HARRIS, T. W.,
ARVA, A. & LEWIS, S. (2002). The generic genome browser: a building block for a model organism system
database. Genome Res 12, 1599-610.
THE INTERNATIONAL HAPMAP CONSORTIUM. (2003). The International HapMap Project. Nature 426, 789-96.
THOMAS, J. W., TOUCHMAN, J. W., BLAKESLEY, R. W., BOUFFARD, G. G., BECKSTROM-STERNBERG, S. M., MARGULIES,
E. H., BLANCHETTE, M., SIEPEL, A. C., THOMAS, P. J., MCDOWELL, J. C., MASKERI, B., HANSEN, N. F.,
SCHWARTZ, M. S., WEBER, R. J., KENT, W. J., KAROLCHIK , D., BRUEN, T. C., BEVAN, R., CUTLER, D. J.,
SCHWARTZ, S., ELNITSKI, L., IDOL, J. R., PRASAD, A. B., LEE-LIN, S. Q., MADURO, V. V., SUMMERS, T. J.,
PORTNOY, M. E., DIETRICH, N. L., AKHTER, N., AYELE, K., BENJAMIN, B., CARIAGA, K., BRINKLEY, C. P.,
BROOKS, S. Y., GRANITE, S., GUAN, X., GUPTA, J., HAGHIGHI, P., HO, S. L., HUANG, M. C., KARLINS, E., LARIC,
P. L., LEGASPI, R., LIM, M. J., MADURO, Q. L., MASIELLO, C. A., MASTRIAN, S. D., MCCLOSKEY, J. C.,
PEARSON, R., STANTRIPOP, S., TIONGSON, E. E., TRAN, J. T., TSURGEON, C., VOGT, J. L., WALKER, M. A.,
WETHERBY, K. D., WIGGINS, L. S., YOUNG, A. C., ZHANG, L. H., OSOEGAWA, K., ZHU, B., ZHAO, B., SHU, C. L.,
DE JONG, P. J., LAWRENCE, C. E., SMIT, A. F., CHAKRAVARTI, A., HAUSSLER, D., GREEN, P., MILLER, W. &
GREEN, E. D. (2003). Comparative analyses of multi-species sequences from targeted genomic regions. Nature
424, 788-93.
TORRENTS, D., SUYAMA, M., ZDOBNOV, E. & BORK, P. (2003). A genome-wide survey of human pseudogenes. Genome
Res 13, 2559-67.
TRINGE, S. G. & RUBIN, E. M. (2005). Metagenomics: DNA sequencing of environmental samples. Nat Rev Genet 6,
805-14.
TROWER, M. K., ORTON, S. M., PURVIS, I. J., SANSEAU, P., RILEY, J., CHRISTODOULOU, C., BURT, D., SEE, C. G., ELGAR,
G., SHERRINGTON, R., ROGAEV, E. I., ST GEORGE-HYSLOP, P., BRENNER, S. & DYKES, C. W. (1996).
Conservation of synteny between the genome of the pufferfish (Fugu rubripes) and the region on human
chromosome 14 (14q24.3) associated with familial Alzheimer disease (AD3 locus). Proc Natl Acad Sci U S A
93, 1366-9.
TYMOWSKA, J., FISCHBERG, M. & TINSLEY, R. C. (1977). The karyotype of the tetraploid species Xenopus vestitus
Laurent (Anura: pipidae). Cytogenet Cell Genet 19, 344-54.
VENKATESH, B. & BRENNER, S. (1997). Genomic structure and sequence of the pufferfish (Fugu rubripes) growth
hormone-encoding gene: a comparative analysis of teleost growth hormone genes. Gene 187, 211-5.
VENKATESH, B. & BRENNER, S. (1998). Genomic structure and sequence of the pufferfish (Fugu rubripes) gene
encoding an actin-related protein. Gene 211, 169-75.
VENKATESH, B., TAY, A., DANDONA, N., PATIL, J. G. & BRENNER, S. (2005). A compact cartilaginous fish model genome.
Curr Biol 15, R82-3.
VENKATESH, B., TAY, B. H., ELGAR, G. & BRENNER, S. (1996). Isolation, characterization and evolution of nine
pufferfish (Fugu rubripes) actin genes. J Mol Biol 259, 655-65.
VENTER, J. C., ADAMS, M. D., MYERS, E. W., LI, P. W., MURAL, R. J., SUTTON, G. G., SMITH, H. O., YANDELL, M.,
EVANS, C. A., HOLT, R. A., GOCAYNE, J. D., AMANATIDES, P., BALLEW, R. M., HUSON, D. H., WORTMAN, J. R.,
ZHANG, Q., KODIRA, C. D., ZHENG, X. H., CHEN, L., SKUPSKI, M., SUBRAMANIAN, G., THOMAS, P. D., ZHANG,
J., GABOR MIKLOS, G. L., NELSON, C., BRODER, S., CLARK, A. G., NADEAU, J., MCKUSICK, V. A., ZINDER, N.,
LEVINE, A. J., ROBERTS, R. J., SIMON, M., SLAYMAN, C., HUNKAPILLER, M., BOLANOS, R., DELCHER, A., DEW,
I., FASULO, D., FLANIGAN, M., FLOREA, L., HALPERN, A., HANNENHALLI, S., KRAVITZ, S., LEVY, S., MOBARRY,
C., REINERT, K., REMINGTON, K., ABU-THREIDEH, J., BEASLEY, E., BIDDICK , K., BONAZZI, V., BRANDON, R.,
CARGILL, M., CHANDRAMOULISWARAN, I., CHARLAB, R., CHATURVEDI, K., DENG, Z., DI FRANCESCO, V., DUNN,
P., EILBECK , K., EVANGELISTA, C., GABRIELIAN, A. E., GAN, W., GE, W., GONG, F., GU, Z., GUAN, P., HEIMAN,
T. J., HIGGINS, M. E., JI, R. R., KE, Z., KETCHUM, K. A., LAI, Z., LEI, Y., LI, Z., LI, J., LIANG, Y., LIN, X., LU,
F., MERKULOV, G. V., MILSHINA, N., MOORE, H. M., NAIK , A. K., NARAYAN, V. A., NEELAM, B., NUSSKERN, D.,
RUSCH, D. B., SALZBERG, S., SHAO, W., SHUE, B., SUN, J., WANG, Z., WANG, A., WANG, X., WANG, J., WEI, M.,
WIDES, R., XIAO, C., YAN, C., et al. (2001). The sequence of the human genome. Science 291, 1304-51.
VENTER, J. C., ADAMS, M. D., SUTTON, G. G., KERLAVAGE, A. R., SMITH, H. O. & HUNKAPILLER, M. (1998). Shotgun
sequencing of the human genome. Science 280, 1540-2.
VOLFF, J. N., BOUNEAU, L., O ZOUF-COSTAZ, C. & FISCHER, C. (2003). Diversity of retrotransposable elements in
compact pufferfish genomes. Trends Genet 19, 674-8.
156
WANG, Y. & GU, X. (2000). Evolutionary patterns of gene families generated in the early stage of vertebrates. J Mol
Evol 51, 88-96.
WARBUTON, D., BYRNE, J. & CANKI, N. (1991). Chromosome anomalies and prenatal development : an atlas. Oxford
University Press, New York.
WARNER, J. R. (1999). The economics of ribosome biosynthesis in yeast. Trends Biochem Sci 24, 437-40.
WATERSTON, R. H., LANDER, E. S. & SULSTON, J. E. (2002a). On the sequencing of the human genome. Proc Natl Acad
Sci U S A 99, 3712-6.
WATERSTON, R. H., LANDER, E. S. & SULSTON, J. E. (2003). More on the sequencing of the human genome. Proc Natl
Acad Sci U S A 100, 3022-4; author reply 3025-6.
WATERSTON, R. H., LINDBLAD-TOH, K., BIRNEY, E., ROGERS, J., ABRIL, J. F., AGARWAL, P., AGARWALA, R.,
AINSCOUGH, R., ALEXANDERSSON, M., AN, P., ANTONARAKIS, S. E., ATTWOOD, J., BAERTSCH, R., BAILEY, J.,
BARLOW, K., BECK, S., BERRY, E., BIRREN, B., BLOOM, T., BORK, P., BOTCHERBY, M., BRAY, N., BRENT, M. R.,
BROWN, D. G., BROWN, S. D., BULT, C., BURTON, J., BUTLER, J., CAMPBELL, R. D., CARNINCI, P., CAWLEY, S.,
CHIAROMONTE, F., CHINWALLA, A. T., CHURCH, D. M., CLAMP, M., CLEE, C., COLLINS, F. S., COOK, L. L.,
COPLEY, R. R., COULSON, A., COURONNE, O., CUFF, J., CURWEN, V., CUTTS, T., DALY, M., DAVID, R., DAVIES,
J., DELEHAUNTY, K. D., DERI, J., DERMITZAKIS, E. T., DEWEY, C., DICKENS, N. J., DIEKHANS, M., DODGE, S.,
DUBCHAK, I., DUNN, D. M., EDDY, S. R., ELNITSKI, L., EMES, R. D., ESWARA, P., EYRAS, E., FELSENFELD, A.,
FEWELL, G. A., FLICEK , P., FOLEY, K., FRANKEL, W. N., FULTON, L. A., FULTON, R. S., FUREY, T. S., GAGE, D.,
GIBBS, R. A., GLUSMAN, G., GNERRE, S., GOLDMAN, N., GOODSTADT, L., GRAFHAM, D., GRAVES, T. A., GREEN,
E. D., GREGORY, S., GUIGO, R., GUYER, M., HARDISON, R. C., HAUSSLER, D., HAYASHIZAKI, Y., HILLIER, L.
W., HINRICHS, A., HLAVINA, W., HOLZER, T., HSU, F., HUA, A., HUBBARD, T., HUNT, A., JACKSON, I., JAFFE, D.
B., JOHNSON, L. S., JONES, M., JONES, T. A., JOY, A., KAMAL, M., KARLSSON, E. K., et al. (2002b). Initial
sequencing and comparative analysis of the mouse genome. Nature 420, 520-62.
WATSON, J. D. (2001). The human genome revealed. Genome Res 11, 1803-4.
WEBER, J. L. & MYERS, E. W. (1997). Human Whole-Genome Shotgun Sequencing. Genome Res. 7, 401-409.
WHEELAN, S. J., CHURCH, D. M. & OSTELL, J. M. (2001). Spidey: a tool for mRNA-to-genomic alignments. Genome Res
11, 1952-7.
WITHERSPOON, D. J. & ROBERTSON, H. M. (2003). Neutral evolution of ten types of mariner transposons in the
genomes of Caenorhabditis elegans and Caenorhabditis briggsae. J Mol Evol 56, 751-69.
YAMAGUCHI, F. & BRENNER, S. (1997). Molecular cloning of 5-hydroxytryptamine (5-HT) type 1 receptor genes from
the Japanese puffer fish, Fugu rubripes. Gene 191, 219-23.
YAMAGUCHI, F., MACRAE, A. D. & BRENNER, S. (1996). Molecular cloning of two cannabinoid type 1-like receptor
genes from the puffer fish Fugu rubripes. Genomics 35, 603-5.
YAMAGUCHI, F., YAMAGUCHI, K., TOKUDA, M. & BRENNER, S. (1999). Molecular cloning of EDG-3 and N-Shc genes
from the puffer fish, Fugu rubripes, and conservation of synteny with the human genome. FEBS Lett 459,
105-10.
YEO, G. S., ELGAR, G., SANDFORD, R. & BRENNER, S. (1997). Cloning and sequencing of complement component C9
and its linkage to DOC-2 in the pufferfish Fugu rubripes. Gene 200, 203-11.
YU, W. P., PALLEN, C. J., TAY, A., JIRIK , F. R., BRENNER, S., TAN, Y. H. & VENKATESH, B. (2001). Conserved synteny
between the Fugu and human PTEN locus and the evolutionary conservation of vertebrate PTEN function.
Oncogene 20, 5554-61.
ZHANG, J., ROSENBERG, H. F. & NEI, M. (1998). Positive Darwinian selection after gene duplication in primate
ribonuclease genes. Proc Natl Acad Sci U S A 95, 3708-13.
ZHANG, P., GU, Z. & LI, W. H. (2003). Different evolutionary patterns between young duplicate genes in the human
genome. Genome Biol 4, R56.
157
158
8 Compléments
8.1 Données supplémentaires de l'article 2 "Estimate of human
gene number provided by genome-wide analysis using
Tetraodon nigroviridis DNA sequence." Nat Genet 25(2): 235-8.
159
Information supplementary to letter by H. Roest Crollius et al. Nature Genet. 25, 235–238 (2000).
Methods
Calibration of Exofish. We searched GenBank release 112 for F. rubripes
genomic DNA and retrieved human gene homologues accession numbers
from database annotations. Corresponding human gene sequences were
retrieved and F. rubripes–human orthologous genes were compared at the
protein level. Of potential 17 orthologue pairs, 13 were retained with a least
40% amino acid similarity. Table 1 lists the F. rubripes gene names together
with their F. rubripes and human homologue accession numbers.
The primary requirement for speed meant that only the BLAST algorithm was selected, and tested at the nucleic acid and amino acid level with
a range of sizes for the initial search word (W), and a range of values for the
extension threshold score (X). The best sensitivity and specificity are
obtained with TBLASTX where no more than two consecutive mismatches
are allowed and at least five consecutive amino acids are identical. In addition, the standard BLOSUM62 scoring matrix was replaced by a simpler
matrix containing only two values, one for a match and one for a mismatch, which decreased the computation time by a factor of 40 and
improved performances.
Construction of a set of annotated human genes. GenBank release 113 was
searched for human mRNA sequences with the keyword ‘complete’ in the
Table 1
F. rubripes
gene name
F. rubripes gene
accession number
APP
ARF3
Actin-A
CBS
G6PD
IGF2
LRP1
PAX6
PCOLCE
RPS24
TSC2
WNT1
Huntingtin
AF090120
AF056116
U38850
AF090120
U72484
AL021880
AF056116
AL021531
AF016494
AJ001398
AF013614
AF056116
X82939
Human gene
accession number
D87675
M74493
M20543
AF042836
X55448
X03562
AF058427
Z83307
AF083655
U12202
AC005600
X03072
Cosmid assembly as in ref. 1
definition line and EMBL release 59 was searched to retrieve all human
sequences larger than 50 kb in the DNA section. Each query retrieved
10,067 and 3,930 entries, respectively. Redundancy in the mRNA sequence
database was removed by performing a comparison of the database against
itself to generate clusters. The longest sequence in each cluster was
retained, and poly(A) tails were trimmed. Alignments between mRNA
sequences and genomic sequences were computed with BLASTN with
parameters that do not allow two or more consecutive mismatches. Alignments between a given mRNA-genomic sequence pair were retained to
annotate the genomic region if the following conditions were met: (i)
alignments were strictly contiguous or overlapped by no more than 2 bases
on the mRNA sequence; (ii) when re-assembled, alignment started and
ended at the first and last base of the mRNA sequence, respectively; and
(iii) alignments were in the same order on the mRNA and on the genomic
sequence. Full-length genomic regions were found for 322 different mRNA
sequences (2,693 exons), Exon-intron boundaries in human genes were
not mapped exactly, because BLAST will extend the alignment of an exon
into its neighbouring intron if by chance this intron starts off with the same
sequence as the next exon. The alignment will stop at the first mismatch,
however, which provides sufficient accuracy for our purpose.
1.
Baxendale, S. et al. Comparative sequence analysis of the human and pufferfish
Huntington’s disease genes. Nature Genet. 10, 67–76 (1995).
8.2 Données supplémentaires de l'article 5 "Genome duplication in
the teleost fish Tetraodon nigroviridis reveals the early
vertebrate proto-karyotype." Nature 431(7011): 946-57.
161
SUPPLEMENTARY INFORMATION
1. Tetraodon naming conventions, natural habitat and phylogeny
Tetraodon nigroviridis (Marion de Procé, 1822) is a pufferfish that lives in the rivers,
estuaries and mangroves of Indonesia, Indochina, Malaysia and the Philippines. It is also
occasionally caught in full sea water, and has thus a diverse habitat. Adults measure between 3 cm
and 10 cm and possess two fused upper and lower teeth in a beak like shape (Tetraodon means
“four teeth” in latin). It is often confused with Tetraodon fluviatilis (Hamilton, 1822) in the
aquariophilist market. However T. fluviatilis is larger, has a markedly different pattern of black
spots on its back (larger and more symmetrical) and lives in Sri Lanka and in India. T. nigroviridis
is often caught from the wild although it is also sold to the aquariophilist market by fishermen who
breed them in artificial ponds by the rivers.
Since T. nigroviridis and T. fluviatilis are morphologically similar and since their habitat
may overlap, it is not excluded that hybrid individuals also exist on the aquariophilist market which
is the most convenient source of Tetraodon for research purposes. For this reason, we conducted an
extensive study of molecular markers that could unambiguously differentiate T. nigroviridis and T.
fluviatilis. We amplified and sequenced the mitochondrial cytochrome b gene region (306 bp1) and
the complete hypervariable control region (D-loop; 808-815 bp among the taxa studied). The
sequence data was obtained for 26 fish (4 T. fluviatilis, 17 T. nigroviridis, 5 T. biocellatus) and
multiple alignments were constructed using the ED program from the MUST package2 and PILEUP
of the GCG package (Wisconsin Package Version 9.1, Genetics Computer Group (GCG), Madison,
Wisc) (Fig. S1A and S1B). They provided 107 variable positions for the cytochrome b dataset (out
of 306 positions) among which 70 are informative for parsimony analysis. For the D-loop dataset, a
total of 428 variable positions including 40 insertions/deletions were observed out of 863 positions,
and 390 of these variations are parsimony-informative. Reconstruction of phylogenetic trees (Fig.
S2) by the method of Maximum Parsimony was done by the PAUP program3 (version 4.0) included
in the GCG package.
Results confirm the monophyletic clustering of the Tetraodon species. Groupings of the
sequences are in agreement with specimen morphology, except for specimens quoted as T. sp.
Specimens “a” (T. Crnogorac-Jurcevic, I. C. R. F., London, personal communication) and “m”
presented the T. nigroviridis morphotype whereas specimen “g” and “h” presented the T. fluviatilis
morphotype. Therefore, it appears that discrimination of T. fluviatilis/T. nigroviridis on the basis of
simple morphological characters such as body colour and pattern alone is not sufficient. However,
molecular markers such as the cytochrome b and control region sequences help in grouping the
1
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
specimens into a defined species group. Diagnostic characters for each species with reference to the
T. nigroviridis haplotype are provided in the alignments (Fig. S1A and S1B). Further
methodological details and discussions on Tetraodon phylogenies are available on the Tetraodon
web site: http://www.genoscope.org/tetraodon
2. Sequencing and assembly
2.1 Cloning
Randomly sheared and size-selected genomic DNA isolated from three individuals was used
to prepare plasmid libraries with an average insert size of 4 kb (Broad Institute – BI- , one
individual), 2 kb, 2.5 kb and 4 kb (Genoscope – GSC-, one individual) and a BAC library of
average insert size 136 kb (GSC, one individual). After sequencing and quality checks, 93% of the
sequences were paired that is, derived from opposite ends of the same clone (Table SI1).
2.2 Sequencing
Sequencing was performed as described previously for Genoscope4 and the Broad
Institute5,6. Approximately 4.25 million reads passed extensive checks for quality and source,
representing approximately 8.3-fold sequence coverage of the Tetraodon genome.
2.3 Assembly
Arachne is a software package developed at BI and it has been adapted for the assembly of large
(mammalian-size) genomes, such as the mouse genome5. Arachne is sensitive to polymorphic bases
in sequence reads, because they can be considered as sequencing errors or sequence duplications.
Here, sequence reads were obtained from three individuals (GSC-plasmid 2.4 million reads; BIplasmid 1.8 million reads; GSC-BAC 0.05 million reads), thus increasing the likelihood of
polymorphic bases. Different strategies were tested to assemble the Tetraodon genome. First, an
assembly with all 4,25 million reads combined was attempted but because of the high rate of
polymorphic bases, resulted in too many redundant contigs to even proceed with scaffolding. Then
each dataset (GSC and BI, each originating from a different fish) was assembled separately, and
each assembly produced much better result than with the combined dataset. Despite a lower
coverage, the assembly of the BI reads alone was better than the assembly of the GSC reads alone,
perhaps because of differences in polymorphism or because the assembly code handled lower
coverage by polymorphic reads better. For this reason we used the BI reads as the basis for the rest
of the assembly, and added GSC reads to increase the coverage. This assembly reads has an N50
contig size of 18.4 kb and an N50 supercontig size of 635 kb.
2
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
A separate assembly was performed at Genoscope with sequence reads from both centres.
In brief, the combined reads from GSC and BI were first quality clipped and masked for repeats,
then “single-linkage” clustered based on a minimum of 150 bases of overlap with 97% identity.
This step was performed with the lspmul algorithm7 implemented in the Biofacet package
(http://www.gene-it.com). Each cluster was then assembled separately using Phrap (P. Green,
unpublished) to produce consensus sequences (contigs). Paired-end information was then used to
link and orientate contigs. When the linking information suggested an overlap between contigs,
their corresponding clusters were merged and re-assembled with Phrap. This procedure was
repeated until no new contigs could be generated. This assembly produced 103,412 contigs
covering 358 Mb, with an N50 value of 8.7 kb. Connecting contigs using read pairs produced 6592
scaffolds (325 Mb including 67 Mb of gaps) with an N50 length of 222 kb.
When comparing these contigs to those produced by Arachne using BLASTN, and although
the same set of reads were used as input, we found that about 10% of the contigs were unique to the
Genoscope assembly. In addition, when comparing all Arachne contigs to themselves, about 10%
of the sequence was redundant, with small contigs (less than 5 kb) generally included in large ones
(more than 50 kb). We therefore decided to remove the ~10% redundant small contigs from the
Arachne assembly, and add the ~10% new sequence assembled at Genoscope. The composite
assembly was the basis for the analysis described in this article.
3. Physical Mapping
When the Tetraodon sequencing project was initiated in 1997, only 25 % of the human genome
was sequenced (in draft form) and no large genome had ever been assembled using the “Whole
Genome Shotgun” approach. It was unclear at the time if this approach would succeed without the
assistance of long range scaffolding information such as could be provided by physical or genetic
maps8,9. In doubt, and because Tetraodon cannot yet be bred in captivity to generate a genetic map,
we reasoned that a physical map may be necessary to assist the assembly of the genome sequence.
We proceeded along three strategies: hybridisation on clone libraries, restriction digest fingerprints
and in situ hybridisation on metaphase chromosomes.
3.1 Hybridisations
The pilot phase of the Tetraodon sequencing project initially produced about 50,000 BAC
end sequences from two BAC libraries A and B that together represent about 14 fold coverage of
the genome10. We robotically arrayed 55,000 BAC clones (10 fold coverage) on nylon membranes
as previously described11,12. We generated hybridisation probes by designing PCR primers from
BAC end sequences and amplifying from total genomic DNA. After validation by gel
3
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
electrophoresis, PCR products were labelled by incorporation of digoxygenin (DIG, Roche
Molecular Diagnostics) during the amplification reaction. Hybridisations were performed as
described previously12. We routinely hybridised between 24 and 48 probes per day, for a total of
about 3,000. Images were captured under long wave UV light as Tiff images and positive signals
were manually scored using the Xdigitise software (Huw Griffith, Hans Lehrach, personal
communication). Probes that hybridised to more than 35 clones were considered non-specific and
were not considered further. At some point we decided to change strategy and switch to a BAC
fingerprinting method. By then 2,308 single copy probes had been hybridised successfully (i.e.
probes that hit between 1 and 35 clones) to about 60% of the library. A first set of 901 contigs were
build from this data using the probeorder software13.
3.2 Fingerprints
To supplement the hybridisation data but also to increase the resolution of the physical map,
we systematically fingerprinted both BAC clone libraries. Plasmid DNA was digested with EcoRI
and run on 1% agarose gels, stained with SybrGreen and captured as Tiff images. Individual
restriction bands from the digests were manually scored using the Image software and comparisons
between 32,817 BAC restriction profiles were performed with FPC as described14. A cutoff score
of 10-9 and a variable tolerance of 7 were used. This produced 3,354 contigs and the largest where
manually inspected, broken or fused when necessary, resulting in 2,659 contigs. Data from the
hybridisations were incorporated as markers (probes) associated with BAC clones, which facilitated
the inspection of FPC contigs. Still, because EcoRI digests on these BAC clones generated too few
visible bands (about 15 on average), a large fraction of clones (12,096 clones out of 32,817 that
were successfully fingerprinted) remained as singletons.
3.3 Fluorescent in situ Hybridisations (FISH)
In order to get a better overview of the pufferfish genome organisation at a chromosomal
level, we obtained the karyotype15, representative idiograms of the chromosomes and FISH patterns
of various repetitive and single copy probes in metaphase plates. Simple and double-FISH of BACs
were performed in high stringency conditions, in presence of competitor (Tetraodon) and carrier
(bovine) sonicated DNA, after a pre-hybridization step to re-anneal repeated sequences. For probes
inserted in plasmids, the vectors were first hybridised alone to check for the presence of any
potential contaminating signal. Tiff images were captured and analysed using the GENUS animal
karyotyping and FISH-imaging software (Applied Imaging). In particular, the multiple locations of
most transposable elements have been examined by hybridising them separately but also two by
two to identify areas where they accumulate and their location relative to each other. Repetitive
4
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
sequences like rDNA gene clusters, centromeric and subtelocentric satellite sequences and
telomeric repeats10,15 have been previously physically mapped on the chromosomes. Clusters of
genes implicated in the immune system (Ig, MHC etc…) were also precisely located. To validate
the assembly and map or orientate ultracontigs on their chromosome of origin, 392 double-FISH
experiments, using combinations of 117 biotin or digoxigenin labelled BAC clones were
performed. In addition, 99 double colour FISH were performed with 22 transposable element
probes to assign them to specific heterochromatic blocks16.
3.4 Flow Cytometry
The three Tetraodon specimen were purchased in France in an aquarium fish retailer. Blood
was extracted and resuspended in anticlotting solution containing 1.8 mg/ml Pefabloc SC (Merck).
The suspension was centrifuged at 2,000 rpm for 2-3 min and the pellet washed three times in
anticlotting solution to remove lysed cells. Before freezing at -80°C, the suspension was
supplemented with 10% DMSO. Blood samples from the three Takifugu specimen were kind gifts
from Prof. Toshiaki Itami (Miyazaki University, Japan) and Prof. Shugo Watabe (Tokyo
University, Japan). Flow cytometry experiments were performed as described previously17.
Surprisingly, intra species differences are important, which may be due to differences in
sex, age or rearing conditions17. The intraspecific variations noted here for the two pufferfish
(Figure S3) have been noted before in the case of the fly Drosophila melanogaster, with in addition
an effect of environmental conditions17. This implies that genome size measurements must always
be compared not only to the same standard but also within the same experiment. Because of these
variations, no rigorous absolute value can be given here for the Tetraodon and Takifugu genome
size. In the vast majority of cases however, estimates described here indicate that the Tetraodon
genome is smaller than the Takifugu genome, and this is reflected in the average values for each
genome given as reference in the main text.
4. Ultracontigs, assembly validation and genome coverage
To build ultracontigs, three types of information were used. First, we compared the
scaffolds to all BAC and plasmid end sequences that did not participate in the assembly. The two
main reasons to explain why these sequences were not included in the initial build are that either
the sequences were not of sufficient quality, or they were eliminated because they contained highly
repetitive sequences. Sequences of insufficient quality may still provide useful linking information
if additional constraints are used: they must find a single position in the assembly, and the distance
between their ends must be in agreement with the range of inserts of the clone library. Most
5
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
interesting are those where the two ends are located in different scaffolds. In this case, the sum of
the distance to the end of the scaffolds must be within the range of the library insert sizes. We
retrieved 2,576 linking BAC clones and 3,065 linking plasmid clones using this approach.
The second type of information was extracted from a global alignment with the Takifugu
genome assembly. This was performed initially for the purpose of identified evolutionary
conserved sequences (ecores) to assist the annotation of Tetraodon protein coding genes (see
below). High scoring segments pairs (HSPs) that are contiguous between genomes denote regions
of synteny. In many cases such runs of collinear HSPs are interrupted by the end of a scaffold on
Tetraodon and start again on a new scaffold. In such cases, the Takifugu scaffold effectively links
the two Tetraodon scaffolds. We imposed two simple constraints to eliminate potential wrong links
due to a loss of synteny within a gap in the Tetraodon assembly by ensuring that the sum of the
distances between the end of the Tetraodon scaffolds and the two HSPs closest to the ends is
compatible with the inter-HSP distance in Takifugu. In addition, in 370 cases the scaffolds linked
by Takifugu also contained a new BAC and/or plasmid link, and the two types of information
always agreed. This provided a firm basis to use Takifugu links alone to associate and orient two
Tetraodon scaffolds. In total, 4,685 links were provided by the alignment with Takifugu.
All new links where used to build ultra-contigs automatically using Cover and Coverparse,
two programs written at Genoscope and routinely used to assemble sequence contigs in BAC
sequencing projects. Ultra-contigs consisted in 2,962 new links (47.3% Takifugu alone; 40,2%
clones alone, 27,3% Takifugu and clone). This data was then transferred to an Acedb database and
the 128 largest were manually examined for internal consistency and retained for FISH mapping on
Tetraodon chromosomes (See above). Probes for FISH were BAC clones selected at the ends of
ultracontigs and were thus required to hybridise on the same chromosome arm. A side effect of the
FISH mapping is thus to validate all internal inter-scaffold links comprised between the two probes,
since a wrong link would have a much higher probability of associating scaffolds from different
chromosomes than from the same chromosome. In all cases the two probes did hybridise on the
same chromosome arm, validating in particular 216 links created by Takifugu alone, which
represent a subset of the 1,401 links created by this approach.
To estimate the actual proportion of euchromatin present in the assembly, we sequenced
1,472 new reads from clones that did not participate in the assembly but originate from one of the
two shotgun plasmid libraries. The initial intention was to align these reads to the assembly and
infer an estimation of genome coverage from the percentage of aligned reads. However it turns out
that such estimation is highly sensitive to the quality of the reads, the alignment strategy and the
alignment parameters. To alleviate some of these variables, we used the following approach:
6
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
-
each read was divided in 100 bp windows in steps of 1 bp.
-
Only windows without masked or ambiguous bases (Ns) and containing 100 bases of Phred
quality >=20 were retained, resulting in 474,533 windows over 1,274 reads.
-
A random sampling equal to 5% of the total set of window was prepared and compared to
the masked assembly using the lspmul algorithm7 (a fast hashing algorithm) requiring at
least 90% identity but no gaps.
At this threshold, 90.32% of the windows align. If instead we require 98% identity, 88.74%
of windows align. Results are thus very stable even with varying thresholds, and provide a robust
estimate of genome coverage of approximately 90%.
5. Transposable elements (TEs)
Tetraodon TEs described in Table SI3 were organised according to previous classifications18-24.
We conducted extensive BLAST searches to identify transposable elements in the Tetraodon
genome with plant, insect, mammal or other vertebrate known sequences as query sequences.
Consensus sequences were reconstructed with CapContig25 with alignments of at least 98%
identity. Because the repetitive sequences were either not assembled or masked during the genome
assembly process, it was not possible to trace the number and distribution of elements based on the
assembly, particularly in the case of highly abundant retrotransposons (Rex3, Rex1). We estimated
the copy number of TE family by scoring the occurrence of BLAST hits for each element against
2.47 million Tetraodon reads generated at Genoscope, with a filter of 94 % identity over 120
nucleotides. The copy number was then estimated by dividing the number of hits by the average
number (8.37) of hits generated with a set of 8 single-copy genes (1,000 bp in length ; excluding
duplicated genes). With these parameters, we performed a stringent search to only identify
sequences that closely resemble the consensus element and thus avoid cross contamination with
other groups.
Retroelements are classified into different families, including non-LTR retrotransposons also
called retroposons or LINEs, LTR retrotransposons, Penelope-like elements and SINEs. Recent
studies16,22,26-32 have shown that fish genomes are particularly rich in retrotransposon families in
comparisons to their mammalian counterparts which contain only four families (LINE1, 2, 3 and
ERV). Indeed, a high number of retrotransposon families could be identified in the Tetraodon
genome16. There are 13 non-LTR retrotransposons representing 7 from the 17 non-LTR clades
recognized to date18,24. In comparison, a search for the most abundant elements showed that the
related Takifugu genome contains members of only 6 non-LTR retrotransposons clades16,33. Among
7
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
these non-LTR retrotransposons, we could reconstruct a complete sequence for members of 5
clades, including Zebulon. However, the Maui element, which was found as complete copies in the
Takifugu genome34, could not be reconstructed in full from the Tetraodon sequences dataset. The
Tetraodon genome hosts members of the 5 groups of LTR retrotransposons, and we could
reconstruct the full consensus sequence for 4 members (retrovirus, Ty3/Gypsy and DIRS1 groups).
Only fossils of the BEL group and numerous but incomplete copia sequences are present in
Tetraodon. On the other hand, the Ty3/Gypsy group is greatly diversified in both pufferfish
genome16. Additionally we found 5 Penelope-like elements from the two Penelope clades22 and 2
SINEs. Numerous DNA-based elements (transposons) families are also present in the pufferfish
genome. Initially identified in invertebrates and mammals, a truncated PiggyBack transposon is
found in Tetraodon although in contrast to the element in Takifugu, it does not contain a complete
transposase. Not surprisingly, P-elements have not been identified in the pufferfish genome since
these elements seem restricted to a limited number of Dipteran species35, although one stationary
single-copy sequence, probably representing an example of molecular domestication, has been
identified in the human genome36. Transposable elements replicating by a rolling-circle
mechanism37 and homologs of Foldback, IS5/Harbinger or En-Spm elements have not been found
either in Tetraodon whereas severely truncated elements belonging to the IS5/Harbinger family are
present in the Takifugu genome. The three branches of the TC1/Mariner/pogo superfamily
transposons are represented in Tetraodon. However, while the transposases of the Mariner element
are truncated at their 5’ ends, the two members of the TC1 family have probably been recently
active, since they retain nearly intact ORF (only one frameshift and one misense mutation,
respectively, in the reconstructed sequences) and intact Terminal Inverted Repeats (TIRs). In
contrast to the Takifugu genome, no deleted families of these two elements were found in the
Tetraodon genome. Conversely, the Tetraodon TC2 elements of the Pogo-group retain intact TIRs
but both are internally deleted. Transposons of the hAT superfamily have been particularly
successful in invading the Tetraodon genome, as in plants and other vertebrate genomes38. We
characterised 14 different hAT elements which can be classified into 7 different families.
According to our study, Buffy and Charlot elements are the most abundant, while most other
families harbour very few copies. Again, most elements are even more truncated (at several regions
in their coding sequence) than the Takifugu counterpart. Interestingly, the Tetraodon Tol2 element
(homologous to the medaka Tol2 transposon39), is a 2,228 bp long element which harbours a single
ORF encoding 527 amino acids. In contrast, the medaka transposase is encoded in 4 exons and the
complete element is 4,682 bp.
Non-LTR retrotransposon are the most abundant elements of the Tetraodon genome,
particularly the Rex1 and Babar elements, Rex3 of the RTE clade, TX1 of the L1 clade and
8
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Zebulon of the NeSL clade. Rex3 elements are widely spread in fish genomes27. We found nearly
complete (but corrupted) copies of Rex3 and Babar in the Tetraodon genome, on the insert of fully
sequenced BAC clones (C. Fischer, unpublished results). The Maui element, which is by far the
most abundant retrotransposon of the Takifugu genome (and in which full-length copies are
present), is far less abundant in the Tetraodon genome. Other distribution discrepancies between
both pufferfish genomes can be seen with the I element, which is present only as fossils in
Takifugu, while it is still moderately abundant in Tetraodon. Similar discrepancies in the
abundance of transposons between these two genomes as well as among families (for instance, the
TC1 family of Tetraodon), can also be observed.
In contrast to the 3.8% of the genome that they occupy in Tetraodon, TEs account for 45% of
the genome in human6, 16% and 22% in the dipterians Anopheles gambiae and Drosophila
melanogaster respectively40,41, and 10% in the Arabidopsis thaliana genome42. Measures of TE
content in both the Tetraodon and the Takifugu genomes33 may still represent slight underestimates,
because the rich heterochromatic regions are likely to be underrepresented in the assembly. Despite
this, pufferfish are the multicellular eukaryotes with the lowest fraction of TEs known. In
eukaryotes, large genomes tend to have more TEs, and it has been proposed that those genomes
also show a slower rate of deletion in unconstrained DNA (typically TEs and pseudogenes)43.
Indeed, Tetraodon shows a faster deletion rate in repeated pseudogenes than human, and slower
than Drosophila44. This phenomenon, together with a resistance against large insertions that seems
specific to the Tetraodontidae lineage45, may explain why Tetraodon and Takifugu have the
smallest known vertebrate genomes.
6. Tetraodon Gene Annotation
6.1 Repeat Masking
Most of the genome comparisons were performed with repeat masked sequences. For this purpose,
we searched and masked sequentially several kinds of repeats using BLASTN and TBLASTX:
•
Microsatellites and known Tetraodon centromeric and subtelocentric satellite repeats
•
Tetraodon specific transposable elements and rRNA sequences.
•
Other eukaryotic known repeats and transposons available in Repbase.
•
Tandem repeats with the TRF program46.
9
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
6.2 Exofish between mammal genomes and Tetraodon
All Exofish comparisons between mouse or human and Tetraodon or Takifugu were
performed using TBLASTX and filtering parameters described previously47. Computations were
performed at the CINES (Centre Informatique National de l’Enseignement Supérieur) on a 768
CPU SGI ORIGIN 3800 computer, with the Biofacet software package from Gene-IT (www.geneit.com).
We used Exofish to compare the annotated human and mouse proteome (International
Protein Index, IPI) with the Tetraodon assembly (Human IPI: release 2.21, 2 july 2003; Mouse IPI:
release 1.14, 2 july 2003). When ecores were contiguous in a mammalian protein and in the
Tetraodon genome, they were included in the same ecotig (contig of ecores). This information
helped define gene boundaries, particularly in cases of tandem duplicated genes. Human and mouse
proteins that matched with Exofish were also aligned on Tetraodon scaffolds using Genewise48. We
then used Exofish to compare the entire human and mouse genomic sequence to the Tetraodon
assembly. This provided additional ecores that were not found in the predicted proteomes. Here,
ecotigs were built when two ecores were contiguous on the two genomes that were compared, as
described previously49.
6.3 Exofish between the Takifugu genome and Tetraodon
Compared to the Exofish version designed to detect ecores between mammals and fish, the
much shorter evolutionary time that has elapsed since the divergence of the two pufferfish imposed
more severe alignment constraints, and required an additional filter in the form of Genscan50 and
Geneid51 predictions. Both ab initio tools were trained on a set of manually annotated Tetraodon
genes, and only alignments at least 60 bp long that overlapped a predicted exon from either
program were considered valid. Calibrations were performed on two sets of Tetraodon gene. First,
a set of 507 reference Tetraodon genes built using Genewise with human protein sequences, in
which both the fish and the mammal genes have the same number of exons. The assumption is that
this set of well conserved genes represents a stringent selection template to identify Takifugu
alignments that must not occur in introns. The second set of reference genes comes from finished
BAC sequences produced at Genoscope and elsewhere, in which 178 gene structures could be
identified by human expertise using cDNAs sequences and comparisons with proteins from other
species.
Comparisons between the Tetraodon and Takifugu genome assemblies using TBLASTN
were much faster than between fish and mammals, and were computed on a cluster of 40 CPU
alpha EV6.8 at Genoscope.
10
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
6.4 Genewise
In addition to gene structures provided by ecotigs, human and mouse proteins mapped to a
given locus on the Tetraodon genome with Exofish were aligned using Genewise with default
parameters48. In cases where several proteins from a given mammalian species overlapped on the
Tetraodon assembly, the candidate with the longest span over the locus was chosen for a Genewise
alignment.
6.5 cDNAs
An important resource for Tetraodon gene annotation came from cDNA sequences. They
provide a high confidence evidence for the identification of protein coding genes, refine gene
structures based on similar genes in other species and enable the detection of genes that evolve too
fast for methods based on conservation during evolution.
We sequenced 286,955 cDNA clone ends corresponding to 155,067 clones from 7 libraries
constructed from brain, muscle, liver, kidney, eye, ovaries and whole fish RNA preparations.
RNAs were extracted with the TRI REAGENT kit (Sigma) and polyA+ mRNAs were
purified using a Quiagen Kit (Quiagen). Depending on the tissue, between 11 (muscle and liver)
and 32 (kidneys and brain) fish were required to obtain sufficient material, i.e. between 50 and 500
µg of polyA+ mRNA, except for the whole fish where a single individual was sufficient.
Thirteen full-length cDNA libraries were constructed according to the method of OligoCapping as described by Maruyana and Sugano52. The Oligo-Capping method includes three
enzymatic reaction steps. First, BAP (Bacterial alcaline phosphatase, Takara, 1.2U) hydrolyses the
phosphate of truncated mRNA 5' ends whose cap structures have been truncated. Then, the tobacco
acid pyrophosphatase (TAP, TEBU, 40 U) removes the cap structure leaving a free phosphate at the
5' end of complete mRNAs. Third, the T4 RNA ligase (Takara, 250U), which requires a phosphate
at the 5'end as its substrate, selectively ligates 5' r-oligos which contains a SfiI site only to the 5'
ends that originally had the cap structure. Using Oligo-capped mRNA, first-strand cDNA was
synthetised with dT adapter primers by RNaseH reverse transcriptase (SuperScriptII RNase H
Reverse Transcriptase, Invitrogen, 400 U). Finally, after alkaline degradation of the RNA, firststrand cDNAs were amplified by PCR (20 cycles at 94°C for 1min, 56°C for 1 min, 72°C for 10
min) using the LA Taq (Kit Takara, 10 U), and digested with restriction enzyme SfiI.
For cloning, inserts were ligated in a plasmid vector (pME18S-FL3; Maruyama and Sugano,
accession AB009864) using the DNA Ligation kit Ver.1. (Takara). Ligations were electroporated in
E.coli DH10B cells and plated on LB agar with ampicilin. After overnight growth, single colonies
11
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
were robotically picked in 384 microtitre plates and frozen at -80°C. DNA extractions and
sequencing was performed as previously described4.
We did not perform quality checks on the cDNAs reads for two reasons. First, corrupted
cDNA sequence reads (e.g. continuous run of a mononucleotide) may score high Phred values and
second, we postulated that aligning cDNAs sequences to the assembled genomic DNA would select
the useful reads from those that are of too low quality. To align the cDNAs we used BLAST
against the microsatellite masked assembly with the following parameters: W=20, X=8, match=5,
mismatch=-4. The scores of all High Scoring Pairs (HSPs) are then summed in each genomic
interval where the cDNA end sequence matches, and the interval with the highest score is selected
if it scores above 1,000. In cases where two intervals have equal scores, both are selected. The
interval corresponding to the 5’ and the 3’ sequences of the same clone were then fused if they lied
on the same scaffold and if they were separated by less than 30 kb. Only 91% of the 286,955
sequences could be aligned in this way. Those that did not match represent vector only clones (4%)
and low quality sequences or genes absent from the assembly (5%). To estimate the fraction of
cDNAs really missing from the assembly, we aligned the 24,758 cDNA sequences that did not
match Tetraodon, to the Takifugu assembly, and obtained only 650 positive hits corresponding to
136 clusters. Since it is unlikely that large unsequenced regions of both pufferfish genomes overlap
extensively except in gene poor heterochromatin, we conclude that the vast majority of cDNA
sequences that did not align to the Tetraodon assembly are low quality reads or contaminations. To
create gene models, 5’ and 3’ cDNA sequences were first assembled by Phrap when possible
(99,204 pairs), and aligned using EST_GENOME53 to the genomic interval identified by BLAST
that was first extended by 5 kb on each side. Parameters for EST_GENOME were: mismatch=2 and
penalty=3. We obtained 147,835 gene models and from those, we eliminated 13,481 models that
were considered unreliable: unspliced models and models overlapping on the forward and reverse
strand. The remaining 134,354 models were individually provided to GAZE54, and they represent
12,154 clusters on the assembly.
6.6 Geneid and Genscan
Geneid55and Genscan56 ab inito gene prediction software were trained on 184 Tetraodon
genes that had been annotated and reviewed in finished sequenced by human experts. We then
identified the same genes in the genome assembly and reconstituted one long sequence from the
184 genes in draft sequence. The performance57 of Geneid and Genscan on this sequence were
respectively 46% and 41% for specificity, and respectively 59% and 49% for sensitivity.
12
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
6.7 Integration of resources using GAZE
All the resources described here were used to automatically build Tetraodon gene models
using GAZE54. Individual predictions from each of the programs (Geneid, Genscan, Exofish,
Genewise, EST_GENOME) were broken down into segments (coding, intron, intergenic) and
signals (start codon, stop codon, splice acceptor, splice donor, transcript start, transcript stop).
Segments and signals were extracted from Genewise and EST_GENOME alignments. Because
Geneid and Genscan exons are not specific, we only considered their signals (splice donor, splice
acceptor, etc.) but did not use their exons as “coding segments”. Ecores and ecotigs do not predict
exon boundaries so they were only used to generate “coding segments” but no signals (Fig. S5B).
Each segment or signal from a given program was given a value reflecting our confidence in the
data, and these values were used as scores for the arcs of the GAZE automaton (Fig. S5A). All
signals from a given source were given a fixed score, but segment scores were context sensitive:
coding segment scores were linked to the percentage identity (%ID) of the alignment; intronic
segment scores were linked to the %ID of the flanking exons; the intergenic segment score was
linked to the score of the flanking ecotigs. All scores were then homogenised on scale from 1 to
100. Finally, the impact of each data source (Exofish, Geneid, etc.) was evaluated on a reference
Tetraodon sequence containing 184 genes individually annotated by human experts, and a weight
was assigned to each resource to further reflect its reliability and accuracy in predicting gene
models. This weight acts as a multiplicator for the score of each information source, before
processing by GAZE. On the reference sequence, the final selection of coding segments, signals,
associated scores and weights, once processed by GAZE, generates models with 72% sensitivity
and 74% specificity in exons.
When applied to the entire assembled sequence, GAZE predicts 34,355 gene models. We
used a filter to reject most obvious artefacts (CDS with a single amino acid for instance). Criteria
for rejections were: 1,210 models with a CDS smaller than 75 bp; 2,997 models with more than
50% of their exons with a GAZE score below 0 (i.e. exon only supported by ab initio methods);
1,000 models with an overall GAZE score below 1,000.
6.8 Comparison of GAZE and Ensembl
Ensembl is also an automatic annotation pipeline, and it is often used to annotate newly
sequenced metazoan genomes. Because Tetraodon is the first genome entirely annotated with
GAZE, we annotated with this procedure 189 Takifugu genome regions for which a known mRNA
sequence could be used as reference, and compared results with the existing Takifugu Ensembl
annotation. The exact same input information consisting of comparative sequence alignment data
and ab initio gene models were used in both GAZE and Ensembl. On this reference set, GAZE
13
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
annotates more exact exons than Ensembl (40.3% versus 36.8%) with a higher specificity (60.0%
versus 56.4%). Gene structures are also more accurate with GAZE, since Ensembl splits or fuses
more genes.
7. Analysis of specific gene families
7.1 Class I cytokines and their receptors
Like most species, vertebrates have had to develop immune systems to escape pathogens. The
key element was that vertebrate ancestors invented acquired immunity based on somatic gene
rearrangements. Diverging vertebrate species have adopted different numbers of rearranging genes
and different rearranging strategies (numerous genes versus numerous segments). Helical
cytokines (HC) are key regulators of the development and function of this acquired immune
system. They have mainly been described in mammals, are well documented in birds, but not in
fish.. These genes hence represent a real challenge for the annotation of a new fish genome. We
have already shown that a specific strategy could be used to identify a small subset (class II) of
these cytokines and their receptors in Tetraodon based on their specific exon-intron structure58.
Here, we use a similar strategy to describe the major subset (class I) of helical cytokines and their
receptors (HCRIs), after confirming each gene by cloning the corresponding transcript (Fig. S7).
The sequences from the known class I helical cytokines (HC) and their receptors (HCR) from
vertebrates were used to search both the Tetraodon predicted peptides and the translated assembly
sequence. Matching Tetraodon sequences could be classified in three categories:
1) Protein sequences clearly belonging to the HC or HCR families
2) Already identified proteins not belonging to HC or HCR familes
3) Sequences that do not clearly belong to either category 1 or 2.
Genes models were built around initial sequence alignments from categories 1 and 3 and
compared to canonical gene structures coding for helical cytokines (phase 0 introns) or for the
D200 domain of their receptors (phase1,2,1,0,1 introns). Using this strategy, 9 genes potentially
coding for class I helical cytokines were identified and 30 potentially coding for their receptors. For
each gene, the most robust putative exons were chosen to design oligonucleotides that could be
used for Q-RT-PCR to test for their expression and look for tissues with the highest expression. For
each gene, RNAs from the tissue showing the highest expression was used for 3’ and 5’ RACE.
Full length cDNAs were sequenced and protein sequences were deduced. Alternative splicing was
not investigated. The search for receptors was easier than the search for cytokines since receptors
have conserved residues that mainly lack to the cytokines.
14
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
The 9 genes coding for class I helical cytokines include Growth Hormone (GH), Somatolactine
(SL), Prolactins, Erythropoietin and Interleukines (IL). GH and the related SL gene are well
documented in fish. Two prolactin genes have been found in many fish species (e.g. PRL-I and
PRL-II. in Tilapia), and in Tetraodon also we found a TnPRLa and a TnPRLb gene. However in all
species with two documented prolactins, both are paralogs of the Tetraodon TnPRLa
(approximately 60% conserved residues) and probably emerged from a recent duplication in these
species. On the other hand, TnPRLa and TnPRLb only show 30% conserved residues between
them, and with their mammalian counterparts. PRLb is described here for the time, and
examination of the zebrafish genome (Trace Repository) indicates that it also posses both PRLa and
PRLb genes. This suggests that the duplication that gave rise to PRLa and PRLb is very ancient and
is present today in at least two fish species. Erythropoietin is described here for the first time in a
fish species
We describe a TnIL11 and a TnIL15 gene, the first examples of genes from the
IL6/IL11/LIF/OSM/CNTF and the IL2/IL4/IL7/IL9/IL13/IL15/21 groups in fish respectively.
Either these groups have not diversified in Tetraodon, or we failed to identify the other members if
they exist. Finally, we identified two genes structurally related to the mammalian IL12 (IL12p35)
cytokine, which show a high degree of sequence divergence suggesting that they appeared early in
fish evolution.
We identified 30 different genes coding for proteins harbouring a D200 domain typical of
class I cytokine receptors. All are structurally related to functionally characterised mammalian
cytokine receptors but appear highly divergent from the latter at the sequence level (below 30%
identical aminoacids), as expected for receptors involved in host defence mechanisms. However
TnCRFA1 and TnCRFA2 are two receptors that share significant similarities (respectively 67 %
and 60% identical amino acids) with human or murine proteins with no assigned functions and are
thus good candidates for receptors involved in other processes than host defence. For instance,
zebrafish CRFA1 may play a central role in cell movements during gastrulation59. Although the
D200 domain of TnCRFA2 is not canonical, it is also a candidate for being involved in a similar
function. Three Tetraodon receptors (TnCRFA4, TnCRFA5, TnCRFA6) show a high similarity to
Growth Hormone Receptors. While TnCRFA4 is more similar to mammalian GHR than to any fish
GHR gene, TnCRFA5 and TnCRFA6 are both more similar to fish GHR than to mammalian
receptors. We discovered two genes similar to Prolactin Receptors (TnCRFA7 and TnCRFA8) that
share only 44% identical residues. TnCRFA7 is likely to be a new member of this family since all
already known fish PRLR genes are more similar to TnCRFA8 than to TnCRFA7.
In mammals, interleukins of the IL2/IL4/IL7/IL9/IL13/IL15/IL21 group share components
of their receptor complexes. We have identified one receptor similar to the IL2Rgamma chain, a
15
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
single chain similar to both the IL2Rb and the IL4RA chains, one chain similar to the IL7R chain,
two chains both similar to the IL13RA chain and two chains sharing similarities with IL21R.
Interestingly, one gene posses an extra immunoglobulin domain compared to its mammalians
homologs (TnCRFA20). On the other hand, we have cloned a single cytokine homologous for this
group (TnIL15), suggesting that other cytokines of this group still remain to be cloned in
Tetraodon.
Mammalian interleukins of the IL6/IL11/LIF/OSM/CNTF/cardiotrophin group also share
components of their receptor complexes. We have identified a receptor similar to the CNTFR
chain, IL6RA, IL11RA, two similar to GP130 and two similar to LIFR. As for the previous
interleukin receptor group, we have cloned a single cytokine homologous for this group (TnIL11),
again suggesting that other cytokines exist in Tetraodon.
IL12 as described in man and mice is a very interesting cytokine since the active protein is a
heterodimer made of one helical cytokine (p35) covalently linked to the p40 subunit, a soluble
protein with a D200 domain. IL23 is made of the same p40 subunit covalently linked to another
helical cytokine (p19). The membrane receptor of IL12 is made of two molecules : IL12Rbeta1 and
IL12Rbeta2. In Tetraodon, we describe two receptors structurally related to IL12p40 and two
receptors structurally related to IL12Rbeta2: TnCRFA24 and TnCRFA25. The genes coding these
two genes are in tandem on the Tetraodon genome, they do not share more identities with each
other compared to their mammalian homologs indicating an ancient origin. The cDNA we have
cloned for TnCRFA24 codes for a soluble receptor, but we do not exclude that this could result
from alternative splicing and that the same gene would also code for a transmembrane receptor.
TnCRFA14 and TnCRFA15 could be the respective p40 moieties of TnIL12a and TnIL12b for fish
cytokines similar to mammalian IL12 and IL23. Their transmembrane receptors could include
TnCRFA24 TnCRFA25 either alone or in association with another transmembrane component
related to mammalian IL12Rbeta1.
The complete set of Tetraodon cytokine sequences described here was submitted to the
EMBL/Genbank/DDBJ databases and is available at: http://www.genoscope.cns.fr/tetraodon
7.2 Selenoproteins
Selenoproteins are proteins that incorporate selenium in the form of selenocysteine, the 21st
amino acid60, and they are widely distributed across the eukaryotic lineage in a family and taxaspecific fashion. In order to describe the Tetraodon selenoproteome (set of selenoproteins), we
devised a two step protocol. First, a parallel annotation pipeline to reannotate known selenoprotein
genes and second, a search for novel selenoprotein families in the Tetraodon sequence data.
16
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Finally, a variety of independent bioinformatics methods based on gene and SECIS prediction,
together with comparative genomics approaches, were applied61.
All these complementary approaches recognized the majority of known selenoprotein genes
and have identified at least one promising novel selenoprotein candidate in the Tetraodon genome.
Further computational and experimental analyses are pending. The Tetraodon selenoproteome
consists of 18-19 distinct selenoprotein families. One of them, SelU, has Sec in fishes but Cys in
mammals62 and the putative novel one, also has Sec in fishes but no gene counterpart in other
vertebrates. In conclusion, the Tetraodon and Takifugu genomes recapitulate all (15kDa, DI, GPx,
SelH, SelI, SelK, SelM, SelN, SelO, SelP, SelR, SelS, SelT, SelU, SelV, SelW, SPS2, TR) but one
(MsrA) of the 19-20 eukaryotic selenoprotein families and we believe the remaining gene models
in the genome to be free of a recoded TGA codon.
Predicted GAZE gene models with high homology to human selenoproteins were
reannotated to include the selenocysteine TGA codon in the ORF. A variety of methodologies were
used to build the best possible gene models. First, when a full-length Tetraodon cDNA was
available, the TGA-containing ORF was mapped into the genome to define the gene exon-intron
structure with the spidey program63. Second, if a cDNA sequence were not available (or not
complete), the ability of Geneid to predict genes having a TGA in-frame and its capacity of
handling partial homology data was used. Finally, when needed, the program genewise was also
used to align the set of human selenoproteins against the Tetraodon genome.
We started the search of novel selenoprotein genes by running a coordinated prediction of
SECIS elements and genes interrupted by in-frame TGA codons on both the genome and the cDNA
sequence data. Such genes, however, can be predicted only when a putative SECIS, whose position
along the genome is input (GFF file) into Geneid during gene prediction, exists at the right distance
(no more than 1,000 nt downstream). On the genome, the SECISearch program61 predicted 2,138
SECIS elements that resembled the standard SECIS secondary structure basepairing
64
, were
thermodynamically stable65 and had homology to the Takifugu genome (over 75% identity), of
which Geneid66 only paired 138 with a gene having a TGA in-frame.
These proteins were further analyzed by comparative genomics. In short, we searched for
protein sequence alignments with conservation around Sec-Sec or Sec-Cys pairs, as suggestive of
selenoprotein function. The underlying assumption is that sequence conservation in regions
flanking a UGA codon strongly argues for protein coding function across the codon. Predicted
protein sequences were therefore blasted against a variety of genomic and transcript sequences
from a wide range of eukaryotic organisms. In addition, a block of 20 amino acids (10 on each side
of the Sec residue aligned to either Sec or Cys) was checked for having at least 5 similar residues in
both regions and proteins with high homology to well characterized proteins (human IPI, version
17
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
2.24) functionally unrelated to selenoproteins were discarded. No new selenoprotein families were
unveiled.
A similar prediction was carried out on the cDNA sequences. SECIS and gene prediction
are more accurate on transcript sequences because real SECIS elements only exist in UTRs and the
lack of introns facilitates the finding of the right ORF. Two hundred and forty five potential SECIS
were predicted, and gene prediction yielded 25 genes with a TGA in-frame. Comparative analyses
were ran on this set and only one protein has turned out to be a putative novel selenoprotein family,
and is now under further investigation. Interestingly, within vertebrates it is widely distributed in,
but restricted to, actinopterygians in either Sec or Cys form. If it is indeed a bona fide
selenoprotein, this family demonstrates the discrete and taxa-specific distribution of selenoprotein
families in eukaryotes and, remarkably, could be the first selenoprotein without a Cys-containing
gene ortholog in mammals and other vertebrates.
In addition, we also predicted genes interrupted by an in-frame TGA codon irrespective of
the presence of SECIS structures on the genomic and cDNA data. In this way, selenoprotein genes
with altered SECIS structures may be found. However, no novel selenoprotein candidates arose
from this approach.
Finally, we made use of the possibility of having Cys-containing selenoprotein homologs
among the predicted GAZE gene models. We tried to identify paralogs and orthologs in fishes that
contain UGA in place of a Cys codon. No uncharacterized selenoproteins were found.
The
complete
set
of
Tetraodon
selenoproteins
is
available
at:
http://www.genoscope.org/tetraodon
7.3 HOX genes
Finally, we also annotated HOX gene clusters in Tetraodon. In all bilaterian animals, Hox
genes are responsible for patterning the main body axis67. In mammals, Hox genes are organised in
four clusters A, B, C and D, while seven clusters have been described in Danio rerio that include
48 genes. We used all HOX protein sequences previously identified in human, mouse and zebrafish
and aligned them on Tetraodon using Genewise and where then manually examined and corrected
where necessary. The 45 Hox genes identified in this way are also distributed in 7 clusters (Fig.
S8), each on a contiguous scaffold. Interestingly, the fish specific clusters Bb and Cb contain the
smallest number of genes and are the most variable in terms of gene content between the two fish,
suggesting that duplicate Hox clusters may have influenced the dramatic teleost radiation that gave
rise to the largest number of vertebrate species68. All manually annotated Tetraodon HOX genes
are displayed on a separate track on the annotation browser at
http://www.genoscope.cns.fr/tetraodon.
18
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
8. Estimate of gene numbers and new human genes
Our initial estimate with Exofish in 2000 was performed when the fraction of available
human DNA represented 42% of the genome and 33 % of the Tetraodon genome was sequenced in
random single reads. It may have lacked precision due to the necessary extrapolations. We can now
update this estimation based on nearly complete human and Tetraodon genomes. Exofish analysis
of 5 finished human chromosomes (chromosomes 6 69, 13 70, 14 71, 20 72 and 22 73) and their
annotations (individually reviewed by human experts) shows that 95.1% of the ecores overlap
annotated genes or pseudogenes (Table SI8). Remarkably, all chromosome annotations overlap the
same high fraction of ecores, suggesting that all have reached a similarly deep level of annotation
of human genes. In total, the five chromosomes contain 20,187 ecores and 4,277 genes. Using this
ratio, the 139, 316 ecores contained in the entire genome (Table 4) give 29,516 genes. The same
projection for pseudogenes (1902 pseudogenes in the 5 chromosomes) indicates that the human
genome would contain at least 13,126 pseudogenes. However, the 4,277 annotated genes on the 5
chromosomes can be classified in 3,272 “known” genes with a corresponding transcript and an
open reading frame, and 909 “putative” genes that are incomplete or for which an open reading
frame could not be found. Refining the above extrapolations to the entire genome with these two
classes suggests that 6,273 genes of the estimated total of 29,516 are in fact “putative”, leaving
22,585 estimated “known” genes. Because recent studies indicate a high number of pseudogenes in
human74we believe this measure to be more accurate and thus estimate that the human genomes
contains approximately 22,500 genes and at least 19,000 pseudogenes.
Known human genes, considered here to be the union of Ensembl, Swiss-Prot, TREMBL,
Refseq, VEGA genes and cDNAs from the Mammalian Gene Collection (MGC), capture 85.7% of
ecores built with Tetraodon. Another 8.2% overlap human pseudogenes74, and 14,766 ecores do not
overlap any of these “known” features, thus pointing to potential novel genes. We used the 2,500
Tetraodon gene models that contain these ecores in the Tetraodon genome, and aligned them using
Genewise on the human genome, in the intervals that contained these 14,766 ecores. These
preliminary gene models were then combined with neighbouring annotations such as human
mRNAs, RefSeq mRNAs, Genscan and GeneID models (if available), and given as input to GAZE
for the prediction of gene models over a large regions around the Genewise model. If a GAZE
model with more than one exon was constructed over a region devoid of any “known” feature, it is
qualified here as novel human gene (Table SI9). This protocol was successfully evaluated on
known human genes first, demonstrating that GAZE can reliably reconstruct the exon/intron
structure of human genes when given the same type of information as for the prediction of novel
genes.
19
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
9. Genome evolution
9.1 Identification of vertebrate orthologs
We identified orthologous genes between 10 pairs of genomes from five species: human,
mouse, Tetraodon, Takifugu, and Ciona intestinalis. Each pair of predicted gene sets were aligned
with the Smith-Waterman algorithm, and alignments with a score higher than 300 (BLOSUM62,
gapo=10, gape=1) were retained. Two genes, A from genome GA and B from genome GB, were
considered orthologs if B is the best match of gene A in GB and A is the best match of B in GA.
Predicted peptides for each genome were:
Human:
23,299 peptides in Ensembl version 18.33.1
Mouse:
24,948 peptides in Ensembl version 18.30.1
Takifugu:
35,180 peptides in Ensembl version 18.2.1
Ciona :
15,852 peptides in JGI version 1
Tetraodon :
27,918 peptides (this report)
Because this approach does not rely on the phylogenetic history of the genes, it is at best a
proxy for the real set of orthologs between these five species. For this reason we selected a subset
of genes from each species that share their orthologs with the other four species. In this subset, any
gene possesses an ortholog with the other four species, and those other four genes are orthologs of
each other. Moreover, only the part of each gene that is aligned in common with the other four was
retained for the analysis. This produced 1,165 gene fragments that represent a high confidence set
of core orthologous coding regions between four vertebrates and one urochordate. The same
strategy was used to generate a set of 5,802 orthologous regions for the four vertebrates only.
9.2 Neutral rate of DNA evolution
The neutral rate of evolution was calculated on the above orthologous quadruplets and
quintuplets of genes where each gene is an ortholog of all the other genes (Table SI11). Amino acid
alignments were reverse translated into nucleic alignments using the corresponding predicted
transcript. Fourfold degenerate codons were defined as GCX (Ala), CCX (Pro), TCX (Ser), ACX,
(Thr), CGX (Arg), GGX (Gly), CTX (Leu) and GTX (Val). In these codons, the third base is free to
change without affecting the nature of the encoded amino acid. The observed neutral rate of
evolution is defined as the fraction of mutated nucleotides between orthologs at those positions.
Because several rounds of mutation can occur at a given position, an absence of observed change
may simply be the result of two successive changes, with the second reverting the change generated
by the first. To correct for this effect, we applied the General Time Reverse (REV) model which
20
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
postulates that the substitution frequency of (for instance) A to T is the same as that of T to A75 as
described previously76.
9.3 Rate of evolution in coding DNA
We define Ks as the number of silent or synonymous nucleotidic substitutions per site
(mutations that do not change the amino acid), and Ka as the number of non-synonymous
substitutions per site (mutations that change the amino acid). Ks and Ka values were calculated on
the entire set of orthologs between each pair of species, and between the quadruplet and quintuplets
of high confidence orthologous regions described above (Table SI11), using the GCG package
(PBL method applying Kimura's two-parameter method77-79). Ks values could not be calculated
(too few sites, or saturated values) for some pairs of orthologs (n.d. in table SI11).
We asked whether proteins that diverge rapidly in fish also evolve at a faster rate in human and
mouse. Consistent with many reports that selective pressure on protein sequence is conserved
among orthologs, Ka values are correlated between the phylogenetically independant pairs
Tetraodon / Takifugu and human / mouse (correlation of Ln(Ka): r=0.483, p<0.0001), as are Ka/Ks
ratios (r=0.469, p<0.0001). Contrary to observations in mammals80 there is only a small correlation
between pufferfish Ka or Ks and mammal Ks (r=0.125 or r=0.045, data not shown), although the
significance of such results may depend on the method81.
9.4 Genome duplications
Detection of duplicate genes and computation of Ka and Ks values:
We performed an all-against-all comparison of Tetraodon predicted peptides using
Exofish47. A score value of S>600 (at least 40 amino acids with no gap) allows the selection of
2,260 pairs from the blast calculation. To minimise problems of non independence and redundancy,
none of the groups with more than 2 Tetraodon genes were used. The pairs of protein sequences
were aligned by the Smith and Waterman algorithm82, and the alignment was extended to the
nucleotide coding sequences. For each pair, the number of synonymous (or silent) substitutions per
synonymous site, Ks, and the number of non-synonymous (or amino acid replacement)
substitutions, Ka, were calculated using the GCG software (PBL method applying Kimura's twoparameter method77-79). We removed sequences with null Ka or Ks values, and those where Ka or
Ks were not computable because sites were too few. We also manually removed predicted proteins
containing clear frameshifts. This resulted in 1,142 pairs of duplicated genes in Tetraodon. The
same procedure was applied to Takifugu (Ensembl 17.2.1) predicted peptides. Very high,
potentially saturated values of Ka and Ks were kept to show the pattern of distribution of the more
distantly related paralogs, although we may not be able to accurately estimate their divergence.
21
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
The distribution of the large Ks values in the three species is not binomial according to the ShapiroWilk test:
Tetraodon:
W=0.9709 and p=4.851e-11
Takifugu:
W=0.9711 and p=1.264e-11
9.5 Synteny
Synteny is defined here in its simplest form: a syntenic group is composed of at least two
genes contiguous in genome A with orthologs located on the same chromosome in genome B.
Because orthologs are the only genes for which position information is available on two genomes,
paralogs are ignored in this definition. The contiguity rule was not strictly obeyed in one case:
when two groups of contiguous genes in genome A are syntenic with the same chromosome in
genome B, and are separated by one or more singletons (genes that are not part of a group), then the
two groups are merged. In effect, this results in syntenic groups with a genomic span that include
ortologs which do not all map to the same chromosome in the other species. However these
represent a minority of syntenic groups (248 out of 905 in human, 185 out of 900 in Tetraodon).
9.6 The ancestral vertebrate genome
Pairing duplicate chromosomes by orthology with the human genome
Visual inspection of syntenic groups along human chromosomes initially revealed the
interleaving pattern: along a given human chromosome region, syntenic groups would alternatively
point to the same two Tetraodon chromosomes. More rarely, syntenic groups would point to three
or four chromosomes in Tetraodon in alternation. We applied a set of strict definitions and rules to
classify such patterns in six categories:
Definitions and abbreviations:
- Ortholog: orthologous gene between human and Tetraodon as defined in section 9.1
- Group: syntenic group of orthologs as defined in section 9.5
- Tn: Tetraodon nigroviridis
Category 1: "unassigned singletons".
Series of i groups that belong to a unique Tn chromosome. The series may be interrupted with
groups from other chromosomes only if they belong to Category 6 (see below). If i=1, the group
must possess at least 5 genes. Such series (often a single isolated group) are labelled X followed by
22
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
a distinctive digit followed by letter corresponding to the series within which they fall. If they fall
between two series, they are followed by the “-“ sign instead.
Category 2: “ancestral vertebrate segments”
Alternating series of i groups that belong to 2 (i>=2) or 3 (i>=3) Tn chromosomes. The series may
only be interrupted by groups from categories 1 or 6. A given combination of 2 or 3 Tn
chromosomes must appear at least twice in the human genome, and such combinations are labelled
A to L.
Category 3: "unassigned pairs"
Identical to category 2 but a given combination of 2 Tn chromosomes appears only once in the
human genome. Such combinations are labelled U.
Category 4: "unassigned triplets"
Identical to category 2 but a given combination of 3 Tn chromosomes appears only once in the
human genome. Such combinations are labelled V.
Category 5: "unassigned quadruplets".
Identical to category 2 but a given combination of 4 Tn chromosomes appears only once in the
human genome. A series of category 5 must contain at least 6 groups. Such combinations are
labelled W.
Category 6: “background singletons”
Includes all other groups that remain unclassified and that possess less than 5 genes. Such groups
are labelled Y followed by the letter corresponding to the series within which they fall. If they fall
between two series, they are followed by the “-“ sign instead.
Category 7: “background series”
Includes series of contiguous groups from different Tetraodon chromosomes that do not show
interleaving. Such series are labelled Z.
Example:
cat.6
___
| |
[125] [415] [126] [43] [123] [187] [67] [52] [83] [69] [55] [82] [92] [43] [129] [46] [122] [173] [44]
23
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
|____________________| |___| |____________________| |__| |______________________|
cat. 2
cat.1
cat. 4
cat.6
(ancestral segment A)
cat. 2
(ancestral segment A)
From left to right, a succession of syntenic groups along a human chromosomal region. The
numbers in brackets indicate the Tetraodon chromosome number and the indices indicate the
number of orthologous genes in the group. Ex: [125] is a group of 5 consecutive human genes that
have an ortholog on Tetraodon chromosome 12. It belongs to a series of alternating groups from
Tetraodon chromosomes 4 and 12 (category 2), which is labelled A.
Balanced deletion of duplicate copies
To calculate the number of duplicate gene copies that were deleted on a given Tetraodon
chromosomes, we only considered the 8 duplicated chromosomes that were not submitted to
fissions or translocations. Indeed, such rearrangements may be followed by internal chromosome
shuffling, making it difficult to identify the two original duplicated regions. The count was thus
limited to chromosomes pairs 4:12, 5:13, 13:19, 7:16, 1:7, 1:15, 10:14, 9:11 (Table 6). For each
pair we first selected the chromosome with the smallest number of orthologs and summed those.
These are chromosomes were most deletions occurred. We then summed the other members of
each pair, i.e. those containing the highest number of orthologs. These Tetraodon chromosomes are
those where the least deletions took place. This approach is a “worst case” strategy, i.e. we
estimate the retention rate by summing all chromosomes where most deletions occurred on one
hand, and all chromosomes were the least deletions occurred on the other hand. The results
indicate that on average 42% of orthologs are present on the former and 58% on the latter. In reality
the true retention rate is likely to be closer to 50:50.
10. Protein domain analysis
InterProScan was run against all Tetraodon, Takifugu, human, mouse and Ciona proteins as
described earlier83, omitting pattern search from PRINTS and PROSITE. The statistical
significance of differences in frequencies of proteins related to a given InterPro family was
assessed using likelihood ratios under a Poisson distribution as described earlier84.
24
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
11. References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
Kocher, T. D. Molecular Systematics of Fishes (Academic Press, San Diego, 1997).
Philippe, H. MUST, a computer package of Management Utilities for Sequences and Trees.
Nucleic Acids Res 21, 5264-72 (1993).
Swofford, D. L. PAUP* 4.0 : Phylogenetic analysis using parsimony (and other methods)
(Sinauer Associates, Inc, Sunderland, 1998).
Artiguenave, F. et al. Genomic exploration of the hemiascomycetous yeasts: 2. Data
generation and processing. FEBS Lett 487, 13-6 (2000).
Waterston, R. H. et al. Initial sequencing and comparative analysis of the mouse genome.
Nature 420, 520-62 (2002).
Lander, E. S. et al. Initial sequencing and analysis of the human genome. Nature 409, 860921. (2001).
Dudoignon, L., Glemet, E., Heus, H. C. & Raffinot, M. High Similarity Sequence
Comparison in Clustering Large Sequence Databases. CSB'2002. IEEE Computer Society
Press. (In press) (2003).
Weber, J. L. & Myers, E. W. Human whole-genome shotgun sequencing. Genome Res 7,
401-9. (1997).
Green, P. Against a whole-genome shotgun. Genome Res 7, 410-7 (1997).
Roest Crollius, H. et al. Characterization and repeat analysis of the compact genome of the
freshwater pufferfish Tetraodon nigroviridis. Genome Research 10, 939-949 (2000).
Nizetic, D., Drmanac, R. & Lehrach, H. An improved bacterial colony lysis procedure
enables direct DNA hybridisation using short (10, 11 bases) oligonucleotides to cosmids.
Nucleic Acids Res 19, 182 (1991).
Roest Crollius, H., O'Brien, J. & Lehrach, H. in Genetic library construction and screening
(eds. Curtis Bird, R. & Smith, B. F.) 187 (Springer-Verlag, Berlin, 2002).
Mott, R., Grigoriev, A., Maier, E., Hoheisel, J. & Lehrach, H. Algorithms and software
tools for ordering clone libraries: application to the mapping of the genome of
Schizosaccharomyces pombe. Nucleic Acids Res 21, 1965-74 (1993).
Engler, F. & Soderlund, C. in Genome mapping and sequencing (ed. Dunham, I.) 201
(Horizon Scientific Press, Wymondham, 2003).
Fischer, C. et al. Karyotype and chromosomal localization of characteristic tandem repeats
in the pufferfish Tetraodon nigroviridis. Cytogenetics and Cell genetics 88, 50-55 (2000).
Volff, J. N., Bouneau, L., Ozouf-Costaz, C. & Fischer, C. Diversity of retrotransposable
elements in compact pufferfish genomes. Trends Genet 19, 674-678 (2003).
Nardon, C., Weiss, M., Vieira, C. & Biemont, C. Variation of the genome size estimate with
environmental conditions in Drosophila melanogaster. Cytometry 55A, 43-9 (2003).
Malik, H. S., Burke, W. D. & Eickbush, T. H. The age and evolution of non-LTR
retrotransposable elements. Mol Biol Evol 16, 793-805 (1999).
Malik, H. S. & Eickbush, T. H. NeSL-1, an ancient lineage of site-specific non-LTR
retrotransposons from Caenorhabditis elegans. Genetics 154, 193-203 (2000).
Lovsin, N., Gubensek, F. & Kordi, D. Evolutionary dynamics in a novel L2 clade of nonLTR retrotransposons in Deuterostomia. Mol Biol Evol 18, 2213-24 (2001).
Goodwin, T. J. & Poulter, R. T. The DIRS1 group of retrotransposons. Mol Biol Evol 18,
2067-82 (2001).
Volff, J. N., Hornung, U. & Schartl, M. Fish retroposons related to the Penelope element of
Drosophila virilis define a new group of retrotransposable elements. Mol Genet Genomics
265, 711-20 (2001).
Plasterk, R. H., Izsvak, Z. & Ivics, Z. Resident aliens: the Tc1/mariner superfamily of
transposable elements. Trends Genetics 15, 326-32 (1999).
25
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
Biedler, J. & Tu, Z. Non-LTR Retrotransposons in the African Malaria Mosquito,
Anopheles gambiae: Unprecedented Diversity and Evidence of Recent Activity. Mol Biol
Evol (2003).
Huang, X. A contig assembly program based on sensitive detection of fragment overlaps.
Genomics 14, 18-25 (1992).
Volff, J.-N., Korting, C., Sweeney, K. & Schartl, M. The non-LTR retrotransposon Rex3
from the fish Xiphophorus is widespread among teleosts. Mol Biol Evol 16, 1427-38 (1999).
Volff, J. N., Korting, C. & Schartl, M. Multiple lineages of the non-LTR retrotransposon
Rex1 with varying success in invading fish genomes. Mol Biol Evol 17, 1673-84 (2000).
Volff, J. N. et al. Jule from the fish Xiphophorus is the first complete vertebrate Ty3/Gypsy
retrotransposon from the Mag family. Mol Biol Evol 18, 101-11 (2001).
Volff, J. N., Korting, C., Froschauer, A., Sweeney, K. & Schartl, M. Non-LTR
retrotransposons encoding a restriction enzyme-like endonuclease in vertebrates. J Mol Evol
52, 351-60 (2001).
Butler, M., Goodwin, T., Simpson, M., Singh, M. & Poulter, R. Vertebrate LTR
retrotransposons of the Tf1/sushi group. J Mol Evol 52, 260-74 (2001).
Frame, I. G., Cutfield, J. F. & Poulter, R. T. New BEL-like LTR-retrotransposons in Fugu
rubripes, Caenorhabditis elegans, and Drosophila melanogaster. Gene 263, 219-30 (2001).
Koga, A., Hori, H. & Ishikawa, Y. Gamera, a family of LINE-like repetitive sequences
widely distributed in medaka and related fishes. Heredity 89, 446-52 (2002).
Aparicio, S. et al. Whole-Genome Shotgun Assembly and Analysis of the Genome of Fugu
rubripes. Science 25, 25 (2002).
Poulter, R., Butler, M. & Ormandy, J. A LINE element from the pufferfish (fugu) Fugu
rubripes which shows similarity to the CR1 family of non-LTR retrotransposons. Gene 227,
169-79 (1999).
Lee, S. H., Clark, J. B. & Kidwell, M. G. A P element-homologous sequence in the house
fly, Musca domestica. Insect Mol Biol 8, 491-500 (1999).
Hagemann, S. & Pinsker, W. Drosophila P transposons in the human genome? Mol Biol
Evol 18, 1979-82 (2001).
Kapitonov, V. V. & Jurka, J. Rolling-circle transposons in eukaryotes. Proc Natl Acad Sci
U S A 98, 8714-9 (2001).
Rubin, E., Lithwick, G. & Levy, A. A. Structure and evolution of the hAT transposon
superfamily. Genetics 158, 949-57 (2001).
Koga, A., Suzuki, M., Maruyama, Y., Tsutsumi, M. & Hori, H. Amino acid sequence of a
putative transposase protein of the medaka fish transposable element Tol2 deduced from
mRNA nucleotide sequences. FEBS Lett 461, 295-8 (1999).
Holt, R. A. et al. The genome sequence of the malaria mosquito Anopheles gambiae.
Science 298, 129-49 (2002).
Kapitonov, V. V. & Jurka, J. Molecular paleontology of transposable elements in the
Drosophila melanogaster genome. Proc Natl Acad Sci U S A 100, 6569-74 (2003).
Bevan, M. et al. Sequence and analysis of the Arabidopsis genome. Curr Opin Plant Biol 4,
105-10 (2001).
Petrov, D. Mutational Equilibrium Model of Genome Size Evolution. Theoretical
Population Biology 61, 531-543 (2002).
Dasilva, C. et al. Remarkable compartmentalization of transposable elements and
pseudogenes in the heterochromatin of the Tetraodon nigroviridis genome. Proc. Natl.
Acad. Sci. U S A 99, 13636-13641 (2002).
Neafsey, D. E. & Palumbi, S. R. Genome size evolution in pufferfish: a comparative
analysis of diodontid and tetraodontid pufferfish genomes. Genome Res 13, 821-30 (2003).
Benson, G. Tandem repeats finder: a program to analyze DNA sequences. Nucleic Acids
Res 27, 573-80 (1999).
26
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
Roest Crollius, H. et al. Human gene number estimate provided by genome wide analysis
using Tetraodon nigroviridis genomic DNA. Nature Genetics 25, 235-238 (2000).
Birney, E. & Durbin, R. Using GeneWise in the Drosophila annotation experiment. Genome
Res. 10, 391-393 (2000).
Jaillon, O. et al. Genome-wide analyses based on comparative genomics. Cold Spring
Harbor Symposia on Quantitative Biology 68, in press (2003).
Burge, C. & Karlin, S. Prediction of complete gene structures in human genomic DNA. J
Mol Biol 268, 78-94 (1997).
Parra, G., Blanco, E. & Guigo, R. GeneID in Drosophila. Genome Res 10, 511-5 (2000).
Maruyana & Sugano. Oligo-capping : a simple method to replace the cap structure of
eukaryotic mRNAs with oligoribonucleotides. Gene 138, 171-174 (1994).
Mott, R. EST_GENOME: a program to align spliced DNA sequences to unspliced genomic
DNA. Comput Appl Biosci 13, 477-8 (1997).
Howe, K. L., Chothia, T. & Durbin, R. GAZE: a generic framework for the integration of
gene-prediction data by dynamic programming. Genome Res. 12, 1418-1427 (2002).
Parra, G., Blanco, E. & Guigo, R. GeneID in Drosophila. Genome Res. 10, 511-515 (2000).
Burge, C. B. & Karlin, S. Finding the genes in genomic DNA. Curr Opin Struct Biol 8, 34654 (1998).
Burset, M. & Guigo, R. Evaluation of gene structure prediction programs. Genomics 34,
353-67 (1996).
Lutfalla, G. et al. Comparative genomic analysis reveals independent expansion of a
lineage-specific gene family in vertebrates: The class II cytokine receptors and their ligands
in mammals and fish. BMC Genomics 4, 29 (2003).
Hou, S. X., Zheng, Z., Chen, X. & Perrimon, N. The Jak/STAT pathway in model
organisms: emerging roles in cell movement. Dev Cell 3, 765-78 (2002).
Hatfield, D. L. Selenium: Its Molecular Biology and Role in Human Health (Kluwer
Academic Publishers, Dordrecht, 2001).
Kryukov, G. V. et al. Characterization of mammalian selenoproteomes. Science 300, 143943 (2003).
Castellano, S. et al. Reconsidering the evolution of eukaryotic selenoproteins: a novel nonmammalian family with scattered phylogenetic distribution. EMBO reports in press (2004).
Wheelan, S. J., Church, D. M. & Ostell, J. M. Spidey: a tool for mRNA-to-genomic
alignments. Genome Res 11, 1952-7 (2001).
Dsouza, M., Larsen, N. & Overbeek, R. Searching for patterns in genomic data. Trends
Genet 13, 497-8 (1997).
Zuker, M. & Stiegler, P. Optimal computer folding of large RNA sequences using
thermodynamics and auxiliary information. Nucleic Acids Res 9, 133-48 (1981).
Castellano, S. et al. In silico identification of novel selenoproteins in the Drosophila
melanogaster genome. EMBO Rep 2, 697-702 (2001).
Duboule, D. Guidebook to the Homeobox genes (Oxford University Press, Oxford, 1994).
Wagner, G. P., Amemiya, C. & Ruddle, F. Hox cluster duplications and the opportunity for
evolutionary novelties. Proc Natl Acad Sci U S A 100, 14603-6 (2003).
Mungall, A. J. et al. The DNA sequence and analysis of human chromosome 6. Nature 425,
805-11 (2003).
Hillier, L. W. et al. The DNA sequence of human chromosome 7. Nature 424, 157-64
(2003).
Heilig, R. et al. The DNA sequence and analysis of human chromosome 14. Nature 421,
601-7 (2003).
Deloukas, P. et al. The DNA sequence and comparative analysis of human chromosome 20.
Nature 414, 865-871 (2001).
Dunham, I. et al. The DNA sequence of human chromosome 22. Nature 402, 489-95
(1999).
27
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
Torrents, D., Suyama, M., Zdobnov, E. & Bork, P. A genome-wide survey of human
pseudogenes. Genome Res 13, 2559-67 (2003).
Tavaré, S. Some probabilistic and statistical problems in the analysis of DNA sequences.
Lectures on Mathematics in the Life Sciences 17, 57-86 (1986).
Gu, X. & Li, W. H. A general additive distance with time-reversibility and rate variation
among nucleotide sites. Proc Natl Acad Sci U S A 93, 4671-6 (1996).
Kimura, M. A simple method for estimating evolutionary rates of base substitutions through
comparative studies of nucleotide sequences. J Mol Evol 16, 111-20 (1980).
Li, W. H., Wu, C. I. & Luo, C. C. A new method for estimating synonymous and
nonsynonymous rates of nucleotide substitution considering the relative likelihood of
nucleotide and codon changes. Mol Biol Evol 2, 150-74 (1985).
Pamilo, P. & Bianchi, N. O. Evolution of the Zfx and Zfy genes: rates and interdependence
between the genes. Mol Biol Evol 10, 271-81 (1993).
Mouchiroud, D., Gautier, C. & Bernardi, G. Frequencies of synonymous substitutions in
mammals are gene-specific and correlated with frequencies of nonsynonymous
substitutions. J Mol Evol 40, 107-13 (1995).
Williams, E. J. & Hurst, L. D. Is the synonymous substitution rate in mammals genespecific? Mol Biol Evol 19, 1395-8 (2002).
Smith, T. F. & Waterman, M. S. Identification of common molecular subsequences. J Mol
Biol 147, 195-7 (1981).
Zdobnov, E. M. & Apweiler, R. InterProScan--an integration platform for the signaturerecognition methods in InterPro. Bioinformatics 17, 847-8 (2001).
Journet, E. P. et al. Exploring root symbiotic programs in the model legume Medicago
truncatula using EST analysis. Nucleic Acids Res 30, 5579-92 (2002).
Lee, W. J., Conroy, J., Howell, W. H. & Kocher, T. D. Structure and evolution of teleost
mitochondrial control regions. J Mol Evol 41, 54-66 (1995).
Saccone, C., Pesole, G. & Sbisa, E. The main regulatory region of mammalian
mitochondrial DNA: structure-function model and evolutionary pattern. J Mol Evol 33, 8391 (1991).
28
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
cytb_i
cytb_j
cytb_m
U62557
cytb_a
cytb_f
cytb_bb
cytb_c
cytb_b
U62558
TTTGGCTCCCTTCTAGGACTCTGCTTAATCGCCCAAATCCTAACAGGCCTATTTCTAGCCATACACTACACTTCAGACATCGCCACTGCCTTTTCATCCG
TTTGGCTCCCTTCTAGGACTCTGCTTAATCGCCCAAATCCTAACAGGCCTATTTCTAGCCATACACTACACTTCAGACATCGCCACTGCCTTTTCATCCG
TTTGGCTCCCTTCTAGGGCTATGCTTAGTCGCCCAAATCCTAACAGGACTATTCCTAGCAATACACTACACCTCAGACATCGCTACCGCCTTTTCATCCG
TTTGGCTCCCTTCTAGGGCTATGCTTAATCGCCCAAATCCTAACAGGACTACTCCTAGCAATACACTACACCTCAGACATCGCTACCGCCTTTTCATCCG
TTTGGCTCCCTTCTAGGGCTATGCTTAATCGCCCAAATCCTAACAGGACTATTCCTAGCAATACACTACACCTCAGACATCGCTACCGCCTTTTCATCCG
TTTGGCTCCCTTCTAGGGCTCTGCTTAATCGCCCAAATCCTAACAGGACTATTCCTAGCAATACACTACACCTCAGACATCGCTACTGCCTTTTCATCCG
TTTGGCTCCCTTCTAGGGCTCTGCTTAATCGCCCAAATCCTAACAGGACTATTCCTAGCAATACACTACACCTCAGACATCGCTACTGCCTTTTCATCCG
TTTGGCTCCCTTCTAGGGCTCTGCTTAGTCGCCCAAATCCTAACAGGACTATTCCTAGCAATACACTACACCTCAGACATCGCTACTGCCTTTTCATCCG
TTTGGCTCCCTTCTAGGGCTCTGCTTAGTCGCCCAAATCCTAACAGGACTATTCCTAGCAATACACTACACCTCAGACATCGCTACTGCCTTTTCATCCG
TTTGGCTCTCTGCTCGGATTATGCCTTATTACACAAATCATCACAGGACTGTTCCTTGCAATACACTACACATCCGACATCTCTACCGCCTTTTCATCCG
1.......10........20........30........40........50........60........70........80........90..........
V
A
H
I
C
R
D
V
N
Y
G
W
L
I
R
N
L
H
A
N
G
A
S
F
F
F
I
C
L
Y
L
H
I
G
cytb_i
TCGCCCACATCTGCCGAGACGTCAACTACGGCTGACTCATCCGTAACCTCCACGCAAACGGAGCCTCTTTCTTCTTCATCTGCTTGTACTTACACATCGG
cytb_j
TCGCCCACATCTGCCGAGACGTCAACTACGGCTGACTCATCCGTAACCTCCACGCAAACGGAGCCTCTTTCTTCTTCATCTGCTTGTACTTACACATCGG
cytb_m
TTGCCCACATCTGCCGAGACGTCAACTACGGCTGACTAATCCGGAACCTCCACGCAAACGGAGCTTCCTTCTTTTTCATCTGTTTATACTTACACATCGG
U62557
TTGCCCACATCTGCCGAGACGTCAACTACGGCTGACTAATCCGGAACCTCCACGCAAACGGAGCTTCCTTCTTTTTCATCTGTTTATACTTACACATCGG
cytb_a
TTGCCCACATCTGCCGAGACGTCAACTACGGCTGACTAATCCGGAACCTCCACGCAAACGGAGCTTCCTTCTTTTTCATCTGTTTATACTTACACATCGG
cytb_f
TTGCCCACATCTGCCGAGACGTCAACTACGGCTGACTAATCCGGAACCTCCACGCAAACGGAGCTTCCTTCTTTTTCATCTGCTTATACTTACACATCGG
cytb_bb TTGCCCACATCTGCCGAGACGTCAACTACGGCTGACTAATCCGGAACCTCCACGCAAACGGAGCTTCCTTCTTTTTCATCTGCTTATACTTACACATCGG
cytb_c
TTGCCCACATCTGCCGAGACGTCAACTACGGCTGACTAATCCGGAACCTCCACGCAAACGGAGCTTCCTTCTTTTTCATCTGTTTATACTTACACATCGG
cytb_b
TTGCCCACATCTGCCGAGACGTCAACTACGGCTGACTAATCCGGAACCTCCACGCAAACGGAGCTTCCTTCTTTTTCATCTGTTTATACTTACACATCGG
U62558
TAGCCCACATTTGCCGAGACGTAAACTACGGCTGACTAATTCGCAATCTACACGCAAACGGTGCCTCATTCTTTTTTATTTGCTTATACTCCCACATCGG
101......110.......120.......130.......140.......150.......160.......170.......180.......190..........
R G L Y Y G S Y L Q K E T W N I G V V L L L L V M A T A F V G Y V
cytb_i
ACGAGGCCTCTACTATGGCTCCTACCTGCAAAAAGAAACTTGAAACATCGGAGTCGTTCTTCTACTCCTAGTTATGGCCACCGCCTTCGTAGGCTACGTC
cytb_j
ACGAGGCCTCTACTATGGCTCCTACCTGCAAAAAGAAACTTGAAACATCGGAGTCGTTCTTCTACTCCTAGTTATGGCCACCGCCTTCGTAGGCTACGTC
cytb_m
ACGAGGCCTCTACTACGGCTCCTACCTGCAAAAAGAAACCTGAAACATCGGAGTAGTTCTTCTACTACTGGTCATGGCCACCGCCTTCGTGGGCTACGTC
U62557
ACGAGGCCTCTACTACGGCTCCTACCTGCAAAAAGAAACCTGAAACATCGGAGTAGTTCTTCTACTACTGGTCATGGCCACCGCCTTCGTAGGCTACGTC
cytb_a
ACGAGGCCTCTACTACGGCTCCTACCTGCAAAAAGAAACCTGAAACATCGGAGTAGTTCTTCTACTACTGGTCATGGCCACCGCCTTCGTAGGCTACGTC
cytb_f
ACGAGGACTCTACTACGGCTCCTATCTGCAAAAAGAAACCTGAAATATCGGAGTAGTTCTTCTACTGCTCGTCATGGCCACCGCCTTCGTGGGCTACGTC
cytb_bb ACGAGGACTCTACTACGGCTCCTATCTGCAAAAAGAAACCTGAAATATCGGAGTAGTTCTTCTACTGCTCGTCATGGCCACCGCCTTCGTGGGCTACGTC
cytb_c
ACGAGGACTCTACTACGGCTCCTACCTGCAAAAAGAAACCTGAAATATCGGAGTAGTTCTTCTACTACTAGTCATAGCCACCGCCTTCGTAGGCTACGTC
cytb_b
ACGAGGACTCTACTACGGCTCCTACCTGCAAAAAGAAACCTGAAATATCGGAGTAGTTCTTCTACTACTAGTCATAGCCACCGCCTTCGTAGGCTACGTC
U62558
CCGAGGTCTTTACTATGGCTCTTACCTAAGTAAAGAAACCTGAAACGTAGGGGTAGTCCTCTTACTTTTAGTAATGGCCACCGCTTTCGTAGGCTACGTT
201......210.......220.......230.......240.......250.......260.......270.......280.......290..........
L P
cytb_i
CTCCCC
cytb_j
CTCCCC
cytb_m
CTCCCC
U62557
CTCCCC
cytb_a
CTCCCC
cytb_f
CTCCCC
cytb_bb CTCCCC
cytb_c
CTCCCC
cytb_b
CTCCCC
U62558
CTTCCA
301.....
Figure S1A
29
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
dloop_i
dloop_j
dloop_h
dloop_a
dloop_f
dloop_bb
dloop_c
dloop_b
dloop_m
~~~TTACATATATGTAATATCACCATGAATATATATGAACCATATAATAGTATGTTATATAAAACATATATAGATTAATAACCTAAAACTGAATTAATAC
TTGTTACATATATGTAATATCACCATGAATATATATGAACCATATAATAGTATGTTATATAAAACATATATAGATTAATAACCTAAAACTGAATTAATAC
~~~TTGCATATATGTAATATCACCATGCATATATATTAACCATATAAGGAAGTG...TATATTACATAACTGGATAACT..ACTTAAACTGGGGTAGTGC
~~~TTGCATATATGTAATATCACCATGCATATATATTAACCATATAAGGAAGTG...TATATTACATAACTGGATAATT..ACTTAAACTGGGGTAGTGC
~~~TTGCATATATGTAATATCACCATACATACATATTAACCATATAATAGGATA...TATAGTACATAGCTGGA.CAATCATTTAGAACTGGAGTAATAC
~~~TTGCATATATGTAATATCACCATACATACATATTAACCATATAATAGGATA...TATAGTACATAGCTGGA.CAATCATTTAGAACTGGAGTAATAC
~~~TTGCATATATGTAATATCACCATACATATATATTAACCATATAATAGGATG...TATAATACATAACTGGATTAATCACCTAAAGATGGGGTCATAC
~~~TTGCATATATGTAATATCACCATACATATATATCGACCATATAATAGGATG...TATAATACATAATTAGATTAATCACCTAAAAATGGGGTCATAC
~~~TTGCATATATGTAATATCACCATGCATATATATTAACCATATAATAGGATG...TATAGTACATAATTAGATTAATCACTTAAAACTGGGGTTATAC
1.......10........20........30........40........50........60........70........80........90..........
dloop_i ATAAAGCAGGGATAATTAAATGTAAAA..GGCATGAGACATAATTGGAACAGA.CAAGACTTGTAAAGGGAATATAAAAAATTCAAGATCTACCA.TCAA
dloop_j ATAAAGCAGGGATAATTAAATGCAAAA..GGCATGAGACATAATTGGAACAGA.CAAGACTTGTAAAGGGAATGTAAAAAATTCAAGATCTACCA.TCAA
dloop_h ATAAAGCAGGAACAATAAATGGGAGGAAGACATGAAGCATTGATTGAAACAGACAAAA...CTGTAAAGGAACATGATAATATTCAAGACCTACC.ACTA
dloop_a ATAAAGCAGGAACAATAAATGGAAGGAAGACATAAAGCATTAATTGAAACAGACAGAA...CTGTAAAGGAACATGACAATATTCAAGACCTACC.ACTA
dloop_f ATAAAGCAAGGATAATAAATG..GAAGGGGACATAAGACATAACTGGAACAGACAGAAAT.CTATAGAAGGACATAACAATATCCAAAACCTACC.ATTA
dloop_bb ATAAAGCAAGGATAATAAATG..GAAGGGGACATAAGACATAACTGGAACAGACAGAAAT.CTATAGAAGGACATAACAATATCCAAAACCTACC.ATTA
dloop_c ATAAAGCAAGGATAATAAATG.AAAAAAAGACATAAAACATAACTGGAACAGACAGGAAT.TTATAGAAAAGCATAACAATATTCAAGACCTACC.ACTA
dloop_b ATAAAGCAAGGATAATAAATG..AAGAGAGACATAAAACATAACTGGAACAGACATGAAT.TTATAGAAAAGCATGACAATATTCAAGACCTACC.ACTA
dloop_m ATAAAGCAAGGATAACAAGTG..AAAAAGGACATAAAACATAACTGGAACAGACAGAAAT.TTATAGAGAAGCATGACAGTATTCAAGACCTAAC.ACTA
101......110.......120.......130.......140.......150.......160.......170.......180.......190..........
dloop_i
dloop_j
dloop_h
dloop_a
dloop_f
dloop_bb
dloop_c
dloop_b
dloop_m
GACTCATCAGTCAAGATATACCAAGAATACAACATCCCGTCAATCTCAAATATTTAATGTAGTAAGAACCGACCATCAGTTGATTCCTTAATGCATACTC
GACTCATCAGTCAAGATATACCAAGAATACAACATCCCGTCAATCTCAAATATTTAATGTAGTAAGAACCGACCATCAGTTGATTCCTTAATGCATACTC
AGCTCATTAGTCAAGATATACCAAGTACTCAACACCCCGTCAAGACCCAA.ATCCGATGTAGTAAGAACCGACCATCAGTTGATTCCTTAATGCATACTC
AGTTCATTAGTCAAGATATACCAAGTACTCAACACCTCATCAAGGCCCAA.ATCCGATGTAGTAAGAACCGACCATCAGTTGATTCCTTAATGCATACTC
AACTCATCGGTCAAGATATACCAAGTATTCAACATCCCGTTAAGGTCCAA.ATCAGATGTAGTAAGAACCGACCATCAGTTGATTTCTCAATGTATACTC
AACTCATCGGTCAAGATATACCAAGTATTCAACATCCCGTTAAGATCCAA.ATCAGATGTAGTAAGAACCGACCATCAGTTGATTTCTCAATGTATACTC
AATCCATCGGTCAAGATATACCAAGCACTCAACATCCCGTTAAAATCCAA.ATCCGATGTAGTAAGAACCGACCATCAGTTGATTTCTTAATGCATACTC
AACTCATCAGTCAAGATATACCAAGCACTCAACATCCCGTTAGAATCCAA.ATCCGATGTAGTAAGAACCGACCATCAGTTGATTTCTTAATGCATACTC
AATCCATCAGTCAAGATATACCAAGTACCCAGCATCCCGTTAAAATCCAA.ATCCGATGTAGTAAGAACCGACCATCAGTTGATTTCTTAATGCATACTC
<central conserved region
201......210.......220.......230.......240.......250.......260.......270.......280.......290..........
dloop_i
dloop_j
dloop_h
dloop_a
dloop_f
dloop_bb
dloop_c
dloop_b
dloop_m
TTATTGATAGTGAGGGACAATCATTCTGGGGGTCCCACTTCTTGAATTATTCCTGGCATTTGGTTCCTACTTCAGGGCCATGACTTGAAT.ATCGCTCAT
TTATTGATAGTGAGGGACAATCATTCTGGGGGTCCCACTTCTTGAATTATTCCTGGCATTTGGTTCCTACTTCAGGGCCATGACTTGAAT.ATCGCTCAT
TTATTGATAGTGAGGGACAACCATTCTGAGGGTCGCACTCCTTGAACTATTCCTGGCATTTGGTTCCTACTTCAGGGCCATGGCTTGAATTATTCCACAC
TTATTGATAGTGAGGGGCAATCATTCTGAGGGTCACACTTCTTGAACTATTCCTGGCATTTGGTTCCTACTTCAGGGCCATGGCCTGAATTATTCCACAC
TTATTGATAGTGAGGGACAATCATTTTGAGGGTCGCACTTCTTGAATTATTCCTGGCATTTGGTTCCTACTTCAAGGCCATGACTTGAATTATTCCCCAC
TTATTGATAGTGAGGGACAATCATTTTGGGGGTCGCACTTCTTGAATTATTCCTGGCATTTGGTTCCTACTTCAAGGCCATGACTTGAATTATTCCCCAC
TTATTGATAGTGAGGGACAATCATTCTGGGGGTCGCACTTCTTGAATTATTCCTGGCATTTGGTTCCTACTTCAGGGCCATGACTTGAATCATTCCTCAC
TTATTGATAGTGAGGGACAATCATTCTGGGGGTCACACTTCTTGAATTATTCCTGGCATTTGGTTCCTACTTCAGGGCCATGACTTGAATCACTCCTCAC
TTATTGATAGTGAGGGACAATCGTTCTGAGGGTCGCACTTCTTGAATTATTCCTGGCATTTGGTTCCTACTTCAGGGCCATGACTTGGATCATTCCTCAC
|-----------------CSB-D --------------|
central
301......310.......320.......330.......340.......350.......360.......370.......380.......390..........
dloop_i
dloop_j
dloop_h
dloop_a
dloop_f
dloop_bb
dloop_c
dloop_b
dloop_m
TCTTTCATTGACGCTGGCATAAGTTGTTGGTGGAGTCCATATGGCGAGATAATCCCACATGCCGAGCGTTCACTCCACGGGGGTCAGGTTATTTTTTTTC
TCTTTCATTGACGCTGGCATAAGTTGTTGGTGGAGTCCATATGGCGAGATAATCCCACATGCCGAGCGTTCACTCCACAGGGGTCAGGTTATTTTTTTTC
ACTTTTATTGACGCTGGCATAAGTTATTGGTGGAGTCCATATGGCGAGATAATCCCACATGCCGAGCGCTCACTCCACGGGGGTCAGGTTATTTTTTTTC
ACTTTTATTGACGCTGGCATAAGTTATTGGTGGAGTCCATATGGCGAGATAATCCCACATGCCGAGCGCTCACTCCACGGGGGTCAGGTTATTTTTCTTC
ACTTTCATTGACGCTGGCATAAGTTATTGGTGGAGTCCATGTGGCGAGATAATTCCACATGCCGGGCCTTCACTCCACGGGGGTCAGGTTATTTTTTTTC
ACTTTCATTGACGCTGGCATAAGTTGTTGGTGGAGTCCATGTGGCGAGATAATTCCACATGCCGGGCCTTCACTCCACGGGGGTCAGGTTATTTTTTTTC
ACTTTCATCGACGCTGACATAAGTTATTGGTGGAGTCCATGTGGCGAGATAATTCCACATGCCGGGCCTTCACTCCACGGGGGTCAGGTTATTTTTTTTC
ACTTTCATCGACGCTGACATAAGTTATTGGTGGAGTCCATGTGGCGAGATAATTCCACATGCCGGGCCTTCACTCCACGGGGGTCAGGTTATTTTTTTTC
ACTTTCATCGACGCTGACATAAGTTATTGGTGGAGTCCATGTGGCGAGATAATTCCACATGCCGGGCCTTCACTCCACAGGGGTCAGGTTATTTTTTTTC
conserved region
->
401......410.......420.......430.......440.......450.......460.......470.......480.......490..........
dloop_i GTTTTCCTTTCATTTGACATATCAGAGTGCAGCGCGTCGATGTAAGTCAAGGTTGAACATTTCCTTGTATGGGTG.TAGTCCTGTAATGAATCAA.GACT
dloop_j GTTTTCCTTTCATTTGACATATCAGAGTGCAGCGCGTCGATGTAAGTCAAGGTTGAACATTTCCTTGTATGGGTG.TAGTCCTGTAATGAATCAA.GACT
dloop_h GTTTCCCTTTCATTTGACATATCAGAGTGCAGCGCGTCGATGTGAATCAAGGTTGAACATTTCCTTGTATACGTTTTAGCACTGCAATGAATT.AGGATT
dloop_a GTTTCCCTTTCATTTGACATATCAGAGTGCAGCGCGTCGATGTGAATCAAGGTTGAACATTTCCTTGTATACGTTTTAGCGCTGCAATGAATT.AGGATT
dloop_f GTTTTCCTTTCATTTGACATATCAGAGTGCAGCGCGTCAATGTAAATCAAGGTTGAACATTTCCTTGTATGAGTGTTAGTACTGTAATGAATTAAGGGTT
dloop_bb GTTTTCCTTTCATTTGACATATCAGAGTGCAGCGCGTCAATGTAAATCAAGGTTGAACATTTCCTTGTATGAGTGTTAGTACTGTAATGAATTAAGGGTT
dloop_c TCTTTCCTTTCACTTGACATATCAGAGTGCAGCGCGTCGATGTAAGTCAAGGTTGAACATTTCCTTGTATGAGTCTTAATACTGCAATGATTGGAGGGTT
dloop_b TCTTTCCTTTCACTTGACATATCAGAGTGCAGCGCGTCGATGTAAGTCAAGGTTGAACATTTCCTTGTATGAGTATTAGTACTGCAATGGTTGAAGGGTT
dloop_m TCTTTCCTTTCATTTGACATATCAGAGTGCAGCGCGTCGATGTAAGTCAAGGTTGAACATTTCCTTGTATGAGTCTTAGTACTGTAATGATT.AAGGGCC
501......510.......520.......530.......540.......550.......560.......570.......580.......590..........
dloop_i CTACTGGAAACTGCATAACAATATATCATGAGCATAAAACGTTATCGCTTTCCCCTATATATCTAAGATCGCCCCCGGTGACGGTAAATTCGCGTTAAAC
dloop_j CTACTGGAAACTGCATAACAATATATCATGAGCATAAAACGTTATCGCTTTCCCCTATATATCTAAGATCGCCCCCGGTGACGGTAAATTCGCGTTAAAC
dloop_h TTACTGGAAACTGCATGACGGTATATCAAGAGCATAAACTCTACTGCCCACCCTCAACGTATCTAAGATCACCCCGGGTGACGGTAAATTCGCGTTAAAC
dloop_a TTACTGGAAACTGCATGACGGTATATCAAGAGCATAAACTCTACTGCCCACCCTCAACGTATCTAAGATCACCCCGGGTGACGGTAAATTCGCGTTAAAC
dloop_f TTACTGGAAATTGCATGACGATATATCATGAGCATAAACTTTACTGTTATCCCTCAATATATCTAAGATCACCCC.GGTGACGGTAAATTCGCGTTAAAC
dloop_bb TTACTGGAAATTGCATGACGATATATCATGAGCATAAACTTTACTGTTATCCCTCAATATATCTAAGATCACCCC.GGTGACGGTAAATTCGCGTTAAAC
dloop_c TTACTGGAAACTGCATAAAGATATATCATGAGCATAAACTTTACTGTTTCCCCTCAATATATCTAAGATCACCCC.GGTGACGGTAAATTCGCGTTAAAC
dloop_b TTACTGGAAACTGCATAAGGATATATCATGAGCATAAACTTTACTGTTTCCCCTCAATATATCTAAGATCACCCC.GGTGACGGTAAATTCGCGTTAAAC
dloop_m TTACTGGAAATTGCATGAAGATATATCATGAGCATAAACTTTACTGTTTCCCCTCAATATATCTAAGATCACCCC.GGTGACGGTAAATTCGCGTTAAAC
601......610.......620.......630.......640.......650.......660.......670.......680.......690..........
|
30
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
dloop_i
dloop_j
dloop_h
dloop_a
dloop_f
dloop_bb
dloop_c
dloop_b
dloop_m
CCCCCTACCCCCCTAAACTCTTAAGGTTCTTATTATCCTGCAAACCCCCCGGAAACAGG.AAGACCCTGAGCATGTTTTCTTTCCAAAAA..GTGTCTAT
CCCCCTACCCCCCTAAACTCTTAAGGTTCTTATTATCCTGCAAACCCCCCGGAAACAGG.AAGACCCTGAGCATGTTTTCTTTCCAAAAA..GTGTCTAT
CCCCCTACCCCCCTAAACTCTCAAGACTCTTATTATCCTGCAAACCCCCCGGAAACAGG.AAGGCCTTGAGCATGCTTTATTTCC.AAAAATGTGTCTAT
CCCCCTACCCCCCTAAACTCTCAAGACTCTTATTATCCTGCAAACCCCCCGGAAACAGG.AAGGCCTTGAGCATGCTTTATTTCC.AAAAATGTGTCTAT
CCCCCTACCCCCCTAAACTCTCAAGACTCTTATTATCCTGCAAACCCCCCGGAAACAGGTAAGACCTCGAGCATGCTTTATTTCCAAAAAATGTGTCTAT
CCCCCTACCCCCCTAAACTCTCAAGACTCTTATTATCCTGCAAACCCCCCGGAAACAGGTAAGACCTCGAGCATGCTTTATTTCCAAAAAATGTGTCTAT
CCCCCTACCCCCCTAAACTCTCAAGGCTCTTATTATCCTGCAAACCCCCCGGAAACAGGTAAGACCTCGAGCATGCTTTATTTCCAAAAAATGTGTCTAT
CCCCCTACCCCCCTAAACTCTCAAGACTCTTATTATCCTGCAAACCCCCCGGAAACAGGTGAGGCCTCGAGCATGCTTTATTTCCAAAAAATGTGTCTAT
CCCCCTACCCCCCTAAACTCTCAAGACTCTTATTATCCTGCAAACCCCCCGGAAACAGGTAAGGCCTCGAGCATGCTTTATTTCC.AAAAATGTGTCTAT
CSB-II
|
| CSB-III |
701......710.......720.......730.......740.......750.......760.......770.......780.......790..........
dloop_i TTACATTATTAAAATAATGCGCAC
dloop_j TTACATTATTAAAATAATGCGCAC
dloop_h TTACATTATTAAAATAATGCGCGC
dloop_a TTACATTATTAAAATAATGCGCGC
dloop_f TTACATTATTAAAATAATGCACAC
dloop_bb TTACATTATTAAAATAATGCACAC
dloop_c TTACATTATTAAAATAATGCGCGC
dloop_b TTACATTATTAAAATAATGCGCGC
dloop_m TTACATTATTAAAATAATGCGCGC
801......810.......820....
Figure S1B
Partial cytochrome b (A) and complete control region (B) sequences alignments of selected
Tetraodon specimens and the Fugu rubripes sequence. For convenience, a few specimens were
chosen as representative of the remaining specimen haplotypes (i and j : T. biocellatus group ; a, h
and m : T. sp. group ; f and bb : T. fluviatilis group ; b and c : T. nigroviridis group). Takifugu
rubripes (U62558) and T. sp. (U62557) sequences were retrieved from GenBank. Shading indicates
differences with the specimen b sequence. Bold letters indicate base pairs that differ from the latter
sequence in all members of the corresponding non-T. nigroviridis group. They are suitable as
diagnostic characters, e. g. they can be used to define a haplotype clade by accurate alignment and
matching nucleotide variation with homologous fragments from the sequences presented here.
Sequences of all specimens are accessible via EMBL Accession Numbers AJ248546 to AJ248571
(cytochrome b) and AJ248449 to AJ248474 (control region). Amino acid translation of cytochrome
b partial sequence is given for specimen b. Bold letters indicate possible amino acid substitution
within the Tetraodon groups with regard to the sequences. Database searches with BLAST revealed
highest sequence similarity of cytochrome b with the Tetraodontiform T. rubripes (80% and 93% at
the nucleotide and the amino acid levels, respectively). The control region is flanked by tRNA
sequences and conserved sequence blocks (CSB85) are located in the central region, in accordance
with the overall mammalian mitochondrial scheme86.
31
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
100
100
83
89
60
85
A
U62558
i
j
z
ba
n
U62557
a
g
h
m
f
bb
b
c
d
e
o
q
r
t
y
x
v
b
s
u
w
Cichlidae_1
Cichlidae_2
Cichlidae_1
Cichlidae_2
100
T. biocellatus group
70
// 100
T. sp. group
T. biocellatus group
g
h
a
100
T. fluviatilis group
99
f
bb
d
u
m
100
e
p
o
q
100
87 t
x
r
y
93
53
B
T. sp. group
100
99
T. nigroviridis group
n
i
j
ba
z
89
73
T. fluviatilis group
T. nigroviridis group
b
90 w
s
c
v
Figure S2
Maximum-parsimony strict consensus tree generated by PAUP* for Tetraodon specimens a-bb,
based on the cytochrome b partial gene sequence (A) and the complete D-loop sequence (B).
Bootstrap proportions (1000 replications) are indicated. Two Cichlidae sequences (A : Tropheus
moori and Tanganicus irsacae ; B : Haplochromis obesus and Champsochromis spilorhyncus) were
used as outgroups. Tree characteristics for the cytochrome b dataset are : Tree length = 161, CI =
0.8509, RI = 0.8909. Six equiparsimonious trees (showing the same topology) were found for the
D-loop dataset (Tree length = 708, CI = 0.787, RI = 0.897). Consensus tree characteristics are : Tree
length = 709, CI = 0.804, RI = 0.896. Branch length marked with // : not to scale.
32
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
A
Drosophila melanogaster
Tetraodon nigroviridis
Takifugu rubripes
B
2,25
2,2
2,15
2,1
2,05
2
1,95
1,9
1,85
1,8
0
T1
1
T4
2
T53
F1
4
FA5
FB
6
7
Pufferfish specimen
FIGURE S3
A. Examples of FL3-H fluorescence distribution of propidium iodide stained DNA samples
from Drosophila head nuclei, and Tetraodon and Takifugu blood nuclei. The bars above the
fluorescence profiles delimitate the interval chosen for the analysis. B. Summary of measures
for three Tetraodon (T1, T4 and T5) and three Takifugu (F1, FA, and FB) individuals. Six
measures were performed for each individual. The Y axis represents the ratio between the fish
and the Drosophila measurements.
33
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
a
b
Figure S4
Comparison between %GC and transposable elements distributions. a. In Tetraodon, transposable
elements (black triangles) show globally the same distribution as the %GC (red circles, as in Fig. 2)
in 5 kb windows across the Tetraodon genome, but the three families (LINE, SINE, LTR) in fact
show a strong bias (Fig.2). b. This bias is mostly absent in the Takifugu genome: LINE elements
(green squares), SINE elements (blue circles) and DNA elements (black triangles) show identical
distributions although LTR elements (red diamonds) are slightly shifted towards (G+C) rich
regions.
34
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
A
B
Figure S5. A. Simplified representation of the GAZE automaton designed to build Tetraodon
gene models. B. Filled boxes represent exons and open boxes represent introns. Signals (vertical
ticks) and segments (horizontal arrows) extracted from gene prediction programs, Exofish,
Genewise and cDNA alignments used as input for GAZE.
35
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
a
b
Figure S6. Distribution of exon and intron sizes. a, A window of 5 bp was used to plot the exons
(plain lines) and intron (dashed lines) length distribution from 0 to 500 bp in Tetraodon (red) and
human (black) annotated genes. b, Expected (black) and observed (red) fraction of small introns
(sizes between 60 and 120 bp) in Tetraodon genes. The graph represents the number of genes (Y
axis) that contain a given percentage of small introns (X axis). The expected distribution was
computed based on a binomial probability with two categories of introns: introns of size 60 to120
bp and all other introns.
36
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Immunoglobulin-C2 like domain
Fibronectin type III domain
Figure S7. Schematic view of the Tetraodon class I helical cytokines and their receptors. A.
Cytokines share the same basic structure made of four alpha helice bundles and are therefore just
listed by name. Cytokines are well documented in fish except for Growth Hormone (GH),
Somatolactin (SL) and to a lesser extent Prolactin (PL). Tetraodon cytokines are labelled according
to their most similar human counterpart. B. Receptors. The double vertical lines represent the
plasma membrane. Thick horizontal lines represent intracellular domains. Since it is not possible to
assign in silico a receptor to a given cytokine, receptors are numbered from TnCRFA1 (Tetraodon
nigroviridis Cytokine Receptor Family, ClassI, first member) to TnCRFA30. Their most similar
human receptors are indicated (see Supplementary Information).
37
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
A
Tetraodon
Evx 13 12
11 10
9
8
7
6
5
4
3
2
1
Aa
SCAF14577 ( 1449000-1370000 )
Ab
SCAF15044 ( 1458000-1478000 )
Ba
//
SCAF14653 ( 1000-152750 )
+
SCAF7711 ( 7200-9000 )
Bb
SCAF14604 ( 108000-95400 )
Ca
SCAF14991 ( 872000-942000 )
Cb
SCAF14597 ( 868000-892000 )
D
SCAF15010 ( 545600-502000 )
Takifugu
Evx 13 12 11 10
9
8
7
6
5
4
3
2
1
Aa
SCAF47(150400-220100)
Ab
SCAF5310
(2350-1300)
SCAF330 (158800-175000)
Ba
SCAF4018
(11240-end)
SCAF1439 (complete)
SCAF706(1-112507)
Bb
SCAF1245 (61900-end)
SCAF2182
(1-3000)
C
SCAF93( 313200-end)
SCAF285 (end-184300)
D
SCAF3959 ( 11400 -end)
SCAF214 ( end-232200)
38
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
B
Tetraodon
Zebrafish
13
11 10
9
13
11
9
13
11 10
9
2
: Ab
13
11 10
9
2
: Ab
13
10
7
9
8
9
8
5
4
3
5
4
3
2
1 : Aa
1 : Aa
6
5
4
3
2
1 : Ba
6
5
4
3
2
1 : Ba
6
5
8
6
5
7
3
1 : Bb
13 12 11 10
9
8
6
5
4
13
11 10
9
8
6
5
4
11
9
13 12 11
1 : Bb
: Ca
3
1 : Ca
4
: Cb
6
: Cb
12 11 10
9
4
3
:D
13 12 11 10
9
4
3
:D
Figure S8. A. Tetraodon and Takifugu Hox gene clusters. In Tetraodon, all 7 clusters are in
continuous sequence scaffolds while the 6 Takifugu clusters are fragmented in several pieces. In
four instances (dashed boxes) Takifugu genes were missing compared to Tetraodon but the
corresponding regions overlapped a gap in the sequence. Pseudogenes are represented as open
boxes. The HOXA7a gene is confirmed by two muscle cDNA sequences in Tetraodon but appears
as a very diverged pseudogene in Takifugu. B. Comparison between Danio rerio and Tetraodon
HOX cluster organisation.
39
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
60
50
Tetraodon (10,841 proteins)
40
Takifugu
(9,885 proteins)
30
Human
(10,861 proteins)
Mouse
(12,5811 proteins)
Ciona
(6,270 proteins)
20
10
0
tra
r
te
ti o
ip
r
po
cr
kn
un
er
r
to
la
le
cu
er
gu
re
e
ol
n
m
n
ri
ar
ng
ti o
i
nd
uc
bi
c
or
r
to
nc
fu
d
d
ns
al
ra
lt
i
ac
ar
ul
ur
ct
ns
ns
tra
ru
st
a
gn
ec
ol
or
ot
si
m
m
g
la
gu
in
nd
re
bi
e
c
ei
d
an
cl
nu
lig
e
m
m
zy
en
zy
en
n
ow
Figure S9. Gene ontology (GO) annotations for Tetraodon, Takifugu, human, mouse and Ciona
proteins, in the molecular functions category. Histograms represent the percentage of proteins
assigned to a sub-category, out of all proteins of a given species that contain a GO classification
(indicated in the legend). Sub-categories that did not contain any proteins are not shown, while
some proteins can appear in several sub-categories.
40
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
a
c
b
d
Figure S10.
Different rates of protein evolution between fish and mammals. The %ID is well correlated
to the Ka/Ks between the two fish (a) and the two mammals (b) orthologous protein sets.
However comparing the ln(Ka) (c) or the Ka/Ks (d) obtained between Tetraodon-Takifugu
and human-mouse shows a much wider distribution, implying that conservation between
fish/mammal orthologs is less correlated.
41
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Tetraodon chromosomes
Mouse chromosomes
Figure S11. Synteny maps between Tetraodon and mouse. a. For each Tetraodon chromosome
(numbered 1 to 21), synteny with mouse is represented as coloured segments. Synteny is defined as
groups of two or more Tetraodon genes that possess an ortholog on the same mouse chromosome,
irrespective of orientation or order. Tetraodon chromosomes are not in descending order by size
because of unequal sequence coverage. The entire Tetraodon map includes 4,850 orthologs in 1,011
syntenic segments.
42
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Fig. S12. Human chromosome size and number of ancestral segments. A linear correlation exists
(red line; r=0.53) suggesting that larger chromosomes have a tendency to be composed of larger
numbers of ancestral segments.
43
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
X
22
20
21
19
18
Human Chromosome
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
9
10
11
12
Tetraodon chromosomes
13
19 21
17
15
14
16
18
20
Figure S13. The distribution of 7,903 orthologous genes between human and Tetraodon
chromosomes. Each column, corresponding to a Tetraodon chromosome, can be paired with
another column in a pattern predicted by one of the models in Figure 8. For instance, chromosome
Tni9 and Tni11 follow model 1, while Tni1 is a recent fusion of duplicates of Tni7 and Tni15 and
therefore follows model 2.
44
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Figure S14 Cladistic representation of chordate evolution, that includes the species studied here
in comparison to Tetraodon. Tetraodon, like Takifugu and zebrafish, are actinopterygians, while the
two mammals are sarcopterygians. These two clades represent most bony vertebrates, while Ciona
is a urochordate, one of the other three great chordate divisions.
45
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Table SI1. Sequencing statistics
Library
Centre*
Insert Size
(Kb)
2-5
2-8
1.5 - 3
100 - 160
120 - 180
Reads used
(millions)
plasmid GSC
1.466
plasmid BI
1.794
plasmid GSC
0.827
BAC
GSC
0.027
BAC
GSC
0.020
Total
4.254
*GSC: Genoscope; BI: Broad Institute
Bases
(billions)
1.125
1.092
0.603
0.018
0.013
2.851
Sequence
fold coverage
3.2
3.1
1.7
<1
<1
7.9
Insert fold
coverage
13.3
20.5
4.6
9.8
8.6
56.8
Table SI2. Sequencing statistics per chromosome
Chromosome
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Total Mapped
Undetermined
Total
Number of
ultracontigs
6
5
3
1
1
1
1
1
1
2
1
1
2
2
3
1
1
2
1
1
2
39
89
128
Cumulated size of
ultracontigs (including gaps)
20,831,257
20,809,959
14,338,053
5,712,533
11,634,858
5,716,017
10,599,225
9,808,592
9,898,049
12,309,810
10,613,812
12,035,257
11,858,495
9,105,887
9,854,727
8,476,435
10,714,114
9,605,158
4,706,847
2,585,572
8,458,350
219,673,007
56,754,556
276,427,563
46
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Estimated
chromosome size (Mb)
25
25
19
19
18
16
16
16
16
15
15
15
15
14
14
13
13
12
11
10
10
340
Coverage
(%)
81.4
81.3
72.1
30.1
64.3
34.0
65.0
60.2
60.7
77.4
68.5
77.6
76.5
62.4
69.9
61.9
81.2
77.5
42.8
25.3
82.9
64.6
81.3
Table SI3. Catalogue of transposable elements in the Tetraodon genome.
Repeat classification
Tetraodon
Takifugu
Human
SINEs
Non-LTR Retrotransposons
Restriction enzyme-like
CRE
NeSL
R4
R2
Apurinic/apyrimidinic
L1
RTE
SINE_Tet*
SINE_FR
Alu, MIR
Absent
Zebulon_Tet
Rex6_Tet
Absent
Absent
Present Scaffold
Dong_FR
Absent
Absent
Absent
Absent
Absent
TX1_Tet*
Rex3_Tet
Rex3-like_Tet
Absent
Absent
Absent
Absent
Absent
Maui_Tet
Maui-like_Tet
Rex1_Tet
Babar_Tet
BGR_Tet
I_Tet
Absent
Absent
Absent
TX1_FR
Expander
Rex3like2_Fr
Absent
Absent
Absent
Absent
Absent
Maui_Fr
Absent
Rex1_Fur
Babar_Fr
Présent Scaff
Absent
Absent
Absent
Absent
LINE1
Absent
Absent
Absent
Absent
Absent
Absent
LINE3
LINE2
LINE2
Absent
Absent
Absent
Absent
Absent
Absent
Absent
284
471
1
ERV_Tet*
FERV-R
Retrovirus
271
Jule_Tet
SURL-like_Tet
Absent
Sushi_Tet *
Barthez_Tet *
Rodin_Tet
Rex8_Tet
Gmr1-like_Tet*
Absent
TNDIRS1
Copia_Tet *
Suzu_Tet
Pao_Tet*
Neptune_Tet *
Poseidon_Tet
Jule_Fr
SURL-like_Fr
Present Scaff
Sushi_FR
Barthez_Fr
CsRn1_Fr
Rex8_Fr
Gmr1-like_Fr
Absent
FrDIRS1
Kopi
Catch
Absent
Bridge1_FR
Bridge2_FR
Absent
Absent
Absent
Fossile
Absent
Absent
Absent
Absent
Absent
Fossile
Absent
Absent
Absent
Absent
Absent
15
2
Absent
Absent
Absent
Titof_Tet*
Mariner_Tet
TC2-Tet*
Tigrou_Tet
Buffy_Tet*
Groumit_Tet
Tol2_Tet
Ac-like_Tet
Simpson_Tet*
Toutsie_Tet
Charlot_Tet *
PiggyBac_Tet
TC1_FR
Absent
TC2_FR
Tiggu
Furousha2
Absent
Tol2_FR
Present Scaff
Furousha
Trillian
Chaplin
Pigibakku
Absent
Mariner
TC2_Hs
Tigger
Gene
Absent
Absent
Gene Ac-like
Gene TRAMP
Zaphod
Charlie
Looper
Tad
LOA
R1
JOCKEY
CR1
Maui (L2)
Rex1/Babar
I
Ingi
Loner
Outcast
LTR Retrotransposons
Retrovirus
Gypsy/TY3
Jule
SURL-like
SURL
Sushi
Barthez
CsRn1
Rex8
Gmr1(-like)
Osvaldo
DIRS1
Copia/TY1
BEL
Penelope-like
DNA transposons :
P elements
Tc1/Mariner
TC1
Mariner
pogo
hAT
PiggyBac
47
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Tetraodon copy
number
94
308
1
31
2
390
417
1
194
79
62
76
8
5
121
99
1
2
49
29
136
1
130
103
600
35
7
1
3
1
204
18
Table SI4. Summary of evidence (coding segments) used to annotate the Tetraodon genome
Type of resource
Number of features
(Predictions)
1. ExoFish
Ecotigs
Ecores
Exofish with human
Exofish with mouse
Exofish with Takifugu
Exofish with human IPI
Exofish with mouse IPI
29,748
29,517
17,776
27,900
27,123
142,849
141,647
192,352
176,455
165,741
2. ab-initio methods
Genes
Exons
Genscan
Geneid
28,059
29,415
199,234
186,922
Genes
Exons
3. Est_genome and Genewise
cDNAs
Genewise with human IPI
Genewise with mouse IPI
†
12,154
21,692
21,567
n.d.
163,802
154,366
GAZE annotations
exclusively
supported with the
ressource
GAZE annotations
supported by the
resource plus
methods of type 1
GAZE annotations
supported by the
resource plus
methods of type 2
GAZE annotations
supported by the
resource plus
methods of type 3
Genes
Exons
Genes
Exons
Genes
Exons
Genes
Exons
22,727
22,587
25,228
23,228
22,384
n.a.
n.a.
n.a.
n.a.
n.a.
n.a.
n.a.
n.a.
n.a.
n.a.
-
-
47
49
2,410
0
1
117
89
11,274
351
165
5
3
25
23
4
72
65
91
1,077
444
24,577
24,565
0
0
2,693
2,135
843
611
5,337
7,742
-
-
48
46
3,427
4,627
7,008
21,704
21,059
270
0
0
6,183
924
0
340
172
0
6,768
2,935
0
510
0
0
9,529
1,611
218
-
-
GAZE
annotations
supported by
at least one
feature of the
resource
n.a., not applicable. The GAZE could not predict a gene with these annotation because they do not provide signals.
†: The cDNAs were first clustered on the basis of their overlap on genomic DNA to allow comparisons with other features in this table.
n.d., not determined. Because multiple exons of cDNAs may overlap over the same exons in genomic DNA, it did not make sense to sum the total number of cDNA exons for this table.
48
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Table SI5. Summary of evidence (signals) used to annotate the Tetraodon genome
Features
Number of features
available
Real number of features
used
available
cDNAs
Genscan
Geneid
Annotations
exclusively
supported
with the
resource
start
stop
splice3
splice5
7,068
5,651
27,918
27,918
168,966 168,966
5,425
5,644
25,412
17,830
168,966 168,966
42,110
37,161
526,700
n.a.
94,346
5,945
14%
n.a.
5,976
16%
n.a.
5,126
(<1%)
21,692
n.a.
21,692
70,182 70,358
(75%)
(75%)
142,210 142,210
n.a.
n.a.
available
n.a.
n.a.
13,691
(63%)
21,567
14,908
(69%)
21,567
121,649 122,319
(85%)
(86%)
132,799 132,799
used
n.a.
n.a.
8,650
(40%)
10,271
(48%)
109,309 110,384
(82%)
(83%)
available
n.a.
n.a.
18,972
20,086
180,262 179,148
used
n.a.
n.a.
available
n.a.
n.a.
7,557
(40%)
17,893
3,500
(17%)
19,791
111,306 112,709
(62%)
(63%)
169,029 167,131
used
n.a.
n.a.
7,176
(40%)
3,265
(16%)
103,365 103,376
(61%)
(62%)
cDNAs
5,425
5,644
2,615
n.a.
7,309
7,458
Genewise
with human
IPI
Genewise
with mouse
IPI
n.a.
n.a.
4,715
4,461
5,487
4,928
n.a.
n.a.
22
30
0
0
n.a.
n.a.
2,921
948
9,912
9,792
n.a.
n.a.
2,590
746
7,204
7,343
used
available
Genewise
with human
used
IPI
Genewise
with mouse
IPI
transcript_start transcript_stop
Genscan
Geneid
49
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
94,146
Table SI6 Interpro domain content in four vertebrates and one urochrodate
Species
Total genes
Number of
domains
48,467
Average
per gene
1.74
SD
max
min
27,918
Genes with
domain
16,854
Tetraodon
4.41
190
1
Human
23,299
16,856
52,117
2.24
4.63
175
1
Mouse
24,948
18,345
49,636
1.99
3.76
172
1
Takifugu
35,180
16,712
40,571
1.15
3.46
179
1
Ciona
15,852
9,847
27,292
1.72
5.16
276
1
50
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Table SI7. Top 100 Interpro families in Tetraodon
InterPro family Proteins
IPR000719
IPR007110
IPR007087
IPR000276
IPR001849
IPR001680
IPR002110
IPR001841
IPR001452
IPR001356
IPR001611
IPR002048
IPR001478
IPR003961
IPR000504
IPR006209
IPR000210
IPR000008
IPR005225
IPR002126
IPR008160
IPR001440
IPR005821
IPR003593
IPR001092
IPR000980
IPR001410
IPR000387
IPR001660
IPR001254
IPR001650
IPR000219
IPR000483
IPR001965
IPR001781
IPR000048
IPR000198
IPR006652
IPR002035
IPR001715
IPR003877
IPR000884
IPR007114
IPR000859
IPR001472
IPR001628
IPR002219
IPR001609
IPR004031
IPR001791
IPR000299
IPR000832
716
481
481
446
305
301
263
262
255
252
253
237
232
230
216
192
191
170
167
145
141
138
130
129
122
122
115
113
109
107
107
103
96
95
94
94
91
92
85
83
81
80
87
79
78
73
73
72
71
69
75
67
InterPro family description
Protein kinase
Immunoglobulin-like
Zn-finger, C2H2 type
Rhodopsin-like GPCR superfamily
Pleckstrin-like
G-protein beta WD-40 repeat
Ankyrin
Zn-finger, RING
SH3 domain
Homeobox
Leucine-rich repeat
Calcium-binding EF-hand
PDZ/DHR/GLGF domain
Fibronectin, type III
RNA-binding region RNP-1 (RNA recognition motif)
EGF-like domain
BTB/POZ domain
C2 domain
Small GTP-binding protein domain
Cadherin
Collagen triple helix repeat
TPR repeat
Ion transport protein
AAA ATPase
Basic helix-loop-helix dimerization domain bHLH
SH2 motif
DEAD/DEAH box helicase
Tyrosine specific protein phosphatase and dual specificity protein phosphatase
Sterile alpha motif SAM
Serine protease, trypsin family
Helicase, C-terminal
DH domain
Cysteine-rich flanking region, C-terminal
Zn-finger-like, PHD finger
Zn-binding protein, LIM
IQ calmodulin-binding region
RhoGAP domain
Kelch repeat
von Willebrand factor, type A
Calponin-like actin-binding
SPla/RYanodine receptor SPRY
Thrombospondin, type I
Major facilitator superfamily (MFS)
CUB domain
Bipartite nuclear localization signal
Zn-finger, C4-type steroid receptor
Protein kinase C, phorbol ester/diacylglycerol binding
Myosin head (motor domain)
PMP-22/EMP/MP20 and claudin family
Laminin G
Band 4.1 domain
G-protein coupled receptors family 2 (secretin-like)
51
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
IPR002172
IPR003439
IPR000910
IPR007124
IPR000372
IPR001870
IPR000315
IPR000536
IPR001993
IPR000175
IPR005828
IPR001687
IPR001752
IPR000051
IPR001304
IPR001766
IPR002198
IPR001810
IPR002017
IPR006202
IPR001394
IPR001623
66
67
65
64
64
63
62
62
63
61
61
61
60
59
59
59
59
58
58
60
57
56
Low density lipoprotein-receptor, class A
ABC transporter
HMG1/2 (high mobility group) box
Histone-fold/TFIID-TAF/NF-Y
Cysteine-rich flanking region, N-terminal
B302, (SPRY)-like
Zn-finger, B-box
Ligand-binding domain of nuclear hormone receptor
Mitochondrial substrate carrier
Sodium:neurotransmitter symporter
General substrate transporter
ATP/GTP-binding site motif A (P-loop)
Kinesin, motor region
SAM (and some other nucleotide) binding motif
C-type lectin
Fork head transcription factor
Short-chain dehydrogenase/reductase SDR
Cyclin-like F-box
Spectrin repeat
Neurotransmitter-gated ion-channel ligand binding domain
Ubiquitin thiolesterase, family 2
Heat shock protein DnaJ, N-terminal
IPR001828
IPR004827
IPR003131
IPR000961
IPR006029
IPR000595
IPR001214
IPR006020
IPR000159
IPR001202
IPR001487
IPR000608
IPR000436
IPR000571
IPR001683
IPR001128
IPR003659
56
57
55
54
56
53
52
53
48
52
52
52
50
50
50
48
48
Extracellular ligand-binding receptor
Basic-leucine zipper (bZIP) transcription factor
K+ channel tetramerisation
Protein kinase C-terminal domain
Neurotransmitter-gated ion-channel transmembrane region
Cyclic nucleotide-binding domain
Nuclear protein SET
Phosphotyrosine interaction domain
RA domain
WW/Rsp5/WWP domain
Bromodomain
Ubiquitin-conjugating enzymes
Sushi domain/SCR domain/CCP module
Zn-finger, C-x8-C-x5-C-x3-H type
Phox-like
Cytochrome P450
Plexin/semaphorin/integrin
IPR004087
48
KH domain
IPR000301
47
CD9/CD37/CD63 antigen
IPR000337
47
G-protein coupled receptors family 3 (Metabotropic glutamate receptor-like)
IPR000626
48
Ubiquitin domain
IPR003959
47
AAA ATPase, central region
IPR000195
46
RabGAP/TBC domain
IPR000225
46
Armadillo repeat
IPR000342
45
Regulator of G protein
IPR001627
45
Semaphorin/CD100 antigen
IPR002049
45
Laminin-type EGF-like domain
IPR006688
45
ADP-ribosylation factor
Note: In order to avoid redundant output, only the parent InterPro entry was considered in the case of parent/child relationships
(Mulder et al., 2002, 2003). Families over- or under-represented in Tetraodon and Takifugu, compared to mammals, are enhanced
with an orange or a yellow background, respectively; families over- or under-represented in vertebrates relatively to Ciona are
indicated with a green or a blue background, respectively.
52
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Table SI8. Exofish analysis of five finished human chromosomes.
Chromosome
Chr. 6
Chr. 13
Chr. 14
Chr. 20
Chr. 22
Total
Genes
(known+putative)
1,558
622
860
650
587
Pseudogenes
634
279
587
175
227
Ecores in
annotations
95.3 %
94.1 %
95.7 %
95.9 %
94.0 %
Ecores out of
annotations
4.7 %
5.9 %
4.3 %
4.1 %
6.0 %
4,277
1,902
95.1%
4.9 %
53
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Table SI9. Statistics on 904 new human genes
Mono-exonic
and CDS≤
300bp
Pluri-exonic
and CDS ≤
300bp
Mono-exonic
and CDS >
300bp
Pluri-exonic
and CDS >
300bp
Total
351
50
262
241
904
1
(351)
2.30
(115)
1
(262)
4.41
(1,063)
1.98
(1,791)
Average CDS size (bp)
186
197
529
870
469
Number of genes with start codon
(ATG)
49
14%
14
28%
62
24%
57
24%
182
20%
Number of genes with stop codon
(TAA, TAG, TGA)
351
100%
46
92%
262
100%
235
98%
894
99%
Number of genes with start and
stop codons
49
14%
13
26%
62
24%
56
23%
180
20%
Number of genes with an Interpro
domain
200
57%
21
42%
244
93%
218
90%
683
76%
Average number of Interpro
domain per gene
2.42
1.64
7.90
6.09
3.87
Human mRNA
17
5%
32
28%
18
7%
209
20%
276
15%
Non Human
mRNA
90
26%
18
16%
106
40%
361
34%
575
32%
Human EST
66
19%
31
27%
90
34%
392
37%
579
32%
Non Human EST
117
33%
28
24%
122
47%
419
39%
686
38%
All mRNA and
EST
174
50%
71
62%
170
65%
714
67%
1,129
63%
66,460
15%
10,724
2%
141,154
32%
225,395
51%
443,733
Human mRNA
5,579
8%
3,358
31%
19,393
14%
58,056
26%
86,386
19%
Non Human
mRNA
25,539
38%
2,724
25%
93,044
66%
119,272
53%
240,579
54%
Human EST
20,467
31%
3,921
37%
99,144
70%
125,020
55%
248,552
56%
Non Human EST
31,703
48%
39,655
60%
3,237
30%
3,833
36%
100,926
72%
135,940
96%
140,290
62%
115,931
51%
276,156
62%
295,359
67%
Number of genes
Average number of exons
(number of exons)
Number of
exons
overlapping
Number of bp (utr+cds)
Coverage of
exons (bp)
Tetraodon ecore
.
54
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Table SI10. Distribution of the 904 new human genes on human chromosomes
Human chromosome
(green = finished)
Number of
new human
genes
Sequenced
chromosome
size (Mb)
chromosome 1
chromosome 2
chromosome 3
chromosome 4
chromosome 5
chromosome 6
chromosome 7
chromosome 8
chromosome 9
chromosome 10
chromosome 11
chromosome 12
chromosome 13
chromosome 14
chromosome 15
chromosome 16
chromosome 17
chromosome 18
chromosome 19
chromosome 20
chromosome 21
chromosome 22
chromosome X
91
92
62
44
35
9
15
39
55
59
40
46
8
7
51
35
63
25
52
6
6
4
60
221.6
237.5
194.5
186.8
177.6
167.3
154.7
142.3
115.6
131.2
130.9
129.8
95.6
87.2
81.3
79.9
77.7
74.7
55.8
59.4
33.9
34.4
149.2
Total
904
2,843.4
55
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Table SI11. Rates of DNA evolution in vertebrates
Species
Total
number
of
orthologs
Number
of
orthologs
used
Number of
orthologs
used for
computing
Ka/Ks ratio
Average
%ID
(without
gaps)
Number of
4D sites
Observed
number of
substitutions
per 4D site
Estimated
neutral rate
of evolution
Ka
Ka/Ks
ratio
Using all orthologs between two species
Human – Mouse
14,889
14,889
5,787
85.67
6,620,598
0.32
0.43
0.09
0,098
Tetraodon – Takifugu
12,909
12,909
5,787
88.84
8,053,356
0.27
0.35
0.07
0,144
Tetraodon – Human
9,975
9,975
n.d.
66.52
6,166,104
0.63
1.53
0.28
n.d.
Tetraodon – Mouse
9,666
9,666
n.d.
66.36
3,796,634
0.63
1.53
0.28
n.d.
Takifugu – Human
9,143
9,143
n.d.
67.85
2,574,387
0.63
1.53
0.27
n.d.
Takifugu – Mouse
8,956
8,956
n.d.
67.49
2,368,673
0.63
1.52
0.27
n.d.
Tetraodon – Ciona
5,344
5,344
n.d.
52.52
325,316
0.73
2.09
0.48
n.d.
Takifugu – Ciona
5,048
5,048
n.d.
53.31
296,359
0.72
2.20
0.47
n.d.
Human – Ciona
5,779
5,779
n.d.
52.14
368,965
0.71
2.71
0.48
n.d.
Mouse – Ciona
5,661
5,661
n.d.
52.24
339,944
0.71
2.53
0.48
n.d.
Using only 5,802 orthologs common to human, mouse, Tetraodon and Takifugu
Human – Mouse
14,889
5,802
5,787
91.76
1,135,704
0.32
0.43
0.05
0.098
Tetraodon – Takifugu
12,909
5,802
5,787
90.51
1,107,067
0.27
0.35
0.06
0.144
Tetraodon – Human
9,975
5,802
n.d.
69.90
753,050
0.63
1.54
0.24
n.d.
Tetraodon – Mouse
9,666
5,802
n.d.
69.46
748,947
0.63
1.53
0.25
n.d.
Takifugu – Human
9,143
5,802
n.d.
70.05
757,898
0.63
1.52
0.24
n.d.
Takifugu – Mouse
8,956
5,802
n.d.
69.67
753,972
0.63
1.52
0.25
n.d.
Using only 1,165 orthologs common to human, mouse, Tetraodon, Takifugu and Ciona
Human – Mouse
14,889
1,165
1,164
92.41
429,547
0.32
0.42
0.04
0.088
Tetraodon – Takifugu
12,909
1,165
1,164
91.28
421,668
0.28
0.35
0.05
0.127
Tetraodon – Human
9,975
1,165
n.d.
73.33
303,669
0.64
1.57
0.20
n.d.
Tetraodon – Mouse
9,666
1,165
n.d.
72.91
303,020
0.63
1.53
0.20
n.d.
Takifugu – Human
9,143
1,165
n.d.
73.49
307,146
0.64
1.54
0.20
n.d.
Takifugu – Mouse
8,956
1,165
n.d.
73.04
306,489
0.64
1.52
0.20
n.d.
Tetraodon – Ciona
5,344
1,165
n.d.
53.36
122,128
0.74
2.07
0.45
n.d.
Takifugu – Ciona
5,048
1,165
n.d.
53.52
124,082
0.73
2.18
0.45
n.d.
Human – Ciona
5,779
1,165
n.d.
54.03
124,782
0.71
2.60
0.44
n.d.
Mouse – Ciona
5,661
1,165
n.d.
53.81
124,672
0.72
2.52
0.44
n.d.
Values in italics are too high to be compared (satured values).
n.d., not determined, because the set of orthologs used for computing Ka/Ks ratio have too few sites or saturated Ks.
56
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
Table S12. Expected probability that two Tetraodon chromosomes share the observed number of duplicated genes assuming
a uniform distribution.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
2.38E-01
2.03E-01
2.63E-01
1.97E-01
2.78E-01
3.72E-01
8.12E-03
1.66E-01
1.63E-01
1.51E-02
2.86E-01
2.77E-01
1.14E-01
1.86E-01
6.02E-03
2.10E-01
2.78E-01
1.55E-01
4.08E-01
3.14E-01
3.66E-01
4.16E-02
1.58E-01
9.69E-28
1.07E-01
1.22E-01
2.43E-01
1.77E-02
1.72E-01
2.13E-01
4.42E-02
1.76E-02
1.03E-02
1.08E-02
1.08E-01
1.96E-01
2.27E-01
1.14E-02
2.56E-02
1.55E-01
3.33E-01
2.62E-01
7.78E-02
2.95E-27
1.98E-01
1.52E-01
2.39E-02
2.90E-01
3.31E-02
1.38E-01
4.13E-02
1.90E-02
1.16E-01
2.10E-02
2.19E-02
1.58E-01
1.11E-01
1.81E-01
1.13E-01
6.16E-04
3.30E-01
3.95E-01
3.06E-01
2.79E-01
1.19E-01
2.00E-01
5.13E-01
2.67E-01
5.13E-01
3.00E-01
3.27E-01
3.24E-01
2.46E-01
3.71E-01
1.25E-18
2.59E-01
3.52E-01
3.63E-01
3.79E-01
2.96E-01
3.35E-01
5.73E-01
7.20E-01
3.39E-01
2.38E-01
6.33E-02
7.52E-02
3.42E-01
1.19E-01
3.42E-01
1.44E-01
1.59E-01
3.03E-01
1.05E-01
1.43E-01
2.77E-01
7.93E-16
1.86E-01
9.06E-02
2.10E-01
1.41E-01
1.72E-01
4.08E-01
5.89E-01
3.66E-01
3.54E-01
3.30E-01
3.70E-01
5.93E-01
3.56E-01
5.93E-01
1.72E-01
4.17E-01
4.28E-02
3.34E-01
3.89E-01
3.43E-01
3.47E-01
3.69E-01
1.68E-05
4.68E-01
3.77E-01
3.73E-01
6.46E-01
7.73E-01
3.04E-01
4.92E-02
2.69E-02
6.54E-02
3.23E-01
1.06E-01
2.07E-01
1.29E-01
1.50E-01
1.48E-01
5.55E-03
1.29E-01
2.07E-01
1.01E-01
3.08E-01
3.59E-01
2.21E-10
2.78E-01
2.75E-01
3.88E-01
3.22E-01
3.47E-01
2.00E-01
2.81E-01
3.58E-01
5.60E-01
7.47E-02
5.60E-01
3.51E-01
1.13E-02
3.77E-01
2.95E-01
1.93E-01
3.05E-01
2.15E-01
1.66E-01
5.08E-01
4.30E-01
3.47E-01
3.86E-01
6.16E-01
7.51E-01
1.38E-02
5.50E-02
2.33E-01
8.07E-02
3.52E-01
2.69E-01
6.41E-02
1.52E-01
3.12E-01
2.72E-01
1.11E-01
4.72E-17
1.18E-01
1.20E-01
1.95E-01
8.61E-02
2.19E-01
1.49E-01
1.80E-01
4.41E-02
5.98E-01
3.76E-01
1.20E-01
3.26E-02
2.14E-02
2.03E-01
4.24E-02
2.03E-01
1.48E-02
6.91E-02
6.74E-02
1.04E-02
5.57E-02
1.28E-01
3.94E-02
1.53E-23
1.56E-01
2.33E-01
2.39E-01
7.29E-02
2.64E-01
4.55E-01
3.40E-01
6.61E-02
8.05E-03
9.92E-02
3.39E-01
5.04E-02
2.21E-01
6.55E-02
2.63E-01
1.04E-13
4.19E-02
4.09E-11
2.31E-01
2.29E-01
9.41E-02
1.72E-01
1.12E-01
6.36E-02
8.41E-02
2.26E-01
3.56E-01
3.49E-01
2.06E-01
2.03E-02
5.30E-02
2.86E-17
2.70E-01
2.96E-01
1.98E-01
1.30E-01
1.28E-01
2.04E-01
1.98E-01
2.28E-02
8.47E-02
1.48E-01
1.13E-01
1.56E-01
2.47E-01
1.35E-01
3.61E-01
5.49E-01
3.20E-01
2.46E-02
1.40E-02
4.01E-02
2.63E-01
1.09E-13
2.63E-01
8.97E-02
2.74E-01
1.05E-01
6.05E-02
2.69E-01
6.50E-02
3.09E-02
1.24E-01
2.11E-01
1.44E-01
8.74E-02
1.12E-01
5.64E-15
5.18E-01
2.87E-01
4.32E-02
1.02E-01
1.85E-01
3.23E-01
1.06E-01
3.70E-01
2.72E-01
2.76E-01
1.48E-01
3.56E-26
1.29E-01
9.86E-02
1.01E-01
1.70E-01
2.67E-01
2.65E-01
2.78E-01
1.56E-01
3.88E-01
5.73E-01
3.72E-01
4.78E-02
1.91E-01
1.32E-01
3.68E-01
1.43E-01
1.33E-04
3.41E-01
2.44E-01
1.12E-01
1.71E-01
2.18E-01
1.50E-01
1.82E-01
2.68E-01
1.80E-01
2.41E-02
2.15E-01
2.51E-01
4.95E-01
6.61E-01
4.55E-01
8.91E-02
2.31E-01
2.67E-01
4.19E-01
1.78E-01
4.19E-01
5.16E-11
2.33E-01
2.30E-01
3.03E-01
2.07E-01
1.57E-01
1.71E-01
2.41E-01
1.39E-02
2.82E-01
3.33E-01
3.51E-01
4.83E-01
6.51E-01
4.43E-01
2.55E-01
1.73E-03
2.28E-01
3.73E-01
1.42E-01
3.73E-01
2.73E-01
1.92E-01
1.89E-01
2.79E-01
1.68E-01
2.76E-01
1.36E-01
2.59E-01
3.16E-01
3.49E-01
5.76E-03
6.99E-04
4.38E-01
6.15E-01
3.97E-01
2.26E-01
4.69E-02
3.66E-05
3.84E-01
1.50E-01
3.73E-01
2.71E-01
2.01E-01
1.98E-01
1.34E-01
1.77E-01
1.41E-01
1.44E-01
2.23E-01
3.27E-01
3.53E-01
1.05E-03
4.81E-02
4.49E-01
9.17E-05
4.08E-01
1.70E-01
1.30E-01
3.42E-01
5.28E-01
2.83E-01
5.28E-01
3.16E-01
3.43E-01
6.64E-02
2.61E-01
2.11E-01
2.71E-01
6.68E-16
3.68E-01
4.75E-01
3.95E-01
3.12E-01
3.51E-01
5.87E-01
7.30E-01
5.50E-01
3.52E-01
4.76E-01
5.72E-01
7.93E-01
6.32E-01
7.93E-01
2.83E-01
6.78E-01
6.76E-01
6.14E-01
2.83E-01
6.22E-01
6.25E-01
6.95E-01
7.63E-01
7.14E-01
6.55E-01
1.05E-05
8.24E-01
8.92E-01
8.05E-01
4.47E-01
3.84E-01
3.60E-01
2.20E-01
5.63E-01
2.20E-01
5.92E-01
9.11E-03
6.12E-01
3.42E-01
3.19E-01
5.52E-01
5.56E-01
2.95E-01
7.13E-01
6.56E-01
5.89E-01
6.21E-01
7.85E-01
8.67E-01
7.62E-01
57
22649_1_supp_0_1089813834.doc
14/07/2004 10:07 047/P7
8.3 Assemblage
Etant donné un ensemble de fragments choisis de façon aléatoire, comment reconstruire la
séquence totale ? Ce problème pose à plusieurs solutions algorithmiques, mais l’approche la
plus commune se divise en 3 parties : détection des chevauchements, disposition des
fragments entre eux et construction d’une séquence consensus. Le programme le plus
largement utilisé qui utilise ce principe est Phrap (Green, 1994).
8.3.1 Détection des chevauchements
A partir de l’ensemble des fragments, il faut identifier toutes les paires qui se chevauchent sur
leur extrémité. Le chevauchement peut être défini par une similarité entre le suffixe d’une
séquence et le préfixe d’une autre. La longueur du suffixe et du préfixe est variable et non
prévisible. Cependant la longueur des fragments est limitée par la performance du séquençage
et communément les 2 fragments sont de longueur semblable. Dans un cas extrême, les 2
lectures se recouvrent totalement et n’apportent pas d’autre information que de se confirmer
mutuellement. Dans un autre cas extrême, les 2 lectures se chevauchent sur une longueur trop
faible pour être significative et détectable. La similarité recherchée doit pouvoir tenir compte
des erreurs de séquençage. Il est possible dans ce cas de tenir compte d'une valeur de qualité
attribuée à chaque base (Ewing & Green, 1998; Ewing et al., 1998).
La recherche de similarité peut se faire selon différentes techniques, par exemple une
modification de l’algorithme de Smith & Waterman (Smith & Waterman, 1981) sur le
principe de programmation dynamique (Sankoff, 2000). Cette étape nécessite de comparer
entre elles toutes les séquences 2 à 2. Pour n fragments à assembler, le temps de calcul
nécessaire est donc en O(n2). Certains programmes d’assemblages utilisent blast pour
accélérer cette phase (Huang et al., 2003). Cette étape est limitante pour les grands
assemblages et différentes approches ont été développées pour contourner ce problème (voir
plus loin).
8.3.2 Disposition des fragments
Le but de cette étape est de considérer l’ensemble des similarités entre suffixes et préfixes
obtenues dans l’étape 1 et de disposer les fragments les uns à la suite des autres en fonction de
leur chevauchement. Les paires sont classées selon le degré de similarité.
La paire de fragments ayant la meilleure similarité est conservée et constitue un premier
« contig ». La seconde paire est positionnée par rapport à la première, soit en allongeant le
contig (si un fragment est commun entre les 2 paires), soit en créant un second contig. Les
223
paires suivantes sont positionnées de la même manière. Aucune comparaison de séquence
n’est réalisée lors de cette étape.
8.3.3 Définir une séquence consensus
A la fin de l’étape 2, nous disposons d’un ensemble de contigs virtuels, chacun étant composé
d’un ensemble de fragments chevauchants 2 à 2.
Le but est de définir une séquence
consensus par contig. Il existe plusieurs méthodes mais le principe global est celui d’un
alignement multiple (voir (Gusfield, 1997). Chaque position du contig peut être représentée
comme une colonne de caractères représentant les nucléotides et les insertions éventuelles
définis à l’étape 1. En cas de divergences, la solution optimale est choisie de façon à
minimiser la distance entre le caractère retenu et toutes les possibilités (par exemple retenir le
caractère majoritaire). Dans certains cas, un alignement multiple est recalculé sur une fenêtre
présentant de nombreuses divergences. Cela permet d’affiner la position des insertions de
façon globale plutôt que par paire de fragments.
8.3.4 Assemblage de grands génomes
En pratique, certains génomes sont trop grands, ou plutôt le nombre de lectures réalisées est
trop grand pour suivre ce protocole. Différentes stratégies ont été proposées dont le point
commun consiste à réduire la complexité du problème en le divisant. Une implémentation
d’Eugene Myers divise le problème en isolant des ensembles de lectures connectées entre
elles par chevauchement (Huson et al., 2001). Le principe a été repris par ailleurs dans
différents programmes d’assemblages (Mullikin & Ning, 2003) (Aparicio et al., 2002).
Chaque ensemble est assemblé indépendamment avec une stratégie classique. La séquence du
génome de T. nigroviridis analysé dans l’article 5 a été assemblé par David Jaffe avec
Arachne (Batzoglou et al., 2002). Arachne se distingue des autres programmes notamment par
la phase de détection des chevauchements. En effet, au lieu de comparer toutes les séquences
2 à 2, le programme construit la liste des motifs de longueur k (en pratique k=24) présents
dans toutes les séquences. Pour chaque motif, ses coordonnées sont stockées. Les
chevauchements potentiels entre lectures sont alors recherchés en énumérant les paires de
séquences qui partagent plusieurs motifs.
224
225
Figures
Figure 1 Distribution de conservation de 2 gènes humains le long de leur séquence.
Haut : Actine beta. Bas : Recepteur Facteur 3 de Cytokine. La conservation est mesurée sur
un alignement multiple réalisé avec les séquences de l'homme et orthologues de souris,
chimpanzée, rat, chien, poulet, takifugu et poisson zèbre. Extrait du navigateur d'annotation
du génome humain de l'ucsc {Kent, 2002 #17}
Figure 2 Nombre de publications par année depuis 1945 d’anatomie comparée (rouge) et de génomique
comparative (bleu).
226
Figure 3 Takifugu rubripes.
L'animal mesure plusieurs dizaines de centimètres à l'age adulte.
Figure 4. Cladogramme simplifié des vertébrés
Les datations de différentes radiations sont encore discutées. La séparation entre Tetraodon et
Takifugu a été récemment réestimée plus ancienne vers -55 millions d'années (Ma), et celle
entre Sarcopterygii et Actinipterygii plus récente vers -290Ma {Steinke, 2006 #692}. Les
étoiles symbolisent les événements de duplications totales de génomes. Leur datation est aussi
imprécise.
227
Figure 5 Comparaison à l'échelle de la région humaine du gène de la maladie de Huntington et de son
orthologue chez Takifugu rubripes.
Les 67 exons sont reliés et sont colinéaires dans les 2 génomes. Les traits verticaux indiquent des séquences
répétées. Les carrés noirs représentent des îlots CpG putatifs. Les triangles indiquent des régions non
séquencées. Figure extraite de {Baxendale, 1995 #266};
228
Figure 6. Mesures des tailles d'ADN de différents poissons par R. Hinegardner.
Figure 7 Tetraodon nigroviridis.
Elevé en aquarium, l'animal dépasse rarement quelques centimètres (environ 2 cm ici). D'autres photos
sont disponibles à http://www.genoscope.cns.fr/tetraodon .
229
Figure 8 Représentation des différentes fractions nucléotidiques d'une annotation.
Figure 9 Représentation des différents types d'exons prédits par une annotation.
Figure 10. Modèle de Markov à états cachés implémenté dans Genscan
230
Figure 11. Matrice de score de tblastx construite pour exofish entre Tetraodon et l'humain
Figure 12 Distribution du nombre d'ecores (ou exons) par ecotig (ou par gène)
231
Figure 13 Le plus long ecotig sur le génome humain.
Extrait du navigateur d'annotation du génome humain de l'ucsc {Kent, 2002 #17}
Sur cette région du chromosome 17 humain qui couvre environ 190Kb, un ecotig (piste du
bas) contient 116 ecores. Trois annotations de gènes sont représentées : les gènes "connus"
(pistes du haut en bleu), l'annotation d'Ensembl {Hubbard, 2005 #347} (en rouge) et les
modèles de gènes construits par alignements d'ARNm humains (en noir). Cet exemple illustre
une situation de conservation de l'ordre de plusieurs gènes consécutifs entre T. nigroviridis et
l'humain puisque plusieurs gènes humains sont fusionnés dans un même ecotig. Bien que les
séquences d'ARNm soient une source d'information biologique très précieuse pour annoter
finement, cet exemple illustre aussi une difficulté de leur utilisation. De nombreux ARN
messagers s'alignent en présentant des formes de transcrits différents mais globalement
cohérents par rapport aux gènes. Par contre l'alignement du messager AK097500 est en
désaccord et les blocs correspondants à ces exons potentiels ne sont confirmés par aucun autre
ARN, ni aucun ecore.
232
Figure 14 Distribution de la précision des écotigs.
Ce graphique reflète la conservation de la synténie à l'échelle du gène entre Tetraodon et
l'humain.
233
Figure 15. Ombrage phylogénétique (phylogenetic shadowing)
L'ombrage phylogénétique est une technique d'analyse d'alignement multiple dans le but de
distinguer des sites qui accumulent des variations à faible fréquence. A chaque site, il est
possible d'associer une probabilité de taux d'évolution rapide ou lente. Les sites à évolution
lente témoignent de régions fonctionnelles. Dans cet exemple, une séquence humaine est
comparée à celle de plusieurs primates. La proximité de ces séquences réduit la complexité de
l'alignement et donc des artéfacts associés. La distance évolutive totale utilisée est la somme
de chacune des distances unitaires entre l'humain et un autre primate. Les blocs roses
symbolisent des sites de mutations. Figure d'après {Boffelli, 2004 #671}.
234
Figure 16. Proportion de la séquence humaine contenue dans les alignements de différents vertébrés.
Pour chaque espèce les bases de l'alignement sont réparties selon 4 catégories d'annotation.
Figure extraite de {Thomas, 2003 #222}.
Figure 17. Modélisation d'alignement multiple
Une région de longueur L=10 d'un génome cible G0 est alignée avec N=3 autres séquences
G1 G2 et G3. L'alignement comprend NL nucléotides, les bases identiques (match) sont
représentées par des -, les substitutions par le nucléotide correspondant. Chacun des génomes
G1 G2 et G3 est à une distance évolutive D1 D2 et D3 et un nombre de substitutions c1 c2 c3 par
rapport à G0.
235
Figure 18 Modèle théorique de sélection des alignements entre Tetraodon et l'humain.
Longueur et pourcentage d'identité minimum de sélection d'une région génomique conservée entre T.
nigroviridis et H. sapiens pour différents taux de faux positifs autorisés selon le modèle de Sean Eddy.
236
Figure 19. Distribution des alignements de séquences par exofish entre Tetraodon et l'humain.
En rouge : 100 % des alignements lors du calibrage correspondent à des exons. En noir : au moins 1
alignement par longueur et pourcentage d'identité ne correspond pas à un exon.
237
Figure 20. Matrice de sélection des alignements d'exofish entre Anopheles et Drosophila.
Cercles clairs : Alignements non rejetés. Cercles pleins : Alignements rejetés.
Figure 21 Distribution des longueurs des fragments synteniques entre Tetraodon et l'humain, ou entre
Tetraodon et la souris.
Bleu : humain. Rouge : souris.
238
Figure 22 Carte d'orthologie entre Tetraodon et le poulet.
Cartographie relative des gènes orthologues entre Tetraodon et le poulet G. gallus sur leurs
chromosomes respectifs. Cette figure complète la figure S13 de l'article 5. Les 21
chromosomes de Tetraodon sont représentés en abscisse et ceux du poulet en ordonnées.
239
Figure 23. Principe des DCS : Double synténie conservée
9 gènes sont représentés de 1 à 9. Seuls les gènes 1 et 6 sont en 2 copies chez Tetraodon
(notés 1' et 6'). Les autres gènes humains ont une orthologie de façon alternative sur les 2
chromosomes A et B de Tetraodon.
240
Figure 24 Carte d'orthologie entre Tetraodon et le poulet, avec blocs ancestraux.
Cartographie relative des gènes orthologues entre Tetraodon et le poulet sur leurs
chromosomes respectifs. Chaque gène est en couleur selon les 12 DCS différents. Les 21
chromosomes de Tetraodon sont représentés en abscisse et ceux du poulet en ordonnées.
241
Figure 25. Carte d'orthologie entre Tetraodon nigroviridis et l'humain.
Chaque point correspond à un gène orthologue entre les 2 espèces. Les gènes sont positionés
selon leur localisation génomique par chromosome, sans tenir compte ici de l'échelle. Chaque
gène est en couleur selon les 12 DCS différents. Les 21 chromosomes de Tetraodon sont
représentés en abscisse et ceux de l'humain en ordonnées.
242
Figure 26 Carte d'orthologie entre l'humain et le poulet, avec blocs ancestraux.
Cartographie relative des gènes orthologues entre l'humain et le poulet sur leurs chromosomes
respectifs. Chaque gène est en couleur selon les 12 DCS différents. Les chromosomes
humains sont représentés en abscisse et ceux du poulet en ordonnées.
243
Figure 27 Distribution des régions chromosomiques ancestrales sur les chromosomes modernes de
Tetraodon.
Des blocs de syntenie avec les chromosomes humains et de poulet sont représentés le long de
chaque chromosome selon la couleur du chromosome correspondant. Les rectangles de
couleur qui entourent des blocs de syntenie, correspondent à des blocs ancestraux. Par
exemple, une grande partie du chomosome Tni20 est associée à Hsa4 et Gga4 dans un bloc
ancestral B.
244
Figure 28 Distribution des régions chromosomiques ancestrales sur les chromosomes modernes de poulet
Gallus gallus.
Des blocs de syntenie avec Tetraodon sont représentés le long de chaque chromosome selon
la couleur du chromosome de Tetraodon correspondant. Les rectangles de couleurs qui
entourent des blocs de syntenie, correspondent à des blocs ancestraux.
245
Figure 29. Caryotype d'un vertebré ancestral à 12 chromosomes.
Dans chaque chromosome, les blocs de syntenie entre Tetraodon et l'humain, et entre Tetraodon et le
poulet sont représentés selon un code couleur dépendant des chromosomes.
246
Figure 30. Carte de syntenie entre le chromosome 13 de Tetraodon et les chromosomes humains ayant des
gènes orthologues.
Figure 31. Distribution des paris sur le nombre de gènes réalisés lors de la conférence de génomique en
mai 2000 à Cold Spring Harbor.
247
Figure 32. Scénario évolutif hypothétiques des gènes Hox
Extrait de Hoegg 2005
248
Figure 33. Nombre de publications référencées contenant "Tetraodon" dans le résumé.
La valeur pour 2006 est extrapolée à partir des trois premiers mois.
..
249
Résumé
Pour affiner notre connaissance de la structure et de l’évolution des génomes de vertébrés
nous avons comparé la séquence d’ADN du poisson téléostéen Tetraodon nigroviridis et celle
du génome humain.
Dans un premier temps, sous l’hypothèse d’une dérive aléatoire des régions génomiques
dépourvues de pression de sélection, nous avons développé un outil d’identification des
régions codantes protéiques conservées par l’évolution entre l’humain et T. nigroviridis. Nous
avons alors donné une première ré-estimation à la baisse et fiable du nombre de gènes
humains.
Dans un second temps, en analysant la cartographie des gènes orthologues de ces 2 espèces,
nous avons conforté et précisé l’hypothèse d’une ancienne duplication totale de génome dans
la lignée des téléostéens. Nous avons inféré une ébauche de l’organisation d’un génome
ancestral de vertébré osseux à 12 chromosomes et les grands événements de réarrangements
qui ont conduit à la structure du génome humain et de T. nigroviridis.
Abstract
We compared the DNA sequence of the teleost fish Tetraodon nigroviridis to that of Homo
sapiens to refine our knowledge of the structure and evolution of the vertebrate genome.
First, under the hypothesis of neutral drift of genomic regions with no selective pressure, we
developed a tool to identify evolutionary protein coding regions conserved between humans
and T. nigroviridis. We thus provided the first reliable re-estimation of the total number of
human genes, which was lower than expected.
Secondly, by analyzing the mapping of orthologous genes from these 2 species, we refined
the hypothesis of an ancient whole genome duplication in the teleost lineage. We inferred a
rough draft of the organization of an ancestral vertebrate genome with 12 chromosomes and
the major rearrangement events which led to the genome structure of humans and T.
nigroviridis.

Documents pareils