Analyse exploratoire des génomes bactériens

Transcription

Analyse exploratoire des génomes bactériens
Université de Versailles Saint-Quentin-en-Yvelines
THESE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITE DE VERSAILLES SAINT-QUENTIN-EN-YVELINES
Spécialité :
Génétique Cellulaire et Moléculaire
Présentée et soutenue publiquement par
Eduardo Pimentel Cachapuz Rocha
Analyse exploratoire des génomes bactériens
Soutenue le 7 Avril 2000 devant le jury composé de :
Bernard Mignotte
président
Christian Gautier
rapporteur
François Taddei
rapporteur
François Rodolphe
examinateur
Jean-François Tomb
examinateur
Antoine Danchin
examinateur
Alain Viari
examinateur
1
Table des Matières
1.
INTRODUCTION .............................................................................................................. 5
La génomique
2.
L’ANALYSE DES GÉNOMES COMPLETS..................................................................... 9
2.1
Qu’est ce que la génomique ?
2.2
Les projets de séquençage
9
11
Publication I- Kunst F. et al. 1997, The complete genome of the Gram+ bacterium Bacillus subtilis, Nature
2.3
Quelques perspectives ouvertes par la génomique
17
2.4
La paillasse après l’analyse in silico
22
3.
L'INFORMATIQUE ET LA GÉNOMIQUE.................................................................... 26
3.1
L’identification d’objets et de relations simples
27
3.2
Relations et intégration des connaissances
29
3.3
Un bref état de l'art des recherches par similarité
29
3.4
Les statistiques sur les mots
35
L'organisation des chromosomes
4.
SUR L’ORGANISATION DES GÉNOMES BACTÉRIENS ........................................... 40
4.1
Des "sacs de gènes" aux génomes
40
4.2
Le principe du voisinage
41
Publication II- Rocha EPC et al. 2000, Implication of gene distribution in the bacterial chromosome for the
bacterial cell factory, J. Biotechnology
4.3
L’importance des échantillons
43
Publication III- Rocha EPC et al. 1998, Oligonucleotide bias in Bacillus subtilis: general trends and taxonomic
comparisons, Nucleic Acids Research
4.4
5.
Quelques perspectives
45
LES BIAIS LIÉS À LA RÉPLICATION.......................................................................... 46
5.1
La réplication chez les Bactéries
47
5.2
Les travaux expérimentaux de détection d’asymétries
49
5.3
Les GC skews
50
Publication IV- Rocha, EPC et al. 1999, Universal replication biases in bacteria, Molecular Microbiology
5.4
L'ubiquité des biais
53
5.5
L’universalité des biais
54
5.6
La superposition des biais
55
5.7
Les théories et les résultats
55
6.
LA TRADUCTION ET SES BIAIS.................................................................................. 59
6.1
Le démarrage de la traduction
59
6.2
L'allongement
61
6.3
La terminaison de la traduction
63
Publication V - Rocha EPC et al. 1999, Translation in Bacillus subtilis: roles and trends of initiation and
termination, insights from a genome analysis, Nucleic Acids Research
2
6.4
Le mystère du codon de démarrage
64
6.5
Un bon contexte pour un bon démarrage
64
6.6
La structuration du messager et la traduction
65
6.7
Les contextes de la terminaison
65
6.8
Symétries inattendues
66
6.9
Le problème de la "downstream box"
67
Publication VI - Rocha EPC et al. The DB case: pattern matching evidences are not significant, Molecular
Microbiology, a paraître
L'évolution des chromosomes
7.
LE RÔLE ÉVOLUTIF DES RÉPÉTITIONS DANS LES GÉNOMES BACTÉRIENS..... 70
7.1
Le concept de génome minimal
70
7.2
Les remaniements chromosomiques et les répétitions
71
7.3
La recombinaison homologue
73
7.4
À la recherche des répétitions
74
Publication VII - Rocha EPC et al. 1999, Analysis of long repeats in bacterial genomes reveals alternative
evolutionary mechanisms in Bacillus subtilis and other competent prokaryote, Molecular Biology and Evolution
7.5
8.
Conclusion
74
LES RÉPÉTITIONS ET LE TRANSFERT HORIZONTAL
CHEZ BACILLUS SUBTILIS.............................................................................................. 79
8.1
La sexualité chez les bactéries
8.2
La recombinaison et le transfert horizontal
81
8.3
La transformation naturelle
81
8.4
Barrières à la sexualité bactérienne
83
8.5
Un modèle pour le transfert horizontal chez Bacillus subtilis
84
9.
79
LA NATURE ÉGOÏSTE DES SYSTÈMES DE RESTRICTION...................................... 86
9.1
Les systèmes de restriction et modification de type II et la défense cellulaire
86
9.2
Premières études sur le rôle évolutif des systèmes de restriction et modification de type II
87
9.3
Le modèle égoïste
89
9.4
Les difficultés du paradigme
91
9.5
Un schéma expérimental in silico
93
Publication VIII - Rocha EPC et al. The evolutionary role of restriction/modification systems revealed by
comparative genome analysis, en rédaction
9.6
Conclusions et perspectives
93
Méthodologies
10.
STATISTIQUES SUR LES MOTS ................................................................................... 96
10.1 Les processus de Markov
96
10.2 L'admissibilité des hypothèses de base
98
10.3 Les expressions asymptotiques et leurs simplifications
99
10.4 La démarche
103
3
11. STATISTIQUES ET ALGORITHMES POUR LA RECHERCHE
DE RÉPÉTITIONS LONGUES......................................................................................... 107
11.1 Segments homologues maximaux entre séquences aléatoires
107
11.2 L’algorithme de Karp-Miller-Rosenberg
111
11.3 Filtrage des résultats
115
11.4 Analyse de la similarité
117
11.5 Avantages et désavantages de la méthode
119
12.
ANALYSE DISCRIMINANTE LINÉAIRE ................................................................... 121
12.1 L'analyse discriminante de Fisher
121
12.2 La démarche expérimentale
123
13.
CONCLUSION ET PERSPECTIVES............................................................................. 126
RÉFÉRENCES BIBLIOGRAPHIQUES.................................................................................. 129
ANNEXES
Publication IX - Rocha EPC et al. 1999, Functional and evolutionary roles of long repeats in prokaryotes, Research
in Microbiology
Publication X - Moszer I et al. 1999, Codon usage and lateral gene transfer in Bacillus subtilis, Current Opinion in
Microbiology
Publication XI - Rocha EPC et al. In silico genome analysis, in Functional analysis of bacterial genes: a practical
manual, Ed. Schuman W et al, John Wiley & Sons, a paraître
4
1. Introduction
Cette thèse voit le jour au moment de l’explosion de la génomique. Ce qui pendant
plusieurs années a été considéré comme le rêve fantaisiste de quelques-uns est aujourd’hui
une réalité concrète et incontournable. Au moment de la rédaction de ce mémoire 24
génomes bactériens complets et deux génomes eucaryotes sont disponibles. Il y en aura
certainement plus au moment de sa lecture...
Des programmes de plus en plus puissants et performants permettent d'essayer de
comprendre à partir de la séquence complète d'un génome, une partie importante du
fonctionnement et de l'évolution de l’organisme. Ces analyses permettent d’apprendre
énormément sur le métabolisme et la gestion de l’information des êtres vivants, soit par
comparaison avec des résultats expérimentaux, soit par analogie avec des organismes
modèles. Ce dernier point est particulièrement important dans l’étude de bactéries qui
poussent très lentement ou ne poussent pas du tout en conditions de laboratoire. Or, nous
savons aujourd’hui qu’entre 99 et 99,9 % des bactéries nous sont inconnues et probablement
ne poussent pas facilement dans les conditions standard (Whitman et al. 1998). D’ailleurs,
tout un domaine du vivant, celui des archaea, requiert souvent des conditions de croissance
exceptionnelles, comme des hautes températures, des hautes pressions ou encore des milieux
acides.
Néanmoins, l’accroissement actuel des données de séquençage risque de ne pas être
suivi par une augmentation proportionnelle de notre connaissance sur les organismes
vivants ; ceci en raison des limitations des approches automatisées d’extraction des
connaissances. Ainsi, l’utilisation trop systématique de logiciels automatisés peut appauvrir
et limiter les recherches faites sur les génomes. Etant donné notre ignorance de certains
problèmes biologiques, il est fondamental de savoir quand il faut cesser d'employer des
procédures automatisées et passer à des analyses basées sur la connaissance et le jugement du
5
chercheur. Puisque l’apprentissage par les machines est basé sur des contextes divers et
nécessairement simplifiés il faut bien connaître ses limitations. La génomique, à la mode et
donc sujette à des investissements humains et financiers massifs, est particulièrement
vulnérable à certains détournements.
Pourtant, toutes les données apportées par la génomique permettent de vérifier et de
tester beaucoup d’hypothèses qui naguère auraient demandé un trop grand effort
expérimental. L’analyse in silico des séquences autorise la détection de mécanismes
fonctionnels ou évolutifs nouveaux, mais permet également de tester d'anciennes
hypothèses biologiques jusqu’ici non vérifiables. C’est cette analyse exploratoire des
génomes qui constitue précisément le sujet de cette thèse. Sous ce nom se cachent des
méthodologies, stratégies et objectifs assez divers, mais présentant plusieurs dénominateurs
communs.
Le premier, et peut-être le plus important, est l’analyse de génomes complets. En
coupant en partie avec l’approche parfois trop réductionniste de la biologie moléculaire
classique, en génomique l'étude des relations entre les objets biologiques utilise l’ensemble
complet de l’information génétique. Le deuxième point concerne la comparaison
phylogénétique entre les organismes, afin de mettre à jour leurs relations évolutives. Même
si la plupart des souches séquencées ne sont que trop adaptées aux conditions du laboratoire,
leur évolution, conditionnée par leurs relations avec les autres organismes et avec
l’environnement, est "imprimée" dans le chromosome. La comparaison avec d’autres
génomes reste ainsi fondamentale.
L’objectif principal de ce travail est la définition de stratégies et méthodologies
dédiées à l’analyse fine des génomes bactériens. Cependant, ces analyses n’ont de sens que
face à un sujet propre d’application. Nous avons ainsi réalisé plusieurs applications dans
différents domaines et sur plusieurs génomes, en nous intéressant particulièrement à Bacillus
subtilis, l'organisme modèle des bactéries Gram positives. Ces objectifs ont été définis de
façon suffisamment floue pour s'adapter à un domaine scientifique en démarrage. Rappelons
que le premier génome complet n’a vu le jour qu’en 1995 ! Depuis le début de ce travail
nous avons choisi une approche qui n'est pas évidente pour tout le monde : la biologie
d’abord. Les études doivent trouver leur source dans un problème ou une hypothèse
biologique. Ce n'est qu'en fonction de ce problème que se fait la recherche des meilleures
méthodes informatiques disponibles ou possibles.
Etudier un génome c’est un peu comme faire la cartographie d’un nouveau continent.
Souvent il y a trop d'inconnues pour que le chercheur puisse se permettre de faire des
hypothèses très spécifiques. Dans ce cas, une exploration préalable du problème est
nécessaire quitte à attendre l’émergence de questions et d’histoires plus pertinentes. Même si
cette approche n’est pas habituelle en biologie moléculaire, où la recherche est presque
toujours conduite par des hypothèses assez spécifiques, elle n’est pas moins motivée du
point de vue biologique. Par exemple quand nous nous sommes intéressés aux répétitions
6
dans les génomes bactériens il y avait plusieurs questions biologiques sous-jacentes,
notamment la stabilité des génomes et l’acquisition de nouvelles fonctions par duplication.
Cependant, un des résultats le plus intéressant fut la suggestion d’un nouveau mécanisme
évolutif chez Bacillus subtilis. Ceci n’était pas du tout dans notre idée initiale ! Par contre,
d'autres sujets ont pu être développés en suivant la démarche traditionnelle : hypothèse,
définition de l’expérience, expérience, conclusion. Cela a été le cas des travaux sur les biais
associés aux brins de réplication et sur le rôle évolutif des systèmes de restriction et
modification.
Cette thèse est présentée de façon à refléter ce point de vue. Ainsi, la première partie
porte sur la génomique, un néologisme dont la définition est un peu floue et qui, à la limite,
inclut tout ce qui concerne les génomes complets et leur analyse. En particulier nous
détaillerons l’importance fondamentale de l’informatique dans la génomique, en passant
rapidement sur l’assemblage et le stockage des données et en nous focalisant sur l’analyse
des données et l’"après séquençage". Nous en profiterons pour introduire quelques notions de
base de statistique nécessaires à la compréhension du reste du texte. La deuxième partie de la
thèse porte sur l’analyse exploratoire des génomes et sur les études que nous avons réalisées.
Elle est organisée en suivant les deux composantes principales de l’analyse des génomes,
l’analyse de la structure des génomes et l’analyse de leur évolution. Un génome n’est pas un
"sac de gènes", mais un ensemble ordonné et structuré d’informations qui permet le
fonctionnement de la cellule et qui évolue en fonction des besoins adaptatifs des organismes.
Nos analyses ont souvent démarré de l’exploration de cette idée.
Finalement nous avons placé les aspects méthodologiques à la fin du mémoire pour
indiquer qu’ils sont secondaires par rapport à la biologie. Le terme "secondaire" n’est pas
péjoratif. Dans un contexte d’analyse exploratoire de génomes, les méthodes restent
accessoires, quoique fondamentales, pour le biologiste. Un jour viendra où la bioinformatique
sera considéré par le biologiste comme un outil à l’image des techniques d’électrophorèse ou
des constructions génétiques.
7
La génomique
8
2. L’analyse des génomes complets
2.1 Qu’est ce que la génomique ?
La disponibilité d’une grande quantité d’information sur les séquences d’ADN et en
particulier sur les génomes complets de plus de 20 espèces bactériennes a ouvert le
"troisième âge" de la microbiologie moléculaire (Tang 1997). Les recherches sur les lois de
l'hérédité ont inauguré le "premier âge", celui de l'analyse de mutants aléatoires aux
phénotypes intéressants. L’objectif de beaucoup de ces études était la découverte des bases
moléculaires ou fonctionnelles de ces phénotypes. À la suite de la révolution moléculaire des
années 50 et 60, nous sommes rentrés dans le "deuxième âge". Celui-ci a été dominé par
l’application de la technologie de l’ADN recombinant à la construction de mutations
dirigées sur des gènes dont on spéculait un certain phénotype. Aujourd’hui, grâce à la
quantité et à l'exhaustivité des descriptions génétiques, les hypothèses sur les fonctions et
rôles des gènes seront de plus en plus issues de recherches in silico, suivies par des tests au
laboratoire. Si le premier âge était basé sur la connaissance du génotype par observation de
différents phénotypes et si le deuxième se basait sur des changements précis des génotypes
pour observer les phénotypes correspondants, on essaye maintenant de déduire des
phénotypes en partant de l’information sur le génotype (Figure 2.1) (Hinton 1997).
Ainsi, nous sommes devant un changement vraiment qualitatif de la façon de
rechercher en microbiologie. Ce n’est pas seulement que nous avons beaucoup plus de
données, c’est aussi que nous avons la possibilité de nous poser des questions qui, il y a très
peu de temps encore, ne pouvait être que des spéculations.
En provoquant une rupture de paradigme en termes de recherche en microbiologie, la
contribution de la génomique n’est pas de jeter aux oubliettes les résultats et méthodes de
tout ce qu’a été faite jusqu’à présent. Au contraire, une fois acquise l’information sur
l’ensemble de gènes que constitue le génome, il faut bien essayer de comprendre son rôle.
9
Ceci est l'objectif primordial des programmes d'analyse fonctionnelle en cours chez plusieurs
organismes modèles tels que Bacillus subtilis (Ehrlich et al. 1999) ou Saccharomyces
cerevisiae (Dujon 1996).
I. Mendel
II. la révolution
moléculaire
III. La génomique
Phénotype
Génotype
Phénotype
localisation
caractérisation
Génotype
Phénotype
analyse
in silico
Biopuces
Génotype
Figure 2.1 - Schéma représentatif des changements produits dans la microbiologie moléculaire à la suite de la
révolution moléculaire et de la génomique.
La génomique ne vaut pas simplement par ce qu’elle donne à connaître, mais aussi par
ce qu’elle dévoile de notre ignorance sur le fonctionnement des bactéries. La constatation du
fait qu'entre un tiers et la moitié des gènes présents dans les génomes bactériens a une
fonction inconnue est d’importance fondamentale pour comprendre ce qu’il reste encore à
découvrir. C’est cette découverte, issue de l’analyse in silico, qui est à l’origine de l’analyse
exploratoire des génomes.
La rupture épistémologique créée par la génomique est profonde, puisqu’elle
représente aussi la remise en question de l’approche hypothético-déductive classique en
biologie expérimentale (Goodman 1999). Dans ce modèle classique de recherche, il y a une
définition préalable de l’hypothèse à tester, suivie de la définition d’une expérience ayant
comme objective sa confirmation ou sa négation. Les raisonnements sous-jacents à cette
approche semblent assez raisonnables. Non seulement elle permet une définition objective
des hypothèses, mais elle conduit généralement aussi à un bon rapport résultats/coût pour le
résultat attendu. Et pourtant, c’est justement ce bon rapport qui est remis en question par la
génomique. La collection de génomes complets est probablement la plus grande collection
"libre d’hypothèses préalables" de l’histoire de la biologie (Goodman 1999). De plus, elle est
moins coûteuse que l’approche de séquençage gène par gène (i.e. sujet par sujet) (Dujon
1996). Une fois obtenue, l’information sur le génome peut être examinée par la
communauté scientifique de plusieurs façons et perspectives (Clayton et al. 1998). De plus,
cette "recherche dirigée par les données" n’est pas seulement une alternative, c’est aussi une
nécessité quand il n’y a pas de connaissances préalables suffisantes pour définir des
hypothèses objectives et précises.
Devant un nouveau génome, le chercheur est un peu comme les explorateurs du XIVe
siècle devant un nouvel océan : si on ne connaît rien, comment savoir où aller ? En fait, les
hypothèses définies aujourd’hui par les chercheurs sont fondées sur une énorme masse de
10
données acquises dans le passé. Cette situation ressemble beaucoup au travail des naturalistes
du XVIIIe et XIXe siècles qui recueillaient des spécimens partout dans le monde en quête de
règles et de formalisations. Dans ces deux cas, l’exploration est la seule voie. Pour les
biologistes du XIXe siècle, ceci a abouti à une énorme masse de données qui, même sans
d'hypothèse préalable, a été à la base des théories de l'évolution des espèces (Depew &
Weber 1995).
Cependant, l’approche exploratoire a ses limites et ses dangers. Puisqu’elle est plus
générale, il est plus difficile de décomposer les effets dans le tout. Il est également plus
difficile de sortir du domaine de la simple description vers celui des théories et modèles.
Finalement, nous revenons à notre question d’origine : qu’est ce que la génomique ?
En l’absence d'une définition dans le dictionnaire, nous pouvons la définir comme ce qui
concerne l’analyse des génomes, pris comme un tout. C’est une définition assez générale, et
vague en conséquence, qui a été créée en 1986 par Thomas Roderick (Hieter & Boguski
1997) pour décrire la discipline scientifique consacrée à cartographier, à séquencer et à
analyser les génomes (et qui par ailleurs a été utilisée la première fois pour baptiser un
journal scientifique).
Aujourd'hui la génomique est en train de se déplacer rapidement d’une vision centrée
sur le séquençage vers celle de l’analyse des fonctions. Certains appellent "génomique
fonctionnelle" cette seconde phase (Hieter & Boguski 1997), puisqu’on se focalise sur la
fonction des gènes. En fait, il n’y a pas que la fonction des gènes qui est importante, il faut
y ajouter l’évolution et l’organisation de l’information génétique. Ce n’est qu’avec ces deux
autres composantes, malheureusement fréquemment oubliées dans l’exaltation de la
génomique, que le tableau se complète.
Nous décrirons de façon brève, dans les prochains paragraphes, les principaux projets
de séquençage de bactéries et ce qu’ils nous ont appris.
2.2 Les projets de séquençage
Le premier génome à ADN entièrement séquencé a été celui du bactériophage Φ X174
(5386 pb) en 1978 (Sanger et al. 1978). Les 17 années suivantes ont vu apparaître plusieurs
autres génomes de virus, de mitochondries et de chloroplastes. Contrairement à l’attente
générale Escherichia coli, le plus important des modèles bactériens, n'a pas été séquencé le
premier, mais une autre protéobactérie : Haemophilus influenzae (Fleischmann et al. 1995)
l’a devancé. C’était en 1995 et cette date marque le début de l’âge de la génomique
bactérienne.
2.2.1 Les premiers génomes
L’originalité du projet de séquençage de Haemophilus influenzae réside dans la
stratégie utilisée : tout le génome a été fragmenté aléatoirement, tous les morceaux
séquencés et finalement assemblés. Ce projet a démontré qu’il n'était pas nécessaire de
11
connaître la carte physique d'un génome pour le séquencer entièrement. Cette méthode avait
déjà été utilisée précédemment, mais pour des génomes beaucoup plus petits, comme le
phage Lambda (Sanger et al. 1982). Au-delà de la prouesse technique, il n’y aurait pas eu de
génome complet sans un fort investissement dans la création de logiciels d’assemblage des
fragments. C’est en effet un problème très difficile du point de vue de l'informatique (Galant
et al. 1980), qui limite encore la taille des génomes séquencés selon cette approche.
Tableau 1 - Génomes bactériens complets en décembre 1999.
Espèce bactérienne
Aeropyrum pernix
longueur G+C
(pb)
(%)
1669695 56.31
gènes codant ARNr ARNt
(#)
(%)
2694
1.15
5
47
%gènes
précoce
-
Aquifex aeolicus
1551335
43.48
1522
0.94
6
44
-
Archaeoglobus fulgidus
2178400
48.58
2407
0.94
3
46
-
Bacillus subtilis
4214814
43.52
4098
0.87
30
88
75
Borrelia burgdorferi
910724
28.59
850
0.94
5
34
65
Campylobacter jejuni
1641480
30.5
1731
0.95
9
43
-
Chlamydia pneumoniae
1230230
40.58
1052
0.90
3
38
Chlamydia trachomatis
1042519
41.31
894
0.90
6
37
55
Escherichia coli
4639221
50.79
4289
0.88
22
86
55
Haemophilus influenzae
1830138
38.15
1709
0.88
18
18
56
Helicobacter pylori
1667867
38.87
1566
0.91
7
36
58
Helicobacter pylori J99
1643831
39.19
1491
0.91
-
-
58
Methanococcus jannaschii
1664970
31.43
1715
0.88
6
37
53
Methanobacterium
thermoautotrophicum
1751377
49.54
1869
0.90
6
39
56
Mycoplasma genitalium
580074
31.69
480
0.91
3
36
80
Mycoplasma pneumoniae
816394
40.01
677
0.88
3
33
78
Mycobacterium tuberculosis
4411529
65.61
3909
0.91
3
45
59
Pyrococcus abyssi
1765118
44.71
1763
0.91
5
46
-
Pyrococcus horikoshii
1738505
41.88
2058
0.99
3
46
-
Rickettsia prowazekii
1111523
29.00
834
0.77
3
33
61
Synechocystis spp C125
3573470
47.72
3163
0.87
6
43
-
Thermotoga maritima
1860725
46.25
1846
0.96
3
46
-
Treponema pallidum
1138011
52.77
1031
0.94
6
45
65
Pourtant les résultats ont confirmé les analyses des premiers chromosomes complets
de S. cerevisiae (Dujon 1996) et des longs contigs de Escherichia coli (Blattner et al. 1993).
En effet, la séquence de Haemophilus influenzae (1.83 Mb) contient environ 1743 gènes
putatifs, parmi lesquels 40 % n’ont pas de fonction connue. La moitié de ces gènes n'ont pas
d’homologues dans les bases de données, alors que l’autre moitié possède des homologues
dont on ignore également la fonction (Fleischmann et al. 1995). Cette observation s’est
12
répétée à chaque publication d’un nouveau génome, même si les chiffres précis varient
suivant l’organisme et les méthodes utilisées (Tableau 1). Une actualisation des annotations
de Haemophilus influenzae a permis d’assigner une fonction à 15 % de ces "gènes
orphelins" qui, parfois, résultaient d'erreurs de séquençage (Clayton et al. 1998). Ce résultat
démontre que l’obtention de génomes complets doit être suivie d’efforts d’actualisation des
annotations et de la séquence elle-même (Moszer 1998).
Jusqu’à la parution du génome complet de Haemophilus influenzae, le séquençage de
génomes bactériens ne constituait une priorité ni pour la plupart des chercheurs ni pour les
agences de financement (Danchin 1995) (Tang 1997). Après sa publication, tout le domaine
a été bouleversé et le séquençage de bactéries a connu un essor qui se prolonge jusqu’à nos
jours. Peu après Haemophilus influenzae est paru le génome de Mycoplasma genitalium, la
bactérie possédant le plus petit génome connu à l’époque (Fraser et al. 1995). La stratégie
utilisée pour séquencer le génome de Mycoplasma genitalium fut identique à celle employée
dans le cas de Haemophilus influenzae, mais fut facilitée par l’existence de cartes physiques
et génétiques et d'études préalables de séquençage aléatoire (Peterson et al. 1993). Les 470
régions codantes prédites couvrent 88 % du génome, de manière similaire au cas de
Haemophilus influenzae. Contrairement à la plupart des autres génomes, chez Mycoplasma
genitalium le nombre de "gènes orphelins" n’est que de 20 %, ce qui est probablement dû à
la très petite taille du génome (580 Kb) (Fraser et al. 1995) (Himmelreich et al. 1997).
La troisième bactérie entièrement séquencée a été Methanococcus jannaschii, une
bactérie avec un chromosome circulaire de 1 664 kb et deux plasmides de 58 Kb et 16 Kb
(Bult et al. 1996). Cette bactérie est intéressante pour plusieurs raisons : 1) c’est une
archaea ; 2) elle vit dans des conditions extrêmes (94ºC et 200 atmosphères) ; 3) elle est
autotrophe ; 4) elle est anaérobie stricte et 5) elle est méthanogène. Sur les 1 738 gènes
prédits, seuls 38 % ont pu se voir attribuer une fonction précise, ce qui illustre de façon
saisissante notre ignorance du domaine des archaea (Edgell & Doolittle 1997b).
100%
90%
80%
70%
60%
50%
40%
30%
20%
Fonction "connue"
Fonction putative
ripr
chtr
pyho
aqae
trpa
mytu
arfu
bobu
meth
basu
hepy
esco
mypn
sysp
meja
hain
0%
myge
10%
UFO
Figure 2.2 - Les gènes de fonction connue, hypothétique et de fonction inconnue (en haut) des différents
génomes bactériens (d’après la base de données MIPS (http://www.mips.biochem.mpg.de)).
13
Finalement, peu après le génome de Methanococcus jannaschii, sont sortis les
derniers chromosomes de S. cerevisiae (Dujon 1996), ce qui a permis d’ajouter un eucaryote
à la collection de génomes complètement séquencés. Ce génome est remarquablement
compact pour un génome eucaryote, puisqu'il possède 16 chromosomes totalisant environ
12 Mb, et environ 72 % de régions codantes. S. cerevisiae possède environ 6 200 gènes
putatifs, parmi lesquels 30 à 35 % n’avaient pas d’homologues dans les banques de données
(Dujon 1996). Au-delà du fait que la levure est un modèle très important parmi les
eucaryotes, la comparaison de ce génome avec les génomes bactériens connus à l’époque a
permis l’analyse phylogénétique de génomes complets et l’approfondissement de l’étude sur
l’origine des archaea (Tekaia et al. 1999). Cette séquence a également permis d’esquisser les
premières études comparatives sur les différents mécanismes dans les eubactéries, les archaea
et les eucaryotes (Edgell & Doolittle 1997a).
2.2.2 Les génomes des bactéries modèles
Le problème des génomes énumérés ci-dessus est qu’on ignore beaucoup de leur
biochimie et de leur génétique. De plus, Mycoplasma genitalium et Methanococcus
jannaschii poussent très difficilement en laboratoire. Il a fallu attendre jusqu’à la deuxième
moitié de 1997 pour avoir enfin accès aux génomes complets des deux principaux modèles
bactériens : Escherichia coli pour les protéobactéries et Bacillus subtilis pour les firmicutes
(ou Gram positives).
2.2.2.1 Le génome d’Escherichia coli
L’importance de l’entérobactérie Escherichia coli provient du très grand nombre
d’études génétiques, biochimiques et épidémiologiques auxquelles elle a donné lieu. Près de
500 protéines de Escherichia coli ont des structures 3D connues soit par analyse directe
(rayons X ou RMN) soit par homologie. On dispose de plusieurs bases de données
spécialisées sur son métabolisme, comme EcoCyc (Karp 1996) et KEGG (Kanehisa 1997).
L’expressivité de ses gènes a aussi été analysée en détail et cette information est compilée
dans un catalogue de gels 2D (VanBogelen et al. 1999). De plus, la famille des
entérobactéries contient plusieurs des plus virulentes bactéries chez l’homme, notamment
celles qui sont responsables du choléra, du typhus et de la dysenterie. La littérature sur
Escherichia coli est tellement
vaste
qu'une recherche
dans la base de données
bibliographiques Medline, indique l'existence d’environ 170 000 articles citant cette espèce
dans le titre ou dans le résumé. Le papier qui présente la séquence complète de cette bactérie
indique l’existence de 4288 gènes putatifs (Blattner et al. 1997). En dépit de tous les
travaux publiés sur cet organisme 40 % des gènes n’ont pas de fonction connue ou même
putative. Les analyses du génome ont par ailleurs révélé une organisation significative,
puisque les gènes fortement exprimés se trouvent plutôt au voisinage de l’origine de
14
réplication et sur le brin précoce (Sharp et al. 1989) (Blattner et al. 1997). On observe
également des biais associés à la réplication (Lobry 1996a) et l'existence d'une forte
structuration en opérons, révélé par l’existence de nombreux terminateurs rho-indépendants
(Carafa et al. 1990). Enfin, Ce génome contient aussi de nombreuses séquences d’insertion,
de vestiges de phages et d'éléments transférés horizontalement (Médigue et al. 1991)
(Lawrence & Ochman 1998).
2.2.2.2 Le génome de Bacillus subtilis
Bacillus subtilis est le mieux caractérisé des firmicutes. Son génome, d’environ 4,2
Mb, contient environ 4100 gènes, parmi lesquels 42 % n’ont pas pu être classés sur la base
de l’homologie de séquence (Kunst et al. 1997). La classification de ces 4100 gènes en
familles fonctionnelles, a révélé qu’environ 53 % des familles contiennent un seul gène,
alors que certaines familles sont très nombreuses, la famille des ATP-transporteurs étant la
plus nombreuse avec 77 gènes (Kunst et al. 1997). Au contraire de la plupart des bactéries
séquencées, Bacillus subtilis n’est ni un agent infectieux ni un extrêmophile. En
conséquence son génome peut apporter des informations précieuses sur les bactéries
mésophiles et en particulier sur celles qui habitent le sol. Il faut préciser que le sol est le plus
grand réservoir de bactéries sur la planète, il contient entre 4 et 5 ordres de grandeur de fois
plus de bactéries que tous les animaux réunis (Whitman et al. 1998). L’analyse du génome de
Bacillus subtilis a révélé qu’une partie importante de son information génétique intervient
dans l’utilisation de différentes sources de carbone et, en particulier, des sources d'origine
végétale.
Le génome de Bacillus subtilis a un contenu G+C de 43 %, de distribution hétérogène,
puisqu’il présente des îlots de fort contenu A+T. Ces îlots sont associés à des prophages
insérées dans le chromosome comme SPβ et PBSX, à des éléments mobiles, à des régulateurs
de la sporulation, comme skin, et à des régions transférées horizontalement (Kunst et al.
1997). De plus, le contenu en guanine et en cytosine est différent entre les deux brins de
réplication, avec un plus grand pourcentage de guanine dans le brin précoce et de cytosine
dans le brin tardif (Lobry 1996a) (Kunst et al. 1997). Cet effet provoque une très
importante inversion du rapport (G-C)/(G+C) à l’origine et au terminus de la réplication.
Publication I
Kunst F. et al. (1997), The complete genome of the Gram+ bacterium Bacillus subtilis,
Nature, 390, 249-256.
15
2.2.3 Les (presque) doublons
En fin de 1999 presque tous les taxons bactériens sont représentés dans la banque des
génomes complets, ce qui permet l’analyse des différences entre eux. Néanmoins, les
microbiologistes sont souvent plus intéressés par les petites différences entre des organismes
proches, voire des souches d'un même organisme. Un cas typique est celui de la virulence
chez les bactéries pathogènes. Différentes souches d’un même organisme peuvent varier très
significativement en termes de virulence, comme est le cas des souches de Escherichia coli
O157:H7 et K12 (Plunkett et al. 1999). Fréquemment ces différences s’expliquent par
l’introduction dans les génomes de cassettes de virulence (e.g. chez Salmonella
tiphymurium (Groisman & Ochman 1997)) ou de plasmides porteurs de gènes de virulence
(e.g. chez Shigella flexneri (Dorman & Porter 1998)). Ainsi le séquençage de génomes
complets d’espèces assez proches (voire de souches d'une même espèce) a été envisagé très
tôt. Aujourd’hui on possède déjà quelques cas de ces (presque) doublons.
Mycoplasma genitalium et Mycoplasma pneumoniae sont des firmicutes tellement
proches que tous les gènes de Mycoplasma genitalium (le plus petit) ont un homologue chez
Mycoplasma pneumoniae (Himmelreich et al. 1997). Cependant, ces génomes ont des
tailles et des contenus G+C très différents, 580 kb et 32 % pour Mycoplasma genitalium
(Fraser et al. 1995) et 816 kb et 40% pour Mycoplasma pneumoniae (Himmelreich et al.
1996). Les deux organismes sont pathogènes chez l’homme et dépendent de l’hôte pour
l’acquisition des nutriments essentiels (Dybvig & Voelker 1996). Mycoplasma pneumoniae
est souvent rencontré dans les voies respiratoires alors que Mycoplasma genitalium
s’installe dans la région urogenitale (Razin et al. 1998). L’analyse comparative de ces deux
génomes a permis leur subdivision en 6 segments où l’ordre des orthologues est maintenu,
même si les 6 segments sont disposés différemment dans les deux génomes, probablement en
raison de translocations par recombinaison homologue (Himmelreich et al. 1997). Plusieurs
gènes de ces bactéries présentent des répétitions qui sont utilisées pour échapper au système
immunitaire de l'hôte (Himmelreich et al. 1997) (Razin et al. 1998). On reparlera de ces
répétitions au chapitre 7.
Deux autres paires d’organismes, entièrement séquencés, ont fait l'objet d'analyses
comparatives : la paire Chlamydia pneumoniae et Chlamydia trachomatis (Kalman et al.
1999) et la paire Borrelia burgdorferi et Treponema pallidum (Fraser et al. 1998). Ces
quatre organismes sont pathogènes chez l’homme, mais les absences de données
métaboliques et d’outils génétiques rendent les comparaisons génomiques moins fructueuses.
Les Chlamydiae sont des eubactéries intracellulaires obligatoires bien séparées du point de
vue phylogénétique des autres groupes. Les deux Chlamydiae séquencées sont des
pathogènes humains responsables de la pneumonie, la bronchite (C. pneumoniae), le
trachome et plusieurs maladies sexuellement transmissibles (C. trachomatis). Le premier de
ces génomes mesure 1,23 Mb et possède 1073 gènes putatifs alors que le second mesure 1,04
16
Mb et possède 894 gènes putatifs. Les 214 gènes qui se trouvent chez C. pneumoniae, mais
pas chez C. trachomatis, ont, pour la plupart, des fonctions inconnues et manquent
d’homologues dans les bases de données. On trouve dans ce groupe de gènes une famille
composée de 21 variantes de protéines de la membrane extérieure (Kalman et al. 1999),
soulignant une fois de plus le rôle fondamental de ces protéines dans la pathogénicité.
Les deux Spirochètes actuellement séquencés sont également des organismes
pathogènes responsables de maladies assez graves : la syphilis pour Treponema pallidum et
la maladie de Lyme pour Borrelia burgdorferi. La distance évolutive important entre ces
deux espèces fait que bien qu'ayant des génomes de taille similaire (1,14 Mb pour T.
pallidum et 911 kb pour Borrelia burgdorferi) la comparaison n'ait abouti qu'à très peu de
résultats concrets (Fraser et al. 1998).
Jusqu’à présent Helicobacter pylori a été la seule espèce pour laquelle deux souches
différentes ont été entièrement séquencées et publiées, la souche 26695 (1,667 Mb) (Tomb
et al. 1997) et la souche J99 (1,644 Mb) (Alm et al. 1999). La petite différence entre les
tailles est bien représentative
de la similarité générale des deux chromosomes.
L’organisation génomique, l’ordre des gènes et les protéines prédites pour les deux génomes
sont très similaires, à l’exception de 6 % à 7 % des gènes qui semblent spécifiques de chaque
souche (Alm et al. 1999). La moitié de ces gènes sont agrégés dans une région très variable.
La comparaison des deux souches révèle aussi quelques inversions et translocations de
régions associées à la recombinaison entre paralogues qui codent pour des protéines
membranaires.
2.3 Quelques perspectives ouvertes par la génomique
2.3.1 L’arbre de la vie
On s’attendait à ce que les données issues des projets de séquençage n’aient qu'une
faible influence sur notre connaissance de l’arbre du vivant. Sauf peut-être au niveau des
détails, on s’attendait à voir confirmer l’arbre construit avec un nombre considérable de
sous-unités 16S des ribosomes par Carl Woese et collègues (Woese et al. 1990). La
comparaison des séquences d'ARNr suggérait que l’évolution à partir du dernier ancêtre
commun ait d'abord créé deux branches : d’un côté les eubactéries, de l’autre côté les archaea
et les eucaryotes. Ensuite, cette seconde branche aurait divergé séparant les archaea et les
eucaryotes. Mais finalement l’analyse des génomes semble révéler un scénario plus
complexe.
Ces analyses ont permis l’établissement d’arbres phylogénétiques pour un grand
nombre de gènes. Fréquemment ces arbres ne sont pas concordants (Harvey et al. 1996). La
raison sous-jacente à beaucoup de ces incongruités réside peut être dans l’utilisation abusive
des méthodes de reconstruction (Philippe & Laurent 1999) ou dans le remplacement
fonctionnel de paralogues par d’autres gènes (Forterre 1999). Cependant le grand nombre de
17
cas trouvés récemment suggèrent également qu’une bonne partie de l’évolution des
procaryotes se soit faite par l’acquisition horizontale de gènes. La fréquence de transfert de
ces gènes semble fortement liée à leur fonction. Ainsi, sont plus fréquemment transmis tous
les gènes qui peuvent donner des avantages immédiats à la bactérie comme les gènes de
résistance aux antibiotiques ou les facteurs de virulence (Syvanen 1994). Par ailleurs, les
gènes liés à la traduction, la transcription et la réplication (gènes d’information) sont
beaucoup plus rarement transmis que les gènes liés aux fonctions métaboliques (gènes de
ménage) (Rivera et al. 1998). La raison de ceci tient très probablement aux grands
complexes formés par les gènes d’information et à la multitude d’interactions directes entre
ces protéines (Jain et al. 1999). Ceci contraint significativement la gamme de variantes
susceptible de remplacer le gène résident. A l'inverse, les protéines de "ménage" agissent
typiquement seules ou en petits complexes (Jain et al. 1999). Finalement, les exemples de
transfert massif de gènes entre organismes lointains comme Thermotoga maritima et
plusieurs archaebactéries sont probablement dus à leur coexistence dans des environnements
très hostiles (Logsdon & Faguy 1999). Si les chiffres de 24 % de gènes transférés des archaea
vers cette bactérie se confirment (par rapport aux 52 % d’origine eubactérienne), on peut se
demander alors quel est le sens d’un arbre phylogénétique dans ce contexte (Figure 2.3)
(Nelson et al. 1999).
Metabolisme energétique
Transport
Traduction
Envelope cellulaire
Biosynthèse de aminoacides
gènes dont le meilleur
homologue est une
Fonctions régulatrices
Processus cellulaires
Eubactérie
Metabolisme de l'ADN
Archaea
Purines, pyrimidines, etc
Metabolisme central interm.
Biosynthèse de cofacteurs
Transcription
Acides gras
0
50
10 0
150
2 00
Figure 2.3 - Gènes de Thermotoga maritima dont le meilleur homologue est dans une eubactérie ou une archaea
(d’après (Nelson et al. 1999)).
Le deuxième type d’études qui a bouleversé notre vision de l’arbre du vivant est basé
sur l’analyse comparative des protéomes. L’observation à la base du problème est que les
archaea se groupent à côté des eubactéries en ce qui concerne le métabolisme, mais à côté
des eucaryotes si l’on considère les gènes liés à la transcription et à la traduction (Doolittle
& Logdson 1998). Ces différences reflètent des problèmes de classification dus au transfert
horizontal et aux vitesses différentes de substitution des nucléotides, mais elles reflètent
18
également le fait que l’on esquisse une histoire des gènes et pas vraiment celle des
organismes (Tekaia et al. 1999). Ce type de classification présente un aspect simpliste
puisqu’il ne prend pas en compte le fait que les génomes ne soient pas des "sacs de gènes"
(Huynen & Bork 1998). Les études dédiées à ces questions ne font que débuter, mais il est
probable qu’elles changeront profondément notre vision de l’évolution bactérienne dans
l’avenir.
7
Purple
4
Firmicutes
(Gram+)
1
Cyanobacteria
4
Flavobacteria
1
Methanobacterium Halobacterium
Methanococcus
Thermo- 1
coccus
Thermoproteus
Pyrodictium
1
2
Thermoplasma
1
Methanopyrus
Thermotoga
1
Aquifex
1
Figure 2.4 - L’arbre phylogénétique des organismes procaryotes et le nombre d'espèces séquencées par taxon.
2.3.2 La dynamique du génome
Par définition le séquençage ne fait que prendre un instantané de l’état du génome. De
ce point de vue, il n’est pas étonnant de constater que la plupart des résultats récemment
publiés sur la dynamique des génomes sont issues d’études d'électrophorèse et non du
séquençage de génomes complets (Kolsto 1997). Néanmoins, la publication de séquences
complètes de génomes très proches commence aussi à apporter d’importantes informations
dans ce domaine. La structure des génomes bactériens peut être analysée à des niveaux très
divers, en incluant la fréquence des oligonucléotides, le contenu G+C, les biais de brin de
réplication, l’organisation des gènes, les structures d’opérons, la longueur, le nombre et la
géométrie des réplicons, la présence ou l'absence de séquences d’insertion, etc. Comme une
bonne partie de cette thèse porte sur ces sujets, nous nous contenterons, pour l’instant, de
résumer l’état des connaissances sur ces questions.
La taille des génomes bactériens peut varier considérablement, des 580 kb de
Mycoplasma genitalium, jusqu’aux 9.2 Mb de Myxococcus xanthus (Casjens 1998). Cet
intervalle de valeurs chevauche celui des plus grands virus (le bacteriophage G mesure 670
kb) et celui des plus petits eucaryotes (les Microsporidiae mesurant moins de 3 Mb). La
taille moyenne des gènes des génomes séquencés se situe entre 900 pb et 1 kb, et les gènes
occupent environ 90 % du génome. L’exception la plus importante est Rickettsia prowazekii
qui présente seulement 74 % de codant (Andersson et al. 1998). La taille du génome est très
19
corrélée au mode de vie des bactéries. Ainsi, les bactéries à plus petit génome sont
"spécialistes", typiquement parasites obligatoires, qui ne poussent que dans les hôtes ou dans
conditions très spécifiques (Razin et al. 1998) (Andersson & Kurland 1998). Par contre les
bactéries à grand génome sont "généralistes", parfois avec des formes élémentaires de
différentiation comme la sporulation (Frandsen et al. 1999), la compétence (Lorenz &
Wackernagel 1994) ou la formation de micelles (Velicer et al. 1998).
La taille des génomes varie significativement dans un même groupe phylogénétique,
par exemple les Spirochaetes varient entre 910 kb et 4.6 Mb et les protéobactéries entre
1.2 Mb et 9.4 Mb (Casjens 1998). De plus, on retrouve dans la même espèce des tailles de
génomes très différents. Chez Bacillus cereus, par exemple, la taille du chromosome varie
entre 2.4 Mb et 6.3 Mb (Carlson & Kolsto 1994). Chez Escherichia coli on a trouvé des
génomes avec des tailles différant de plus de 1 Mb (Bergthorsson & Ochman 1995),
l’augmentation correspondant surtout à du transfert horizontal de matériel génétique
(Bergthorsson & Ochman 1998).
La découverte que Borrelia burgdorferi avait un chromosome linéaire (Baril et al.
1989), a bouleversé un vieux paradigme de la génétique bactérienne voulant que ces
chromosomes soient toujours circulaires (Kolsto 1997). On connaissait déjà des plasmides
linéaires chez les Streptomyces et le séquençage de Borrelia burgdorferi a révélé une grande
quantité de plasmides linéaires et circulaires (Fraser et al. 1997). La structure des télomères
de ces réplicons linéaires suit deux modèles différents. Chez Borrelia, les terminaisons du
chromosome sont liées de façon covalente par une épingle à cheveux. Par contre, les
télomères des Streptomyces sont ouverts et contiennent des motifs répétés, à l'image des
télomères des eucaryotes (Volff & Altenbuchner 1998).
La plupart des bactéries ont un chromosome unique, éventuellement complété par
d’autres éléments génétiques comme les plasmides. Néanmoins, on a récemment mis en
évidence des familles bactériennes avec plusieurs réplicons de plus de 100 kb (Casjens 1998).
Par exemple, six espèces de Brucella ont deux chromosomes de tailles respectives 2.1 Mb et
1.2Mb, les deux portant des gènes essentiels (Michaux et al. 1993). De plus les bactéries ne
sont pas strictement haploïdes. Non seulement dans une cellule en croissance exponentielle
coexistent plusieurs copies à des étapes différentes de réplication, mais on trouve aussi des
bactéries où la polyploïdie est la règle (Casjens 1998). Deinococcus radiodurans possède 4
ou 5 copies de son chromosome qui lui permettent de reconstruire son chromosome après
une exposition prolongée à un rayonnement radioactif ou à des périodes de sécheresse
extrême (Daly & Minton 1995) (Battista et al. 1999).
2.3.3 Analyse des réseaux métaboliques
Récemment sont apparues des bases de données dédiées à la représentation des
connaissances métaboliques et destinées à assister le processus d’annotation (Karp & Riley
1993). Il y a actuellement trois principaux projets de reconstruction semi-automatique de
20
voies métaboliques par l’analyse des génomes, KEGG au Japon (Kanehisa 1997), W I T
(Gaasterland & Selkov 1995) et Metacyc (Karp 1996) aux Etats-Unis. Puisque ces projets
sont basés sur des concepts similaires, quoique légèrement différents dans le détail et
l'implémentation, nous ne décrirons ici que KEGG. Le projet KEGG, qui est l’acronyme de
Kyoto Encyclopaedia of Genes and Genomes, a pour but l’informatisation de la
connaissance actuelle des voies métaboliques et régulatrices. Ces voies sont considérées
comme des diagrammes représentant les liaisons entre les gènes, entre les protéines et entre
les protéines et les gènes (Kanehisa 1997). KEGG incorpore la carte métabolique de
Boehringer et une représentation graphique de plus de 100 voies métaboliques, dessinées
manuellement. Tous les gènes d’enzymes sont identifiés par un numéro de code standardisé
(EC number). Les voies métaboliques de l’organisme sont générées automatiquement par la
mise en correspondance des numéros EC de la banque génomique avec ceux de la banque
métabolique (Bono et al. 1998). Ces voies sont construites par l'utilisation comparative du
catalogue génomique et des voies de référence. Quand une voie est complète, cette approche
renforce les résultats de l’analyse de similarité.
Néanmoins, c’est quand la connaissance est incomplète que la méthode devient
vraiment intéressante. Ceci peut arriver quand l'identification fonctionnelle des gènes est
erronée. Une autre possibilité est que notre connaissance sur la voie soit insuffisante, ce qui
suggère la recherche d’enzymes alternatives qui pourraient réaliser la réaction en question
(Bono et al. 1998) (Tomii & Kanehisa 1998). Ainsi, ces outils permettent simultanément la
représentation des voies métaboliques, la confirmation des fonctions annotées et la
découverte de fonctions ou voies alternatives.
Plusieurs problèmes doivent encore être résolus avant que ces projets n’atteignent
leurs buts ultimes qui seraient la modélisation complète du métabolisme, de la régulation
génétique et de son évolution. En particulier, il subsiste encore de nombreux trous dans notre
connaissance du métabolisme (ce que reflète le grand nombre d’ORFs de fonction inconnue),
ainsi que de sa régulation.
2.3.4 Génomique structurale
L’ensemble des protéines codées sur le génome peut être considéré comme une
collection de repliements 3D suffisants pour assurer les principales fonctions cellulaires,
comme le métabolisme, la réplication ou la gestion de l’information (Frishman & Mewes
1999). Le terme "génomique structurale" a donc été utilisé pour désigner les études de
l’ensemble de protéines des génomes, i.e. l’étude du protéome du point de vue de la structure
tridimensionnelle. Même si ce thème de recherche a de fortes ressemblances avec l’analyse
fonctionnelle in silico, il est rendu beaucoup plus ardu par la difficulté de prédiction de
structures tertiaires des protéines. La classification des repliements existants se heurte ainsi
à des difficultés diverses, dont, en particulier, l’inexistence d’un consensus sur les archétypes
de repliements (Orengo et al. 1994) (Holm & Sander 1996). De plus, sauf dans des cas très
21
particuliers comme les protéines membranaires, la liaison entre les classes de repliement et
la fonction de la protéine n'est pas toujours évidente.
La méthode de référence en génomique structurale est le threading. Cette technique
est basée sur le fait que les structures tertiaires des protéines sont plus conservées que les
structures primaires (Chothia & Lesk 1986). Le threading consiste à essayer de déterminer
si une séquence donnée est compatible avec un des repliements connus. Pour comparer une
structure linéaire avec une structure tridimensionnelle, il faut que cette dernière soit
représentée en termes de la probabilité qu’un aminoacide donné soit présent dans une
certaine position du repliement (Bowie et al. 1991). On enfile (to thread) la séquence sur la
structure 3D en cherchant à minimiser l'énergie d'interaction de l'ensemble des résidus. Cette
énergie d'interaction est le plus souvent calculée par des potentiels statistiques dépendant des
distances entre toutes les paires d'acide aminées de la séquence positionnées sur la structure
3D (Sippl & Flockner 1996). En utilisant le threading, Fisher et Eisenberg (Fisher &
Eisenberg 1997) ont augmenté de 6 % le nombre de protéines caractérisées structurellement
dans le génome complet de Mycoplasma genitalium. Ils ont aussi estimé qu’une
augmentation d'un facteur 3 du nombre de protéines de structure 3D connue, permettrait la
caractérisation de toutes les protéines solubles de ce génome. Une étude plus récente a
conduit à des résultats similaires (Rychlewski et al. 1998). Enfin, une autre étude utilisant la
méthode PSI-Blast est arrivée à détecter pour 37 % des protéines de Mycoplasma
genitalium au moins un domaine de repliement commun avec une protéine de structure
connue (Huynen et al. 1998).
2.4 La paillasse après l’analyse in silico
Après l’obtention des génomes et leur analyse préliminaire, il reste encore beaucoup à
apprendre sur leurs composants génétiques et surtout sur le fonctionnement général de
l’organisme. Deux approches permettent de combler partiellement ces trous dans la
connaissance des systèmes génétiques : l’analyse de l’expression génique et la protéomique.
Ces deux approches sont complémentaires puisque l'une analyse la partie qui correspond à la
transcription et l’autre la partie qui correspond à la traduction (Figure 2.5). Les deux sont
des approches qui se veulent à "haut débit", puisqu’il s’agit d’analyser des génomes entiers
dans un délai court.
Génome
(ADN)
Transcrip to me
(ARNm)
Pro té ome
(pro té ines)
Figure 2.5 - Les différents niveaux d'étude de la génomique post-séquençage.
22
2.4.1 Analyse de l’expression génique à grande échelle
L'analyse quantitative à grande échelle de l’expression génique connaît actuellement
un grand bouleversement provoqué par l’arrivée de méthodes capables de détecter
simultanément l'expression de dizaines de milliers de gènes différents (Gerhold et al. 1999).
L’approche générale est basée sur l’utilisation de matrices d'ADN comme
cibles
d’hybridation d’une sonde préparée à partir de l'ARNm cellulaire (Figure 2.6). La sonde est
produite par transcription reverse de l'ARNm et étiquetage radioactif ou fluorescent. En
théorie la technique est quantitative, l'intensité du signal étant une fonction croissante de la
quantité d'ARNm présent dans la cellule. La technique permet ainsi la mesure simultanée de
l’abondance de chaque espèce présente sur la matrice et en conséquence des niveaux
d’expression des gènes correspondants (Granjeaud et al. 1999). En pratique, néanmoins, la
quantification soulève de nombreux problèmes.
Lignée cellulaire
(ARNm)
librairies d'ADNc
hybridati on
Echantillon
Analyse des données
Corrections et normalisation
Liaison à la connaissance
génomique
Cibles
Figure 2.6 – Schéma de l'analyse du transcriptome par moyen des techniques d'hybridation.
Il faut que l’hybridation soit réalisée en conditions de grand excès de cible et la mesure
de l'information doit être faite en phase initiale d’hybridation. Dans ces conditions la
cinétique est approximativement linéaire et autorise la quantification (Nguyen et al. 1995).
Pendant l’expérience, seule une petite partie des sondes s'hybride à une cible donnée. Le
taux de couverture d'une cible à la fin d'une expérience typique est de l’ordre de 1 %
(Granjeaud et al. 1999). En conséquence, les intensités de signal sont assez faibles, ce qui
implique l'utilisation de détecteurs très sensibles. Simultanément plusieurs artefacts doivent
être éliminés, par exemple l'hybridation non spécifique due à des répétitions ou à des
séquences de poly-A (Nguyen et al. 1995).
Il y a actuellement quatre systèmes différents de matrices, qui diffèrent au niveau du
matériel, de la sensibilité, de la densité de cibles et du coût. Dans les membranes à haute
densité, des colonies d'ADNc sont régulièrement espacées de 1 à 2 mm. La détection est
réalisée au moyen de sondes radioactives. Les microarrays de nylon constituent un
développement plus récent des membranes à haute densité. En raison de leur petite taille, ils
permettent des mesures plus sensibles. Ces deux systèmes sont relativement peu coûteux,
mais leur limite de détection est relativement modeste (Granjeaud et al. 1999). Les
microarrays de verre constituent probablement le système le plus connu. Dans ce cas, les
23
spots d'ADNc sont déposés sur une lame de verre et hybridés avec des sondes étiquetées par
fluorescence (Graves 1999). La haute résolution de la détection optique permet un
espacement réduit entre spots (300 µm ou moins). On est ainsi arrivé à placer 5000
gènes/cm2 (Granjeaud et al. 1999), ce qui permet l’analyse d’un grand nombre de gènes en
une
seule
expérience.
Les
chips
d'oligonucléotides
contiennent
des
milliers
d'oligonucléotides différents sur un petit chip de verre ou silicium. Les oligonucléotides sont
synthétisés in situ par des réactions photochimiques et suivant une technologie de masquage
similaire à celle utilisée dans la manufacture des microprocesseurs (Granjeaud et al. 1999).
La limite de détection de cette technique est trois fois meilleure que celle des microarrays de
verre, cependant elle exige des échantillons et des volumes d’hybridation plus importants.
2.4.2 La protéomique
La protéomique est l’étude de l'ensemble des protéines exprimées dans une cellule à un
instant donnée dans le dessein d'obtenir une vision globale des processus cellulaires. Cette
thématique est de très grande importance pour déterminer les fonctions des protéines codées
par le génome, leurs interactions, et comment leur concentration varie en fonction des
conditions environnementales et de développement. Puisque par similarité des séquences, il
y a trop de gènes auxquels nous ne savons pas attribuer de fonction, la protéomique
complète l'approche in silico. De plus, les relations entre protéines et les phénotypes sont
encore trop mal comprises pour être traités exclusivement par l’analyse informatique
(Blackstock & Weir 1999).
La protéomique est basée sur l’analyse de gels d’électrophorèse 2D (Figure 2.7), qui
constitue la façon la plus performante de séparer des mélanges complexes de protéines.
Cette technique est aujourd’hui très reproductible et l’utilisation de colorants fluorescents
permet la visualisation et la quantification de milliers de protéines simultanément
(Blackstock & Weir 1999). Néanmoins, il reste encore des problèmes importants à
résoudre. Les protéines insolubles (comme les protéines membranaires) ne sont pas
facilement analysables par cette méthode. En raison du chevauchement des spots, les
protéines très exprimées cachent parfois d’autres protéines plus faiblement exprimées.
Ainsi, la technique donne encore des résultats modestes pour les protéines présentes à moins
de 1000 copies par cellule (Rabilloud et al. 1997). Il a également été suggéré que près d'un
quart de tous les spots d’un gel correspondent à des modifications des mêmes protéines, ce
qui complique sérieusement l'analyse (Cellis & al 1995). Les logiciels existants sont aussi
limitants puisqu’ils demandent de 1 à 8 heures d’édition manuelle par gel (Blackstock &
Weir 1999).
Mais le principal problème réside dans l’identification des spots à l’aide des banques
d'EST et de la spectrométrie de masse. Le poids moléculaire de la protéine est en soi
insuffisant pour permettre l'identification univoque des spots. En conséquence, la plupart des
méthodes utilisent une protéolyse préalable et identifient les divers peptides à l’aide d’une
24
analyse simultanée des banques de données et des spectres de masse (Courchesne et al.
1998). C’est probablement dans la liaison entre la spectrométrie de masse et la recherche
dans les banques que se feront les plus grandes avancées de cette méthode (Blackstock &
Weir 1999).
Electrophorèse
1D ou 2D
Digestion des
fragments
Spectroscopie
de masse
Recherche parmi
les EST
Identification
Figure 2.7- Démarche de la protéomique.
La protéomique peut être divisée en deux domaines principaux : l’analyse de
l’expression des protéines et l’identification de complexes protéiques. L’analyse de
l’expression est l’étude des changements globaux d’expression de protéines dans les tissus ou
organismes. Joignant le gel 2D et l’analyse d’image cette approche présente l’avantage de
déterminer de manière directe l’abondance de la protéine et la détection de modifications
post-traductionnelles (Blackstock & Weir 1999). Comme il a été suggéré que la corrélation
entre la concentration en ARNm et celle de la protéine associée est en réalité faible
(Anderson & Seilhamer 1997), il est souvent préférable de travailler au niveau des protéines,
même si l’automatisation des tâches n’est pas aussi avancée que dans le domaine des chips.
Par ailleurs, l’identification des interactions ou de la co-localisation cellulaire de protéines
associées peut aider significativement à la découverte de la fonction d'une protéine. C’est le
but principal de la deuxième thématique de la protéomique, où des techniques comme celle
du double hybride joueront probablement un rôle important (Blackstock & Weir 1999).
25
3. L'informatique et la génomique
L'énorme quantité d’information produite par les projets génomiques, ainsi que la
complexité des problèmes posés par son interprétation, ont rendu la bioinformatique tout à
fait indispensable.
En 1982 quand la base de données de l’EMBL a été créée, elle possédait quelques
milliers de paires de bases, en 1992 elle en contenait déjà 100 millions, au début de 1996,
650 millions et à la fin de 1999 elle en contient plus de trois millards (Figure 3.1). Une
tendance similaire est observable pour le nombre de génomes complets publiés. Le premier
génome bactérien a été publié en 1995 et, au moment de l’écriture de cette thèse, le
séquençage de 24 génomes bactériens est achevé et plus de 80 sont en cours. De plus le
séquençage du génome humain risque de provoquer une véritable avalanche de données. Ce
projet sera certainement suivi du séquençage des génomes de la souris, du riz, du maïs, etc.
L’informatique jouera nécessairement un rôle fondamental au cours de toutes les
étapes de la génomique. Ainsi, il faudra des algorithmes spécifiques pour faire l’assemblage de
séquences contenant beaucoup de motifs répétés (tels qu'en présente le génome humain), et
des programmes performants pour l’identification des régions codantes. Il faudra des
programmes pour l’analyse des données d’expression génique. Il faudra aussi développer des
bases de données spécifiques pour les génomes, mais aussi pour l’information biochimique et
les données d’expression. Finalement, il faudra développer des méthodes pour intégrer toute
cette
panoplie
d’informations
et
essayer
qu'entretiennent les objets génétiques.
26
d'en
déduire les
relations
complexes
Figure 3.1 - Croissance du nombre d’entrées des banques de données de 1980 jusqu’à 1998.
Après le séquençage, les analyses produiront de nouvelles connaissances et des
suggestions pour de nouvelles expériences. Pour y parvenir, l’identification des signaux, des
similarités et des relations entre les différents objets, restera fondamentale. D’un point de
vue pratique, il se pose un problème d’échelle, puisqu'une vision générale d’un génome est
impossible sur la base d'une simple analyse manuelle de la séquence. Mais il se pose surtout
un problème de sensibilité et de cohérence des résultats, qui ne pourra être résolu que par la
systématisation et la semi-automatisation des méthodes.
Dans cette thèse, nous nous occuperons seulement de l’analyse des séquences déjà
assemblées, stockées et annotées, même de manière élémentaire (i.e. identification des
gènes). En conséquence notre description de la bioinformatique démarre en aval de la phase
d’annotation (Figure 3.2).
Séquençage
Annotation
Intégration
Acquisition des données
Assemblage
Stockage des données
Identification des objets
Relations entre objets
Stockage des données
Relations taxonomiques
Relations fonctionnelles
Stockage des données
Figure 3.2 - Description succincte de la démarche de la génomique.
On divise donc le "post-séquençage" en deux phases distinctes. La première phase
concerne l’identification des objets et des relations simples entre eux (par exemple la liaison
entre gènes et signaux de régulation). La deuxième phase concerne des thématiques comme
l’analyse des réseaux métaboliques, des grands réseaux de régulation ou la mise en évidence
de relations phylogénétiques complexes.
3.1 L’identification d’objets et de relations simples
On rencontre souvent l'idée que la génomique consiste simplement à décrire les gènes
des organismes vivants. Cette idée est liée à une conception atomiste de la génétique héritée
27
de Mendel (Depew & Weber 1995). Le but de cette thèse est de montrer que le génome
représente en réalité beaucoup plus que cela. Néanmoins, l’identification des gènes reste le
souci premier de la phase d’annotation. Elle comprend la description des gènes (localisation)
ainsi que l’assignation d'une fonction putative. L’identification des gènes est probablement
la plus automatisée des procédures d’annotation (Lukashin & Borodovsky 1998) (Salzberg et
al. 1998a). En ce qui concerne les procaryotes, les résultats sont souvent très satisfaisants
(Frishman et al. 1998).
La méthode la plus simple pour repérer les gènes consiste simplement à trouver des
phases ouvertes de lecture (ORF) longues, i.e. des régions entre deux stops en phase, de
longueur statistiquement improbable. Cette méthode, un peu naïve, élimine tous les gènes de
petite taille (< 300 pb). Elle constitue néanmoins un bon point de départ pour les analyses
plus fines. Une autre méthode combine la détection des longues ORFs avec les signaux
nécessaires à la traduction, en particulier le site de fixation du ribosome (RBS) (Hannenhalli
et al. 1999). Une méthode un peu plus fine consiste dans la comparaison du contenu G+C de
la troisième position (GC3) de la phase ouverte de lecture avec la distribution habituelle dans
les gènes.
Un raffinement important de la méthode GC3 consiste à analyser l’usage de codons ou
d’oligonucléotides dans l’ORF afin de la comparer à celui d’un gène typique de l’organisme.
Ce concept est à l’origine de GeneMark (Borodovsky et al. 1994) et de Glimmer (Salzberg et
al. 1998a). Ces deux logiciels utilisent un modèle de Markov ou un de ses dérivés pour
trouver les segments de la séquence qui présentent un comportement statistique similaire à
celui des régions codantes. Ces techniques utilisent la connaissance préalable de l'usage des
oligonucléotides l’organisme étudié. Cet a priori ne constitue pas normalement un grand
problème, puisqu'il existe toujours quelques gènes de l'organisme qui sont déjà connus. Ces
gènes peuvent ainsi être utilisés pour définir une première description de l'usage des
oligonucléotides chez l'organisme. La discrimination entre les phases ouvertes codantes et
les autres est facilitée chez les organismes procaryotes par le fait que ces organismes ne
possèdent normalement pas d'introns. Les phases ouvertes sont donc généralement assez
grandes et permettent une discrimination statistique plus satisfaisante.
L'identification des gènes est facilitée quand il existe des homologues dans les banques
de séquences. Ces analyses sont typiquement réalisées avec outils de la famille Blast ou Fast,
qui permettent de cribler les banques de séquences à la recherche de séquences similaires
(Altschul et al. 1997).
Finalement, la meilleure des méthodes est celle qui les combines toutes. Ce type de
stratégies complexes a été introduit dans les logiciels d’annotation et d'analyse tels que
Imagene (Médigue et al. 1999) ou Magpie (Gaasterland & Sensen 1996). En prenant
Imagene comme exemple, la stratégie d'identification des gènes débute par l’identification
des longues ORFs et leur classement sur la base de l'existence d'un RBS en amont du gène.
Ensuite on utilise GeneMark ou Glimmer pour sélectionner les ORFs qui utilisent les
28
oligonucléotides de façon typique. Finalement, les résultats de Blast permettent de
confirmer les résultats (Médigue et al. 1999).
Il n’y a pas que les gènes qui intéressent les chercheurs. D'autres objets, comme les
RBS, les promoteurs, les terminateurs ou certaines combinaisons d'objets sont aussi très
importants. Les opérons peuvent à la fois être considérés comme des objets ou comme des
combinaisons d’objets liés par une fonction commune (les gènes) ou régulatrice (e.g. les
promoteurs et terminateurs de transcription). Malheureusement, l'identification automatique
d’opérons est encore très peu efficace.
3.2 Relations et intégration des connaissances
À partir de l’identification des objets et de leurs relations simples, l’étude de relations
à des niveaux plus élevés devient possible. L'exemple des réseaux de régulation génétique
constitue le cas le plus flagrant de ce type de relations. Cependant il ne peut être résolu en
profondeur que par l’intégration des données génétiques avec les données métaboliques
(Bono et al. 1998). Compte tenu de l’énorme complexité des réseaux métaboliques, la
découverte de ce type de "supra relations" prendra certainement plusieurs années.
L’utilisation intégrée des connaissances génétiques, biochimiques et celles qui résultent
des analyses à "haut débit" esquissées dans le chapitre précédent exigera des bases de données
dont la représentation sera orientée sur les problèmes biologiques, ainsi que de puissants
moteurs de recherche dans les données génomiques, expérimentales et bibliographiques.
3.3 Un bref état de l'art des recherches par similarité
Les méthodes bioinformatiques d'analyse de séquences font l’objet de plusieurs
ouvrages, chacun donnant plus de relief aux approches préférées des auteurs (Waterman
1995) (Gusfield 1997) (Durbin et al. 1998). Dans ce chapitre, nous donnerons un bref
aperçu des méthodes les plus courantes. Dans des chapitres 10 à 12, nous aborderons plus en
détail les méthodes employées dans cette thèse.
3.3.1 La recherche de similarités deux à deux
La recherche de similarité entre deux séquences est une tâche très commune en
analyse de séquences. Ceci passe généralement par l’alignement des deux séquences (ou de
leurs sous-séquences), et par la vérification que l'alignement obtenu est statistiquement
significatif. Quand on cherche à mettre en évidence que deux séquences possèdent un ancêtre
commun
(homologues),
on
considère
non
seulement
les
mutations
ponctuelles
(substitutions), mais aussi la possibilité d’insertions et de délétions (indels). Ainsi, les
questions clés de la recherche par similarité sont : (i) le type d’alignement ; (ii) le système
de scores pour pondérer les opérations d'édition ; (iii) l’algorithme pour trouver
l’alignement optimal ; (iv) les méthodes statistiques d’évaluation de la qualité de
l’alignement. Dans ce qui suit nous allons brièvement discuter les points (i), (iii) et (iv). Des
29
discussions sur les systèmes de scores peuvent être trouvées ailleurs (Dayhoff et al. 1978)
(Karlin & Altschul 1993) (Henikoff & Henikoff 1993) (Vingron & Waterman 1994). Les
algorithmes d’alignement sont tous basés sur l'utilisation de la programmation dynamique
(Apostolico & Giancarlo 1998).
3.3.1.1 L'alignement global
L’algorithme de Needleman-Wunsch fournit le meilleur alignement global entre deux
séquences (Needleman & Wunsch 1970). L'algorithme reflète la nature récurrente de la
définition de la ressemblance.
Le principe de l'algorithme consiste à calculer les scores maximaux d'alignements
entre tous les préfixes de u et de v. On note : ui=u1u2…ui et vi=v1v2…vi les préfixes de u et
de v de taille i (u0=v0=0), Fi,j le score maximal de l'alignement entre ui et vj, s(ui, vi) le score
du match de ui avec vi, d le coût d'une insertion ou délétion.
Par convention, F 0,0=0. F i,0 est le score maximal de l'alignement d'une séquence de
longueur i avec la chaîne vide, donc il est égal a i.d. On a donc Fi,0= F0,i = i.d.
Considérons maintenant un alignement de score maximal entre u i et vj. Cet
alignement doit nécessairement se terminer par :
ui 
v  ,
 j
ui 
 −  , ou
 
−
v 
 j
Dans le premier cas, les paires précédentes de l'alignement constituent nécessairement
un alignement optimal entre u i-1 et vj-1. Dans les deux autres cas, les paires précédentes de
l'alignement constituent un alignement optimal de u i-1 et vj (respectivement u i et vj-1). Le
score maximal d'un alignement entre ui et vj peut donc s'exprimer comme :
 F(i − 1, j − 1) + s(ui , v j )

F(i, j ) = max  F(i − 1, j ) − d
 F(i, j − 1) + d

Cette équation récursive est utilisée pour construire F, en calculant la valeur de chaque
cellule de la matrice à partir des trois cellules adjacentes, comme décrit dans le schéma
suivant.
F(i-1,j-1)
F(i,j-1)
-d
s(ui,vi)
F(i-1,j)
-d
F(i,j)
A mesure que l'on construit la matrice, on garde un pointeur dans chaque cellule vers
la cellule qui a été à l'origine de son score (Figure 3.3).
30
0
2
C
3
G
4
T
5
A
6
C
7
G
8
T
-3 5
-2 0 ←- 3 0
-1 5 ←-2 5
↑
-2 0
-3 0
↑
-2 0
-3 5
↑
↑
-1 0
↓
↑
↑
-1 5
↑
↑
-2 0
↓
-2 5
↑
-3 5
- 5 ←- 1 5
-2 5
↑
-5 0
-2 0
-1 5
↑
C
↓
-1 5
↑
-2 5
↓
-1 0
↑
-4 0
↓
- 5 5 ←- 6 5
- 2 0 ← -3 0 ←- 4 0 ←-5 0
↑
G
↓
↓
↑
-1 5
↓
-2 0
↑
-3 0
-2 0
↑
T
-1 0
↑
-5
- 1 5 ←- 2 5 ←- 3 5 ←- 4 5
↑
-2 0
-1 5
↑
A
-5
↑
-1 0
↑
G
↑
↓
↑
↓
↑
0 ←- 1 0 ←- 2 0 ←- 3 0 ←- 4 0 ←- 5 0 ←- 6 0 ←- 7 0 ←- 8 0
↑
0
1
A
-2 5
ACGTACGT
--G-ATGC
Figure 3.3 - Un exemple d'une matrice de programmation dynamique. Celle-ci représente l'alignement de
Needleman-Wunsch de ACGTACGT avec GATGC, en utilisant un score de match +5, un score de
mésappariement de -5 et un score de gap de -10.
La valeur de la cellule finale de la matrice correspond nécessairement au meilleur
score de l'alignement de u1...un à v1...vm. Pour trouver l'alignement lui-même il faut trouver
le chemin des choix qui ont été à l'origine de cette valeur finale. Pour ceci il suffit de suivre
les pointeurs que nous avons laissés dans chaque cellule au moment de la construction de la
matrice. Cette méthode est connue sous le nom de back tracking (Figure 3.3) et permet de
trouver l'alignement optimal. S'il y a d'autres ou si on veut des alignements sous-optimaux, il
faut changer un peu la procédure (Durbin et al. 1998).
3.3.1.2 Les alignements locaux
L'alignement global est utile pour comparer deux séquences homologues. Mais quand
les deux séquences n'ont que certains domaines en commun ou quand il est nécessaire
comparer une séquence avec toutes les entrées d'une banque génomique nous sommes plus
intéressés par le meilleur alignement local entre sous séquences de u et v. La base des
alignements locaux est l’algorithme de Smith-Waterman (Smith & Waterman 1981). C'est
une modification de l’algorithme de Needleman-Wunsch, incluant deux changements
principaux. Par convention, affectons des scores positifs aux "matches" et négatifs aux
mésappariements et trous. Le problème est donc de maximiser le score de l’alignement. En
premier lieu, on ajoute une nouvelle possibilité dans le choix de la valeur de F(i, j) : si le
score est négatif on le force à zéro. C’est à dire que si le meilleur alignement jusqu’à la
position (i, j) aboutit à un score négatif on le stoppe et on recommence un nouvel
alignement local en cette position. La deuxième différence est une conséquence directe de la
première, l’alignement optimal ne part plus nécessairement de la cellule (n, m), mais de la
cellule de plus grand score, puisqu’elle contient la sous séquence maximale. Ainsi,
l’alignement local maximal est borné à gauche et à la droite par la première cellule
contenant un zéro (Smith & Waterman 1981).
31
Le problème de la programmation dynamique est que le nombre d'opérations à réaliser
croit comme le produit des longueurs des 2 séquences à comparer. Dans le cas du criblage de
banques, sauf utilisation de matériel spécifique, ceci conduit à des temps de calcul parfois
importants. Pour cette raison, des heuristiques ont été développées. Ces programmes sont
beaucoup plus rapides, mais au prix de la garantie d'optimalité de l’alignement. Le but des
heuristiques est la recherche de la fraction la plus petite possible des cellules de F, en évitant
de perdre tous les alignements de plus grand score.
Fast (Pearson & Lipman 1988) et surtout Blast (Altschul et al. 1990) sont les
familles de programmes les plus populaires dans cette catégorie. Blast (de Basic Local
Alignement Search Tool) est une méthode heuristique destinée à trouver les alignements
optimaux locaux de meilleurs scores entre la séquence requête et la banque (Altschul et al.
1990). L’idée sous-jacente à l’algorithme est que les bons alignements doivent contenir
quelque part des petits segments strictement identiques ou de score très important. Ces
éléments sont des graines où l’alignement est ancré et à partir desquelles il s'étend (Altschul
et al. 1990). L’algorithme initial de Blast ne permet ni d'insertions ni de délétions, mais il
est très rapide et il attribue une valeur statistique au score obtenu (Karlin & Altschul 1993).
L’algorithme initial a été modifié plusieurs fois pour répondre à différents besoins. Ainsi,
Blast2 est une version de Blast qui permet les insertions et les délétions (mais la statistique
n’est plus exacte) alors que Psi-Blast est une version qui construit des motifs à partir
d'alignements itératifs (Altschul et al. 1997). De plus, des filtres ont été conçus pour
éliminer les régions répétitives qui conduisent à des résultats statistiquement significatifs,
mais sans intérêt biologique (Claverie & States 1993).
3.3.2 Les alignements multiples
Pour caractériser les régions conservées dans les séquences, il est souvent plus efficace
d'utiliser plusieurs séquences et d'effectuer un alignement multiple. Cependant, la complexité
de l’algorithme de programmation dynamique empêche son utilisation à plusieurs séquences,
puisqu’il croit en O(Π ni) (Apostolico & Giancarlo 1998). Pour contourner ce problème,
plusieurs heuristiques ont été proposées, suivant des stratégies et algorithmes assez
différents. L’approche la plus populaire est basée sur l’alignement progressif des séquences,
où un alignement est construit de façon graduelle en alignant d'abord les séquences les plus
similaires et en ajoutant successivement les plus lointaines (Feng & Doolittle 1987). Ces
programmes utilisent tous la programmation dynamique pour construire l’alignement des
paires de séquences ou l'alignement d'une séquence contre un alignement préalable
(Thomson et al. 1999). Plusieurs programmes suivent ce principe, parmi lesquels le
populaire ClustalW (Thomson et al. 1994), qui utilise la méthode du "neighbour-joining"
(Saitou & Nei 1987) pour construire un arbre qui guide la construction de l’alignement
multiple. D’autres méthodes utilisent le maximum de vraisemblance pour la construction de
32
l’arbre de base (Thomson et al. 1999). Récemment sont apparues des méthodes basées sur
des stratégies itératives de raffinement d'un alignement initial, en utilisant soit des
alignements locaux par programmation dynamique (Morgenstern et al. 1996), soit des
alignements globaux par utilisation de chaînes de Markov cachés (Morgenstern et al. 1996)
ou des algorithmes génétiques (Notredame & Higgins 1996). Les algorithmes itératifs sont
capables d'une plus grande précision, mais ils sont plus gourmands en temps de calcul. La
nature heuristique de ces programmes recommande la prudence dans l’interprétation des
résultats et de préférence leur validation par l’utilisation de plusieurs programmes.
3.3.3 La recherche de motifs
Plusieurs méthodes ont été imaginées pour identifier des éléments fonctionnels en
utilisant leur conservation en séquence. La recherche de motifs conservés peut se faire à
partir d’alignements multiples par recherche de blocs conservés dans l’alignement ou
directement à partir de la séquence par des méthodes qui à la fois recherchent et déterminent
des consensus. Ces dernières méthodes sont à la base des techniques d'alignement multiple
"par blocs" (Sagot 1997).
3.3.3.1 Recherche à partir d'alignements multiples
Ces méthodes peuvent être classées sur la base de la technique de détermination des
régions conservées. Ainsi, on peut considérer quatre groupes : homogénéité des colonnes,
contenu informationnels des positions, concordance des relations phylogénétiques et
détermination de la plus grande séquence commune à moins d’un certain nombre de
mésappariements.
Ces méthodes
supposent
un alignement
multiple préalable. En
conséquence, l'utilisation de programmes d'alignement peut être déterminant dans le succès
de l'analyse.
Dans la méthode d'homogénéité de colonnes, chaque colonne de l'alignement multiple
est examinée indépendamment. La méthode repère les colonnes qui contiennent une lettre
majoritaire au-dessous d'un seuil minimal prédéfini (Stojanovic et al. 1999). Dans l'analyse
du contenu informationnel des positions, chaque colonne reçoit un score qui reflète son
contenu informationnel, c'est à dire son homogénéité. Ce score est basé sur la comparaison
des fréquences des lettres dans la colonne de l'alignement avec celles de tout l’alignement
(Stormo 1990). L'approche phylogénétique repose sur un système de score des colonnes
basé sur les relations évolutives entre les séquences de l’alignement. Ces relations sont
données par un arbre phylogénétique supplémentaire (Fitch 1971) (Stojanovic et al. 1999).
Les programmes basés sur le contenu informationnel et sur la phylogénie donnent
normalement les meilleurs résultats, mais réclament un calibrage préalable ou la
connaissance d'un arbre (Stojanovic et al. 1999). Parfois cette information est absente et
33
une technique basée sur la détection simultanée de la séquence centrale et des régions
d’occurrence devient intéressante (Stojanovic et al. 1999).
3.3.3.2 Recherche à partir des séquences
Parfois il n’est ni possible ni intéressant d’établir un alignement multiple préalable.
Ceci arrive quand les séquences ne s’alignent que sur la région d’intérêt ou quand il y a trop
de séquences pour faire un alignement multiple. Dans ces cas, des méthodes basées sur le
contenu informationnel des sites peuvent être utilisées pour simultanément décrire la
séquence du site et localiser son occurrence (Stormo & Hartzell 1989) (Lawrence & Reilly
1990) (Lawrence et al. 1993). Une des représentations les plus utilisés dans ce but est la
matrice des "positions pondérées" (ou matrice consensus). Dans sa forme la plus simple (et
la plus usuelle) il s'agit d'un tableau F à double entrée donnant pour chaque symbole b de
l'alphabet et chaque position j du site à représenter, la fréquence F bj du symbole en cette
position (Stormo & Hartzell 1989).
Une technique très populaire de recherche, d'une telle matrice, à partie d'un lot de
séquences non alignées, est celle du maximum de vraisemblance (Lawrence & Reilly 1990).
Formellement le problème posé est le suivant. Etant donné un ensemble de N séquences
(non-alignées) de taille L pour lequel on fait l'hypothèse qu'un site de taille k est présent au
moins une fois sur chaque séquence, le but est de trouver la "meilleure" matrice F
caractérisant le site et, incidemment, la position la plus probable du site sur chaque séquence.
La généralisation de la mesure d’information de (Stormo & Hartzell 1989) forme la
base de la méthode (Lawrence & Reilly 1990). Le site recherché est ainsi celui qui maximise
la valeur :
k
T
T
log( F ) = N ∑ ∑ fbj log e ( pbj ) + N ( L − k ) ∑ fb, 0 log e ( pb, 0 )
j =1 b = A
b= A
où pb,j est la probabilité des bases (inconnues) pour la position j du site ; fb,j est la fréquence
des bases observés dans la positon j du site. Les paramètres pb,0, fb,0 sont les équivalents pour
les positions en dehors du site. Dans un ensemble de N séquences de taille L et sites de taille
k, on possède N observations de chaque position du site et N(L-k) observations en dehors du
site. Ainsi, cette formule contient l’information sur le site et sur l’environnement. Si le site
contient une composition différente de la séquence alentour, cette information est exploitée
pour améliorer le maximum de vraisemblance.
34
3.4 Les statistiques sur les mots
3.4.1 Les contraintes génétiques
Le génome des bactéries est composé de contraintes spécifiques superposées, qui se
réfèrent à des phénomènes biologiques distincts (Trifonov 1989). Ce qui est normalement
appelé le code génétique n’est qu’un de ces codes, même si par son importance fonctionnelle
nous avons tendance à le considérer comme le seul. Associé à lui, il existe toute une série de
signaux qui servent à la régulation de la traduction (Rocha et al. 1999c). D’autres codes sont
définis pour les besoins du contrôle de la transcription, incluant les promoteurs, opérateurs,
terminateurs ou anti-terminateurs (Plat 1998). La réplication présente également des codes
spécifiques comme les boîtes dnaA qui régulent le début de la réplication chez Escherichia
coli ou Bacillus subtilis (Ogasawara & Yoshikawa 1992). La recombinaison chez
Escherichia coli impose la sur-représentation de motifs particuliers (les motifs Chi) dans le
génome (Meyers & Stahl 1994). De plus, des éléments comme les systèmes de restriction
(Rocha et al. 1998) ou l’insertion de phages (Kunst et al. 1997), imposent des biais et des
contraintes supplémentaires dans la séquence.
En conséquence, dans chaque morceau de texte génomique se superposent plusieurs
contraintes différentes, dont certaines ne sont même pas constituées par des mots de
longueur et séquence précise. Ces contraintes ne sont pas indépendantes les unes des autres
puisqu’elles partagent le même espace de codage (Trifonov 1989). De plus, l’information
codée est utilisée de façon intégrée dans le fonctionnement de la cellule. Puisque la cellule
doit fonctionner de façon cohérente, il faut que la cohabitation de ces contraintes soit aussi
la moins conflictuelle possible.
L’analyse d’un génome complet du point de vue des mots doit donc débuter par
l’identification des objets correspondants à chacun des niveaux d’intérêt : traduction,
transcription, etc. Ensuite l’analyse peut se poursuivre en considérant les différents niveaux
en présence. Puisqu’en chaque région agissent des contraintes spécifiques qui interagissent
entre elles, les mots ont une signification contingente et l’analyse devient intrinsèquement
contextuelle. C’est par exemple le cas de la séquence de Shine-Dalgarno qui est présente un
peu partout, mais ne prend son sens de site de fixation du ribosome qu'au début des gènes,
parce qu’elle est à côté d’un codon de début de traduction (Vellanoweth & Rabinowitz 1992)
(de Smit 1998) (Rocha et al. 1999c).
La méthodologie de recherche doit prendre en compte le fait que, pour des
contraintes différentes, les mots pertinents sont de nature différente, soit par leur taille, soit
par le fait que quelques-uns sont exacts, que d’autres admettent des variations de séquence
autour d'un consensus et enfin que d’autres ne sont définis que par la structure de l'ARN
associé.
35
3.4.2 L’approche Markovienne
L’analyse des mots exacts est basée sur celle du contraste entre le nombre observé
d'occurrences du mot dans le texte génomique (ou d’un sous-ensemble de celui-ci), et la
valeur attendue suivant un modèle. Ainsi, la définition de l'ensemble de séquences à analyser
et la définition des modèles comparatifs constituent les points les plus délicats de l’analyse.
La question de la définition des échantillons d’analyse sera discutée dans le chapitre 10,
ensuite nous traiterons du problème des modèles statistiques.
Parmi les méthodes proposées pour analyser les biais associés aux fréquences des
mots, les méthodes basées sur les chaînes de Markov occupent une place privilégiée
(Trifonov 1989) (Karlin & Brendel 1992) (Leung et al. 1996). Le succès de ces méthodes
s'explique par leur base statistique précise, leur comportement stochastique bien étudié, leur
implémentation simple et la relative facilité d'interprétation des résultats. Ces modèles
comparent les compositions des mots d'une certaine taille de l'ADN avec des chaînes de
caractères aléatoires qui contiennent les mêmes fréquences de mots de taille inférieure.
Supposons, par exemple, que nous soyons intéressés par l'analyse de la fréquence d'un mot
donné (e.g. TTAA). Le but de l'analyse est de révéler des possibles contraintes sélectives sur
ce mot en analysant sa sur ou sous représentation. Naturellement le biais est relatif à une
idée préalable du modèle de construction de la séquence. On peut supposer que la séquence
est conditionnée par l'usage des nucléotides. Dans ce cas, la normalisation de la fréquence de
TTAA sera faite par rapport à la fréquence relative de T et A (modèle de Markov d'ordre
0). Si T et A sont très abondants, on s'attend à trouver un nombre élevé de TTAA. La
question est donc de savoir si la fréquence relative des nucléotides justifie la fréquence de
TTAA. Si oui, la fréquence du mot est non biaisée, sinon, le mot est présent avec une
fréquence inattendue. Alternativement on pourrait supposer que le facteur déterminant est
la fréquence des dinucléotides (modèle de Markov d'ordre 1). Dans ce cas, la normalisation
serait faite par rapport à TT, TA et AA. En utilisant les statistiques dérivées des modèles de
Markov nous pouvons établir des intervalles de confiance pour les fréquences normalisées et
déterminer si le mot est biaisé ou non.
Chaque modèle de Markov d'un ordre donné contient implicitement le modèle
inférieur. Ainsi, le modèle qui normalise la fréquence par rapport aux dinucléotides contient
de façon implicite la normalisation de la fréquence par rapport aux nucléotides. Un cas
particulier est celui des chaînes de Markov d'ordre maximal. Dans ce cas, la normalisation
est faite par rapport aux sous-mots les plus grands contenus dans le mot à analyser. Dans
notre exemple précédent (TTAA), il s'agirait des trinucléotides TTA et ATT (modèle de
Markov d'ordre 2). Le cas maximal considère donc l'influence des fréquences relatives de
tout type de sous-mots contenus dans le mot à analyser. En conséquence il est le modèle de
choix pour analyser le biais d’un mot strict, i.e. d'un mot qui peut être à l'origine d'un signal
non dégénéré.
36
Plusieurs auteurs se sont intéressés au problème de l'estimation des intervalles de
confiance des fréquences normalisées. Les premières approches ont porté sur l'utilisation de
chaînes de Markov d’ordre zéro, ce qui revient à soustraire le biais au niveau des
mononucléotides (Nussinov 1981). Dans ce cas, les sous-mots sont indépendants et la
solution passe par l'utilisation du test du χ 2. Ces travaux ont permis précisément de
démontrer que les biais au niveau des nucléotides ne suffisaient pas pour expliquer les biais
des mots de plus grande taille. La principale difficulté statistique de la méthode consiste à
déterminer la variance de la fréquence attendue. Celle-ci à été déterminée exactement pour
les chaînes de Markov d'ordre 1 (Kleffe & Borodovsky 1992), mais la formule est très
complexe et sa généralisation aux ordres supérieurs n’a pas encore été établie. En 1995 est
apparue une formule asymptotique simple pour le cas de chaînes de Markov maximales,
valable pour de longues séquences (Schbath 1995). Nous y reviendrons dans le chapitre 10.
3.4.3 Les modèles, les hypothèses et les limitations
Une démarche importante dans ce travail a été de prendre en compte d’une façon
explicite le problème des contextes, en définissant des sous-ensembles de données aux
caractéristiques homogènes. Ainsi, les analyses des biais d’oligonucléotides dans les génomes
démarrent par la division des données en classes, comme les séquences des gènes, les
séquences des brins précoces, les séquences des brins tardifs, les prophages, etc. Seule la
division des ensembles en sous-ensembles homogènes par rapport
aux phénomènes
biologiques étudiés permet l'interprétation simple des résultats. Cependant, comme les
phénomènes et les contraintes ne sont pas indépendants, cette approche n'autorise qu’une
simplification relative de l’analyse. Comme toujours, l’analyse et l'interprétation statistique
des résultats dépendent en dernière instance du chercheur.
Cette approche présente également des limitations qu’il nous faut expliciter avant de
discuter les travaux réalisés. Sous certaines hypothèses admises a priori (biologiques et
statistiques), les mots significativement biaisés constituent des violations au modèle sousjacent, et en conséquence ont une signification concrète, au moins du point de vue
phénoménologique. Néanmoins, certains mots peuvent être significatifs du point de vue
biologique et pourtant ne pas être détectés par la méthode, simplement parce qu'ils ne sont
pas biaisés. Ceci arrive en cas de forte dépendance contextuelle d’un motif, lui-même
faiblement décrit en séquence. Un signal très dégénéré peut ne pas être détecté, parce que
son taux de comptage est dilué dans un très grand nombre de mots exacts, produisant chacun
de faibles biais. Dans ce cas, le biais important appartient au groupe de mots et échappe
donc à l’approche Markovienne. Dans ce cas, les approches utilisant des matrices de
fréquences comme celle de Lawrence, décrite plus haut, sont plus appropriées.
37
3.4.4 Les répétitions longues
L'étude des répétitions est fondamentale pour la compréhension de la dynamique et de
l'évolution des génomes. Les outils mentionnés dans les paragraphes précédents sont très
intéressants pour trouver des signaux de petite taille (typiquement jusqu'à 7 ou 8
nucléotides), mais deviennent insuffisants quand il s'agit de trouver les répétitions longues
dans les génomes. Dans la recherche de répétitions, nous nous sommes intéressés aux
séquences répétées de taille importante. "Importante" signifie ici "exceptionnelle" et à
nouveau nécessite l'introduction d'un modèle statistique (dans ce cas, un modèle stochastique
provenant de la théorie des extrêmes (Karlin & Ost 1985)). La question n'est plus de savoir
si le mot répété a une probabilité élevée de l'être par chance seulement, mais plutôt de
savoir quelle est la taille du mot le plus grand attendu par hasard. Cette taille est ensuite
utilisée pour définir un seuil de longueur minimale significative. Les répétitions plus longues
que ce seuil sont statistiquement significatives et auront peut-être une signification
biologique pertinente. Pour des mots stricts chez les bactéries, ce seuil est de l'ordre de 22 à
26 nucléotides (Rocha et al. 1999a) (la valeur exacte dépend de la composition et de la taille
du génome). Ces valeurs sont proches des valeurs minimales de similarité stricte nécessaires
à initier la recombinaison chez Escherichia coli (~20 nt (Watt et al. 1985)) et Bacillus
subtilis (~24 nt (Roberts & Cohan 1993)). Puisque toutes les répétitions strictes que nous
retrouvons sont capables de servir de support à la recombinaison homologue, nous avons
ainsi un outil précieux pour étudier la dynamique du génome. Nous reviendrons sur ce thème
dans le chapitre 11.
38
L'organisation des chromosomes
39
4. Sur l’organisation des génomes bactériens
4.1 Des "sacs de gènes" aux génomes
Mendel a découvert les lois de l’hérédité qui portent son nom en se basant sur
l’analyse de sept locus indépendants dans le petit pois. Le fait que leurs phénotypes soient
directs et facilement identifiables a beaucoup influencé notre compréhension de l’hérédité.
Les approches expérimentales de l'hérédité reposent souvent sur l'indépendance entre
caractères, constaté par Mendel, même si cette hypothèse simplificatrice a été remise en
question très tôt dans l’histoire de la génétique. Au début du siècle, G. Yule a émis la théorie
d'une conjugaison du Mendelisme avec le Darwinisme. Dans son modèle, les deux théories
devenaient compatibles et mutuellement nécessaires, lorsque beaucoup "d’unités d’hérédité"
sont requises pour déterminer la plupart des caractéristiques sélectionnées (Depew & Weber
1995). Vers 1915 la cartographie génétique de la drosophile par le laboratoire de Morgan a
montré que Yule avait raison. Par la suite, il est devenu évident qu’un seul gène peut agir sur
plusieurs caractéristiques phénotypiques (pléiotropie). La relation entre gènes et phénotypes
n’est donc pas de "un vers un", ni même de "un vers plusieurs", mais plutôt de "plusieurs
vers plusieurs" (Li 1997).
La régulation coordonnée de l’expression de différents gènes a rajouté un niveau
supplémentaire de complexité à la génétique. En particulier, le modèle de l’opéron de Jacob
et Monod (Jacob & Monod 1961) a permis l’établissement de relations entre la physiologie
microbienne et l’expression génétique. Puisque le déclenchement du programme génétique
n’est réalisé que dans certaines conditions, le génome ne peut plus être considéré comme un
"sac de gènes". La vision du génome a donc évolué vers la notion de réseaux de gènes qui
répondent de façon complexe aux stimuli de l’environnement. Ainsi le génome est devenu
un ensemble de programmes qui se déclenchent par réponse à l’environnement, dans un
réseau de relations génétiques qui peut devenir très complexe. Les recherches récentes dans
40
le domaine du développement ont démontré que ces relations obéissent également à des
séquences temporelles très précises (Palmeirim et al. 1997). L’introduction de la notion de
programme implique un niveau supplémentaire de sélection, puisque des changements dans le
déroulement du programme peuvent entraîner de lourdes conséquences (Rutherford &
Lindquist 1998). Nous avons donc parcouru un long chemin depuis les petits pois de Mendel.
La découverte des éléments génétiques mobiles a bouleversé les paradigmes sur la
stabilité génomique (McClintock 1950). Les changements produits dans les chromosomes
par ces éléments, comme les inversions, multiplications ou délétions, produisent parfois des
changements phénotypiques brutaux (Syvanen 1998). C’est la découverte du rôle majeur des
transposons et des séquences d’insertions dans l’évolution moléculaire qui est à l’origine de
la théorie du "gène égoïste" (Dawkins 1976). La version la plus controversée de cette
théorie fait des génomes une espèce de champ de bataille pour des gènes qui ont comme
fonction
évolutive
fondamentale
leur
propre
multiplication
(Dawkins
1976).
Indépendamment de sa généralisation à l'ensemble des gènes, il est clair que la découverte des
séquences d’insertion a ouvert un niveau de sélection situé au-dessous de l’organisme (Orgel
& Crick 1980) (Doolittle & Sapienza 1980). Nous reviendrons sur ce sujet dans le chapitre
9, à propos du rôle évolutif des systèmes de restriction.
Depuis le début de la révolution moléculaire, on a identifié chez tous les organismes
des capacités de génie génétique autonome (Shapiro 1999). Les bactéries sont capables de
faire de la recombinaison entre segments d'ADN homologues, d’intégrer de l'ADN exogène
par transformation et de le passer à d’autres cellules par conjugaison (Matic 1995). Il y a
dans les génomes toute une panoplie d’éléments capables de se déplacer dans le
chromosome, tels que les transposons, les séquences d’insertion et les phages (Chandler
1998). Même les éléments clés du génome, comme les copies multiples des ARNr,
constituent des cibles privilégiées pour la recombinaison (Hill & Harnish 1981) (Gürtler
1999). De plus, les déterminants de résistance aux antibiotiques et les facteurs de virulence
peuvent s’intégrer de façon spécifique dans des cassettes présentes dans les plasmides, les
transposons ou les chromosomes (Groisman & Ochman 1997) (Mazel et al. 1998).
Au moment de l'émergence de la génomique notre conception des génomes comme
dépôt de l’information génétique avait déjà beaucoup changé. Néanmoins, l’apparition des
génomes complets a rajouté quelques éléments importants. En particulier, la complétude de
l’information
issue du séquençage permet
l’étude approfondie
de l’ensemble
de
l’information génétique.
4.2 Le principe du voisinage
L’exploration des interactions entre les objets génétiques peut se faire par l’analyse de
l’organisation des génomes. Exprimée dans ces termes, l’exploration des génomes revient a
analyser les voisinages des séquences. Le concept de voisinage est à prendre dans un sens
assez large, puisqu’il s’agit de l’identification d’objets qui partagent un espace donné. Ceci
41
inclut le voisinage physique, comme dans les liaisons entre promoteur et gène, mais aussi des
voisinages beaucoup plus flous, qui dérivent du réseau intriqué de relations fonctionnelles
dans les cellules.
La recherche de voisinages en fonction d’une caractéristique ou d'une propriété peut
se révéler une méthode puissante pour l'identification des rôles d’un gène dans la cellule
(Nitschke et al. 1998). La recherche de voisinages consiste alors à rassembler des objets
proches à l’intérieur d’un même espace de caractéristiques. La proximité physique sur le
chromosome est probablement la caractéristique la plus étudiée à cause de l’organisation des
gènes au sein d’opérons, de régulons complexes (Collado-Vides 1989) ou d'îlots de virulence
(Finlay & Falkow 1997). L’exemple le plus évident est le cas des gènes codant les protéines
ribosomales. Dans pratiquement toutes les bactéries, ces gènes sont rassemblés en opérons,
fréquemment suivant le même arrangement (Schmidt 1998). De plus, dans plusieurs
bactéries, ces gènes sont groupés au voisinage de l’origine de réplication en copies multiples
et sur le brin de réplication précoce (Schmidt 1998). La présence de cette organisation est
souvent corrélée à de fortes vitesses de croissance en phase exponentielle chez l'organisme
en question. En raison de leur importance et de leur complexité en termes de structure et
d'interaction avec d’autres éléments, ces gènes sont souvent très conservés dans l'évolution
(Woese et al. 1990). Les gènes qui interagissent avec les ribosomes au cours de la traduction
sont également très conservés parmi les bactéries. Eux aussi sont souvent proches de
l’origine de réplication et agrégés en opérons stables (Itoh et al. 1999). Ils partagent ainsi
une proximité physique, fonctionnelle et évolutive avec les ribosomes.
On peut mieux comprendre l’organisation du génome en explorant la proximité entre
gènes dans d'autres espaces. Un exemple en est l’espace de similarité en séquence entre les
gènes ou les protéines (Smith & Waterman 1981) (Altschul et al. 1990) (Tatusov &
Koonin 1997). La création de familles de paralogues ou d'orthologues constitue une
implémentation typique de cette idée. Paralogues et orthologues sont des voisins
phylogénétiques, liés par une origine commune (orthologues) et parfois par des domaines
d’activité ou de structure communs (paralogues).
Les modules fonctionnels constituent un autre cas de voisinage intéressant (Riley &
Labedan 1997). La fonction des gènes peut être suggérée par l’analyse des domaines de
fusion de protéines dans les organismes où ces modules constituent des gènes indépendants
(Overbeek et al. 1999) (Marcotte et al. 1999) (Enright et al. 1999). La très nombreuse
famille des transporteurs ABC est exemplaire de ce point de vue (Tomii & Kanehisa 1998).
Les gènes des trois unités de base des transporteurs ne sont pas toujours ensemble
physiquement (ni même proches), mais leurs produits arrivent à se rassembler correctement
dans l’unité fonctionnelle (Quentin et al. 1999).
Le point isoélectrique d'une protéine peut être un indice précieux du compartiment où
la protéine fonctionne. En conséquence les voisins isoélectriques ont souvent des
caractéristiques fonctionnelles ou architecturales en commun (Moszer et al. 1995).
42
Des voisinages plus complexes produisent parfois des résultats surprenants. Les gènes
peuvent être voisins parce qu’ils utilisent le code de la même façon. C’est grâce à ceci que
l’on a pu, par exemple, identifier les gènes de provenance allogène chez Escherichia coli et
Bacillus subtilis (Médigue et al. 1991) (Kunst et al. 1997) (Moszer 1998). Cette approche a
clairement montré que chez Bacillus subtilis ces gènes sont fréquemment agrégés en régions
(Kunst et al. 1997). De plus, plusieurs de ces régions partagent souvent encore un autre
voisinage, elles sont flanquées par des répétitions longues (Rocha et al. 1999a). C’est la
conjonction de ces deux voisinages qui nous a conduit à la proposition d’un mécanisme
intégratif du type Campbell chez Bacillus subtilis (chapitre 8).
Finalement, les publications scientifiques présentent des travaux sur des gènes et les
chercheurs associent souvent les noms des gènes au sein des mêmes phrases. Ainsi, les
voisinages dans la littérature scientifique peuvent révéler des relations entre objets (Nitschke
et al. 1998).
A travers l'utilisation systématique de l'idée de voisinage nous discutons, dans l’article
qui suit, quelques modèles de base pour l’organisation des génomes bactériens. En particulier,
nous essayons d’établir des relations entre la structure physique du chromosome et
l’organisation des activités cellulaires, l’architecture de la cellule, sa dynamique et son
évolution.
Publication II
Rocha EPC et al. (2000), Implication of gene distribution in the bacterial chromosome for
the bacterial cell factory, J. Biotechnology, 78: 209-219
4.3 L’importance des échantillons
La méthodologie statistique utilisée dans la publication suivante est exposée au
chapitre 10. Pour l’appliquer de manière biologiquement pertinente il a fallu construire des
ensembles de données spécifiques, définis de façon à expliciter les variables biologiques. En
particulier, nous avons considéré les quatre mécanismes fondamentaux suivants.
Réplication - La réplication bactérienne peut être divisée en trois phases bien
distinctes qui sont le début, l’élongation et la terminaison. Le début et la fin du processus
sont régulés par des signaux qui occupent une petite fraction du génome. Cette
caractéristique rend ces deux phases moins intéressantes pour une analyse globale du
génome. En revanche, la majorité du chromosome est répliquée durant la phase
d’allongement (chapitre 5), qui divise le chromosome en un brin précoce et un autre tardif.
43
Traduction
- L'analyse de la
distribution
des bases dans les gènes est
traditionnellement l’aspect le plus étudié des biais liés à la traduction. Ces biais dus à l’usage
du code et aux signaux spécifiques de la traduction (voir chapitre 6).
Contrôle - Le contrôle de l’expression génétique a lieu essentiellement au niveau de
la transcription et de la traduction. Les signaux liés à ces mécanismes se chevauchent de
façon complexe dans les régions intergéniques, ce qui rend leur analyse et leur discrimination
compliquées. Notre incapacité relative à définir précisément les opérons augmente encore
cette difficulté. Ainsi, l’analyse ne permet généralement pas de discriminer des mots qui
agissent sur l'un ou l'autre de ces deux niveaux.
Défense - La question de la fréquence et la distribution des sites de restriction a été
souvent abordée dans la littérature (Sharp 1986) (Churchill et al. 1990) (Burge et al. 1992).
Sa popularité est due à l’importance accordée à ces sites dans la construction de cartes
physiques et dans le génie génétique (Churchill et al. 1990). Pendant longtemps, les
systèmes de restriction ont été considérés comme le plus important mécanisme de
protection des bactéries contre l’invasion d'ADN allogène (Arber 1965) (Sharp 1986)
(Redaschi & Bickle 1996). Les résultats de l'étude préliminaire que nous développons dans la
publication suivante remettent en question cette théorie et vont nous amener à des études
plus approfondies (chapitre 9). A la suite de cette étude nous inclinerons vers une
proposition alternative, proposée par I. Kobayashi et basée sur le comportement "égoïste"
des systèmes de restriction (Naito et al. 1995) (Kobayashi 1998).
Après la délimitation des principales questions biologiques, il a fallu définir les
ensembles de données sur lesquelles porteront les analyses. Nous considérerons ici sept
ensembles.
• Chromosome simple brin - c’est le chromosome publié (texte linéaire).
• Chromosome symétrisé - c’est le résultat de la concaténation des deux chaînes du
chromosome. À cause de sa taille double, les comptages sont divisés par 2. Par
construction, les comptages d'un mot et de son complémentaire inversé sont
identiques. Quand le génome complet n’est pas disponible, l’orientation des contigs
est aussi inconnue et la symétrisation devient nécessaire. Pour un génome complet,
cet ensemble sert à vérifier si les résultats obtenus sur une chaîne simple brin sont
représentatifs ou non des deux brins.
• Brin précoce et brin tardif - le brin précoce est constitué par les deux séquences qui
correspondent aux deux moitiés du chromosome répliquées de façon continue. Le brin
tardif correspond aux deux moitiés du chromosome qui sont répliquées de façon
discontinue. Le brin tardif est donc le complémentaire inversé du brin précoce et seule
l'analyse d'un des deux est nécessaire.
• Gènes, régions intergéniques et phages
44
Publication III
Rocha, E. P. C., Viari, A., Danchin, A. (1998) Oligonucleotide bias in Bacillus subtilis:
general trends and taxonomic comparisons. Nucl. Acids Res. 26: 2971-2980.
4.4 Quelques perspectives
Puisque le génome contient l’information nécessaire à la vie de la cellule, l'analyse de
la distribution des mots devrait permettre la reconnaissance de signaux impliqués dans les
principaux processus cellulaires. Notre découpage des données en ensembles homogènes a
constitué un pas dans cette direction. La comparaison croisée de ces résultats avec ceux
d’autres organismes modèles sera probablement instructive. Cette comparaison pourrait
permettre d'identifier les signaux à fonction générale (signaux ubiquistes), ou, inversement,
pourrait être utilisée pour l’identification de spécificités taxonomiques.
Les études décrites dans l’article précédent ont servi de point de départ à notre travail
ultérieur. Ainsi l’utilisation des polarogrammes et des "GC skews" a attiré notre attention
sur le problème des biais de brin. Ceci sera exploré au cours du chapitre 5. Nous observerons
que ces biais sont très forts chez plusieurs espèces, qu’ils sont visibles au niveau des codons et
des aminoacides et, ce qui est peut être le plus important, qu’ils sont qualitativement
toujours les mêmes entre les différentes espèces.
L’analyse du contraste entre les biais de mots dans les gènes et les régions
intergéniques a été développée au cours du travail sur la traduction chez Bacillus subtilis
(chapitre 6). Les résultats concernant les régions allogènes, présentés initialement comme
d'éventuels prophages (Kunst et al. 1997), seront partiellement re-interprétés dans le
contexte du transfert horizontal (chapitre 8). Enfin, la jonction de ces derniers résultats et
des résultats de la recherche de longs mots répétés a abouti à un modèle d’insertion
d’information non homologue chez Bacillus subtilis.
45
5. Les biais liés à la réplication
En 1950, Chargaff a énoncé la célèbre règle d’équivalence A=T et G=C dans l’ADN
double brin (Chargaff 1950). Cette règle a ouvert la voie à la proposition de Watson et
Crick concernant la structure en double hélice de l’ADN (Watson & Crick 1953).
Néanmoins, Chargaff a aussi observé que cette règle s’appliquait également à l’ADN simple
brin (Lin & Chargaff 1967). Cela n’est pas une conséquence évidente de la structure
proposée par Watson et Crick. La deuxième règle de parité (PR2) de Chargaff ne peut être
comprise que dans le contexte de l’évolution moléculaire. En l’absence de biais spécifique
d'un brin, i.e. quand mutation et sélection ont les mêmes effets sur les deux brins de l’ADN,
la matrice de transitions est symétrique et la parité est garantie (Sueoka 1993). Ainsi, dans
un contexte de mutagenèse symétrique la deuxième règle est une conséquence de la première
(Lobry 1995). Par contre, s'il existe des processus mutationnels différents sur chaque brin, la
PR2 n’est plus respectée.
Il y a deux façons différentes et complémentaires d’étudier et de détecter les biais de
brin. L'une consiste à étudier directement les transitions entre gènes homologues, l’autre est
indirecte et passe par la détection d’asymétries dans les séquences génomiques. Dans la
première méthode, les asymétries sont détectées à travers l’estimation des matrices de
substitution et par comparaison avec les fréquences de substitutions complémentaires
(Francino et al. 1996). La deuxième méthode consiste à analyser des déviations à la parité
A=T et C=G dans les textes génomiques (Lobry 1996a), par des méthodes graphiques
appelées AT et GC skews. Plusieurs mesures de skews ont été proposées dans la littérature
(Karlin 1999). La plupart de ces mesures sont basées sur le rapport (C-G)/(C+G) (Lobry
1996a). Les GC skews constituent une mesure indirecte du biais, mais permettent l’analyse
visuelle de grandes séquences.
46
L’analyse du génome complet de Bacillus subtilis, qui présente de forts biais de
réplication, est à l’origine de notre intérêt pour cette question (Kunst et al. 1997). En 1998,
McInerney a montré dans un travail basé sur l'analyse factorielle des correspondances
(AFC), l’énorme influence de ces biais dans l’usage des codons chez Borrelia burgdorferi
(McInerney 1998). Cependant, McInerney n’avait pas pu identifier de biais semblables dans
les autres organismes. Ceci a été à l'origine des études que nous décrirons ensuite, dont le but
initial était de confirmer et d’étendre ce résultat. L’AFC n’est pas la meilleure méthode
pour l’identification de variables discriminantes entre les deux brins. Par contre, l’analyse
discriminante linéaire (ADL) a permis de résoudre efficacement cette question. Cette
méthode permet l’identification des variables discriminantes et leur influence relative dans
la discrimination (voir chapitre 12). Notre travail a révélé que ces biais sont très répandus
chez les eubactéries et sont également présents chez certaines archaebactéries. Ces biais sont
présents au niveau des nucléotides, des codons et des aminoacides. De plus, quand ils
existent, sont toujours de même nature.
5.1 La réplication chez les Bactéries
Les connaissances sur la réplication chez les archaebactéries sont encore très
incomplètes (Edgell & Doolittle 1997a) (Lopez et al. 1999). C'est pourquoi, dans ce qui suit,
nous allons nous concentrer essentiellement sur les eubactéries.
Les facteurs qui déclenchent la réplication sont assez mal connus (Vinella & D'Ari
1995). Néanmoins, nous connaissons le processus moléculaire de démarrage de la réplication
avec un certain niveau de détail, au moins chez Escherichia coli et Bacillus subtilis (Marians
1992) (Yoshikawa & Wake 1993). Ainsi, la réplication du chromosome bactérien débute au
niveau d’une séquence spécifique, l’OriC chez Escherichia coli. Cette séquence présente une
taille minimale de 245 pb et semble bien conservée entre les différentes bactéries (Burland et
al. 1993) (Ogasawara & Yoshikawa 1992). Cette séquence est la cible d’attachement de la
protéine DnaA (Marians 1992). Elle présente plusieurs motifs palindromiques qui sont
utilisés comme cibles pour la Dam-methylase (sites GATC) (Ogasawara & Yoshikawa 1992).
Après le démarrage du processus, deux fourches de réplication avancent en sens opposés
jusqu’à leur rencontre au niveau du terminus (Figure 5.1) (Yoshikawa & Wake 1993). Dans
les cellules en croissance exponentielle, le démarrage de la réplication prend place dans les
chromosomes naissants sans attendre la terminaison. En conséquence la cellule peut
posséder plusieurs fourches de réplication simultanées.
47
portion d'ADN
non répliquéé
emplacement de l'origine
de réplication
brin matrice
brin tardif
5'
3'
3'
5'
brin précoce
amorces d'ARN des
fragments d'Okasaki
Figure 5.1 - Schéma du début de réplication chez les eubactéries (d'après (Lewin 1995)).
La fourche de réplication contient quatre éléments principaux : l’ADN polymérase,
l’ADN hélicase, la primase et les protéines de déstabilisation de l’hélice. L'ADN polymérase
est requise pour la synthèse du nouveau brin et n’est processive que dans le sens 5’→ 3’. En
conséquence un des brins, le brin précoce, est synthétisé de façon continue (au moins in
vitro). En revanche, l’autre brin (le brin tardif) est synthétisé de façon discontinue par
morceaux d’environ 2 kb (les fragments d’Okasaki) (Marians 1992). La primase est requise
pour le démarrage de la production des fragments d’Okasaki sur le brin tardif. Les amorces
d’ARN synthétisées par la primase ont environ 10 nucléotides de longueur et sont excisées à
la fin de chaque cycle (Marians 1992). Les protéines de déstabilisation de l’hélice ont pour
fonction de protéger l’ADN simple brin qui constitue la matrice de la chaîne tardive (Figure
5.2).
Figure 5.2 - Schéma général des fourches de réplication chez les eubactéries (d'après (Lewin 1995)).
Chez Escherichia coli le même complexe d’ADN polymérase est utilisé pour la
synthèse de tous les fragments d’Okasaki d’une ronde de réplication (Marians 1992)
(Yuzhakov et al. 1996). L’ADN polymérase du brin précoce reste simplement attachée à la
séquence est réplique l’ADN. Par contre la polymérase du brin tardif doit réaliser des cycles
48
de polymérisation. Premièrement elle réplique un fragment d’Okasaki, ensuite elle
abandonne la séquence et saute jusqu’au site de l'amorce suivante pour recommencer un
nouveau cycle. L’ADN qui sert de modèle au brin tardif est ainsi dans l’état simple brin
pendant beaucoup plus de temps. Les deux domaines de la polymérase sont structurellement
identiques et l’inversion des rôles (i.e. le changement des deux brins dans les deux domaines),
ne modifie pas leur efficacité (Pinder et al. 1998). L’asymétrie dans le mécanisme des deux
domaines (domaine précoce et domaine tardif) est due à l’action de l’hélicase sur le brin
précoce (Pinder et al. 1998). En conséquence, les asymétries du mécanisme peuvent être à
la base des caractéristiques mutationnelles différentes. Nous reviendrons sur ce sujet dans la
discussion de l’article suivant.
La terminaison de la réplication passe par l’arrêt des fourches de réplication. Ceci à
lieu dans des régions qui contiennent des séquences spécifiques (le site ter). L’interaction
d'une protéine de terminaison avec le site ter arrête les fourches de réplication en perturbant
l’action de l’hélicase (Bussiere & Bastia 1999). Les sites ter sont situés à peu près à 180º de
l’origine, avec néanmoins de légères fluctuations, comme chez Bacillus subtilis, où le
terminus est unique et se situe à 172º (Yoshikawa & Wake 1993) (Kunst et al. 1997). Ce
système précis de terminaison n’est pas strictement nécessaire puisque les souches de
Bacillus subtilis sans site ter parviennent à se répliquer et sporuler correctement (Yoshikawa
& Wake 1993). La séparation des deux copies du chromosome est faite par recombinaison,
mais le mécanisme exact n’est pas encore complètement connu (Wake & Errington 1995)
(Woldringh et al. 1995). Plusieurs travaux récents commencent à lever le voile sur le
problème de la ségrégation correcte des deux chromosomes (Wu & Errington 1998) (Jacobs
& Shapiro 1999). Néanmoins, il reste encore beaucoup à découvrir, notamment en ce qui
concerne la division asymétrique des chromosomes au moment de la sporulation (Lin &
Grossman 1998) (Bouché & Pichoff 1998).
5.2 Les travaux expérimentaux de détection d’asymétries
Les travaux expérimentaux sur l’asymétrie des mutations sont difficiles en raison du
faible taux de mutations chez les eubactéries (de l’ordre de 10
-9
à 10
-10
-1
pb ) (Drake et al.
1998). De plus, les difficultés expérimentales empêchent de pouvoir tester une quantité
statistiquement acceptable de sites. Ainsi, il n’est pas surprenant d'observer que les
conclusions des premiers travaux sur les asymétries de la réplication (Wu & Maeda 1987),
ont été rejetées à la suite d’analyses plus détaillées (Bulmer 1991b). Kunkel et coll. ont
étudié les mutations asymétriques dans les cellules humaines, mais l’existence de plusieurs
types d’ADN polymérase chez les eucaryotes rend les comparaisons difficiles (Izuta et al.
1995). D'autres études réalisées chez Escherichia coli ont utilisé des plasmides qui se
répliquent de façon unidirectionnelle (Trinh & Sinden 1991) (Sinden et al. 1999). Ces études
ont révélé une plus grande mutagenèse des éléments possédant des structures secondaires
dans le brin tardif (Sinden et al. 1999).
49
L’étude d'Iwaki et coll. est un peu plus proche des conditions naturelles, malgré
l’utilisation du plasmide ColE1 qui se réplique de façon unidirectionnelle (Iwaki & al 1996).
La détection des taux d’erreur de la réplication avant la correction des erreurs a été rendue
possible par l’utilisation d’une souche sans activité exonucléolytique. Les résultats montrent
que les fréquences de changement de cadre de lecture et de mutations ponctuelles sont 10 à
100 fois supérieures sur le brin tardif. Cependant Fijalkowska et coll. sont parvenus au
résultat contraire à la suite d'une expérience similaire au niveau du chromosome
(Fijalkowska et al. 1998). Cette étude a été réalisée sur le chromosome de Escherichia coli
en utilisant les fréquences de réversion de lacZ, sur les deux brins. Les auteurs ont utilisé une
souche de Escherichia coli sans système de proofreading ni correction de mésappariements
pour détecter les biais dûs uniquement à la réplication. Ils ont trouvé que la mutagenèse est
significativement plus faible sur le brin tardif (Fijalkowska et al. 1998). Nous reviendrons au
modèle proposé dans cet article au cours de la discussion de notre publication.
Il a également été proposé que les asymétries entre les brins soient dûes à la
réparation après transcription (transcription coupled repair) (Francino et al. 1996). Cette
dernière étude n’a pas détecté d’asymétries mutationnelles significatives entre le brin tardif
et le brin précoce, mais elle a identifié un excès de mutations C → T dans le brin codant par
rapport au brin non codant. Après les études de Fijalkowsa et Iwako c’était là le seul résultat
manquant pour jeter la confusion totale dans le domaine ! Néanmoins, ces conclusions sont
basées sur l’analyse de quelques dizaines de mutations parmi seulement six gènes du génome
d'Escherichia coli. Francino et Ochman ont ensuite observé que la corrélation entre le biais
de brin et le nombre de gènes fortement exprimés renforçait leur hypothèse (Francino &
Ochman 1999). Nous discuterons plus tard l’apparente incompatibilité entre nos données et
cette hypothèse.
5.3 Les GC skews
Au contraire des travaux expérimentaux, les résultats des analyses des "GC skews"
sont assez cohérents (Lobry 1996a) (Kunst et al. 1997) (Grigoriev 1998) (Karlin 1999).
L’analyse du rapport (G-C)/(G+C) (le GC skew) sur des fenêtres glissantes le long du
chromosome a permis l’identification d'asymétries assez importantes chez Escherichia coli,
Bacillus subtilis, Haemophilus influenzae et Mycoplasma genitalium (Lobry 1996a) (Lobry
1996b). Ces asymétries sont plus fortes en troisième position des codons et dans les régions
intergéniques. Ces biais changent de signe à l’origine de réplication et au terminus, il a donc
paru évident qu’ils devaient avoir leur origine dans le mécanisme asymétrique de réplication
chez les bactéries (Figure 5.3).
50
0,1 5
GCSkew
0,1 0
0,0 5
-0,00
-0,05
-0,10
-0,15
-0,20
0
1 000
2 00 0
posi tion
3000
4000
Figure 5.3 - Le GC skew au cours du chromosome de Bacillus subtilis. Les inversions du skew ont lieu aux
régions de l'origine de réplication (à 0 kb) et du terminus (à 2 000 kb).
Plusieurs variantes de la méthode, sans grandes différences conceptuelles, sont
apparues à la suite de la publication initiale de J. Lobry (Grigoriev 1998) (Freeman et al.
1998) (Cebrat et al. 1999). En fait, le biais GC est devenu la technique standard pour
déterminer l'origine de réplication chez les bactéries complètement
séquencées (e.g.
(Andersson et al. 1998) (Fraser et al. 1998)). Par exemple, il avait été proposé que la
réplication du chromosome linéaire de Borrelia burgdorferi débute aux extrémités du
chromosome et progresse vers le centre (Casjens 1998). Les GC skews ont révélé une très
forte asymétrie dans la région centrale, indiquant donc une origine de réplication située, en
fait, au centre du chromosome. Cette hypothèse a ensuite été confirmée
expérimentalement
(Picardeau et al. 1999).
L’analyse du très curieux génome de Borrelia burgdorferi a renouvelé les études sur le
biais associé à la réplication, en y ajoutant l’usage des codons et des aminoacides. J. Lobry
avait initialement abordé ce sujet dans le contexte de l’analyse de profils d'hydrophobicité
avec une méthode d’analyse discriminante des correspondances (Perrière et al. 1996).
Cependant le résultat spectaculaire qui a relancé ce sujet (et notre intérêt) a été l’analyse
par
McInerney des différentes fréquences de codons entre les gènes des deux brins du
chromosome
de Borrelia burgdorferi (McInerney
1998).
L’analyse factorielle
des
correspondances est utilisée classiquement pour étudier l'usage du code dans les gènes, et, en
particulier, pour mettre en évidence des groupes de gènes d'expression différente et/ou
d'origine allogène. Ceci aboutit typiquement à une classification en trois classes qui
correspondent aux gènes fortement
exprimés en croissance exponentielle,
aux gènes
transférés horizontalement et aux autres gènes. Néanmoins, l’analyse du chromosome de
Borrelia burgdorferi n’a révélé que deux classes très nettement séparées. L’analyse des
gènes présents dans les deux classes montre que ces deux groupes correspondent en réalité
aux gènes des deux brins réplicatifs (Figure 5.4). Ainsi, chez Borrelia burgdorferi le premier
facteur de discrimination entre les gènes est simplement leur orientation par rapport à la
réplication. En d'autres termes, cette orientation conditionne l'usage du code chez cette
bactérie de manière plus importante que le niveau d'expression.
51
0,7
0,6
0,5
axis-2 7.7%
0,8
0,4
ttt
tt c
0,3
tt g
0,2
agt
tgt
tct
0,1
0,0
gtt
0,1
agg
0,2
ggt
0,3
tat
tta
tcg
aat
tcc
att
gtg
cgg gat
aag
tgc
tc a
gtc
ctt
cat
ggg
cct act
ac
g
ggcccg
gag
cg c
aga
ca g gct
gcg
cga
tac
ctg
agc
ata
cta
atc
aa a
aac
ctc
ccc
ac c
gta
gcc
gaacca gac
gga caa
gca
aca
cac
cgt
0,4
0,5
axis-1 25.4%
0,6
-0,7
-0,6
-0,5
-0,4
-0,3
-0,2
-0,1
-0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Figure 5.4 - Les deux premiers axes factoriels de l’usage du code chez Borrelia burgdorferi. Les points
correspondent aux gènes et les boîtes aux codons (caractères). Le premier axe représente 25,4 % de l’inertie et
correspond à la séparation des gènes suivant les deux brins réplicatifs (séparation des codons finissant par T
ou G et codons finissant par C ou A).
L’analyse factorielle des correspondances autorise la superposition des caractères et
des individus sur la même figure. Dans le cas des analyses de l’usage du code les caractères
sont les 61 codons et les individus sont les gènes. La visualisation simultanée des deux
ensembles révèle bien le contraste entre les deux brins (Figure 5.5). Ainsi, les gènes du brin
précoce sont riches en codons qui se terminent par T
et G, alors que les gènes du brin tardif
utilisent préférentiellement A et C. Ceci correspond également au biais observé dans les
génomes de Haemophilus influenzae, Escherichia coli et Bacillus subtilis (Lobry 1996a)
(Kunst et al. 1997). Les résultats présentés dans l’article de ce chapitre indiquent de façon
très claire un biais qualitativement identique dans tous les génomes qui présentent un biais.
Dans tous les cas le contraste observé oppose les bases céto aux bases amino (Rocha et al.
1999d).
52
0,7
0,6
0,5
axis-2 7.7%
0,8
+
0,4
F
ttt
-
ttc
0,3
ttg
tt a
tat
0,2
tcg
ag t
tgt
0,1
0,1
cgg
gtg
aag
gtt
0,2
R
0,3
G
ggt
gag
cag
gcg
aat
tcc
ctt
cat
cct acg
act
ggc
ccg
aga
gc t
cgc
Y
N
C
V
gat
ggg
agg
L
at t
tct
0,0
S
K
D gta
tgc
tc a
I
gtc
A
E
tac
ccc P
gcc
gga
Q
atc
at a
aaa
cca
aac
ctc
T
acc
ga a
caa
gc a
cta
ctg
agc
aca
ga c
cac
H
cga
cgt
0,4
0,5
axis-1 25.4%
0,6
-0,7
-0,6
-0,5
-0,4
-0,3
-0,2
-0,1
-0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Figure 5.5 - Contraste dans l’usage du code entre les deux brins de Borrelia burgdorferi. Des lignes lient les
codons qui codent pour le même aminoacide. Des ellipses représentent l'enveloppe du nuage des points (cf
Figure 5.4).
Publication IV
Rocha, E. P. C., Danchin, A., Viari, A. (1999) Universal replication bias in bacteria. Mol.
Microbiol. 32: 11-16
5.4 La non-ubiquité des biais
Notre analyse démontre que le biais associé aux brins de réplication est
présent dans la
plupart des eubactéries et chez plusieurs archaebactéries. Ceci est un peu inattendu, puisque
les archaebactéries possèdent une machinerie de réplication plus proche de celle des
eucaryotes que des eubactéries (Doolittle & Logdson 1998). Le biais présent dans les
différents organismes présente des amplitudes très différentes, depuis un faible biais chez
Escherichia coli, jusqu’au biais violent de Borrelia burgdorferi. Nous pensons
que le biais est
probablement plus faible dans les génomes qui subissent du transfert horizontal fréquent
et/ou qui sont fréquemment remaniés.
Notre méthode ne révèle pas de biais significatifs chez la plupart des archaebactéries.
Les Mycoplasmes constituent une autre exception par la faiblesse de leur biais. Plusieurs
éléments importants de la machinerie de correction d’erreurs sont absents
53
de ces organismes
(Himmelreich et al. 1997). Il est donc séduisant d'associer l'existence d'un biais
asymétrique de ces mécanismes de correction dans les autres
à l’utilisation
organismes. Par contre, le biais
est totalement absent chez Synechocystis spp. L’absence d’autres génomes séquencés de
cyanobactéries et la méconnaissance de leur mécanisme de réplication rendent difficile
l’interprétation de ces résultats. Nous reviendrons sur ce thème dans le chapitre 8.
Ainsi il y a au moins trois raisons différentes qui expliquent l’absence d’ubiquité du
biais. (1) Certains mécanismes de réplication peuvent ne pas induire de biais. (2) L’absence
de certains mécanismes de correction d’erreurs peut éliminer les asymétries. (3) Les
remaniements chromosomiques trop fréquents empêchent l’établissement du biais.
5.5 L’universalité des biais
Nous donnons à l’expression universalité un sens différent de celui d’ubiquité. Nos
observations suggèrent une similarité qualitative des biais dans tous les organismes qui les
présentent, puisque dans tous les cas observés les variables les plus discriminantes sont les
mêmes. C'est vrai pour n’importe quel
ensemble de variables de discrimination (nucléotides,
codons ou aminoacides) et suggère donc une origine commune pour les biais. Cette origine
est associée à des processus présents partout dans l’arbre de la vie.
L’analyse discriminante linéaire permet de déterminer l'importance relative des
variables discriminantes. Les variables les plus discriminantes sont celles qui contribuent de
façon la plus importante au biais. En termes de nucléotides,
le biais prépondérant est G dans
le brin précoce contre C dans le brin tardif. A et T apparaissent parfois également, ce qui
indique que la règle générale est sur-représentation de bases céto dans le brin précoce et de
bases amino dans le brin tardif. Par ailleurs, l’analyse de la fréquence des nucléotides dans
chaque position du codon indique l’utilisation contrastée de G3 dans le brin précoce contre
C3 dans le brin tardif. Ce résultat n'est pas étonnant compte tenu du fait que la position
moins contrainte dans les codons est la troisième. Les contrastes entre G et C à la position
1
des codons et entre A et T sont compatibles avec le contraste général amino contre céto.
La discrimination utilisant les fréquences des codons produit des résultats plus
complexes. Certains codons sont systématiquement contrastés, tel que GGT dans le brin
précoce et ACC dans le brin tardif. Les codons sur-représentés dans le brin précoce se
terminent évidemment par G ou T alors que ceux du brin tardif se terminent par A ou C,
pour toutes les espèces sauf Methanobacterium thermoautotrophicum. Ce biais général est
en accord avec les contrastes portant sur les nucléotides.
L’utilisation des fréquences des aminoacides montre que le biais est très fort à ce
niveau aussi. Par exemple chez Borrelia burgdorferi, la seule connaissance de la séquence
protéique permet de prédire l'orientation du gène qui code pour cette protéine,
par rapport à
la réplication, avec 96 % de taux de succès. Certains aminoacides jouent un rôle plus
important dans la discrimination. En particulier, la Valine est toujours la
plus fortement sur-
représentée dans le brin précoce, accompagnée fréquemment par l'Alanine, l'Arginine et la
54
Glycine. Dans le brin tardif, ce rôle est joué surtout par la Thréonine, accompagné par la
Leucine, l'Isoleucine, et l'Histidine (voir Tableau 1 de la publication précédente). La
mutation d’un codon valine (GTN)
vers un codon thréonine (ACN) ne peut pas se faire en
moins de deux étapes. Ainsi, il est plus facile d'imaginer que le changement serait fait de
manière indirecte, par exemple de Valine vers Leucine (CTN) et puis vers Thréonine.
Malheureusement nous connaissons trop mal les fréquences de transitions entre codons,
pour arriver à modéliser de façon correcte les perturbations causées dans leurs fréquences
relatives par des changements du rapport C/G.
5.6 La superposition des biais
Les résultats de McInerney ont été initialement
interprétés
comme indiquant
l’absence de biais d’usage du code chez Borrelia burgdorferi (McInerney 1998) (Lafay et al.
1999). Cependant, le biais du code existe chez Borrelia burgdorferi et il est probablement
corrélé à l’expressivité comme chez les autres bactéries. C'est le fort biais de réplication
chez cet organisme qui interfère avec le biais de l’usage du code. Cette interférence est
tellement importante que l’AFC révèle le biais de réplication et non le biais de l’usage du
code. Il y a biais de codons dans chaque brin et ils sont à peu près les
biais du code entraîne toujours la sur-représentation
mêmes (Figure 5.6). Le
d'un sous-ensemble des codons
synonymes et il s'agit du même sous-ensemble dans les deux brins (souvent une paire). C'est
simplement le rapport des fréquences d'utilisation dans
cette paire qui change entre les deux
brins. Ainsi, le biais de réplication et le biais d’usage du code interfèrent et créent un biais
global d’usage des codons différent dans les deux brins.
leading (560 genes)
A
GCA 0.32
GCC 0.10
GCT 0.52
GCG 0.06
G
GGA 0.35
GGC 0.16
GGT 0.32
GGG 0.17
C
TGC 0.23
TGT 0.77
H
CA C 0.17
CA T 0.83
D
GAC 0.12
GAT 0.88
I
E
GAA 0.66
GAG 0.34
F
TTC 0.06
TTT 0.94
ATA 0.29
ATC 0.05
ATT 0.67
K
AAA 0.71
AAG 0.29
lagging (189 genes)
L
CTA
CTC
CTT
CTG
TT A
TTG
0. 04
0. 01
0. 32
0. 02
0. 40
0. 22
N
A AC 0. 10
A AT 0. 90
P
CCA 0. 30
CCC 0. 15
CCT 0. 50
CCG 0. 05
Q
CAA 0. 76
CAG 0. 24
R
A GA 0.61
A GG 0.23
CGA 0.05
CGC 0.03
CGT 0.07
CGG 0.01
S
A GC 0.11
A GT 0.22
TCA 0.19
TCC 0.04
T CT 0.40
TCG 0.04
T
A CA
A CC
A CT
A CG
V
GTA 0. 22
GTC 0. 03
GTT 0. 65
GTG 0. 10
A
GCA 0. 53
GCC 0. 13
GCT 0. 32
GCG 0. 03
G
GGA 0. 61
GGC0. 16
GGT 0. 13
GGG0. 11
Y
TA C 0. 12
TA T 0. 88
C
TGC 0. 56
TGT 0. 44
H
CAC 0. 39
CAT 0. 61
D
GAC 0. 33
GAT 0. 67
I
E
GAA 0. 88
GAG 0. 12
0.34
0.13
0.47
0.06
F
TTC 0. 18
TTT 0. 82
A TA 0. 49
A TC 0. 11
A TT 0. 40
K
A AA 0. 91
A AG 0. 09
L
CTA 0.17
CTC 0. 04
CT T 0. 25
CTG 0. 03
TTA 0. 41
TTG 0.10
N
A AC 0. 31
A AT 0. 69
P
CCA 0. 45
CCC 0.16
CCT 0. 35
CCG0. 04
Q
CAA 0. 91
CAG 0. 09
R
A GA 0. 77
A GG 0. 11
CGA 0. 05
CGC 0. 03
CGT 0. 02
CGG 0. 01
S
A GC 0. 20
A GT 0. 13
TCA 0. 33
TCC 0. 06
TCT 0. 25
TCG 0. 03
V
GTA 0. 45
GTC 0. 09
GTT 0. 37
GTG 0. 09
Y
TAC 0. 36
TAT 0. 64
T
A CA 0. 56
A CC 0. 13
A CT 0. 27
A CG 0. 04
Figure 5.6 - L’usage du code dans les gènes des deux brins réplicatifs de Borrelia burgdorferi.
5.7 Les théories et les résultats
Deux types différents de théories ont été proposés pour expliquer l’origine des
biais de
réplication. Dans les théories sélectives, on cherche l’identification de caractéristiques
sélectives à l’origine des biais. Dans les théories de dérive par mutation, l'accent est mis sur
la dérive neutre à partir d’asymétries induites au moment de la réplication.
55
5.7.1 Les hypothèses de biais par sélection
Dans cette catégorie, nous rencontrons surtout
représentation d’un mot présentant un
des théories qui lient les biais à la sur-
rôle biologique précis. Le site Chi d'Escherichia coli
a été proposé (Mrázek & Karlin 1998), mais on a du mal à comprendre comment un mot
qui occupe moins d’un pour cent du chromosome pourrait avoir un effet si radical sur le
biais. Salzberg et coll. ont identifié des mots de 7 nucléotides capables de discriminer
brins (Salzberg et al. 1998b), mais l’interprétation
les deux
du rôle biologique de ces mots reste
sujette à caution. En effet, il n’y a pas de rôle biologique évident pour ces mots et ils
occupent une fraction trop petite du chromosome pour expliquer de façon satisfaisante les
biais. De plus ils reflètent pour la plupart le biais nucléotidique.
Lopez et coll. ont relié l’abondance de mots de 4 nucléotides dans les génomes des
archaea avec les sites d’attachement de
la primase (Lopez et al. 1999). Il n’est pas du tout
clair que ces mots soient effectivement les principaux responsables du biais.
En revanche, ils
reflètent bien les contrastes entre les deux brins réplicatifs et ils ont un rôle biologique
(quoique hypothétique) clair.
5.7.2 Les hypothèses de biais par mutation
Nous avons décrit en haut la proposition de Francino et coll. sur la relation causale
entre les biais réplicatifs et le couplage entre transcription et réparation (Francino et al.
1996). Plus récemment les mêmes auteurs
ont rapporté une corrélation assez forte entre le
nombre de gènes à fort "codon adaptation index" (CAI 1 ) dans le brin précoce et le biais de
brin (Francino & Ochman 1999). Ceci renforce leur hypothèse de base, puisque les gènes
fortement exprimés sont probablement ceux qui sont plus réparés après transcription. À
notre avis cette hypothèse n’explique pas convenablement l’existence des biais réplicatifs,
ceci pour plusieurs raisons. Premièrement, nous avons observé que le
biais en nucléotides est
plus fort dans les régions intergéniques que dans les gènes. Même si une partie des régions
intergéniques est aussi transcrite, ce résultat est contraire à cette hypothèse.
Deuxièmement,
le CAI élevé est une mesure de forte expression dans la phase exponentielle de croissance,
mais seulement une petite partie des gènes sont significativement plus exprimés en phase
exponentielle (Tao et al. 1999). Cet ensemble de gènes, liés surtout
réduit pour expliquer l'importance du biais (chez les spirochètes,
à la traduction, est trop
par exemple, tous les gènes
sont biaisés). De plus ces gènes fortement exprimés sont généralement agrégés autour de
l’origine de réplication, or cette localisation n'est pas privilégiée en termes de biais de
réplication.
1
Le Codon Adaptation Index est une mesure de la proximité de l'usage des codons d'un gène par rapport
à un usage maximal. L'usage maximal est considéré par rapport à un ensemble de gènes fortement
exprimés dans la phase exponentielle (Sharp & Bulmer 1988).
56
Les indices de l'adaptation des codons des gènes à la concentration de ARNt, comme
le CAI, n'ont pas de sens dans les génomes aussi fortement biaisés que Borrelia burgdorferi,
puisque le biais perturbe le choix des meilleurs codons dans chaque brin. Ainsi, si l'on calcule
le CAI à partir des gènes de protéines ribosomiques (typiquement présents sur le brin
précoce), le CAI ne mesure que les codons préférés sur le brin précoce. A ce stade, le
raisonnement est circulaire, puisque les gènes avec le meilleur index seront nécessairement
ceux du brin précoce. Ainsi, de notre point de vue, l'interpretation de Francino
et coll. basée
sur la réparation après transcription n’explique pas de façon satisfaisante l’origine des biais
de brin.
Fijalkowska et coll. proposent que les biais réplicatifs soient dus aux différentes
processivités de la polymérase (Fijalkowska et al. 1998).
sont strictement symétriques, la
En effet, même si les polymérases
tendance à rester accrochée doit être assez différente pour
les polymérases agissant sur les deux brins réplicatifs. La polymérase sur le brin précoce est
toujours attachée à l’ADN, alors que polymérase sur le brin tardif a besoin de se détacher
constamment
(Yuzhakov et al. 1996). Chez Escherichia coli l’attachement
polymérase sur le brin précoce est 1000 fois plus importante
de la
(Marians 1992). La
polymérase sur le brin tardif, puisque moins solidement attachée à l’ADN, est plus
facilement dissociable au moment de la détection d’erreurs, laissant un
mésappariement libre
pour correction. En conséquence le brin tardif subirait un nombre moins important de
mutations pendant la réplication. Dans
le même ordre d'idées, puisque les trous dans l’ADN
sont nécessaires pour le système de réparation
de mésappariements, Radman propose que la
correction soit plus efficace sur le brin tardif (Radman 1998). Il suggère en revanche que la
polymérase du brin tardif soit plus rapide, pour compenser les délais dus au détachement et
au rattachement
et en conséquence qu'elle commettra plus d’erreurs (Radman 1998).
Puisqu’il n’y a pas de raison pour penser que ces deux sources d’erreurs se compensent
strictement, l’asymétrie s’installerait parmi les brins réplicatifs.
Les travaux précédents portent sur les mécanismes biochimiques qui peuvent être à
l’origine de l’asymétrie, mais pas sur les biais eux-mêmes. La théorie la plus acceptée pour
expliquer les biais est l’hypothèse de désamination de la cytosine (Frank & Lobry 1999).
L’asymétrie produite par la fourche de réplication implique que les brins passent des temps
différents dans l’état simple brin. L’ADN simple brin est plus vulnérable aux mutations
chimiques que l’ADN double brin (Drake et al. 1998). Les bases sont susceptibles de
désamination hydrolytique et la principale cible
5-méthyl-cytosine
est la cytosine et surtout son homologue la
(Lindahl 1993). La désamination de la cytosine
conduit à son
remplacement par l’uracile qui s'apparie avec l’adénine, créant ainsi une mutation C→T.
Expérimentalement, la cytosine se désamine 140 fois plus vite
dans un brin simple que dans
un double brin ce qui expliquerait que G.C→A.T domine le spectre de mutations chez
Escherichia coli (Echols & Goodman 1991).
La désamination C→T dans la matrice du brin
tardif augmente les fréquences relatives de G et de T dans le brin précoce et de A et de C
57
dans le brin tardif. La théorie de désamination asymétrique est donc compatible avec les
biais observés. Le problème de cette hypothèse est qu’elle indique que le biais entre G et C
devrait être quantitativement similaire au biais entre A et T, ce qui n’est pas le cas.
Ainsi, même si l’hypothèse de désamination semble assez solide, elle n’est pas tout à
fait satisfaisante, et d’autres études seront nécessaires pour dévoiler l’origine
du phénomène.
En attendant, force est de constater que ces études auront un impact non négligeable sur
notre vision de l’organisation du génome. Par exemple, l’utilisation de matrices de
substitution symétriques du genre PAM (Dayhoff et al. 1978), est susceptible d’introduire
des erreurs dans les analyses phylogénétiques si les gènes sont portés par des brins réplicatifs
différents ou s’ils proviennent d'organismes présentant des amplitudes très différentes de
biais réplicatifs. Dans un autre ordre d'idée, ces résultats sont aussi importants pour
l’utilisation de logiciels de détection de gènes tels que GeneMark (Borodovsky et al. 1994)
ou Glimmer (Salzberg et al. 1998a). Ces logiciels supposent souvent un usage du code
homogène, alors qu’ils devraient utiliser des matrices de transition adaptées aux différents
brins réplicatifs.
58
6. La traduction et ses biais
La traduction est le processus qui consomme le plus de ressources chez les bactéries
(Andersson & Kurland 1990). C’est aussi l'un des plus délicats, puisqu’il s’agit de réaliser le
passage de l’information (ADN transcrit en ARNm) à la fonction (les protéines). Ce n’est
certainement pas par hasard que la majorité des gènes les mieux conservés dans l’arbre du
vivant
sont liés à la traduction
(e.g. les protéines
ribosomiques et les facteurs
d'allongement).
Plusieurs objectifs étaient à l’origine de notre intérêt pour la traduction et ses biais.
Premièrement, nous voulions avoir une image la plus complète possible de ces biais. Les
nombreuses études d’analyse de séquences publiées sur la traduction sont restreintes dans leur
approche. À notre connaissance aucun de ces travaux
ne porte en même temps sur les trois
niveaux fondamentaux : démarrage, allongement et terminaison. Ces études se focalisent
soit sur la présence de signaux (e.g. RBS, codons start et stop), soit sur les biais de
distribution (e.g. le biais d’usage du code), soit sur les structures secondaires de l'ARN
messager. Notre but était donc d'étudier tous ces éléments en même temps pour parvenir à
une image plus intégrée du phénomène.
6.1 Le démarrage de la traduction
Chez les bactéries, la traduction débute par l’association de l'ARNm à la sous-unité
16S des ribosomes au niveau du ribosome binding site (RBS) et du codon initial. Le
complexe ainsi formé inclut aussi les facteurs de démarrage et le fMet-ARNtf (McCarthy &
Gualerzi 1990) (Figure 6.1). L’extrémité 3’ du 16S ARNr joue un rôle extrêmement
important dans le début de la synthèse des protéines, via son appariement au RBS du
messager (Barrick et al. 1994). L'emprisonnement du RBS dans une structure secondaire
d’ARNm, provoque une nette diminution, voire l’arrêt, de la traduction (Ganoza et al.
1987) (de Smit & Duin 1994) (de Smit 1998).
59
La
conservation
importante
des
structures des ribosomes, des séquences des
protéines ribosomiques et des facteurs de
démarrage, fait
penser
à
un
processus
similaire de démarrage chez Escherichia coli
et Bacillus subtilis (Vellanoweth
Néanmoins,
chez
Escherichia
1993).
coli,
la
protéine S1 aide à la liaison de l'ARNm et de
la sous-unité 16S, alors qu'elle est absente
chez Bacillus subtilis. En conséquence les
gènes de Bacillus subtilis ont des RBS plus
conservés
en
séquence (Vellanoweth
&
Rabinowitz 1992) (Vellanoweth 1993).
La conservation du consensus du RBS a
ainsi une importance
différentes
bactéries.
variable chez les
La
force
de
l’interaction entre le RBS et le ribosome
dépend de la complémentarité entre le RBS
et l'anti-RBS dans la sous-unité 16S (Tableau
6.1), ainsi que de sa distance au codon initial.
Le respect du consensus en ce qui concerne
Figure 6.1 - Schéma du démarrage de la traduction
chez les eubactéries (d'après (Lewin 1996)).
les guanines du RBS est particulièrement
important
puisqu’elles établissent les plus
fortes liaisons avec l'anti-RBS (Schneider et al. 1986). La distance au codon initial est
normalement d’environ 6 à 10 nucléotides chez
Escherichia coli (Stormo et al. 1982) ainsi
que chez Bacillus subtilis (Rocha et al. 1999c).
D'autres signaux ont été proposés pour aider au démarrage de la traduction dans
plusieurs bactéries ou phages (Sprengart et al. 1990) (Lindahl & Hinnebusch 1992)
(Sprengart & Porter 1997) (McCarthy & Gualerzi 1990). La plupart de ces signaux sont
spécifiques à certains systèmes et les autres sont d’importance douteuse. Nous reviendrons
sur ce sujet plus loin.
À la suite de l’attachement au RBS, un premier réarrangement place correctement
l'ARNt de démarrage par rapport au codon initial (Figure 6.1). AUG est le codon préféré
chez la plupart des eubactéries, mais UUG et GUG sont également présents (Rocha et al.
1999c), d'autres codons tels que CUG et AUU sont également permis, mais restent très
rares.
Le positionnement de l'ARNtf par rapport au
codon initial est suivi par la fixation de
la sous-unité 50S et la formation du complexe de démarrage 70S. L'allongement débute
l’insertion de l'ARNt qui va décoder le deuxième codon.
60
après
Tableau 6.1 - Extrémité 3’ de la sous-unité 16S chez plusieurs procaryotes.
Organisme
Bacillus subtilis
Mycoplasma pneumoniae
Mycobacterium bovis
Aquifex aeolicus
Synechocystis spp
Escherichia coli
Haemophilus influenzae
Helicobacter pylori
Archaeoglobus fulgidus
Methanobacterium
thermoautotrophicum
Pyrococcus horikoshii
Methanococcus jannaschi
Mycoplasma genitalium
Extrémité 3’
5'...CUGGAUCACCUCCUUUCUA...3'
5'...GUGGAUCACCUCCUUUCUA...3'
5'...CUGGAUCACCUCCUUUCU...3'
5'...CUGGAUCACCUCCUUUA...3'
5'...CUGGAUCACCUCCUUU...3'
5'...UUGGAUCACCUCCUUA...3'
5'...UUGGAUCACCUCCUUA...3'
5'...UUGGAUCACCUCCU...3'
5'...CUGGAUCACCUCCU...3'
5'...CUGGAUCACCUCCU...3'
5'...CUCGAUCACCUCCU...3'
5'...CUGGAUCACCUCC...3'
5'...GUGGAUCACCUC...3'
Dans notre travail, nous avons traité exclusivement la traduction
des unités
monocistroniques. Cela constitue une simplification considérable du problème. Le couplage
de la traduction parmi les gènes consécutifs d’un même ARNm permet parfois le démarrage
sans détachement du ribosome (Plat 1998). De plus, cela implique de négliger la régulation
de la traduction par la stabilité du transcrit (Higgins et al. 1992) (Carpousis et al. 1999).
L’incapacité actuelle à identifier les opérons, à cause de la difficulté d’identification des
promoteurs,
a rendu impossible l’analyse de la composante
policistronique dans la
traduction.
Figure 6.2 - Schéma de l'allongement. Deux modèles pour la translocation. Dans le premier pas, la liaison
peptidique est formée quand l'extrémité amynoacyl de l'ARNt du site A parvient au site P. Ceci
arrive soit parce
que l'ARNt bouge (modèle en haut), soit parce que la sous-unité 50S bouge (modèle en bas). Dans la dernière
étape, l'anti-codon et l'ARNt sont placés au site P. L'ARNt et l'ARNm bouge à travers le ribosome dans la même
direction (à droite) (d'après (Lewin 1996)).
6.2 L'allongement
Après la formation du complexe ribosomique, le terrain est prêt pour la longue
succession de cycles de traduction (Figure 6.2). Dans chaque cycle, l'aminoacyl-ARNt
correct entre dans le site A du ribosome, dont le site P est déjà occupé par un peptidylARNt. Le cycle d’addition des aminoacides à la chaîne peptidique est complété par la
translocation du ribosome le long de l'ARNm (Figure 6.2). La translocation provoque le
61
déchargement de l'ARNt du site P et un nouvel aminoacyl-ARNt peut entrer. Dans les
bactéries, l'ARNt déchargé passe par une position
intermédiaire
(E) avant
d’être
complètement libéré (pour des revues sur l'ensemble du processus voir (Nierhaus 1993)
(Lewin 1995)).
La recherche de l'ARNt correct pour le codon est l'étape limitant de la réaction
d'allongement (Varenne et al. 1984). Précédemment, il avait été observé que l’usage de
codons synonymes n’est pas homogène dans l'ensemble des gènes (Grantham et al. 1980).
Ikemura a montré la corrélation de cet effet avec l'expressivité des gènes (Ikemura 1981).
On a donc proposé que les gènes les plus fortement exprimés auraient besoin d’adapter leur
usage des codons pour qu'ils correspondent aux ARNt les plus abondants dans la cellule (Gouy
& Gautier 1982) (Sharp & Li 1986) (Sharp & Matassi 1994). Kurland a raffiné cette
idée en
introduisant la nuance que les gènes les plus fortement biaisés correspondent aux gènes
fortement exprimés en phase exponentielle de croissance (Andersson & Kurland 1990)
(Berg & Kurland 1997).
En réalité, l’usage des codons est lié à de nombreux facteurs. Il dépend du contenu
G+C du génome (Muto & Osawa 1987). Ensuite, il dépend essentiellement de l’abondance
relative des ARNt isoaccepteurs dans les cellules (Ikemura 1981) (Dong et
al. 1996) et de la
stabilité de l’interaction entre le codon et l’anticodon (Grosjean et al. 1978) (Berg &
Kurland 1997). La modélisation du choix des codons, faisant intervenir les constantes
d’association des ARNt et leurs concentrations, permet d'expliquer la relation entre l’usage
optimal de codons et l’expressivité en croissance exponentielle
(Dong et al. 1996) (Berg &
Kurland 1997). Les gènes faiblement exprimés subissent une pression sélective insuffisante
pour s'adapter à une composition optimale de codons (Sharp & Li 1986). En conséquence
l’utilisation des codons dans ces gènes reflète essentiellement le contenu G+C du génome,
additionné à d’autres causes comme le biais en dinucléotides ou l’évitement de palindromes
(Karlin et al. 1998).
D'autres études montrent une corrélation forte entre l'usage simultané de certains
codons (Gutman & Hatfield 1989) (Berg & Silva 1997),
entre l'usage du code et la structure
secondaire des protéines (Thanaraj & Argos 1996) et, finalement, un usage différent du
code
au début et à la fin des gènes (Bulmer 1988) (Eyre-Walker 1996) (Rocha et al. 1999c).
Si le démarrage soulève le problème de la reconnaissance correcte du début du gène,
l'allongement soulève le problème de la précision
de la traduction. Les taux d’incorporation
incorrecte de codons sont d’environ 5*10-5 à 5*10-3 aa-1 (Kurland et al. 1996). Si l'on
considère un taux moyen (4*10-4 aa-1) et une taille moyenne de protéine (300 aa), la
traduction ne produit donc que 88% de copies sans erreur. Une bonne partie de ces erreurs
aura sans doute des conséquences négligeables (Rennell et al. 1991), mais l’importance
énergétique du processus de traduction dans la cellule oblige à optimiser la précision de la
traduction des gènes les plus fortement exprimés (Bulmer 1991a) (Akashi & Eyre-Walker
1998).
62
6.3 La terminaison de la traduction
Pendant longtemps, les études sur la traduction ont négligé l'étape de terminaison.
Cependant, la terminaison de la traduction est extrêmement importante. La suppression du
codon stop, ou la terminaison prématurée, conduit à des protéines
non-fonctionnelles ce qui
conduit à un gâchis considérable. Lorsque ceci a lieu à la fin du processus ce gâchis est alors
maximal.
La terminaison de la synthèse protéique prend
place dans le site de décodage (site A),
en réponse à un codon stop. La terminaison utilise deux types différents de facteurs : le
facteur RF1 est spécifique des codons UAA et UAG alors que le facteur RF2
est spécifique de
UAA et UGA. Les RF1 et RF2 sont des protéines avec des domaines de reconnaissance des
codons stop. Il semblerait qu'une région de ces deux protéines soit similaire au domaine IV
facteur d'élongation G (EF-G). Ceci constituerait
du
un domaine mimétique de l'ARNt,
nécessaire à la fixation au site A du ribosome (Ito et al. 1996). Cependant la région exacte
qui mime l’anticodon n’est pas encore connue (Nakamura et al. 1996). L’efficacité de la
terminaison n’est pas totale ainsi que l'ont révélé de nombreuses études in vivo et in vitro
(Tate & Mannering 1996). L'efficacité de la terminaison résulte de la compétition entre
deux événements : la lecture (erronée) du codon stop comme un codon quelconque par un
ARNt, et le décodage correct du stop par les RF. On ignore quels sont exactement les
facteurs importants dans cet équilibre, mais in vivo
l’efficacité de la terminaison peut varier
de plusieurs ordres de grandeur (Tate & Mannering 1996). Un troisième facteur de
terminaison (RF3) stimule les activités
des deux autres facteurs, sans changer leur efficacité
relative (Nakamura et al. 1996). (Pavlov et al. 1998). Contrairement aux deux autres
facteurs, RF3 n'est pas indispensable, mais son absence retarde considérablement la
croissance (Nakamura et al. 1996).
L'efficacité de la terminaison dépend en partie du contexte du codon stop. Il a été
démontré que, chez Escherichia coli, la première base après le codon stop a une grande
influence, avec une nette préférence pour un U à cette position (Brown et al. 1990). Les
biais de compositions peuvent se prolonger après cette position (Poole et al. 1998), et
dépendent fortement du codon stop (Rocha et al. 1999c). Les derniers aminoacides de la
protéine jouent également un rôle important
dans la modulation de l'efficacité de la
terminaison (Björnsson et al. 1996). Ainsi, pour le dernier aminoacide, les propriétés
fondamentales semblent être la charge et l’hydrophobicité, alors que pour l’avant dernier,
les contraintes sont liées à la taille du résidu (Björnsson et al. 1996). Il a été démontré
expérimentalement que ces effets sont quantitativement similaires chez Escherichia coli et
Bacillus subtilis (Mottagui-Tabar & Isaksson 1998).
63
Publication V
Rocha, E. P. C., Danchin, A., Viari, A. (1999) Translation in Bacillus subtilis: roles and
trends of initiation and termination, insights from a genome analysis. Nucl. Acids Res. 27:
3567-3576
6.4 Le mystère du codon de démarrage
AUG est le codon de démarrage préféré chez toutes les eubactéries. L’ordre relatif des
fréquences du codon de démarrage est AUG>UUG>GUG chez Bacillus subtilis, et
AUG>GUG>UUG chez Escherichia coli. Cet ordre correspond au degré d'expressivité des
gènes avec ces codons start observé dans les organismes respectifs (Vellanoweth 1993). La
fréquence relative des codons de démarrage n’est pas corrélée avec le contenu G+C des
génomes. Tous ces résultats indiquent que AUG serait sélectionné
positivement. Néanmoins,
les gènes fortement exprimés en phase exponentielle ne semblent pas préférer de façon
significative le codon AUG par rapport aux
autres gènes. De plus, dans l'ensemble des gènes
homologues nous n'avons pas trouvé de conservation du codon start, ni même parmi les
gènes homologues fortement
exprimés. Or, on s'attendrait
à un certain
degré de
conservation si l'AUG était sélectionné positivement. Il y a donc une contradiction, pour
laquelle nous n’avons pas, actuellement, d’explication satisfaisante.
6.5 Un bon contexte pour un bon démarrage
Un RBS proche du consensus est important pour assurer un démarrage efficace de la
traduction chez Bacillus subtilis. Ceci est en accord avec les données expérimentales et
l’absence de la protéine S1 chez cet organisme (Vellanoweth 1993). Puisque nous n'avons
pas trouvé de traces de la "Downstream Box" (cf. paragraphe 6.9),
les signaux d’importance
générale pour la traduction chez Bacillus subtilis semblent limités au RBS et aux codons de
démarrage et de terminaison
La tendance prédominante du biais au voisinage du codon start est l’abondance de A
entre les positions -30 et +30, qui déstabiliserait une potentielle structure secondaire du
messager. Cette abondance d'adenine se reflète également dans la surabondance des codons
riches en A. Il a été proposé que cet usage biaisé des codons
pourrait être utilisé pour réguler
négativement la traduction, en ralentissant le démarrage (Bulmer 1988) (Eyre-Walker &
Bulmer 1993). Cette hypothèse a été écartée pour des raisons à la fois théoriques et
expérimentales (Andersson & Kurland 1990) (Akashi & Eyre-Walker 1998). Il semblerait
donc que le biais portant
sur les nucléotides soit actuellement mieux expliqué par
l’évitement de structures secondaires stables dans l'ARNm (Dreyfus 1988) (Andersson &
Kurland 1990) (de Smit & Duin 1994) (Rocha et al. 1999c).
64
6.6 La structuration du messager et la traduction
La propension à établir des structures secondaires stables dans l'ARNm est faible au
voisinage du codon de démarrage, surtout dans les gènes fortement exprimés et A+T riches.
De Smit et van Duin ont démontré que l’efficacité de la traduction dépend de l’équilibre
entre l’interaction RBS-anti-RBS et la structure du messager (de Smit & Duin 1994).
Néanmoins, l'énergie des structures du messager atteint ses valeurs maximales à l’endroit du
codon de démarrage et non du RBS, contrairement à ce que prévoyait
ce modèle. Ce résultat
suggère que l’interaction ARNtf-codon de démarrage est importante pour l’interaction du
messager avec le ribosome. Ceci est compatible avec les données expérimentales qui
montrent
que chez Escherichia
coli et
Bacillus subtilis
un
bon
RBS diminue
considérablement les différences d’expressivité liées aux différents codons de démarrage
(Vellanoweth & Rabinowitz 1992). Réciproquement, les transcrits qui débutent au codon de
démarrage peuvent s’attacher correctement au ribosome en présence d’un "bon"
(AUG) (Martin-Farmer & Janssen 1999).
codon start
Cette observation renforce l'idée que l'interaction
entre le codon start et le ARNtf doit jouer un rôle dans les interactions qui déclenchent le
démarrage de la traduction.
L’adénine est la base qui s’apparie moins favorablement dans les
biais en termes de nucléotides (avant et après le
structures d’ARN. Le
codon de démarrage) et de codons (après le
démarrage) peut donc s’expliquer de ce point de vue. Les biais en nucléotides et l'instabilité
des structure secondaire coïncident parfaitement dans la séquence et correspondent aux
limites de la zone d'interaction entre le ribosome et l'ARNm au moment du démarrage
(Hütenhofer & Noller 1994).
Des biais similaires en termes de nucléotides, codons et structure du messager sont
trouvés du côté du codon de terminaison. Il a été proposé que ces biais soient dus au
chevauchement ou à la proximité d'autres gènes (Eyre-Walker 1996). Néanmoins nous
avons trouvé des biais similaires à la fin de gènes distants du gène suivant. Ces résultats
suggèrent plutôt un évitement des structures secondaires stables
au niveau de la terminaison,
similaire à ce qui se passe au niveau du démarrage. En effet, le codon stop préféré dans les
gènes fortement exprimés (UAA) est typiquement entouré de structures secondaires moins
stables.
6.7 Les contextes de la terminaison
La fréquence d’utilisation des différents codons stop change suivant l’organisme
(Sharp & Bulmer 1988) (Brown et al. 1990) (Rocha et al. 1999c). Le grand nombre de
facteurs qui influencent l’efficacité de la terminaison rend difficile
exactes de cette variation. Un facteur
l’identification des causes
certainement important est la concentration relative
des deux RF. Chez Escherichia coli, le nombre de RF1 est 5 fois moins important que celui
de RF2, indépendamment de l’état de croissance de
la bactérie (Adamski et al. 1994). Cette
relation peut expliquer les fréquences relatives de UAG (8%) et UGA (29%) chez cet
65
organisme (Rocha et al. 1999c). Cependant, l’usage du codon stop dépend également du
contenu G+C du génome en ce qui concerne UAA et UGA. Ainsi, UAA est plus abondant
dans les génomes G+C pauvres et UAG plus abondant dans les G+C riches. En revanche,
l’abondance de AUG est à peu près indépendante du contenu G+C du génome. Enfin, on
observe que les gènes fortement exprimés en phase de croissance exponentielle montrent
une nette préférence pour UAA (Sharp & Bulmer 1988) (Rocha et al. 1999c).
Nous avons étendu les analyses précédentes sur le contexte de la terminaison (Brown
et al. 1990) de façon à tenter de discriminer les biais de nucléotides
partir de l’analyse d’un petit ensemble de gènes, il a été rapporté
entre les codons stop. A
que l’adénine après le stop
serait sous-représentée et susceptible de favoriser la suppression (Stormo et al. 1986). Mais
l’analyse de tous les gènes de Bacillus subtilis révèle au contraire que cette
position est riche
en adénine (40 % de A). Nous observons néanmoins que les gènes fortement exprimés
utilisent presque systématiquement U à cette position. On
peut supposer que U favorise une
lecture plus correcte du codon stop (ce qui est expérimentalement observé pour Escherichia
coli (Adamski et al. 1994) (Poole et al. 1995)).
De fait, les biais au-delà des trois lettres du codon stop sont tellement importants qu'il
a été suggéré que le codon stop présenterait plus de trois lettres. En effet, il n’y a pas de
raison de penser que le codon stop doive avoir exactement trois nucléotides, puisqu’il s’agit
d’une interaction protéine : ARNm et que la phase ouverte de lecture se termine au stop.
Nos résultats indiquent que les positions +1 a +4 sont importantes pour une
bonne lecture du
stop, en accord avec les observations précédentes (Brown et al. 1990). La distribution des
nucléotides en ces positions dépend fortement de la nature du codon stop.
6.8 Symétries inattendues
Neuf aminoacides présentent des biais significatifs au début des protéines (sans peptide
signal). Les quatre aminoacides sur-représentés sont hydrophiles (Lys, Asn, Gln, Ser) alors
que les cinq aminoacides sous-représentés sont hydrophobes (Ala, Gly, Leu, Pro, Val).
L’analyse comparative des ensembles de protéines de la membrane ou des protéines
exportées avec les protéines restantes révèle que ces biais ne sont pas liés aux peptides
signaux. Ces biais sont a peu près similaires chez Escherichia coli et Bacillus subtilis, ils
s’étendent jusqu’à la position +10, mais ils sont plus forts à la position +2.
La distribution biaisée d’aminoacides en amont de la terminaison
est restreinte surtout
aux deux dernières positions. Des travaux expérimentaux sur l’influence des derniers
aminoacides dans l’efficacité de terminaison chez Bacillus subtilis et Escherichia coli,
indiquent que la lysine favorise la terminaison alors que la
proline et la thréonine favorisent
la suppression (Mottagui-Tabar & Isaksson 1998). Nos résultats suggèrent que d’autres
aminoacides puissent être ajoutés à cette liste. Le biais dépend des RF, puisque la sérine est
beaucoup plus sur-représentée dans les gènes qui se terminent par UGA, alors que la lysine
est préférée dans les gènes qui se terminent par UAG. De fait,
66
si les biais sur les aminoacides
sont dûs à l’interaction entre le peptide et le ribosome (Björnsson et al. 1996),
il est normal
que cette interaction dépende des (et discrimine les) RF. Des différences d’efficacité de
terminaison de plus d’un facteur 30 ont
été mises en évidence en changeant l’avant dernier
aminoacide. De plus, ces différences sont effectivement
RF dépendantes (Mottagui-Tabar et
al. 1994).
Nos résultats indiquent de plus la présence de biais symétrique par rapport aux deux
extrémités des protéines : les aminoacides biaisés sont les mêmes aux deux extrémités,
notamment la sur-représentation des résidus hydrophiles et la sous-représentation des
résidus
hydrophobes. La richesse en adénine aux extrémités des gènes explique partiellement ces
résultats, puisqu’un A en position 2 du codon implique le codage d’un aminoacide
hydrophile. Cependant, ceci n’est pas suffisant pour expliquer tous les biais, puisque des
aminoacides dont les codons ne sont pas spécialement A riches (e.g. Arg, Ser), sont
également sur-représentés.
6.9 Le problème de la "downstream box"
Il a été proposé qu’un élément situé après le codon start, la downstream box (DB),
soit capable d’augmenter la traduction par appariement avec le ribosome (Sprengart et al.
1996). Ce serait rendu possible par la complémentarité des séquences de l'ARNm avec les
bases 1469 à 1483 de la sous-unité 16S du ribosome, de la même façon que ce qui se passe
pour le RBS (Sprengart et al. 1990). Plusieurs travaux ont été publiés montrant
une
corrélation entre la présence de cette séquence et l’expressivité du gène (Shean &
Gottesman 1992) (Ito et al.
1993) (Sprengart et al. 1996) (Mitta et al. 1997) (Etchegaray
& Inouye 1999b). Malgré de nombreux efforts, aucune évidence biochimique de cette
interaction n’a cependant jamais été donnée (Bläsi et al. 1999). Cela a conduit plusieurs
chercheurs à s'interroger sur la réalité de cette interaction (Resch et al. 1996) (Tedin et al.
1999) (Bläsi et al. 1999) (O'Connor et al. 1999). Les arguments
contre l'existence de la DB
peuvent se résumer en 6 points. (1) Il est difficile de concilier l’existence de l’interaction
DB/anti-DB avec la structure du ribosome au moment du démarrage ; (2) L’interaction n’a
jamais pu être repérée par footprinting ou cross-linking ; (3) Les études de protection
chimique n’ont pas révélé de protection de la DB putative ; (4) La présence de la DB ne
paraît pas augmenter l’affinité du ribosome pour l'ARNm ; (5) La séquence d'ARNr en
question est très bien conservée pour des raisons structurales, et non de séquence primaire ;
(6) Des mutations dans l’anti-DB n’ont pas produit de variations dans les niveaux
d’expression des gènes avec la DB putative.
Trois
arguments
ont
ensuite été
opposés
(Etchegaray
&
Inouye
1999a).
Premièrement il a été observé que l'écart au consensus de la DB provoquait vraiment une
nette diminution de l'expressivité. Deuxièmement, les délétions de DB dans les études
présentées plus en haut ont créé en réalité d'autres DBs dans la même région. Enfin, les
consensus des DB sont suffisamment forts pour suggérer à l'existence d'un signal ARN-ARN.
67
A la suite de notre étude sur Bacillus subtilis (première publication de ce chapitre)
dans laquelle nous n'avions pas pu isoler de DB chez cet organisme, nous avons essayé de
démontrer que les deux derniers points ne pouvait pas être utilisés en faveur de l'hypothèse
de l'existence de la DB. Ainsi, nous avons mis au point une méthode qui démontre que les
DBs identifiées ne sont pas statistiquement significatives. En effet, si l'on considère la
composition en nucléotides de la région située après le codon start de ces gènes,
les éléments
trouvés sont ceux que l'on attend par le hasard. En particulier, la recherche d'un consensus
de
15 pb avec 7 mésappariements montre qu'il existe environ toutes les 10 bases dans le
génome de Escherichia coli. Ainsi, le deuxième argument (à savoir, que les délétions
présentées en (Resch et al. 1996) (Tedin et al. 1999) (Bläsi et al. 1999) (O'Connor et al.
1999) ont toutes créées de nouvelles DB), est vide de sens, puisqu'on trouvera toujours des
DB semblables à celles qui ont été deletées. Enfin, l'absence de signal statistiquement
significatif indique probablement l'absence de signal biologique.
Puisque les travaux expérimentaux indiquent absence d’interaction DB-anti-DB et que
notre travail démontre que les DBs ne sont pas statistiquement significatives, il sera plus
intéressant de chercher ailleurs les effets des mutations induites après le codon de démarrage.
Publication VI
Rocha, EPC, Danchin A, Viari A (2000) The DB case: pattern matching evidences are not
significant, Mol. Microbiol. sous presse.
68
L'évolution des chromosomes
69
7. Le rôle évolutif des répétitions dans les génomes
bactériens
7.1 Le concept de génome minimal
La quête du "génome minimal" constitue pour beaucoup un des saint Graal de la
biologie moléculaire. Cependant l'information minimale requise pour le fonctionnement
d’un organisme est une notion très contingente. Premièrement elle est relative à ce que
nous
entendons par organisme. L’organisme minimal dont on parle est un organisme autonome
avec son métabolisme propre. En conséquence, les plasmides conjugatifs et les virus sont
automatiquement exclus de cette définition.
Qu’est ce donc qu’un organisme minimal, fonctionnel et autonome ?
On suppose qu’il
doit : i) fonctionner (métabolisme), ii) être capable de se répliquer (reproduction), et iii)
coder l’information génétique sur un support digital, tout cela de façon autonome.
On écarte
donc tous les organismes parasitaires obligatoires. En revanche, les bactéries de plus petite
taille physique et génomique, les Mycoplasmes, obéissent à toutes ces conditions. En effet,
même si les Mycoplasmes ont du mal à pousser hors de leurs hôtes, ceci est néanmoins
possible dans certaines conditions (Dybvig & Voelker 1996). Les Mycoplasmes sont divisés
en plusieurs groupes taxonomiques et, dans la plupart de ces groupes, on observe une
tendance vers la réduction de la taille des génomes. Bien que ceux-ci ne soient jamais
inférieurs a 500 kb, dans la plupart des groupes se trouvent des espèces dont les génomes
dépassent à peine les 600 kb (Razin et al. 1998). Naturellement les Mycoplasmes ont été
considérés comme les candidats idéaux pour rechercher un hypothétique génome minimal,
dont la taille serait donc inférieure à 600 kb (Fraser et al. 1995).
Plusieurs études ont ainsi été consacrées aux Mycoplasmes et, en particulier, à
Mycoplasma genitalium, le plus petit de tous et le premier à avoir été publié. Ces études,
70
sont basées sur l'analyse des gènes qui présentent des homologues dans la plupart des
bactéries avec l'idée que les gènes essentiels ne peuvent pas impunément disparaître du
génome. Ces études concluent généralement à des tailles d’environ 250 gènes pour le
génome minimal (Mushegian & Koonin 1996) (Mushegian 1999).
fonctionnelle
Cependant la substitution
par des gènes qui ne sont pas des homologues peut compliquer ce
raisonnement (Forterre 1999), et 250 serait donc une sous-estimation du nombre réel. A
partir du comptage du nombre de loci nécessaires à la survie de la bactérie après mutagenèse
aléatoire, Itaya est arrivé à une
estimation de la taille minimale située entre 318 kb et 562
kb, i.e. entre 300 et 600 gènes (Itaya 1995). Ce chiffre est en accord avec les valeurs
effectivement observées dans les Mycoplasmes et a l’avantage d’être plus réaliste du point
de vue biologique.
Si l’évolution procède par bricolage d’éléments pris parmi ceux qui existent déjà
(Jacob 1977), qu’est ce que l’optimalité ? Le bricolage place l’évolution très loin
d’optimisation familier aux ingénieurs et ne peut que
du concept
très difficilement aboutir à un génome
véritablement minimal (Maniloff 1996). Par ailleurs, le concept de génome minimal
contingent aux caractéristiques de l’environnement et de la niche écologique
Puisque par définition le génome minimal n’a d'autres avantages
est très
de l’organisme.
compétitifs que celui d’être
minimal, il sera nécessairement très peu adapté. Cette absence de viabilité écologique met
clairement en question l'intérêt biologique de la démarche.
La question du génome minimal a souvent conduit à affirmer que les génomes
bactériens devraient éviter fortement les séquences répétées. C'est cette perspective sur la
question qui a attiré notre intérêt sur l'étude des répétitions dans les génomes bactériens.
Notre conclusion est que, même si l’ADN est plus “cher” pour les bactéries que pour les
eucaryotes, cela n’implique pas nécessairement l'absence de répétitions. De plus, dans
certains contextes
les répétitions
peuvent même être très fortement
sélectionnées.
Ironiquement c'est dans les Mycoplasmes que nous trouvons les plus grandes densités de
répétitions.
7.2 Les remaniements chromosomiques et les répétitions
Certains éléments répétés dans les génomes bactériens sont connus depuis longtemps.
Les opérons ribosomiques sont souvent présents chez les bactéries en copies multiples (7
copies chez Escherichia coli et 10 copies chez Bacillus subtilis) (Schmidt 1998). Ces
éléments sont nécessaires à la survie de la cellule, même si certains travaux indiquent que la
réduction du nombre de copies n’implique pas la perte de viabilité (Condon
et al. 1993). Les
opérons des ARNr ont environ 5 kb de long et constituent une cible préférentielle pour la
recombinaison intra-chromosomique. Ainsi plusieurs réarrangements chez Escherichia coli
et Bacillus subtilis ont lieu par recombinaison entre ces éléments (Hill & Harnish 1981)
(Gürtler 1999). Les ARNt sont aussi fréquemment la cible de processus de recombinaison,
71
soit intra-chromosomique soit avec des éléments extérieurs, facilitant ainsi le transfert
génétique horizontal (Hou 1999).
Parfois les remaniements chromosomiques sont programmés par rapport à un état
physiologique de l’organisme. Chez Bacillus subtilis les répétitions qui flanquent l’élément
skin sont cruciales lors de la sporulation. En effet, la recombinaison entre les deux
répétitions provoque la délétion de
l’élément skin au moment de la division asymétrique de
la cellule mère (Stragier et al. 1989). Cette délétion provoque la restauration du gène qui
déclenche l’étape finale de la sporulation.
Des répétitions liées à des structures secondaires d'ARN intergéniques ont été trouvées
chez plusieurs eubactéries. La plupart d’entre elles ont une fonction inconnue, même si leur
conservation en séquence suggère une forte pression fonctionnelle (Blaisdell et al. 1993)
(Bachellier et al. 1996). Plusieurs de ces éléments sont groupés en familles apparentées par
la séquence ou par la structure secondaire, comme les BIMES (Bachellier et al. 1994), les
IRU (Sharples & Lloyd 1990), les ERIC (Versalovic & Lupski 1998), etc. La similarité
entre les diverses copies de ces éléments fournit également une cible pour la recombinaison
homologue (Lloyd & Low 1996). En conséquence, ces éléments sont souvent responsables
de remaniements chromosomiques, de délétions ou de multiplications de régions du génome
(Roth et al. 1996) (Bachellier et al. 1997) (Tomano 1999). De plus, les régions à forte
structure secondaire sont souvent instables et sujettes à des délétions fréquentes (Sharp &
Leach 1996). Par exemple, la présence de palindromes de taille supérieure à 150-200 pb
entraîne la non-viabilité de Escherichia coli (Leach 1994).
Les éléments transposables constituent un
type fortement répandu d'éléments répétés
dans les génomes (Mahillon & Chandler 1998). De
fait ces éléments sont très fréquemment
présents dans régions transférées horizontalement comme les îlots de virulence ou près de
gènes de résistance aux antibiotiques (Groisman & Ochman 1997) (Mazel et al. 1998)
(Syvanen 1998). Cependant, il est difficile de justifier la sélection positive de ces éléments
par leur utilité (Doolittle & Sapienza 1980). Les
séquences d’insertion par leur existence en
copies multiples et par leur caractère multiplicatif induisent fréquemment des
délétions et des interruptions de gènes (Deonier
inversions, des
1996). La plupart de ces changements sont
nécessairement délétères dans une population bien adaptée
(Orr 1998). En conséquence, ces
éléments sont souvent considérés comme des éléments égoïstes ou parasitaires qui se
reproduisent dans le génome (Dawkins 1976) (Doolittle & Sapienza 1980) (Orgel & Crick
1980) et sont parfois fixés dans la population par d'éventuelles mutations bénéfiques
(Syvanen 1994). C'est probablement cette raison qui justifie leur association fréquente aux
îlots de virulence.
D'autres éléments répétés ont été identifiés dans les génomes : les terminateurs rhoindépendants (Carafa et al. 1990), les signaux uptake chez Haemophilus influenzae et N.
gonorrhoeae (Smith et al. 1995) (Kroll et al. 1998) et les recombinational
sequences chez plusieurs enterobactéries (Wang et al. 1998) (Hill 1998).
72
hotspot
7.3 La recombinaison homologue
Tous les organismes dépendent de la recombinaison pour le maintien de la stabilité de
leur génome ainsi que pour la production de la variabilité génétique.
a été utilisé pour la première fois par
Le terme recombinaison
Bateson, en 1905, pour décrire une exception à la loi
de ségrégation indépendante des caractères (Depew & Weber 1995). La recombinaison
homologue résulte d'une série d’interactions entre deux séquences d’ADN homologues,
présentes sur une ou deux molécules d’ADN, et produit une séquence mixte dérivée des
séquences parentales (Smith 1988). Les échanges de séquences entre les deux molécules
d’ADN parentales n’introduisent presque jamais de gain ou de
perte d’information génétique
(Matic 1995). Ceci est dû à la précision de l’appariement des deux molécules d’ADN
parentales pour former une région hétéroduplex au point d’échange. En réalité la
recombinaison est un processus très complexe qui implique plus d’une trentaine de gènes
chez Escherichia coli (Lloyd & Low 1996). Nous n'en ferons qu'un bref résumé dans le
paragraphe suivant (pour des revues plus complètes voir (Smith 1988) (Dubnau 1993)
(Matic 1995) (Lloyd & Low 1996)).
Plusieurs modèles ont été proposés pour décrire la recombinaison homologue. Tous
ont en commun l’invasion de la terminaison 3’-OH d’une séquence d’ADN simple brin par
un deuxième ADN double brin (Smith 1988). L’appariement initial peut se produire à
n’importe quelle position de la région homologue. La réaction d’échange entre brins
commence quand les deux molécules sont alignées et que l’extrémité de l’ADN est libre. La
protéine RecA contrôle la fidélité de la recombinaison seulement au début de la
recombinaison.
La recombinaison lors de la conjugaison entre S. typhimurium et Escherichia coli est
similaire à la recombinaison intraspécifique (Matic et al. 1995). La barrière génétique qui
sépare ces deux espèces est principalement une barrière à la recombinaison interspécifique
basée sur la divergence entre les deux séquences (et donc l'absence de gènes suffisamment
similaires). Le système de réparation des mésappariements est la composante majeure de
cette barrière génétique. En effet, l’inactivation du gène mutS ou mutL (codant
les protéines
qui se lient aux mésappariements) augmente la fréquence de recombinaison interspécifique
d'un facteur 1 000 (Rayssiguier et al. 1989). L’étude de l’influence sur la recombinaison de
la
divergence entre des séquences longues de 400 pb chez Escherichia coli, a démontré que la
fréquence de recombinaison est diminuée de 240 fois lorsque la similarité entre les séquences
décroît de 10 %, alors que cette fréquence n’est
affectée que d’un facteur 9 dans une souche
mutS déficient (Shen & Huang 1989). Un concept très important pour ce qui suit est celui
du nombre minimal d'appariements exacts pour démarrer la recombinaison par RecA. Ce
nombre est d’environ 24 pb chez Bacillus subtilis (Roberts & Cohan 1993) et 20 pb chez
Escherichia coli (Watt et al. 1985). Cependant la fréquence de recombinaison croît de
exponentielle entre 20 et
façon
74 bases et devient linéaire pour des valeurs supérieures (Watt et
al. 1985). Ainsi, un nombre réduit de mésappariements entre deux séquences homologues
73
peut avoir des conséquences dramatiques sur la fréquence de la recombinaison. Chez
Escherichia coli la divergence entre les séquences provoque l'isolement sexuel en raison de
la
probabilité de trouver un segment minimal d’homologie stricte et non pas en raison de la
faible stabilité de l’héteroduplex (Vulic et al. 1997).
7.4 À la recherche des répétitions
Au premier abord le concept de génome minimal, les remaniements chromosomiques
et les mécanismes de recombinaison homologue sont des sujets assez différents. Nous les
avons introduits ensemble ici pour établir les bases nécessaires à la discussion de l'article
suivant. En effet, la recherche de
répétitions dans les génomes procaryotes est au carrefour
de ces trois problématiques. Le premier objectif de notre travail était d’établir de façon
quantitative l’évitement possible des répétitions qui repose sur l'idée que l’ADN “coûte
cher” aux bactéries. Une fois les répétitions identifiées il a fallu identifier les contraintes
sélectives ou structurelles qui pouvaient expliquer leur présence. Il est intéressant à
remarquer que la taille minimale utilisée dans notre recherche des répétitions dans les
génomes procaryotes est supérieure à la taille nécessaire pour démarrer la recombinaison.
Les méthodes statistiques et algorithmiques utilisées dans ce travail seront détaillées
dans le chapitre 11.
Publication VII
Rocha, E. P. C., Danchin, A., Viari, A. (1999) Analysis of long repeats in
bacterial genomes
reveals alternative evolutionary mechanisms in Bacillus subtilis and other competent
prokaryotes. Mol. Biol. Evol. 16: 1219-1230.
7.5 Conclusion
Au moyen de la statistique développée par Karlin
et Ost (Karlin & Ost 1985) et d’un
algorithme efficace de recherche de répétitions (Karp et al. 1972) (Soldano et al. 1995),
nous avons analysé de façon exhaustive les répétitions présentes dans huit génomes
bactériens (Rocha et al. 1999a). Après
avoir enlevé les copies multiples d'ARNr et d'ARNt,
tous les génomes analysés s'avèrent posséder un grand nombre de répétitions, depuis un
minimum de 139 chez Mycoplasma genitalium à un maximum de 552 chez Mycoplasma
pneumoniae. Néanmoins, quand les différentes tailles des génomes sont prises en compte,
nous observons que les plus grands génomes (d'organismes non pathogènes) possèdent
petite densité de répétitions (40 /Mb chez Bacillus subtilis et 86 /Mb
la plus
chez Escherichia coli),
alors que les plus petits génomes possèdent les plus grandes densités (676 /Mb chez
Mycoplasma pneumoniae et 240
/Mb chez Mycoplasma genitalium). L’abondance relative
74
des répétitions chez les Mycoplasmes est à la base des stratégies de variation antigénique
chez ces bactéries.
La Figure 7.1 présente une actualisation de ces données par rapport à la publication
précédente (voir aussi la Publication 9). Nous avions postulé que les stratégies liées à la
virulence devraient induire l’existence d’un grand nombre de répétitions dans ces génomes.
(Rocha et al. 1999a). Cependant ceci ne paraît pas être une règle générale, puisque
Chlamydia trachomatis (agent de diverses infections humaines) et Rickettsia prowazekii
(l’agent du typhus) présentent un nombre très réduit de répétitions. Il convient néanmoins
de noter que ces deux organismes sont des parasites intracellulaires obligatoires (Stephens et
al. 1998) (Andersson et al. 1998). C. trachomatis possède un plasmide cryptique, qui
contient 22 répétitions en tandem et peut être utilisé pour la régulation de la virulence
(Thomas et al. 1997). Curieusement, la bactérie apparentée C. pneumoniae présente un
nombre beaucoup plus important de répétitions chromosomiques. R. prowazekii est la seule
bactérie séquencée qui présente une grande partie de génome non codant (24%). C'est
probablement une conséquence de la réduction du génome qui a lieu dans cet organisme
(Andersson et al. 1998). Il n’est
pas encore clair de savoir si ces observations sont liées ou
pas à différentes stratégies évolutives associées à la virulence.
Le cas de Borrelia burgdorferi (l’agent de la maladie de Lyme) est particulièrement
intéressant, malgré le nombre réduit de répétitions dans le chromosome. Les 600 kb de
matériel génétique contenu dans ses plasmides (à comparer aux 912 kb du chromosome)
contiennent
en fait un grand nombre de répétitions.
Ces plasmides possèdent une
relativement faible densité de régions codantes (environ 70 %) (Fraser et al. 1997) dont la
majorité codent des protéines de surface. Ces copies multiples servent à créer, par
recombinaison homologue, de nouvelles versions des protéines afin d'échapper au système
immunitaire de l’hôte. L’accumulation de matériel génétique recombinant dans
les plasmides
permet ainsi l'évitement d’instabilités génétiques dans le chromosome. Cette stabilité peut
être importante pour ce chromosome qui,
rappelons-le, est linéaire. On observe par ailleurs
que le génome de Borrelia burgdorferi est significativement polarisé (65 % des gènes sur le
brin précoce), et les gènes des deux brins montrent un usage très contrasté des codons (voir
chapitre 5). Toutes ces données indiquent une grande stabilité du chromosome.
75
3,0
log (densité de répétitions)
Mypn
Bobu+
2,5
Myge
Meth
Meja Hain
Hepy
Thma
Aepe
Pyho
Aqae
Chpn
2,0
Mytu
Esco
Sysp
Arfu
Basu
Trpa
1,5
Bobu-
1,0
Ripr
Chtr
0,5
0
1
2
3
4
5
longueur du génome (Mb)
Figure 7.1 - Relation entre la densité de répétitions et la taille du génome. Les noms soulignés indiquent les
génomes contenant des séquences d’insertion et les ellipses indiquent les organismes pathogènes. La flèche
représente l’augmentation de la densité de répétitions du génome de Borrelia burgdorferi quand
les plasmides
sont pris en compte. Abréviations : A. aeolicus (aqae), A. fulgidus (arfu), A. pernix (aepe), Bacillus subtilis
(basu), Borrelia burgdorferi (bobu), C. pneumoniae (chpn), C. trachomatis (chtr), Escherichia coli (esco),
Haemophilus influenzae (hain), H. pylori (hepy), Methanococcus jannaschii (meja), M. thermoautotrophicum
(meth), Mycoplasma genitalium (myge), Mycoplasma pneumoniae (mypn), M. tuberculosis (mytu), P.
horikoshii (pyho), R. prowazekii (ripr), Synechocystis sp (sysp), T. pallidum (trpa).
Nous avons observé que les distributions spatiales des deux occurrences de chaque
répétition sont très hétérogènes entre les différents génomes. Chez Escherichia coli et
Methanococcus jannaschii les deux occurrences de chaque répétition sont à une distance
quelconque l'une par rapport à l’autre. En revanche, dans les deux organismes compétents
non spécifiques, Bacillus subtilis et M. thermoautotrophicum,
la plupart des copies sont
séparées par moins de 50 kb. Les occurrences à une distance supérieure à 10 % du génome
constituent ainsi moins de 5 % du total dans ces deux génomes.
En raison du transfert horizontal, les génomes des isolats naturels d’entérobactéries
fluctuent jusqu'à 1 Mb de leur taille de base (Bergthorsson & Ochman 1995). Les séquences
d’insertion aident au transfert horizontal et à la duplication
de gènes, mais elles jouent aussi
un rôle important dans la délétion de matériel génétique par recombinaison entre deux
copies. Ces deux effets contraires justifient probablement l’absence de corrélation entre
l’abondance de séquences d’insertion et la taille du chromosome (Bergthorsson & Ochman
1998). Ainsi, les séquences d’insertion ne contribuent pas à l’augmentation de la taille du
génome, mais plutôt à sa dynamique. L’absence de séquences d’insertion chez Bacillus
subtilis est surprenante à plusieurs titres. Premièrement Bacillus subtilis est compétent,
donc vulnérable aux invasions de ces éléments. Deuxièmement, des organismes proches de
Bacillus subtilis, tel que B. cereus, possèdent des séquences d’insertion (Leonard et al.
1997).
76
Au chapitre 5 nous avons analysé les biais associés à la réplication chez les bactéries
au moyen de l'analyse discriminante. La variable
utilisée pour mesurer l’intensité de ce biais
était la précision (accuracy), i.e. la fraction de prédictions correctes de la méthode sur un
ensemble de test. La précision est proche de 1 pour les génomes très biaisés et
proche de 0.5
pour les génomes sans biais. La Figure 7.2 montre la relation entre la densité de répétitions
et la précision. Les génomes à plus faible densité de répétitions présentent les valeurs de
précision les plus élevées. Nous pensons que ceci est lié à la plus grande stabilité
des génomes
sans répétitions. En particulier, les chromosomes avec très peu de répétitions comme
Chlamydia trachomatis et les spirochètes ont un fort biais de réplication, alors que les
génomes riches en répétitions, tels que ceux de Methanococcus jannaschii et Mycoplasma
pneumoniae,
ont peu ou pas de biais. Par ailleurs, cette tendance est partiellement
indépendante de la présence de séquences d’insertion dans les génomes (les Mycoplasmes et
M. thermoautotrophicum n'ont pas de tels éléments).
100
Bobu
précision maximale (%)
Cht r
Trpa
90
80
Basu
70
Esc o
Hain
Hepy
60
50
0.5
My ge
My t u
Mypn
A rf u Met h
Me j a
Sy s p
Aqae
1
1.5
2
log (densité de répétitions)
2.5
3
Figure 7.2 - Relation entre la précision de la discrimination de brin de réplication et la densité de répétitions
dans le génome. Les noms soulignés indiquent les génomes contenant des séquences d’insertion. Voir la
légende précédente pour les abréviations.
Par contraste avec la grande diversité observée de tailles de chromosomes dans les
souches de Escherichia coli, plusieurs études ont révélé des cartes physiques très similaires
entre différentes souches de Bacillus subtilis (Itaya 1997). Itaya et collègues ont introduit
deux longues répétitions séparées de 300 kb dans le génome de Bacillus subtilis, avec une
origine de réplication plasmidique situé au milieu (Itaya &
Tanaka 1997). Ceci a entraîné la
division du génome en deux sous-génomes stables et capables de se répliquer. Néanmoins le
plus petit des sous-génomes est instable, facilement perdu et
conduit à un taux de croissance
réduit (Itaya & Tanaka 1997) (Itaya & Tanaka 1999). Cette expérience montre que les
occurrences lointaines de répétitions introduisent une instabilité significative dans le
génome
et suggère que le génome de Bacillus subtilis serait très stable en raison de l'absence de
répétitions longues et distantes.
77
Il semble surprenant que les deux bactéries compétentes généralistes (Bacillus subtilis
et M. thermoautotrophicum)
ne possèdent pas de séquences d’insertion. Puisque ces
bactéries sont capables d'insérer de l'ADN de n’importe quel organisme, elles devraient être
souvent contaminées par ces éléments parasitaires. On pourrait imaginer que l’instabilité
due
aux occurrences lointaines des répétitions puisse créer cet évitement en obligeant les
séquences d’insertion à rester en copies simples. Cependant
l’analyse des génomes a montré
que les séquences d’insertion sont souvent trouvées en copie simple ou
en tandem (Mahillon
& Chandler 1998). De plus les opérons des ARNr sont maintenus de façon stable chez
Bacillus subtilis, malgré leur répétition à longue distance (Kunst et al. 1997).
Toutes ces observations suggèrent une hypothèse. On peut en effet se demander si
Bacillus subtilis ne posséderait pas un mécanisme spécifique d’élimination des séquences
d’insertion. Des mécanismes de ce genre existent chez plusieurs eucaryotes (Sherman &
Pillus 1997) (Colot & Rossignol 1999). Les séquences d’insertion permettent aux bactéries
de s’adapter rapidement, en facilitant le transfert horizontal ou la duplication de gènes.
Cependant si Bacillus subtilis a trouvé un mécanisme évolutif qui rend les séquences
d’insertion inutiles, alors leurs hypothétiques avantages évolutifs sont perdus.
Ces observations rendent l’analyse de B. cereus encore plus intéressante.
Cet
organisme possède des séquences d’insertions et la taille de son génome varie de façon très
significative (entre 2.4 Mb et 6.3 Mb) (Carlson & Kolsto 1994). La comparaison de ces
Bacillus permettra l’analyse détaillée de la propagation des séquences d’insertion et de leur
influence sur la stabilité des génomes chez les bactéries Gram positives.
78
8. Répétitions et transfert horizontal chez Bacillus
subtilis
Les souches de Escherichia coli K12 et Salmonella enterica Typhimurium LT2 ont
divergé depuis environ 100 millions d’années et la similarité entre les cartes physiques
(respectivement 4.5 et 4.8 Mb) des deux organismes est frappante. Néanmoins, d'autres
souches de ces deux espèces diffèrent de plus de 1 Mb par insertion ou délétion de grandes
régions du chromosome (Bergthorsson & Ochman 1995). Ces régions sont associées à des
îlots de pathogénicité (Groisman & Ochman 1997), au transfert d'opérons complets
(Lawrence & Roth 1996), et à l’insertion multiple de séquences d’insertion (Bergthorsson
&
Ochman 1998). Il est donc clair que le transfert horizontal a très fortement conditionné
l'évolution de ces bactéries. Nous développons dans ce chapitre notre modèle de transfert
horizontal par transformation chez Bacillus subtilis (voir chapitre 7).
8.1 La sexualité chez les bactéries
Mayr a défini le concept biologique d’espèce à partir de
l’isolement reproductif (Mayr
1963). Cependant cette définition est totalement inadéquate pour décrire la taxonomie
bactérienne, puisque la reproduction sexuée n’existe pas chez les bactéries. Une définition
biologique de l’espèce incluant tous les domaines du vivant devrait donc reposer sur
l’isolement génétique plutôt que sur l’isolement reproductif
(Matic 1995). C’est l’isolement
par rapport au partage des gènes, via diverses formes de sexualité, qui est à la base d’un
concept universel d’espèce. Les bactéries se reproduisent de façon asexuée, mais des
génomes recombinants peuvent être crées par des mécanismes indépendants de la division
cellulaire. La division classique entre lignée somatique et lignée germinale disparaît chez les
bactéries, mais une certaine forme de sexualité, le transfert d’information génétique d’une
cellule à autre, est assurée par trois types différents de mécanismes.
79
1. La transduction est le transfert d’ADN par l’intermédiaire d’un bactériophage.
Les bactériophages sont de taille très variable, entre 3569 pb pour le phage MS2
et plus de 670 kb pour le bacteriophage G (Casjens 1998). Ce transfert peut
impliquer soit l’ensemble des gènes chromosomiques (e.g. la transduction
généralisée du phage P1), soit un nombre restreint de marqueurs chromosomiques
(e.g. transduction spécialisée du phage λ) (Birge 1994). La transduction est très
limitée, du point de vue écologique et évolutif, par la spécificité de l’hôte et par
l’efficacité de la recombinaison (Matic 1995) (Birge 1994).
2. La conjugaison ou transfert d’ADN plasmidique et chromosomique prend place
lors d’un "accouplement" entre deux bactéries (Christie et al. 1987). Le contact
initial a lieu entre l'extrémité du pilus de la cellule donneuse et l’enveloppe
extérieure de la cellule réceptrice. Les plasmides qui contiennent l’information
nécessaire à l’établissement du pilus sont dits conjugatifs. Ceux qui contiennent
l’information nécessaire pour le transférer sont dits mobilisables. Les plasmides
qui sont à la fois mobilisables et conjugatifs sont dits auto-transmissibles (Clark &
Warren 1979). Le plasmide peut s’insérer dans le chromosome de l'hôte et
s’exciser ensuite. La quantité d’ADN ainsi transférée peut atteindre quelques Mb,
mais elle est usuellement de l’ordre de quelques dizaines de kb. La présence de
séquences d’insertion provoque souvent l’excision erronée du plasmide. Celui-ci
devient ainsi porteur d'une nouvelle information génétique qui peut être passée à
d’autres chromosomes
permettent
(Amábile-Cuevas & Chicurel 1992).
Les plasmides
ainsi l’élimination ou l'addition d’information génétique dans le
chromosome bactérien. Néanmoins, le transfert de gènes
entre espèces différentes
d’origine chromosomique est relativement moins fréquent que le transfert de
plasmides (Matic 1995).
3. La transformation consiste en l'entrée de l’ADN libre dans la cellule bactérienne.
Cet ADN peut s’intégrer dans le chromosome
ou dans un plasmide par
recombinaison homologue. De manière alternative, il peut s’établir en tant que
réplicon lorsqu'il contient une origine de réplication et parvient à se circulariser
(Dubnau 1999). Seules les cellules compétentes parviennent à attacher et faire
entrer de l’ADN libre. Cet état de développement est spécifique des bactéries
naturellement transformables. On a identifié des bactéries compétentes
plusieurs groupes taxonomiques,
tel que les protéobactéries
dans
(Haemophilus
influenzae, Neisseria gonorrhoeae, Helicobacter pylori), les firmicutes (Bacillus
subtilis, Streptococcus pneumoniae),
que
chez
les
archaebactéries
les Cyanobactéries (Synechocystis spp) ainsi
(Methanobacterium
Methanococcus voltae).
80
thermoautotrophicum,
8.2 La recombinaison et le transfert horizontal
Chez les bactéries on peut distinguer trois types principaux de recombinaison (Matic
1995) :
1. La recombinaison assortative qui modifie les génomes par la recombinaison des
allèles présents dans la population (Graham & Istock 1978) (Maynard-Smith et
al. 1991).
2.
La recombinaison intragénique qui créée nouveaux allèles par recombinaison de
fragments des allèles existants (Riley & Labedan 1997).
3. La recombinaison additive qui insère des gènes d’autres espèces dans le
chromosome sans qu'un homologue soit nécessairement déjà présent (Médigue et
al. 1991) (Lawrence & Ochman 1998).
Bacillus subtilis a une structure génomique très différente d'Escherichia coli. En effet,
il n’a pas de séquences d’insertion, ni de plasmides conjugatifs ou mobilisables, ni d'îlots de
virulence (Kunst et al. 1997). En conséquence on s’attendrait à observer de faibles taux de
transfert d’information par recombinaison additive. Celle-ci serait donc restreinte
aux zones
d'intégration des phages. Néanmoins, la séquence complète a révélé de nombreux éléments
transférés, agrégés dans plusieurs régions du chromosome (Kunst et al. 1997). Il nous paraît
excessif de croire que les phages de Bacillus subtilis soient les seuls responsables de ce
transfert. Les phages de Bacillus subtilis sont tous du type ADN double brin et pratiquent
presque exclusivement la transduction spécifique, ce qui limite considérablement la taille et
la variété de l’ADN transféré (Birge 1994). De
plus ces phages très spécifiques transportent
difficilement l'ADN d’autres espèces. La répartition des répétitions chez Bacillus subtilis
suggère que le mécanisme responsable du transfert horizontal est exactement celui que les
biologistes utilisent depuis toujours pour le clonage chez cette bactérie. C'est là le modèle
que
nous proposons.
8.3 La transformation naturelle
La compétence
pour la transformation
naturelle
requiert
des changements
physiologiques complexes qui sont déclenchés dans des conditions de croissance spécifiques.
Neisseria gonorrhoeae est compétente de façon constitutive, mais la plupart des bactéries
sont compétentes temporairement (Lorenz & Wackernagel 1994). Ainsi, chez Bacillus
subtilis la compétence est propre au début de la phase stationnaire de croissance, chez
Haemophilus influenzae elle arrive lors du changement vers un milieu pauvre. Par contre
chez Deinococcus radiodurans la compétence est propre à la phase exponentielle de
croissance (Lorenz & Wackernagel 1994). Chez Bacillus subtilis, la compétence est
au moment de la phase stationnaire de croissance, c’est-à-dire au moment où la cellule
atteinte
risque
la mort par absence de nutriments (Dubnau 1993). Dans cette situation, l’intégration
d’ADN allogène permet l’acquisition de nouvelles fonctions
comme la réparation de l’ADN
(Michod et al. 1988) (Hoelzer & Michod 1991) (Redfield et al. 1997).
81
Les réseaux de régulation de la compétence sont assez complexes et, chez Bacillus
subtilis, font intervenir de manière coordonnée plus de 140 gènes (pour des
complètes voir (Dubnau 1991) (Solomon &
descriptions plus
Grossman 1996)). La fraction de la population
bactérienne qui devient compétente varie significativement
suivant les différentes bactéries.
Cette fraction est résiduelle chez P. stutzeri, elle varie de 10 % à 25 %
et elle atteint 100 % chez S. pneumoniae
et Haemophilus
chez Bacillus subtilis,
influenzae (Lorenz &
Wackernagel 1994).
Deux voies principales d’acquisition d’ADN ont été très étudiées, l'une pour les
bactéries
Gram positives
protéobactéries
(le
modèle
Streptomyces-Bacillus)
(le modèle Haemophilus-Neisseria).
et
Cependant,
l'autre
on connaît
intermédiaires entre les deux modèles ainsi que des cas qui ne relèvent ni de l'une
catégorie (Solomon & Grossman 1996) (Saunders et al. 1999). Dans
pour
les
des cas
ni de l'autre
la suite, nous passerons
en revue les différentes étapes de ce processus pour les deux modèles.
Attachement de l’ADN. Chez Bacillus subtilis et
S. pneumoniae l’ADN double brin
s'associe rapidement à la membrane des cellules compétentes pour former un complexe
stable (Lorenz & Wackernagel 1994). Environ 50
sites (S. pneumoniae) sont impliqués dans
1991).
Dans certaines conditions
sites (Bacillus subtilis) et entre 30 et 80
l’attachement de l’ADN à la membrane (Dubnau
Haemophilus
influenzae
incorpore
aussi l’ADN
d’organismes proches (Postel & Goodgal 1966), mais contrairement aux cas précédents,
l'incorporation résulte de la reconnaissance d’une séquence particulière dans l'ADN. Cette
séquence (USS de Uptake Signal Sequence) est dispersée dans le génome sous la forme
d'environ 1500 copies (Smith et al. 1995). L’USS est spécifique de chaque organisme et
contient un consensus de 9 pb chez Haemophilus influenzae (AAGTGCGGT) et 10 pb chez
N. gonorrhoeae (GCCGTCTGAA) (Kroll et al. 1998).
Pénétration de
l’ADN. Après son attachement à la membrane, l’ADN est découpé
en morceaux d’environ 6 kb (S. pneumoniae) à 10 kb (Bacillus subtilis) (Dubnau &
Cirigliano 1972) (Fornilli & Fox 1977).
Cette taille semble être assez variable puisque chez
Bacillus subtilis des transformations de fragments de 300 pb ont été rapportées (Zawadzki
& Cohan 1995). Pendant le passage à travers la membrane, l’ADN est mis sous forme
simple brin et pénètre dans la cellule par son extrémité 3’ (Vagner et al. 1990). Chez
Haemophilus influenzae, l’ADN est d'abord transporté sous forme double brin jusqu’au
"transformasome", où il reçoit une protection
contre les DNAases (Lorenz & Wackernagel
1994). Ce n’est qu’ensuite qu'il est transféré dans le cytoplasme.
La transformation suit trois mécanismes différents en fonction de la nature
Dans la transformation par remplacement,
de l’ADN.
l’ADN donneur remplace des séquences
homologues présentes dans le chromosome ou les plasmides de l’hôte. L’ADN donneur et
l'ADN receveur interagissent pour former un ADN héteroduplex (chez Bacillus subtilis, S.
pneumoniae
et Haemophilus
influenzae), à partir duquel se fait la recombinaison
homologue, par intervention de la protéine RecA (Lorenz & Wackernagel 1994). La
82
concentration de cette protéine augmente de 14 fois après l’induction de la compétence,
chez Bacillus subtilis (Lovett et al. 1989).
Dans la transformation
par plasmides
un nouveau réplicon est établi sans
recombinaison homologue. Puisque le plasmide est coupé et mis sous forme simple brin
avant d'être conduit à travers la membrane, il faut le reconstruire dans le cytoplasme. La
difficulté de ce processus explique l’efficacité réduite de la transformation par plasmides, qui
est très inférieure à celle de l’ADN chromosomique (Canosi et al. 1981). L’efficacité de la
transformation augmente comme le carré de la concentration en plasmides. L’entrée de
copies multiples du plasmide facilite la reconstruction correcte parce
que ces copies peuvent
s'hybrider pour rétablir une molécule circulaire (Saunders & Guild 1981). Ceci explique sans
doute l’efficacité beaucoup plus importante
de la transformation de plasmides polymériques
chez Bacillus subtilis (Mazza & Galizzi 1989).
La récupération d’un plasmide localement homologue au chromosome
voie alternative à celle décrite plus haut.
peut suivre une
La récupération facilitée de plasmides consiste en
la reconstruction du plasmide à l’aide d’une recombinaison homologue partielle avec le
chromosome (Lopez et al. 1982). Dans cette voie l’ADN donneur et le chromosome font
l'objet d'une recombinaison homologue sous l’action de RecA. Ensuite, la synthèse
de l’ADN
et l’action d’une ligase permettent la circularisation de l’ADN simple brin (Canosi et al.
1981), qui passe finalement en double brin (Figure 8.1). Dans cette voie, l’efficacité de la
transformation
dépend linéairement de la concentration
d’ADN et non plus de façon
quadratique (Canosi et al. 1981).
Synthèse d'ADN
Ligase
Recombinaison
Figure 8.1 - Mécanisme probable de la transformation facilitée des plasmides.
8.4 Barrières à la sexualité bactérienne
Plusieurs systèmes et mécanismes forment des barrières à la sexualité bactérienne.
Systèmes
de restriction.
Puisque l’ADN pénètre normalement la cellule sous la
forme d'un simple brin, les systèmes de restriction sont peu efficaces comme barrière
(Cohan et al. 1991) (Levin 1993) (Lorenz & Wackernagel 1994). Nous y reviendrons au
chapitre 9.
Signaux de reconnaissance.
Plusieurs bactéries Gram négatives requièrent des USS
pour l’introduction de l’ADN allogène. Naturellement cela impose un plus grand isolement
sexuel de l’espèce (Smith et al. 1995). Néanmoins, il a été récemment montré que, malgré
les différences entre
les USS de Haemophilus
influenzae et N. gonorrhoeae,
recombinaison entre ces deux bactéries est fréquente (Kroll et al. 1998).
83
la
Divergence en séquence.
La divergence entre les séquences constitue une forte
barrière à la recombinaison et donc à la sexualité bactérienne (voir chapitre 7). Néanmoins,
une similarité partielle peut suffire pour intégrer de l’information
génétique par
recombinaison Campbell (voir en bas).
8.5 Un modèle pour le transfert horizontal chez Bacillus subtilis
Le chromosome de Bacillus subtilis est celui qui a la plus faible densité de répétitions
parmi les génomes analysés dans l’article du chapitre 7. Un tiers de
ces répétitions se trouve
dans le prophage SPβ; 8 % sont constitués par des éléments des opérons d'ARNr
et moins de
10% sont liées à d’autres éléments comme les ARNss et les terminateurs de transcription.
Les 50 % restants constituent un ensemble homogène composé des répétitions dont les
occurrences sont proches, à une distance moyenne de 10 kb. La plupart de ces occurrences
sont situées dans les gènes, mais ne les recouvrent que partiellement.
Malgré sa compétence et son caractère non clonal,
Bacillus subtilis ne possède pas de
séquences d’insertion, ni de transposons; il ne transforme pas de plasmides monomériques
sans inserts chromosomiques et il ne fait pas de la conjugaison (Graham & Istock 1978)
(Lorenz & Wackernagel 1994). Puisque la plupart des mécanismes de recombinaison
additive sont basées sur ces éléments, nous avons proposé un modèle différent pour
expliquer l’origine de l’ADN non homologue inséré chez Bacillus subtilis. Le mécanisme
proposé (i) n’a pas besoin de séquences d’insertion, (ii) profite du caractère compétent non
spécifique de Bacillus subtilis, et (iii) explique la présence d’occurrences proches des
répétitions dans le chromosome (Rocha et al. 1999a). Nous suggérons que ces répétitions
sont des vestiges d’événements anciens de transfert horizontal dans des cellules
compétentes
via un mécanisme intégratif du type Campbell (Figure 8.2).
Nous avons précédemment décrit la compétence chez les bactéries. Nous revenons
maintenant sur quelques points plus précis qui supportent notre modèle. L’ADN simple brin
pénètre les cellules de Bacillus subtilis après une interaction non spécifique avec la
membrane, où il est coupé en morceaux (Dubnau 1993). La taille de ces morceaux a été
mesurée par des méthodes physiques (Dubnau & Cirigliano 1972) et
& Fox 1977) qui ont rapporté des tailles
microscopiques (Fornilli
moyennes de 8,5 kb et 11 kb, respectivement. La
taille moyenne des 16 éléments que nous proposons être des Eléments Insérés (IE) chez
Bacillus subtilis est de 10.6 kb. Dans notre mécanisme, il faut que l’ADN donneur soit
préalablement circularisé pour arriver à s’intégrer par un mécanisme de type Campbell.
Ceci,
nous l’avons vu dans les premiers paragraphes de ce chapitre, est facilité quand l’ADN
donneur est localement homologue avec le chromosome (Canosi et al. 1981). Après la
circularisation, l’élément d’ADN n’est plus discernable d’un plasmide intégratif typique de
Bacillus subtilis (Mazza & Galizzi 1989) (Dubnau 1993). Puisque la récupération du
plasmide est faite par recombinaison, il faut
que les répétitions soient suffisamment grandes
84
pour permettre l’action de RecA. De fait, leur taille moyenne est au delà de 70 pb et leur
taille minimale est toujours supérieure au minimum requis chez Bacillus subtilis (24 pb).
ADNdb
Homologie
Etendue
chromosome
Recombinaison
homologue
Homologie
locale
ADNc irc
IE
Intégration
Campbell-like
Figure 8.2 - Proposition de mécanisme évolutif pour le transfert horizontal chez Bacillus subtilis. Après
pénétration, l'ADN peut suivre trois voies différentes : i) L’ADN est dégradé s’il n’a aucune similarité avec le
chromosome. ii) Si l’ADN est localement homologue avec le chromosome sur une longueur suffisante il
s’intègre par recombinaison homologue. iii) Si
l’ADN est localement homologue avec le chromosome sur une
courte longueur, il peut, après circularisation, s’intégrer via un mécanisme du type Campbell. Seule cette
dernière voie laisse une trace sous la forme d'une répétition.
Les IEs occupent environ 5 % du chromosome de Bacillus
subtilis. Elles reflètent très
probablement des acquisitions récentes de matériel génétique, puisque les répétitions sont
ensuite effacées par mutation en l’absence de fortes contraintes
interprétation est renforcée par l’observation que 50 % des gènes des
classe d’usage du code des gènes transférés horizontalement. Cette
sélectives. Notre
IEs appartiennent à la
classe contient seulement
13 % des gènes de Bacillus subtilis (8 % après l’exclusion des prophages SPβ et PBSX)
(Kunst et al. 1997) (Moszer 1998). Environ 60 % de ces gènes n’ont pas de fonction
connue et ne ressemblent à aucune autre séquence dans les bases de données. Ceci suggère
qu’ils ne sont pas des gènes essentiels à la survie de la cellule. La classification fonctionnelle
des gènes de fonction connue dans les IEs indique une sur-représentation
typiquement transférés horizontalement
de gènes
(Syvanen 1994), comme les gènes liés à la
compétence, à la résistance aux antibiotiques, des gènes codant pour les flagellines, des
transporteurs ABC et les systèmes de restriction, modification et réparation.
Enfin, il est intéressant à noter que Methanobacterium thermoautotrophicum
révèle
une distribution spatiale de répétitions similaire à celle trouvée chez Bacillus subtilis. Cette
bactérie est également compétente généraliste et ne contient pas non plus de séquences
d’insertion dans son génome. Il est donc probable que ce mécanisme évolutif est présent
ailleurs dans le monde bactérien.
85
9. La nature égoïste des systèmes de restriction
9.1 Les systèmes de restriction
et modification
de type II et la défense
cellulaire
Les Systèmes de Restriction et Modification (SMR) sont propres
aux procaryotes et à
leurs phages (Roberts & Macelis 1997). Leur présence rend les bactéries temporairement
immunes aux phages à ADN double brin. Puisque cette caractéristique a été à l’origine de
l’identification des SMR, on a cru pendant longtemps que
leur rôle évolutif essentiel était la
protection cellulaire contre l'ADN allogène. En effet, pour protéger la cellule il faut être
capable de distinguer l’ADN propre de l’ADN allogène. Ceci est réalisé de deux façons
différentes. Certains systèmes identifient l’ADN de la cellule par la méthylation
de
séquences spécifiques. Au contraire, d'autres systèmes, moins classiques, reconnaissent
l’ADN cellulaire par l'absence de certaines modifications. Dans ce cas, l’ADN de la cellule
est protégé par l’absence de marquage. On ne connaît qu'un nombre réduit de ces
derniers cas
dont le mécanisme est encore assez mal compris (Redaschi & Bickle 1996).
Les systèmes de restriction et modification classiques sont normalement divisés en
trois groupes, parmi lesquels le groupe 2 est le plus abondant et le plus étudié. Les systèmes
de ce groupe sont constitués par deux enzymes qui reconnaissent la même séquence d'ADN,
mais possèdent activités enzymatiques différentes. L’enzyme de restriction
est une
endodéoxyribonucléase qui coupe l’ADN si les séquences de reconnaissance (sites de
restriction)
ne
méthyltransférase
sont
pas
méthylés.
L’enzyme
de
modification
est
une
ADN
qui méthyle spécifiquement les bases A ou C dans la séquence de
reconnaissance. Ainsi, l’activité de la méthylase rend l’ADN résistant à l’activité de la
nucléase. Les SMR du groupe 1 sont constitués par un seul gène avec un domaine méthylase,
un domaine nucléase et un domaine de reconnaissance (Redaschi & Bickle 1996). Ces
86
systèmes, ainsi que ceux du groupe 3, n’ont été trouvés que dans
les enterobactéries (Roberts
& Macelis 1997). Dans la suite de ce chapitre, nous noterons par SMR les SMR du type 2.
Les SMR sont très répandus chez les procaryotes. Près de 3 000 systèmes ont été
identifiés chez plus de 150 espèces différentes, dans presque tous
les domaines taxonomiques
(Roberts & Macelis 2000). Chez Escherichia coli et S. typhimurium
on connaît plus de 150
types différents de SMR (Roberts & Macelis 2000). Les différentes souches d’une même
espèce possèdent souvent des SMR très différents en termes de
similarité entre les séquences
de reconnaissance. En conséquence les arbres phylogénétiques basés sur ces systèmes n’ont
rien à voir avec les arbres classiques du monde bactérien en particulier ceux qui sont
les ARNr (Lauster 1989) (Jeltsch et al. 1995).
basés sur
La seule explication de cette observation est
le transfert inter-espèce permanent de SMR au cours de l’histoire évolutive (Jeltsch &
Pingoud 1996) (Kita et al. 1999). Ainsi, le transfert horizontal constitue le véhicule
privilégié de dissémination de ces systèmes, ce qui constitue une originalité parmi les
systèmes de la machinerie qui gère l’information chez les bactéries (Rivera et al. 1998).
L'invasion de l’endonucléase peut être fatal pour la cellule si l’ADN n’est pas
convenablement méthylé. Ainsi, les SMR sont finement régulés de manière à ce que
l’acquisition du système par une cellule vierge soit suivie de l’expression
la méthylase. Ce n’est qu’ensuite que la nucléase est exprimée (Redaschi &
initiale exclusive de
Bickle 1996). La
plupart des séquences de restriction reconnues par les SMR sont des palindromes de 4 à 8
nucléotides. Les cas les plus fréquents sont ceux des palindromes de taille 4 et 6 nucléotides
(Roberts & Macelis 1997). Les séquences de restriction des différents SMR sont tellement
diverses qu’il n’y a qu’un seul palindrome de taille 4 pour lequel aucun système de
reconnaissance n'est connu (AATT). Tant la coupure que la méthylation sont réalisées
symétriquement par rapport au centre du palindrome. Cette précision, alliée
à l’existence de
systèmes aussi variés, a fait des SMR un des outils les plus populaires de la biologie
moléculaire.
9.2 Premières études sur le rôle évolutif des systèmes de restriction
et
modification de type II
Les systèmes de restriction ont
été initialement identifiés par la difficulté d’infection
de certaines souches de Escherichia coli par des phages λ produits à partir d’autres souches
(Arber 1965). Deux observations ont été à l’origine de l’hypothèse d'un
système de défense.
Premièrement il est devenu évident que les SMR permettent la discrimination entre l’ADN
de la cellule et l’ADN allogène. Deuxièmement, les SMR rendent difficile l’invasion de la
cellule par les phages. L’hypothèse que les SMR seraient l’arme de défense bactérienne
contre l’invasion des phages est donc longtemps restée un paradigme des études évolutives
sur ces systèmes (Levin 1993) (Redaschi & Bickle 1996).
Cette idée s’ajustait parfaitement au courant adaptationiste des années 60 et 70
(Maynard-Smith 1978) (Gould & Lewontin 1979). Néanmoins, personne n’avait réussi à
87
démontrer que l’utilité de ces systèmes était suffisante pour justifier leur universalité
(Korona & Levin 1993). Vers la moitié des années 80 on connaissait déjà la spécificité de
quelques centaines de systèmes de restriction et les premières preuves que les phages
évitaient les sites de restriction sont apparues (Krüger & Bickle 1983). Plus tard, l’analyse
de la fréquence des sites de restriction a révélé que l’évitement des sites de restriction était
caractéristique de plusieurs phages à ADN (Sharp 1986). Ces observations étaient prévues
par l’hypothèse de défense. Les phages utilisent plusieurs stratégies pour échapper aux
défenses bactériennes : (i) l’inhibition de l’action des enzymes de restriction (Krüger &
Bickle 1983) (Belogurov & Delver 1995) ; (ii) l'utilisation de bases modifiées (Krüger &
Bickle 1983) ; (iii) la méthylation codée par le phage (Birge 1994) ; (iv) l'évitement des
sites de restriction (Sharp 1986). L’étude d’isolats naturels de coliphages a néanmoins
révélé
que l’évitement des sites de restriction est la forme privilégiée de contournement
de la
barrière des SMR (Korona et al. 1993).
La question de la fréquence des sites de restriction a souvent été abordée lors des
travaux sur le biais des mots (Karlin & Macken 1991) (Karlin et al. 1992) (Burge et al.
1992). Ces travaux montrent que tous
les palindromes de taille 4 et 6 sont très évités chez
les phages. Ceci est la conséquence de la diversité des SMR présents au sein d’une même
espèce. Pendant son évolution, le phage est soumis à des pressions de sélection différentes
suivant le SMR qu'il rencontre.
Ainsi pendant
son histoire
évolutive
le phage a
successivement évité des sites de restriction différents. En résumé, si pour échapper aux
défenses bactériennes il faut éviter les sites de restriction
et si différentes souches
reconnaissent des sites différents, la meilleure stratégie est d’éviter systématiquement tous
les sites de restriction possibles. Puisque la plupart des palindromes sont des sites de
restriction potentiels, il en résulte l’évitement général des palindromes.
A ce moment sont apparues les premières difficultés dans l’hypothèse de défense. La
même analyse appliquée aux génomes bactériens révèle également l'évitement
palindromes et des sites de restriction (Karlin et al.
des
1992). On a suggéré que ceci serait dû à
d'éventuelles erreurs de restriction du SMR. La probabilité de destruction par erreur du
chromosome bactérien serait ainsi minimisée par l’évitement des sites de restriction. Les
SMR sont continuellement en cours de transfert horizontal (Jeltsch & Pingoud 1996)
(Bujnicki 2000), en conséquence les bactéries possèdent au cours de leur histoire évolutive
de nombreux systèmes différents. Ainsi, elles aussi auraient tendance à éviter presque tous
les palindromes.
Dans une tentative d'établissement d’un modèle évolutif des SMR, Levin et collègues
ont rencontré une autre difficulté inattendue (Korona et al. 1993). La barrière contre
l’invasion, constituée par les systèmes de restriction, est
en fait d’efficacité très limitée. La
probabilité de méthylation du phage avant sa destruction par la nucléase varie entre 10-1 et
10-8. Dans une population typique de 1010 bactéries et phages, la probabilité d’une invasion
réussie par au moins un phage est donc très proche de 1. Or, après cette première invasion,
88
les copies de ce phage deviennent immunes au SMR et, puisqu'elles sont correctement
méthylés, elles envahissent la population clonale rapidement
(Korona et al. 1993). Ainsi le
système de restriction a au plus comme effet un léger retardement de l’invasion de la
population. Ceci est probablement insuffisant pour expliquer
le maintien de ces systèmes de
façon si généralisée dans le monde bactérien.
A l’époque où le modèle de défense commençait à montrer quelques faiblesses
Kobayashi et collègues proposaient un modèle alternatif basé sur la théorie des "gènes
égoïstes". C’est ce modèle que nous discutons dans la prochaine section.
9.3 Le modèle égoïste
9.3.1 La sélection à plusieurs niveaux
Darwin a considéré que la sélection n’agit que sur les organismes et cette idée a
perduré pendant une bonne partie du XXème siècle. Plus
récemment ce paradigme a été mis
en question en raison de son incapacité croissante à expliquer la sélection de groupe des
comportements sociaux et la dissémination "égoïste" de certains gènes (Depew & Weber
1995) (Sober 1995). En conséquence, on assiste aujourd’hui au développement de théories
cherchant à concilier ces différents niveaux
de sélection. La base d’une théorie de sélection
multi-niveaux à ainsi été proposé par Wilson et Sober (Wilson & Sober 1994). Ces auteurs
ont déplacé l’unité causale de l’évolution des réplicateurs vers les interacteurs. Les
interacteurs sont des individus Darwiniens et existent potentiellement
à plusieurs niveaux de
sélection (e.g. gènes, organismes, espèces). Le concept d’interacteur permet l'établissement
d’une théorie de l’évolution structurée de telle façon que les niveaux se suivent
hiérarchiquement. Les interacteurs sont des individus qui interagissent
avec l’environnement
de telle façon qu’une ou plusieurs de leurs parties présentent
un succès reproductif
différentiel, c'est à dire un transfert sélectif de leur matériel héréditaire à la génération
suivante (Gould & Lloyd 1999). Wilson et Sober suggèrent que l'identification
interacteurs soit faite à partir des concepts de
des
cohésion structurelle et de design fonctionnel
(Wilson & Sober 1994), mais ceci n'est pas encore consensuel (Gould
& Lloyd 1999). Il y a
donc une distinction fondamentale entre réplicateur et interacteur. Le réplicateur est une
entité qui produit des copies de lui-même, e.g. l’homme ou les séquences d’insertion.
L’interacteur
est
une
entité
qui interagit
directement,
comme
l’environnement de telle façon que sa réplication devient différentielle
cadre de cette théorie, la sélection naturelle
un
tout,
avec
(Hull 1980). Dans le
devient un processus dans lequel l’extinction et
la prolifération d’interacteurs sont les causes de perpétuation différentielle des réplicateurs
qui les produisent ou les contiennent.
Cette théorie postule que le gène peut être un niveau de sélection s’il se reproduit de
façon différentielle dans les organismes. Ceci est clairement
89
le cas des éléments mobiles tels
que les séquences d’insertion et, de l’avis de I. Kobayashi, c'est également le cas des
systèmes
de restriction.
9.3.2 L’égoïsme des systèmes de restriction
Les cellules constituent des environnements
dans lesquels les séquences d’ADN
peuvent se répliquer, muter et évoluer (Orgel & Crick 1980).
Les séquences d’ADN peuvent
contribuer à l'adaptation d’un individu, mais elles peuvent aussi augmenter leurs propres
chances de préservation. De fait, la seule pression que l’ADN supporte directement est la
pression de subsistance dans les cellules (Doolittle & Sapienza 1980). Si une mutation peut
augmenter la probabilité de subsistance, sans effet sur le phénotype
de l’organisme, alors des
séquences dont la seule raison d'être est leur propre préservation vont inévitablement
apparaître et se maintenir par sélection non-phénotypique (Doolittle &
Sapienza 1980). De
plus, si un groupe de gènes développe une stratégie pour augmenter leur probabilité
de survie,
alors aucune explication phénotypique additionnelle n'est nécessaire pour justifier son
origine et son existence (Williams 1966) (Dawkins 1976). Ainsi le système persistera dans
la population tant que sa capacité de reproduction dans les génomes compense son poids
phénotypique négatif.
Kobayashi et collègues sont arrivés au modèle égoïste après avoir constaté que la
perte des SMR rendaient les cellules non viables (Naito et al. 1995). Cette observation est
une conséquence du mode de fonctionnement des SMR. En effet, une bactérie qui perd son
SMR conserve pendant quelques générations une population défaillante en méthylase et en
nucléase. Or, les nucléases ont un temps de vie plus élevé que les méthylases. En
conséquence, après quelques générations, le chromosome ne sera plus protégé par les
méthylases et sera détruit par les nucléases restantes.
Des travaux postérieurs ont montré
compatibilité"
que les SMR forment
des "groupes de
à l’image des plasmides conjugatifs. Les systèmes de restriction
qui
reconnaissent la même séquence entrent en compétition dans un même génome, ce qui se
termine toujours par l’extinction de l'un des deux éléments (Kusano et al. 1995). Cette
compétition est probablement à l’origine des gènes régulateurs de l’expression de ces
systèmes (Nakayama & Kobayashi 1998). On a trouvé des systèmes de restriction qui
jouent
le rôle de poison et d'antidote dans certains plasmides afin d'éviter leur ségrégation
(Kulakauskas et al. 1995). Une fois le système installé, il méthyle l’ADN et seule la
présence du système ou l’invasion par un système avec la
de la cellule (Figure 9.1).
90
même spécificité permet la survie
R
inv asio n
du SRM
M
mét hylat ion
de l'ADN
RM
*
Chromosome
perte
SRM
dégradat ion du
chromosome
du
R
M
dégradat ion de
la mét hylase
*
Figure 9.1 - L’hypothèse égoïste pour expliquer l’existence des systèmes de restriction. Dans une première
étape le système envahit la cellule et exprime la méthylase qui protège le chromosome. Ensuite, si le système
est perdu la cellule est tuée par la nucléase. Ceci vient du fait que la durée de vie
de la nucléase est plus longue
que celle de la méthylase.
9.4 Les difficultés du paradigme
Au moment de la publication de l’hypothèse égoïste, la théorie de la
défense était déjà
ébranlée pour plusieurs raisons (Tableau 9.1). La première raison est de nature théorique.
Comment expliquer qu’une bactérie développe des systèmes de restriction pour
sa défense et
qu'ensuite elle les partage avec toutes les autres bactéries, même celles qui sont
phylogénétiquement lointaines ? Ceci
ne peut être expliqué par aucune théorie de sélection
de groupe connue, sauf si on admet que l'ensemble des bactéries ont une conception de
groupe face aux phages, ce qui semble assez douteux. Un deuxième problème évolutif est la
courte durée de la protection contre l’invasion de phages fournie par les systèmes de
restriction ainsi que nous l'avons précédemment mentionné. La compétition
entre les
systèmes de restriction chez un même hôte est également inexplicable dans le contexte
théorie de la défense et ramène clairement vers un contexte de gènes égoïstes. Ces
de la
difficultés
sont à la base de l’échec des modèles qui ont été proposés pour décrire l’évolution de ces
systèmes à partir de leur rôle uniquement défensif (Korona & Levin 1993) (Levin 1993).
L’hypothèse de défense ne peut non plus expliquer l’existence de systèmes qui
reconnaissent des sites de restriction à huit nucléotides. Grâce à leur taille, ces sites de
restriction sont trop rares (ou même absents) dans la plupart des phages. Néanmoins ils
existent dans les génomes des bactéries qui sont beaucoup plus grands. Enfin, les systèmes de
restriction sont inefficaces vis à vis des phages à ARN et à ADN simple brin, puisque la
nucléase n’agit que sur l’ADN double brin.
La découverte que la plupart des bactéries évitent également les palindromes de façon
importante et quasi générale a porté un autre coup à la théorie de la défense. Comment
91
expliquer, en effet, qu’un système défensif soit si contraignant pour le chromosome de
l’hôte qu’il façonne complètement son usage des
mots ? Chez Haemophilus influenzae, par
exemple, les 7 premiers mots les plus évités de taille 4 sont des palindromes. Le biais
par les systèmes de restriction constitue donc un fardeau important.
méthylation d’un génome n’est pas sans conséquences
imposé
Par ailleurs, la
négatives sur l’expressivité des gènes
(Reisenauer et al. 1999) et sur le taux de mutation (Lindahl 1993). Ainsi la théorie de la
défense ne pourrait se tenir que si les SMR étaient très efficaces,
ce qui, apparemment, n’est
pas le cas.
Tableau 9.1 - Les différences entre l’hypothèse de défense et l’hypothèse de gène égoïste.
Phénomène
Hypothèse de défense
Hypothèse gène égoïste
Occurrence généralisée des SMR
Défense contre phages et
plasmides
Résistance au déplacement par le
système de poison-antidote
Défense éphémère contre phages
Sélection à la colonisation
La défense est secondaire
Spécificité individuelle et
diversité collective
Sélection basée sur la fréquence
pour une défense efficace
Sélection basée sur la fréquence
via la compétition entre séquences
Absence d’homologie entre les
nucléases
Plusieurs origines indépendantes
Spécialisation précoce des
séquences
Sites longs
?
Existent dans les génomes
bactériens
?
Permet le fonctionnement du
système poison-antidote
Evolution et maintenance :
Organisation des gènes :
Restriction et modification
séparés
Liaison forte entre les deux gènes Co-régulation
Perte et gain simultanée du SMR
Transfert horizontal fréquent
Variation des défenses
Mobilité égoïste (reproduction)
Méthylases solo
?
Protection contre les SMR
Evitement des sites dans les
génomes bactériens
Défense contre les erreurs des
SMR
Protection contre les SMR
Enzyme de restriction methyl
spécifique
Défense contre les phages
methylés
Protection contre les SMR par
induction de apoptose
Systèmes d'anti-restriction :
Nous avons remarqué, lors de l’analyse de l’usage des mots chez Bacillus subtilis, que
les sites de restriction dans cet organisme étaient moins évités dans les régions transférées
horizontalement (Rocha et al. 1998). Ce moindre évitement des sites de restriction chez
Bacillus subtilis est particulièrement visible dans la région du prophage à ADN double brin
SPβ. Si les systèmes de restriction servent à éviter l’invasion des phages,
comment expliquer
que les régions de moindre biais dans le génome soient justement celles qui ont franchi la
barrière de défense ?
Nos résultats préliminaires favorisaient ainsi l’hypothèse de Kobayashi. Cependant
cette observation restait discutable parce que nous n'avions analysé qu'une seule bactérie et
parce que, chez Bacillus subtilis, les régions transférées sont essentiellement localisées
92
autour de la terminaison de la réplication. En conséquence nous avons entrepris une étude
plus générale sur l’évitement des palindromes dans les génomes bactériens et leurs phages.
9.5 Un schéma expérimental in silico
L’originalité de ce travail, par rapport à nos travaux précédents, a été la définition
d’une stratégie d’analyse très proche de la démarche typique de la biologie expérimentale.
Au contraire de la plupart des travaux de bioinformatique nous voulions confronter deux
hypothèses et, si possible, trancher en faveur de l'une d’entre elles.
La question est de savoir si les systèmes de restriction imposent un fardeau plus grand
dans les génomes bactériens ou dans les génomes de phages. Si nous arrivons à la conclusion
que les systèmes "pèsent plus" sur les génomes des phages il faudra considérer positivement
les hypothèses de défense. Si, au contraire,
les systèmes de restriction
pèsent plus
lourdement sur les génomes bactériens, ces systèmes devront être considérés comme
parasitaires. Naturellement nous ne pouvons pas tester cette hypothèse telle que nous
l’avons énoncé, puisque nous n’avons pas de mesure directe et objective
du "fardeau" que les
systèmes imposent sur les génomes. Ainsi, nous devons définir une mesure de ce fardeau qui
puisse être obtenu directement à partir de la séquence. Cette mesure est l’évitement des
mots dans le génome. Elle est directement liée à notre problème puisqu’elle mesure les
forces évolutives qui agissent sur la séquence. Nous supposons donc que les forces évolutives
(en dehors des systèmes de restriction) qui agissent sur la fréquence des palindromes sont
identiques dans les bactéries et les phages. Ceci paraît acceptable à la lumière des
connaissances actuelles. Certains palindromes jouent des rôles importants dans certaines
bactéries et certains phages, mais ceci n'est pas le
cas de la plupart des palindromes de taille
4 (16 palindromes) et 6 (64 palindromes).
Remise sous une forme testable la question sous-jacente à l'étude devient : étant
donnée une paire constituée par une bactérie (hôte) et un phage (parasite), lequel des deux
évite le plus les sites de restriction ?
Publication VIII
Rocha, EPC, Danchin A, Viari A (2000) The evolutionary role of restriction/modification
systems revealed by comparative genome analysis, en cours de redaction
9.6 Conclusions et perspectives
Nos résultats indiquent que le fardeau associé à l’existence de systèmes de restriction
semble plus lourd chez les bactéries que chez leurs phages. Ceci est clairement plus en faveur
93
de l'hypothèse égoïste que de l'hypothèse de défense. Néanmoins il reste encore quelques
questions en suspens.
Même en acceptant l’hypothèse égoïste, il est clair que les systèmes de restriction
représentent un obstacle à l’invasion de la cellule par les phages. On pourrait spéculer que,
dans certaines conditions, les systèmes de restriction présentent un fort avantage sélectif,
par exemple pendant la colonisation d’un
milieu à forte concentration en phages. Dans ces
conditions un retard de l’invasion peut être suffisant pour gagner la niche écologique
(Korona & Levin 1993).
Dans l'hypothèse égoïste, les systèmes de restriction, les bactéries et les phages
établissent entre eux un système complexe de relations hôte-parasite. Les phages et les
systèmes de restriction entreraient ainsi en compétition
pour parasiter les bactéries.
Pourtant, les bactéries peuvent se servir des systèmes de restriction pour combattre les
phages. Cette dynamique est très intéressante et mériterait une étude sérieuse du point de
vue de l’écologie évolutive. La facilité d’expérimentation dans ce système n’est pas un de
ses moindres atouts.
94
Les méthodologies
95
10. Statistiques sur les mots
Nous décrirons dans ce chapitre les fondements de l’approche Markovienne qui est à
la base des techniques d'identification de mots biaisés mises en œuvre dans les chapitres
précédents. Le lecteur moins intéressé par les aspects mathématiques pourra consulter
directement le résumé de la méthode qui clôt ce chapitre ou la deuxième publication du
chapitre 4.
Nous commencerons par présenter les
notions relatives aux chaînes de Markov et en
particulier aux chaînes homogènes. Ensuite nous présenterons la structure générale de
l’analyse et expliciterons la principale difficulté associée à cette approche : le calcul de la
variance des fréquences attendues des mots. Ensuite nous présenterons la simplification de
ces formules dans le cas de l'ordre maximal. Enfin, nous résumerons notre approche, le
raisonnement sous-jacent à l'utilisation de ce modèle et ses limitations.
10.1 Les processus de Markov
Un processus stochastique X={X(t), t ∈ T} est une collection de variables aléatoires,
c'est à dire que pour chaque t dans l’ensemble d’indices T, X(t) est une variable aléatoire. Si
l’ensemble d’indices T est un ensemble dénombrable alors X est un processus stochastique
discret. En raison de la nature intrinsèquement discrète des molécules d’ADN (considérée
comme une succession de bases), nous ne parlerons ici que des processus discrets.
Dans les processus stochastiques, le futur n’est pas déterminé de façon univoque. Par
contre, il existe des relations de probabilité
qui nous autorisent à réaliser des prévisions et à
prendre des décisions.
Définition 1 (adapté de (Feller 1968)). Une séquence
de variables aléatoires discrètes
constitue une chaîne de Markov d’ordre m si pour une succession finie
d’entiers {1, 2, ...,
r1, ..., rm, n}, la probabilité de la relation conditionnelle X(n)=x sous l’hypothèse X(1)= x1,
96
... , X(r1)= xr1, ..., X(rm)= xrm est identique à la probabilité conditionnelle X(n)=x sous
l’hypothèse plus restreinte X(r1)=xr1, ..., X(rm)= xrm.
En termes plus simples, étant donné les m avant-derniers états du système présent,
aucune donnée additionnelle sur les états passés du système ne
peut changer la probabilité de
l’état dans le futur. Le processus a donc une "mémoire" finie de taille m. Les chaînes de
Markov utilisées dans notre travail ont des probabilités de transition indépendantes de la
position relative de l’événement dans la chaîne complète des événements. Les chaînes qui
obéissent à cette propriété sont dénommées stationnaires (ou homogènes).
Les chaînes qui nous intéressent sont construites par un processus aléatoire à partir
d'un ensemble d'états fini. Dans le cas de chaînes de caractères (ADN) cet ensemble
l'alphabet sur lequel sont construites les chaînes. Nous appellerons Ei l'état i de
ei l’état du système à la position i
constitue
cet ensemble,
de la chaîne et pjk la probabilité de transition de l’état Ej
vers l’état Ek. Un état Ej est accessible à partir de l’état Ei s’il existe un
nombre de pas n sur
la chaîne pour lequel la probabilité de transition de l’état Ei vers Ej est
non nulle. Deux états
mutuellement accessibles communiquent
entre eux. Il est facile de démontrer que la
communication est une relation d’équivalence (Ross 1996). Deux états qui communiquent
appartiennent donc à la même classe. Ainsi, une chaîne de Markov est dite irréductible
s’il n’existe qu’une seule classe, i.e. si tous les états communiquent entre eux.
Définition
2 (Feller, 1968) : L’état Ej a une période t>1 si, à partir de Ej, la
probabilité d'y revenir en n pas est nulle sauf quand n est un multiple de t. La période est
donnée par t, qui est le plus grand entier avec cette propriété. Un état Ej est apériodique
s'il n'existe aucun t présentant cette propriété. La périodicité est une propriété de classe de
recurrence.
Définition 3 (Feller 1968) : L’état Ej est récurrent (ou persistant)
que la chaîne revienne à cet état au bout
si la probabilité
d'un nombre fini de pas est 1, il est transitoire si
cette probabilité est inférieure à 1. Pour un état persistant, on peut définir
de récurrence comme le nombre de pas moyen pour revenir à cet
le temps moyen
état. Si le temps moyen
de récurrence est infini, alors la chaîne est dite nulle. Si le temps moyen de récurrence est
fini alors la chaîne est dite positive. Les chaînes récurrentes irreductibles sur des espaces
d'état finis sont toujours positives.
Puisque le processus recommence chaque fois qu’il passe par Ej, les états persistants
sont visités un nombre infini de fois. La persistance est aussi une propriété de classe, i.e. si
Ei est persistant et Ei et Ej communiquent alors Ej est aussi persistant (Ross 1996). En
conséquence, dans une classe d'états finis persistants les transitions entre tous les états se
font avec la probabilité 1 en un nombre fini de pas. Ceci sera implicitement admis dans
notre analyse.
97
Définition 4 (Feller 1968) : Un
état persistant apériodique Ej avec un temps moyen
de récurrence fini est un état ergodique. Naturellement, l'ergodicité est une propriété de
classe, car si Ei communique avec Ej et Ei est apériodique alors Ej est également apériodique.
10.2 L'admissibilité des hypothèses de base
Dans l'approche que nous décrivons dans la suite nous accepterons
hypothèses de base qu'il convient de vérifier dans le cas de
certaines
chaînes d'ADN. En particulier on
fait l'hypothèse que la chaîne est irréductible, persistante, non-périodique et stationnaire.
Irréductibilité.
Une chaîne est irréductible quand tous les états communiquent avec
tous les autres. Dans une séquence biologique, il n'y a pas normalement de transitions
interdites et donc tous les états appartiennent bien à la même classe.
Persistance.
Il semble clair que les séquences biologiques sont normalement
persistantes. Si elles ne l'étaient pas il y aurait un certain nombre d'états qui disparaîtraient
le
long de la séquence. Ceci impliquerait que, à partir d'une certaine longueur, la chaîne serait
une répétition d'un sous-ensemble de symboles ou de mots.
Apériodicité. Du fait que le code génétique s'écrit en mots de 3 lettres, il y
a, dans les
gènes, une hétérogénéité dans les fréquences des mots entre les différentes positions des
codons (Figure 10.1). Ainsi, on a souvent rejeté l'hypothèse de non-périodicité et donc
l'utilisation de chaînes de Markov sur la base de cette observation. Il faut néanmoins
considérer que la définition précise de la périodicité implique qu'un état a une période t si la
probabilité d'y revenir est nulle pour toute étape sauf les multiples de t (Définition 2). Ce
type de contrainte, très forte, n'est, en pratique, jamais observé sur l'ADN.
Stationnarité.
Cette hypothèse considère que les matrices de transition sont les
mêmes partout sur la chaîne, ce qui est évidemment faux. En effet, l'existence de différents
objets dans les génomes et, en particulier, les différentes fréquences des nucléotides dans les
différentes positions des codons remet en cause cette hypothèse (Figure 10.1). Nous allons
essayer d'évaluer ici dans quelle mesure cette hypothèse est violée en pratique.
35
G
A
T
30
A
T
%
A
25
C
20
G
C
C
T
G
15
1
2
3
position dans le codon
Figure 10.1 - Distribution des différentes bases dans les codon des gènes de Bacillus subtilis.
98
Puisque chez les bactéries environ 90 % du génome est codant, nous détaillerons plus
précisément le problème de l'analyse des gènes. Le traitement complet de
ce problème passe
par l'analyse des biais dans les trois positions des codons et par la formulation précise de
modèles conditionnels pour les séquences codantes (Mathé 1996). Bien sûr, dans cette
approche certains mots ne seront biaisés que dans une phase codante. Ainsi, il devient
difficile de discerner les biais associés à l'existence de signaux de ceux simplement dus à
l'usage du code. Si nous sommes intéressés par des biais génériques, on peut imaginer de
regrouper les trois phases. Ceci fait perdre de la puissance au test, mais, par contre, permet
la détermination des mots vraiment biaisés sur l'ensemble des trois phases.
Le regroupement des trois phases n'est statistiquement valable que si leurs variances
sont à peu près similaires. En effet, si une des variances est beaucoup
totale sera inférieure à la variance de ce
plus grande la variance
groupe. L'analyse des nucléotides à chaque position
du codon montre, qu'en pratique, les variances sont bien voisines (Tableau 10.1).
Tableau 10.1 - Moyennes et variances des fréquences de nucléotides à chaque position
l'ensemble des gènes de Bacillus subtilis.
1
A
C
G
T
%
29,95
18,62
33,67
17,76
2
Var
1.77
1.60
1.98
1.36
%
33,15
20,93
14,98
30,94
3
Var
1.99
1.98
1.26
2.21
%
26,97
21,04
23,53
28,46
Var
1.85
1.89
1.69
2.44
du codon, observés sur
ensemble
%
Var
30,02
8.9
20,20
3.5
24,06
67.1
25,72
38.8
10.3 Les expressions asymptotiques et leurs simplifications
10.3.1 Expressions pour l’espérance et la variance des taux de comptage
Considérons une chaîne d’ADN de longueur n, représentée par la
succession de n bases
S=X1X2...Xn, générée par un processus de Markov stationnaire d’ordre m sur l’alphabet
A={A, C, G, T}. Le nombre NW d’occurrences d’un mot de longueur h, W=w1w2...wh, est
donnée par :
NW = N (W ) = N ( w1w2 ...wh ) =
n − h +1
∑1{Xi = w1,..., Xi + h −1 = wh }
i =1
où 1{.} est la fonction indicatrice.
La valeur attendue est µ (W ) = P{ Xi = w1 ,..., Xi + h −1 = wh } , qui dans un modèle de
Markov d’ordre m, a comme estimateur naturel :
h−m
1 ∏ j =1 N ( w j ...w j + m )
E( N (W )) =
n ∏ h − m N ( w j ...w j + m −1 )
(Eq. 10.1)
j =2
L'analyse statistique consiste en la comparaison de cette valeur attendue avec la
valeur observée. Ceci passe par le calcul de la statistique centrée réduite :
99
N (W ) − E (W )
Var (W )
ZW =
(Eq. 10.2)
Le calcul de la variance de W n’est pas simple, même pour un modèle Markov d'ordre
1 et la matrice de covariance est encore plus compliquée (Kleffe & Borodovsky 1992). Le
calcul de ces covariances est très compliqué pour des mots longs et intraitable pour des
ordres supérieures à 1. Ainsi, une approche alternative basée sur des résultats de Whittle et
de Cowan (Whittle 1955) (Cowan 1991) a été développée. Cette approche aboutit à une
approximation asymptotique Gaussienne du biais d’un mot par rapport à une chaîne de
Markov (Prum et al. 1995) (Schbath 1995).
10.3.2 Résultats asymptotiques
Nous présenterons ici un résumé des théorèmes et lemmes concernant les résultats
asymptotiques pour les chaînes d'ordre m. Nous simplifierons un peu la
notation par rapport
aux travaux de S. Schbath. Tous ces résultats sont dérivés des modèles
conditionnels qui sont
exposés en détail dans (Schbath 1995).
Théorème 1 (Schbath 1995) - La statistique centrée réduite
Zm =
NW − Em (W )
Varm (W )
(Eq. 10.3)
est définie pour n suffisamment grand et converge vers une variable aléatoire Gaussienne
centrée réduite.
Lemme 1 (Schbath 1995)- L’espérance asymptotique pour une chaîne de Markov
d’ordre m est donnée par :
h−m
∏ j =1 N (w j w j +1...w j + m )
nEm (W ) =
h−m
∏ j = 2 N (w j w j +1...w j + m −1 )
(Eq. 10.4)
Lemme 2 (Schbath 1995)- La variance asymptotique pour une chaîne de Markov
d’ordre m est donnée par :
h − m −1
Varm [W ] p
= µ (W ) + 2 ∑ δ (W ; d ) µ (W ( d ) W )
n → +∞
n
d =1
lim

na1. ..a m + 2
1 − 2 nw1 ...w m + 
na1 ...a m+1 2
+ µ (W )  ∑
− ∑
+

a1 ,..., a m µ ( a1 ...am ) a1 ,..., a m+1 µ ( a1 ...am +1 ) µ ( w1 ...wm ) 
(Eq. 10.5)
2
où W(d)W est le mot obtenu par concaténation des d premières lettres de W avec W (e.g.
pour W=CGCGC, on a W(1)W=CCGCGC; W(2)W=CGCGCGC).
100
Le terme δ(W;d) corrige les effets de chevauchement
lettres de W sont les mêmes que les dernières h-d
: δ(W;d)=1 si les premières h-d
lettres ; δ(W;d)=0 dans les autres cas (pas
de chevauchement).
Par ailleurs,
na1 ...a m+1 =
h − m +1
∑1{w j = a1; w j +1 = a2 ;...; w j + m = am +1}
j =1
et
na1 ...a m + = ∑ na1 ...a m b = ∑
b
b
h − m +1
∑1{w j = a1; w j +1 = a2 ;...; w j + m −1 = am ; w j + m = b}
j =1
sont des comptages du mot a1...am et a1...amX.
Lemme 3 (Schbath 1995)- La covariance asymptotique pour une chaîne de Markov
d’ordre m est donnée par :`
Covarm [W , W' ] h − m −1
= ∑ δ (W , W' ; d ) µ (W ( d ) W' ) + µ (W ) µ (W' ) *
n → +∞
n
d = m +1− h
lim
na1. ..a m + n' a1. ..a m +
na1 ...a m+1 n' a1 ...a m+1


− ∑
 (Eq. 10.6)
 ∑
a
a
a
a
)
µ
(
...
)
µ
(
...
a1 ,..., a m
a1 ,..., a m +1
m +1
m
1
1


*
 n'
n
1{w1 = w' 1 ;...; wm = w' m } 
w' 1 ... w' m +
− w1 ...w m + −
+
µ ( w1 ...wm )

 µ ( w1 ...wm ) µ ( w' 1 ...w' m )
où n a1 . ..am et n ' a1. ..a m sont les comptages du mot a1...am dans W et W' et w'i
est la lettre à
la position i de W'.
Le cas particulier δ(W,W';0)=1 arrive seulement si W=W' (chevauchement complet des
deux mots). Naturellement, dans ce cas le lemme 3 est réduit au lemme 2.
10.3.3 Simplifications dans le cas maximal
Les expressions
présentées
pour
les trois
lemmes
précédents
se simplifient
considérablement dans le cas d’ordre maximal (m= h-2). Ainsi, l’expression du Lemme 1
devient :
Em (W ) =
N ( w1w2 ...wm +1 ) N ( w2 w3 ...wm + 2 )
N ( w2 w3 ...wm +1 )
(Eq. 10.7)
10.3.3.1 Variance
La simplification de la formule pour la variance dans le cas de l’ordre maximal a été
faite à partir d’une approche basée sur les martingales (Schbath 1995). Ici, nous suivrons
une
voie différente, en la déduisant directement des formules asymptotiques. Ceci, bien que plus
compliqué, a l’avantage d’être immédiatement applicable à la covariance (qui n’était pas
disponible explicitement dans la littérature). A partir du lemme 2 on a :
101
lim
n → +∞
Varm [W ]
= µ (W ) +
(terme 1)
n
(1)
2δ (W ;1) µ (W W ) +
(terme 2)
2
2


n
1
−
2
n
n
a1. .. a m +
w1 ... w m +
a1 ... a m +1
µ (W ) 2  ∑
− ∑
+
 (terme 3)
a1 ,..., a m µ ( a1 ...am ) a1 ,..., a m+1 µ ( a1 ...am +1 ) µ ( w1 ...wm ) 
Considérons B (de beginning) le mot de taille h-1 obtenu de W, par suppression de la
dernière lettre (B=w1w2...wh-1), E (de end) le mot
de taille h-1 obtenu de W, par suppression
de la première lettre (E=w2w3...wh), M (de middle) le mot de taille h-2 obtenu de W, par
suppression de la première et la dernière lettre (M=w2w3...wh-1), Ms le mot de taille h-2
obtenu de W, par suppression des deux dernières lettres (Ms=w1w2...wh-2).
Le deuxième terme est nul si B≠E, puisque dans ce cas B et E sont incompatibles. Si
B=E (W est nécessairement une série consécutive de longueur h d’une seule lettre) on a :
2 µ (W (1)W ) = 2
µ ( w1w1w2 ...wh −1 )µ ( w1w2 ...wh )
µ ( w1w2 ...wh )2
µ (W ) 2
=2
=2
µ ( w1w2 ...wh −1 )
µ ( w1w2 ...wh −1 )
µ ( B)
La seconde égalité de l'expression précédente est due au
de Markov d’ordre h-2 et la troisième
fait qu’il s’agit d’un processus
égalité vient du fait que W est une simple série d’une
lettre.
Pour le troisième terme, on a :
∑
a1 ,..., a m
∑
4 / µ ( M ),
=
µ ( a1 ...am ) 1 / µ ( M ) + 1 / µ ( M s ),
a1 ,..., a m +1
na1. ..a m + 2
B= E
B≠ E
B= E
4 / µ ( B),
=
µ ( a1 ...am +1 ) 1 / µ ( B) + 1 / µ ( E ), B ≠ E
na1 ...a m+1 2
(1 − 2 * 2) / µ ( M ), B = E
=
B≠ E
µ ( w1 ...wm )  (1 − 2) / µ ( M s ),
1 − 2 nw1 ...w m +
En résumé :
Pour E=B on a (Ms=M) :
 2
Varm [W ]
2 µ (W ) 2
2
2
2
3 
= µ (W ) +
+ µ (W ) 2 
−
−
−
s +
s 
n → +∞
µ ( B)
n
 µ ( M ) µ ( M ) µ ( B) µ ( E ) µ ( M ) 
lim
=
µ (W )
[( µ( M ) − µ( B))( µ( M ) − µ( E ))]
µ ( M )2
Pour E≠B on a :
 1
Varm [W ]
1
1
1
1 
= µ (W ) + µ (W ) 2 
−
−
−
s +
s 
n → +∞
n
 µ ( M ) µ ( M ) µ ( B) µ ( E ) µ ( M ) 
lim
=
µ (W )
[( µ( M ) − µ( B))( µ( M ) − µ( E ))]
µ ( M )2
C’est le résultat qui se trouve dans (Schbath 1997).
102
10.3.3.2
Covariance
Nous traitons maintenant le cas W≠W'.
1
Covarm [W , W' ]
= ∑ δ (W , W' ; d ) µ (W ( d ) W' ) + µ (W ) µ (W' )
n → +∞
n
d = −1
lim
na1. ..a m + n' a1. ..a m +
na1 ...a m+1 n' a1 ...a m+1


− ∑

 ∑
µ ( a1 ...am )
µ ( a1 ...am +1 )
a1 ,..., a m +1

a1 ,..., a m
 n'
nw' 1 ...w' m +
1{w1 = w' 1 ;...; wm = w' m } 
− w1 ...w m + −
+
µ ( w1 ...wm )

 µ ( w1 ...wm ) µ ( w' 1 ...w' m )
Pour le premier terme on a :
µ (W' ( d ) W ) d = −1 et B' = E

δ (W , W' ; d ) µ (W ( d ) W' ) =  µ (W )
d = 0 et W = W'
µ (W (1)W' ) d = 1 et B = E'

Les autres termes se déduisent comme dans le cas de la variance. Le résultat final est
résumé sur la Figure 10.2 (O = oui ; N = non).
W=W'
µ (W )
[(µ ( M ) − µ ( B))(µ ( M ) − µ ( E ))]
µ( M) 2
O
N
E=B
O
B=B'
−
O
N
N
E'=B'
O
µ ( W ) µ (W ')
E=B'
O
O
B'=B
O
−
B'=E
O
µ (W ) µ (W ')
1
1
1
−2
+
µ ( B)
µ ( B ') µ ( M )
B=E'
O
µ (W ) µ (W ')
1
1
−
µ ( B ') µ ( B )
µ (W ) µ (W ')
µ ( B)
[
[
N
E'=B
[
1
1
1
−2
+
µ (B' )
µ ( B) µ ( M )
B=E'
N
N
µ(W ) µ(W ')
µ ( B)
O
µ (W ) µ (W ')
[
1
1
−
µ ( B ) µ ( B ')
[
[
[
[
Figure 10.2 - Résumé des expressions pour le calcul de la covariance pour une chaîne de Markov d'ordre
maximal.
10.4 La démarche
10.4.1 L'importance de l'ordre maximal
Dans les travaux présentés dans cette thèse, nous
avons toujours utilisé des chaînes de
Markov d'ordre maximal pour analyser les biais des mots. On calcule, dans ce modèle, la
103
fréquence attendue d'un mot par rapport aux plus longs sous-mots qu'il contient (voir
Tableau 10.2).
Pour une taille m donnée nous cherchons à établir si la construction aléatoire de la
séquence en tenant en compte les fréquences des mots de taille m-1 peut expliquer les
fréquences observées des mots de taille m. Ainsi notre
question revient à se demander quelle
est la probabilité de trouver plus (ou moins) ces mots dans l'ensemble des séquences
aléatoires qui partagent la même fréquence de mots de taille m-1.
Par exemple, pour un mot de taille 4 (GATC), on prend
en considération la fréquence
des deux mots les plus longs que le mot original contient (ici GAT et ATC) et donc
implicitement de tous les sous-mots de tailles inférieures. Si ces deux mots sont très
fréquents, nous nous attendons à ce que GATC soit également très fréquent simplement par
hasard. L'incorporation des sous-mots permet ainsi de normaliser les comptages du mot.
L'utilisation des chaînes d'ordre maximal est la meilleure solution pour l'analyse du
biais qui porte sur un mot spécifique. En effet, si un signal est exclusif d'un seul mot (e.g.
sites de restriction), l'analyse permettra d'identifier le biais qui
porte sur le signal au delà des
biais des mots plus petits qu'il contient. En revanche, si la taille
du signal est variable (e.g. 5
ou 6), alors cette approche va défavoriser la détection du biais des variantes
les plus longues.
Enfin, dans tous les cas, si le signal est dégénéré (e.g. le RBS), alors l'approche Markovienne
exacte risque de le manquer en raison des effets de dilution du biais sur les différentes
variantes du signal. Malheureusement, nous ne disposons pas encore de méthodes très
efficaces pour ce cas de figure.
Tableau 10.2- Expressions pour l'espérance d'un mot d'une certaine taille
de Markov d'un ordre quelconque (en colonne).
k
k (en ligne) par rapport à un modèle
ordre de la chaîne
K
0
1
2
2
∏i =1 N (wi )
-
-
-
3
∏i =1 N (wi )
∏i =1 N (wi wi +1 )
-
-
n2
N ( w2 )
∏i =1 N (wi )
∏i =1 N (wi wi +1 )
3
∏i = 2 N (wi )
∏i =1 N (wi wi +1wi + 2 )
-
2
...
k-2
n
4
3
4
n3
2
3
2
N ( w2 w3 )
...
k
-
∏i =1 N (wi )
k
n k −1
k −1
∏ k =1 N (wi wi +1 )
k −1
∏i = 2 N (wi )
k −2
∏i =1 N (wi wi +1wi + 2 )
k −2
∏i = 2 N (wi wi +1 )
104
∏i =1 N (wi ...wi + k − 2 )
2
N ( w2 ...wk −1 )
10.4.2 Les chaînes de Markov comme hypothèse nulle
L'idée sous-jacente à l'utilisation des chaînes de Markov n'est pas la construction
effective de séquences biologiques par des mécanismes stochastiques. Ceci n'aurait pas de
sens puisque les séquences biologiques contiennent des éléments fonctionnels contingents à
leur histoire évolutive. Par contre les chaînes de Markov produisent des séquences qui
respectent les propriétés moyennes des fréquences des mots d'une
certaine taille. Ainsi, elles
sont utilisées pour comparer une séquence biologique avec une séquence aléatoire de même
composition. Les chaînes de Markov constituent donc
une hypothèse nulle dont on peut se
servir pour établir l'importance des biais, et le z-score permet, ensuite, de tester cette
hypothèse.
10.4.3 Résumé de la méthode
Nous allons maintenant résumer la méthode expérimentale de l'analyse des biais de
mots par rapport à un modèle de Markov d'ordre maximal (Figure 10.5). Nous découpons
données en sous-ensembles homogènes par rapport au problème biologique
les
en question (voir
Chapitre 4). Ensuite nous déterminons le nombre de mots observés d'une taille k donnée.
Notre objectif est alors de déterminer dans l'ensemble de ces mots, lesquels sont biaisés.
Nous
utilisons dans ce but le z-score suivant :
zW =
N (W ) − E (W )
Var (W )
(Eq. 10.8)
où N(W) est le comptage observé du mot W=w1...wm, et E(W) et Var(W) sont données par :
E (W ) =
Var (W ) = E(W )
N ( w1w2 ...wm −1 ) N ( w2 w3 ...wm )
N ( w2 w3 ...wm −1 )
(Eq. 10.9)
[( N (w2 w3 ...wm −1 ) − N (w1w2 ...wm −1 ))( N (w2 w3 ...wm −1 ) − N (w2 w3 ...wm ))] (Eq 10.10)
N ( w2 w3 ...wm −1 )2
On sait que la distribution asymptotique de ce z-score est une Gaussienne centrée
réduite. Ainsi, pour des comptages suffisamment grands nous pouvons appliquer (10.8) pour
chaque mot de taille k. L'ensemble des mots biaisés est donc constitué par les mots dont les
z-scores sortent d'un intervalle de confiance défini a priori (d'après la loi Normale). Nous
utilisons généralement des intervalles de confiance à 1 ‰. Naturellement
si k est grand (e.g.
6), on s'attend à trouver quelques mots en dehors de l'intervalle fixé (puisqu’il y a 4096
mots
de taille 6). Néanmoins ceci ne sera pas très grave étant donné le nombre beaucoup plus
grand de mots repérés par la méthode (voir chapitre 4).
105
k
Mots chevauchants
de taille k
Modèle:
chaîne de Markov
d'ordre k-2
N
Comptages
observées N
Calcul des
comptages E
zW =
N(W ) − E(W)
Var (W)
Sur/sous représentation
Figure 10.5 - Résumé de la démarche de l'analyse de biais de mots.
106
11. Statistiques et algorithmes pour la recherche de
répétitions longues
Nous examinerons dans ce chapitre les questions statistiques et algorithmiques
relatives à la recherche de répétitions longues dans les
textes génomiques. Notre objectif est
l’identification des répétitions les plus longues présentes dans un génome. Ceci soulève
immédiatement deux questions complémentaires.
Quelle est la taille minimale d'une
répétition “longue” ? Quelle méthode efficace utiliser pour trouver ces répétitions ? La
réponse a ces deux questions constitue le but de ce chapitre.
Nous avons examiné dans le chapitre
précédant
les statistiques
l’identification des biais de fréquences de mots. Cette question est très différente
relatives
à
de celle que
nous traitons ici. En effet, notre problème n’est plus de vérifier si la fréquence d’un mot
donné est en accord avec la valeur attendue dans un modèle donné. Il s’agit
de trouver quelle
est la taille à partir de laquelle nous pouvons garantir que le mot n’est pas répété
simplement par hasard. Comme dans le chapitre précédant le mot hasard peut signifier
beaucoup de choses et est toujours dépendant d'un modèle sous-jacent. Dans ce
chapitre nous
considérons toujours des chaînes de Markov d’ordre 0, i.e. le modèle d'indépendance entre
les positions. Le chapitre précédent suggère que cette hypothèse est simpliste puisque les
mots sont biaisés par rapport aux modèles maximaux jusqu’au moins à la taille huit. Nous
discuterons cette simplification dans la section 11.1.2.
11.1 Segments homologues maximaux entre séquences aléatoires
11.1.1 Expressions de l'espérance et de la variance : cas d'une seule séquence
Considérons un alphabet A (e.g. dans l’ADN, A = {A, C, G, T}), de m lettres et une
séquence S de taille N. Un mot de taille k est un ensemble de k lettres consécutives d’une
107
séquence de S. Considérons le modèle d’indépendance où les positions consécutives de S
sont
des variables aléatoires, indépendantes et identiquement distribuées à valeurs dans A. On
note pi la probabilité d'apparition du ième symbole de A. Notre but est de caractériser les
longs mots répétées dans la séquence S au moins r fois (i.e. présents en r copies identiques).
Dans ce but, nous décrirons les propriétés de la variable aléatoire Lr(N), la longueur du plus
grand mot qui existe au moins r fois dans la séquence S de taille N.
Supposons les séquences générées suivant un processus de Markov dont la matrice de
transition est P. On note P(r) le produit de Schur de P par lui même r fois (P(r) = PºPº...ºP)
(rappelons que le produit de Schur de A=||aij|| par B=||bij|| est AºB=||aijbij||). Pour une chaîne de
Markov d'ordre 0, la première valeur propre de P(r) vaut:
λ[ r ] = ∑ j =1 p rj
4
(Eq. 11.1)
Notons αj(k,r) la probabilité d’un match commun de taille
≥ k aux positions autour de
j. Pour toute séquence engendrée par la chaîne d’ordre 0, la collection de probabilités
{αj(k,r)} est indépendante de j et a la forme :
( )
α j ( k, r ) = λ[ r ]
k −1
γ + δ (k )
(Eq. 11.2)
Dans cette formule γ est une constante positive (égale à λ pour les
chaînes de Markov
d'ordre 0), et δ(k)/(λ[r])k, converge vers zéro à taux géométrique quand k tend vers l’infini.
La variable δ dépend de forme complexe de P et r.
Karlin et Ost donnent dans (Karlin & Ost 1985), la moyenne et la variance
asymptotiques de Lr(N) pour N →∞ :
(
E L(rN )
)
(
 N
log 
 r
+ α λ[ r ] , λ + 0.5 + ε N λ[ r ]
=
− log(λ[ r ] )
Var L(rN )
(
)

1
= 1.645
 log λ[ r ]

( )
( )
)
2

r
 + δ N λ[ ]


( )
(Eq. 11.3)
(Eq. 11.4)
Dans le cas de bases à fréquence identique, il a été estimé que |εN |< 0.0014, et que
0.1091< δN< 0.1104.
Ainsi pour les séquences suffisamment longues nous pouvons utiliser les formules
simplifiées suivants pour l'espérance et la variance.
(
)
E L(rN ) =
1
− log λ[ r ]
  N

[r ]
[r ]
log r  + log 1 − λ + log λ + 0.5772  + 0.5


(
)
108
(Eq. 11.5)
(
Var L(rN )
)

1
= 1.645
 log λ[ r ]

( )




2
(Eq. 11.6)
11.1.2 Expressions de l'espérance et de la variance : cas de plusieurs séquences
Considérons le même alphabet A que précédemment de m lettres et S séquences
indépendantes S1, S2, .., Ss de tailles N1, N2, ..., Ns, respectivement. Un mot de
taille k est un
ensemble de k lettres consécutives d’une séquence de S. Considérons le même modèle
d’indépendance que précédemment où les positions consécutives de Si sont des variables
aléatoires, indépendantes et identiquement distribuées à valeurs dans A. On note pi., λ et
αj(k,r) comme précédemment.
Notre but est de caractériser les longs mots répétés parmi les s séquences au moins r
fois. On note Kr,s(N) la longueur du plus long mot commun parmi au moins r des s séquences
S1, S2, ..., Ss, de taille N1, N2, ..., Ns. Karlin & Ost donnent dans (Karlin & Ost 1985), la
moyenne et la variance asymptotiques de Kr,s(N) pour N →∞ :
(
E Kr(,Ns )
)
 s
log 
 r
r log N
[r ]
[r ]
=
[r ] +
[ r ] + α λ , λ + 0.5 + ε N λ
−
− log λ
log(λ )
(
Var Kr(,Ns )
(
)

1
= 1.645
 log λ[ r ]

( )
2
)
( )

r
 + δ N λ[ ]


( )
(Eq. 11.7)
(Eq. 11.8)
εN et δN sont bornés comme dans le cas précédent.
Ainsi pour les séquences suffisamment longues nous pouvons utiliser les formules
simplifiées pour l'espérance et la variance.
(
)
E Kr(,Ns ) =
(
Var Kr(,Ns )
)
1
− log λ[ r ]


 s
r
[r ]
log N λ (1 − λ ) + log r + 0.5772  + 0.5


[

1
= 1.645
 log λ[ r ]

( )
]




(Eq. 11.9)
2
(Eq. 11.10)
109
11.1.3 Analyse de la validité des statistiques
11.1.3.1 Comportement asymptotique de l'approximation normale
Nous disposons des expressions pour l'espérance et la variance de Lr(N) et Kr,s(N), mais
nous ignorons leur distribution. Ainsi, la définition des intervalles de confiance a
été faite en
nous basant sur la distribution Normale. En réalité ceci ne serait correct que pour des
séquences de taille infinie. Néanmoins la distribution normale donne des résultats beaucoup
plus proches de nos simulations que les distributions habituellement utilisées dans la
statistique d'extrêmes, (distribution de Gumbel ou distribution de Fréchet).
Pour vérifier la justesse de cette approximation,
nous avons réalisé quelques
simulations. Nous avons construit des chromosomes aléatoires de tailles (5, 50, 500 et 5
000 kb) et contenu G+C différents (50%, 40%, 30%). Nous fabriquons pour chaque
combinaison
de ces paramètres
1000
chromosomes
aléatoires
(dans
l'hypothèse
d'indépendance des positions) et nous calculons le rapport du nombre de répétitions (r=2)
observées sur les attendues à un niveau de signifiance de 1 % (Figure 11.1). On rappelle qu'à
ce seuil on s'attend a trouver une répétition sur 100 génomes aléatoires. Les résultats
montrent que la puissance du test est un peu inférieure à l'attendu. Néanmoins, la différence
n'est pas très importante, puisqu'au maximum nous trouvons 60 répétitions dans mille
chromosomes aléatoires pour 10 attendues. En étant donnée le nombre très élevé de
répétitions que nous trouvons dans les génomes réels (Chapitre 7), ceci ne pose pas de
difficultés majeures. Cette conclusion est valable pour
toute la gamme de tailles de génomes
et d'hétérogénéités de composition analysées.
7
Observ é/A t t endu
6
5
4
3
50/5 0
2
70/3 0
1
60/4 0
0
5
50
500
5000
t aille du génome ( kb)
Figure 11.1- Le rapport observé/attendu du nombre de répétitions trouvés dans des génomes aléatoires de
taille
5, 50, 500 et 5 000 kb. On a fait 1 000 expériences pour chaque point et le nombre attendu est calculé
à un seuil
de 1%. Nous avons généré trois ensembles de chromosomes, différents en termes de fréquences de chaque
nucléotide. Nous considérons toujours A=T et C=G. Le valeurs sont 50/50 pour un génome 50% A+T; 60/40
pour un génome 60% A+T; 70/30 pour un génome 70% A+T. L'ordonnée indique le rapport du nombre de
répétitions (r=2) observés sur attendues à un seuil de 1% dans l'hypothèse
où L2N est distribué suivant une loi
Normale.
110
11.1.3.2 Effets des dépendances d’ordre supérieur à zéro
Dans la définition des statistiques précédentes nous avons supposé des chaînes de
Markov d'ordre 0, c'est à dire l'indépendance
entre les positions dans la séquence. Ceci n'est
pas en accord avec ce qu'on sait des séquences biologiques (cf. chapitre 4 et 10). En
conséquence, nous avons voulu tester cet effet sur le génome de Mycoplasma genitalium.
Pour ceci, nous avons créé des séquences "shufflées" du génome de Mycoplasma genitalium
avec la même composition en mots de taille k (k ∈ [1, 6]). Ensuite nous avons regardé
combien de répétitions (r=2) sont trouvées
défini par le modèle précédent,
dans ces génomes aléatoires, en utilisant le seuil
qui ne prend en compte
que la distribution en
mononucléotides.
Ainsi nous regardons quel est l'effet du biais des mots sur la méthode. En particulier,
nous sommes intéressés à déterminer la perte de puissance du test quand des biais de mots
sont présents. Les résultats de 10 000 simulations pour chaque taille, montre qu'il y a une
perte de puissance quand on considère les mots de taille 2 (Figure 11.2). Ensuite la perte de
puissance est moins importante. Il faut remarquer que nous avons utilisé le génome de
Mycoplasma genitalium, parce que c'est le plus
petit des génomes connus. Ainsi, les valeurs
présentées peuvent être considérées comme les valeurs maximales.
12
Observé/A tt endu
10
8
6
4
2
0
1
2
3
4
5
6
k
Figure 11.2- Rapport observé/attendu du nombre de répétitions trouvés dans les séquences shufflés de
Mycoplasma genitalium. Les séquences sont shufflés en maintenant
la fréquence des mots d'une certaine taille
k (k varie entre 1et 6). Pour chaque valeur de k, nous avons généré 10 000 génomes shufflés.
11.2 L’algorithme de Karp-Miller-Rosenberg
Karp, Miller et Rosenberg (KMR) ont proposé un algorithme efficace pour identifier
les "patterns" répétés dans des chaînes
de caractères, des arbres ou des tableaux (Karp et al.
1972). Cependant, puisque notre application est limitée aux chaînes de caractères, nous
allons nous restreindre ici à ce cas plus simple. Nous présenterons l'algorithme utilisant
l’approche des piles avec la généralisation multi-séquences proposé par Landraud et
111
collègues (Landraud et al. 1989). D'autres applications de l’algorithme KMR peuvent être
trouvées dans (Sagot et al. 1995b) (Soldano et al. 1995).
11.2.1 KMR pour une séquence
KMR repose sur la notion de k-équivalence suivante :
Définition 1 (Karp et al.
1972)- Deux positions x et y dans une chaîne de caractères S de
longueur n sont k-équivalentes, noté x Ek y, si et seulement si les deux sous-chaînes de
longueur k sx...sx+k-1 et sy...sy+k-1 sont identiques.
Un lemme suit de cette définition :
Lemme 1 (Karp et al. 1972)- x Ea+b y ⇔ (x Ea y et x+b Ea y+b) (avec b ≤ a).
La démonstration est évidente à partir de la figure suivante :
a
a
x
y
x+b
n
y+b
a
a
L’algorithme utilise ce lemme pour construire les relations Ek à partir de E1 (qui est
triviale) de la façon suivante (Figure 11.3).
1
La relation Ek est représentée par le vecteur de taille n-k+1, v(k)=[v1(k), v2(k),
,..., vn-k+1(k)]
où vi(k) est l’étiquette de la classe Ek à laquelle la position i appartient (i=1, 2, ..., nk+1).
2
Chaque relation Ek détermine ek classes, numérotées de 1 a ek.
3
Ea+b est construit à partir de Ea par application du Lemme 1. Ceci est réalisé par
l’intermédiaire des deux ensembles P et Q de ea piles chacun. Les positions i dans la
chaîne de caractères S, sont placés dans les ensembles de piles P et Q de la façon
suivante.
3.1
Les positions i qui appartiennent à la classe de Ea sont mises dans la même pile
P(vi(a)).
3.2
Chaque élément de P est dépilé et les numéros i ainsi obtenus sont placés dans
correspondantes de Q (précisément dans
3.3
les piles
Q(v(a)i+b)).
Chaque pile de Q est successivement dépilée. La classe v(a) de chaque position déjà
retirée est comparée à la classe précédente. Si les deux classes sont différentes, les
positions proviennent de deux piles de P différentes. Comme les positions sont
maintenant triées au cours du processus ceci signifie que l'ont doit incrémenter le
compteur de classes de Ea+b.
KMR est conçu pour résoudre deux questions différentes : (1) La détermination de
tous les mots répétés d'une taille donnée k ; (2) La détermination du plus long mot répété
(taille kmax inconnue au départ).
112
En pratique, pour resoudre le problème (2) on procède de la manière suivante :
A partir de E1 le lemme 1 est utilisé avec a=b pour calculer itérativement E2, E4, E8.
Si k n'est pas une puissance de 2, on calcule ainsi la plus grande valeur k'=2p inférieure à k
telle qu'il existe des mots répétés, puis on utilise le lemme 1 (avec a = k' et b = k'-k) pour
calculer les mots répétés de taille k. pour resoudre le problème (2) on commence de
p
façon (E2, E4, E8…) jusqu'à la valeur k=2 telle que pour 2
p+1
la même
il n'existe plus de mots
répétés. En utilisant alors le lemme 1 on procède par dichotomie (entre 2p et 2p+1) pour
déterminer kmax (Emax).
1
2 3
4 5 6
7
S
A B A A B A A
V( 1)
1
2 1
1 2 1
1
E1 contient e1=2 classes correspondant
aux mots d'une lettre :
classe 1 : A
classe 2 : B
La construction de E2 : (i.e. Ea+b où a=2 et b=2)
2) Depiler p de chaque P[i], et mettre p
dans Q[V 1[p+1]] (si p+1≤n)
1) Les positions i de la même classe E1
sont mises ensemble
7
4
3
1
2
5
5
2
2
4
1
3
6
P(1) P(2)
1
Q(1) Q(2)
3) E2 contient e2 =3 classes de mots de 2
lettres. Les classes sont crées par
dépilement successif de Q.
classe 1 : BA
classe 3 : AB
classe 2 : AA
V(2 ) 3 1 2 3 1 2 -
La construction de E4 : (où a=2 et b=2)
1) Les positions i de la même classe E2
sont mises ensemble
2) Retiré si < q
4
1
5
2
6
3
4
1
3
2
1
3
P(1) P(2) P(3)
Q(1) Q(2) Q(3)
3) E4 contient e4=1 classes de mots de 4
lettres. Les classes sont crées par
dépilement successif de Q.
V(4 ) 1 - - 1 - - -
classe 1 : ABAA
Figure 11.3 - Un exemple de l'algorithme de KMR (d'après (Sagot et al. 1995a)).
La complexité en temps de l’algorithme est limitée par la construction des relations
d’équivalence Ea+b en fonction de Ea. Celle-ci est en O(n), puisque les opérations
d’empilement et dépilement concernent au plus n éléments.
Ainsi le problème de trouver le
plus grand k possible est résolu en O(n.log(k)). Dans le pire des cas
k = n, mais en pratique k
est très inférieur à n. Les vecteurs va et va+b ont une taille maximale n, les deux ensembles
113
de
piles P et Q ont une taille maximale ea < n. Ainsi la complexité en espace de mémoire est
O(n).
11.2.2 KMR pour plusieurs séquences
Dans cette section, nous adaptons KMR pour trouver les plus grandes sous-séquences
communes à q parmi un ensemble de N séquences (q≤N). Une légère modification de
l’algorithme suffit à résoudre le problème. Ceci passe par la concaténation des N séquences
en une seule séquence S (Landraud et al. 1989). La position d’un mot est celle de son
premier caractère dans S, mais il faut garder maintenant l’information sur les bornes de
chaque séquence dans S.
Les tableaux v(k) sont produits à partir des tableaux v(1) comme précédemment. A
chaque étape nous ne gardons que les mots qui obéissent à la condition du quorum (existence
dans au moins q des N séquences). En effet, si un mot ne satisfait pas le quorum, alors un
mot plus long qui l'inclue ne peut pas le satisfaire non plus.
11.2.3 Implémentations particulières de KMR
Plusieurs variantes de KMR ont été implémentées dans le cadre de cette thèse. Nous
les décrivons brièvement dans les paragraphes suivants.
Lari est le programme à la base de tous les autres. Il permet l’identification des plus
longs mots répétés au moins r fois dans 1 séquence (r est un paramètre). Le programme
inclut les statistiques de Karlin et Ost (Karlin
& Ost 1985), décrites plus haut, pour calculer
un seuil de longueur minimale significative pour une probabilité donnée. Par ailleurs, le
programme permet également l’identification des mots d'une taille donnée ou de tailles
supérieures ou égales à une taille donnée.
Le programme mari est l’extension de lari pour les recherches des plus longues
répétitions présentes simultanément dans plusieurs séquences. Pour ceci, nous avons
implémenté les statistiques de Karlin et Ost dans ce cas (Karlin & Ost 1985) ainsi que la
modification de KMR pour séquences multiples (Landraud et al. 1989). Le programme
accepte un paramètre supplémentaire, le nombre s de séquences avec la répétition (en plus
de r, le nombre minimal de répétitions (nécessairement r≥s)).
Les autres programmes sont dérivés soit de lari soit de mari par changement de la
règle du quorum ou par le fait qu’ils agissent sur des fenêtres glissantes et non sur des
séquences. Ainsi, le programme wali est un lari adapté à la recherche de répétitions sur une
fenêtre glissante (lari "local"). Le programme twari recherche des répétitions présents sur
les deux brins d’ADN et dans une fenêtre glissante.
114
11.3 Filtrage des résultats
La combinaison de KMR et des statistiques d’extrêmes fournit une méthode efficace
et statistiquement solide pour la recherche de longues répétitions dans les génomes.
Cependant, la méthode exige une étape préliminaire de filtrage et transformation
des
donnés.
11.3.1 Les motifs répétitifs (répétitions de faible complexité)
L’objectif de l’analyse est d’identifier des répétitions longues dans les génomes, mais
non des motifs répétitifs simples. Nous avons utilisé un "filtre entropique" pour enlever ce
type de répétitions. L’entropie informationnelle telle qu’elle a été définie par Shannon
(Shannon & Weaver 1949) est mesurée par (Schneider et al. 1986) :
H = ∑ i = A pi log pi
T
Dans cette formule pi est la fréquence relative du nucléotide i dans la séquence. Ici,
nous utiliserons l'entropie relative, définie par le rapport :
p log pi
= ∑i = A i
T
H
Ho
(Eq. 11.11)
∑i = A pG log pG
T
i
i
où piG est la fréquence relative du nucléotide dans le génome. L’entropie relative est 1 si les
répétitions ont la même composition que le génome et
la répétition.
0 si une seule base est présente dans
Dans notre étude, nous l’utilisons comme une mesure, grossière, de
l’homogénéité des répétitions. Des raffinements de l’équation précédente sont possibles,
notamment en utilisant des dinucléotides à la place de nucléotides. Le
nombre très réduit des
répétitions de faible complexité dans les génomes bactériens rendent cette approche
simplifiée néanmoins satisfaisante.
11.3.2 Les trains au lieu des répétitions
Il est important
de noter
que, dans l'approche
précédemment
décrite, nous
recherchons des répétitions strictes, c'est à dire pour lesquelles les deux copies sont
strictement identiques. Ainsi, si une répétition longue n’est pas stricte (parce qu’elle a
accumulé des mutations), elle devient un ensemble ordonné de répétitions strictes (Figure
11.4). Puisque, dans la plupart des cas, l’unité d’intérêt biologique est la répétition la plus
longue, il nous a fallu mettre au point
une méthode pour agréger ces répétitions en un train
de répétitions.
Figure 11.4 - Une répétition longue composée de plusieurs répétitions strictes plus petites séparés par des
mésappariements ou des délétions.
115
Nous appellerons un train une répétition non-stricte obtenue par l’agglomération de
répétitions strictes. Les répétitions strictes deviennent ainsi les wagons de ces trains. Un
train peut avoir un seul wagon et, dans ce cas, le train et le wagon sont constitués par la
même séquence. Les conditions pour joindre une répétition à un train sont les suivantes : i)
Deux répétitions constituent deux wagons consécutifs d’un même train quand
d’occurrences se présentent le même ordre sur la chaîne et
les deux paires
ii) quand la moyenne quadratique
des distances entre les deux wagons consécutifs est inférieure à un certain
seuil (Figure 11.5).
Ce seuil a pour but de minimiser les agglomérations dues au hasard. En pratique 1000 pb
donnent de bons résultats.
lab
a
lbc
b
pb
pa
a'
la' b'
c
lab + la'b'
2
< 2L
l bc2 + l b' c'2
< 2L
2
lb ' c'
b'
p b'
p a'
p a < pb < p c
p a' < pb ' < pc '
pc
c'
pc '
Figure 11.5 - Règles pour la définition d’un train de 3 wagons. pi est la position de l’occurrence i et li sa
longueur. L est un seuil généralement défini à 1000 pb.
Après l'étape de construction des trains, nous avons terminé la première phase de
l’analyse des répétitions (Figure 11.6). Il faut remarquer que quand nous parlons de
répétitions dans un contexte biologique, comme dans
le chapitre 7, c’est alors aux trains de
Séquence
génomique
(-ARNt et ARNr)
Ka rl in
& Ost
Analyse des résultats
Calcul de Lmin
Liste des
répétitions
Recherches de
similarité
2ème occurrence
répétitions que nous faisons référence.
1ère occurrence
Recherche de la plus
longue r-répétition
L ≥ Lmin ?
Non
Filtrage des motifs
répétitifs
Oui
KMR
Enregistrer les
occurrences de la
répétition et les
enlever de la séquence
Figure 11.6 - Schéma général de l’utilisation de lari.
116
Construction des trains
11.4 Analyse de la similarité
11.4.1 Analyse de la similarité entre les occurrences
Comme les trains correspondent à des répétitions dont les occurrences ne sont pas
strictement
identiques, il devient important
de caractériser
la similarité des deux
occurrences. Pour ce but, il nous faut définir une méthodologie de comparaison des deux
séquences. L’alignement simple des deux occurrences (qu'il soit global ou local) n’est pas
nécessairement intéressant. Si les trains sont assez espacés (et très différemment
espacés), la
comparaison simple entre les deux séquences est peu informative.
Pour aligner les deux occurrences nous avons employé
une modification
de
l’alignement global de Needleman-Wunsch, dans laquelle les extrémités non alignées de la
séquence la plus longue ne contribuent au score final de l’alignement ("end-gap free")
(Erickson & Sellers 1983). Ainsi, nous réalisons un ajustement d’une séquence plus petite
dans une séquence plus longue.
Nous considérons ensuite chaque paire d’occurrences de trains (A et A') plus les
séquences flanquantes de chaque extrémité (typiquement 500 bp de part et d'autre). Notons
E et E' ces deux environnements. La méthode consiste alors à considérer des fenêtres
glissantes sur E (de taille 50 pb par pas de 1 pb), et a les aligner successivement sur E’. De
cette façon, nous calculons le score d’alignement optimal pour chaque
La représentation de l’ensemble des scores pour les fenêtres de E
fenêtre de E dans E’.
donne une courbe telle que
celle représentée sur la Figure 11.7. Naturellement puisque la méthode n'est pas symétrique
nous faisons de même pour des fenêtres glissantes de E’ sur E.
Cette méthode est un peu lourde du point de
vue de temps de calcul, mais elle est très
fine et elle fournit des informations intéressantes sur les séquences. L’exemple de la Figure
11.7.a est tiré de l’analyse du plasmide pWR100 de Shigella flexneri. Il s’agit du cas d’un
train de répétitions
qui a été coupé par l’introduction
d’une séquence d’insertion.
Naturellement l’alignement simple des deux séquences donnerait de mauvais résultats en
raison de la grande taille du trou. La visualisation graphique de la région
permet tout de suite
de comprendre la raison de la différence de tailles entre les deux occurrences.
L’analyse du contraste entre la région des répétitions et la
région environnante est un
indice de l’utilisation et du “vieillissement” de la répétition. Dans la Figure 11.7.b nous
présentons une répétition dans une région à forte similarité. La première occurrence est
dans un gène long (glmS ; 1800 pb codant une amidotransferase) alors que la deuxième
occurrence est dans un tout petit gène de fonction inconnue (ybcM, 312 pb). Puisque la
similarité débute avant la fin du deuxième gène, on peut se demander s’il ne s’agit pas ici
d’une duplication d’un fragment de glmS. Dans ce cas, il est clair
que la duplication a eu lieu
il y a longtemps, puisque, de la répétition initiale, ne reste qu’une répétition stricte de 35 pb.
117
La Figure 11.7.c montre la situation inverse, puisqu’il s’agit d’un long train de 22
wagons qui définit une région de 1,6 kb presque strictement
occurrences. Si la répétition a été créé par le mécanisme proposé
identique entre les deux
dans le chapitre 8, elle est
probablement très récente. Cependant il faut considérer que par sa taille ces occurrences
peuvent être l'objet de conversion génique et donc perdre plus lentement leur similarité.
1
2
3
4
5
6
-orf13-u
-orf12-s
1 2
3
4
5
6
+IS629
201400
202400
1
+glmS
+ybbU
212800
213800
1
+ybcL
+ybcM
383260
+srfAA
384260
4
5
6
7 8 9 10
1112 13
14
385260
15
16 171819
20 21
22
12 3
395040
4
5
6
7 8 9 10
1112 13
14
396040
15
16 1718 19
20 21
22
394040
+srfAB
386260
12 3
397040
Figure 11.7 - Trois comparaisons entre des occurrences de répétitions suivant
la méthode décrite dans le texte.
Les boîtes noires représentent les répétitions strictes
et sont numérotées par leurs positions relatives dans les
trains. Les boîtes grises représentent les gènes et sont étiquetées par leur nom et par un signe qu'indique
le brin
(+ brin direct, - brin complémentaire). L'abscisse indique la position de la région dans le chromosome
(plasmide pWR100 de S. flexneri en haut et Bacillus subtilis dans les autres cas). Les courbes indiquent la
similarité entre des fenêtres glissant sur la séquence et la région de l’autre occurrence (cf. section 11.4.1).
11.4.2 Analyse de la similarité entre répétitions
Nous avons utilisé la variante "end-gap free" décrite plus haut
(section 11.4.1) afin de
réaliser des alignements semi-globaux entre les occurrences des différentes répétitions. Nous
obtenons ainsi une matrice de similarités entre
les répétitions. Nous construisons ensuite les
ensembles disjoints qui regroupent ces répétitions en termes de similarité. Nous utilisons,
pour ce but, une technique d'agrégation par simple lien, i.e. si A est similaire à B et B est
similaire à C, alors A, B et C sont regroupés dans la même classe. Ceci a l’avantage de
grouper tout ce qui peut être similaire, mais présente quelques inconvénients. Si A est
composé de deux répétitions XY, B est composé de XZ et C est composé de Z, alors la
méthode regroupe des répétitions qui n'ont rien à voir (A et C). Aussi, nous construisons
également une classification par lien total. Dans ce
118
cas A, B et C ne sont mis ensemble que
si A est similaire à B et C, B est similaire à A et C, et C est similaire à A et B. La
comparaison entre ces différentes classifications permet d'identifier les modules qui se
regroupent réellement.
11.5 Avantages et désavantages de la méthode
La méthode utilisée pour identifier les répétitions maximales présente quelques
caractéristiques qui conditionnent de façon importante les résultats.
Au début de notre étude
KMR était la méthode la plus efficace pour résoudre le problème de façon raisonnable en
termes de temps de calcul et de mémoire. Cependant, plusieurs simplifications ont été
consenties. En particulier, après l’identification des plus longs mots répétés, nous les
enlevons de la séquence initiale et nous recommençons. Ceci a l’avantage d'éviter le
repérage des sous-mots composant les répétitions, mais un inconvénient majeur quand il
existe une troisième occurrence de la répétition qui n’est
pas strictement identique aux deux
précédentes. Supposons un mot XnYZm qui est présent deux fois de façon stricte et une fois
avec un mésappariement XnWZm. KMR trouvera XnYZm et enlèvera cette occurrence de la
séquence. En conséquence XnWZm ne sera pas trouvé. Ainsi, notre méthode retrouve bien
tous les types de répétitions, mais risque de sous-estimer leur multiplicité dans le génome.
Nous avons partiellement contourné cette difficulté en re-exécutant
l'algorithme KMR pour
chercher des répétitions présentes au moins rmin fois (rmin = 2, 3, ..., 10). Néanmoins
l'automatisation de l'assemblage de ces résultats est difficile et, de ce fait, n’a été faite de
façon complète que dans le cas de Bacillus subtilis. Dans ce cas, toutes les répétitions
étaient
correctement identifiées, au moins de façon partielle, avec rmin=2. Le cas le plus fréquent
était de trouver une répétition VlWXnYZm, qui "matchait" avec une répétition VlWXn (de
VlWXnUm+1) et avec une répétition YZm (de TlKXnYZm). Ainsi le triplet original était
séparé
en plusieurs doublets qu’il a fallu rassembler manuellement. Dans ce cadre, les analyses de
similarité sont très importantes, parce qu’elles ont permis d’identifier l’extension réelle de
la répétition.
Récemment une nouvelle implémentation des arbres de suffixes a été publiée
(Kurtz &
Schleiermacher 1999). Rappelons que la technique des arbres de suffixes permet, entre
autres, de résoudre le même problème que KMR mais de manière optimale, c'est à dire,
linéairement avec la taille de la séquence. Le problème des arbres de suffixes est que la
constante de linéarité en mémoire est généralement très élevée, ce qui fait de KMR une
meilleure option pour une bonne part des problèmes d’analyse de séquences. Cependant
cette nouvelle implémentation présente une constante du même ordre que KMR ce qui la
rend très intéressante. Une comparaison des résultats
obtenus par les deux méthodes indique
que nous n’avons pas beaucoup perdu par l’utilisation de notre heuristique associé à
KMR, au
moins en ce qui concerne Bacillus subtilis. Pour des génomes où les répétitions sont
particulièrement abondantes et redondantes, l’utilisation de la nouvelle méthode pourrait
présenter des avantages significatifs. En revanche, quand il faut considérer des quorums
119
complexes, comme dans le cas de la recherche de répétitions dans les gènes de stress, KMR
reste encore la meilleure méthode. Cet algorithme permet, moyennant des changements
minimes, la définition de requêtes complexes, comme la spécification de distances
minimales et maximales entre les répétitions ou la définition de positions obligatoires.
120
12. Analyse discriminante linéaire
Dans ce chapitre nous décrivons la technique d'Analyse Discriminante
Linéaire (ADL)
initiée par Fisher (Fisher 1936) et son utilisation dans le contexte de cette thèse (voir
chapitre 5). L'analyse discriminante linéaire part de la connaissance de la partition en
classes des individus d'une population et cherche les combinaisons linéaires des variables
décrivant les individus qui conduisent à la meilleure discrimination entre les classes. Dans le
chapitre 5 nous avons indiqué que l'utilisation des composantes principales ne donne pas
nécessairement les meilleures solutions pour la discrimination. En effet, les directions de
variabilité principale ne correspondent pas nécessairement aux directions de meilleure
discrimination.
12.1 L'analyse discriminante de Fisher
Le point de départ de l'ADL est une matrice X de données observées (individus x
variables) dont les éléments sont identifiés dans une (et une seule) des k classes possibles.
L'idée de Fisher a été de créer une méthode pour
choisir entre les combinaisons linéaires des
variables celle qui maximise l'homogénéité de chaque classe (Fisher 1936) (pour une
description complète de la méthode voir (Lebart et al. 1995)).
12.1.1 La fonction discriminante de Fisher
En utilisant le théorème de Huyghens on peut décomposer la matrice de covariances
de la population de taille n en deux matrices différentes, l'une donnant la variabilité dans
chacune des k classes et l'autre la variabilité entre les k classes:
Σ=E+H
(Eq. 12.1)
Σ = Xt(In-P1n)X/n
matrice des variances/covariances
E = Xt(Pc-P1n)X/n
matrice de la variabilité inter-classe
t
H= X (In-Pc)X/n
matrice de la variabilité intra-classes
121
Dans les relations précédentes In est la matrice identité, P1n est la matrice de
projection orthogonale dans l'espace 1n (i.e. P1n=1n1nt/n ). En conséquence
(In - P1n)X est la
matrice des données centrées. Pc est la matrice des projections orthogonales sur le sousespace de ℜn généré par les colonnes de la matrice de classification C. C est une
matrice à k
colonnes et n lignes où l'élément cij est 1 si l'individu i appartient à la classe j et zéro sinon.
On peut réécrire l'équation 12.1 sous la forme :
atΣa = atEa + atHa
(Eq. 12.2)
Ainsi, le premier axe (ou fonction)
discriminant sera celui qui résulte de la
combinaison linéaire des variables (a) qui maximise le rapport :
atEa / atΣ a
Ceci est équivalent à chercher le maximum de la forme quadratique atEa sous la
contrainte atΣ a = 1. La recherche du maximum implique l'annulation des dérivées du
Lagrangien :
L = atEa - λ(atΣa -1)
d'où on déduit la relation :
Σa
Ea = λΣ
(Eq. 12.3)
qui devient, lorsque la matrice de covariances est inversible :
Σ−1Ea = λa
(Eq. 12.4)
On arrive donc à la définition complète de la méthode. La combinaison linéaire des
variables centrées qui maximise la variabilité inter-classes est donnée par Xa1, où a1 est le
vecteur propre associé à la plus grande valeur propre de la
matrice Σ-1E. La variabilité inter-
classes associée représente ainsi la proportion λ1 de la variabilité totale. Cette valeur est
donc une mesure de la capacité discriminante de Xa1, elle sera d'autant plus importante que
λ1
s'approchera de 1. La combinaison linéaire Xa1 est la première fonction discriminante des
données et a1 est le premier axe discriminant. La matrice Σ-1E ne peut avoir au maximum
que k-1 valeurs propres non-nulles.
Une fois obtenue la fonction discriminante, celle-ci peut être utilisée pour décrire les
facteurs les plus importants dans la discrimination. Ceci permet une visualisation à plus
dimensionalité des éléments de la discrimination. Naturellement, la
basse
fonction peut également
être utilisée pour classer de nouveaux individus dont on ignore l'appartenance.
12.1.2 La simplification dans le cas de deux classes
Quand la population est divisée en deux classes, l'analyse discriminante linéaire est
ramenée au cas de l'analyse de régression multiple y = aX + ε où y ne
Considérons donc une population de taille n,
prend que deux valeurs.
constitué de deux classes de taille n1 et n2. On
considère la matrice des covariances entre les classes (E) comme le produit d'une matrice
colonne c par sa transposée.
122
E = cct , où c j =
(
n1n2
x1 j − x2 j
n
)
(Eq. 12.5)
Ainsi la relation 12.4 devient
Σ−1ccta = λa
(Eq. 12.6)
et finalement,
λ = ctΣ−1c
(Eq. 12.7)
Puisque E est de rang 1, la valeur propre λ est unique (λ est la distance de Mahalanobis
entre les deux classes) et son vecteur propre associé
a = Σ−1c
(Eq. 12.8)
est l'unique fonction discriminante.
Considérons maintenant le problème comme s'il s'agissait de régression multiple.
Considérons le vecteur w à n composantes, défini par:
 n n
wi =  1 2
− n2 n1
, i ∈ classe 1
, i ∈ classe 2
La régression multiple expliquant w par les éléments de X conduit au vecteur de
coefficients de régression b :
b = Σ−1Xtw
(Eq. 12.9)
Les 'équations 12.8 et 12.9 sont identiques puisque
c = Xtw/n
Ainsi, le vecteur des coefficients de régression (b) coïncide avec le vecteur des
composantes de la fonction discriminante (a).
12.2 La démarche expérimentale
Nous avons utilisé l'analyse discriminante pour étudier les biais associés aux brins
réplicatifs. L'objectif principal de notre étude était de comprendre les biais réplicatifs par
rapport à plusieurs ensembles de variables dans les différents génomes séquencés. Cependant,
nous ne connaissions pas la position exacte des origines et des terminaisons de réplication
la plupart des bactéries. Ainsi, il a fallu développer une
de
approche qui conduise initialement à
la détermination de ces régions.
La démarche suivie est schématisée sur la figure 12.1. Nous commençons par définir
une origine de réplication putative et nous identifions les gènes par rapport à cette origine
(Figure 12.1.1). Puisque la terminaison de la réplication n'est pas forcément à 180° de
l'origine, nous avons défini une fenêtre qui occupe 7/8 du chromosome. Ainsi, les gènes de
cette fenêtre sont classés par rapport au brin en deux classes : leading (brin précoce) et
lagging (brin tardif). On utilise 70 % des gènes dans l'apprentissage de la fonction
discriminante et les 30 % restants pour le test.
123
1 classement dichotomique des gènes
ori
putative
leading
lagging
2
description
x:
3
= {xi} i =1,n
5 ensembles de variables
apprentissage (analyse discriminante linéaire)
> 0 si
n
F(x) = α 0 + Σ αi xi
i =1
4
apprentissage:
70 % du pool
de gènes
< 0 si
évaluation (fonction discriminante)
prédiction
tp + tn
Accuracy =
tp
fn
fp
tn
tp + tn + fp + fn
= % predictions corrèctes
ensemble test : 30 % du pool de gènes
5
tracé
Accuracy
pos
1
0
0
100
pos
Figure 12.1 - Démarche expérimentale pour l'analyse des biais de réplication.
Ensuite nous décrivons les gènes par rapport à un ensemble de variables, par exemple
par la fréquence relative des 4 types différents de nucléotides présents dans chaque gène
(Figure 12.1.2). Cette description sert de
base à l'apprentissage de la fonction discriminante
124
(Figure 12.1.3), qu'on utilise pour classer les 30 % de gènes restants. Le résultat de cette
classification est évalué par la précision (accuracy) de la discrimination. Cette quantité
correspond au pourcentage de prédictions correctes dans l'ensemble de test (Figure 12.1.4).
Puisque nous ignorons l'origine de réplication exacte, nous faisons
ensuite "tourner" la
position putative sur le chromosome. On peut dessiner la variation de la précision
et obtenir
ainsi une description graphique du comportement de la fonction de discrimination.
Si le biais
réplicatif est fort, on s'attend à trouver de fortes valeurs de précision quand l'origine
putative coïncide avec la vraie origine ou la vraie terminaison (par symétrie).
Chaque ensemble de variables dans la phase de description produira des fonctions
discriminantes différentes. Nous avons utilisé plusieurs ensembles de variables pour
comprendre les différents effets du biais sur ces variables. En particulier
nous avons utilisé la
fréquence des nucléotides, la fréquence des nucléotides à chaque position du codon, la
fréquence des codons, la fréquence des codons synonymes et la fréquence des aminoacides
dans les protéines.
Le poids associé à chaque variable est représentatif de l'importance de la variable dans la
discrimination. Puisque les variables ne sont pas indépendantes cette analyse doit suivre la
démarche typique de l'analyse en régression multiple, notamment on doit vérifier que les
corrélations entre les variables ne nuisent pas trop à l'interprétation des coefficients. Dans ce
cas, on peut utiliser les valeurs des coefficients de l'équation 12.8 pour identifier directement
variables les plus discriminantes.
125
les
13. Conclusion et perspectives
L'objectif principal de ce travail était la définition de stratégies et de méthodologies
dédiées à l'analyse des génomes bactériens. Comme nous l'avons dit en introduction, ces
analyses n'ont de sens que face à un sujet propre d'application. En conséquence, les travaux
présentés dans cette thèse trouvent leur source dans un problème ou une hypothèse
biologique. Étudier un génome c'est un peu comme faire la cartographie d'un nouveau
continent.
Souvent il y a trop d'inconnues pour que le chercheur puisse établir des
hypothèses de travail très spécifiques. Dans ce cas, une exploration préalable du problème
est nécessaire, quitte à attendre l'émergence de questions et d'histoires plus pertinentes.
Même si cette approche n'est pas habituelle en biologie moléculaire, où la recherche est
presque toujours dirigée par des hypothèses assez spécifiques, elle n'en est pas moins
motivée
du point de vue biologique. Par exemple quand nous nous sommes intéressé aux répétitions
dans les génomes bactériens nous avions plusieurs questions biologiques sous-jacentes,
notamment la stabilité des génomes et l'acquisition de nouvelles fonctions par duplication
(Rocha et al. 1999b). Cependant, un des résultats le plus intéressant fut la
suggestion, par les
résultats in silico, d'un nouveau mécanisme évolutif chez Bacillus subtilis (Rocha et al.
1999a); mécanisme qui n'était pas prévu initialement. La même démarche exploratoire a
été
nécessaire pour la détermination des biais de composition liés à la traduction chez Bacillus
subtilis (Rocha et al. 1998) (Rocha et al. 1999c). D'autres sujets, en revanche, ont été
développés suivant une démarche plus traditionnelle
: hypothèse, définition de l'expérience,
expérience, conclusion. Cela a été le cas du travail sur les biais associés aux brins de
réplication (Rocha et al. 1999d), le travail sur l'existence de la "Downstream Box" (Rocha
et al. 2000) et l'analyse du rôle évolutif des systèmes de restriction (chapitre 9).
Résumons maintenant l'ensemble de ce travail, du point de vue des thématiques
biologiques abordées et des perspectives qu'il permet d'envisager.
126
L'organisation du chromosome : la traduction
La traduction est probablement le processus cellulaire qui consomme le plus de
ressources et la proximité physique, fonctionnelle et
évolutive des gènes qui y sont associés
reflète le besoin d'optimiser ce processus (Rocha et al. 1999c). Nos travaux sur les biais
associés aux trois phases de la traduction (initiation, allongement et terminaison) ont
démontré que les gènes eux-mêmes ne peuvent pas être simplement considérés comme une
simple succession de codons entre un start et un stop. En effet,
les contraintes associées aux
processus de démarrage et de terminaison conditionnent significativement la séquence aux
extrémités des gènes (Rocha et al. 1999c).
L'organisation du chromosome : la réplication
Chez la plupart des bactéries, la réplication provoque un enrichissement en G et T
dans le brin précoce (leading) et C et A dans le brin tardif (lagging) (Lobry 1996a). Nous
avons démontré que l'usage des codons conditionné par la réplication chez Borrelia
burgdorferi (McInerney 1998) est, en fait, très fréquent dans
le monde bactérien et qu'il est
aussi présent au niveau de l'usage des acides aminés dans les protéines (Rocha et al. 1999d).
Ces contraintes sont si fortes que, chez plusieurs bactéries, elles suffisent à prédire, sur la
base de la seule séquence protéique, l'orientation du gène sur le chromosome avec plus de 95
% de taux de succès. De plus, nous avons montré que, lorsqu'ils existaient, ces biais de
composition (en nucléotides, codons ou aminoacides) sont les mêmes chez tous les
procaryotes étudiés.
Le rôle des éléments répétés dans la dynamique des génomes
On a très souvent soutenu l'idée que les répétitions, qui tendent à éloigner le génome
de la situation "minimale", seraient pratiquement absentes (ou au moins fortement contresélectionnées) dans les génomes bactériens "fortement optimisés" (Maniloff 1996). Notre
étude sur les répétitions dans ces génomes a donc commencé avec l'idée qu'il fallait vérifier
cette affirmation en utilisant les séquences des chromosomes complets (Rocha et al.
1999a).
En conséquence, nous avons cherché des répétitions longues susceptibles de faire de la
recombinaison homologue et non associées aux ARN stables ni aux séquences d'insertion.
Nous avons conclu que, même si l'ADN est probablement plus "cher" pour les procaryotes
que pour les eucaryotes, ceci n'implique pas nécessairement l'absence de répétitions. En
particulier, nous avons montré une liaison très forte entre la densité de répétitions et la
pathogénicité des organismes.
Mécanismes et barrières au transfert horizontal
L'étude des répétitions peut nous renseigner également sur d'autres phénomènes
cellulaires et évolutifs. Chez Bacillus subtilis, la présence de répétitions est probablement
liée à l'existence d'éléments transférés horizontalement. Nous avons proposé que la plupart
des répétitions dans cette espèce est crée par un mécanisme intégratif
la recombinaison homologue entre l'ADN allogène
du type Campbell, via
et le chromosome (Rocha et al. 1999a).
Ce mécanisme explique la grande quantité d'information transférée horizontalement dans
127
Bacillus subtilis (Kunst et al. 1997). Un mécanisme
pourrait pas aboutir à l'intégration de
de recombinaison homologue simple ne
ce type d'information. Notre travail s'est trouvé ainsi
inséré dans la récente vague d'études portant sur le transfert horizontal chez les bactéries,
vague provoquée par l'analyse des génomes complets et les problèmes
de dissémination de la
résistance aux antibiotiques (Moszer et al. 1999) (Logsdon & Faguy 1999) (Sowers &
Schreier 1999). Cependant, la plupart de ces travaux est basée sur le transfert
par
conjugaison, qui ne se produit pas chez Bacillus subtilis. Cette espèce, ainsi que beaucoup
d'autres d'ailleurs (Lorenz
transformation
& Wackernagel
1994),
naturelle. Or, la transformation
acquiert
naturelle
mécanisme très peu étudié du point de vue évolutif (Levin et
de l'information
est,
paradoxalement,
par
un
al. 1999). Puisque beaucoup de
bactéries utiles à l'homme ou pathogènes sont naturellement transformables (H. pylori, N.
gonorrhoeae, Haemophilus influenzae), il devient donc urgent d'approfondir ce genre
d'études.
La capacité à évoluer
A la suite de cette thèse nous souhaitons approfondir nos études sur la dynamique et
l'évolution des chromosomes. Les motivations
scientifiques derrière cet objectif sont
multiples. En premier lieu, au-delà de la vision "sac de gènes" il va devenir crucial de bien
comprendre l'organisation physique du chromosome bactérien pour aboutir à l'intégration
complète des connaissances génétiques, biochimiques et évolutives. Cette question est
intimement liée à plusieurs problèmes scientifiques ouverts. Les facteurs de virulence sont
souvent regroupés sur le chromosome et leur transfert horizontal fait partie de la stratégie
de virulence de plusieurs bactéries. L'étude des stratégies de recombinaison entre ces facteurs
permettra certainement
mieux comprendre et combattre les maladies par les bactéries. Par
ailleurs, la rapide dissémination de la résistance aux antibiotiques pose, de nos jours, un
problème grave de santé publique. Cette résistance profite de la plasticité du chromosome
bactérien et du transfert horizontal de l'information génétique. Les questions précédentes
sont ainsi très fortement liées aux études sur la dynamique et l'évolution des génomes.
D'autres questions importantes en microbiologie sont également liées à ce domaine. La
résistance aux radiations, à la sécheresse et à la salinité chez plusieurs bactéries
capacité à faire de la recombinaison homologue entre les copies multiples
est due à leur
des chromosomes.
Par exemple, chez Deinococcus radiodurans la recombinaison utilise probablement les
répétitions présentes tout le long du
chromosome (Battista et al. 1999). En conséquence le
thème unificateur de nos recherches dans ce domaine est l'analyse de la capacité à évoluer,
qui est au fond, la propriété la plus fondamentale des êtres vivants.
128
Références bibliographiques
129
Adamski, F. M., McCaughan, K. K., Jørgenson, F., Kurland, C. G., Tate, W. P. The
concentration of polypeptide chain release factors 1 and 2 at different growth rates of Escherichia coli. J.
Mol. Biol. 1994. 238, 302-308
Akashi, H., Eyre-Walker, A. Translational selection and molecular evolution. Curr. Op. Genet. Dev.
1998. 8, 688-693
Alm, R. A., Ling, L.-S. L., Moir, D. T., King, B. L., Brown, E. D. et al. Genomic-sequence
comparison of two unrelated isolates of the human gastric pathogen Helicobacter pylori. Nature 1999. ,
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search
tool. J. Mol. Biol. 1990. 215, 403-410
Altschul, S. F., Madden, T. L., Schäfer, A. A., Zhang, J., Zhang, Z. et al. Gapped BLAST and
PSI-BLAST: A new generation of protein database search programs. Nucl. Acids Res. 1997. 25, 33893402
Amábile-Cuevas, C. F., Chicurel, M. E. Bacterial plasmids and gene flux. Cell 1992. 70, 189-199
Anderson, J., Seilhamer, J. A comparison of selected mRNA and protein abundances in human liver.
Electrophoresis 1997. 18, 533-537
Andersson, S. G. E., Kurland, C. G. Codon preferences in free-living microorganisms. Microbiol.
Rev. 1990. 54, 198-210
Andersson, S. G. E., Kurland, C. G. Reductive evolution of resident genomes. Trends Microbiol.
1998. 6, 263-268
Andersson, S. G. E., Zomorodipour, A., Andersson, J. O., Sicheritz-Ponten, T., Alsmark, U. C.
M. et al. The genome sequence of Rickettsia prowazekii and the origin of mitochondria. Nature 1998.
396, 133-143
Apostolico, A., Giancarlo, R. Sequence alignment in molecular biology. J. Comput. Biol. 1998. 5,
173-196
Arber, W. Host specificity of DNA produced by Escherichia coli. V. The role of methionine in the
production of host specificity. J. Mol. Biol. 1965. 11, 247-256
Bachellier, S., Clément, J.-M., Hofnung, M., Gilson, E. Bacterial interspersed mosaic elements
(BIMEs) are a major source of sequence polymorphism in Escherichia coli intergenic regions including
specific associations with a new insertion sequence. Genetics 1997. 145, 551-562
Bachellier, S., Gilson, E., Hofnung, M., Hill, C.
W. Analysis and predictions from Escherichia coli
sequences, or Escherichia coli in silico. In Escherichia coli and Salmonella: cellular and molecular
biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K Brooks Low, Boris Magasanik, W S
Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 2012-2040. Washington DC: ASM
Press
Bachellier, S., Saurin, W., Perrin, D., Hofnung, M., Gilson, E. Structural and functional diversity
among bacterial interspersed mosaic elements (BIMEs). Mol. Microbiol. 1994. 12, 61-70
Baril, C., Richaud, C., Baranton, G., Saint-Girons, I. S. Linear chromosome of Borrelia
burgdorferi. Res. Microbiol. 1989. 140, 507-516
Barrick, D., Villanueba, K., Childs, J., Kalil, R., Schneider, T. D. et al. Quantitative analysis of
ribosome binding sites in Escherichia coli. Nucl. Acids Res. 1994. 22, 1287-1295
Battista, J. R., Earl, A. M., Park, M. Why is Deinococcus radiodurans so resistant to ionizing
radiation. Trends Microbiol. 1999. 7, 362-365
Belogurov, A. A., Delver, E. P. A motif conserved among the type I restriction-modificatipon enzymes
and antirestriction proteins: a possible basis for mechanism of action of plasmid-encoded antirestriction
functions. Nucl. Acids Res. 1995. 23, 785-787
Berg, O. G., Kurland, C. G. Growth rate-optimised tRNA abundance and codon usage. J. Mol. Biol.
1997. 270, 544-550
Berg, O. G., Silva, P. J. Codon bias in Escherichia coli: the influence of codon context on mutation
and selection. Nucl. Acids Res. 1997. 25, 1397-1404
130
Bergthorsson, U., Ochman, H. Heterogeneity of genome sizes among natural isolates of Escherichia
coli. J. Bacteriol. 1995. 177, 5784-5789
Bergthorsson, U., Ochman, H. Distribution of chromosome length variation in natural isolates of
Escherichia coli. Mol. Biol. Evol. 1998. 15, 6-16
Birge, E. A. Bacterial and bacteriophage genetics. 3rd ed. 1994. New York: Springer-Verlag
Björnsson, A., Mottagui-Tabar, S., Isaksson, L. A. Structure of the C-terminal end of the nascent
peptide influences translation termination. EMBO J. 1996. 15, 1696-1704
Blackstock, W. P., Weir, M. P. Proteomics: quantitative and physical mapping of cellular proteins.
Trends Biotech. 1999. 17, 121-127
Blaisdell, B. E., Rudd, K. E., Matin, A., Karlin, S. Significant dispersed recurrent DNA sequences
in the Escherichia coli genome. J. Mol. Biol. 1993. 229, 833-848
Bläsi, U., O'Connor, M., Squires, C. L., Dahlberg, A. E. Misled by sequence complementarity:
does
the DB-anti-DB interaction withstand scientific scrutinity? Mol. Microbiol. 1999. 33, 439-441
Blattner, F. R., Burland, V., Plunkett, G., Sofia, H. J., Daniels, D. L. Analysis of the Escherichia
coli genome. IV. Nucl. Acids Res. 1993. 21, 5408-5417
Blattner, F. R., III, G. P., Bloch, C. A., Perna, N. T., Burland, V. et al. The complete genome
sequence of Escherichia coli K-12. Science 1997. 277, 1453-1461
Bono, H., Ogata, H., Goto, S., Kanehisa, M. Reconstruction of amino acid biosynthesis pathways
from the complete genome sequence. Genome Res. 1998. 8, 203-210
Borodovsky, M., Rudd, K. E., Koonin, E. V. Intrinsic and extrinsic approaches for detecting genes in
a bacterial genome. Nucl. Acids Res. 1994. 22, 4756-4767
Bouché, J.-P., Pichoff, S. On the birth and fate of bacterial division sites. Mol. Microbiol. 1998. 29,
19-26
Bouthinon, D., Soldano, H. An inductive logic programming framework to learn a concept from
ambiguous examples. In Machine learning: ECML-98, 1998. ed. C. nédellec, C. Rouveirol. pp. 238249. Lecture Notes in Articial Intelligence Springer Verlag
Bowie, J. U., Luethy, R., Eisenberg, D. A method to identify protein sequences that fold into a known
three-dimensional structure. Science 1991. 253, 164-170
Brown, C. M., Stockwell, P. A., Trotman, C. N. A., Tate, W. P. The signal for the termination of
protein synthesis in prokaryotes. Nucl. Acids Res. 1990. 18, 2079-2086
Bujnicki, J. M. Phylogeny of the restriction endonuclease-like superfamily inferred from comparison of
protein structures. J. Mol. Evol. 2000. 50, 39-44
Bulmer, M. Codon usage and intragenic position. J. Theor. Biol. 1988. 133, 67-71
Bulmer, M. The selection-mutation-drift theory of synonimous codon usage. Genetics 1991a. 129, 897907
Bulmer, M. Strand symmetry of mutation rates in the β-globin region. J. Mol. Evol. 1991b. 33, 305310
Bult, C. J., White, O., Olsen, G. J., Zhou, L., Fleischmann, R. D. et al. Complete genome
sequence of the methanogenic Archaeon, Methanococcus jannaschii. Science 1996. 273, 1058-1072
Burge, C., Campbell, A. M., Karlin, S. Over- and under-representation of short oligonucleotides in
DNA sequences. Proc. Natl. Acad. Sci. USA 1992. 89, 1358-1362
Burland, V., Plunkett, G., Daniels, D. L., Blattner, F. R. DNA sequence and analysis of 136 kb of
the Escherichia coli genome: organizational symmetry around the origin of replication. Genomics 1993.
16, 551-561
Bussiere, D. E., Bastia, D. Termination of DNA replication of bacterial and plasmid chromosomes.
Mol. Microbiol. 1999. 31, 1611-1618
Canosi, U., Iglesias, A., Trautner, T. A. Plasmid transformation in Bacillus subtilis: DNA
in plasmid
pC194. Mol. Gen. Genet. 1981. 181, 434-440
Carafa, Y. d'Aubenton, Brody, E., Thermes, C. Prediction of Rho-independent E coli transcription
terminators. A statistical analysis of their RNA stem-loop structures. J. Mol. Biol. 1990. 216, 835-858
Carlson, C. R., Kolsto, A. B. A small Bacillus cereus chromosome corresponds to one conserved
region of a larger Bacillus cereus chromosome. Mol. Microbiol. 1994. 13, 161-169
Carpousis, A. J., Vanzo, N. F., Raynal, L. C. mRNA degradation: a tale of poly(A) and protein
machines. Trends Genet. 1999. 15, 24-28
Casjens, S. The diverse and dynamic structure of bacterial genomes. Annu. Rev. Genet. 1998. 32, 339377
131
Cebrat, S., Dudek, M. R., Gierlik, A., Kowalczuk, M., Mackiewicz, P. Effect of replication on the
third base of codons. Physica A 1999. 265, 78-84
Cellis, J. E., Rasmussen, H. H., Gromov, P., Olsen, E., Madsen, P. et al. Electrophoresis 1995.
12, 2177-2240
Chandler, M. S. Insertion sequences and transposons. In Bacterial Genomes, 1998. ed. F. J. d. Bruijn,
J. R. Lupski, G. M. Weinstock. pp. 30-48 Chapman & Hall
Chargaff, E. Chemical specificity of nucleic acids and mechanism of their enzymatic degradation.
Experientia 1950. 6, 201-240
Chothia, C., Lesk, A. M. The divergence between the divergence of sequence and structure in proteins.
EMBO J. 1986. 5, 823-826
Christie, P. J., Korman, R. Z., Zahler, S. A., Adsit, J. C., Dunny, G. M. Two
conjugation systems
associated with Streptococcus faecalis plasmid pCF10: identification of a conjugative transposon that
transfers between S. faecalis and Bacillus subtilis. J. Bacteriol. 1987. 169, 2529-2536
Churchill, G. A., Daniels, D. L., Waterman, M. S. The distribution of restriction enzyme sites in
Escherichia coli. Nucl. Acids Res. 1990. 18, 589-597
Clark, A. J., Warren, G. J. Conjugal transmission of plasmids. Annu. Rev. Genet. 1979. 13, 99-125
Claverie, J.-M., States, D. J. Information enhancement methods for large scale sequence analysis.
Comput. Chem. 1993. 17, 191-201
Clayton, R. A., White, O., Fraser, C. M. Findings emerging from complete genome sequences. Curr.
Op. Microbiol. 1998. 1, 562-566
Cohan, F. M., Roberts, M. S., King, E. C. The potential for genetic exchange by transformation
within a natural population of Bacillus subtilis. Evolution 1991. 45, 1383-1421
Collado-Vides, J. A transformational-grammar approach to the study of the regulation of gene
expression. J. Theor. Biol. 1989. 136, 403-425
Colot, V., Rossignol, J.-L. Eukaryotic DNA methylation as an evolutionary device. Bioessays 1999.
21, 402-411
Condon, C., French, S., Squires, C., Squires, C. L. Depletion of
functional ribosomal RNA operons
in Escherichia coli causes increased expression of the remaining intact copies. EMBO J 1993. 12, 43054315
Courchesne, P. L., Jones, M. D., Robinson, J. H., Spahr, C. S., McCracken, S. et al.
Optimization of capillary chromatography ion trap-mass spectrometry for identification of gel-separated
proteins. Electrophoresis 1998. 19, 956-967
Cowan, R. Expected frequencies of DNA patterns using Whittle's formula. J. Appl. Prob. 1991. 28,
886-892
Daly, M. J., Minton, K. W. Interchromosomal recombination in the extremely radioresistant bacterium
Deinococcus radiodurans. J. Bacteriol. 1995. 177, 5495-5505
Danchin, A. Why sequence genomes? The Escherichia coli imbroglio. Mol. Microbiol. 1995. 18, 371376
Dawkins, R. The selfish gene 1976. Oxford: Oxford University Press
Dayhoff, M. O., Schwartz, R. M., Orcutt, B. C. A model of evolutionary change in proteins. In Atlas
of protein sequence and structure, 1978. ed. M. O. Dayhoff. pp. 345-352. Vol. 5 Natl. Biomed. Res.
Found.
de Smit, M. H. Translational control by mRNA structure. In RNA structure and function, 1998. ed. M.
Grunberg-Manago. pp. 495-540 Cold Spring Harbour Laboratory Press
de Smit, M. H., van Duin, J. Translational initiation on structures messengers: another role for the
Shine-Delgarno interaction. J. Mol. Biol. 1994. 235, 173-184
Deonier, R. C. Native insertion sequence elements: locations, distributions, and sequence relationships.
In Escherichia coli and Salmonella: cellular and molecular biology, 1996. ed. J. L. I. R Curtiss,
Edmund C C Lin, K Brooks Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter,
H E Umbarger. pp. 200-2011. Washington DC: ASM Press
Depew, D. J., Weber, B. H. Darwinism evolving 1995. Cambridge, Massachussets: MIT Press. 588 pp.
Dong, H., Nilsson, L., Kurland, C. G. Co-variation of tRNA abundance and codon usage in
Escherichia coli at different growth rates. J. Mol. Biol. 1996. 260, 649-663
Doolittle, W. F., Logdson, J. M. Archaeal genomics: do archaea have a common heritage? Curr. Biol.
1998. 8, R209-R211
132
Doolittle, W. F., Sapienza, C. Selfish genes, the phenotype paradigm and genome evolution. Nature
1980. 284, 601-603
Dorman, C. J., Porter, M. E. The Shigella virulence gene regulatory cascade: a paradigm of bacterial
gene control mechanisms. Mol. Microbiol. 1998. 29, 677-684
Drake, J. W., Charlesworth, B., Charlesworth, D., Crow, J. F. Rates of spontaneous mutation.
Genetics 1998. 148, 1667-1686
Dreyfus, M. What constitutes the signal for the initiation of protein synthesis on Escherichia coli
mRNAs? J. Mol. Biol. 1988. 204, 79-94
Dubnau, D. Genetic competence in Bacillus subtilis. Microbiol. Rev. 1991. 55, 395-424
Dubnau, D. Genetic exchange and homologous recombination. In Bacillus subtilis and other Grampositive bacteria, 1993. ed. A. L. Sonenshein, J. A. Hoch, R. Losick. pp. 555-584. Washington D. C.:
American Society for Microbiology
Dubnau, D. DNA uptake in bacteria. Annu. Rev. Microbiol. 1999. 53, 217-244
Dubnau, D., Cirigliano, C. Fate of transforming deoxyrribonucleic acid after uptake by competent
Bacillus subtilis: size and distribution of the integrated donor sequences. J. Bacteriol. 1972. 111, 488494
Dujon, B. The yeast genome project: what did we learn? Trends Genet. 1996. 12, 263-270
Durbin, R., Eddy, S., Krogh, A., Mitchison, G. Biological sequence analysis 1998. Cambridge:
Cambridge University Press. 356 pp.
Dybvig, K., Voelker, L. L. Molecular Biology of mycoplasmas. Annu. Rev. Microbiol. 1996. 50, 2557
Echols, H., Goodman, M. F. Fidelity mechanisms in DNA replication. Annu. Rev. Biochem. 1991. 60,
477-511
Edgell, D. R., Doolittle, W. F. Archaea and the origin(s) of DNA replication proteins. Cell 1997a. 89,
995-998
Edgell, D. R., Doolittle, W. F. Archaebacterial genomics. The complete genome sequence of
Methanococcus jannaschii. BioEssays 1997. 19, 1-4
Ehrlich, S. D., Schuman, W., Ogasawara, N. Functional analysis of bacterial genes: a practical
manual 1999. New York: John Wiley & Sons
Enright, A. J., Iliopoulos, I., Kyrpides, N. C., Ouzounis, C. A. Protein interaction maps for
complete genomes based on gene fusion events. Nature 1999. 402, 86-90
Erickson, B. W., Sellers, P. H. Recognition of patterns in genetic sequences. In Time warps, string
edits, and macromolecules: the theory and practice of sequence comparison, 1983. ed. D. Sankoff, J. B.
Kruskal. pp. 55-91 Addison-Wesley
Etchegaray, J.-P., Inouye, M. DB or not DB ins translation? Mol. Microbiol. 1999a. 33, 438-441
Etchegaray, J.-P., Inouye, M. Translational enhancement by an element dowstream of the initiation
codon in Escherichia coli. J. Biol. Chem. 1999b. 274, 10079-10085
Eyre-Walker, A. The close proximity of Escherichia coli genes: consequences for stop codon and
synonymous codon use. J. Mol. Evol. 1996. 42, 73-78
Eyre-Walker, A., Bulmer, M. Reduced synonimous substitution rate at the start of enterobacterial
genes. Nucl. Acids Res. 1993. 21, 4599-4603
Feller, W. An introduction to probability theory and its applications. 2nd ed. 1968. New York: John
Wiley & Sons
Feng, D., Doolittle, R. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J.
Mol. Evol. 1987. 25, 351-360
Fijalkowska, I. J., Jonczyk, P., Tkaczyk, M. M., Bialokorska, M., Schaaper, R. M. Unequal
fidelity of leading strand and lagging strand DNA replication on the Escherichia coli genome. Proc.
Natl. Acad. Sci. USA 1998. 95, 10020-10025
Finlay, B. B., Falkow, S. Common themes in Microbial pathogenicity revisited. Microbiol. Mol. Biol.
Rev. 1997. 61, 136-169
Fisher, D., Eisenberg, D. Assigning folds to the proteins encoded in the genome of Mycoplasma
genitalium. Proc. Natl. Acad. Sci. USA 1997. 94, 11929-11934
Fisher, R. A. The use of Multiple Measurements in Taxonomic Problems. Ann. Eugen. 1936. 7, 179188
Fitch, W. Toward defining the course of evolution: minimum change for a specific tree topology. Syst.
Zool. 1971. 20, 406-416
133
Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E. F. et al. Wholegenome random sequencing and assembly of Haemophilus influenzae Rd. Science 1995. 269, 496-512
Fornilli, S. L., Fox, M. S. Electron microscope visualization of the products of Bacillus subtilis
transformation. J. Mol. Biol. 1977. 113, 181-191
Forterre, P. Displacement of cellular proteins by fnctional analogues from plasmids or viruses could
explain puzzling phylogenies of many DNA informational proteins. Mol. Microbiol. 1999. 33, 457-465
Francino, M. P., Chao, L., Riley, M. A., Ochman, H. Asymmetries generated by transcriptioncoupled repair in enterobacterial genes. Science 1996. 272, 107-109
Francino, M. P., Ochman, H. A comparative genomics approach to DNA asymmetry. Ann. N. Y.
Acad. Sci. 1999. 870, 428-431
Frandsen, N., Barák, I., Karmazyn-Campelli, C., Stragier, P. Transient gene asymmetry during
sporulation and establishment of cell specificity in Bacillus subtilis. Genes Dev. 1999. 13, 394-399
Frank, A. C., Lobry, J. R. Asymmetric patterns: a review of possible underlying mutational or
selective mechanisms. Gene 1999. 238, 65-77
Fraser, C. M., Casjens, S., Huang, W. M., Sutton, G. S., Clayton,
R. et al. Genomic seqience of a
Lyme disease spirochaete, Borrelia burgdorferi. Nature 1997. 390, 580-586
Fraser, C. M., Gocayne, J. D., White, O., Adams, M. D., Clayton, R. A. et al. The minimal gene
complement of Mycoplasma genitalium. Science 1995. 270, 397-403
Fraser, C. M., Norris, S. J., Weinstock, G. M., White, O., Sutton, G. G. et al. Complete genome
sequence of Treponema pallidum the syphilis spirochete. Science 1998. 281, 375-388
Freeman, J. M., Plasterer, T. N., Smith, T. F., Mohr, S. C. Patterns of genome organization in
bacteria. Science 1998. 279, 1827a
Frishman, D., Mewes, H. Genome-based structural biology. Prog. Bioph. Mol. Biol. 1999. 72, 1-17
Frishman, D., Mironov, A., Mewes, H.-W., Gelfand, M. Combining diverse evidence for gene
recognition in completely sequenced bacterial genomes. Nucl. Acids Res. 1998. 26, 2941-2947
Gaasterland, T., Selkov, E. 1995. Reconstruction of metabolic networks using incomplete
information. In ISMB95. pp. 127-135 AAAI Press
Gaasterland, T., Sensen, C. W. Magpie automated genome interpretation. Trends Genet. 1996. 13,
415-416
Galant, J., Maier, D., Storer, J. On finding minimal length superstrings. J. Comp. Systems Sci. 1980.
20, 50-58
Ganoza, M. C., Kofoid, E. C., Marlière, P., Louis, B. G. Potential secondary
structure at translationinitiation sites. Nucl. Acids Res. 1987. 15, 345-360
Gerhold, D., Rushmore, T., Caskey, C. T. DNA chips: promising toys have become powerful tools.
Trends Biochem. Sci. 1999. 24, 168-173
Goodman, L. Hypothesis-limited research. Genome Res. 1999. 9, 673-674
Gould, S. J., Lewontin, R. C. The spandrels of San Marco and the Panglossian paradigm: a critique of
the adaptationist programme. Proc. Royal Soc. London B 1979. 205, 581-598
Gould, S. J., Lloyd, E. A. Individuality and adaptation across levels of selection: how shall we name
and generalise the unit of Darwinism? Proc. Natl. Acad. Sci. USA 1999. 96, 11904-11909
Gouy, M., Gautier, C. Codon usage in bacteria: correlation with gene expressivity. Nucl. Acids Res.
1982. 10, 7055-7074
Graham, J. B., Istock, C. A. Genetic exchange in Bacillus subtilis in soil. Mol. Gen. Genet. 1978.
166, 287-290
Granjeaud, S., Bertucci, F., Jordan, B. R. Expression profiling: DNA arrays in many guises.
BioEssays 1999. 21, 781-790
Grantham, R., Gautier, C., Gouy, M., Mercier, R., Pavé, A. Codon catalog usage and the genome
hypothesis. Nucl. Acids Res. 1980. 8, r49-r62
Graves, D. J. Powerful tools for genetic analysis come of age. Trends Biotech. 1999. 17, 127-134
Grigoriev, A. Analyzing genomes with cumulative skew diagrams. Nucl. Acids Res. 1998. 26, 22862290
Groisman, E. A., Ochman, H. How Salmonella became a pathogen. Trends Microbiol. 1997. 5, 343349
Grosjean, H., Sankoff, D., Jou, W. M., Fiers, W., Cedergren, R. J. Bacteriophage MS2 RNA : a
correlation between the stability of the codon-aniticodon interaction and the choice of code words. J. Mol.
Evol. 1978. 12, 113-119
134
Gürtler, V. The role of recombination and mutation in 16S-23S rDNA spacer rearrangements. Gene
1999. 238, 241-252
Gusfield, D. Algorithms on strings, trees and sequences 1997. Cambridge: Cambridge University Press.
534 pp.
Gutman, G. A., Hatfield, G. W. Nonrandom utilization of codon pairs in Escherichia coli. Proc. Natl.
Acad. Sci. USA 1989. 86, 3699-3703
Hannenhalli, S. S., Hayes, W. S., Hatzigeorgiou, A. G., Fickett, J. W. Bacterial start site
prediction. Nucl. Acids Res. 1999. 27, 3577-3582
Harvey, P. H., Brown, A. J. L., Smith, J. M., Nee, S., eds. New uses for new phylogenies. 1996. .
New York: Oxford University Press. 349 pp.
Henikoff, S., Henikoff, J. G. Performance evaluation of amino acid substitution matrices. Proteins
1993. 17, 49-61
Hieter, P., Boguski, M. Functional genomics: it's all you read it. Science 1997. 278, 601-602
Higgins, C. F., Peltz, S. W., Jacobson, A. Turnover of mRNA in prokaryotes and lower eukaryotes.
Curr. Op. Genet. Dev. 1992. 2, 739-747
Hill, C. W. Structure and evolution of Escherichia coli Rhs elements. In Bacterial Genomes, 1998. ed.
F. J. d. Bruijn, J. R. Lupski, G. M. Weinstock. pp. 240-248. Boston: Kluwer Academic
Hill, C. W., Harnish, B. Inversions between ribossomal RNA genes of Escherichia coli. Proc. Natl.
Acad. Sci. USA 1981. 78, 7069-7072
Himmelreich, R., Hilbert, H., Plagens, H., Pirki, E., Li, B.-C., Herrmann, R. Complete sequence
analysis of the genome of the bacterium Mycoplasma pneumoniae. Nucl. Acids Res. 1996. 24, 4420-4449
Himmelreich, R., Plagens, H., Hilbert, H., Reiner, B., Herrmann, R. Comparative analysis of the
genomes of the bacteria Mycoplasma pneumoniae and Mycoplasma genitalium. Nucl. Acids Res. 1997.
25, 701-712
Hinton, J. C. D. The Escherichia coli genome sequence: the end of an era or the start of the FUN? Mol.
Microbiol. 1997. 26, 417-422
Hoelzer, M. A., Michod, R. E. DNA repair and the evolution of transformation in Bacillus subtilis. III.
Sex with damaged DNA. Genetics 1991. 128, 215-223
Holm, L., Sander, C. Mapping the protein universe. Science 1996. 273, 595-602
Hou, Y. M. Transfer RNAs and pathogenicity islands. Trends Biochem. Sci 1999. 24, 295-298
Hull, D. L. Annu. Rev. Ecol. Syst. 1980. 11, 311-332
Hütenhofer, A., Noller, H. F. Footprinting mRNA-ribosomes complexes with chemical probes. EMBO
J. 1994. 13, 3892-3901
Huynen, M., Doerks, T., Eisenhaber, F., Orengo, C., Sunyaev, S. et al. Homology-based fold
predictions for Mycoplasma genitalium proteins. J. Mol. Biol. 1998. 280, 323-326
Huynen, M. A., Bork, P. Measuring genome evolution. Proc. Natl. Acad. Sci. USA 1998. 95, 58495856
Ikemura, T. Correlation between the abundance of Escherichia coli transfer RNAs and the occurrence of
the respective codons in its protein genes. J. Mol. Biol. 1981. 146, 1-21
Itaya, M. An estimation of minimal genome size required for life. FEBS Lett. 1995. 362, 257-260
Itaya, M. Physical map of the Bacillus subtilis 166 genome. Microbiol. 1997. 143, 3723-3732
Itaya, M., Tanaka, T. Experimental surgery to create subgenomes of Bacillus subtilis 168. Proc. Natl.
Acad. Sci. USA 1997. 94, 5378-5382
Itaya, M., Tanaka, T. Fate of unstable Bacillus subtilis subgenome: re-integration and amplification in
the main genome. FEBS Lett. 1999. 448, 235-238
Ito, K., Ebihara, K., Uno, M., Nakamura, Y. Conserved motifs in prokaryotic and eukaryotic
polypeptide release factors: tRNA-protein mimicry hypothesis. Proc. Natl. Acad. Sci. USA 1996. 93,
5443-5448
Ito, K., Kawakami, K., Nakamura, Y. Multiple control of Escherichia coli lysil-tRNA synthetase
expression involves a transcriptional repressor and a translational enhancer element. Proc. Natl. Acad.
Sci. USA 1993. 90, 302-306
Itoh, T., Takemoto, K., Mori, H., Gojobori, T. Evolutionary instability of operon structures
disclosed by sequence comparisons of complete microbial genomes. Mol. Biol. Evol. 1999. 16, 332-346
Iwaki, T., Kawamura, A., Ishino, Y., Kohno, K.,
Kano, Y. et al. Preferential replication-dependent
mutagenesis in the lagging DNA strand in Escherichia coli. Mol. Gen. Genet. 1996. 251, 657-664
135
Izuta, S., Roberts, J. D., Kunkel, T. A. Replication error rates for G.dGTP, T.dGTP, and A.dGTP
mispairs and evidence for differential proofreading by leading and lagging strand DNA replication
complexes in human cells. J. Biol. Chem. 1995. 270, 2595-2600
Jacob, F. Evolution and tinkering. Science 1977. 196, 1161-1166
Jacob, F., Monod, J. Genetic regulatory mechanisms in the synthesis of proteins. J. Mol. Biol. 1961.
3, 318-356
Jacobs, C., Shapiro, L. Bacterial cell division: a moveable feast. Proc. Natl. Acad. Sci. USA 1999. 96,
5891-5893
Jain, R., Rivera, M. C., Lake, J. A. Horizontal gene transfer among genomes: the complexity
hypothesis. Proc. Natl. Acad. Sci. USA 1999. 96, 3801-3806
Jeltsch, A., Kröger, M., Pingoud, A. Evidence for an evolutionary relatioship among type-II restriction
endonucleases. Gene 1995. 160, 7-16
Jeltsch, A., Pingoud, A. Horizontal gene transfer contributes to the wide distribution and evolution of
type II restriction-modification systems. J. Mol. Evol. 1996. 42, 91-96
Kalman, S., Mitchell, W., Marathe, R., Lammel, C., Fan, J. et al. Comparative genomes of
Chlamydia pneumoniae and C. trachomatis. Nat. Genet. 1999. 21, 385-389
Kanehisa, M. A database for post-genome analysis. Trends Genet. 1997. 13, 375-376
Karlin, S. Bacterial DNA strand compositional asymmetry. Trends Microbiol. 1999. 7, 305-308
Karlin, S., Altschul, S. F. Methods for assessing the statistical significance of molecular sequence
features by using general scoring schemes. Proc. Natl. Acad. Sci. USA 1993. 87, 2264-2268
Karlin, S., Brendel, V. Chance and statistical significance in protein and DNA analysis. Science 1992.
257, 39-49
Karlin, S., Burge, C., Campbell, A. M. Statistical analyses of counts and distributions of restriction
sites in DNA sequences. Nucl. Acids Res. 1992. 20, 1363-1370
Karlin, S., Macken, C. Assessment of inhomogeneities in an Escherichia coli physical map. Nucl.
Acids Res. 1991. 19, 4241-4246
Karlin, S., Mrázek, J., Campbell, A. M. Codon usages in different gene classes of the Escherichia
coli genome. Mol. Microbiol. 1998. 29, 1341-1355
Karlin, S., Ost, F. Maximal segmental match length among random sequences from a finite alphabet. In
Proceedings of the Berkeley Conference in honor of Jerzy Neyman and Jack Kiefer, 1985. ed. L. M. L.
Cam, R. A. Olshen. pp. 225-243. Vol. I Wadsworth, Inc.
Karp, P. D. Integrated access to metabolic and genomic data. J. Comp. Biol. 1996. 3, 191-212
Karp, P. D., Riley, M. 1993. Representations of metabolic knowledge. In Intelligent systems for
molecular biology. pp. 207-215 AAAI Press
Karp, R. M., Miller, R. E., Rosenberg, A. L. Rapid identification of repeated patterns in strings, trees
and arrays. In Proceedings 4th Annual ACM Symposium Theory of computing, 1972. . pp. 125-136
ACM
Kita, K., Tsuda, J., Kato, T., Okamoto, K., Yanese, H., Tanaka, M. Evidence of horizontal
transfer of the EcoO1091 restriction modification gene to Escherichia coli chromosomal DNA. J.
Bateriol. 1999. 181, 6822-6827
Kleffe, J., Borodovsky, M. First and second order moments of counts of words in random texts
generated by Markov chains. CABIOS 1992. 8, 433-441
Kobayashi, I. Selfishness and death: raison d'être of restriction, recombination and mitochondria.
Trends Genet. 1998. 14, 368-374
Kolsto, A.-B. Dynamic bacterial genome organization. Mol. Microbiol. 1997. 24, 241-248
Korona, R., Korona, B., Levin, B. R. Sensitivity of naturally occurring coliphages to type I and type
II restriction and modification. J. Gen. Microbiol. 1993. 139, 1283-1290
Korona, R., Levin, B. R. Phage-mediated selection for restriction-modification. Evolution 1993. 47,
565-575
Kroll, J. S., Wilks, K. E., Farrant, J. L., Langford, P. L. Natural genetic exchange between
Haemophilus and Neisseria: intergeneric transfer of chromosomal genes between major human pathogens.
Proc. Natl. Acad. Sci. USA 1998. 95, 12381-12385
Krüger, D. H., Bickle, T. A. Bacteriophage survival. multiple mechanisms for avoiding the
deoxyribonucleic acid restriction systems of their hosts. Microbiol. Rev. 1983. 47, 345-360
Kulakauskas, S., Lubys, A., Ehrlich, S. D. DNA restriction-modification systems mediate plasmid
maintenance. J. Bacteriol. 1995. 177, 3451-3454
136
Kunst, F., Ogasawara, N., Moszer, I., Albertini, A. M., Alloni, G. et al. The complete genome
sequence of the Gram-positive bacterium Bacillus subtilis. Nature 1997. 390, 249-256
Kurland, C. G., Hughes, D., Ehrenberg, M. Limitations of translation accuracy. In Escherichia coli
and Salmonella: cellular and molecular biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K
Brooks Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp.
979-1004. Washington DC: ASM Press
Kurtz, S., Schleiermacher, C. REPuter: fast computation of maximal repeats in complete genomes.
BioInformatics 1999. 15, 426-427
Kusano, K., Naito, T., Handa, N., Kobayashi, I. Restriction-modification systems as genomic
parasites in competition for specific sequences. Proc. Natl. Acad. Sci. USA 1995. 92, 11095-11099
Lafay, B., Lloyd, A. T., McLean, M. J., Devine, K. M., Sharp, P. M., Wolfe, K. H. Proteome
composition and codon usage in spirochaetes: species-specific and DNA strand-specific mutational biases.
Nucl. Acids Res. 1999. 27, 1642-1649
Landraud, A. M., Avril, J.-F., Chretienne, P. An algorithm for finding a common structure shared by
a family of strings. IEEE Trans. Patt. Anal. Mach. Intel. 1989. 11, 890-895
Lauster, R. Evolution of type II DNA methyltransferases: a gene duplication model. J. Mol. Biol. 1989.
206, 313-321
Lawrence, C. E., Altschul, S. F., Boguski, M. S., Liu, J. S., Neuwald, A. F., Wooton, J. C.
Detecting subtle sequence signqls: q Gibbs sampling strategy for multiple alignement. Science 1993.
262, 208-214
Lawrence, C. E., Reilly, A. A. An expected maximization (EM) algorithm for the identification and
characterization of common sites in unaligned biopolymer sequences. Proteins 1990. 7, 41-51
Lawrence, J. G., Ochman, H. Molecular archaeology of the Escherichia coli genome. Proc. Natl.
Acad. Sci. USA 1998. 95, 9413-9417
Lawrence, J. G., Roth, J. R. Selfish operons: horizontal transfer may drive the evolution of gene
clusters. Genetics 1996. 143, 1843-1860
Leach, D. R. F. Long DNA palindromes, cruciform structures, genetic instability and secondary
structure repair. BioEssays 1994. 16, 893-900
Lebart, L., Morineau, A., Piron, M. Statistique exploratoire multidomensionelle 1995. Paris: Dunod.
439 pp.
Leonard, C., Chen, Y., Mahillon, J. Diversity and differential distribution of IS231, IS232 and IS240
among Bacillus cereus, Bacillus thuringiensis and Bacillus mycoides. Microbiol. 1997. 143, 2537-2547
Leung, M.-Y., Marsh, G. M., Speed, T. P. Over- and under-representation of short DNA words in
Herpesvirus genomes. J. Comput. Biol. 1996. 3, 345-360
Levin, B. R. The accessory genetic elements of bacteria: existence conditions and (co)evolution. Curr.
Op. Genet. Dev. 1993. 3, 849-854
Levin, B. R., Lipsitch, M., Bonhoeffer, S. Population biology, evolution and infectious disease:
convergence and synthesis. Science 1999. 283, 806-809
Lewin, B. Genes V 1995. Oxford: Oxford University Press. 1272 pp.
Li, W.-H. Molecular evolution 1997. Sunderland, Massachussets: Sinauer Press. 487 pp.
Lin, D. C.-H., Grossman, A. Identification and characterization of a bacterial chromosome partitioning
site. Cell 1998. 92, 675-685
Lin, H. J., Chargaff, E. On the denaturation of deoxyribonucleic acid II. Effects of concentration.
Biochem. Biophys. Acta 1967. 145, 398-409
Lindahl, L., Hinnebusch, A. Diversity of mechanisms in the regulation of translation in prokaryotes
and lower eukaryotes. Curr. Op. Genet. Dev. 1992. 2, 720-726
Lindahl, T. Instability and decay of the primary structure of DNA. Nature 1993. 362, 709-715
Lloyd, R. G., Low, K. B. Homologous recombination. In Escherichia coli and Salmonella: cellular
and molecular biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K Brooks Low, Boris
Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 2236-2255.
Washington DC: ASM Press
Lobry, J. R. Properties of a general model of DNA evolution under no-strand bias conditions. J. Mol.
Evol. 1995. 40, 326-330
Lobry, J. R. Asymetric substitution patterns in the two DNA strands of bacteria. Mol. Biol. Evol.
1996a. 13, 660-665
Lobry, J. R. Origin of replication of Mycoplasma genitalium. Science 1996b. 272, 745-746
137
Logsdon, J. M., Faguy, D. M. Evolutionary genomics: Thermotoga heats up lateral gene transfer.
Curr. Biol. 1999. 9, R747-R751
Lopez, P., Espinosa, M., Stassi, D. L., Lacks, S. A. Facilitation
of plasmid transfer in Streptococcus
pneumoniae by chromosomal homology. J Bacteriol 1982. 150, 692-701
Lopez, P., Philippe, H., Myllykallio, H., Forterre, P. Identification of putative chromosomal origins
of replication in Archaea. Mol. Microbiol. 1999. 32, 883-886
Lorenz, M. G., Wackernagel, W. Bacterial gene transfer by natural genetic transformation in the
environment. Microbiol. Rev. 1994. 58, 563-602
Lovett, C. M., Love, P. E., Yasbin, R. E. Competence-specific induction of the Bacillus subtilis RecA
protein analog: evidence for dual regulation of a recombination protein. J. Bacteriol. 1989. 171, 23182322
Lukashin, A. V., Borodovsky, M. GeneMark.hmm: new solutions for gene finding. Nucl. Acids Res.
1998. 26, 1107-1115
Mahillon, J., Chandler, M. Insertion Sequences. Microbiol. Mol. Biol. Rev. 1998. 62, 725-774
Maniloff, J. The minimal cell genome: "on being the right size". Proc. Natl. Acad. Sci. USA 1996. 93,
10004-10006
Marcotte, E. M., Pellegrini, M., Thompson, M. J., Yeates, T. O., Eisenberg, D. A combined
algorithm for genome-wide prediction of protein function. Nature 1999. 402, 83-86
Marians, K. J. Prokaryotic DNA replication. Annu. Rev. Biochem. 1992. 61, 673-719
Martin-Farmer, J., Janssen, G. R. A downstream CA repeat sequence increases translation from
leadered and unleadered mRNA in Escherichia coli. Mol. Microbiol. 1999. 31, 1025-1038
Mathé, C. 1996. Mise en oeuvre, comparaison et evaluation de modèles conditionnels pour des
séquences codantes. In Laboratoire de Biometrie. pp. 24. Jouy-en-Josas: INRA
Matic, I. Les mécanismes du contrôle de échanges génétiques interspécifiques et de la variabilité
génétique chez les bactéries. Bull. Inst. Pasteur 1995. 93, 187-219
Matic, I., Rayssiguier, C., Radman, M. Interspecies gene exchange in bacteria: the role of SOS and
mismatch repair systems in evolution of species. Cell 1995. 80, 507-515
Maynard-Smith, J. Optimization theory in evolution. Annu. Rev. Ecol. Syst. 1978. 9, 31-56
Maynard-Smith, J., Dowson, C. G., Spratt, B. G. Localised sex in bacteria. Nature 1991. 349, 29-31
Mayr, E. Animal species and evolution 1963. Cambridge, MA: Harvard University Press
Mazel, D., Dychinco, B., Webb, V. A., Davies, J. A distinctive class of integron in the Vibrio
cholerae genome. Science 1998. 280, 605-608
Mazza, G., Galizzi, A. Revised genetics of DNA metabolism in Bacillus subtilis. Microbiologica 1989.
12, 157-179
McCarthy, J. E. G., Gualerzi, C. Translational control of prokaryotic gene expression. Trends Genet.
1990. 6, 78-85
McClintock, B. The origin and behaviour of mutable loci in maize. Proc. Natl. Acad. Sci. USA 1950.
36, 344-355
McInerney, J. O. Replicational and transcriptional selection on codon usage in Borrelia burgdorferi.
Proc. Natl. Acad. Sci. USA 1998. 95, 10698-10703
Médigue, C., Rechenmann, F., Danchin, A., Viari, A. Imagene: an integrated computer environments
for sequence annotation and analysis. Bioinformatics 1999. 15, in press
Médigue, C., Rouxel, T., Vigier, P., Henaut, A., Danchin, A. Evidence for horizontal gene transfer in
Escherichia coli speciation. J. Mol. Biol. 1991. 222, 851-856
Meyers, R. S., Stahl, F. W. χ and the RecBCD Enzyme of Escherichia coli. Annu. Rev. Genet. 1994.
28, 49-70
Michaux, S., Paillisson, J., Carles-Nurit, M. J., Bourg, G., Allardet-Servent, A., Razmuz, M.
Presence of two independent chromosomes in the Brucella melitensis 16M genome. J. Bacteriol. 1993.
175, 701-705
Michod, R. E., Wojciechowski, M. F., Hoelzer, M. A. DNA repair and the evolution of transformation
in the bacterium Bacillus subtilis. Genetics 1988. 118, 31-39
Mitta, M., Fang, L., Inouye, M. Deletion analysis of cspA of Escherichia coli: requirement of the ATrich UP element for cspA transcription and the downstream box in the coding region for its cold shock
induction. Mol. Microbiol. 1997. 26, 321-335
Morgenstern, B., Dress, A., Werner, T. Multiple DNA and protein sequence alignment based on
segment-to-segment comparison. Proc. Natl. Acad. Sci. USA 1996. 93, 12098-1203
138
Moszer, I. The complete sequence of Bacillus subtilis: from sequence annotation to data management
and analysis. FEBS lett. 1998. 430, 28-36
Moszer, I., Glaser, P., Danchin, A. Subtilist: a relational database for the Bacillus subtilis genome.
Microbiology 1995. 141, 261-268
Moszer, I., Rocha, E. P. C., Danchin, A. Codon usage and lateral gene transfer in Bacillus subtilis.
Curr. Op. Microbiol. 1999. 2, 524-528
Mottagui-Tabar, S., Björnsson, A., Isaksson, L. A. The second to last amino acid in the nascent
peptide as a codon context determinant. EMBO J. 1994. 13, 249-257
Mottagui-Tabar, S., Isaksson, L. A. The influence of the 5'codon context on translation termination in
Bacillus subtilis and Escherichia coli is similar but different from Salmonella Typhimurium. Gene 1998.
212, 189-196
Mrázek, J., Karlin, S. Strand compositional asymmetry in bacterial and large viral genomes. Proc.
Natl. Acad. Sci. USA 1998. 95, 3720-3725
Mushegian, A. The minimal genome concept. Curr. Op. Genet. Dev. 1999. 9, 709-714
Mushegian, A. R., Koonin, E. V. A minimal gene set for cellular life derived by comparison of
complete bacterial genomes. Proc. Natl. Acad. Sci. USA 1996. 93, 10268-10237
Muto, A., Osawa, S. The guanine and cytosine content of genomic DNA and bacterial evolution. Proc.
Natnl. Acad. Sci. USA 1987. 84, 166-169
Naito, T., Kusano, K., Kobayashi, I. Selfish behavior of restriction-modification systems. Science
1995. 267, 897-899
Nakamura, Y., Ito, K., Isaksson, L. A. Emerging understanding of translation termination. Cell 1996.
87, 147-150
Nakayama, Y., Kobayashi, I. Restriction-modification gene complexes as selfish gene entities: roles of
a regulatory system in their establishment, maintenance and apoptotic mutual exclusion. Proc. Natl.
Acad. Sci. USA 1998. 95, 6442-6447
Needleman, S., Wunsch, C. A general method applicable to the search for similarities in the amino acid
sequence of two proteins. J. Mol. Biol. 1970. 48, 444
Nelson, K. E., Clayton, R. A., Gill, S. R., Gwinn,
M. L., Dodson, R. J. et al. Evidence for lateral
gene transfer between Archaea and Bacteria from genome sequence of Themotoga maritima. Nature 1999.
399, 323-329
Nguyen, C., Rocha, D., Granjeaud, S., Baldit, M., Bernard, K. et al. Differential gene expression
in
the murine thymus assayed by quantitative hybridisation of arrayed DNA clones. Genomics 1995. 29,
207-216
Nierhaus, K. H. Solution of the ribosome riddle: how the ribosome selects the correct aminoacyl-tRNA
out of 41 similar contestants. Mol. Microbiol. 1993. 9, 661-669
Nitschke, P., Guerdoux-Jamet, P., Chiapello, H., Faroux, G., Henaut, C. et al. Indigo: a World
Wide Web review of genomes and gene functions. FEMS Microbiol. Rev. 1998. 22, 207-227
Notredame, C., Higgins, D. G. SAGA: sequence alignment by genetic algorithm. Nucl. Acids Res.
1996. 24, 1515-1524
Nussinov, R. The universal dinucleotide asymmetry rules in DNA and the amino acid codon choice. J.
Mol. Evol. 1981. 17, 237-244
O'Connor, M., Asai, T., Squires, C. L., Dahlberg, A. E. Enhancement of translation by the
downstream box does not involve base pairing of mRNA with the penultimate stem sequence of 16S
RNA. Proc. Natl. Acad. Sci. USA 1999. 96, 8973-8978
Ogasawara, N., Yoshikawa, H. Genes and their organization in the replication origin region of the
bacterial chromosome. Mol. Microbiol. 1992. 6, 629-634
Orengo, C. A., Jones, D. T., Swindels, M. B., Thornton, J. M. Protein superfamilies and domain
superfolds. Nature 1994. 372, 631-634
Orgel, L. E., Crick, F. H. C. Selfish DNA: the ultimate parasite. Nature 1980. 284, 604-607
Orr, H. A. The population genetics of adaptation: the distribution of factors fixed during adaptive
evolution. Evolution 1998. 52, 935-949
Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to
infer functional coupling. Proc. Natl. Acad. Sci. USA 1999. 96, 2896-2901
Palmeirim, I., Henrique, D., Ish-Horowicz, D., Pourquie, O. Avian hairy gene expression identifies a
molecular clock linked to vertebrate segmentation and somitogenesis. Cell 1997. 91, 639-648
139
Pavlov, M. Y., Freistroffer, D. V., Dincbas, V., MacDougall, J., Buckingham, R. H., Ehrenberg,
M. A direct estimation of the context effect on the efficiency of termination. J. Mol. Biol. 1998. 284,
579-590
Pearson, W. R., Lipman, D. J. Improved tools for biological sequence comparisons. Proc. Natl. Acad.
Sci. USA 1988. 85, 2444-2448
Perrière, G., Lobry, J. R., Thioulouse, J. Correspondance discriminant analysis: a multivariate
method for comparing classes of protein and nucleic acid sequences. CABIOS 1996. 12, 519-524
Peterson, S. N., Hu, P.-C., Bott, K. F., Hutchisson, C. A. A survey of the Mycoplasma genitalium
genome by using random sequencing. J. Bacteriol. 1993. 175, 7918-7930
Philippe, H., Laurent, J. How good are deep phylogenetic trees? Curr. Opin. Genet. Dev. 1999. 8,
616-623
Picardeau, M., Lobry, J. R., Hinnenbusch, B. J. Physical mapping of an origin of bidirectional
replication at the centre of the Borrelia burgdorferi linear chromosome. Mol. Microbiol. 1999. 32, 437445
Pinder, D. J., Blake, C. E., Lindsey, J. C., Leach, D. R. F. Replication strand preference for
deletions associated with DNA palndromes. Mol. Microbiol. 1998. 28, 719-727
Plat, T. RNA structure in transcription elongation, termination and antitermination. In RNA structure
and function, 1998. ed. M. Grunberg-Manago. pp. 541-574 Cold Spring Harbour Laboratory Press
Plunkett, G., Rose, D. J., Durfee, T. J., Blattner, F. R. Sequence of Shigella toxin 2 phage 933W
from Escherichia coli 0157:h7: Shiga toxin as a phage late-gene product. J. Bacteriol. 1999. 181, 17671778
Poole, E. S., Brown, C. M., Tate, W. P. The identity if the base following the stop codon determines
the efficiency of in vivo translational termination in Escherichia coli. EMBO J. 1995. 14, 151-158
Poole, E. S., Major, L. L., Mannering, S. A., Tate, W. P. Translational termination in Escherichia
coli: three bases following the stop codon crosslink to RF2 and affect the decoding efficiency of UGAcontaining signals. Nucl. Acids Res. 1998. 26, 954-960
Postel, E. H., Goodgal, S. H. Uptake of single stranded DNA in Haemophilus influenzae and its
ability to transform. J. Mol. Biol. 1966. 16, 317-327
Prum, B., Rodolphe, F., de Turckheim, E. Finding words with unexpected frequencies in DNA
sequences. J. Royal Stat. Soc. B 1995. 57, 205-220
Quentin, Y., Fichant, G., Denizot, F. Inventory, assembly and analysis of Bacillus subtilis ABC
transport systems. J. Mol. Biol. 1999. 287, 467-484
Rabilloud, T., Adessi, C., Giraudel, A., Lunardi, J. Improvement of the solubilization of proteins
in
two-dimensional electrophoresis with immobilized pH gradients. Electrophoresis 1997. 18, 307-316
Radman, M. DNA replication: one strand may be more equal. Proc. Natl. Acad. Sci. USA 1998. 95,
9718-9719
Rayssiguier, C., Thaler, D. S., Radman, M. The barrier to recombination between Escherichia coli
and S. typhimurium is disrupted in mismatch-repair mutants. Nature 1989. 342, 396-401
Razin, S., Yogev, D., Naot, Y. Molecular biology and pathogenicity of Mycoplasmas. Microbiol. Mol.
Biol. Rev. 1998. 62, 1094-1165
Redaschi, N., Bickle, T. A. DNA restriction and modification systems. In Escherichia coli and
Salmonella: cellular and molecular biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K Brooks
Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 773-781.
Washington DC: ASM Press
Redfield, R. J., Schrag, M. R., Dean, A. M. The evolution of bacterial transformation: sex with poor
relations. Genetics 1997. 146, 27-38
Reisenauer, Kahng, L. S., McCollum, S., Shapiro, L. Bacterial DNA methylation: a cell cycle
regulator ? J. Bacteriol. 1999. 181, 5135-5139
Rennell, D., Bouvier, S. E., Hardy, L. W., Poteete, A. R. Systematic mutation of bacteriophage T4
lysozyme. J. Mol. Biol. 1991. 222, 67-88
Resch, A., Tedin, K., Gründling, A., Mündlein, A., Bläsi, U. Downstream box-anti-downstream
box interactions are dispensable for translation initiation of leaderless mRNAs. EMBO J. 1996. 15, 47404748
Riley, M., Labedan, B. Protein evolution viewed through Escherichia coli protein sequences:
introducing the notion of a structural segment of homology, the module. J. Mol. Biol. 1997. 268, 857868
140
Rivera, M. C., Rain, R., Moore, J. E., Lake, J. A. Genomic evidence for two functionally distinct
gene classes. Proc. Natl. Acad. Sci. USA 1998. 95, 6239-6244
Roberts, M. S., Cohan, F. M. The effect of DNA sequence divergence on sexual isolation in Bacillus.
Genetics 1993. 134, 401-408
Roberts, R. J., Macelis, D. REBASE - Restriction enzymes and methylases. Nucl. Acid Res. 1997. 25,
248-262
Roberts, R. J., Macelis, D. REBASE - restriction enzymes and methylases. Nucl. Acids Res. 2000. 28,
306-307
Rocha, E. P. C., Danchin, A., Viari, A. Analysis of long repeats in bacterial genomes reveals
alternative evolutionary mechanisms in Bacillus subtilis and other competent prokaryotes. Mol. Biol.
Evol. 1999a. 16, 1219-1230
Rocha, E. P. C., Danchin, A., Viari, A. Functional and evolutionary roles of long repeats in
prokaryotes. Res. Microbiol. 1999b. 150, 725-733
Rocha, E. P. C., Danchin, A., Viari, A. Translation in Bacillus subtilis: roles and trends of initiation
and termination, insights from a genome analysis. Nucl. Acids res. 1999c. 27, 3567-3576
Rocha, E. P. C., Danchin, A., Viari, A. Universal replication bias in bacteria. Mol Microbiol 1999d.
32, 11-16
Rocha, E. P. C., Danchin, A., Viari, A. The DB case: pattern matching evidences are not significant.
Mol. Microbiol. 2000. in press,
Rocha, E. P. C., Viari, A., Danchin, A. Oligonucleotide bias in Bacillus subtilis: general trends and
taxonomic comparisons. Nucl. Acids Res. 1998. 26, 2971-2980
Ross, S. Stochastic processes 1996. New York: John Wiley & Sons
Roth, J. R., Benson, N., Galitski, T., Haack, K., Lawrence, J. G., Miesel, L. Rearrangements of
the bacterial chromosome: formation and applications. In Escherichia coli and Salmonella: cellular and
molecular biology, 1996. ed. R. C. H Neinhardt, J L Ingraham, Edmund C C Lin, K Brooks Low, Boris
Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 2256-2276.
Washington DC: ASM Press
Rutherford, S. L., Lindquist, S. Hsp90 as a capacitor for morphological evolution. Nature 1998. 396,
336-342
Rychlewski, L., Zhang, B., Godzik, A. Fold and unction predictions for Mycoplasma genitalium
proteins. Fold. Des. 1998. 3, 229-238
Sagot, M.-F., Viari, A., Escalier, V., Soldano, H. 1995a. Searching for repeated words in a text
allowing for mismatches and gaps. In 2nd South American Workshop on string processing, ed. R. BaezaYates, U. Manber. pp. 87-100. Valparaiso, Chile:
Sagot, M.-F., Viari, A., Pothier, J., Soldano, H. 1995b. Finding flexible patterns in a text - an
application to 3D molecular matching. In 1st IEEE workshop on stage and patterns matching in
computational biology. pp. 117-145. Seattle: IEEE
Sagot, M.-F. Ressemblance lexicale et structurale entre macromolécules - Formalisation et approches
combinatoires. Thèse de Doctorat, 1997, Université de Marne-la-Valée.
Saitou, N., Nei, M. The neighbor-joining method: a new method for reconstructing phylogenetic trees.
Mol. Biol. Evol. 1987. 4, 406-425
Salzberg, S. L., Delcher, A. L., Kasif, S., White, O. Microbial gene identification using interpolated
Markov models. Nucl. Acids Res. 1998a. 26, 544-548
Salzberg, S. L., Salzberg, A. J., Kerlavage, A. R., Tomb, J.-F. Skewed oligomers and origins of
replication. Gene 1998b. 217, 57-67
Sanger, F., Coulson, A. R., Friedman, T., Air, G. M., Barrel,
B. G. et al. The nucleotide sequence
of bacteriophage phiX174. J. Mol. Biol. 1978. 125, 225-246
Sanger, F., Coulson, A. R., Hong, G. F., Hill, D. F., Petersen, G. B. Nucleotide sequence of
bacteriophage lambda DNA. J. Mol. Biol. 1982. 162, 729-773
Saunders, C. W., Guild, W. R. Monomer plasmid DNA transforms Streptococcus peumoniae. Mol.
Gen. Gentet. 1981. 180, 573-578
Saunders, N. J., Peden, J. F., Moxon, E. R. Absence in Helicobacter pylori of an uptake sequence for
enhancing uptake of homospecific DNA during transformation. Microbiol. 1999. 145, 3523-3528
Schbath, S. 1995. Etude asymptotique du nombre d'occurrences d'un mot dans une chaîne de Markov et
application à la recherche de mots de fréquence exceptionelle dans les séquences d'ADN. . pp. 174. Paris:
Université René Descartes
141
Schbath, S. An efficient statistic to detect over- and under-represented words in DNA sequences. J.
Comput. Biol. 1997. 4, 189-192
Schmidt, T. Multiplicity of ribosomal RNA operons in Prokaryotic genomes. In Bacterial Genomes,
1998. ed. F. J. d. Bruijn, J. R. Lupski, G. M. Weinstock. pp. 221-229 Chapman & Hall
Schneider, T. D., Stormo, G. D., Gold, L. Information content of binding sites on nucleotide
sequences. J. Mol. Biol. 1986. 188, 415-431
Shannon, C. E., Weaver, W. The mathematical theory of communication 1949. Urbana: University of
Illinois Press
Shapiro, J. A. Genome system architecture and natural genetic engineering in evolution. Ann. N. Y.
Acad. Sci. 1999. 870, 23-35
Sharp, P. M. Molecular evolution of bacteriophages: evidence of selection against the recognition sites
of host restriction enzymes. Mol. Biol. Evol. 1986. 3, 75-83
Sharp, P. M., Bulmer, M. Selective differences among translation termination codons. Gene 1988. 63,
141-145
Sharp, P. M., Leach, D. R. F. Palindrome-induced deletion in enterobacterial repetitive sequences.
Mol. Microbiol. 1996. 22, 1055-1056
Sharp, P. M., Li, W.-H. An evolutionary perspective on synonimous codon usage in unicellular
organisms. J. Mol. Evol. 1986. 24, 28-38
Sharp, P. M., Matassi, G. Codon usage and genome evolution. Curr. Op. Genet. Dev. 1994. 4, 851860
Sharp, P. M., Shields, D. C., Wolfe, K. H., Li, W.-H. Chromosomal location and evolutionary rate
variation in enterobacterial genes. Science 1989. 246, 808-810
Sharples, G. J., Lloyd, R. G. A novel repeated DNA sequence located in the intergenic regions of
bacterial genomes. Nucl. Acids Res. 1990. 18, 6503-6508
Shean, C., Gottesman, M. Translation of the prophage lambda cl transcript. Cell 1992. 70, 513-522
Shen, P., Huang, H. Effect of base pair mismatches on recombination via the RecBCD pathway. Mol.
Gen. Genet. 1989. 218, 358-360
Sherman, J. M., Pillus, L. An uncertain silence. Trends Genet. 1997. 13, 308-313
Sippl M.J., Flockner H. Threading thrills and threats. Structure 1996. 4, 15-19
Sinden, R. R., Hashem, V. I., Rosche, W. A. DNA-directed mutations. Ann. N. Y. Acad. Sci. 1999.
870, 173-189
Smith, G. R. Homologous recombination in procaryotes. Microbiol. Rev. 1988. 52, 1-28
Smith, H. O., Tomb, J.-F., Dougherty, B. A., Fleischmann, R. D., Venter, J. C. Frequency and
distribution of DNA uptake signal sequences in the Haemophilus influenzae Rd Genome. Science 1995.
269, 538-540
Smith, T. F., Waterman, M. S. Comparison of bio-sequences. Adv. Appl. Math. 1981. 2, 482-489
Sober, E., ed. Conceptual issues in evolutionary biology. 2nd ed. 1995. . Cambridge, MA: MIT Press.
506 pp.
Soldano, H., Viari, A., Champesme, M. Searching for flexible repeated patterns using a non-transitive
relation. Patt. Recogn. lett. 1995. 16, 233-246
Solomon, J. M., Grossman, A. D. Who's competent and when: regulation of natural genetic
competence in bacteria. Trends Genet. 1996. 12, 150-155
Sowers, K. R., Schreier, H. J. Gene transfer systems for the archaea. Trends Microbiol. 1999. 7, 212219
Sprengart, M. L., Fatscher, H. P., Fuchs, E. The initiation of translation in Escherichia coli: apparent
base-pairing between the 16S rRNA and downstream sequences of the mRNA. Nucl. Acids Res. 1990.
18, 1719-1723
Sprengart, M. L., Fuchs, E., Porter, A. G. The downstream box: an efficient and independent
translation initiation signal in Escherichia coli. EMBO J. 1996. 15, 665-674
Sprengart, M. L., Porter, A. G. Functional importance of RNA interactions in selection of translation
initiation codons. Mol. Microbiol. 1997. 24, 19-28
Stephens, R. S., Kalman, S., Lammel, C., Fan, J., Marathe, R. et al. Genome sequence of an
obligate intracellular pathogen of humans: Chlamydia trachomatis. Science 1998. 282, 754-759
Stojanovic, N., Florea, L., Riemer, C., Gumucio, D., Slightom, J. et al. Comparison of five
methods
for finding conserved sequences in multiple alignments of gene regulatory regions. Nucl. Acids Res.
1999. 27, 3899-3910
142
Stormo, G. Consensus patterns in DNA. Meth. Enzym. 1990. 183, 211-221
Stormo, G. D., Hartzell, G. W. Identifying protein-binding sites from unaligned DNA fragments. Proc.
Natl. Acad. Sci. USA 1989. 86, 1183-1187
Stormo, G. D., Schneider, T. D., Gold, L. Characterisation of translational initiation sites in
Escherichia coli. Nucl. Acids Res. 1982. 10, 2971-2996
Stormo, G. D., Schneider, T. D., Gold, L. Quantitative analysis of the relationship between nucleotide
sequence and functional activity. Nucl. Acids Res. 1986. 14, 6661-6679
Stragier, P., Kunkel, B., Kroos, L., Losick, R. Chromosomal rearrangement generating a composite
gene for a developmental transcription factor. Science 1989. 243, 507-512
Sueoka, N. Directional mutation pressure, mutator mutations and dynamics of molecular evolution. J.
Mol. Evol. 1993. 37, 137-153
Syvanen, M. Horizontal gene transfer: evidence and possible consequences. Annu. Rev. Genet. 1994. 28,
237-261
Syvanen, M. Insertion sequences and their evolutionary role. In Bacterial Genomes, 1998. ed. F. J. d.
Bruijn, J. R. Lupski, G. M. Weinstock. pp. 213-220 Chapman & Hall
Tang, C. M. Haemophilus influence: the impact of whole genome sequencing on microbiology. Trends
Genet. 1997. 13, 399-404
Tao, H., Bausch, C., Richmond, C., Blattner, F. R., Conway, T. Functional genomics: expression
analysis of Escherichia coli growing on minimal and rich media. J. Bacteriol. 1999. 181, 6425-6440
Tate, W. P., Mannering, S. A. Three, four or more: the translational stop signal at length. Mol.
Microbiol. 1996. 21, 213-219
Tatusov, R. L., Koonin, E. V. A genomic perspective of protein families. Science 1997. 278, 631-637
Tedin, K., Moll, I., Grill, S., Resch, A., Graschopf, A. et al. Translation initiation factor 3
antagonizes authentic start codon selection on leaderless mRNAs. Mol. Microbiol. 1999. 31, 67-77
Tekaia, F., Lazcano, A., Dujon, B. The genomic tree as revealed from whole proteome comparisons.
Genome Res. 1999. 9, 550-557
Thanaraj, T. A., Argos, P. Protein secondary structural types are differentially coded on messenger
RNA. Prot. Sci. 1996. 5, 1973-1983
Thomas, N. S., Lusher, M., Storey, C. C., Clacke, I. N. Plasmid diversity in Clamydia.
Microbiology 1997. 143, 1847-1854
Thomson, J. D., Higgins, D. G., Gibson, T. J. Clustal W: improving the sensitivity of progressive
multiple sequence alignment through sequence weighting, positions-specific gap penalties and wheight
matrix choice. Nucl. Acids Res. 1994. 22, 4673-4680
Thomson, J. D., Plewniak, F., Poch, O. A comprehensive comparison of multiple sequence alignment
programs. Nucl. Acids Res. 1999. 27, 2682-2690
Tomano, T. Shufflons: multiple inversion systems and integrons. Annu. Rev. Genet. 1999. 33, 171-191
Tomb, J.-F., White, O., Kerlavage, et al. The complete genome sequence of the gastric pathogen
Helicobtacter pylori. Nature 1997. 388, 539-547
Tomii, K., Kanehisa, M. A comparative analysis of ABC transporters in complete microbial genomes.
Genome Res. 1998. 8, 1048-1059
Trifonov, E. N. The multiple codes of nucleotides sequences. Bull. Math. Biol. 1989. 51, 417-432
Trinh, T. Q., Sinden, R. R. Preferential DNA secondary structure mutagenesis in the lagging strand of
replication in Escherichia coli. Nature 1991. 352, 544-547
Vagner, V., Claverys, J.-P., Ehrlich, S. D., Méjean, V. Direction of DNA entry in competent vells of
Bacillus subtilis. Mol. Microbiol. 1990. 4, 1785-1788
VanBogelen, R. A., Schiller, E. E., Thomas, J. D., Neidhardt, F. C. Diagnosis of cellular states of
microbial genomes using proteomics. Electrophoresis 1999. 20, 2149-2159
Varenne, S., Buc, J., Lloures, R., Ladzunski, C. Translation is a non-uniform process: effect of
tRNA availability on the rate of elongation of the nascent po
lypeptide chains. J. Mol. Biol. 1984. 180, 549-576
Velicer, G. J., Kroos, L., Lenski, R. E. Loss of social behaviors by Myxococcus xanthus during
evolution in an unstructured habitat. Proc. Natl. Acad. Sci. USA 1998. 95, 12376-12380
Vellanoweth, R. L. Translation and its regulation. In Bacillus subtilis and other Gram-positive
bacteria, 1993. ed. A. L. Sonenshein, J. A. Hoch, R. Losick. pp. 699-711. Washington D. C.:
American Society for Microbiology
143
Vellanoweth, R. L., Rabinowitz, J. C. The influence of ribosome-binding-site elements on
translational efficiency in Bacillus subtilis and Escherichia coli in vivo. Mol. Microbiol. 1992. 6, 11051114
Versalovic, J., Lupski, J. R. Interspersed repetitive sequences in bacterial genomes. In Bacterial
Genomes, 1998. ed. F. J. d. Bruijn, J. R. Lupski, G. M. Weinstock. pp. 38-48. Boston: Kluwer
Academic
Vinella, D., D'Ari, R. Overview of controls in the Escherichia coli cell cycle. BioEssays 1995. 17, 527536
Vingron, M., Waterman, M. S. Sequence alignment and penalty choice: review of concepts, case
studies and implications. J. Mol. Biol. 1994. 235, 1-12
Volff, J.-N., Altenbuchner, J. Genetic instability of the Streptomyces chromosome. Mol. Microbiol.
1998. 27, 239-246
Vulic, M., Dionisio, F., Taddei, F., Radman, M. Molecular keys to speciation: DNA polymorphism
and the control of genetic exchange in enterobacteria. Proc. Natl. Acad. Sci. USA 1997. 94, 9763-9767
Wake, R. G., Errington, J. Chromosome partitioning in bacteria. Annu. Rev. Genet. 1995. 29, 41-67
Wang, Y.-D., Zhao, S., Hill, C. W. Rhs elements comprise three subfamilies which diverged prior to
acquisition by Escherichia coli. J. Bacteriol. 1998. 180, 4102-4110
Waterman, M. S. Introduction to computational biology. 1st ed. 1995. London: Chapman & Hall. 431
pp.
Watson, J. D., Crick, F. C. Molecular structure of nucleic acids: a structure for deoxyribose nucleic
acid. Nature 1953. 171, 737-738
Watt, V. M., Ingles, C. J., Urdea, M. S., Rutter, W. J. Homology requirements for recombination in
Escherichia coli. Proc. Natl. Acad. Sci. USA 1985. 82, 4768-4772
Whitman, W. B., Coleman, D. C., Wiebe, W. J. Prokaryotes: the unseen majority. Proc. Natl. Acad.
Sci. USA 1998. 95, 6578-6583
Whittle, P. Some distribution and moment formulae for the Markov chain. J. Royal Stat. Soc. B 1955.
17, 235-242
Williams, G. C. Adaptation and natural selection 1966. Princeton: Princeton University Press
Wilson, D. S., Sober, E. Behav. Brain Sci. 1994. 17, 585-654
Wilson, G. G. Organization of restriction-modification systems. Nucl. Acids Res. 1991. 19, 2539-2566
Woese, C. R., Kandler, O., Wheelis, M. L. Towards a natural system of organisms: proposal for the
domains of Archaea, Bacteria and Eucarya. Proc. Natl. Acad. Sci. USA 1990. 87, 4576-4579
Woldringh, C. L., Jensen, P. R., Westerhoff, H. V. Structure and partitioning of bacterial DNA:
determined by a balance of compaction and expansion forces? FEMS Microbiol. Lett. 1995. 131, 235-242
Wu, C.-I., Maeda, N. Inequality in mutation rates of the two strands of DNA. Nature 1987. 327, 169170
Wu, L. J., Errington, J. Use of asymmetric cell division and spoIIIE mutants to probe chromosome
orientation and organization in Bacillus subtilis. Mol. Microbiol. 1998. 27, 777-786
Yoshikawa, H., Wake, R. G. Initiation and termination of chromosome replication. In Bacillus subtilis
and other Gram-positive bacteria, 1993. ed. A. L. Sonenshein, J. A. Hoch, R. Losick. pp. 507-528.
Washington D. C.: American Society for Microbiology
Yuzhakov, A., Turner, J., O'Donnell, M. Replisome assembly reveals the basis for asymetric function
in leading and lagging strand replication. Cell 1996. 86, 877-886
Zawadzki, P., Cohan, F. M. The size and continuity of DNA segments integrated in Bacillus
transformation. Genetics 1995. 141, 1231-1243.
144

Documents pareils