Analyse exploratoire des génomes bactériens
Transcription
Analyse exploratoire des génomes bactériens
Université de Versailles Saint-Quentin-en-Yvelines THESE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITE DE VERSAILLES SAINT-QUENTIN-EN-YVELINES Spécialité : Génétique Cellulaire et Moléculaire Présentée et soutenue publiquement par Eduardo Pimentel Cachapuz Rocha Analyse exploratoire des génomes bactériens Soutenue le 7 Avril 2000 devant le jury composé de : Bernard Mignotte président Christian Gautier rapporteur François Taddei rapporteur François Rodolphe examinateur Jean-François Tomb examinateur Antoine Danchin examinateur Alain Viari examinateur 1 Table des Matières 1. INTRODUCTION .............................................................................................................. 5 La génomique 2. L’ANALYSE DES GÉNOMES COMPLETS..................................................................... 9 2.1 Qu’est ce que la génomique ? 2.2 Les projets de séquençage 9 11 Publication I- Kunst F. et al. 1997, The complete genome of the Gram+ bacterium Bacillus subtilis, Nature 2.3 Quelques perspectives ouvertes par la génomique 17 2.4 La paillasse après l’analyse in silico 22 3. L'INFORMATIQUE ET LA GÉNOMIQUE.................................................................... 26 3.1 L’identification d’objets et de relations simples 27 3.2 Relations et intégration des connaissances 29 3.3 Un bref état de l'art des recherches par similarité 29 3.4 Les statistiques sur les mots 35 L'organisation des chromosomes 4. SUR L’ORGANISATION DES GÉNOMES BACTÉRIENS ........................................... 40 4.1 Des "sacs de gènes" aux génomes 40 4.2 Le principe du voisinage 41 Publication II- Rocha EPC et al. 2000, Implication of gene distribution in the bacterial chromosome for the bacterial cell factory, J. Biotechnology 4.3 L’importance des échantillons 43 Publication III- Rocha EPC et al. 1998, Oligonucleotide bias in Bacillus subtilis: general trends and taxonomic comparisons, Nucleic Acids Research 4.4 5. Quelques perspectives 45 LES BIAIS LIÉS À LA RÉPLICATION.......................................................................... 46 5.1 La réplication chez les Bactéries 47 5.2 Les travaux expérimentaux de détection d’asymétries 49 5.3 Les GC skews 50 Publication IV- Rocha, EPC et al. 1999, Universal replication biases in bacteria, Molecular Microbiology 5.4 L'ubiquité des biais 53 5.5 L’universalité des biais 54 5.6 La superposition des biais 55 5.7 Les théories et les résultats 55 6. LA TRADUCTION ET SES BIAIS.................................................................................. 59 6.1 Le démarrage de la traduction 59 6.2 L'allongement 61 6.3 La terminaison de la traduction 63 Publication V - Rocha EPC et al. 1999, Translation in Bacillus subtilis: roles and trends of initiation and termination, insights from a genome analysis, Nucleic Acids Research 2 6.4 Le mystère du codon de démarrage 64 6.5 Un bon contexte pour un bon démarrage 64 6.6 La structuration du messager et la traduction 65 6.7 Les contextes de la terminaison 65 6.8 Symétries inattendues 66 6.9 Le problème de la "downstream box" 67 Publication VI - Rocha EPC et al. The DB case: pattern matching evidences are not significant, Molecular Microbiology, a paraître L'évolution des chromosomes 7. LE RÔLE ÉVOLUTIF DES RÉPÉTITIONS DANS LES GÉNOMES BACTÉRIENS..... 70 7.1 Le concept de génome minimal 70 7.2 Les remaniements chromosomiques et les répétitions 71 7.3 La recombinaison homologue 73 7.4 À la recherche des répétitions 74 Publication VII - Rocha EPC et al. 1999, Analysis of long repeats in bacterial genomes reveals alternative evolutionary mechanisms in Bacillus subtilis and other competent prokaryote, Molecular Biology and Evolution 7.5 8. Conclusion 74 LES RÉPÉTITIONS ET LE TRANSFERT HORIZONTAL CHEZ BACILLUS SUBTILIS.............................................................................................. 79 8.1 La sexualité chez les bactéries 8.2 La recombinaison et le transfert horizontal 81 8.3 La transformation naturelle 81 8.4 Barrières à la sexualité bactérienne 83 8.5 Un modèle pour le transfert horizontal chez Bacillus subtilis 84 9. 79 LA NATURE ÉGOÏSTE DES SYSTÈMES DE RESTRICTION...................................... 86 9.1 Les systèmes de restriction et modification de type II et la défense cellulaire 86 9.2 Premières études sur le rôle évolutif des systèmes de restriction et modification de type II 87 9.3 Le modèle égoïste 89 9.4 Les difficultés du paradigme 91 9.5 Un schéma expérimental in silico 93 Publication VIII - Rocha EPC et al. The evolutionary role of restriction/modification systems revealed by comparative genome analysis, en rédaction 9.6 Conclusions et perspectives 93 Méthodologies 10. STATISTIQUES SUR LES MOTS ................................................................................... 96 10.1 Les processus de Markov 96 10.2 L'admissibilité des hypothèses de base 98 10.3 Les expressions asymptotiques et leurs simplifications 99 10.4 La démarche 103 3 11. STATISTIQUES ET ALGORITHMES POUR LA RECHERCHE DE RÉPÉTITIONS LONGUES......................................................................................... 107 11.1 Segments homologues maximaux entre séquences aléatoires 107 11.2 L’algorithme de Karp-Miller-Rosenberg 111 11.3 Filtrage des résultats 115 11.4 Analyse de la similarité 117 11.5 Avantages et désavantages de la méthode 119 12. ANALYSE DISCRIMINANTE LINÉAIRE ................................................................... 121 12.1 L'analyse discriminante de Fisher 121 12.2 La démarche expérimentale 123 13. CONCLUSION ET PERSPECTIVES............................................................................. 126 RÉFÉRENCES BIBLIOGRAPHIQUES.................................................................................. 129 ANNEXES Publication IX - Rocha EPC et al. 1999, Functional and evolutionary roles of long repeats in prokaryotes, Research in Microbiology Publication X - Moszer I et al. 1999, Codon usage and lateral gene transfer in Bacillus subtilis, Current Opinion in Microbiology Publication XI - Rocha EPC et al. In silico genome analysis, in Functional analysis of bacterial genes: a practical manual, Ed. Schuman W et al, John Wiley & Sons, a paraître 4 1. Introduction Cette thèse voit le jour au moment de l’explosion de la génomique. Ce qui pendant plusieurs années a été considéré comme le rêve fantaisiste de quelques-uns est aujourd’hui une réalité concrète et incontournable. Au moment de la rédaction de ce mémoire 24 génomes bactériens complets et deux génomes eucaryotes sont disponibles. Il y en aura certainement plus au moment de sa lecture... Des programmes de plus en plus puissants et performants permettent d'essayer de comprendre à partir de la séquence complète d'un génome, une partie importante du fonctionnement et de l'évolution de l’organisme. Ces analyses permettent d’apprendre énormément sur le métabolisme et la gestion de l’information des êtres vivants, soit par comparaison avec des résultats expérimentaux, soit par analogie avec des organismes modèles. Ce dernier point est particulièrement important dans l’étude de bactéries qui poussent très lentement ou ne poussent pas du tout en conditions de laboratoire. Or, nous savons aujourd’hui qu’entre 99 et 99,9 % des bactéries nous sont inconnues et probablement ne poussent pas facilement dans les conditions standard (Whitman et al. 1998). D’ailleurs, tout un domaine du vivant, celui des archaea, requiert souvent des conditions de croissance exceptionnelles, comme des hautes températures, des hautes pressions ou encore des milieux acides. Néanmoins, l’accroissement actuel des données de séquençage risque de ne pas être suivi par une augmentation proportionnelle de notre connaissance sur les organismes vivants ; ceci en raison des limitations des approches automatisées d’extraction des connaissances. Ainsi, l’utilisation trop systématique de logiciels automatisés peut appauvrir et limiter les recherches faites sur les génomes. Etant donné notre ignorance de certains problèmes biologiques, il est fondamental de savoir quand il faut cesser d'employer des procédures automatisées et passer à des analyses basées sur la connaissance et le jugement du 5 chercheur. Puisque l’apprentissage par les machines est basé sur des contextes divers et nécessairement simplifiés il faut bien connaître ses limitations. La génomique, à la mode et donc sujette à des investissements humains et financiers massifs, est particulièrement vulnérable à certains détournements. Pourtant, toutes les données apportées par la génomique permettent de vérifier et de tester beaucoup d’hypothèses qui naguère auraient demandé un trop grand effort expérimental. L’analyse in silico des séquences autorise la détection de mécanismes fonctionnels ou évolutifs nouveaux, mais permet également de tester d'anciennes hypothèses biologiques jusqu’ici non vérifiables. C’est cette analyse exploratoire des génomes qui constitue précisément le sujet de cette thèse. Sous ce nom se cachent des méthodologies, stratégies et objectifs assez divers, mais présentant plusieurs dénominateurs communs. Le premier, et peut-être le plus important, est l’analyse de génomes complets. En coupant en partie avec l’approche parfois trop réductionniste de la biologie moléculaire classique, en génomique l'étude des relations entre les objets biologiques utilise l’ensemble complet de l’information génétique. Le deuxième point concerne la comparaison phylogénétique entre les organismes, afin de mettre à jour leurs relations évolutives. Même si la plupart des souches séquencées ne sont que trop adaptées aux conditions du laboratoire, leur évolution, conditionnée par leurs relations avec les autres organismes et avec l’environnement, est "imprimée" dans le chromosome. La comparaison avec d’autres génomes reste ainsi fondamentale. L’objectif principal de ce travail est la définition de stratégies et méthodologies dédiées à l’analyse fine des génomes bactériens. Cependant, ces analyses n’ont de sens que face à un sujet propre d’application. Nous avons ainsi réalisé plusieurs applications dans différents domaines et sur plusieurs génomes, en nous intéressant particulièrement à Bacillus subtilis, l'organisme modèle des bactéries Gram positives. Ces objectifs ont été définis de façon suffisamment floue pour s'adapter à un domaine scientifique en démarrage. Rappelons que le premier génome complet n’a vu le jour qu’en 1995 ! Depuis le début de ce travail nous avons choisi une approche qui n'est pas évidente pour tout le monde : la biologie d’abord. Les études doivent trouver leur source dans un problème ou une hypothèse biologique. Ce n'est qu'en fonction de ce problème que se fait la recherche des meilleures méthodes informatiques disponibles ou possibles. Etudier un génome c’est un peu comme faire la cartographie d’un nouveau continent. Souvent il y a trop d'inconnues pour que le chercheur puisse se permettre de faire des hypothèses très spécifiques. Dans ce cas, une exploration préalable du problème est nécessaire quitte à attendre l’émergence de questions et d’histoires plus pertinentes. Même si cette approche n’est pas habituelle en biologie moléculaire, où la recherche est presque toujours conduite par des hypothèses assez spécifiques, elle n’est pas moins motivée du point de vue biologique. Par exemple quand nous nous sommes intéressés aux répétitions 6 dans les génomes bactériens il y avait plusieurs questions biologiques sous-jacentes, notamment la stabilité des génomes et l’acquisition de nouvelles fonctions par duplication. Cependant, un des résultats le plus intéressant fut la suggestion d’un nouveau mécanisme évolutif chez Bacillus subtilis. Ceci n’était pas du tout dans notre idée initiale ! Par contre, d'autres sujets ont pu être développés en suivant la démarche traditionnelle : hypothèse, définition de l’expérience, expérience, conclusion. Cela a été le cas des travaux sur les biais associés aux brins de réplication et sur le rôle évolutif des systèmes de restriction et modification. Cette thèse est présentée de façon à refléter ce point de vue. Ainsi, la première partie porte sur la génomique, un néologisme dont la définition est un peu floue et qui, à la limite, inclut tout ce qui concerne les génomes complets et leur analyse. En particulier nous détaillerons l’importance fondamentale de l’informatique dans la génomique, en passant rapidement sur l’assemblage et le stockage des données et en nous focalisant sur l’analyse des données et l’"après séquençage". Nous en profiterons pour introduire quelques notions de base de statistique nécessaires à la compréhension du reste du texte. La deuxième partie de la thèse porte sur l’analyse exploratoire des génomes et sur les études que nous avons réalisées. Elle est organisée en suivant les deux composantes principales de l’analyse des génomes, l’analyse de la structure des génomes et l’analyse de leur évolution. Un génome n’est pas un "sac de gènes", mais un ensemble ordonné et structuré d’informations qui permet le fonctionnement de la cellule et qui évolue en fonction des besoins adaptatifs des organismes. Nos analyses ont souvent démarré de l’exploration de cette idée. Finalement nous avons placé les aspects méthodologiques à la fin du mémoire pour indiquer qu’ils sont secondaires par rapport à la biologie. Le terme "secondaire" n’est pas péjoratif. Dans un contexte d’analyse exploratoire de génomes, les méthodes restent accessoires, quoique fondamentales, pour le biologiste. Un jour viendra où la bioinformatique sera considéré par le biologiste comme un outil à l’image des techniques d’électrophorèse ou des constructions génétiques. 7 La génomique 8 2. L’analyse des génomes complets 2.1 Qu’est ce que la génomique ? La disponibilité d’une grande quantité d’information sur les séquences d’ADN et en particulier sur les génomes complets de plus de 20 espèces bactériennes a ouvert le "troisième âge" de la microbiologie moléculaire (Tang 1997). Les recherches sur les lois de l'hérédité ont inauguré le "premier âge", celui de l'analyse de mutants aléatoires aux phénotypes intéressants. L’objectif de beaucoup de ces études était la découverte des bases moléculaires ou fonctionnelles de ces phénotypes. À la suite de la révolution moléculaire des années 50 et 60, nous sommes rentrés dans le "deuxième âge". Celui-ci a été dominé par l’application de la technologie de l’ADN recombinant à la construction de mutations dirigées sur des gènes dont on spéculait un certain phénotype. Aujourd’hui, grâce à la quantité et à l'exhaustivité des descriptions génétiques, les hypothèses sur les fonctions et rôles des gènes seront de plus en plus issues de recherches in silico, suivies par des tests au laboratoire. Si le premier âge était basé sur la connaissance du génotype par observation de différents phénotypes et si le deuxième se basait sur des changements précis des génotypes pour observer les phénotypes correspondants, on essaye maintenant de déduire des phénotypes en partant de l’information sur le génotype (Figure 2.1) (Hinton 1997). Ainsi, nous sommes devant un changement vraiment qualitatif de la façon de rechercher en microbiologie. Ce n’est pas seulement que nous avons beaucoup plus de données, c’est aussi que nous avons la possibilité de nous poser des questions qui, il y a très peu de temps encore, ne pouvait être que des spéculations. En provoquant une rupture de paradigme en termes de recherche en microbiologie, la contribution de la génomique n’est pas de jeter aux oubliettes les résultats et méthodes de tout ce qu’a été faite jusqu’à présent. Au contraire, une fois acquise l’information sur l’ensemble de gènes que constitue le génome, il faut bien essayer de comprendre son rôle. 9 Ceci est l'objectif primordial des programmes d'analyse fonctionnelle en cours chez plusieurs organismes modèles tels que Bacillus subtilis (Ehrlich et al. 1999) ou Saccharomyces cerevisiae (Dujon 1996). I. Mendel II. la révolution moléculaire III. La génomique Phénotype Génotype Phénotype localisation caractérisation Génotype Phénotype analyse in silico Biopuces Génotype Figure 2.1 - Schéma représentatif des changements produits dans la microbiologie moléculaire à la suite de la révolution moléculaire et de la génomique. La génomique ne vaut pas simplement par ce qu’elle donne à connaître, mais aussi par ce qu’elle dévoile de notre ignorance sur le fonctionnement des bactéries. La constatation du fait qu'entre un tiers et la moitié des gènes présents dans les génomes bactériens a une fonction inconnue est d’importance fondamentale pour comprendre ce qu’il reste encore à découvrir. C’est cette découverte, issue de l’analyse in silico, qui est à l’origine de l’analyse exploratoire des génomes. La rupture épistémologique créée par la génomique est profonde, puisqu’elle représente aussi la remise en question de l’approche hypothético-déductive classique en biologie expérimentale (Goodman 1999). Dans ce modèle classique de recherche, il y a une définition préalable de l’hypothèse à tester, suivie de la définition d’une expérience ayant comme objective sa confirmation ou sa négation. Les raisonnements sous-jacents à cette approche semblent assez raisonnables. Non seulement elle permet une définition objective des hypothèses, mais elle conduit généralement aussi à un bon rapport résultats/coût pour le résultat attendu. Et pourtant, c’est justement ce bon rapport qui est remis en question par la génomique. La collection de génomes complets est probablement la plus grande collection "libre d’hypothèses préalables" de l’histoire de la biologie (Goodman 1999). De plus, elle est moins coûteuse que l’approche de séquençage gène par gène (i.e. sujet par sujet) (Dujon 1996). Une fois obtenue, l’information sur le génome peut être examinée par la communauté scientifique de plusieurs façons et perspectives (Clayton et al. 1998). De plus, cette "recherche dirigée par les données" n’est pas seulement une alternative, c’est aussi une nécessité quand il n’y a pas de connaissances préalables suffisantes pour définir des hypothèses objectives et précises. Devant un nouveau génome, le chercheur est un peu comme les explorateurs du XIVe siècle devant un nouvel océan : si on ne connaît rien, comment savoir où aller ? En fait, les hypothèses définies aujourd’hui par les chercheurs sont fondées sur une énorme masse de 10 données acquises dans le passé. Cette situation ressemble beaucoup au travail des naturalistes du XVIIIe et XIXe siècles qui recueillaient des spécimens partout dans le monde en quête de règles et de formalisations. Dans ces deux cas, l’exploration est la seule voie. Pour les biologistes du XIXe siècle, ceci a abouti à une énorme masse de données qui, même sans d'hypothèse préalable, a été à la base des théories de l'évolution des espèces (Depew & Weber 1995). Cependant, l’approche exploratoire a ses limites et ses dangers. Puisqu’elle est plus générale, il est plus difficile de décomposer les effets dans le tout. Il est également plus difficile de sortir du domaine de la simple description vers celui des théories et modèles. Finalement, nous revenons à notre question d’origine : qu’est ce que la génomique ? En l’absence d'une définition dans le dictionnaire, nous pouvons la définir comme ce qui concerne l’analyse des génomes, pris comme un tout. C’est une définition assez générale, et vague en conséquence, qui a été créée en 1986 par Thomas Roderick (Hieter & Boguski 1997) pour décrire la discipline scientifique consacrée à cartographier, à séquencer et à analyser les génomes (et qui par ailleurs a été utilisée la première fois pour baptiser un journal scientifique). Aujourd'hui la génomique est en train de se déplacer rapidement d’une vision centrée sur le séquençage vers celle de l’analyse des fonctions. Certains appellent "génomique fonctionnelle" cette seconde phase (Hieter & Boguski 1997), puisqu’on se focalise sur la fonction des gènes. En fait, il n’y a pas que la fonction des gènes qui est importante, il faut y ajouter l’évolution et l’organisation de l’information génétique. Ce n’est qu’avec ces deux autres composantes, malheureusement fréquemment oubliées dans l’exaltation de la génomique, que le tableau se complète. Nous décrirons de façon brève, dans les prochains paragraphes, les principaux projets de séquençage de bactéries et ce qu’ils nous ont appris. 2.2 Les projets de séquençage Le premier génome à ADN entièrement séquencé a été celui du bactériophage Φ X174 (5386 pb) en 1978 (Sanger et al. 1978). Les 17 années suivantes ont vu apparaître plusieurs autres génomes de virus, de mitochondries et de chloroplastes. Contrairement à l’attente générale Escherichia coli, le plus important des modèles bactériens, n'a pas été séquencé le premier, mais une autre protéobactérie : Haemophilus influenzae (Fleischmann et al. 1995) l’a devancé. C’était en 1995 et cette date marque le début de l’âge de la génomique bactérienne. 2.2.1 Les premiers génomes L’originalité du projet de séquençage de Haemophilus influenzae réside dans la stratégie utilisée : tout le génome a été fragmenté aléatoirement, tous les morceaux séquencés et finalement assemblés. Ce projet a démontré qu’il n'était pas nécessaire de 11 connaître la carte physique d'un génome pour le séquencer entièrement. Cette méthode avait déjà été utilisée précédemment, mais pour des génomes beaucoup plus petits, comme le phage Lambda (Sanger et al. 1982). Au-delà de la prouesse technique, il n’y aurait pas eu de génome complet sans un fort investissement dans la création de logiciels d’assemblage des fragments. C’est en effet un problème très difficile du point de vue de l'informatique (Galant et al. 1980), qui limite encore la taille des génomes séquencés selon cette approche. Tableau 1 - Génomes bactériens complets en décembre 1999. Espèce bactérienne Aeropyrum pernix longueur G+C (pb) (%) 1669695 56.31 gènes codant ARNr ARNt (#) (%) 2694 1.15 5 47 %gènes précoce - Aquifex aeolicus 1551335 43.48 1522 0.94 6 44 - Archaeoglobus fulgidus 2178400 48.58 2407 0.94 3 46 - Bacillus subtilis 4214814 43.52 4098 0.87 30 88 75 Borrelia burgdorferi 910724 28.59 850 0.94 5 34 65 Campylobacter jejuni 1641480 30.5 1731 0.95 9 43 - Chlamydia pneumoniae 1230230 40.58 1052 0.90 3 38 Chlamydia trachomatis 1042519 41.31 894 0.90 6 37 55 Escherichia coli 4639221 50.79 4289 0.88 22 86 55 Haemophilus influenzae 1830138 38.15 1709 0.88 18 18 56 Helicobacter pylori 1667867 38.87 1566 0.91 7 36 58 Helicobacter pylori J99 1643831 39.19 1491 0.91 - - 58 Methanococcus jannaschii 1664970 31.43 1715 0.88 6 37 53 Methanobacterium thermoautotrophicum 1751377 49.54 1869 0.90 6 39 56 Mycoplasma genitalium 580074 31.69 480 0.91 3 36 80 Mycoplasma pneumoniae 816394 40.01 677 0.88 3 33 78 Mycobacterium tuberculosis 4411529 65.61 3909 0.91 3 45 59 Pyrococcus abyssi 1765118 44.71 1763 0.91 5 46 - Pyrococcus horikoshii 1738505 41.88 2058 0.99 3 46 - Rickettsia prowazekii 1111523 29.00 834 0.77 3 33 61 Synechocystis spp C125 3573470 47.72 3163 0.87 6 43 - Thermotoga maritima 1860725 46.25 1846 0.96 3 46 - Treponema pallidum 1138011 52.77 1031 0.94 6 45 65 Pourtant les résultats ont confirmé les analyses des premiers chromosomes complets de S. cerevisiae (Dujon 1996) et des longs contigs de Escherichia coli (Blattner et al. 1993). En effet, la séquence de Haemophilus influenzae (1.83 Mb) contient environ 1743 gènes putatifs, parmi lesquels 40 % n’ont pas de fonction connue. La moitié de ces gènes n'ont pas d’homologues dans les bases de données, alors que l’autre moitié possède des homologues dont on ignore également la fonction (Fleischmann et al. 1995). Cette observation s’est 12 répétée à chaque publication d’un nouveau génome, même si les chiffres précis varient suivant l’organisme et les méthodes utilisées (Tableau 1). Une actualisation des annotations de Haemophilus influenzae a permis d’assigner une fonction à 15 % de ces "gènes orphelins" qui, parfois, résultaient d'erreurs de séquençage (Clayton et al. 1998). Ce résultat démontre que l’obtention de génomes complets doit être suivie d’efforts d’actualisation des annotations et de la séquence elle-même (Moszer 1998). Jusqu’à la parution du génome complet de Haemophilus influenzae, le séquençage de génomes bactériens ne constituait une priorité ni pour la plupart des chercheurs ni pour les agences de financement (Danchin 1995) (Tang 1997). Après sa publication, tout le domaine a été bouleversé et le séquençage de bactéries a connu un essor qui se prolonge jusqu’à nos jours. Peu après Haemophilus influenzae est paru le génome de Mycoplasma genitalium, la bactérie possédant le plus petit génome connu à l’époque (Fraser et al. 1995). La stratégie utilisée pour séquencer le génome de Mycoplasma genitalium fut identique à celle employée dans le cas de Haemophilus influenzae, mais fut facilitée par l’existence de cartes physiques et génétiques et d'études préalables de séquençage aléatoire (Peterson et al. 1993). Les 470 régions codantes prédites couvrent 88 % du génome, de manière similaire au cas de Haemophilus influenzae. Contrairement à la plupart des autres génomes, chez Mycoplasma genitalium le nombre de "gènes orphelins" n’est que de 20 %, ce qui est probablement dû à la très petite taille du génome (580 Kb) (Fraser et al. 1995) (Himmelreich et al. 1997). La troisième bactérie entièrement séquencée a été Methanococcus jannaschii, une bactérie avec un chromosome circulaire de 1 664 kb et deux plasmides de 58 Kb et 16 Kb (Bult et al. 1996). Cette bactérie est intéressante pour plusieurs raisons : 1) c’est une archaea ; 2) elle vit dans des conditions extrêmes (94ºC et 200 atmosphères) ; 3) elle est autotrophe ; 4) elle est anaérobie stricte et 5) elle est méthanogène. Sur les 1 738 gènes prédits, seuls 38 % ont pu se voir attribuer une fonction précise, ce qui illustre de façon saisissante notre ignorance du domaine des archaea (Edgell & Doolittle 1997b). 100% 90% 80% 70% 60% 50% 40% 30% 20% Fonction "connue" Fonction putative ripr chtr pyho aqae trpa mytu arfu bobu meth basu hepy esco mypn sysp meja hain 0% myge 10% UFO Figure 2.2 - Les gènes de fonction connue, hypothétique et de fonction inconnue (en haut) des différents génomes bactériens (d’après la base de données MIPS (http://www.mips.biochem.mpg.de)). 13 Finalement, peu après le génome de Methanococcus jannaschii, sont sortis les derniers chromosomes de S. cerevisiae (Dujon 1996), ce qui a permis d’ajouter un eucaryote à la collection de génomes complètement séquencés. Ce génome est remarquablement compact pour un génome eucaryote, puisqu'il possède 16 chromosomes totalisant environ 12 Mb, et environ 72 % de régions codantes. S. cerevisiae possède environ 6 200 gènes putatifs, parmi lesquels 30 à 35 % n’avaient pas d’homologues dans les banques de données (Dujon 1996). Au-delà du fait que la levure est un modèle très important parmi les eucaryotes, la comparaison de ce génome avec les génomes bactériens connus à l’époque a permis l’analyse phylogénétique de génomes complets et l’approfondissement de l’étude sur l’origine des archaea (Tekaia et al. 1999). Cette séquence a également permis d’esquisser les premières études comparatives sur les différents mécanismes dans les eubactéries, les archaea et les eucaryotes (Edgell & Doolittle 1997a). 2.2.2 Les génomes des bactéries modèles Le problème des génomes énumérés ci-dessus est qu’on ignore beaucoup de leur biochimie et de leur génétique. De plus, Mycoplasma genitalium et Methanococcus jannaschii poussent très difficilement en laboratoire. Il a fallu attendre jusqu’à la deuxième moitié de 1997 pour avoir enfin accès aux génomes complets des deux principaux modèles bactériens : Escherichia coli pour les protéobactéries et Bacillus subtilis pour les firmicutes (ou Gram positives). 2.2.2.1 Le génome d’Escherichia coli L’importance de l’entérobactérie Escherichia coli provient du très grand nombre d’études génétiques, biochimiques et épidémiologiques auxquelles elle a donné lieu. Près de 500 protéines de Escherichia coli ont des structures 3D connues soit par analyse directe (rayons X ou RMN) soit par homologie. On dispose de plusieurs bases de données spécialisées sur son métabolisme, comme EcoCyc (Karp 1996) et KEGG (Kanehisa 1997). L’expressivité de ses gènes a aussi été analysée en détail et cette information est compilée dans un catalogue de gels 2D (VanBogelen et al. 1999). De plus, la famille des entérobactéries contient plusieurs des plus virulentes bactéries chez l’homme, notamment celles qui sont responsables du choléra, du typhus et de la dysenterie. La littérature sur Escherichia coli est tellement vaste qu'une recherche dans la base de données bibliographiques Medline, indique l'existence d’environ 170 000 articles citant cette espèce dans le titre ou dans le résumé. Le papier qui présente la séquence complète de cette bactérie indique l’existence de 4288 gènes putatifs (Blattner et al. 1997). En dépit de tous les travaux publiés sur cet organisme 40 % des gènes n’ont pas de fonction connue ou même putative. Les analyses du génome ont par ailleurs révélé une organisation significative, puisque les gènes fortement exprimés se trouvent plutôt au voisinage de l’origine de 14 réplication et sur le brin précoce (Sharp et al. 1989) (Blattner et al. 1997). On observe également des biais associés à la réplication (Lobry 1996a) et l'existence d'une forte structuration en opérons, révélé par l’existence de nombreux terminateurs rho-indépendants (Carafa et al. 1990). Enfin, Ce génome contient aussi de nombreuses séquences d’insertion, de vestiges de phages et d'éléments transférés horizontalement (Médigue et al. 1991) (Lawrence & Ochman 1998). 2.2.2.2 Le génome de Bacillus subtilis Bacillus subtilis est le mieux caractérisé des firmicutes. Son génome, d’environ 4,2 Mb, contient environ 4100 gènes, parmi lesquels 42 % n’ont pas pu être classés sur la base de l’homologie de séquence (Kunst et al. 1997). La classification de ces 4100 gènes en familles fonctionnelles, a révélé qu’environ 53 % des familles contiennent un seul gène, alors que certaines familles sont très nombreuses, la famille des ATP-transporteurs étant la plus nombreuse avec 77 gènes (Kunst et al. 1997). Au contraire de la plupart des bactéries séquencées, Bacillus subtilis n’est ni un agent infectieux ni un extrêmophile. En conséquence son génome peut apporter des informations précieuses sur les bactéries mésophiles et en particulier sur celles qui habitent le sol. Il faut préciser que le sol est le plus grand réservoir de bactéries sur la planète, il contient entre 4 et 5 ordres de grandeur de fois plus de bactéries que tous les animaux réunis (Whitman et al. 1998). L’analyse du génome de Bacillus subtilis a révélé qu’une partie importante de son information génétique intervient dans l’utilisation de différentes sources de carbone et, en particulier, des sources d'origine végétale. Le génome de Bacillus subtilis a un contenu G+C de 43 %, de distribution hétérogène, puisqu’il présente des îlots de fort contenu A+T. Ces îlots sont associés à des prophages insérées dans le chromosome comme SPβ et PBSX, à des éléments mobiles, à des régulateurs de la sporulation, comme skin, et à des régions transférées horizontalement (Kunst et al. 1997). De plus, le contenu en guanine et en cytosine est différent entre les deux brins de réplication, avec un plus grand pourcentage de guanine dans le brin précoce et de cytosine dans le brin tardif (Lobry 1996a) (Kunst et al. 1997). Cet effet provoque une très importante inversion du rapport (G-C)/(G+C) à l’origine et au terminus de la réplication. Publication I Kunst F. et al. (1997), The complete genome of the Gram+ bacterium Bacillus subtilis, Nature, 390, 249-256. 15 2.2.3 Les (presque) doublons En fin de 1999 presque tous les taxons bactériens sont représentés dans la banque des génomes complets, ce qui permet l’analyse des différences entre eux. Néanmoins, les microbiologistes sont souvent plus intéressés par les petites différences entre des organismes proches, voire des souches d'un même organisme. Un cas typique est celui de la virulence chez les bactéries pathogènes. Différentes souches d’un même organisme peuvent varier très significativement en termes de virulence, comme est le cas des souches de Escherichia coli O157:H7 et K12 (Plunkett et al. 1999). Fréquemment ces différences s’expliquent par l’introduction dans les génomes de cassettes de virulence (e.g. chez Salmonella tiphymurium (Groisman & Ochman 1997)) ou de plasmides porteurs de gènes de virulence (e.g. chez Shigella flexneri (Dorman & Porter 1998)). Ainsi le séquençage de génomes complets d’espèces assez proches (voire de souches d'une même espèce) a été envisagé très tôt. Aujourd’hui on possède déjà quelques cas de ces (presque) doublons. Mycoplasma genitalium et Mycoplasma pneumoniae sont des firmicutes tellement proches que tous les gènes de Mycoplasma genitalium (le plus petit) ont un homologue chez Mycoplasma pneumoniae (Himmelreich et al. 1997). Cependant, ces génomes ont des tailles et des contenus G+C très différents, 580 kb et 32 % pour Mycoplasma genitalium (Fraser et al. 1995) et 816 kb et 40% pour Mycoplasma pneumoniae (Himmelreich et al. 1996). Les deux organismes sont pathogènes chez l’homme et dépendent de l’hôte pour l’acquisition des nutriments essentiels (Dybvig & Voelker 1996). Mycoplasma pneumoniae est souvent rencontré dans les voies respiratoires alors que Mycoplasma genitalium s’installe dans la région urogenitale (Razin et al. 1998). L’analyse comparative de ces deux génomes a permis leur subdivision en 6 segments où l’ordre des orthologues est maintenu, même si les 6 segments sont disposés différemment dans les deux génomes, probablement en raison de translocations par recombinaison homologue (Himmelreich et al. 1997). Plusieurs gènes de ces bactéries présentent des répétitions qui sont utilisées pour échapper au système immunitaire de l'hôte (Himmelreich et al. 1997) (Razin et al. 1998). On reparlera de ces répétitions au chapitre 7. Deux autres paires d’organismes, entièrement séquencés, ont fait l'objet d'analyses comparatives : la paire Chlamydia pneumoniae et Chlamydia trachomatis (Kalman et al. 1999) et la paire Borrelia burgdorferi et Treponema pallidum (Fraser et al. 1998). Ces quatre organismes sont pathogènes chez l’homme, mais les absences de données métaboliques et d’outils génétiques rendent les comparaisons génomiques moins fructueuses. Les Chlamydiae sont des eubactéries intracellulaires obligatoires bien séparées du point de vue phylogénétique des autres groupes. Les deux Chlamydiae séquencées sont des pathogènes humains responsables de la pneumonie, la bronchite (C. pneumoniae), le trachome et plusieurs maladies sexuellement transmissibles (C. trachomatis). Le premier de ces génomes mesure 1,23 Mb et possède 1073 gènes putatifs alors que le second mesure 1,04 16 Mb et possède 894 gènes putatifs. Les 214 gènes qui se trouvent chez C. pneumoniae, mais pas chez C. trachomatis, ont, pour la plupart, des fonctions inconnues et manquent d’homologues dans les bases de données. On trouve dans ce groupe de gènes une famille composée de 21 variantes de protéines de la membrane extérieure (Kalman et al. 1999), soulignant une fois de plus le rôle fondamental de ces protéines dans la pathogénicité. Les deux Spirochètes actuellement séquencés sont également des organismes pathogènes responsables de maladies assez graves : la syphilis pour Treponema pallidum et la maladie de Lyme pour Borrelia burgdorferi. La distance évolutive important entre ces deux espèces fait que bien qu'ayant des génomes de taille similaire (1,14 Mb pour T. pallidum et 911 kb pour Borrelia burgdorferi) la comparaison n'ait abouti qu'à très peu de résultats concrets (Fraser et al. 1998). Jusqu’à présent Helicobacter pylori a été la seule espèce pour laquelle deux souches différentes ont été entièrement séquencées et publiées, la souche 26695 (1,667 Mb) (Tomb et al. 1997) et la souche J99 (1,644 Mb) (Alm et al. 1999). La petite différence entre les tailles est bien représentative de la similarité générale des deux chromosomes. L’organisation génomique, l’ordre des gènes et les protéines prédites pour les deux génomes sont très similaires, à l’exception de 6 % à 7 % des gènes qui semblent spécifiques de chaque souche (Alm et al. 1999). La moitié de ces gènes sont agrégés dans une région très variable. La comparaison des deux souches révèle aussi quelques inversions et translocations de régions associées à la recombinaison entre paralogues qui codent pour des protéines membranaires. 2.3 Quelques perspectives ouvertes par la génomique 2.3.1 L’arbre de la vie On s’attendait à ce que les données issues des projets de séquençage n’aient qu'une faible influence sur notre connaissance de l’arbre du vivant. Sauf peut-être au niveau des détails, on s’attendait à voir confirmer l’arbre construit avec un nombre considérable de sous-unités 16S des ribosomes par Carl Woese et collègues (Woese et al. 1990). La comparaison des séquences d'ARNr suggérait que l’évolution à partir du dernier ancêtre commun ait d'abord créé deux branches : d’un côté les eubactéries, de l’autre côté les archaea et les eucaryotes. Ensuite, cette seconde branche aurait divergé séparant les archaea et les eucaryotes. Mais finalement l’analyse des génomes semble révéler un scénario plus complexe. Ces analyses ont permis l’établissement d’arbres phylogénétiques pour un grand nombre de gènes. Fréquemment ces arbres ne sont pas concordants (Harvey et al. 1996). La raison sous-jacente à beaucoup de ces incongruités réside peut être dans l’utilisation abusive des méthodes de reconstruction (Philippe & Laurent 1999) ou dans le remplacement fonctionnel de paralogues par d’autres gènes (Forterre 1999). Cependant le grand nombre de 17 cas trouvés récemment suggèrent également qu’une bonne partie de l’évolution des procaryotes se soit faite par l’acquisition horizontale de gènes. La fréquence de transfert de ces gènes semble fortement liée à leur fonction. Ainsi, sont plus fréquemment transmis tous les gènes qui peuvent donner des avantages immédiats à la bactérie comme les gènes de résistance aux antibiotiques ou les facteurs de virulence (Syvanen 1994). Par ailleurs, les gènes liés à la traduction, la transcription et la réplication (gènes d’information) sont beaucoup plus rarement transmis que les gènes liés aux fonctions métaboliques (gènes de ménage) (Rivera et al. 1998). La raison de ceci tient très probablement aux grands complexes formés par les gènes d’information et à la multitude d’interactions directes entre ces protéines (Jain et al. 1999). Ceci contraint significativement la gamme de variantes susceptible de remplacer le gène résident. A l'inverse, les protéines de "ménage" agissent typiquement seules ou en petits complexes (Jain et al. 1999). Finalement, les exemples de transfert massif de gènes entre organismes lointains comme Thermotoga maritima et plusieurs archaebactéries sont probablement dus à leur coexistence dans des environnements très hostiles (Logsdon & Faguy 1999). Si les chiffres de 24 % de gènes transférés des archaea vers cette bactérie se confirment (par rapport aux 52 % d’origine eubactérienne), on peut se demander alors quel est le sens d’un arbre phylogénétique dans ce contexte (Figure 2.3) (Nelson et al. 1999). Metabolisme energétique Transport Traduction Envelope cellulaire Biosynthèse de aminoacides gènes dont le meilleur homologue est une Fonctions régulatrices Processus cellulaires Eubactérie Metabolisme de l'ADN Archaea Purines, pyrimidines, etc Metabolisme central interm. Biosynthèse de cofacteurs Transcription Acides gras 0 50 10 0 150 2 00 Figure 2.3 - Gènes de Thermotoga maritima dont le meilleur homologue est dans une eubactérie ou une archaea (d’après (Nelson et al. 1999)). Le deuxième type d’études qui a bouleversé notre vision de l’arbre du vivant est basé sur l’analyse comparative des protéomes. L’observation à la base du problème est que les archaea se groupent à côté des eubactéries en ce qui concerne le métabolisme, mais à côté des eucaryotes si l’on considère les gènes liés à la transcription et à la traduction (Doolittle & Logdson 1998). Ces différences reflètent des problèmes de classification dus au transfert horizontal et aux vitesses différentes de substitution des nucléotides, mais elles reflètent 18 également le fait que l’on esquisse une histoire des gènes et pas vraiment celle des organismes (Tekaia et al. 1999). Ce type de classification présente un aspect simpliste puisqu’il ne prend pas en compte le fait que les génomes ne soient pas des "sacs de gènes" (Huynen & Bork 1998). Les études dédiées à ces questions ne font que débuter, mais il est probable qu’elles changeront profondément notre vision de l’évolution bactérienne dans l’avenir. 7 Purple 4 Firmicutes (Gram+) 1 Cyanobacteria 4 Flavobacteria 1 Methanobacterium Halobacterium Methanococcus Thermo- 1 coccus Thermoproteus Pyrodictium 1 2 Thermoplasma 1 Methanopyrus Thermotoga 1 Aquifex 1 Figure 2.4 - L’arbre phylogénétique des organismes procaryotes et le nombre d'espèces séquencées par taxon. 2.3.2 La dynamique du génome Par définition le séquençage ne fait que prendre un instantané de l’état du génome. De ce point de vue, il n’est pas étonnant de constater que la plupart des résultats récemment publiés sur la dynamique des génomes sont issues d’études d'électrophorèse et non du séquençage de génomes complets (Kolsto 1997). Néanmoins, la publication de séquences complètes de génomes très proches commence aussi à apporter d’importantes informations dans ce domaine. La structure des génomes bactériens peut être analysée à des niveaux très divers, en incluant la fréquence des oligonucléotides, le contenu G+C, les biais de brin de réplication, l’organisation des gènes, les structures d’opérons, la longueur, le nombre et la géométrie des réplicons, la présence ou l'absence de séquences d’insertion, etc. Comme une bonne partie de cette thèse porte sur ces sujets, nous nous contenterons, pour l’instant, de résumer l’état des connaissances sur ces questions. La taille des génomes bactériens peut varier considérablement, des 580 kb de Mycoplasma genitalium, jusqu’aux 9.2 Mb de Myxococcus xanthus (Casjens 1998). Cet intervalle de valeurs chevauche celui des plus grands virus (le bacteriophage G mesure 670 kb) et celui des plus petits eucaryotes (les Microsporidiae mesurant moins de 3 Mb). La taille moyenne des gènes des génomes séquencés se situe entre 900 pb et 1 kb, et les gènes occupent environ 90 % du génome. L’exception la plus importante est Rickettsia prowazekii qui présente seulement 74 % de codant (Andersson et al. 1998). La taille du génome est très 19 corrélée au mode de vie des bactéries. Ainsi, les bactéries à plus petit génome sont "spécialistes", typiquement parasites obligatoires, qui ne poussent que dans les hôtes ou dans conditions très spécifiques (Razin et al. 1998) (Andersson & Kurland 1998). Par contre les bactéries à grand génome sont "généralistes", parfois avec des formes élémentaires de différentiation comme la sporulation (Frandsen et al. 1999), la compétence (Lorenz & Wackernagel 1994) ou la formation de micelles (Velicer et al. 1998). La taille des génomes varie significativement dans un même groupe phylogénétique, par exemple les Spirochaetes varient entre 910 kb et 4.6 Mb et les protéobactéries entre 1.2 Mb et 9.4 Mb (Casjens 1998). De plus, on retrouve dans la même espèce des tailles de génomes très différents. Chez Bacillus cereus, par exemple, la taille du chromosome varie entre 2.4 Mb et 6.3 Mb (Carlson & Kolsto 1994). Chez Escherichia coli on a trouvé des génomes avec des tailles différant de plus de 1 Mb (Bergthorsson & Ochman 1995), l’augmentation correspondant surtout à du transfert horizontal de matériel génétique (Bergthorsson & Ochman 1998). La découverte que Borrelia burgdorferi avait un chromosome linéaire (Baril et al. 1989), a bouleversé un vieux paradigme de la génétique bactérienne voulant que ces chromosomes soient toujours circulaires (Kolsto 1997). On connaissait déjà des plasmides linéaires chez les Streptomyces et le séquençage de Borrelia burgdorferi a révélé une grande quantité de plasmides linéaires et circulaires (Fraser et al. 1997). La structure des télomères de ces réplicons linéaires suit deux modèles différents. Chez Borrelia, les terminaisons du chromosome sont liées de façon covalente par une épingle à cheveux. Par contre, les télomères des Streptomyces sont ouverts et contiennent des motifs répétés, à l'image des télomères des eucaryotes (Volff & Altenbuchner 1998). La plupart des bactéries ont un chromosome unique, éventuellement complété par d’autres éléments génétiques comme les plasmides. Néanmoins, on a récemment mis en évidence des familles bactériennes avec plusieurs réplicons de plus de 100 kb (Casjens 1998). Par exemple, six espèces de Brucella ont deux chromosomes de tailles respectives 2.1 Mb et 1.2Mb, les deux portant des gènes essentiels (Michaux et al. 1993). De plus les bactéries ne sont pas strictement haploïdes. Non seulement dans une cellule en croissance exponentielle coexistent plusieurs copies à des étapes différentes de réplication, mais on trouve aussi des bactéries où la polyploïdie est la règle (Casjens 1998). Deinococcus radiodurans possède 4 ou 5 copies de son chromosome qui lui permettent de reconstruire son chromosome après une exposition prolongée à un rayonnement radioactif ou à des périodes de sécheresse extrême (Daly & Minton 1995) (Battista et al. 1999). 2.3.3 Analyse des réseaux métaboliques Récemment sont apparues des bases de données dédiées à la représentation des connaissances métaboliques et destinées à assister le processus d’annotation (Karp & Riley 1993). Il y a actuellement trois principaux projets de reconstruction semi-automatique de 20 voies métaboliques par l’analyse des génomes, KEGG au Japon (Kanehisa 1997), W I T (Gaasterland & Selkov 1995) et Metacyc (Karp 1996) aux Etats-Unis. Puisque ces projets sont basés sur des concepts similaires, quoique légèrement différents dans le détail et l'implémentation, nous ne décrirons ici que KEGG. Le projet KEGG, qui est l’acronyme de Kyoto Encyclopaedia of Genes and Genomes, a pour but l’informatisation de la connaissance actuelle des voies métaboliques et régulatrices. Ces voies sont considérées comme des diagrammes représentant les liaisons entre les gènes, entre les protéines et entre les protéines et les gènes (Kanehisa 1997). KEGG incorpore la carte métabolique de Boehringer et une représentation graphique de plus de 100 voies métaboliques, dessinées manuellement. Tous les gènes d’enzymes sont identifiés par un numéro de code standardisé (EC number). Les voies métaboliques de l’organisme sont générées automatiquement par la mise en correspondance des numéros EC de la banque génomique avec ceux de la banque métabolique (Bono et al. 1998). Ces voies sont construites par l'utilisation comparative du catalogue génomique et des voies de référence. Quand une voie est complète, cette approche renforce les résultats de l’analyse de similarité. Néanmoins, c’est quand la connaissance est incomplète que la méthode devient vraiment intéressante. Ceci peut arriver quand l'identification fonctionnelle des gènes est erronée. Une autre possibilité est que notre connaissance sur la voie soit insuffisante, ce qui suggère la recherche d’enzymes alternatives qui pourraient réaliser la réaction en question (Bono et al. 1998) (Tomii & Kanehisa 1998). Ainsi, ces outils permettent simultanément la représentation des voies métaboliques, la confirmation des fonctions annotées et la découverte de fonctions ou voies alternatives. Plusieurs problèmes doivent encore être résolus avant que ces projets n’atteignent leurs buts ultimes qui seraient la modélisation complète du métabolisme, de la régulation génétique et de son évolution. En particulier, il subsiste encore de nombreux trous dans notre connaissance du métabolisme (ce que reflète le grand nombre d’ORFs de fonction inconnue), ainsi que de sa régulation. 2.3.4 Génomique structurale L’ensemble des protéines codées sur le génome peut être considéré comme une collection de repliements 3D suffisants pour assurer les principales fonctions cellulaires, comme le métabolisme, la réplication ou la gestion de l’information (Frishman & Mewes 1999). Le terme "génomique structurale" a donc été utilisé pour désigner les études de l’ensemble de protéines des génomes, i.e. l’étude du protéome du point de vue de la structure tridimensionnelle. Même si ce thème de recherche a de fortes ressemblances avec l’analyse fonctionnelle in silico, il est rendu beaucoup plus ardu par la difficulté de prédiction de structures tertiaires des protéines. La classification des repliements existants se heurte ainsi à des difficultés diverses, dont, en particulier, l’inexistence d’un consensus sur les archétypes de repliements (Orengo et al. 1994) (Holm & Sander 1996). De plus, sauf dans des cas très 21 particuliers comme les protéines membranaires, la liaison entre les classes de repliement et la fonction de la protéine n'est pas toujours évidente. La méthode de référence en génomique structurale est le threading. Cette technique est basée sur le fait que les structures tertiaires des protéines sont plus conservées que les structures primaires (Chothia & Lesk 1986). Le threading consiste à essayer de déterminer si une séquence donnée est compatible avec un des repliements connus. Pour comparer une structure linéaire avec une structure tridimensionnelle, il faut que cette dernière soit représentée en termes de la probabilité qu’un aminoacide donné soit présent dans une certaine position du repliement (Bowie et al. 1991). On enfile (to thread) la séquence sur la structure 3D en cherchant à minimiser l'énergie d'interaction de l'ensemble des résidus. Cette énergie d'interaction est le plus souvent calculée par des potentiels statistiques dépendant des distances entre toutes les paires d'acide aminées de la séquence positionnées sur la structure 3D (Sippl & Flockner 1996). En utilisant le threading, Fisher et Eisenberg (Fisher & Eisenberg 1997) ont augmenté de 6 % le nombre de protéines caractérisées structurellement dans le génome complet de Mycoplasma genitalium. Ils ont aussi estimé qu’une augmentation d'un facteur 3 du nombre de protéines de structure 3D connue, permettrait la caractérisation de toutes les protéines solubles de ce génome. Une étude plus récente a conduit à des résultats similaires (Rychlewski et al. 1998). Enfin, une autre étude utilisant la méthode PSI-Blast est arrivée à détecter pour 37 % des protéines de Mycoplasma genitalium au moins un domaine de repliement commun avec une protéine de structure connue (Huynen et al. 1998). 2.4 La paillasse après l’analyse in silico Après l’obtention des génomes et leur analyse préliminaire, il reste encore beaucoup à apprendre sur leurs composants génétiques et surtout sur le fonctionnement général de l’organisme. Deux approches permettent de combler partiellement ces trous dans la connaissance des systèmes génétiques : l’analyse de l’expression génique et la protéomique. Ces deux approches sont complémentaires puisque l'une analyse la partie qui correspond à la transcription et l’autre la partie qui correspond à la traduction (Figure 2.5). Les deux sont des approches qui se veulent à "haut débit", puisqu’il s’agit d’analyser des génomes entiers dans un délai court. Génome (ADN) Transcrip to me (ARNm) Pro té ome (pro té ines) Figure 2.5 - Les différents niveaux d'étude de la génomique post-séquençage. 22 2.4.1 Analyse de l’expression génique à grande échelle L'analyse quantitative à grande échelle de l’expression génique connaît actuellement un grand bouleversement provoqué par l’arrivée de méthodes capables de détecter simultanément l'expression de dizaines de milliers de gènes différents (Gerhold et al. 1999). L’approche générale est basée sur l’utilisation de matrices d'ADN comme cibles d’hybridation d’une sonde préparée à partir de l'ARNm cellulaire (Figure 2.6). La sonde est produite par transcription reverse de l'ARNm et étiquetage radioactif ou fluorescent. En théorie la technique est quantitative, l'intensité du signal étant une fonction croissante de la quantité d'ARNm présent dans la cellule. La technique permet ainsi la mesure simultanée de l’abondance de chaque espèce présente sur la matrice et en conséquence des niveaux d’expression des gènes correspondants (Granjeaud et al. 1999). En pratique, néanmoins, la quantification soulève de nombreux problèmes. Lignée cellulaire (ARNm) librairies d'ADNc hybridati on Echantillon Analyse des données Corrections et normalisation Liaison à la connaissance génomique Cibles Figure 2.6 – Schéma de l'analyse du transcriptome par moyen des techniques d'hybridation. Il faut que l’hybridation soit réalisée en conditions de grand excès de cible et la mesure de l'information doit être faite en phase initiale d’hybridation. Dans ces conditions la cinétique est approximativement linéaire et autorise la quantification (Nguyen et al. 1995). Pendant l’expérience, seule une petite partie des sondes s'hybride à une cible donnée. Le taux de couverture d'une cible à la fin d'une expérience typique est de l’ordre de 1 % (Granjeaud et al. 1999). En conséquence, les intensités de signal sont assez faibles, ce qui implique l'utilisation de détecteurs très sensibles. Simultanément plusieurs artefacts doivent être éliminés, par exemple l'hybridation non spécifique due à des répétitions ou à des séquences de poly-A (Nguyen et al. 1995). Il y a actuellement quatre systèmes différents de matrices, qui diffèrent au niveau du matériel, de la sensibilité, de la densité de cibles et du coût. Dans les membranes à haute densité, des colonies d'ADNc sont régulièrement espacées de 1 à 2 mm. La détection est réalisée au moyen de sondes radioactives. Les microarrays de nylon constituent un développement plus récent des membranes à haute densité. En raison de leur petite taille, ils permettent des mesures plus sensibles. Ces deux systèmes sont relativement peu coûteux, mais leur limite de détection est relativement modeste (Granjeaud et al. 1999). Les microarrays de verre constituent probablement le système le plus connu. Dans ce cas, les 23 spots d'ADNc sont déposés sur une lame de verre et hybridés avec des sondes étiquetées par fluorescence (Graves 1999). La haute résolution de la détection optique permet un espacement réduit entre spots (300 µm ou moins). On est ainsi arrivé à placer 5000 gènes/cm2 (Granjeaud et al. 1999), ce qui permet l’analyse d’un grand nombre de gènes en une seule expérience. Les chips d'oligonucléotides contiennent des milliers d'oligonucléotides différents sur un petit chip de verre ou silicium. Les oligonucléotides sont synthétisés in situ par des réactions photochimiques et suivant une technologie de masquage similaire à celle utilisée dans la manufacture des microprocesseurs (Granjeaud et al. 1999). La limite de détection de cette technique est trois fois meilleure que celle des microarrays de verre, cependant elle exige des échantillons et des volumes d’hybridation plus importants. 2.4.2 La protéomique La protéomique est l’étude de l'ensemble des protéines exprimées dans une cellule à un instant donnée dans le dessein d'obtenir une vision globale des processus cellulaires. Cette thématique est de très grande importance pour déterminer les fonctions des protéines codées par le génome, leurs interactions, et comment leur concentration varie en fonction des conditions environnementales et de développement. Puisque par similarité des séquences, il y a trop de gènes auxquels nous ne savons pas attribuer de fonction, la protéomique complète l'approche in silico. De plus, les relations entre protéines et les phénotypes sont encore trop mal comprises pour être traités exclusivement par l’analyse informatique (Blackstock & Weir 1999). La protéomique est basée sur l’analyse de gels d’électrophorèse 2D (Figure 2.7), qui constitue la façon la plus performante de séparer des mélanges complexes de protéines. Cette technique est aujourd’hui très reproductible et l’utilisation de colorants fluorescents permet la visualisation et la quantification de milliers de protéines simultanément (Blackstock & Weir 1999). Néanmoins, il reste encore des problèmes importants à résoudre. Les protéines insolubles (comme les protéines membranaires) ne sont pas facilement analysables par cette méthode. En raison du chevauchement des spots, les protéines très exprimées cachent parfois d’autres protéines plus faiblement exprimées. Ainsi, la technique donne encore des résultats modestes pour les protéines présentes à moins de 1000 copies par cellule (Rabilloud et al. 1997). Il a également été suggéré que près d'un quart de tous les spots d’un gel correspondent à des modifications des mêmes protéines, ce qui complique sérieusement l'analyse (Cellis & al 1995). Les logiciels existants sont aussi limitants puisqu’ils demandent de 1 à 8 heures d’édition manuelle par gel (Blackstock & Weir 1999). Mais le principal problème réside dans l’identification des spots à l’aide des banques d'EST et de la spectrométrie de masse. Le poids moléculaire de la protéine est en soi insuffisant pour permettre l'identification univoque des spots. En conséquence, la plupart des méthodes utilisent une protéolyse préalable et identifient les divers peptides à l’aide d’une 24 analyse simultanée des banques de données et des spectres de masse (Courchesne et al. 1998). C’est probablement dans la liaison entre la spectrométrie de masse et la recherche dans les banques que se feront les plus grandes avancées de cette méthode (Blackstock & Weir 1999). Electrophorèse 1D ou 2D Digestion des fragments Spectroscopie de masse Recherche parmi les EST Identification Figure 2.7- Démarche de la protéomique. La protéomique peut être divisée en deux domaines principaux : l’analyse de l’expression des protéines et l’identification de complexes protéiques. L’analyse de l’expression est l’étude des changements globaux d’expression de protéines dans les tissus ou organismes. Joignant le gel 2D et l’analyse d’image cette approche présente l’avantage de déterminer de manière directe l’abondance de la protéine et la détection de modifications post-traductionnelles (Blackstock & Weir 1999). Comme il a été suggéré que la corrélation entre la concentration en ARNm et celle de la protéine associée est en réalité faible (Anderson & Seilhamer 1997), il est souvent préférable de travailler au niveau des protéines, même si l’automatisation des tâches n’est pas aussi avancée que dans le domaine des chips. Par ailleurs, l’identification des interactions ou de la co-localisation cellulaire de protéines associées peut aider significativement à la découverte de la fonction d'une protéine. C’est le but principal de la deuxième thématique de la protéomique, où des techniques comme celle du double hybride joueront probablement un rôle important (Blackstock & Weir 1999). 25 3. L'informatique et la génomique L'énorme quantité d’information produite par les projets génomiques, ainsi que la complexité des problèmes posés par son interprétation, ont rendu la bioinformatique tout à fait indispensable. En 1982 quand la base de données de l’EMBL a été créée, elle possédait quelques milliers de paires de bases, en 1992 elle en contenait déjà 100 millions, au début de 1996, 650 millions et à la fin de 1999 elle en contient plus de trois millards (Figure 3.1). Une tendance similaire est observable pour le nombre de génomes complets publiés. Le premier génome bactérien a été publié en 1995 et, au moment de l’écriture de cette thèse, le séquençage de 24 génomes bactériens est achevé et plus de 80 sont en cours. De plus le séquençage du génome humain risque de provoquer une véritable avalanche de données. Ce projet sera certainement suivi du séquençage des génomes de la souris, du riz, du maïs, etc. L’informatique jouera nécessairement un rôle fondamental au cours de toutes les étapes de la génomique. Ainsi, il faudra des algorithmes spécifiques pour faire l’assemblage de séquences contenant beaucoup de motifs répétés (tels qu'en présente le génome humain), et des programmes performants pour l’identification des régions codantes. Il faudra des programmes pour l’analyse des données d’expression génique. Il faudra aussi développer des bases de données spécifiques pour les génomes, mais aussi pour l’information biochimique et les données d’expression. Finalement, il faudra développer des méthodes pour intégrer toute cette panoplie d’informations et essayer qu'entretiennent les objets génétiques. 26 d'en déduire les relations complexes Figure 3.1 - Croissance du nombre d’entrées des banques de données de 1980 jusqu’à 1998. Après le séquençage, les analyses produiront de nouvelles connaissances et des suggestions pour de nouvelles expériences. Pour y parvenir, l’identification des signaux, des similarités et des relations entre les différents objets, restera fondamentale. D’un point de vue pratique, il se pose un problème d’échelle, puisqu'une vision générale d’un génome est impossible sur la base d'une simple analyse manuelle de la séquence. Mais il se pose surtout un problème de sensibilité et de cohérence des résultats, qui ne pourra être résolu que par la systématisation et la semi-automatisation des méthodes. Dans cette thèse, nous nous occuperons seulement de l’analyse des séquences déjà assemblées, stockées et annotées, même de manière élémentaire (i.e. identification des gènes). En conséquence notre description de la bioinformatique démarre en aval de la phase d’annotation (Figure 3.2). Séquençage Annotation Intégration Acquisition des données Assemblage Stockage des données Identification des objets Relations entre objets Stockage des données Relations taxonomiques Relations fonctionnelles Stockage des données Figure 3.2 - Description succincte de la démarche de la génomique. On divise donc le "post-séquençage" en deux phases distinctes. La première phase concerne l’identification des objets et des relations simples entre eux (par exemple la liaison entre gènes et signaux de régulation). La deuxième phase concerne des thématiques comme l’analyse des réseaux métaboliques, des grands réseaux de régulation ou la mise en évidence de relations phylogénétiques complexes. 3.1 L’identification d’objets et de relations simples On rencontre souvent l'idée que la génomique consiste simplement à décrire les gènes des organismes vivants. Cette idée est liée à une conception atomiste de la génétique héritée 27 de Mendel (Depew & Weber 1995). Le but de cette thèse est de montrer que le génome représente en réalité beaucoup plus que cela. Néanmoins, l’identification des gènes reste le souci premier de la phase d’annotation. Elle comprend la description des gènes (localisation) ainsi que l’assignation d'une fonction putative. L’identification des gènes est probablement la plus automatisée des procédures d’annotation (Lukashin & Borodovsky 1998) (Salzberg et al. 1998a). En ce qui concerne les procaryotes, les résultats sont souvent très satisfaisants (Frishman et al. 1998). La méthode la plus simple pour repérer les gènes consiste simplement à trouver des phases ouvertes de lecture (ORF) longues, i.e. des régions entre deux stops en phase, de longueur statistiquement improbable. Cette méthode, un peu naïve, élimine tous les gènes de petite taille (< 300 pb). Elle constitue néanmoins un bon point de départ pour les analyses plus fines. Une autre méthode combine la détection des longues ORFs avec les signaux nécessaires à la traduction, en particulier le site de fixation du ribosome (RBS) (Hannenhalli et al. 1999). Une méthode un peu plus fine consiste dans la comparaison du contenu G+C de la troisième position (GC3) de la phase ouverte de lecture avec la distribution habituelle dans les gènes. Un raffinement important de la méthode GC3 consiste à analyser l’usage de codons ou d’oligonucléotides dans l’ORF afin de la comparer à celui d’un gène typique de l’organisme. Ce concept est à l’origine de GeneMark (Borodovsky et al. 1994) et de Glimmer (Salzberg et al. 1998a). Ces deux logiciels utilisent un modèle de Markov ou un de ses dérivés pour trouver les segments de la séquence qui présentent un comportement statistique similaire à celui des régions codantes. Ces techniques utilisent la connaissance préalable de l'usage des oligonucléotides l’organisme étudié. Cet a priori ne constitue pas normalement un grand problème, puisqu'il existe toujours quelques gènes de l'organisme qui sont déjà connus. Ces gènes peuvent ainsi être utilisés pour définir une première description de l'usage des oligonucléotides chez l'organisme. La discrimination entre les phases ouvertes codantes et les autres est facilitée chez les organismes procaryotes par le fait que ces organismes ne possèdent normalement pas d'introns. Les phases ouvertes sont donc généralement assez grandes et permettent une discrimination statistique plus satisfaisante. L'identification des gènes est facilitée quand il existe des homologues dans les banques de séquences. Ces analyses sont typiquement réalisées avec outils de la famille Blast ou Fast, qui permettent de cribler les banques de séquences à la recherche de séquences similaires (Altschul et al. 1997). Finalement, la meilleure des méthodes est celle qui les combines toutes. Ce type de stratégies complexes a été introduit dans les logiciels d’annotation et d'analyse tels que Imagene (Médigue et al. 1999) ou Magpie (Gaasterland & Sensen 1996). En prenant Imagene comme exemple, la stratégie d'identification des gènes débute par l’identification des longues ORFs et leur classement sur la base de l'existence d'un RBS en amont du gène. Ensuite on utilise GeneMark ou Glimmer pour sélectionner les ORFs qui utilisent les 28 oligonucléotides de façon typique. Finalement, les résultats de Blast permettent de confirmer les résultats (Médigue et al. 1999). Il n’y a pas que les gènes qui intéressent les chercheurs. D'autres objets, comme les RBS, les promoteurs, les terminateurs ou certaines combinaisons d'objets sont aussi très importants. Les opérons peuvent à la fois être considérés comme des objets ou comme des combinaisons d’objets liés par une fonction commune (les gènes) ou régulatrice (e.g. les promoteurs et terminateurs de transcription). Malheureusement, l'identification automatique d’opérons est encore très peu efficace. 3.2 Relations et intégration des connaissances À partir de l’identification des objets et de leurs relations simples, l’étude de relations à des niveaux plus élevés devient possible. L'exemple des réseaux de régulation génétique constitue le cas le plus flagrant de ce type de relations. Cependant il ne peut être résolu en profondeur que par l’intégration des données génétiques avec les données métaboliques (Bono et al. 1998). Compte tenu de l’énorme complexité des réseaux métaboliques, la découverte de ce type de "supra relations" prendra certainement plusieurs années. L’utilisation intégrée des connaissances génétiques, biochimiques et celles qui résultent des analyses à "haut débit" esquissées dans le chapitre précédent exigera des bases de données dont la représentation sera orientée sur les problèmes biologiques, ainsi que de puissants moteurs de recherche dans les données génomiques, expérimentales et bibliographiques. 3.3 Un bref état de l'art des recherches par similarité Les méthodes bioinformatiques d'analyse de séquences font l’objet de plusieurs ouvrages, chacun donnant plus de relief aux approches préférées des auteurs (Waterman 1995) (Gusfield 1997) (Durbin et al. 1998). Dans ce chapitre, nous donnerons un bref aperçu des méthodes les plus courantes. Dans des chapitres 10 à 12, nous aborderons plus en détail les méthodes employées dans cette thèse. 3.3.1 La recherche de similarités deux à deux La recherche de similarité entre deux séquences est une tâche très commune en analyse de séquences. Ceci passe généralement par l’alignement des deux séquences (ou de leurs sous-séquences), et par la vérification que l'alignement obtenu est statistiquement significatif. Quand on cherche à mettre en évidence que deux séquences possèdent un ancêtre commun (homologues), on considère non seulement les mutations ponctuelles (substitutions), mais aussi la possibilité d’insertions et de délétions (indels). Ainsi, les questions clés de la recherche par similarité sont : (i) le type d’alignement ; (ii) le système de scores pour pondérer les opérations d'édition ; (iii) l’algorithme pour trouver l’alignement optimal ; (iv) les méthodes statistiques d’évaluation de la qualité de l’alignement. Dans ce qui suit nous allons brièvement discuter les points (i), (iii) et (iv). Des 29 discussions sur les systèmes de scores peuvent être trouvées ailleurs (Dayhoff et al. 1978) (Karlin & Altschul 1993) (Henikoff & Henikoff 1993) (Vingron & Waterman 1994). Les algorithmes d’alignement sont tous basés sur l'utilisation de la programmation dynamique (Apostolico & Giancarlo 1998). 3.3.1.1 L'alignement global L’algorithme de Needleman-Wunsch fournit le meilleur alignement global entre deux séquences (Needleman & Wunsch 1970). L'algorithme reflète la nature récurrente de la définition de la ressemblance. Le principe de l'algorithme consiste à calculer les scores maximaux d'alignements entre tous les préfixes de u et de v. On note : ui=u1u2…ui et vi=v1v2…vi les préfixes de u et de v de taille i (u0=v0=0), Fi,j le score maximal de l'alignement entre ui et vj, s(ui, vi) le score du match de ui avec vi, d le coût d'une insertion ou délétion. Par convention, F 0,0=0. F i,0 est le score maximal de l'alignement d'une séquence de longueur i avec la chaîne vide, donc il est égal a i.d. On a donc Fi,0= F0,i = i.d. Considérons maintenant un alignement de score maximal entre u i et vj. Cet alignement doit nécessairement se terminer par : ui v , j ui − , ou − v j Dans le premier cas, les paires précédentes de l'alignement constituent nécessairement un alignement optimal entre u i-1 et vj-1. Dans les deux autres cas, les paires précédentes de l'alignement constituent un alignement optimal de u i-1 et vj (respectivement u i et vj-1). Le score maximal d'un alignement entre ui et vj peut donc s'exprimer comme : F(i − 1, j − 1) + s(ui , v j ) F(i, j ) = max F(i − 1, j ) − d F(i, j − 1) + d Cette équation récursive est utilisée pour construire F, en calculant la valeur de chaque cellule de la matrice à partir des trois cellules adjacentes, comme décrit dans le schéma suivant. F(i-1,j-1) F(i,j-1) -d s(ui,vi) F(i-1,j) -d F(i,j) A mesure que l'on construit la matrice, on garde un pointeur dans chaque cellule vers la cellule qui a été à l'origine de son score (Figure 3.3). 30 0 2 C 3 G 4 T 5 A 6 C 7 G 8 T -3 5 -2 0 ←- 3 0 -1 5 ←-2 5 ↑ -2 0 -3 0 ↑ -2 0 -3 5 ↑ ↑ -1 0 ↓ ↑ ↑ -1 5 ↑ ↑ -2 0 ↓ -2 5 ↑ -3 5 - 5 ←- 1 5 -2 5 ↑ -5 0 -2 0 -1 5 ↑ C ↓ -1 5 ↑ -2 5 ↓ -1 0 ↑ -4 0 ↓ - 5 5 ←- 6 5 - 2 0 ← -3 0 ←- 4 0 ←-5 0 ↑ G ↓ ↓ ↑ -1 5 ↓ -2 0 ↑ -3 0 -2 0 ↑ T -1 0 ↑ -5 - 1 5 ←- 2 5 ←- 3 5 ←- 4 5 ↑ -2 0 -1 5 ↑ A -5 ↑ -1 0 ↑ G ↑ ↓ ↑ ↓ ↑ 0 ←- 1 0 ←- 2 0 ←- 3 0 ←- 4 0 ←- 5 0 ←- 6 0 ←- 7 0 ←- 8 0 ↑ 0 1 A -2 5 ACGTACGT --G-ATGC Figure 3.3 - Un exemple d'une matrice de programmation dynamique. Celle-ci représente l'alignement de Needleman-Wunsch de ACGTACGT avec GATGC, en utilisant un score de match +5, un score de mésappariement de -5 et un score de gap de -10. La valeur de la cellule finale de la matrice correspond nécessairement au meilleur score de l'alignement de u1...un à v1...vm. Pour trouver l'alignement lui-même il faut trouver le chemin des choix qui ont été à l'origine de cette valeur finale. Pour ceci il suffit de suivre les pointeurs que nous avons laissés dans chaque cellule au moment de la construction de la matrice. Cette méthode est connue sous le nom de back tracking (Figure 3.3) et permet de trouver l'alignement optimal. S'il y a d'autres ou si on veut des alignements sous-optimaux, il faut changer un peu la procédure (Durbin et al. 1998). 3.3.1.2 Les alignements locaux L'alignement global est utile pour comparer deux séquences homologues. Mais quand les deux séquences n'ont que certains domaines en commun ou quand il est nécessaire comparer une séquence avec toutes les entrées d'une banque génomique nous sommes plus intéressés par le meilleur alignement local entre sous séquences de u et v. La base des alignements locaux est l’algorithme de Smith-Waterman (Smith & Waterman 1981). C'est une modification de l’algorithme de Needleman-Wunsch, incluant deux changements principaux. Par convention, affectons des scores positifs aux "matches" et négatifs aux mésappariements et trous. Le problème est donc de maximiser le score de l’alignement. En premier lieu, on ajoute une nouvelle possibilité dans le choix de la valeur de F(i, j) : si le score est négatif on le force à zéro. C’est à dire que si le meilleur alignement jusqu’à la position (i, j) aboutit à un score négatif on le stoppe et on recommence un nouvel alignement local en cette position. La deuxième différence est une conséquence directe de la première, l’alignement optimal ne part plus nécessairement de la cellule (n, m), mais de la cellule de plus grand score, puisqu’elle contient la sous séquence maximale. Ainsi, l’alignement local maximal est borné à gauche et à la droite par la première cellule contenant un zéro (Smith & Waterman 1981). 31 Le problème de la programmation dynamique est que le nombre d'opérations à réaliser croit comme le produit des longueurs des 2 séquences à comparer. Dans le cas du criblage de banques, sauf utilisation de matériel spécifique, ceci conduit à des temps de calcul parfois importants. Pour cette raison, des heuristiques ont été développées. Ces programmes sont beaucoup plus rapides, mais au prix de la garantie d'optimalité de l’alignement. Le but des heuristiques est la recherche de la fraction la plus petite possible des cellules de F, en évitant de perdre tous les alignements de plus grand score. Fast (Pearson & Lipman 1988) et surtout Blast (Altschul et al. 1990) sont les familles de programmes les plus populaires dans cette catégorie. Blast (de Basic Local Alignement Search Tool) est une méthode heuristique destinée à trouver les alignements optimaux locaux de meilleurs scores entre la séquence requête et la banque (Altschul et al. 1990). L’idée sous-jacente à l’algorithme est que les bons alignements doivent contenir quelque part des petits segments strictement identiques ou de score très important. Ces éléments sont des graines où l’alignement est ancré et à partir desquelles il s'étend (Altschul et al. 1990). L’algorithme initial de Blast ne permet ni d'insertions ni de délétions, mais il est très rapide et il attribue une valeur statistique au score obtenu (Karlin & Altschul 1993). L’algorithme initial a été modifié plusieurs fois pour répondre à différents besoins. Ainsi, Blast2 est une version de Blast qui permet les insertions et les délétions (mais la statistique n’est plus exacte) alors que Psi-Blast est une version qui construit des motifs à partir d'alignements itératifs (Altschul et al. 1997). De plus, des filtres ont été conçus pour éliminer les régions répétitives qui conduisent à des résultats statistiquement significatifs, mais sans intérêt biologique (Claverie & States 1993). 3.3.2 Les alignements multiples Pour caractériser les régions conservées dans les séquences, il est souvent plus efficace d'utiliser plusieurs séquences et d'effectuer un alignement multiple. Cependant, la complexité de l’algorithme de programmation dynamique empêche son utilisation à plusieurs séquences, puisqu’il croit en O(Π ni) (Apostolico & Giancarlo 1998). Pour contourner ce problème, plusieurs heuristiques ont été proposées, suivant des stratégies et algorithmes assez différents. L’approche la plus populaire est basée sur l’alignement progressif des séquences, où un alignement est construit de façon graduelle en alignant d'abord les séquences les plus similaires et en ajoutant successivement les plus lointaines (Feng & Doolittle 1987). Ces programmes utilisent tous la programmation dynamique pour construire l’alignement des paires de séquences ou l'alignement d'une séquence contre un alignement préalable (Thomson et al. 1999). Plusieurs programmes suivent ce principe, parmi lesquels le populaire ClustalW (Thomson et al. 1994), qui utilise la méthode du "neighbour-joining" (Saitou & Nei 1987) pour construire un arbre qui guide la construction de l’alignement multiple. D’autres méthodes utilisent le maximum de vraisemblance pour la construction de 32 l’arbre de base (Thomson et al. 1999). Récemment sont apparues des méthodes basées sur des stratégies itératives de raffinement d'un alignement initial, en utilisant soit des alignements locaux par programmation dynamique (Morgenstern et al. 1996), soit des alignements globaux par utilisation de chaînes de Markov cachés (Morgenstern et al. 1996) ou des algorithmes génétiques (Notredame & Higgins 1996). Les algorithmes itératifs sont capables d'une plus grande précision, mais ils sont plus gourmands en temps de calcul. La nature heuristique de ces programmes recommande la prudence dans l’interprétation des résultats et de préférence leur validation par l’utilisation de plusieurs programmes. 3.3.3 La recherche de motifs Plusieurs méthodes ont été imaginées pour identifier des éléments fonctionnels en utilisant leur conservation en séquence. La recherche de motifs conservés peut se faire à partir d’alignements multiples par recherche de blocs conservés dans l’alignement ou directement à partir de la séquence par des méthodes qui à la fois recherchent et déterminent des consensus. Ces dernières méthodes sont à la base des techniques d'alignement multiple "par blocs" (Sagot 1997). 3.3.3.1 Recherche à partir d'alignements multiples Ces méthodes peuvent être classées sur la base de la technique de détermination des régions conservées. Ainsi, on peut considérer quatre groupes : homogénéité des colonnes, contenu informationnels des positions, concordance des relations phylogénétiques et détermination de la plus grande séquence commune à moins d’un certain nombre de mésappariements. Ces méthodes supposent un alignement multiple préalable. En conséquence, l'utilisation de programmes d'alignement peut être déterminant dans le succès de l'analyse. Dans la méthode d'homogénéité de colonnes, chaque colonne de l'alignement multiple est examinée indépendamment. La méthode repère les colonnes qui contiennent une lettre majoritaire au-dessous d'un seuil minimal prédéfini (Stojanovic et al. 1999). Dans l'analyse du contenu informationnel des positions, chaque colonne reçoit un score qui reflète son contenu informationnel, c'est à dire son homogénéité. Ce score est basé sur la comparaison des fréquences des lettres dans la colonne de l'alignement avec celles de tout l’alignement (Stormo 1990). L'approche phylogénétique repose sur un système de score des colonnes basé sur les relations évolutives entre les séquences de l’alignement. Ces relations sont données par un arbre phylogénétique supplémentaire (Fitch 1971) (Stojanovic et al. 1999). Les programmes basés sur le contenu informationnel et sur la phylogénie donnent normalement les meilleurs résultats, mais réclament un calibrage préalable ou la connaissance d'un arbre (Stojanovic et al. 1999). Parfois cette information est absente et 33 une technique basée sur la détection simultanée de la séquence centrale et des régions d’occurrence devient intéressante (Stojanovic et al. 1999). 3.3.3.2 Recherche à partir des séquences Parfois il n’est ni possible ni intéressant d’établir un alignement multiple préalable. Ceci arrive quand les séquences ne s’alignent que sur la région d’intérêt ou quand il y a trop de séquences pour faire un alignement multiple. Dans ces cas, des méthodes basées sur le contenu informationnel des sites peuvent être utilisées pour simultanément décrire la séquence du site et localiser son occurrence (Stormo & Hartzell 1989) (Lawrence & Reilly 1990) (Lawrence et al. 1993). Une des représentations les plus utilisés dans ce but est la matrice des "positions pondérées" (ou matrice consensus). Dans sa forme la plus simple (et la plus usuelle) il s'agit d'un tableau F à double entrée donnant pour chaque symbole b de l'alphabet et chaque position j du site à représenter, la fréquence F bj du symbole en cette position (Stormo & Hartzell 1989). Une technique très populaire de recherche, d'une telle matrice, à partie d'un lot de séquences non alignées, est celle du maximum de vraisemblance (Lawrence & Reilly 1990). Formellement le problème posé est le suivant. Etant donné un ensemble de N séquences (non-alignées) de taille L pour lequel on fait l'hypothèse qu'un site de taille k est présent au moins une fois sur chaque séquence, le but est de trouver la "meilleure" matrice F caractérisant le site et, incidemment, la position la plus probable du site sur chaque séquence. La généralisation de la mesure d’information de (Stormo & Hartzell 1989) forme la base de la méthode (Lawrence & Reilly 1990). Le site recherché est ainsi celui qui maximise la valeur : k T T log( F ) = N ∑ ∑ fbj log e ( pbj ) + N ( L − k ) ∑ fb, 0 log e ( pb, 0 ) j =1 b = A b= A où pb,j est la probabilité des bases (inconnues) pour la position j du site ; fb,j est la fréquence des bases observés dans la positon j du site. Les paramètres pb,0, fb,0 sont les équivalents pour les positions en dehors du site. Dans un ensemble de N séquences de taille L et sites de taille k, on possède N observations de chaque position du site et N(L-k) observations en dehors du site. Ainsi, cette formule contient l’information sur le site et sur l’environnement. Si le site contient une composition différente de la séquence alentour, cette information est exploitée pour améliorer le maximum de vraisemblance. 34 3.4 Les statistiques sur les mots 3.4.1 Les contraintes génétiques Le génome des bactéries est composé de contraintes spécifiques superposées, qui se réfèrent à des phénomènes biologiques distincts (Trifonov 1989). Ce qui est normalement appelé le code génétique n’est qu’un de ces codes, même si par son importance fonctionnelle nous avons tendance à le considérer comme le seul. Associé à lui, il existe toute une série de signaux qui servent à la régulation de la traduction (Rocha et al. 1999c). D’autres codes sont définis pour les besoins du contrôle de la transcription, incluant les promoteurs, opérateurs, terminateurs ou anti-terminateurs (Plat 1998). La réplication présente également des codes spécifiques comme les boîtes dnaA qui régulent le début de la réplication chez Escherichia coli ou Bacillus subtilis (Ogasawara & Yoshikawa 1992). La recombinaison chez Escherichia coli impose la sur-représentation de motifs particuliers (les motifs Chi) dans le génome (Meyers & Stahl 1994). De plus, des éléments comme les systèmes de restriction (Rocha et al. 1998) ou l’insertion de phages (Kunst et al. 1997), imposent des biais et des contraintes supplémentaires dans la séquence. En conséquence, dans chaque morceau de texte génomique se superposent plusieurs contraintes différentes, dont certaines ne sont même pas constituées par des mots de longueur et séquence précise. Ces contraintes ne sont pas indépendantes les unes des autres puisqu’elles partagent le même espace de codage (Trifonov 1989). De plus, l’information codée est utilisée de façon intégrée dans le fonctionnement de la cellule. Puisque la cellule doit fonctionner de façon cohérente, il faut que la cohabitation de ces contraintes soit aussi la moins conflictuelle possible. L’analyse d’un génome complet du point de vue des mots doit donc débuter par l’identification des objets correspondants à chacun des niveaux d’intérêt : traduction, transcription, etc. Ensuite l’analyse peut se poursuivre en considérant les différents niveaux en présence. Puisqu’en chaque région agissent des contraintes spécifiques qui interagissent entre elles, les mots ont une signification contingente et l’analyse devient intrinsèquement contextuelle. C’est par exemple le cas de la séquence de Shine-Dalgarno qui est présente un peu partout, mais ne prend son sens de site de fixation du ribosome qu'au début des gènes, parce qu’elle est à côté d’un codon de début de traduction (Vellanoweth & Rabinowitz 1992) (de Smit 1998) (Rocha et al. 1999c). La méthodologie de recherche doit prendre en compte le fait que, pour des contraintes différentes, les mots pertinents sont de nature différente, soit par leur taille, soit par le fait que quelques-uns sont exacts, que d’autres admettent des variations de séquence autour d'un consensus et enfin que d’autres ne sont définis que par la structure de l'ARN associé. 35 3.4.2 L’approche Markovienne L’analyse des mots exacts est basée sur celle du contraste entre le nombre observé d'occurrences du mot dans le texte génomique (ou d’un sous-ensemble de celui-ci), et la valeur attendue suivant un modèle. Ainsi, la définition de l'ensemble de séquences à analyser et la définition des modèles comparatifs constituent les points les plus délicats de l’analyse. La question de la définition des échantillons d’analyse sera discutée dans le chapitre 10, ensuite nous traiterons du problème des modèles statistiques. Parmi les méthodes proposées pour analyser les biais associés aux fréquences des mots, les méthodes basées sur les chaînes de Markov occupent une place privilégiée (Trifonov 1989) (Karlin & Brendel 1992) (Leung et al. 1996). Le succès de ces méthodes s'explique par leur base statistique précise, leur comportement stochastique bien étudié, leur implémentation simple et la relative facilité d'interprétation des résultats. Ces modèles comparent les compositions des mots d'une certaine taille de l'ADN avec des chaînes de caractères aléatoires qui contiennent les mêmes fréquences de mots de taille inférieure. Supposons, par exemple, que nous soyons intéressés par l'analyse de la fréquence d'un mot donné (e.g. TTAA). Le but de l'analyse est de révéler des possibles contraintes sélectives sur ce mot en analysant sa sur ou sous représentation. Naturellement le biais est relatif à une idée préalable du modèle de construction de la séquence. On peut supposer que la séquence est conditionnée par l'usage des nucléotides. Dans ce cas, la normalisation de la fréquence de TTAA sera faite par rapport à la fréquence relative de T et A (modèle de Markov d'ordre 0). Si T et A sont très abondants, on s'attend à trouver un nombre élevé de TTAA. La question est donc de savoir si la fréquence relative des nucléotides justifie la fréquence de TTAA. Si oui, la fréquence du mot est non biaisée, sinon, le mot est présent avec une fréquence inattendue. Alternativement on pourrait supposer que le facteur déterminant est la fréquence des dinucléotides (modèle de Markov d'ordre 1). Dans ce cas, la normalisation serait faite par rapport à TT, TA et AA. En utilisant les statistiques dérivées des modèles de Markov nous pouvons établir des intervalles de confiance pour les fréquences normalisées et déterminer si le mot est biaisé ou non. Chaque modèle de Markov d'un ordre donné contient implicitement le modèle inférieur. Ainsi, le modèle qui normalise la fréquence par rapport aux dinucléotides contient de façon implicite la normalisation de la fréquence par rapport aux nucléotides. Un cas particulier est celui des chaînes de Markov d'ordre maximal. Dans ce cas, la normalisation est faite par rapport aux sous-mots les plus grands contenus dans le mot à analyser. Dans notre exemple précédent (TTAA), il s'agirait des trinucléotides TTA et ATT (modèle de Markov d'ordre 2). Le cas maximal considère donc l'influence des fréquences relatives de tout type de sous-mots contenus dans le mot à analyser. En conséquence il est le modèle de choix pour analyser le biais d’un mot strict, i.e. d'un mot qui peut être à l'origine d'un signal non dégénéré. 36 Plusieurs auteurs se sont intéressés au problème de l'estimation des intervalles de confiance des fréquences normalisées. Les premières approches ont porté sur l'utilisation de chaînes de Markov d’ordre zéro, ce qui revient à soustraire le biais au niveau des mononucléotides (Nussinov 1981). Dans ce cas, les sous-mots sont indépendants et la solution passe par l'utilisation du test du χ 2. Ces travaux ont permis précisément de démontrer que les biais au niveau des nucléotides ne suffisaient pas pour expliquer les biais des mots de plus grande taille. La principale difficulté statistique de la méthode consiste à déterminer la variance de la fréquence attendue. Celle-ci à été déterminée exactement pour les chaînes de Markov d'ordre 1 (Kleffe & Borodovsky 1992), mais la formule est très complexe et sa généralisation aux ordres supérieurs n’a pas encore été établie. En 1995 est apparue une formule asymptotique simple pour le cas de chaînes de Markov maximales, valable pour de longues séquences (Schbath 1995). Nous y reviendrons dans le chapitre 10. 3.4.3 Les modèles, les hypothèses et les limitations Une démarche importante dans ce travail a été de prendre en compte d’une façon explicite le problème des contextes, en définissant des sous-ensembles de données aux caractéristiques homogènes. Ainsi, les analyses des biais d’oligonucléotides dans les génomes démarrent par la division des données en classes, comme les séquences des gènes, les séquences des brins précoces, les séquences des brins tardifs, les prophages, etc. Seule la division des ensembles en sous-ensembles homogènes par rapport aux phénomènes biologiques étudiés permet l'interprétation simple des résultats. Cependant, comme les phénomènes et les contraintes ne sont pas indépendants, cette approche n'autorise qu’une simplification relative de l’analyse. Comme toujours, l’analyse et l'interprétation statistique des résultats dépendent en dernière instance du chercheur. Cette approche présente également des limitations qu’il nous faut expliciter avant de discuter les travaux réalisés. Sous certaines hypothèses admises a priori (biologiques et statistiques), les mots significativement biaisés constituent des violations au modèle sousjacent, et en conséquence ont une signification concrète, au moins du point de vue phénoménologique. Néanmoins, certains mots peuvent être significatifs du point de vue biologique et pourtant ne pas être détectés par la méthode, simplement parce qu'ils ne sont pas biaisés. Ceci arrive en cas de forte dépendance contextuelle d’un motif, lui-même faiblement décrit en séquence. Un signal très dégénéré peut ne pas être détecté, parce que son taux de comptage est dilué dans un très grand nombre de mots exacts, produisant chacun de faibles biais. Dans ce cas, le biais important appartient au groupe de mots et échappe donc à l’approche Markovienne. Dans ce cas, les approches utilisant des matrices de fréquences comme celle de Lawrence, décrite plus haut, sont plus appropriées. 37 3.4.4 Les répétitions longues L'étude des répétitions est fondamentale pour la compréhension de la dynamique et de l'évolution des génomes. Les outils mentionnés dans les paragraphes précédents sont très intéressants pour trouver des signaux de petite taille (typiquement jusqu'à 7 ou 8 nucléotides), mais deviennent insuffisants quand il s'agit de trouver les répétitions longues dans les génomes. Dans la recherche de répétitions, nous nous sommes intéressés aux séquences répétées de taille importante. "Importante" signifie ici "exceptionnelle" et à nouveau nécessite l'introduction d'un modèle statistique (dans ce cas, un modèle stochastique provenant de la théorie des extrêmes (Karlin & Ost 1985)). La question n'est plus de savoir si le mot répété a une probabilité élevée de l'être par chance seulement, mais plutôt de savoir quelle est la taille du mot le plus grand attendu par hasard. Cette taille est ensuite utilisée pour définir un seuil de longueur minimale significative. Les répétitions plus longues que ce seuil sont statistiquement significatives et auront peut-être une signification biologique pertinente. Pour des mots stricts chez les bactéries, ce seuil est de l'ordre de 22 à 26 nucléotides (Rocha et al. 1999a) (la valeur exacte dépend de la composition et de la taille du génome). Ces valeurs sont proches des valeurs minimales de similarité stricte nécessaires à initier la recombinaison chez Escherichia coli (~20 nt (Watt et al. 1985)) et Bacillus subtilis (~24 nt (Roberts & Cohan 1993)). Puisque toutes les répétitions strictes que nous retrouvons sont capables de servir de support à la recombinaison homologue, nous avons ainsi un outil précieux pour étudier la dynamique du génome. Nous reviendrons sur ce thème dans le chapitre 11. 38 L'organisation des chromosomes 39 4. Sur l’organisation des génomes bactériens 4.1 Des "sacs de gènes" aux génomes Mendel a découvert les lois de l’hérédité qui portent son nom en se basant sur l’analyse de sept locus indépendants dans le petit pois. Le fait que leurs phénotypes soient directs et facilement identifiables a beaucoup influencé notre compréhension de l’hérédité. Les approches expérimentales de l'hérédité reposent souvent sur l'indépendance entre caractères, constaté par Mendel, même si cette hypothèse simplificatrice a été remise en question très tôt dans l’histoire de la génétique. Au début du siècle, G. Yule a émis la théorie d'une conjugaison du Mendelisme avec le Darwinisme. Dans son modèle, les deux théories devenaient compatibles et mutuellement nécessaires, lorsque beaucoup "d’unités d’hérédité" sont requises pour déterminer la plupart des caractéristiques sélectionnées (Depew & Weber 1995). Vers 1915 la cartographie génétique de la drosophile par le laboratoire de Morgan a montré que Yule avait raison. Par la suite, il est devenu évident qu’un seul gène peut agir sur plusieurs caractéristiques phénotypiques (pléiotropie). La relation entre gènes et phénotypes n’est donc pas de "un vers un", ni même de "un vers plusieurs", mais plutôt de "plusieurs vers plusieurs" (Li 1997). La régulation coordonnée de l’expression de différents gènes a rajouté un niveau supplémentaire de complexité à la génétique. En particulier, le modèle de l’opéron de Jacob et Monod (Jacob & Monod 1961) a permis l’établissement de relations entre la physiologie microbienne et l’expression génétique. Puisque le déclenchement du programme génétique n’est réalisé que dans certaines conditions, le génome ne peut plus être considéré comme un "sac de gènes". La vision du génome a donc évolué vers la notion de réseaux de gènes qui répondent de façon complexe aux stimuli de l’environnement. Ainsi le génome est devenu un ensemble de programmes qui se déclenchent par réponse à l’environnement, dans un réseau de relations génétiques qui peut devenir très complexe. Les recherches récentes dans 40 le domaine du développement ont démontré que ces relations obéissent également à des séquences temporelles très précises (Palmeirim et al. 1997). L’introduction de la notion de programme implique un niveau supplémentaire de sélection, puisque des changements dans le déroulement du programme peuvent entraîner de lourdes conséquences (Rutherford & Lindquist 1998). Nous avons donc parcouru un long chemin depuis les petits pois de Mendel. La découverte des éléments génétiques mobiles a bouleversé les paradigmes sur la stabilité génomique (McClintock 1950). Les changements produits dans les chromosomes par ces éléments, comme les inversions, multiplications ou délétions, produisent parfois des changements phénotypiques brutaux (Syvanen 1998). C’est la découverte du rôle majeur des transposons et des séquences d’insertions dans l’évolution moléculaire qui est à l’origine de la théorie du "gène égoïste" (Dawkins 1976). La version la plus controversée de cette théorie fait des génomes une espèce de champ de bataille pour des gènes qui ont comme fonction évolutive fondamentale leur propre multiplication (Dawkins 1976). Indépendamment de sa généralisation à l'ensemble des gènes, il est clair que la découverte des séquences d’insertion a ouvert un niveau de sélection situé au-dessous de l’organisme (Orgel & Crick 1980) (Doolittle & Sapienza 1980). Nous reviendrons sur ce sujet dans le chapitre 9, à propos du rôle évolutif des systèmes de restriction. Depuis le début de la révolution moléculaire, on a identifié chez tous les organismes des capacités de génie génétique autonome (Shapiro 1999). Les bactéries sont capables de faire de la recombinaison entre segments d'ADN homologues, d’intégrer de l'ADN exogène par transformation et de le passer à d’autres cellules par conjugaison (Matic 1995). Il y a dans les génomes toute une panoplie d’éléments capables de se déplacer dans le chromosome, tels que les transposons, les séquences d’insertion et les phages (Chandler 1998). Même les éléments clés du génome, comme les copies multiples des ARNr, constituent des cibles privilégiées pour la recombinaison (Hill & Harnish 1981) (Gürtler 1999). De plus, les déterminants de résistance aux antibiotiques et les facteurs de virulence peuvent s’intégrer de façon spécifique dans des cassettes présentes dans les plasmides, les transposons ou les chromosomes (Groisman & Ochman 1997) (Mazel et al. 1998). Au moment de l'émergence de la génomique notre conception des génomes comme dépôt de l’information génétique avait déjà beaucoup changé. Néanmoins, l’apparition des génomes complets a rajouté quelques éléments importants. En particulier, la complétude de l’information issue du séquençage permet l’étude approfondie de l’ensemble de l’information génétique. 4.2 Le principe du voisinage L’exploration des interactions entre les objets génétiques peut se faire par l’analyse de l’organisation des génomes. Exprimée dans ces termes, l’exploration des génomes revient a analyser les voisinages des séquences. Le concept de voisinage est à prendre dans un sens assez large, puisqu’il s’agit de l’identification d’objets qui partagent un espace donné. Ceci 41 inclut le voisinage physique, comme dans les liaisons entre promoteur et gène, mais aussi des voisinages beaucoup plus flous, qui dérivent du réseau intriqué de relations fonctionnelles dans les cellules. La recherche de voisinages en fonction d’une caractéristique ou d'une propriété peut se révéler une méthode puissante pour l'identification des rôles d’un gène dans la cellule (Nitschke et al. 1998). La recherche de voisinages consiste alors à rassembler des objets proches à l’intérieur d’un même espace de caractéristiques. La proximité physique sur le chromosome est probablement la caractéristique la plus étudiée à cause de l’organisation des gènes au sein d’opérons, de régulons complexes (Collado-Vides 1989) ou d'îlots de virulence (Finlay & Falkow 1997). L’exemple le plus évident est le cas des gènes codant les protéines ribosomales. Dans pratiquement toutes les bactéries, ces gènes sont rassemblés en opérons, fréquemment suivant le même arrangement (Schmidt 1998). De plus, dans plusieurs bactéries, ces gènes sont groupés au voisinage de l’origine de réplication en copies multiples et sur le brin de réplication précoce (Schmidt 1998). La présence de cette organisation est souvent corrélée à de fortes vitesses de croissance en phase exponentielle chez l'organisme en question. En raison de leur importance et de leur complexité en termes de structure et d'interaction avec d’autres éléments, ces gènes sont souvent très conservés dans l'évolution (Woese et al. 1990). Les gènes qui interagissent avec les ribosomes au cours de la traduction sont également très conservés parmi les bactéries. Eux aussi sont souvent proches de l’origine de réplication et agrégés en opérons stables (Itoh et al. 1999). Ils partagent ainsi une proximité physique, fonctionnelle et évolutive avec les ribosomes. On peut mieux comprendre l’organisation du génome en explorant la proximité entre gènes dans d'autres espaces. Un exemple en est l’espace de similarité en séquence entre les gènes ou les protéines (Smith & Waterman 1981) (Altschul et al. 1990) (Tatusov & Koonin 1997). La création de familles de paralogues ou d'orthologues constitue une implémentation typique de cette idée. Paralogues et orthologues sont des voisins phylogénétiques, liés par une origine commune (orthologues) et parfois par des domaines d’activité ou de structure communs (paralogues). Les modules fonctionnels constituent un autre cas de voisinage intéressant (Riley & Labedan 1997). La fonction des gènes peut être suggérée par l’analyse des domaines de fusion de protéines dans les organismes où ces modules constituent des gènes indépendants (Overbeek et al. 1999) (Marcotte et al. 1999) (Enright et al. 1999). La très nombreuse famille des transporteurs ABC est exemplaire de ce point de vue (Tomii & Kanehisa 1998). Les gènes des trois unités de base des transporteurs ne sont pas toujours ensemble physiquement (ni même proches), mais leurs produits arrivent à se rassembler correctement dans l’unité fonctionnelle (Quentin et al. 1999). Le point isoélectrique d'une protéine peut être un indice précieux du compartiment où la protéine fonctionne. En conséquence les voisins isoélectriques ont souvent des caractéristiques fonctionnelles ou architecturales en commun (Moszer et al. 1995). 42 Des voisinages plus complexes produisent parfois des résultats surprenants. Les gènes peuvent être voisins parce qu’ils utilisent le code de la même façon. C’est grâce à ceci que l’on a pu, par exemple, identifier les gènes de provenance allogène chez Escherichia coli et Bacillus subtilis (Médigue et al. 1991) (Kunst et al. 1997) (Moszer 1998). Cette approche a clairement montré que chez Bacillus subtilis ces gènes sont fréquemment agrégés en régions (Kunst et al. 1997). De plus, plusieurs de ces régions partagent souvent encore un autre voisinage, elles sont flanquées par des répétitions longues (Rocha et al. 1999a). C’est la conjonction de ces deux voisinages qui nous a conduit à la proposition d’un mécanisme intégratif du type Campbell chez Bacillus subtilis (chapitre 8). Finalement, les publications scientifiques présentent des travaux sur des gènes et les chercheurs associent souvent les noms des gènes au sein des mêmes phrases. Ainsi, les voisinages dans la littérature scientifique peuvent révéler des relations entre objets (Nitschke et al. 1998). A travers l'utilisation systématique de l'idée de voisinage nous discutons, dans l’article qui suit, quelques modèles de base pour l’organisation des génomes bactériens. En particulier, nous essayons d’établir des relations entre la structure physique du chromosome et l’organisation des activités cellulaires, l’architecture de la cellule, sa dynamique et son évolution. Publication II Rocha EPC et al. (2000), Implication of gene distribution in the bacterial chromosome for the bacterial cell factory, J. Biotechnology, 78: 209-219 4.3 L’importance des échantillons La méthodologie statistique utilisée dans la publication suivante est exposée au chapitre 10. Pour l’appliquer de manière biologiquement pertinente il a fallu construire des ensembles de données spécifiques, définis de façon à expliciter les variables biologiques. En particulier, nous avons considéré les quatre mécanismes fondamentaux suivants. Réplication - La réplication bactérienne peut être divisée en trois phases bien distinctes qui sont le début, l’élongation et la terminaison. Le début et la fin du processus sont régulés par des signaux qui occupent une petite fraction du génome. Cette caractéristique rend ces deux phases moins intéressantes pour une analyse globale du génome. En revanche, la majorité du chromosome est répliquée durant la phase d’allongement (chapitre 5), qui divise le chromosome en un brin précoce et un autre tardif. 43 Traduction - L'analyse de la distribution des bases dans les gènes est traditionnellement l’aspect le plus étudié des biais liés à la traduction. Ces biais dus à l’usage du code et aux signaux spécifiques de la traduction (voir chapitre 6). Contrôle - Le contrôle de l’expression génétique a lieu essentiellement au niveau de la transcription et de la traduction. Les signaux liés à ces mécanismes se chevauchent de façon complexe dans les régions intergéniques, ce qui rend leur analyse et leur discrimination compliquées. Notre incapacité relative à définir précisément les opérons augmente encore cette difficulté. Ainsi, l’analyse ne permet généralement pas de discriminer des mots qui agissent sur l'un ou l'autre de ces deux niveaux. Défense - La question de la fréquence et la distribution des sites de restriction a été souvent abordée dans la littérature (Sharp 1986) (Churchill et al. 1990) (Burge et al. 1992). Sa popularité est due à l’importance accordée à ces sites dans la construction de cartes physiques et dans le génie génétique (Churchill et al. 1990). Pendant longtemps, les systèmes de restriction ont été considérés comme le plus important mécanisme de protection des bactéries contre l’invasion d'ADN allogène (Arber 1965) (Sharp 1986) (Redaschi & Bickle 1996). Les résultats de l'étude préliminaire que nous développons dans la publication suivante remettent en question cette théorie et vont nous amener à des études plus approfondies (chapitre 9). A la suite de cette étude nous inclinerons vers une proposition alternative, proposée par I. Kobayashi et basée sur le comportement "égoïste" des systèmes de restriction (Naito et al. 1995) (Kobayashi 1998). Après la délimitation des principales questions biologiques, il a fallu définir les ensembles de données sur lesquelles porteront les analyses. Nous considérerons ici sept ensembles. • Chromosome simple brin - c’est le chromosome publié (texte linéaire). • Chromosome symétrisé - c’est le résultat de la concaténation des deux chaînes du chromosome. À cause de sa taille double, les comptages sont divisés par 2. Par construction, les comptages d'un mot et de son complémentaire inversé sont identiques. Quand le génome complet n’est pas disponible, l’orientation des contigs est aussi inconnue et la symétrisation devient nécessaire. Pour un génome complet, cet ensemble sert à vérifier si les résultats obtenus sur une chaîne simple brin sont représentatifs ou non des deux brins. • Brin précoce et brin tardif - le brin précoce est constitué par les deux séquences qui correspondent aux deux moitiés du chromosome répliquées de façon continue. Le brin tardif correspond aux deux moitiés du chromosome qui sont répliquées de façon discontinue. Le brin tardif est donc le complémentaire inversé du brin précoce et seule l'analyse d'un des deux est nécessaire. • Gènes, régions intergéniques et phages 44 Publication III Rocha, E. P. C., Viari, A., Danchin, A. (1998) Oligonucleotide bias in Bacillus subtilis: general trends and taxonomic comparisons. Nucl. Acids Res. 26: 2971-2980. 4.4 Quelques perspectives Puisque le génome contient l’information nécessaire à la vie de la cellule, l'analyse de la distribution des mots devrait permettre la reconnaissance de signaux impliqués dans les principaux processus cellulaires. Notre découpage des données en ensembles homogènes a constitué un pas dans cette direction. La comparaison croisée de ces résultats avec ceux d’autres organismes modèles sera probablement instructive. Cette comparaison pourrait permettre d'identifier les signaux à fonction générale (signaux ubiquistes), ou, inversement, pourrait être utilisée pour l’identification de spécificités taxonomiques. Les études décrites dans l’article précédent ont servi de point de départ à notre travail ultérieur. Ainsi l’utilisation des polarogrammes et des "GC skews" a attiré notre attention sur le problème des biais de brin. Ceci sera exploré au cours du chapitre 5. Nous observerons que ces biais sont très forts chez plusieurs espèces, qu’ils sont visibles au niveau des codons et des aminoacides et, ce qui est peut être le plus important, qu’ils sont qualitativement toujours les mêmes entre les différentes espèces. L’analyse du contraste entre les biais de mots dans les gènes et les régions intergéniques a été développée au cours du travail sur la traduction chez Bacillus subtilis (chapitre 6). Les résultats concernant les régions allogènes, présentés initialement comme d'éventuels prophages (Kunst et al. 1997), seront partiellement re-interprétés dans le contexte du transfert horizontal (chapitre 8). Enfin, la jonction de ces derniers résultats et des résultats de la recherche de longs mots répétés a abouti à un modèle d’insertion d’information non homologue chez Bacillus subtilis. 45 5. Les biais liés à la réplication En 1950, Chargaff a énoncé la célèbre règle d’équivalence A=T et G=C dans l’ADN double brin (Chargaff 1950). Cette règle a ouvert la voie à la proposition de Watson et Crick concernant la structure en double hélice de l’ADN (Watson & Crick 1953). Néanmoins, Chargaff a aussi observé que cette règle s’appliquait également à l’ADN simple brin (Lin & Chargaff 1967). Cela n’est pas une conséquence évidente de la structure proposée par Watson et Crick. La deuxième règle de parité (PR2) de Chargaff ne peut être comprise que dans le contexte de l’évolution moléculaire. En l’absence de biais spécifique d'un brin, i.e. quand mutation et sélection ont les mêmes effets sur les deux brins de l’ADN, la matrice de transitions est symétrique et la parité est garantie (Sueoka 1993). Ainsi, dans un contexte de mutagenèse symétrique la deuxième règle est une conséquence de la première (Lobry 1995). Par contre, s'il existe des processus mutationnels différents sur chaque brin, la PR2 n’est plus respectée. Il y a deux façons différentes et complémentaires d’étudier et de détecter les biais de brin. L'une consiste à étudier directement les transitions entre gènes homologues, l’autre est indirecte et passe par la détection d’asymétries dans les séquences génomiques. Dans la première méthode, les asymétries sont détectées à travers l’estimation des matrices de substitution et par comparaison avec les fréquences de substitutions complémentaires (Francino et al. 1996). La deuxième méthode consiste à analyser des déviations à la parité A=T et C=G dans les textes génomiques (Lobry 1996a), par des méthodes graphiques appelées AT et GC skews. Plusieurs mesures de skews ont été proposées dans la littérature (Karlin 1999). La plupart de ces mesures sont basées sur le rapport (C-G)/(C+G) (Lobry 1996a). Les GC skews constituent une mesure indirecte du biais, mais permettent l’analyse visuelle de grandes séquences. 46 L’analyse du génome complet de Bacillus subtilis, qui présente de forts biais de réplication, est à l’origine de notre intérêt pour cette question (Kunst et al. 1997). En 1998, McInerney a montré dans un travail basé sur l'analyse factorielle des correspondances (AFC), l’énorme influence de ces biais dans l’usage des codons chez Borrelia burgdorferi (McInerney 1998). Cependant, McInerney n’avait pas pu identifier de biais semblables dans les autres organismes. Ceci a été à l'origine des études que nous décrirons ensuite, dont le but initial était de confirmer et d’étendre ce résultat. L’AFC n’est pas la meilleure méthode pour l’identification de variables discriminantes entre les deux brins. Par contre, l’analyse discriminante linéaire (ADL) a permis de résoudre efficacement cette question. Cette méthode permet l’identification des variables discriminantes et leur influence relative dans la discrimination (voir chapitre 12). Notre travail a révélé que ces biais sont très répandus chez les eubactéries et sont également présents chez certaines archaebactéries. Ces biais sont présents au niveau des nucléotides, des codons et des aminoacides. De plus, quand ils existent, sont toujours de même nature. 5.1 La réplication chez les Bactéries Les connaissances sur la réplication chez les archaebactéries sont encore très incomplètes (Edgell & Doolittle 1997a) (Lopez et al. 1999). C'est pourquoi, dans ce qui suit, nous allons nous concentrer essentiellement sur les eubactéries. Les facteurs qui déclenchent la réplication sont assez mal connus (Vinella & D'Ari 1995). Néanmoins, nous connaissons le processus moléculaire de démarrage de la réplication avec un certain niveau de détail, au moins chez Escherichia coli et Bacillus subtilis (Marians 1992) (Yoshikawa & Wake 1993). Ainsi, la réplication du chromosome bactérien débute au niveau d’une séquence spécifique, l’OriC chez Escherichia coli. Cette séquence présente une taille minimale de 245 pb et semble bien conservée entre les différentes bactéries (Burland et al. 1993) (Ogasawara & Yoshikawa 1992). Cette séquence est la cible d’attachement de la protéine DnaA (Marians 1992). Elle présente plusieurs motifs palindromiques qui sont utilisés comme cibles pour la Dam-methylase (sites GATC) (Ogasawara & Yoshikawa 1992). Après le démarrage du processus, deux fourches de réplication avancent en sens opposés jusqu’à leur rencontre au niveau du terminus (Figure 5.1) (Yoshikawa & Wake 1993). Dans les cellules en croissance exponentielle, le démarrage de la réplication prend place dans les chromosomes naissants sans attendre la terminaison. En conséquence la cellule peut posséder plusieurs fourches de réplication simultanées. 47 portion d'ADN non répliquéé emplacement de l'origine de réplication brin matrice brin tardif 5' 3' 3' 5' brin précoce amorces d'ARN des fragments d'Okasaki Figure 5.1 - Schéma du début de réplication chez les eubactéries (d'après (Lewin 1995)). La fourche de réplication contient quatre éléments principaux : l’ADN polymérase, l’ADN hélicase, la primase et les protéines de déstabilisation de l’hélice. L'ADN polymérase est requise pour la synthèse du nouveau brin et n’est processive que dans le sens 5’→ 3’. En conséquence un des brins, le brin précoce, est synthétisé de façon continue (au moins in vitro). En revanche, l’autre brin (le brin tardif) est synthétisé de façon discontinue par morceaux d’environ 2 kb (les fragments d’Okasaki) (Marians 1992). La primase est requise pour le démarrage de la production des fragments d’Okasaki sur le brin tardif. Les amorces d’ARN synthétisées par la primase ont environ 10 nucléotides de longueur et sont excisées à la fin de chaque cycle (Marians 1992). Les protéines de déstabilisation de l’hélice ont pour fonction de protéger l’ADN simple brin qui constitue la matrice de la chaîne tardive (Figure 5.2). Figure 5.2 - Schéma général des fourches de réplication chez les eubactéries (d'après (Lewin 1995)). Chez Escherichia coli le même complexe d’ADN polymérase est utilisé pour la synthèse de tous les fragments d’Okasaki d’une ronde de réplication (Marians 1992) (Yuzhakov et al. 1996). L’ADN polymérase du brin précoce reste simplement attachée à la séquence est réplique l’ADN. Par contre la polymérase du brin tardif doit réaliser des cycles 48 de polymérisation. Premièrement elle réplique un fragment d’Okasaki, ensuite elle abandonne la séquence et saute jusqu’au site de l'amorce suivante pour recommencer un nouveau cycle. L’ADN qui sert de modèle au brin tardif est ainsi dans l’état simple brin pendant beaucoup plus de temps. Les deux domaines de la polymérase sont structurellement identiques et l’inversion des rôles (i.e. le changement des deux brins dans les deux domaines), ne modifie pas leur efficacité (Pinder et al. 1998). L’asymétrie dans le mécanisme des deux domaines (domaine précoce et domaine tardif) est due à l’action de l’hélicase sur le brin précoce (Pinder et al. 1998). En conséquence, les asymétries du mécanisme peuvent être à la base des caractéristiques mutationnelles différentes. Nous reviendrons sur ce sujet dans la discussion de l’article suivant. La terminaison de la réplication passe par l’arrêt des fourches de réplication. Ceci à lieu dans des régions qui contiennent des séquences spécifiques (le site ter). L’interaction d'une protéine de terminaison avec le site ter arrête les fourches de réplication en perturbant l’action de l’hélicase (Bussiere & Bastia 1999). Les sites ter sont situés à peu près à 180º de l’origine, avec néanmoins de légères fluctuations, comme chez Bacillus subtilis, où le terminus est unique et se situe à 172º (Yoshikawa & Wake 1993) (Kunst et al. 1997). Ce système précis de terminaison n’est pas strictement nécessaire puisque les souches de Bacillus subtilis sans site ter parviennent à se répliquer et sporuler correctement (Yoshikawa & Wake 1993). La séparation des deux copies du chromosome est faite par recombinaison, mais le mécanisme exact n’est pas encore complètement connu (Wake & Errington 1995) (Woldringh et al. 1995). Plusieurs travaux récents commencent à lever le voile sur le problème de la ségrégation correcte des deux chromosomes (Wu & Errington 1998) (Jacobs & Shapiro 1999). Néanmoins, il reste encore beaucoup à découvrir, notamment en ce qui concerne la division asymétrique des chromosomes au moment de la sporulation (Lin & Grossman 1998) (Bouché & Pichoff 1998). 5.2 Les travaux expérimentaux de détection d’asymétries Les travaux expérimentaux sur l’asymétrie des mutations sont difficiles en raison du faible taux de mutations chez les eubactéries (de l’ordre de 10 -9 à 10 -10 -1 pb ) (Drake et al. 1998). De plus, les difficultés expérimentales empêchent de pouvoir tester une quantité statistiquement acceptable de sites. Ainsi, il n’est pas surprenant d'observer que les conclusions des premiers travaux sur les asymétries de la réplication (Wu & Maeda 1987), ont été rejetées à la suite d’analyses plus détaillées (Bulmer 1991b). Kunkel et coll. ont étudié les mutations asymétriques dans les cellules humaines, mais l’existence de plusieurs types d’ADN polymérase chez les eucaryotes rend les comparaisons difficiles (Izuta et al. 1995). D'autres études réalisées chez Escherichia coli ont utilisé des plasmides qui se répliquent de façon unidirectionnelle (Trinh & Sinden 1991) (Sinden et al. 1999). Ces études ont révélé une plus grande mutagenèse des éléments possédant des structures secondaires dans le brin tardif (Sinden et al. 1999). 49 L’étude d'Iwaki et coll. est un peu plus proche des conditions naturelles, malgré l’utilisation du plasmide ColE1 qui se réplique de façon unidirectionnelle (Iwaki & al 1996). La détection des taux d’erreur de la réplication avant la correction des erreurs a été rendue possible par l’utilisation d’une souche sans activité exonucléolytique. Les résultats montrent que les fréquences de changement de cadre de lecture et de mutations ponctuelles sont 10 à 100 fois supérieures sur le brin tardif. Cependant Fijalkowska et coll. sont parvenus au résultat contraire à la suite d'une expérience similaire au niveau du chromosome (Fijalkowska et al. 1998). Cette étude a été réalisée sur le chromosome de Escherichia coli en utilisant les fréquences de réversion de lacZ, sur les deux brins. Les auteurs ont utilisé une souche de Escherichia coli sans système de proofreading ni correction de mésappariements pour détecter les biais dûs uniquement à la réplication. Ils ont trouvé que la mutagenèse est significativement plus faible sur le brin tardif (Fijalkowska et al. 1998). Nous reviendrons au modèle proposé dans cet article au cours de la discussion de notre publication. Il a également été proposé que les asymétries entre les brins soient dûes à la réparation après transcription (transcription coupled repair) (Francino et al. 1996). Cette dernière étude n’a pas détecté d’asymétries mutationnelles significatives entre le brin tardif et le brin précoce, mais elle a identifié un excès de mutations C → T dans le brin codant par rapport au brin non codant. Après les études de Fijalkowsa et Iwako c’était là le seul résultat manquant pour jeter la confusion totale dans le domaine ! Néanmoins, ces conclusions sont basées sur l’analyse de quelques dizaines de mutations parmi seulement six gènes du génome d'Escherichia coli. Francino et Ochman ont ensuite observé que la corrélation entre le biais de brin et le nombre de gènes fortement exprimés renforçait leur hypothèse (Francino & Ochman 1999). Nous discuterons plus tard l’apparente incompatibilité entre nos données et cette hypothèse. 5.3 Les GC skews Au contraire des travaux expérimentaux, les résultats des analyses des "GC skews" sont assez cohérents (Lobry 1996a) (Kunst et al. 1997) (Grigoriev 1998) (Karlin 1999). L’analyse du rapport (G-C)/(G+C) (le GC skew) sur des fenêtres glissantes le long du chromosome a permis l’identification d'asymétries assez importantes chez Escherichia coli, Bacillus subtilis, Haemophilus influenzae et Mycoplasma genitalium (Lobry 1996a) (Lobry 1996b). Ces asymétries sont plus fortes en troisième position des codons et dans les régions intergéniques. Ces biais changent de signe à l’origine de réplication et au terminus, il a donc paru évident qu’ils devaient avoir leur origine dans le mécanisme asymétrique de réplication chez les bactéries (Figure 5.3). 50 0,1 5 GCSkew 0,1 0 0,0 5 -0,00 -0,05 -0,10 -0,15 -0,20 0 1 000 2 00 0 posi tion 3000 4000 Figure 5.3 - Le GC skew au cours du chromosome de Bacillus subtilis. Les inversions du skew ont lieu aux régions de l'origine de réplication (à 0 kb) et du terminus (à 2 000 kb). Plusieurs variantes de la méthode, sans grandes différences conceptuelles, sont apparues à la suite de la publication initiale de J. Lobry (Grigoriev 1998) (Freeman et al. 1998) (Cebrat et al. 1999). En fait, le biais GC est devenu la technique standard pour déterminer l'origine de réplication chez les bactéries complètement séquencées (e.g. (Andersson et al. 1998) (Fraser et al. 1998)). Par exemple, il avait été proposé que la réplication du chromosome linéaire de Borrelia burgdorferi débute aux extrémités du chromosome et progresse vers le centre (Casjens 1998). Les GC skews ont révélé une très forte asymétrie dans la région centrale, indiquant donc une origine de réplication située, en fait, au centre du chromosome. Cette hypothèse a ensuite été confirmée expérimentalement (Picardeau et al. 1999). L’analyse du très curieux génome de Borrelia burgdorferi a renouvelé les études sur le biais associé à la réplication, en y ajoutant l’usage des codons et des aminoacides. J. Lobry avait initialement abordé ce sujet dans le contexte de l’analyse de profils d'hydrophobicité avec une méthode d’analyse discriminante des correspondances (Perrière et al. 1996). Cependant le résultat spectaculaire qui a relancé ce sujet (et notre intérêt) a été l’analyse par McInerney des différentes fréquences de codons entre les gènes des deux brins du chromosome de Borrelia burgdorferi (McInerney 1998). L’analyse factorielle des correspondances est utilisée classiquement pour étudier l'usage du code dans les gènes, et, en particulier, pour mettre en évidence des groupes de gènes d'expression différente et/ou d'origine allogène. Ceci aboutit typiquement à une classification en trois classes qui correspondent aux gènes fortement exprimés en croissance exponentielle, aux gènes transférés horizontalement et aux autres gènes. Néanmoins, l’analyse du chromosome de Borrelia burgdorferi n’a révélé que deux classes très nettement séparées. L’analyse des gènes présents dans les deux classes montre que ces deux groupes correspondent en réalité aux gènes des deux brins réplicatifs (Figure 5.4). Ainsi, chez Borrelia burgdorferi le premier facteur de discrimination entre les gènes est simplement leur orientation par rapport à la réplication. En d'autres termes, cette orientation conditionne l'usage du code chez cette bactérie de manière plus importante que le niveau d'expression. 51 0,7 0,6 0,5 axis-2 7.7% 0,8 0,4 ttt tt c 0,3 tt g 0,2 agt tgt tct 0,1 0,0 gtt 0,1 agg 0,2 ggt 0,3 tat tta tcg aat tcc att gtg cgg gat aag tgc tc a gtc ctt cat ggg cct act ac g ggcccg gag cg c aga ca g gct gcg cga tac ctg agc ata cta atc aa a aac ctc ccc ac c gta gcc gaacca gac gga caa gca aca cac cgt 0,4 0,5 axis-1 25.4% 0,6 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 -0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 Figure 5.4 - Les deux premiers axes factoriels de l’usage du code chez Borrelia burgdorferi. Les points correspondent aux gènes et les boîtes aux codons (caractères). Le premier axe représente 25,4 % de l’inertie et correspond à la séparation des gènes suivant les deux brins réplicatifs (séparation des codons finissant par T ou G et codons finissant par C ou A). L’analyse factorielle des correspondances autorise la superposition des caractères et des individus sur la même figure. Dans le cas des analyses de l’usage du code les caractères sont les 61 codons et les individus sont les gènes. La visualisation simultanée des deux ensembles révèle bien le contraste entre les deux brins (Figure 5.5). Ainsi, les gènes du brin précoce sont riches en codons qui se terminent par T et G, alors que les gènes du brin tardif utilisent préférentiellement A et C. Ceci correspond également au biais observé dans les génomes de Haemophilus influenzae, Escherichia coli et Bacillus subtilis (Lobry 1996a) (Kunst et al. 1997). Les résultats présentés dans l’article de ce chapitre indiquent de façon très claire un biais qualitativement identique dans tous les génomes qui présentent un biais. Dans tous les cas le contraste observé oppose les bases céto aux bases amino (Rocha et al. 1999d). 52 0,7 0,6 0,5 axis-2 7.7% 0,8 + 0,4 F ttt - ttc 0,3 ttg tt a tat 0,2 tcg ag t tgt 0,1 0,1 cgg gtg aag gtt 0,2 R 0,3 G ggt gag cag gcg aat tcc ctt cat cct acg act ggc ccg aga gc t cgc Y N C V gat ggg agg L at t tct 0,0 S K D gta tgc tc a I gtc A E tac ccc P gcc gga Q atc at a aaa cca aac ctc T acc ga a caa gc a cta ctg agc aca ga c cac H cga cgt 0,4 0,5 axis-1 25.4% 0,6 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 -0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 Figure 5.5 - Contraste dans l’usage du code entre les deux brins de Borrelia burgdorferi. Des lignes lient les codons qui codent pour le même aminoacide. Des ellipses représentent l'enveloppe du nuage des points (cf Figure 5.4). Publication IV Rocha, E. P. C., Danchin, A., Viari, A. (1999) Universal replication bias in bacteria. Mol. Microbiol. 32: 11-16 5.4 La non-ubiquité des biais Notre analyse démontre que le biais associé aux brins de réplication est présent dans la plupart des eubactéries et chez plusieurs archaebactéries. Ceci est un peu inattendu, puisque les archaebactéries possèdent une machinerie de réplication plus proche de celle des eucaryotes que des eubactéries (Doolittle & Logdson 1998). Le biais présent dans les différents organismes présente des amplitudes très différentes, depuis un faible biais chez Escherichia coli, jusqu’au biais violent de Borrelia burgdorferi. Nous pensons que le biais est probablement plus faible dans les génomes qui subissent du transfert horizontal fréquent et/ou qui sont fréquemment remaniés. Notre méthode ne révèle pas de biais significatifs chez la plupart des archaebactéries. Les Mycoplasmes constituent une autre exception par la faiblesse de leur biais. Plusieurs éléments importants de la machinerie de correction d’erreurs sont absents 53 de ces organismes (Himmelreich et al. 1997). Il est donc séduisant d'associer l'existence d'un biais asymétrique de ces mécanismes de correction dans les autres à l’utilisation organismes. Par contre, le biais est totalement absent chez Synechocystis spp. L’absence d’autres génomes séquencés de cyanobactéries et la méconnaissance de leur mécanisme de réplication rendent difficile l’interprétation de ces résultats. Nous reviendrons sur ce thème dans le chapitre 8. Ainsi il y a au moins trois raisons différentes qui expliquent l’absence d’ubiquité du biais. (1) Certains mécanismes de réplication peuvent ne pas induire de biais. (2) L’absence de certains mécanismes de correction d’erreurs peut éliminer les asymétries. (3) Les remaniements chromosomiques trop fréquents empêchent l’établissement du biais. 5.5 L’universalité des biais Nous donnons à l’expression universalité un sens différent de celui d’ubiquité. Nos observations suggèrent une similarité qualitative des biais dans tous les organismes qui les présentent, puisque dans tous les cas observés les variables les plus discriminantes sont les mêmes. C'est vrai pour n’importe quel ensemble de variables de discrimination (nucléotides, codons ou aminoacides) et suggère donc une origine commune pour les biais. Cette origine est associée à des processus présents partout dans l’arbre de la vie. L’analyse discriminante linéaire permet de déterminer l'importance relative des variables discriminantes. Les variables les plus discriminantes sont celles qui contribuent de façon la plus importante au biais. En termes de nucléotides, le biais prépondérant est G dans le brin précoce contre C dans le brin tardif. A et T apparaissent parfois également, ce qui indique que la règle générale est sur-représentation de bases céto dans le brin précoce et de bases amino dans le brin tardif. Par ailleurs, l’analyse de la fréquence des nucléotides dans chaque position du codon indique l’utilisation contrastée de G3 dans le brin précoce contre C3 dans le brin tardif. Ce résultat n'est pas étonnant compte tenu du fait que la position moins contrainte dans les codons est la troisième. Les contrastes entre G et C à la position 1 des codons et entre A et T sont compatibles avec le contraste général amino contre céto. La discrimination utilisant les fréquences des codons produit des résultats plus complexes. Certains codons sont systématiquement contrastés, tel que GGT dans le brin précoce et ACC dans le brin tardif. Les codons sur-représentés dans le brin précoce se terminent évidemment par G ou T alors que ceux du brin tardif se terminent par A ou C, pour toutes les espèces sauf Methanobacterium thermoautotrophicum. Ce biais général est en accord avec les contrastes portant sur les nucléotides. L’utilisation des fréquences des aminoacides montre que le biais est très fort à ce niveau aussi. Par exemple chez Borrelia burgdorferi, la seule connaissance de la séquence protéique permet de prédire l'orientation du gène qui code pour cette protéine, par rapport à la réplication, avec 96 % de taux de succès. Certains aminoacides jouent un rôle plus important dans la discrimination. En particulier, la Valine est toujours la plus fortement sur- représentée dans le brin précoce, accompagnée fréquemment par l'Alanine, l'Arginine et la 54 Glycine. Dans le brin tardif, ce rôle est joué surtout par la Thréonine, accompagné par la Leucine, l'Isoleucine, et l'Histidine (voir Tableau 1 de la publication précédente). La mutation d’un codon valine (GTN) vers un codon thréonine (ACN) ne peut pas se faire en moins de deux étapes. Ainsi, il est plus facile d'imaginer que le changement serait fait de manière indirecte, par exemple de Valine vers Leucine (CTN) et puis vers Thréonine. Malheureusement nous connaissons trop mal les fréquences de transitions entre codons, pour arriver à modéliser de façon correcte les perturbations causées dans leurs fréquences relatives par des changements du rapport C/G. 5.6 La superposition des biais Les résultats de McInerney ont été initialement interprétés comme indiquant l’absence de biais d’usage du code chez Borrelia burgdorferi (McInerney 1998) (Lafay et al. 1999). Cependant, le biais du code existe chez Borrelia burgdorferi et il est probablement corrélé à l’expressivité comme chez les autres bactéries. C'est le fort biais de réplication chez cet organisme qui interfère avec le biais de l’usage du code. Cette interférence est tellement importante que l’AFC révèle le biais de réplication et non le biais de l’usage du code. Il y a biais de codons dans chaque brin et ils sont à peu près les biais du code entraîne toujours la sur-représentation mêmes (Figure 5.6). Le d'un sous-ensemble des codons synonymes et il s'agit du même sous-ensemble dans les deux brins (souvent une paire). C'est simplement le rapport des fréquences d'utilisation dans cette paire qui change entre les deux brins. Ainsi, le biais de réplication et le biais d’usage du code interfèrent et créent un biais global d’usage des codons différent dans les deux brins. leading (560 genes) A GCA 0.32 GCC 0.10 GCT 0.52 GCG 0.06 G GGA 0.35 GGC 0.16 GGT 0.32 GGG 0.17 C TGC 0.23 TGT 0.77 H CA C 0.17 CA T 0.83 D GAC 0.12 GAT 0.88 I E GAA 0.66 GAG 0.34 F TTC 0.06 TTT 0.94 ATA 0.29 ATC 0.05 ATT 0.67 K AAA 0.71 AAG 0.29 lagging (189 genes) L CTA CTC CTT CTG TT A TTG 0. 04 0. 01 0. 32 0. 02 0. 40 0. 22 N A AC 0. 10 A AT 0. 90 P CCA 0. 30 CCC 0. 15 CCT 0. 50 CCG 0. 05 Q CAA 0. 76 CAG 0. 24 R A GA 0.61 A GG 0.23 CGA 0.05 CGC 0.03 CGT 0.07 CGG 0.01 S A GC 0.11 A GT 0.22 TCA 0.19 TCC 0.04 T CT 0.40 TCG 0.04 T A CA A CC A CT A CG V GTA 0. 22 GTC 0. 03 GTT 0. 65 GTG 0. 10 A GCA 0. 53 GCC 0. 13 GCT 0. 32 GCG 0. 03 G GGA 0. 61 GGC0. 16 GGT 0. 13 GGG0. 11 Y TA C 0. 12 TA T 0. 88 C TGC 0. 56 TGT 0. 44 H CAC 0. 39 CAT 0. 61 D GAC 0. 33 GAT 0. 67 I E GAA 0. 88 GAG 0. 12 0.34 0.13 0.47 0.06 F TTC 0. 18 TTT 0. 82 A TA 0. 49 A TC 0. 11 A TT 0. 40 K A AA 0. 91 A AG 0. 09 L CTA 0.17 CTC 0. 04 CT T 0. 25 CTG 0. 03 TTA 0. 41 TTG 0.10 N A AC 0. 31 A AT 0. 69 P CCA 0. 45 CCC 0.16 CCT 0. 35 CCG0. 04 Q CAA 0. 91 CAG 0. 09 R A GA 0. 77 A GG 0. 11 CGA 0. 05 CGC 0. 03 CGT 0. 02 CGG 0. 01 S A GC 0. 20 A GT 0. 13 TCA 0. 33 TCC 0. 06 TCT 0. 25 TCG 0. 03 V GTA 0. 45 GTC 0. 09 GTT 0. 37 GTG 0. 09 Y TAC 0. 36 TAT 0. 64 T A CA 0. 56 A CC 0. 13 A CT 0. 27 A CG 0. 04 Figure 5.6 - L’usage du code dans les gènes des deux brins réplicatifs de Borrelia burgdorferi. 5.7 Les théories et les résultats Deux types différents de théories ont été proposés pour expliquer l’origine des biais de réplication. Dans les théories sélectives, on cherche l’identification de caractéristiques sélectives à l’origine des biais. Dans les théories de dérive par mutation, l'accent est mis sur la dérive neutre à partir d’asymétries induites au moment de la réplication. 55 5.7.1 Les hypothèses de biais par sélection Dans cette catégorie, nous rencontrons surtout représentation d’un mot présentant un des théories qui lient les biais à la sur- rôle biologique précis. Le site Chi d'Escherichia coli a été proposé (Mrázek & Karlin 1998), mais on a du mal à comprendre comment un mot qui occupe moins d’un pour cent du chromosome pourrait avoir un effet si radical sur le biais. Salzberg et coll. ont identifié des mots de 7 nucléotides capables de discriminer brins (Salzberg et al. 1998b), mais l’interprétation les deux du rôle biologique de ces mots reste sujette à caution. En effet, il n’y a pas de rôle biologique évident pour ces mots et ils occupent une fraction trop petite du chromosome pour expliquer de façon satisfaisante les biais. De plus ils reflètent pour la plupart le biais nucléotidique. Lopez et coll. ont relié l’abondance de mots de 4 nucléotides dans les génomes des archaea avec les sites d’attachement de la primase (Lopez et al. 1999). Il n’est pas du tout clair que ces mots soient effectivement les principaux responsables du biais. En revanche, ils reflètent bien les contrastes entre les deux brins réplicatifs et ils ont un rôle biologique (quoique hypothétique) clair. 5.7.2 Les hypothèses de biais par mutation Nous avons décrit en haut la proposition de Francino et coll. sur la relation causale entre les biais réplicatifs et le couplage entre transcription et réparation (Francino et al. 1996). Plus récemment les mêmes auteurs ont rapporté une corrélation assez forte entre le nombre de gènes à fort "codon adaptation index" (CAI 1 ) dans le brin précoce et le biais de brin (Francino & Ochman 1999). Ceci renforce leur hypothèse de base, puisque les gènes fortement exprimés sont probablement ceux qui sont plus réparés après transcription. À notre avis cette hypothèse n’explique pas convenablement l’existence des biais réplicatifs, ceci pour plusieurs raisons. Premièrement, nous avons observé que le biais en nucléotides est plus fort dans les régions intergéniques que dans les gènes. Même si une partie des régions intergéniques est aussi transcrite, ce résultat est contraire à cette hypothèse. Deuxièmement, le CAI élevé est une mesure de forte expression dans la phase exponentielle de croissance, mais seulement une petite partie des gènes sont significativement plus exprimés en phase exponentielle (Tao et al. 1999). Cet ensemble de gènes, liés surtout réduit pour expliquer l'importance du biais (chez les spirochètes, à la traduction, est trop par exemple, tous les gènes sont biaisés). De plus ces gènes fortement exprimés sont généralement agrégés autour de l’origine de réplication, or cette localisation n'est pas privilégiée en termes de biais de réplication. 1 Le Codon Adaptation Index est une mesure de la proximité de l'usage des codons d'un gène par rapport à un usage maximal. L'usage maximal est considéré par rapport à un ensemble de gènes fortement exprimés dans la phase exponentielle (Sharp & Bulmer 1988). 56 Les indices de l'adaptation des codons des gènes à la concentration de ARNt, comme le CAI, n'ont pas de sens dans les génomes aussi fortement biaisés que Borrelia burgdorferi, puisque le biais perturbe le choix des meilleurs codons dans chaque brin. Ainsi, si l'on calcule le CAI à partir des gènes de protéines ribosomiques (typiquement présents sur le brin précoce), le CAI ne mesure que les codons préférés sur le brin précoce. A ce stade, le raisonnement est circulaire, puisque les gènes avec le meilleur index seront nécessairement ceux du brin précoce. Ainsi, de notre point de vue, l'interpretation de Francino et coll. basée sur la réparation après transcription n’explique pas de façon satisfaisante l’origine des biais de brin. Fijalkowska et coll. proposent que les biais réplicatifs soient dus aux différentes processivités de la polymérase (Fijalkowska et al. 1998). sont strictement symétriques, la En effet, même si les polymérases tendance à rester accrochée doit être assez différente pour les polymérases agissant sur les deux brins réplicatifs. La polymérase sur le brin précoce est toujours attachée à l’ADN, alors que polymérase sur le brin tardif a besoin de se détacher constamment (Yuzhakov et al. 1996). Chez Escherichia coli l’attachement polymérase sur le brin précoce est 1000 fois plus importante de la (Marians 1992). La polymérase sur le brin tardif, puisque moins solidement attachée à l’ADN, est plus facilement dissociable au moment de la détection d’erreurs, laissant un mésappariement libre pour correction. En conséquence le brin tardif subirait un nombre moins important de mutations pendant la réplication. Dans le même ordre d'idées, puisque les trous dans l’ADN sont nécessaires pour le système de réparation de mésappariements, Radman propose que la correction soit plus efficace sur le brin tardif (Radman 1998). Il suggère en revanche que la polymérase du brin tardif soit plus rapide, pour compenser les délais dus au détachement et au rattachement et en conséquence qu'elle commettra plus d’erreurs (Radman 1998). Puisqu’il n’y a pas de raison pour penser que ces deux sources d’erreurs se compensent strictement, l’asymétrie s’installerait parmi les brins réplicatifs. Les travaux précédents portent sur les mécanismes biochimiques qui peuvent être à l’origine de l’asymétrie, mais pas sur les biais eux-mêmes. La théorie la plus acceptée pour expliquer les biais est l’hypothèse de désamination de la cytosine (Frank & Lobry 1999). L’asymétrie produite par la fourche de réplication implique que les brins passent des temps différents dans l’état simple brin. L’ADN simple brin est plus vulnérable aux mutations chimiques que l’ADN double brin (Drake et al. 1998). Les bases sont susceptibles de désamination hydrolytique et la principale cible 5-méthyl-cytosine est la cytosine et surtout son homologue la (Lindahl 1993). La désamination de la cytosine conduit à son remplacement par l’uracile qui s'apparie avec l’adénine, créant ainsi une mutation C→T. Expérimentalement, la cytosine se désamine 140 fois plus vite dans un brin simple que dans un double brin ce qui expliquerait que G.C→A.T domine le spectre de mutations chez Escherichia coli (Echols & Goodman 1991). La désamination C→T dans la matrice du brin tardif augmente les fréquences relatives de G et de T dans le brin précoce et de A et de C 57 dans le brin tardif. La théorie de désamination asymétrique est donc compatible avec les biais observés. Le problème de cette hypothèse est qu’elle indique que le biais entre G et C devrait être quantitativement similaire au biais entre A et T, ce qui n’est pas le cas. Ainsi, même si l’hypothèse de désamination semble assez solide, elle n’est pas tout à fait satisfaisante, et d’autres études seront nécessaires pour dévoiler l’origine du phénomène. En attendant, force est de constater que ces études auront un impact non négligeable sur notre vision de l’organisation du génome. Par exemple, l’utilisation de matrices de substitution symétriques du genre PAM (Dayhoff et al. 1978), est susceptible d’introduire des erreurs dans les analyses phylogénétiques si les gènes sont portés par des brins réplicatifs différents ou s’ils proviennent d'organismes présentant des amplitudes très différentes de biais réplicatifs. Dans un autre ordre d'idée, ces résultats sont aussi importants pour l’utilisation de logiciels de détection de gènes tels que GeneMark (Borodovsky et al. 1994) ou Glimmer (Salzberg et al. 1998a). Ces logiciels supposent souvent un usage du code homogène, alors qu’ils devraient utiliser des matrices de transition adaptées aux différents brins réplicatifs. 58 6. La traduction et ses biais La traduction est le processus qui consomme le plus de ressources chez les bactéries (Andersson & Kurland 1990). C’est aussi l'un des plus délicats, puisqu’il s’agit de réaliser le passage de l’information (ADN transcrit en ARNm) à la fonction (les protéines). Ce n’est certainement pas par hasard que la majorité des gènes les mieux conservés dans l’arbre du vivant sont liés à la traduction (e.g. les protéines ribosomiques et les facteurs d'allongement). Plusieurs objectifs étaient à l’origine de notre intérêt pour la traduction et ses biais. Premièrement, nous voulions avoir une image la plus complète possible de ces biais. Les nombreuses études d’analyse de séquences publiées sur la traduction sont restreintes dans leur approche. À notre connaissance aucun de ces travaux ne porte en même temps sur les trois niveaux fondamentaux : démarrage, allongement et terminaison. Ces études se focalisent soit sur la présence de signaux (e.g. RBS, codons start et stop), soit sur les biais de distribution (e.g. le biais d’usage du code), soit sur les structures secondaires de l'ARN messager. Notre but était donc d'étudier tous ces éléments en même temps pour parvenir à une image plus intégrée du phénomène. 6.1 Le démarrage de la traduction Chez les bactéries, la traduction débute par l’association de l'ARNm à la sous-unité 16S des ribosomes au niveau du ribosome binding site (RBS) et du codon initial. Le complexe ainsi formé inclut aussi les facteurs de démarrage et le fMet-ARNtf (McCarthy & Gualerzi 1990) (Figure 6.1). L’extrémité 3’ du 16S ARNr joue un rôle extrêmement important dans le début de la synthèse des protéines, via son appariement au RBS du messager (Barrick et al. 1994). L'emprisonnement du RBS dans une structure secondaire d’ARNm, provoque une nette diminution, voire l’arrêt, de la traduction (Ganoza et al. 1987) (de Smit & Duin 1994) (de Smit 1998). 59 La conservation importante des structures des ribosomes, des séquences des protéines ribosomiques et des facteurs de démarrage, fait penser à un processus similaire de démarrage chez Escherichia coli et Bacillus subtilis (Vellanoweth Néanmoins, chez Escherichia 1993). coli, la protéine S1 aide à la liaison de l'ARNm et de la sous-unité 16S, alors qu'elle est absente chez Bacillus subtilis. En conséquence les gènes de Bacillus subtilis ont des RBS plus conservés en séquence (Vellanoweth & Rabinowitz 1992) (Vellanoweth 1993). La conservation du consensus du RBS a ainsi une importance différentes bactéries. variable chez les La force de l’interaction entre le RBS et le ribosome dépend de la complémentarité entre le RBS et l'anti-RBS dans la sous-unité 16S (Tableau 6.1), ainsi que de sa distance au codon initial. Le respect du consensus en ce qui concerne Figure 6.1 - Schéma du démarrage de la traduction chez les eubactéries (d'après (Lewin 1996)). les guanines du RBS est particulièrement important puisqu’elles établissent les plus fortes liaisons avec l'anti-RBS (Schneider et al. 1986). La distance au codon initial est normalement d’environ 6 à 10 nucléotides chez Escherichia coli (Stormo et al. 1982) ainsi que chez Bacillus subtilis (Rocha et al. 1999c). D'autres signaux ont été proposés pour aider au démarrage de la traduction dans plusieurs bactéries ou phages (Sprengart et al. 1990) (Lindahl & Hinnebusch 1992) (Sprengart & Porter 1997) (McCarthy & Gualerzi 1990). La plupart de ces signaux sont spécifiques à certains systèmes et les autres sont d’importance douteuse. Nous reviendrons sur ce sujet plus loin. À la suite de l’attachement au RBS, un premier réarrangement place correctement l'ARNt de démarrage par rapport au codon initial (Figure 6.1). AUG est le codon préféré chez la plupart des eubactéries, mais UUG et GUG sont également présents (Rocha et al. 1999c), d'autres codons tels que CUG et AUU sont également permis, mais restent très rares. Le positionnement de l'ARNtf par rapport au codon initial est suivi par la fixation de la sous-unité 50S et la formation du complexe de démarrage 70S. L'allongement débute l’insertion de l'ARNt qui va décoder le deuxième codon. 60 après Tableau 6.1 - Extrémité 3’ de la sous-unité 16S chez plusieurs procaryotes. Organisme Bacillus subtilis Mycoplasma pneumoniae Mycobacterium bovis Aquifex aeolicus Synechocystis spp Escherichia coli Haemophilus influenzae Helicobacter pylori Archaeoglobus fulgidus Methanobacterium thermoautotrophicum Pyrococcus horikoshii Methanococcus jannaschi Mycoplasma genitalium Extrémité 3’ 5'...CUGGAUCACCUCCUUUCUA...3' 5'...GUGGAUCACCUCCUUUCUA...3' 5'...CUGGAUCACCUCCUUUCU...3' 5'...CUGGAUCACCUCCUUUA...3' 5'...CUGGAUCACCUCCUUU...3' 5'...UUGGAUCACCUCCUUA...3' 5'...UUGGAUCACCUCCUUA...3' 5'...UUGGAUCACCUCCU...3' 5'...CUGGAUCACCUCCU...3' 5'...CUGGAUCACCUCCU...3' 5'...CUCGAUCACCUCCU...3' 5'...CUGGAUCACCUCC...3' 5'...GUGGAUCACCUC...3' Dans notre travail, nous avons traité exclusivement la traduction des unités monocistroniques. Cela constitue une simplification considérable du problème. Le couplage de la traduction parmi les gènes consécutifs d’un même ARNm permet parfois le démarrage sans détachement du ribosome (Plat 1998). De plus, cela implique de négliger la régulation de la traduction par la stabilité du transcrit (Higgins et al. 1992) (Carpousis et al. 1999). L’incapacité actuelle à identifier les opérons, à cause de la difficulté d’identification des promoteurs, a rendu impossible l’analyse de la composante policistronique dans la traduction. Figure 6.2 - Schéma de l'allongement. Deux modèles pour la translocation. Dans le premier pas, la liaison peptidique est formée quand l'extrémité amynoacyl de l'ARNt du site A parvient au site P. Ceci arrive soit parce que l'ARNt bouge (modèle en haut), soit parce que la sous-unité 50S bouge (modèle en bas). Dans la dernière étape, l'anti-codon et l'ARNt sont placés au site P. L'ARNt et l'ARNm bouge à travers le ribosome dans la même direction (à droite) (d'après (Lewin 1996)). 6.2 L'allongement Après la formation du complexe ribosomique, le terrain est prêt pour la longue succession de cycles de traduction (Figure 6.2). Dans chaque cycle, l'aminoacyl-ARNt correct entre dans le site A du ribosome, dont le site P est déjà occupé par un peptidylARNt. Le cycle d’addition des aminoacides à la chaîne peptidique est complété par la translocation du ribosome le long de l'ARNm (Figure 6.2). La translocation provoque le 61 déchargement de l'ARNt du site P et un nouvel aminoacyl-ARNt peut entrer. Dans les bactéries, l'ARNt déchargé passe par une position intermédiaire (E) avant d’être complètement libéré (pour des revues sur l'ensemble du processus voir (Nierhaus 1993) (Lewin 1995)). La recherche de l'ARNt correct pour le codon est l'étape limitant de la réaction d'allongement (Varenne et al. 1984). Précédemment, il avait été observé que l’usage de codons synonymes n’est pas homogène dans l'ensemble des gènes (Grantham et al. 1980). Ikemura a montré la corrélation de cet effet avec l'expressivité des gènes (Ikemura 1981). On a donc proposé que les gènes les plus fortement exprimés auraient besoin d’adapter leur usage des codons pour qu'ils correspondent aux ARNt les plus abondants dans la cellule (Gouy & Gautier 1982) (Sharp & Li 1986) (Sharp & Matassi 1994). Kurland a raffiné cette idée en introduisant la nuance que les gènes les plus fortement biaisés correspondent aux gènes fortement exprimés en phase exponentielle de croissance (Andersson & Kurland 1990) (Berg & Kurland 1997). En réalité, l’usage des codons est lié à de nombreux facteurs. Il dépend du contenu G+C du génome (Muto & Osawa 1987). Ensuite, il dépend essentiellement de l’abondance relative des ARNt isoaccepteurs dans les cellules (Ikemura 1981) (Dong et al. 1996) et de la stabilité de l’interaction entre le codon et l’anticodon (Grosjean et al. 1978) (Berg & Kurland 1997). La modélisation du choix des codons, faisant intervenir les constantes d’association des ARNt et leurs concentrations, permet d'expliquer la relation entre l’usage optimal de codons et l’expressivité en croissance exponentielle (Dong et al. 1996) (Berg & Kurland 1997). Les gènes faiblement exprimés subissent une pression sélective insuffisante pour s'adapter à une composition optimale de codons (Sharp & Li 1986). En conséquence l’utilisation des codons dans ces gènes reflète essentiellement le contenu G+C du génome, additionné à d’autres causes comme le biais en dinucléotides ou l’évitement de palindromes (Karlin et al. 1998). D'autres études montrent une corrélation forte entre l'usage simultané de certains codons (Gutman & Hatfield 1989) (Berg & Silva 1997), entre l'usage du code et la structure secondaire des protéines (Thanaraj & Argos 1996) et, finalement, un usage différent du code au début et à la fin des gènes (Bulmer 1988) (Eyre-Walker 1996) (Rocha et al. 1999c). Si le démarrage soulève le problème de la reconnaissance correcte du début du gène, l'allongement soulève le problème de la précision de la traduction. Les taux d’incorporation incorrecte de codons sont d’environ 5*10-5 à 5*10-3 aa-1 (Kurland et al. 1996). Si l'on considère un taux moyen (4*10-4 aa-1) et une taille moyenne de protéine (300 aa), la traduction ne produit donc que 88% de copies sans erreur. Une bonne partie de ces erreurs aura sans doute des conséquences négligeables (Rennell et al. 1991), mais l’importance énergétique du processus de traduction dans la cellule oblige à optimiser la précision de la traduction des gènes les plus fortement exprimés (Bulmer 1991a) (Akashi & Eyre-Walker 1998). 62 6.3 La terminaison de la traduction Pendant longtemps, les études sur la traduction ont négligé l'étape de terminaison. Cependant, la terminaison de la traduction est extrêmement importante. La suppression du codon stop, ou la terminaison prématurée, conduit à des protéines non-fonctionnelles ce qui conduit à un gâchis considérable. Lorsque ceci a lieu à la fin du processus ce gâchis est alors maximal. La terminaison de la synthèse protéique prend place dans le site de décodage (site A), en réponse à un codon stop. La terminaison utilise deux types différents de facteurs : le facteur RF1 est spécifique des codons UAA et UAG alors que le facteur RF2 est spécifique de UAA et UGA. Les RF1 et RF2 sont des protéines avec des domaines de reconnaissance des codons stop. Il semblerait qu'une région de ces deux protéines soit similaire au domaine IV facteur d'élongation G (EF-G). Ceci constituerait du un domaine mimétique de l'ARNt, nécessaire à la fixation au site A du ribosome (Ito et al. 1996). Cependant la région exacte qui mime l’anticodon n’est pas encore connue (Nakamura et al. 1996). L’efficacité de la terminaison n’est pas totale ainsi que l'ont révélé de nombreuses études in vivo et in vitro (Tate & Mannering 1996). L'efficacité de la terminaison résulte de la compétition entre deux événements : la lecture (erronée) du codon stop comme un codon quelconque par un ARNt, et le décodage correct du stop par les RF. On ignore quels sont exactement les facteurs importants dans cet équilibre, mais in vivo l’efficacité de la terminaison peut varier de plusieurs ordres de grandeur (Tate & Mannering 1996). Un troisième facteur de terminaison (RF3) stimule les activités des deux autres facteurs, sans changer leur efficacité relative (Nakamura et al. 1996). (Pavlov et al. 1998). Contrairement aux deux autres facteurs, RF3 n'est pas indispensable, mais son absence retarde considérablement la croissance (Nakamura et al. 1996). L'efficacité de la terminaison dépend en partie du contexte du codon stop. Il a été démontré que, chez Escherichia coli, la première base après le codon stop a une grande influence, avec une nette préférence pour un U à cette position (Brown et al. 1990). Les biais de compositions peuvent se prolonger après cette position (Poole et al. 1998), et dépendent fortement du codon stop (Rocha et al. 1999c). Les derniers aminoacides de la protéine jouent également un rôle important dans la modulation de l'efficacité de la terminaison (Björnsson et al. 1996). Ainsi, pour le dernier aminoacide, les propriétés fondamentales semblent être la charge et l’hydrophobicité, alors que pour l’avant dernier, les contraintes sont liées à la taille du résidu (Björnsson et al. 1996). Il a été démontré expérimentalement que ces effets sont quantitativement similaires chez Escherichia coli et Bacillus subtilis (Mottagui-Tabar & Isaksson 1998). 63 Publication V Rocha, E. P. C., Danchin, A., Viari, A. (1999) Translation in Bacillus subtilis: roles and trends of initiation and termination, insights from a genome analysis. Nucl. Acids Res. 27: 3567-3576 6.4 Le mystère du codon de démarrage AUG est le codon de démarrage préféré chez toutes les eubactéries. L’ordre relatif des fréquences du codon de démarrage est AUG>UUG>GUG chez Bacillus subtilis, et AUG>GUG>UUG chez Escherichia coli. Cet ordre correspond au degré d'expressivité des gènes avec ces codons start observé dans les organismes respectifs (Vellanoweth 1993). La fréquence relative des codons de démarrage n’est pas corrélée avec le contenu G+C des génomes. Tous ces résultats indiquent que AUG serait sélectionné positivement. Néanmoins, les gènes fortement exprimés en phase exponentielle ne semblent pas préférer de façon significative le codon AUG par rapport aux autres gènes. De plus, dans l'ensemble des gènes homologues nous n'avons pas trouvé de conservation du codon start, ni même parmi les gènes homologues fortement exprimés. Or, on s'attendrait à un certain degré de conservation si l'AUG était sélectionné positivement. Il y a donc une contradiction, pour laquelle nous n’avons pas, actuellement, d’explication satisfaisante. 6.5 Un bon contexte pour un bon démarrage Un RBS proche du consensus est important pour assurer un démarrage efficace de la traduction chez Bacillus subtilis. Ceci est en accord avec les données expérimentales et l’absence de la protéine S1 chez cet organisme (Vellanoweth 1993). Puisque nous n'avons pas trouvé de traces de la "Downstream Box" (cf. paragraphe 6.9), les signaux d’importance générale pour la traduction chez Bacillus subtilis semblent limités au RBS et aux codons de démarrage et de terminaison La tendance prédominante du biais au voisinage du codon start est l’abondance de A entre les positions -30 et +30, qui déstabiliserait une potentielle structure secondaire du messager. Cette abondance d'adenine se reflète également dans la surabondance des codons riches en A. Il a été proposé que cet usage biaisé des codons pourrait être utilisé pour réguler négativement la traduction, en ralentissant le démarrage (Bulmer 1988) (Eyre-Walker & Bulmer 1993). Cette hypothèse a été écartée pour des raisons à la fois théoriques et expérimentales (Andersson & Kurland 1990) (Akashi & Eyre-Walker 1998). Il semblerait donc que le biais portant sur les nucléotides soit actuellement mieux expliqué par l’évitement de structures secondaires stables dans l'ARNm (Dreyfus 1988) (Andersson & Kurland 1990) (de Smit & Duin 1994) (Rocha et al. 1999c). 64 6.6 La structuration du messager et la traduction La propension à établir des structures secondaires stables dans l'ARNm est faible au voisinage du codon de démarrage, surtout dans les gènes fortement exprimés et A+T riches. De Smit et van Duin ont démontré que l’efficacité de la traduction dépend de l’équilibre entre l’interaction RBS-anti-RBS et la structure du messager (de Smit & Duin 1994). Néanmoins, l'énergie des structures du messager atteint ses valeurs maximales à l’endroit du codon de démarrage et non du RBS, contrairement à ce que prévoyait ce modèle. Ce résultat suggère que l’interaction ARNtf-codon de démarrage est importante pour l’interaction du messager avec le ribosome. Ceci est compatible avec les données expérimentales qui montrent que chez Escherichia coli et Bacillus subtilis un bon RBS diminue considérablement les différences d’expressivité liées aux différents codons de démarrage (Vellanoweth & Rabinowitz 1992). Réciproquement, les transcrits qui débutent au codon de démarrage peuvent s’attacher correctement au ribosome en présence d’un "bon" (AUG) (Martin-Farmer & Janssen 1999). codon start Cette observation renforce l'idée que l'interaction entre le codon start et le ARNtf doit jouer un rôle dans les interactions qui déclenchent le démarrage de la traduction. L’adénine est la base qui s’apparie moins favorablement dans les biais en termes de nucléotides (avant et après le structures d’ARN. Le codon de démarrage) et de codons (après le démarrage) peut donc s’expliquer de ce point de vue. Les biais en nucléotides et l'instabilité des structure secondaire coïncident parfaitement dans la séquence et correspondent aux limites de la zone d'interaction entre le ribosome et l'ARNm au moment du démarrage (Hütenhofer & Noller 1994). Des biais similaires en termes de nucléotides, codons et structure du messager sont trouvés du côté du codon de terminaison. Il a été proposé que ces biais soient dus au chevauchement ou à la proximité d'autres gènes (Eyre-Walker 1996). Néanmoins nous avons trouvé des biais similaires à la fin de gènes distants du gène suivant. Ces résultats suggèrent plutôt un évitement des structures secondaires stables au niveau de la terminaison, similaire à ce qui se passe au niveau du démarrage. En effet, le codon stop préféré dans les gènes fortement exprimés (UAA) est typiquement entouré de structures secondaires moins stables. 6.7 Les contextes de la terminaison La fréquence d’utilisation des différents codons stop change suivant l’organisme (Sharp & Bulmer 1988) (Brown et al. 1990) (Rocha et al. 1999c). Le grand nombre de facteurs qui influencent l’efficacité de la terminaison rend difficile exactes de cette variation. Un facteur l’identification des causes certainement important est la concentration relative des deux RF. Chez Escherichia coli, le nombre de RF1 est 5 fois moins important que celui de RF2, indépendamment de l’état de croissance de la bactérie (Adamski et al. 1994). Cette relation peut expliquer les fréquences relatives de UAG (8%) et UGA (29%) chez cet 65 organisme (Rocha et al. 1999c). Cependant, l’usage du codon stop dépend également du contenu G+C du génome en ce qui concerne UAA et UGA. Ainsi, UAA est plus abondant dans les génomes G+C pauvres et UAG plus abondant dans les G+C riches. En revanche, l’abondance de AUG est à peu près indépendante du contenu G+C du génome. Enfin, on observe que les gènes fortement exprimés en phase de croissance exponentielle montrent une nette préférence pour UAA (Sharp & Bulmer 1988) (Rocha et al. 1999c). Nous avons étendu les analyses précédentes sur le contexte de la terminaison (Brown et al. 1990) de façon à tenter de discriminer les biais de nucléotides partir de l’analyse d’un petit ensemble de gènes, il a été rapporté entre les codons stop. A que l’adénine après le stop serait sous-représentée et susceptible de favoriser la suppression (Stormo et al. 1986). Mais l’analyse de tous les gènes de Bacillus subtilis révèle au contraire que cette position est riche en adénine (40 % de A). Nous observons néanmoins que les gènes fortement exprimés utilisent presque systématiquement U à cette position. On peut supposer que U favorise une lecture plus correcte du codon stop (ce qui est expérimentalement observé pour Escherichia coli (Adamski et al. 1994) (Poole et al. 1995)). De fait, les biais au-delà des trois lettres du codon stop sont tellement importants qu'il a été suggéré que le codon stop présenterait plus de trois lettres. En effet, il n’y a pas de raison de penser que le codon stop doive avoir exactement trois nucléotides, puisqu’il s’agit d’une interaction protéine : ARNm et que la phase ouverte de lecture se termine au stop. Nos résultats indiquent que les positions +1 a +4 sont importantes pour une bonne lecture du stop, en accord avec les observations précédentes (Brown et al. 1990). La distribution des nucléotides en ces positions dépend fortement de la nature du codon stop. 6.8 Symétries inattendues Neuf aminoacides présentent des biais significatifs au début des protéines (sans peptide signal). Les quatre aminoacides sur-représentés sont hydrophiles (Lys, Asn, Gln, Ser) alors que les cinq aminoacides sous-représentés sont hydrophobes (Ala, Gly, Leu, Pro, Val). L’analyse comparative des ensembles de protéines de la membrane ou des protéines exportées avec les protéines restantes révèle que ces biais ne sont pas liés aux peptides signaux. Ces biais sont a peu près similaires chez Escherichia coli et Bacillus subtilis, ils s’étendent jusqu’à la position +10, mais ils sont plus forts à la position +2. La distribution biaisée d’aminoacides en amont de la terminaison est restreinte surtout aux deux dernières positions. Des travaux expérimentaux sur l’influence des derniers aminoacides dans l’efficacité de terminaison chez Bacillus subtilis et Escherichia coli, indiquent que la lysine favorise la terminaison alors que la proline et la thréonine favorisent la suppression (Mottagui-Tabar & Isaksson 1998). Nos résultats suggèrent que d’autres aminoacides puissent être ajoutés à cette liste. Le biais dépend des RF, puisque la sérine est beaucoup plus sur-représentée dans les gènes qui se terminent par UGA, alors que la lysine est préférée dans les gènes qui se terminent par UAG. De fait, 66 si les biais sur les aminoacides sont dûs à l’interaction entre le peptide et le ribosome (Björnsson et al. 1996), il est normal que cette interaction dépende des (et discrimine les) RF. Des différences d’efficacité de terminaison de plus d’un facteur 30 ont été mises en évidence en changeant l’avant dernier aminoacide. De plus, ces différences sont effectivement RF dépendantes (Mottagui-Tabar et al. 1994). Nos résultats indiquent de plus la présence de biais symétrique par rapport aux deux extrémités des protéines : les aminoacides biaisés sont les mêmes aux deux extrémités, notamment la sur-représentation des résidus hydrophiles et la sous-représentation des résidus hydrophobes. La richesse en adénine aux extrémités des gènes explique partiellement ces résultats, puisqu’un A en position 2 du codon implique le codage d’un aminoacide hydrophile. Cependant, ceci n’est pas suffisant pour expliquer tous les biais, puisque des aminoacides dont les codons ne sont pas spécialement A riches (e.g. Arg, Ser), sont également sur-représentés. 6.9 Le problème de la "downstream box" Il a été proposé qu’un élément situé après le codon start, la downstream box (DB), soit capable d’augmenter la traduction par appariement avec le ribosome (Sprengart et al. 1996). Ce serait rendu possible par la complémentarité des séquences de l'ARNm avec les bases 1469 à 1483 de la sous-unité 16S du ribosome, de la même façon que ce qui se passe pour le RBS (Sprengart et al. 1990). Plusieurs travaux ont été publiés montrant une corrélation entre la présence de cette séquence et l’expressivité du gène (Shean & Gottesman 1992) (Ito et al. 1993) (Sprengart et al. 1996) (Mitta et al. 1997) (Etchegaray & Inouye 1999b). Malgré de nombreux efforts, aucune évidence biochimique de cette interaction n’a cependant jamais été donnée (Bläsi et al. 1999). Cela a conduit plusieurs chercheurs à s'interroger sur la réalité de cette interaction (Resch et al. 1996) (Tedin et al. 1999) (Bläsi et al. 1999) (O'Connor et al. 1999). Les arguments contre l'existence de la DB peuvent se résumer en 6 points. (1) Il est difficile de concilier l’existence de l’interaction DB/anti-DB avec la structure du ribosome au moment du démarrage ; (2) L’interaction n’a jamais pu être repérée par footprinting ou cross-linking ; (3) Les études de protection chimique n’ont pas révélé de protection de la DB putative ; (4) La présence de la DB ne paraît pas augmenter l’affinité du ribosome pour l'ARNm ; (5) La séquence d'ARNr en question est très bien conservée pour des raisons structurales, et non de séquence primaire ; (6) Des mutations dans l’anti-DB n’ont pas produit de variations dans les niveaux d’expression des gènes avec la DB putative. Trois arguments ont ensuite été opposés (Etchegaray & Inouye 1999a). Premièrement il a été observé que l'écart au consensus de la DB provoquait vraiment une nette diminution de l'expressivité. Deuxièmement, les délétions de DB dans les études présentées plus en haut ont créé en réalité d'autres DBs dans la même région. Enfin, les consensus des DB sont suffisamment forts pour suggérer à l'existence d'un signal ARN-ARN. 67 A la suite de notre étude sur Bacillus subtilis (première publication de ce chapitre) dans laquelle nous n'avions pas pu isoler de DB chez cet organisme, nous avons essayé de démontrer que les deux derniers points ne pouvait pas être utilisés en faveur de l'hypothèse de l'existence de la DB. Ainsi, nous avons mis au point une méthode qui démontre que les DBs identifiées ne sont pas statistiquement significatives. En effet, si l'on considère la composition en nucléotides de la région située après le codon start de ces gènes, les éléments trouvés sont ceux que l'on attend par le hasard. En particulier, la recherche d'un consensus de 15 pb avec 7 mésappariements montre qu'il existe environ toutes les 10 bases dans le génome de Escherichia coli. Ainsi, le deuxième argument (à savoir, que les délétions présentées en (Resch et al. 1996) (Tedin et al. 1999) (Bläsi et al. 1999) (O'Connor et al. 1999) ont toutes créées de nouvelles DB), est vide de sens, puisqu'on trouvera toujours des DB semblables à celles qui ont été deletées. Enfin, l'absence de signal statistiquement significatif indique probablement l'absence de signal biologique. Puisque les travaux expérimentaux indiquent absence d’interaction DB-anti-DB et que notre travail démontre que les DBs ne sont pas statistiquement significatives, il sera plus intéressant de chercher ailleurs les effets des mutations induites après le codon de démarrage. Publication VI Rocha, EPC, Danchin A, Viari A (2000) The DB case: pattern matching evidences are not significant, Mol. Microbiol. sous presse. 68 L'évolution des chromosomes 69 7. Le rôle évolutif des répétitions dans les génomes bactériens 7.1 Le concept de génome minimal La quête du "génome minimal" constitue pour beaucoup un des saint Graal de la biologie moléculaire. Cependant l'information minimale requise pour le fonctionnement d’un organisme est une notion très contingente. Premièrement elle est relative à ce que nous entendons par organisme. L’organisme minimal dont on parle est un organisme autonome avec son métabolisme propre. En conséquence, les plasmides conjugatifs et les virus sont automatiquement exclus de cette définition. Qu’est ce donc qu’un organisme minimal, fonctionnel et autonome ? On suppose qu’il doit : i) fonctionner (métabolisme), ii) être capable de se répliquer (reproduction), et iii) coder l’information génétique sur un support digital, tout cela de façon autonome. On écarte donc tous les organismes parasitaires obligatoires. En revanche, les bactéries de plus petite taille physique et génomique, les Mycoplasmes, obéissent à toutes ces conditions. En effet, même si les Mycoplasmes ont du mal à pousser hors de leurs hôtes, ceci est néanmoins possible dans certaines conditions (Dybvig & Voelker 1996). Les Mycoplasmes sont divisés en plusieurs groupes taxonomiques et, dans la plupart de ces groupes, on observe une tendance vers la réduction de la taille des génomes. Bien que ceux-ci ne soient jamais inférieurs a 500 kb, dans la plupart des groupes se trouvent des espèces dont les génomes dépassent à peine les 600 kb (Razin et al. 1998). Naturellement les Mycoplasmes ont été considérés comme les candidats idéaux pour rechercher un hypothétique génome minimal, dont la taille serait donc inférieure à 600 kb (Fraser et al. 1995). Plusieurs études ont ainsi été consacrées aux Mycoplasmes et, en particulier, à Mycoplasma genitalium, le plus petit de tous et le premier à avoir été publié. Ces études, 70 sont basées sur l'analyse des gènes qui présentent des homologues dans la plupart des bactéries avec l'idée que les gènes essentiels ne peuvent pas impunément disparaître du génome. Ces études concluent généralement à des tailles d’environ 250 gènes pour le génome minimal (Mushegian & Koonin 1996) (Mushegian 1999). fonctionnelle Cependant la substitution par des gènes qui ne sont pas des homologues peut compliquer ce raisonnement (Forterre 1999), et 250 serait donc une sous-estimation du nombre réel. A partir du comptage du nombre de loci nécessaires à la survie de la bactérie après mutagenèse aléatoire, Itaya est arrivé à une estimation de la taille minimale située entre 318 kb et 562 kb, i.e. entre 300 et 600 gènes (Itaya 1995). Ce chiffre est en accord avec les valeurs effectivement observées dans les Mycoplasmes et a l’avantage d’être plus réaliste du point de vue biologique. Si l’évolution procède par bricolage d’éléments pris parmi ceux qui existent déjà (Jacob 1977), qu’est ce que l’optimalité ? Le bricolage place l’évolution très loin d’optimisation familier aux ingénieurs et ne peut que du concept très difficilement aboutir à un génome véritablement minimal (Maniloff 1996). Par ailleurs, le concept de génome minimal contingent aux caractéristiques de l’environnement et de la niche écologique Puisque par définition le génome minimal n’a d'autres avantages est très de l’organisme. compétitifs que celui d’être minimal, il sera nécessairement très peu adapté. Cette absence de viabilité écologique met clairement en question l'intérêt biologique de la démarche. La question du génome minimal a souvent conduit à affirmer que les génomes bactériens devraient éviter fortement les séquences répétées. C'est cette perspective sur la question qui a attiré notre intérêt sur l'étude des répétitions dans les génomes bactériens. Notre conclusion est que, même si l’ADN est plus “cher” pour les bactéries que pour les eucaryotes, cela n’implique pas nécessairement l'absence de répétitions. De plus, dans certains contextes les répétitions peuvent même être très fortement sélectionnées. Ironiquement c'est dans les Mycoplasmes que nous trouvons les plus grandes densités de répétitions. 7.2 Les remaniements chromosomiques et les répétitions Certains éléments répétés dans les génomes bactériens sont connus depuis longtemps. Les opérons ribosomiques sont souvent présents chez les bactéries en copies multiples (7 copies chez Escherichia coli et 10 copies chez Bacillus subtilis) (Schmidt 1998). Ces éléments sont nécessaires à la survie de la cellule, même si certains travaux indiquent que la réduction du nombre de copies n’implique pas la perte de viabilité (Condon et al. 1993). Les opérons des ARNr ont environ 5 kb de long et constituent une cible préférentielle pour la recombinaison intra-chromosomique. Ainsi plusieurs réarrangements chez Escherichia coli et Bacillus subtilis ont lieu par recombinaison entre ces éléments (Hill & Harnish 1981) (Gürtler 1999). Les ARNt sont aussi fréquemment la cible de processus de recombinaison, 71 soit intra-chromosomique soit avec des éléments extérieurs, facilitant ainsi le transfert génétique horizontal (Hou 1999). Parfois les remaniements chromosomiques sont programmés par rapport à un état physiologique de l’organisme. Chez Bacillus subtilis les répétitions qui flanquent l’élément skin sont cruciales lors de la sporulation. En effet, la recombinaison entre les deux répétitions provoque la délétion de l’élément skin au moment de la division asymétrique de la cellule mère (Stragier et al. 1989). Cette délétion provoque la restauration du gène qui déclenche l’étape finale de la sporulation. Des répétitions liées à des structures secondaires d'ARN intergéniques ont été trouvées chez plusieurs eubactéries. La plupart d’entre elles ont une fonction inconnue, même si leur conservation en séquence suggère une forte pression fonctionnelle (Blaisdell et al. 1993) (Bachellier et al. 1996). Plusieurs de ces éléments sont groupés en familles apparentées par la séquence ou par la structure secondaire, comme les BIMES (Bachellier et al. 1994), les IRU (Sharples & Lloyd 1990), les ERIC (Versalovic & Lupski 1998), etc. La similarité entre les diverses copies de ces éléments fournit également une cible pour la recombinaison homologue (Lloyd & Low 1996). En conséquence, ces éléments sont souvent responsables de remaniements chromosomiques, de délétions ou de multiplications de régions du génome (Roth et al. 1996) (Bachellier et al. 1997) (Tomano 1999). De plus, les régions à forte structure secondaire sont souvent instables et sujettes à des délétions fréquentes (Sharp & Leach 1996). Par exemple, la présence de palindromes de taille supérieure à 150-200 pb entraîne la non-viabilité de Escherichia coli (Leach 1994). Les éléments transposables constituent un type fortement répandu d'éléments répétés dans les génomes (Mahillon & Chandler 1998). De fait ces éléments sont très fréquemment présents dans régions transférées horizontalement comme les îlots de virulence ou près de gènes de résistance aux antibiotiques (Groisman & Ochman 1997) (Mazel et al. 1998) (Syvanen 1998). Cependant, il est difficile de justifier la sélection positive de ces éléments par leur utilité (Doolittle & Sapienza 1980). Les séquences d’insertion par leur existence en copies multiples et par leur caractère multiplicatif induisent fréquemment des délétions et des interruptions de gènes (Deonier inversions, des 1996). La plupart de ces changements sont nécessairement délétères dans une population bien adaptée (Orr 1998). En conséquence, ces éléments sont souvent considérés comme des éléments égoïstes ou parasitaires qui se reproduisent dans le génome (Dawkins 1976) (Doolittle & Sapienza 1980) (Orgel & Crick 1980) et sont parfois fixés dans la population par d'éventuelles mutations bénéfiques (Syvanen 1994). C'est probablement cette raison qui justifie leur association fréquente aux îlots de virulence. D'autres éléments répétés ont été identifiés dans les génomes : les terminateurs rhoindépendants (Carafa et al. 1990), les signaux uptake chez Haemophilus influenzae et N. gonorrhoeae (Smith et al. 1995) (Kroll et al. 1998) et les recombinational sequences chez plusieurs enterobactéries (Wang et al. 1998) (Hill 1998). 72 hotspot 7.3 La recombinaison homologue Tous les organismes dépendent de la recombinaison pour le maintien de la stabilité de leur génome ainsi que pour la production de la variabilité génétique. a été utilisé pour la première fois par Le terme recombinaison Bateson, en 1905, pour décrire une exception à la loi de ségrégation indépendante des caractères (Depew & Weber 1995). La recombinaison homologue résulte d'une série d’interactions entre deux séquences d’ADN homologues, présentes sur une ou deux molécules d’ADN, et produit une séquence mixte dérivée des séquences parentales (Smith 1988). Les échanges de séquences entre les deux molécules d’ADN parentales n’introduisent presque jamais de gain ou de perte d’information génétique (Matic 1995). Ceci est dû à la précision de l’appariement des deux molécules d’ADN parentales pour former une région hétéroduplex au point d’échange. En réalité la recombinaison est un processus très complexe qui implique plus d’une trentaine de gènes chez Escherichia coli (Lloyd & Low 1996). Nous n'en ferons qu'un bref résumé dans le paragraphe suivant (pour des revues plus complètes voir (Smith 1988) (Dubnau 1993) (Matic 1995) (Lloyd & Low 1996)). Plusieurs modèles ont été proposés pour décrire la recombinaison homologue. Tous ont en commun l’invasion de la terminaison 3’-OH d’une séquence d’ADN simple brin par un deuxième ADN double brin (Smith 1988). L’appariement initial peut se produire à n’importe quelle position de la région homologue. La réaction d’échange entre brins commence quand les deux molécules sont alignées et que l’extrémité de l’ADN est libre. La protéine RecA contrôle la fidélité de la recombinaison seulement au début de la recombinaison. La recombinaison lors de la conjugaison entre S. typhimurium et Escherichia coli est similaire à la recombinaison intraspécifique (Matic et al. 1995). La barrière génétique qui sépare ces deux espèces est principalement une barrière à la recombinaison interspécifique basée sur la divergence entre les deux séquences (et donc l'absence de gènes suffisamment similaires). Le système de réparation des mésappariements est la composante majeure de cette barrière génétique. En effet, l’inactivation du gène mutS ou mutL (codant les protéines qui se lient aux mésappariements) augmente la fréquence de recombinaison interspécifique d'un facteur 1 000 (Rayssiguier et al. 1989). L’étude de l’influence sur la recombinaison de la divergence entre des séquences longues de 400 pb chez Escherichia coli, a démontré que la fréquence de recombinaison est diminuée de 240 fois lorsque la similarité entre les séquences décroît de 10 %, alors que cette fréquence n’est affectée que d’un facteur 9 dans une souche mutS déficient (Shen & Huang 1989). Un concept très important pour ce qui suit est celui du nombre minimal d'appariements exacts pour démarrer la recombinaison par RecA. Ce nombre est d’environ 24 pb chez Bacillus subtilis (Roberts & Cohan 1993) et 20 pb chez Escherichia coli (Watt et al. 1985). Cependant la fréquence de recombinaison croît de exponentielle entre 20 et façon 74 bases et devient linéaire pour des valeurs supérieures (Watt et al. 1985). Ainsi, un nombre réduit de mésappariements entre deux séquences homologues 73 peut avoir des conséquences dramatiques sur la fréquence de la recombinaison. Chez Escherichia coli la divergence entre les séquences provoque l'isolement sexuel en raison de la probabilité de trouver un segment minimal d’homologie stricte et non pas en raison de la faible stabilité de l’héteroduplex (Vulic et al. 1997). 7.4 À la recherche des répétitions Au premier abord le concept de génome minimal, les remaniements chromosomiques et les mécanismes de recombinaison homologue sont des sujets assez différents. Nous les avons introduits ensemble ici pour établir les bases nécessaires à la discussion de l'article suivant. En effet, la recherche de répétitions dans les génomes procaryotes est au carrefour de ces trois problématiques. Le premier objectif de notre travail était d’établir de façon quantitative l’évitement possible des répétitions qui repose sur l'idée que l’ADN “coûte cher” aux bactéries. Une fois les répétitions identifiées il a fallu identifier les contraintes sélectives ou structurelles qui pouvaient expliquer leur présence. Il est intéressant à remarquer que la taille minimale utilisée dans notre recherche des répétitions dans les génomes procaryotes est supérieure à la taille nécessaire pour démarrer la recombinaison. Les méthodes statistiques et algorithmiques utilisées dans ce travail seront détaillées dans le chapitre 11. Publication VII Rocha, E. P. C., Danchin, A., Viari, A. (1999) Analysis of long repeats in bacterial genomes reveals alternative evolutionary mechanisms in Bacillus subtilis and other competent prokaryotes. Mol. Biol. Evol. 16: 1219-1230. 7.5 Conclusion Au moyen de la statistique développée par Karlin et Ost (Karlin & Ost 1985) et d’un algorithme efficace de recherche de répétitions (Karp et al. 1972) (Soldano et al. 1995), nous avons analysé de façon exhaustive les répétitions présentes dans huit génomes bactériens (Rocha et al. 1999a). Après avoir enlevé les copies multiples d'ARNr et d'ARNt, tous les génomes analysés s'avèrent posséder un grand nombre de répétitions, depuis un minimum de 139 chez Mycoplasma genitalium à un maximum de 552 chez Mycoplasma pneumoniae. Néanmoins, quand les différentes tailles des génomes sont prises en compte, nous observons que les plus grands génomes (d'organismes non pathogènes) possèdent petite densité de répétitions (40 /Mb chez Bacillus subtilis et 86 /Mb la plus chez Escherichia coli), alors que les plus petits génomes possèdent les plus grandes densités (676 /Mb chez Mycoplasma pneumoniae et 240 /Mb chez Mycoplasma genitalium). L’abondance relative 74 des répétitions chez les Mycoplasmes est à la base des stratégies de variation antigénique chez ces bactéries. La Figure 7.1 présente une actualisation de ces données par rapport à la publication précédente (voir aussi la Publication 9). Nous avions postulé que les stratégies liées à la virulence devraient induire l’existence d’un grand nombre de répétitions dans ces génomes. (Rocha et al. 1999a). Cependant ceci ne paraît pas être une règle générale, puisque Chlamydia trachomatis (agent de diverses infections humaines) et Rickettsia prowazekii (l’agent du typhus) présentent un nombre très réduit de répétitions. Il convient néanmoins de noter que ces deux organismes sont des parasites intracellulaires obligatoires (Stephens et al. 1998) (Andersson et al. 1998). C. trachomatis possède un plasmide cryptique, qui contient 22 répétitions en tandem et peut être utilisé pour la régulation de la virulence (Thomas et al. 1997). Curieusement, la bactérie apparentée C. pneumoniae présente un nombre beaucoup plus important de répétitions chromosomiques. R. prowazekii est la seule bactérie séquencée qui présente une grande partie de génome non codant (24%). C'est probablement une conséquence de la réduction du génome qui a lieu dans cet organisme (Andersson et al. 1998). Il n’est pas encore clair de savoir si ces observations sont liées ou pas à différentes stratégies évolutives associées à la virulence. Le cas de Borrelia burgdorferi (l’agent de la maladie de Lyme) est particulièrement intéressant, malgré le nombre réduit de répétitions dans le chromosome. Les 600 kb de matériel génétique contenu dans ses plasmides (à comparer aux 912 kb du chromosome) contiennent en fait un grand nombre de répétitions. Ces plasmides possèdent une relativement faible densité de régions codantes (environ 70 %) (Fraser et al. 1997) dont la majorité codent des protéines de surface. Ces copies multiples servent à créer, par recombinaison homologue, de nouvelles versions des protéines afin d'échapper au système immunitaire de l’hôte. L’accumulation de matériel génétique recombinant dans les plasmides permet ainsi l'évitement d’instabilités génétiques dans le chromosome. Cette stabilité peut être importante pour ce chromosome qui, rappelons-le, est linéaire. On observe par ailleurs que le génome de Borrelia burgdorferi est significativement polarisé (65 % des gènes sur le brin précoce), et les gènes des deux brins montrent un usage très contrasté des codons (voir chapitre 5). Toutes ces données indiquent une grande stabilité du chromosome. 75 3,0 log (densité de répétitions) Mypn Bobu+ 2,5 Myge Meth Meja Hain Hepy Thma Aepe Pyho Aqae Chpn 2,0 Mytu Esco Sysp Arfu Basu Trpa 1,5 Bobu- 1,0 Ripr Chtr 0,5 0 1 2 3 4 5 longueur du génome (Mb) Figure 7.1 - Relation entre la densité de répétitions et la taille du génome. Les noms soulignés indiquent les génomes contenant des séquences d’insertion et les ellipses indiquent les organismes pathogènes. La flèche représente l’augmentation de la densité de répétitions du génome de Borrelia burgdorferi quand les plasmides sont pris en compte. Abréviations : A. aeolicus (aqae), A. fulgidus (arfu), A. pernix (aepe), Bacillus subtilis (basu), Borrelia burgdorferi (bobu), C. pneumoniae (chpn), C. trachomatis (chtr), Escherichia coli (esco), Haemophilus influenzae (hain), H. pylori (hepy), Methanococcus jannaschii (meja), M. thermoautotrophicum (meth), Mycoplasma genitalium (myge), Mycoplasma pneumoniae (mypn), M. tuberculosis (mytu), P. horikoshii (pyho), R. prowazekii (ripr), Synechocystis sp (sysp), T. pallidum (trpa). Nous avons observé que les distributions spatiales des deux occurrences de chaque répétition sont très hétérogènes entre les différents génomes. Chez Escherichia coli et Methanococcus jannaschii les deux occurrences de chaque répétition sont à une distance quelconque l'une par rapport à l’autre. En revanche, dans les deux organismes compétents non spécifiques, Bacillus subtilis et M. thermoautotrophicum, la plupart des copies sont séparées par moins de 50 kb. Les occurrences à une distance supérieure à 10 % du génome constituent ainsi moins de 5 % du total dans ces deux génomes. En raison du transfert horizontal, les génomes des isolats naturels d’entérobactéries fluctuent jusqu'à 1 Mb de leur taille de base (Bergthorsson & Ochman 1995). Les séquences d’insertion aident au transfert horizontal et à la duplication de gènes, mais elles jouent aussi un rôle important dans la délétion de matériel génétique par recombinaison entre deux copies. Ces deux effets contraires justifient probablement l’absence de corrélation entre l’abondance de séquences d’insertion et la taille du chromosome (Bergthorsson & Ochman 1998). Ainsi, les séquences d’insertion ne contribuent pas à l’augmentation de la taille du génome, mais plutôt à sa dynamique. L’absence de séquences d’insertion chez Bacillus subtilis est surprenante à plusieurs titres. Premièrement Bacillus subtilis est compétent, donc vulnérable aux invasions de ces éléments. Deuxièmement, des organismes proches de Bacillus subtilis, tel que B. cereus, possèdent des séquences d’insertion (Leonard et al. 1997). 76 Au chapitre 5 nous avons analysé les biais associés à la réplication chez les bactéries au moyen de l'analyse discriminante. La variable utilisée pour mesurer l’intensité de ce biais était la précision (accuracy), i.e. la fraction de prédictions correctes de la méthode sur un ensemble de test. La précision est proche de 1 pour les génomes très biaisés et proche de 0.5 pour les génomes sans biais. La Figure 7.2 montre la relation entre la densité de répétitions et la précision. Les génomes à plus faible densité de répétitions présentent les valeurs de précision les plus élevées. Nous pensons que ceci est lié à la plus grande stabilité des génomes sans répétitions. En particulier, les chromosomes avec très peu de répétitions comme Chlamydia trachomatis et les spirochètes ont un fort biais de réplication, alors que les génomes riches en répétitions, tels que ceux de Methanococcus jannaschii et Mycoplasma pneumoniae, ont peu ou pas de biais. Par ailleurs, cette tendance est partiellement indépendante de la présence de séquences d’insertion dans les génomes (les Mycoplasmes et M. thermoautotrophicum n'ont pas de tels éléments). 100 Bobu précision maximale (%) Cht r Trpa 90 80 Basu 70 Esc o Hain Hepy 60 50 0.5 My ge My t u Mypn A rf u Met h Me j a Sy s p Aqae 1 1.5 2 log (densité de répétitions) 2.5 3 Figure 7.2 - Relation entre la précision de la discrimination de brin de réplication et la densité de répétitions dans le génome. Les noms soulignés indiquent les génomes contenant des séquences d’insertion. Voir la légende précédente pour les abréviations. Par contraste avec la grande diversité observée de tailles de chromosomes dans les souches de Escherichia coli, plusieurs études ont révélé des cartes physiques très similaires entre différentes souches de Bacillus subtilis (Itaya 1997). Itaya et collègues ont introduit deux longues répétitions séparées de 300 kb dans le génome de Bacillus subtilis, avec une origine de réplication plasmidique situé au milieu (Itaya & Tanaka 1997). Ceci a entraîné la division du génome en deux sous-génomes stables et capables de se répliquer. Néanmoins le plus petit des sous-génomes est instable, facilement perdu et conduit à un taux de croissance réduit (Itaya & Tanaka 1997) (Itaya & Tanaka 1999). Cette expérience montre que les occurrences lointaines de répétitions introduisent une instabilité significative dans le génome et suggère que le génome de Bacillus subtilis serait très stable en raison de l'absence de répétitions longues et distantes. 77 Il semble surprenant que les deux bactéries compétentes généralistes (Bacillus subtilis et M. thermoautotrophicum) ne possèdent pas de séquences d’insertion. Puisque ces bactéries sont capables d'insérer de l'ADN de n’importe quel organisme, elles devraient être souvent contaminées par ces éléments parasitaires. On pourrait imaginer que l’instabilité due aux occurrences lointaines des répétitions puisse créer cet évitement en obligeant les séquences d’insertion à rester en copies simples. Cependant l’analyse des génomes a montré que les séquences d’insertion sont souvent trouvées en copie simple ou en tandem (Mahillon & Chandler 1998). De plus les opérons des ARNr sont maintenus de façon stable chez Bacillus subtilis, malgré leur répétition à longue distance (Kunst et al. 1997). Toutes ces observations suggèrent une hypothèse. On peut en effet se demander si Bacillus subtilis ne posséderait pas un mécanisme spécifique d’élimination des séquences d’insertion. Des mécanismes de ce genre existent chez plusieurs eucaryotes (Sherman & Pillus 1997) (Colot & Rossignol 1999). Les séquences d’insertion permettent aux bactéries de s’adapter rapidement, en facilitant le transfert horizontal ou la duplication de gènes. Cependant si Bacillus subtilis a trouvé un mécanisme évolutif qui rend les séquences d’insertion inutiles, alors leurs hypothétiques avantages évolutifs sont perdus. Ces observations rendent l’analyse de B. cereus encore plus intéressante. Cet organisme possède des séquences d’insertions et la taille de son génome varie de façon très significative (entre 2.4 Mb et 6.3 Mb) (Carlson & Kolsto 1994). La comparaison de ces Bacillus permettra l’analyse détaillée de la propagation des séquences d’insertion et de leur influence sur la stabilité des génomes chez les bactéries Gram positives. 78 8. Répétitions et transfert horizontal chez Bacillus subtilis Les souches de Escherichia coli K12 et Salmonella enterica Typhimurium LT2 ont divergé depuis environ 100 millions d’années et la similarité entre les cartes physiques (respectivement 4.5 et 4.8 Mb) des deux organismes est frappante. Néanmoins, d'autres souches de ces deux espèces diffèrent de plus de 1 Mb par insertion ou délétion de grandes régions du chromosome (Bergthorsson & Ochman 1995). Ces régions sont associées à des îlots de pathogénicité (Groisman & Ochman 1997), au transfert d'opérons complets (Lawrence & Roth 1996), et à l’insertion multiple de séquences d’insertion (Bergthorsson & Ochman 1998). Il est donc clair que le transfert horizontal a très fortement conditionné l'évolution de ces bactéries. Nous développons dans ce chapitre notre modèle de transfert horizontal par transformation chez Bacillus subtilis (voir chapitre 7). 8.1 La sexualité chez les bactéries Mayr a défini le concept biologique d’espèce à partir de l’isolement reproductif (Mayr 1963). Cependant cette définition est totalement inadéquate pour décrire la taxonomie bactérienne, puisque la reproduction sexuée n’existe pas chez les bactéries. Une définition biologique de l’espèce incluant tous les domaines du vivant devrait donc reposer sur l’isolement génétique plutôt que sur l’isolement reproductif (Matic 1995). C’est l’isolement par rapport au partage des gènes, via diverses formes de sexualité, qui est à la base d’un concept universel d’espèce. Les bactéries se reproduisent de façon asexuée, mais des génomes recombinants peuvent être crées par des mécanismes indépendants de la division cellulaire. La division classique entre lignée somatique et lignée germinale disparaît chez les bactéries, mais une certaine forme de sexualité, le transfert d’information génétique d’une cellule à autre, est assurée par trois types différents de mécanismes. 79 1. La transduction est le transfert d’ADN par l’intermédiaire d’un bactériophage. Les bactériophages sont de taille très variable, entre 3569 pb pour le phage MS2 et plus de 670 kb pour le bacteriophage G (Casjens 1998). Ce transfert peut impliquer soit l’ensemble des gènes chromosomiques (e.g. la transduction généralisée du phage P1), soit un nombre restreint de marqueurs chromosomiques (e.g. transduction spécialisée du phage λ) (Birge 1994). La transduction est très limitée, du point de vue écologique et évolutif, par la spécificité de l’hôte et par l’efficacité de la recombinaison (Matic 1995) (Birge 1994). 2. La conjugaison ou transfert d’ADN plasmidique et chromosomique prend place lors d’un "accouplement" entre deux bactéries (Christie et al. 1987). Le contact initial a lieu entre l'extrémité du pilus de la cellule donneuse et l’enveloppe extérieure de la cellule réceptrice. Les plasmides qui contiennent l’information nécessaire à l’établissement du pilus sont dits conjugatifs. Ceux qui contiennent l’information nécessaire pour le transférer sont dits mobilisables. Les plasmides qui sont à la fois mobilisables et conjugatifs sont dits auto-transmissibles (Clark & Warren 1979). Le plasmide peut s’insérer dans le chromosome de l'hôte et s’exciser ensuite. La quantité d’ADN ainsi transférée peut atteindre quelques Mb, mais elle est usuellement de l’ordre de quelques dizaines de kb. La présence de séquences d’insertion provoque souvent l’excision erronée du plasmide. Celui-ci devient ainsi porteur d'une nouvelle information génétique qui peut être passée à d’autres chromosomes permettent (Amábile-Cuevas & Chicurel 1992). Les plasmides ainsi l’élimination ou l'addition d’information génétique dans le chromosome bactérien. Néanmoins, le transfert de gènes entre espèces différentes d’origine chromosomique est relativement moins fréquent que le transfert de plasmides (Matic 1995). 3. La transformation consiste en l'entrée de l’ADN libre dans la cellule bactérienne. Cet ADN peut s’intégrer dans le chromosome ou dans un plasmide par recombinaison homologue. De manière alternative, il peut s’établir en tant que réplicon lorsqu'il contient une origine de réplication et parvient à se circulariser (Dubnau 1999). Seules les cellules compétentes parviennent à attacher et faire entrer de l’ADN libre. Cet état de développement est spécifique des bactéries naturellement transformables. On a identifié des bactéries compétentes plusieurs groupes taxonomiques, tel que les protéobactéries dans (Haemophilus influenzae, Neisseria gonorrhoeae, Helicobacter pylori), les firmicutes (Bacillus subtilis, Streptococcus pneumoniae), que chez les archaebactéries les Cyanobactéries (Synechocystis spp) ainsi (Methanobacterium Methanococcus voltae). 80 thermoautotrophicum, 8.2 La recombinaison et le transfert horizontal Chez les bactéries on peut distinguer trois types principaux de recombinaison (Matic 1995) : 1. La recombinaison assortative qui modifie les génomes par la recombinaison des allèles présents dans la population (Graham & Istock 1978) (Maynard-Smith et al. 1991). 2. La recombinaison intragénique qui créée nouveaux allèles par recombinaison de fragments des allèles existants (Riley & Labedan 1997). 3. La recombinaison additive qui insère des gènes d’autres espèces dans le chromosome sans qu'un homologue soit nécessairement déjà présent (Médigue et al. 1991) (Lawrence & Ochman 1998). Bacillus subtilis a une structure génomique très différente d'Escherichia coli. En effet, il n’a pas de séquences d’insertion, ni de plasmides conjugatifs ou mobilisables, ni d'îlots de virulence (Kunst et al. 1997). En conséquence on s’attendrait à observer de faibles taux de transfert d’information par recombinaison additive. Celle-ci serait donc restreinte aux zones d'intégration des phages. Néanmoins, la séquence complète a révélé de nombreux éléments transférés, agrégés dans plusieurs régions du chromosome (Kunst et al. 1997). Il nous paraît excessif de croire que les phages de Bacillus subtilis soient les seuls responsables de ce transfert. Les phages de Bacillus subtilis sont tous du type ADN double brin et pratiquent presque exclusivement la transduction spécifique, ce qui limite considérablement la taille et la variété de l’ADN transféré (Birge 1994). De plus ces phages très spécifiques transportent difficilement l'ADN d’autres espèces. La répartition des répétitions chez Bacillus subtilis suggère que le mécanisme responsable du transfert horizontal est exactement celui que les biologistes utilisent depuis toujours pour le clonage chez cette bactérie. C'est là le modèle que nous proposons. 8.3 La transformation naturelle La compétence pour la transformation naturelle requiert des changements physiologiques complexes qui sont déclenchés dans des conditions de croissance spécifiques. Neisseria gonorrhoeae est compétente de façon constitutive, mais la plupart des bactéries sont compétentes temporairement (Lorenz & Wackernagel 1994). Ainsi, chez Bacillus subtilis la compétence est propre au début de la phase stationnaire de croissance, chez Haemophilus influenzae elle arrive lors du changement vers un milieu pauvre. Par contre chez Deinococcus radiodurans la compétence est propre à la phase exponentielle de croissance (Lorenz & Wackernagel 1994). Chez Bacillus subtilis, la compétence est au moment de la phase stationnaire de croissance, c’est-à-dire au moment où la cellule atteinte risque la mort par absence de nutriments (Dubnau 1993). Dans cette situation, l’intégration d’ADN allogène permet l’acquisition de nouvelles fonctions comme la réparation de l’ADN (Michod et al. 1988) (Hoelzer & Michod 1991) (Redfield et al. 1997). 81 Les réseaux de régulation de la compétence sont assez complexes et, chez Bacillus subtilis, font intervenir de manière coordonnée plus de 140 gènes (pour des complètes voir (Dubnau 1991) (Solomon & descriptions plus Grossman 1996)). La fraction de la population bactérienne qui devient compétente varie significativement suivant les différentes bactéries. Cette fraction est résiduelle chez P. stutzeri, elle varie de 10 % à 25 % et elle atteint 100 % chez S. pneumoniae et Haemophilus chez Bacillus subtilis, influenzae (Lorenz & Wackernagel 1994). Deux voies principales d’acquisition d’ADN ont été très étudiées, l'une pour les bactéries Gram positives protéobactéries (le modèle Streptomyces-Bacillus) (le modèle Haemophilus-Neisseria). et Cependant, l'autre on connaît intermédiaires entre les deux modèles ainsi que des cas qui ne relèvent ni de l'une catégorie (Solomon & Grossman 1996) (Saunders et al. 1999). Dans pour les des cas ni de l'autre la suite, nous passerons en revue les différentes étapes de ce processus pour les deux modèles. Attachement de l’ADN. Chez Bacillus subtilis et S. pneumoniae l’ADN double brin s'associe rapidement à la membrane des cellules compétentes pour former un complexe stable (Lorenz & Wackernagel 1994). Environ 50 sites (S. pneumoniae) sont impliqués dans 1991). Dans certaines conditions sites (Bacillus subtilis) et entre 30 et 80 l’attachement de l’ADN à la membrane (Dubnau Haemophilus influenzae incorpore aussi l’ADN d’organismes proches (Postel & Goodgal 1966), mais contrairement aux cas précédents, l'incorporation résulte de la reconnaissance d’une séquence particulière dans l'ADN. Cette séquence (USS de Uptake Signal Sequence) est dispersée dans le génome sous la forme d'environ 1500 copies (Smith et al. 1995). L’USS est spécifique de chaque organisme et contient un consensus de 9 pb chez Haemophilus influenzae (AAGTGCGGT) et 10 pb chez N. gonorrhoeae (GCCGTCTGAA) (Kroll et al. 1998). Pénétration de l’ADN. Après son attachement à la membrane, l’ADN est découpé en morceaux d’environ 6 kb (S. pneumoniae) à 10 kb (Bacillus subtilis) (Dubnau & Cirigliano 1972) (Fornilli & Fox 1977). Cette taille semble être assez variable puisque chez Bacillus subtilis des transformations de fragments de 300 pb ont été rapportées (Zawadzki & Cohan 1995). Pendant le passage à travers la membrane, l’ADN est mis sous forme simple brin et pénètre dans la cellule par son extrémité 3’ (Vagner et al. 1990). Chez Haemophilus influenzae, l’ADN est d'abord transporté sous forme double brin jusqu’au "transformasome", où il reçoit une protection contre les DNAases (Lorenz & Wackernagel 1994). Ce n’est qu’ensuite qu'il est transféré dans le cytoplasme. La transformation suit trois mécanismes différents en fonction de la nature Dans la transformation par remplacement, de l’ADN. l’ADN donneur remplace des séquences homologues présentes dans le chromosome ou les plasmides de l’hôte. L’ADN donneur et l'ADN receveur interagissent pour former un ADN héteroduplex (chez Bacillus subtilis, S. pneumoniae et Haemophilus influenzae), à partir duquel se fait la recombinaison homologue, par intervention de la protéine RecA (Lorenz & Wackernagel 1994). La 82 concentration de cette protéine augmente de 14 fois après l’induction de la compétence, chez Bacillus subtilis (Lovett et al. 1989). Dans la transformation par plasmides un nouveau réplicon est établi sans recombinaison homologue. Puisque le plasmide est coupé et mis sous forme simple brin avant d'être conduit à travers la membrane, il faut le reconstruire dans le cytoplasme. La difficulté de ce processus explique l’efficacité réduite de la transformation par plasmides, qui est très inférieure à celle de l’ADN chromosomique (Canosi et al. 1981). L’efficacité de la transformation augmente comme le carré de la concentration en plasmides. L’entrée de copies multiples du plasmide facilite la reconstruction correcte parce que ces copies peuvent s'hybrider pour rétablir une molécule circulaire (Saunders & Guild 1981). Ceci explique sans doute l’efficacité beaucoup plus importante de la transformation de plasmides polymériques chez Bacillus subtilis (Mazza & Galizzi 1989). La récupération d’un plasmide localement homologue au chromosome voie alternative à celle décrite plus haut. peut suivre une La récupération facilitée de plasmides consiste en la reconstruction du plasmide à l’aide d’une recombinaison homologue partielle avec le chromosome (Lopez et al. 1982). Dans cette voie l’ADN donneur et le chromosome font l'objet d'une recombinaison homologue sous l’action de RecA. Ensuite, la synthèse de l’ADN et l’action d’une ligase permettent la circularisation de l’ADN simple brin (Canosi et al. 1981), qui passe finalement en double brin (Figure 8.1). Dans cette voie, l’efficacité de la transformation dépend linéairement de la concentration d’ADN et non plus de façon quadratique (Canosi et al. 1981). Synthèse d'ADN Ligase Recombinaison Figure 8.1 - Mécanisme probable de la transformation facilitée des plasmides. 8.4 Barrières à la sexualité bactérienne Plusieurs systèmes et mécanismes forment des barrières à la sexualité bactérienne. Systèmes de restriction. Puisque l’ADN pénètre normalement la cellule sous la forme d'un simple brin, les systèmes de restriction sont peu efficaces comme barrière (Cohan et al. 1991) (Levin 1993) (Lorenz & Wackernagel 1994). Nous y reviendrons au chapitre 9. Signaux de reconnaissance. Plusieurs bactéries Gram négatives requièrent des USS pour l’introduction de l’ADN allogène. Naturellement cela impose un plus grand isolement sexuel de l’espèce (Smith et al. 1995). Néanmoins, il a été récemment montré que, malgré les différences entre les USS de Haemophilus influenzae et N. gonorrhoeae, recombinaison entre ces deux bactéries est fréquente (Kroll et al. 1998). 83 la Divergence en séquence. La divergence entre les séquences constitue une forte barrière à la recombinaison et donc à la sexualité bactérienne (voir chapitre 7). Néanmoins, une similarité partielle peut suffire pour intégrer de l’information génétique par recombinaison Campbell (voir en bas). 8.5 Un modèle pour le transfert horizontal chez Bacillus subtilis Le chromosome de Bacillus subtilis est celui qui a la plus faible densité de répétitions parmi les génomes analysés dans l’article du chapitre 7. Un tiers de ces répétitions se trouve dans le prophage SPβ; 8 % sont constitués par des éléments des opérons d'ARNr et moins de 10% sont liées à d’autres éléments comme les ARNss et les terminateurs de transcription. Les 50 % restants constituent un ensemble homogène composé des répétitions dont les occurrences sont proches, à une distance moyenne de 10 kb. La plupart de ces occurrences sont situées dans les gènes, mais ne les recouvrent que partiellement. Malgré sa compétence et son caractère non clonal, Bacillus subtilis ne possède pas de séquences d’insertion, ni de transposons; il ne transforme pas de plasmides monomériques sans inserts chromosomiques et il ne fait pas de la conjugaison (Graham & Istock 1978) (Lorenz & Wackernagel 1994). Puisque la plupart des mécanismes de recombinaison additive sont basées sur ces éléments, nous avons proposé un modèle différent pour expliquer l’origine de l’ADN non homologue inséré chez Bacillus subtilis. Le mécanisme proposé (i) n’a pas besoin de séquences d’insertion, (ii) profite du caractère compétent non spécifique de Bacillus subtilis, et (iii) explique la présence d’occurrences proches des répétitions dans le chromosome (Rocha et al. 1999a). Nous suggérons que ces répétitions sont des vestiges d’événements anciens de transfert horizontal dans des cellules compétentes via un mécanisme intégratif du type Campbell (Figure 8.2). Nous avons précédemment décrit la compétence chez les bactéries. Nous revenons maintenant sur quelques points plus précis qui supportent notre modèle. L’ADN simple brin pénètre les cellules de Bacillus subtilis après une interaction non spécifique avec la membrane, où il est coupé en morceaux (Dubnau 1993). La taille de ces morceaux a été mesurée par des méthodes physiques (Dubnau & Cirigliano 1972) et & Fox 1977) qui ont rapporté des tailles microscopiques (Fornilli moyennes de 8,5 kb et 11 kb, respectivement. La taille moyenne des 16 éléments que nous proposons être des Eléments Insérés (IE) chez Bacillus subtilis est de 10.6 kb. Dans notre mécanisme, il faut que l’ADN donneur soit préalablement circularisé pour arriver à s’intégrer par un mécanisme de type Campbell. Ceci, nous l’avons vu dans les premiers paragraphes de ce chapitre, est facilité quand l’ADN donneur est localement homologue avec le chromosome (Canosi et al. 1981). Après la circularisation, l’élément d’ADN n’est plus discernable d’un plasmide intégratif typique de Bacillus subtilis (Mazza & Galizzi 1989) (Dubnau 1993). Puisque la récupération du plasmide est faite par recombinaison, il faut que les répétitions soient suffisamment grandes 84 pour permettre l’action de RecA. De fait, leur taille moyenne est au delà de 70 pb et leur taille minimale est toujours supérieure au minimum requis chez Bacillus subtilis (24 pb). ADNdb Homologie Etendue chromosome Recombinaison homologue Homologie locale ADNc irc IE Intégration Campbell-like Figure 8.2 - Proposition de mécanisme évolutif pour le transfert horizontal chez Bacillus subtilis. Après pénétration, l'ADN peut suivre trois voies différentes : i) L’ADN est dégradé s’il n’a aucune similarité avec le chromosome. ii) Si l’ADN est localement homologue avec le chromosome sur une longueur suffisante il s’intègre par recombinaison homologue. iii) Si l’ADN est localement homologue avec le chromosome sur une courte longueur, il peut, après circularisation, s’intégrer via un mécanisme du type Campbell. Seule cette dernière voie laisse une trace sous la forme d'une répétition. Les IEs occupent environ 5 % du chromosome de Bacillus subtilis. Elles reflètent très probablement des acquisitions récentes de matériel génétique, puisque les répétitions sont ensuite effacées par mutation en l’absence de fortes contraintes interprétation est renforcée par l’observation que 50 % des gènes des classe d’usage du code des gènes transférés horizontalement. Cette sélectives. Notre IEs appartiennent à la classe contient seulement 13 % des gènes de Bacillus subtilis (8 % après l’exclusion des prophages SPβ et PBSX) (Kunst et al. 1997) (Moszer 1998). Environ 60 % de ces gènes n’ont pas de fonction connue et ne ressemblent à aucune autre séquence dans les bases de données. Ceci suggère qu’ils ne sont pas des gènes essentiels à la survie de la cellule. La classification fonctionnelle des gènes de fonction connue dans les IEs indique une sur-représentation typiquement transférés horizontalement de gènes (Syvanen 1994), comme les gènes liés à la compétence, à la résistance aux antibiotiques, des gènes codant pour les flagellines, des transporteurs ABC et les systèmes de restriction, modification et réparation. Enfin, il est intéressant à noter que Methanobacterium thermoautotrophicum révèle une distribution spatiale de répétitions similaire à celle trouvée chez Bacillus subtilis. Cette bactérie est également compétente généraliste et ne contient pas non plus de séquences d’insertion dans son génome. Il est donc probable que ce mécanisme évolutif est présent ailleurs dans le monde bactérien. 85 9. La nature égoïste des systèmes de restriction 9.1 Les systèmes de restriction et modification de type II et la défense cellulaire Les Systèmes de Restriction et Modification (SMR) sont propres aux procaryotes et à leurs phages (Roberts & Macelis 1997). Leur présence rend les bactéries temporairement immunes aux phages à ADN double brin. Puisque cette caractéristique a été à l’origine de l’identification des SMR, on a cru pendant longtemps que leur rôle évolutif essentiel était la protection cellulaire contre l'ADN allogène. En effet, pour protéger la cellule il faut être capable de distinguer l’ADN propre de l’ADN allogène. Ceci est réalisé de deux façons différentes. Certains systèmes identifient l’ADN de la cellule par la méthylation de séquences spécifiques. Au contraire, d'autres systèmes, moins classiques, reconnaissent l’ADN cellulaire par l'absence de certaines modifications. Dans ce cas, l’ADN de la cellule est protégé par l’absence de marquage. On ne connaît qu'un nombre réduit de ces derniers cas dont le mécanisme est encore assez mal compris (Redaschi & Bickle 1996). Les systèmes de restriction et modification classiques sont normalement divisés en trois groupes, parmi lesquels le groupe 2 est le plus abondant et le plus étudié. Les systèmes de ce groupe sont constitués par deux enzymes qui reconnaissent la même séquence d'ADN, mais possèdent activités enzymatiques différentes. L’enzyme de restriction est une endodéoxyribonucléase qui coupe l’ADN si les séquences de reconnaissance (sites de restriction) ne méthyltransférase sont pas méthylés. L’enzyme de modification est une ADN qui méthyle spécifiquement les bases A ou C dans la séquence de reconnaissance. Ainsi, l’activité de la méthylase rend l’ADN résistant à l’activité de la nucléase. Les SMR du groupe 1 sont constitués par un seul gène avec un domaine méthylase, un domaine nucléase et un domaine de reconnaissance (Redaschi & Bickle 1996). Ces 86 systèmes, ainsi que ceux du groupe 3, n’ont été trouvés que dans les enterobactéries (Roberts & Macelis 1997). Dans la suite de ce chapitre, nous noterons par SMR les SMR du type 2. Les SMR sont très répandus chez les procaryotes. Près de 3 000 systèmes ont été identifiés chez plus de 150 espèces différentes, dans presque tous les domaines taxonomiques (Roberts & Macelis 2000). Chez Escherichia coli et S. typhimurium on connaît plus de 150 types différents de SMR (Roberts & Macelis 2000). Les différentes souches d’une même espèce possèdent souvent des SMR très différents en termes de similarité entre les séquences de reconnaissance. En conséquence les arbres phylogénétiques basés sur ces systèmes n’ont rien à voir avec les arbres classiques du monde bactérien en particulier ceux qui sont les ARNr (Lauster 1989) (Jeltsch et al. 1995). basés sur La seule explication de cette observation est le transfert inter-espèce permanent de SMR au cours de l’histoire évolutive (Jeltsch & Pingoud 1996) (Kita et al. 1999). Ainsi, le transfert horizontal constitue le véhicule privilégié de dissémination de ces systèmes, ce qui constitue une originalité parmi les systèmes de la machinerie qui gère l’information chez les bactéries (Rivera et al. 1998). L'invasion de l’endonucléase peut être fatal pour la cellule si l’ADN n’est pas convenablement méthylé. Ainsi, les SMR sont finement régulés de manière à ce que l’acquisition du système par une cellule vierge soit suivie de l’expression la méthylase. Ce n’est qu’ensuite que la nucléase est exprimée (Redaschi & initiale exclusive de Bickle 1996). La plupart des séquences de restriction reconnues par les SMR sont des palindromes de 4 à 8 nucléotides. Les cas les plus fréquents sont ceux des palindromes de taille 4 et 6 nucléotides (Roberts & Macelis 1997). Les séquences de restriction des différents SMR sont tellement diverses qu’il n’y a qu’un seul palindrome de taille 4 pour lequel aucun système de reconnaissance n'est connu (AATT). Tant la coupure que la méthylation sont réalisées symétriquement par rapport au centre du palindrome. Cette précision, alliée à l’existence de systèmes aussi variés, a fait des SMR un des outils les plus populaires de la biologie moléculaire. 9.2 Premières études sur le rôle évolutif des systèmes de restriction et modification de type II Les systèmes de restriction ont été initialement identifiés par la difficulté d’infection de certaines souches de Escherichia coli par des phages λ produits à partir d’autres souches (Arber 1965). Deux observations ont été à l’origine de l’hypothèse d'un système de défense. Premièrement il est devenu évident que les SMR permettent la discrimination entre l’ADN de la cellule et l’ADN allogène. Deuxièmement, les SMR rendent difficile l’invasion de la cellule par les phages. L’hypothèse que les SMR seraient l’arme de défense bactérienne contre l’invasion des phages est donc longtemps restée un paradigme des études évolutives sur ces systèmes (Levin 1993) (Redaschi & Bickle 1996). Cette idée s’ajustait parfaitement au courant adaptationiste des années 60 et 70 (Maynard-Smith 1978) (Gould & Lewontin 1979). Néanmoins, personne n’avait réussi à 87 démontrer que l’utilité de ces systèmes était suffisante pour justifier leur universalité (Korona & Levin 1993). Vers la moitié des années 80 on connaissait déjà la spécificité de quelques centaines de systèmes de restriction et les premières preuves que les phages évitaient les sites de restriction sont apparues (Krüger & Bickle 1983). Plus tard, l’analyse de la fréquence des sites de restriction a révélé que l’évitement des sites de restriction était caractéristique de plusieurs phages à ADN (Sharp 1986). Ces observations étaient prévues par l’hypothèse de défense. Les phages utilisent plusieurs stratégies pour échapper aux défenses bactériennes : (i) l’inhibition de l’action des enzymes de restriction (Krüger & Bickle 1983) (Belogurov & Delver 1995) ; (ii) l'utilisation de bases modifiées (Krüger & Bickle 1983) ; (iii) la méthylation codée par le phage (Birge 1994) ; (iv) l'évitement des sites de restriction (Sharp 1986). L’étude d’isolats naturels de coliphages a néanmoins révélé que l’évitement des sites de restriction est la forme privilégiée de contournement de la barrière des SMR (Korona et al. 1993). La question de la fréquence des sites de restriction a souvent été abordée lors des travaux sur le biais des mots (Karlin & Macken 1991) (Karlin et al. 1992) (Burge et al. 1992). Ces travaux montrent que tous les palindromes de taille 4 et 6 sont très évités chez les phages. Ceci est la conséquence de la diversité des SMR présents au sein d’une même espèce. Pendant son évolution, le phage est soumis à des pressions de sélection différentes suivant le SMR qu'il rencontre. Ainsi pendant son histoire évolutive le phage a successivement évité des sites de restriction différents. En résumé, si pour échapper aux défenses bactériennes il faut éviter les sites de restriction et si différentes souches reconnaissent des sites différents, la meilleure stratégie est d’éviter systématiquement tous les sites de restriction possibles. Puisque la plupart des palindromes sont des sites de restriction potentiels, il en résulte l’évitement général des palindromes. A ce moment sont apparues les premières difficultés dans l’hypothèse de défense. La même analyse appliquée aux génomes bactériens révèle également l'évitement palindromes et des sites de restriction (Karlin et al. des 1992). On a suggéré que ceci serait dû à d'éventuelles erreurs de restriction du SMR. La probabilité de destruction par erreur du chromosome bactérien serait ainsi minimisée par l’évitement des sites de restriction. Les SMR sont continuellement en cours de transfert horizontal (Jeltsch & Pingoud 1996) (Bujnicki 2000), en conséquence les bactéries possèdent au cours de leur histoire évolutive de nombreux systèmes différents. Ainsi, elles aussi auraient tendance à éviter presque tous les palindromes. Dans une tentative d'établissement d’un modèle évolutif des SMR, Levin et collègues ont rencontré une autre difficulté inattendue (Korona et al. 1993). La barrière contre l’invasion, constituée par les systèmes de restriction, est en fait d’efficacité très limitée. La probabilité de méthylation du phage avant sa destruction par la nucléase varie entre 10-1 et 10-8. Dans une population typique de 1010 bactéries et phages, la probabilité d’une invasion réussie par au moins un phage est donc très proche de 1. Or, après cette première invasion, 88 les copies de ce phage deviennent immunes au SMR et, puisqu'elles sont correctement méthylés, elles envahissent la population clonale rapidement (Korona et al. 1993). Ainsi le système de restriction a au plus comme effet un léger retardement de l’invasion de la population. Ceci est probablement insuffisant pour expliquer le maintien de ces systèmes de façon si généralisée dans le monde bactérien. A l’époque où le modèle de défense commençait à montrer quelques faiblesses Kobayashi et collègues proposaient un modèle alternatif basé sur la théorie des "gènes égoïstes". C’est ce modèle que nous discutons dans la prochaine section. 9.3 Le modèle égoïste 9.3.1 La sélection à plusieurs niveaux Darwin a considéré que la sélection n’agit que sur les organismes et cette idée a perduré pendant une bonne partie du XXème siècle. Plus récemment ce paradigme a été mis en question en raison de son incapacité croissante à expliquer la sélection de groupe des comportements sociaux et la dissémination "égoïste" de certains gènes (Depew & Weber 1995) (Sober 1995). En conséquence, on assiste aujourd’hui au développement de théories cherchant à concilier ces différents niveaux de sélection. La base d’une théorie de sélection multi-niveaux à ainsi été proposé par Wilson et Sober (Wilson & Sober 1994). Ces auteurs ont déplacé l’unité causale de l’évolution des réplicateurs vers les interacteurs. Les interacteurs sont des individus Darwiniens et existent potentiellement à plusieurs niveaux de sélection (e.g. gènes, organismes, espèces). Le concept d’interacteur permet l'établissement d’une théorie de l’évolution structurée de telle façon que les niveaux se suivent hiérarchiquement. Les interacteurs sont des individus qui interagissent avec l’environnement de telle façon qu’une ou plusieurs de leurs parties présentent un succès reproductif différentiel, c'est à dire un transfert sélectif de leur matériel héréditaire à la génération suivante (Gould & Lloyd 1999). Wilson et Sober suggèrent que l'identification interacteurs soit faite à partir des concepts de des cohésion structurelle et de design fonctionnel (Wilson & Sober 1994), mais ceci n'est pas encore consensuel (Gould & Lloyd 1999). Il y a donc une distinction fondamentale entre réplicateur et interacteur. Le réplicateur est une entité qui produit des copies de lui-même, e.g. l’homme ou les séquences d’insertion. L’interacteur est une entité qui interagit directement, comme l’environnement de telle façon que sa réplication devient différentielle cadre de cette théorie, la sélection naturelle un tout, avec (Hull 1980). Dans le devient un processus dans lequel l’extinction et la prolifération d’interacteurs sont les causes de perpétuation différentielle des réplicateurs qui les produisent ou les contiennent. Cette théorie postule que le gène peut être un niveau de sélection s’il se reproduit de façon différentielle dans les organismes. Ceci est clairement 89 le cas des éléments mobiles tels que les séquences d’insertion et, de l’avis de I. Kobayashi, c'est également le cas des systèmes de restriction. 9.3.2 L’égoïsme des systèmes de restriction Les cellules constituent des environnements dans lesquels les séquences d’ADN peuvent se répliquer, muter et évoluer (Orgel & Crick 1980). Les séquences d’ADN peuvent contribuer à l'adaptation d’un individu, mais elles peuvent aussi augmenter leurs propres chances de préservation. De fait, la seule pression que l’ADN supporte directement est la pression de subsistance dans les cellules (Doolittle & Sapienza 1980). Si une mutation peut augmenter la probabilité de subsistance, sans effet sur le phénotype de l’organisme, alors des séquences dont la seule raison d'être est leur propre préservation vont inévitablement apparaître et se maintenir par sélection non-phénotypique (Doolittle & Sapienza 1980). De plus, si un groupe de gènes développe une stratégie pour augmenter leur probabilité de survie, alors aucune explication phénotypique additionnelle n'est nécessaire pour justifier son origine et son existence (Williams 1966) (Dawkins 1976). Ainsi le système persistera dans la population tant que sa capacité de reproduction dans les génomes compense son poids phénotypique négatif. Kobayashi et collègues sont arrivés au modèle égoïste après avoir constaté que la perte des SMR rendaient les cellules non viables (Naito et al. 1995). Cette observation est une conséquence du mode de fonctionnement des SMR. En effet, une bactérie qui perd son SMR conserve pendant quelques générations une population défaillante en méthylase et en nucléase. Or, les nucléases ont un temps de vie plus élevé que les méthylases. En conséquence, après quelques générations, le chromosome ne sera plus protégé par les méthylases et sera détruit par les nucléases restantes. Des travaux postérieurs ont montré compatibilité" que les SMR forment des "groupes de à l’image des plasmides conjugatifs. Les systèmes de restriction qui reconnaissent la même séquence entrent en compétition dans un même génome, ce qui se termine toujours par l’extinction de l'un des deux éléments (Kusano et al. 1995). Cette compétition est probablement à l’origine des gènes régulateurs de l’expression de ces systèmes (Nakayama & Kobayashi 1998). On a trouvé des systèmes de restriction qui jouent le rôle de poison et d'antidote dans certains plasmides afin d'éviter leur ségrégation (Kulakauskas et al. 1995). Une fois le système installé, il méthyle l’ADN et seule la présence du système ou l’invasion par un système avec la de la cellule (Figure 9.1). 90 même spécificité permet la survie R inv asio n du SRM M mét hylat ion de l'ADN RM * Chromosome perte SRM dégradat ion du chromosome du R M dégradat ion de la mét hylase * Figure 9.1 - L’hypothèse égoïste pour expliquer l’existence des systèmes de restriction. Dans une première étape le système envahit la cellule et exprime la méthylase qui protège le chromosome. Ensuite, si le système est perdu la cellule est tuée par la nucléase. Ceci vient du fait que la durée de vie de la nucléase est plus longue que celle de la méthylase. 9.4 Les difficultés du paradigme Au moment de la publication de l’hypothèse égoïste, la théorie de la défense était déjà ébranlée pour plusieurs raisons (Tableau 9.1). La première raison est de nature théorique. Comment expliquer qu’une bactérie développe des systèmes de restriction pour sa défense et qu'ensuite elle les partage avec toutes les autres bactéries, même celles qui sont phylogénétiquement lointaines ? Ceci ne peut être expliqué par aucune théorie de sélection de groupe connue, sauf si on admet que l'ensemble des bactéries ont une conception de groupe face aux phages, ce qui semble assez douteux. Un deuxième problème évolutif est la courte durée de la protection contre l’invasion de phages fournie par les systèmes de restriction ainsi que nous l'avons précédemment mentionné. La compétition entre les systèmes de restriction chez un même hôte est également inexplicable dans le contexte théorie de la défense et ramène clairement vers un contexte de gènes égoïstes. Ces de la difficultés sont à la base de l’échec des modèles qui ont été proposés pour décrire l’évolution de ces systèmes à partir de leur rôle uniquement défensif (Korona & Levin 1993) (Levin 1993). L’hypothèse de défense ne peut non plus expliquer l’existence de systèmes qui reconnaissent des sites de restriction à huit nucléotides. Grâce à leur taille, ces sites de restriction sont trop rares (ou même absents) dans la plupart des phages. Néanmoins ils existent dans les génomes des bactéries qui sont beaucoup plus grands. Enfin, les systèmes de restriction sont inefficaces vis à vis des phages à ARN et à ADN simple brin, puisque la nucléase n’agit que sur l’ADN double brin. La découverte que la plupart des bactéries évitent également les palindromes de façon importante et quasi générale a porté un autre coup à la théorie de la défense. Comment 91 expliquer, en effet, qu’un système défensif soit si contraignant pour le chromosome de l’hôte qu’il façonne complètement son usage des mots ? Chez Haemophilus influenzae, par exemple, les 7 premiers mots les plus évités de taille 4 sont des palindromes. Le biais par les systèmes de restriction constitue donc un fardeau important. méthylation d’un génome n’est pas sans conséquences imposé Par ailleurs, la négatives sur l’expressivité des gènes (Reisenauer et al. 1999) et sur le taux de mutation (Lindahl 1993). Ainsi la théorie de la défense ne pourrait se tenir que si les SMR étaient très efficaces, ce qui, apparemment, n’est pas le cas. Tableau 9.1 - Les différences entre l’hypothèse de défense et l’hypothèse de gène égoïste. Phénomène Hypothèse de défense Hypothèse gène égoïste Occurrence généralisée des SMR Défense contre phages et plasmides Résistance au déplacement par le système de poison-antidote Défense éphémère contre phages Sélection à la colonisation La défense est secondaire Spécificité individuelle et diversité collective Sélection basée sur la fréquence pour une défense efficace Sélection basée sur la fréquence via la compétition entre séquences Absence d’homologie entre les nucléases Plusieurs origines indépendantes Spécialisation précoce des séquences Sites longs ? Existent dans les génomes bactériens ? Permet le fonctionnement du système poison-antidote Evolution et maintenance : Organisation des gènes : Restriction et modification séparés Liaison forte entre les deux gènes Co-régulation Perte et gain simultanée du SMR Transfert horizontal fréquent Variation des défenses Mobilité égoïste (reproduction) Méthylases solo ? Protection contre les SMR Evitement des sites dans les génomes bactériens Défense contre les erreurs des SMR Protection contre les SMR Enzyme de restriction methyl spécifique Défense contre les phages methylés Protection contre les SMR par induction de apoptose Systèmes d'anti-restriction : Nous avons remarqué, lors de l’analyse de l’usage des mots chez Bacillus subtilis, que les sites de restriction dans cet organisme étaient moins évités dans les régions transférées horizontalement (Rocha et al. 1998). Ce moindre évitement des sites de restriction chez Bacillus subtilis est particulièrement visible dans la région du prophage à ADN double brin SPβ. Si les systèmes de restriction servent à éviter l’invasion des phages, comment expliquer que les régions de moindre biais dans le génome soient justement celles qui ont franchi la barrière de défense ? Nos résultats préliminaires favorisaient ainsi l’hypothèse de Kobayashi. Cependant cette observation restait discutable parce que nous n'avions analysé qu'une seule bactérie et parce que, chez Bacillus subtilis, les régions transférées sont essentiellement localisées 92 autour de la terminaison de la réplication. En conséquence nous avons entrepris une étude plus générale sur l’évitement des palindromes dans les génomes bactériens et leurs phages. 9.5 Un schéma expérimental in silico L’originalité de ce travail, par rapport à nos travaux précédents, a été la définition d’une stratégie d’analyse très proche de la démarche typique de la biologie expérimentale. Au contraire de la plupart des travaux de bioinformatique nous voulions confronter deux hypothèses et, si possible, trancher en faveur de l'une d’entre elles. La question est de savoir si les systèmes de restriction imposent un fardeau plus grand dans les génomes bactériens ou dans les génomes de phages. Si nous arrivons à la conclusion que les systèmes "pèsent plus" sur les génomes des phages il faudra considérer positivement les hypothèses de défense. Si, au contraire, les systèmes de restriction pèsent plus lourdement sur les génomes bactériens, ces systèmes devront être considérés comme parasitaires. Naturellement nous ne pouvons pas tester cette hypothèse telle que nous l’avons énoncé, puisque nous n’avons pas de mesure directe et objective du "fardeau" que les systèmes imposent sur les génomes. Ainsi, nous devons définir une mesure de ce fardeau qui puisse être obtenu directement à partir de la séquence. Cette mesure est l’évitement des mots dans le génome. Elle est directement liée à notre problème puisqu’elle mesure les forces évolutives qui agissent sur la séquence. Nous supposons donc que les forces évolutives (en dehors des systèmes de restriction) qui agissent sur la fréquence des palindromes sont identiques dans les bactéries et les phages. Ceci paraît acceptable à la lumière des connaissances actuelles. Certains palindromes jouent des rôles importants dans certaines bactéries et certains phages, mais ceci n'est pas le cas de la plupart des palindromes de taille 4 (16 palindromes) et 6 (64 palindromes). Remise sous une forme testable la question sous-jacente à l'étude devient : étant donnée une paire constituée par une bactérie (hôte) et un phage (parasite), lequel des deux évite le plus les sites de restriction ? Publication VIII Rocha, EPC, Danchin A, Viari A (2000) The evolutionary role of restriction/modification systems revealed by comparative genome analysis, en cours de redaction 9.6 Conclusions et perspectives Nos résultats indiquent que le fardeau associé à l’existence de systèmes de restriction semble plus lourd chez les bactéries que chez leurs phages. Ceci est clairement plus en faveur 93 de l'hypothèse égoïste que de l'hypothèse de défense. Néanmoins il reste encore quelques questions en suspens. Même en acceptant l’hypothèse égoïste, il est clair que les systèmes de restriction représentent un obstacle à l’invasion de la cellule par les phages. On pourrait spéculer que, dans certaines conditions, les systèmes de restriction présentent un fort avantage sélectif, par exemple pendant la colonisation d’un milieu à forte concentration en phages. Dans ces conditions un retard de l’invasion peut être suffisant pour gagner la niche écologique (Korona & Levin 1993). Dans l'hypothèse égoïste, les systèmes de restriction, les bactéries et les phages établissent entre eux un système complexe de relations hôte-parasite. Les phages et les systèmes de restriction entreraient ainsi en compétition pour parasiter les bactéries. Pourtant, les bactéries peuvent se servir des systèmes de restriction pour combattre les phages. Cette dynamique est très intéressante et mériterait une étude sérieuse du point de vue de l’écologie évolutive. La facilité d’expérimentation dans ce système n’est pas un de ses moindres atouts. 94 Les méthodologies 95 10. Statistiques sur les mots Nous décrirons dans ce chapitre les fondements de l’approche Markovienne qui est à la base des techniques d'identification de mots biaisés mises en œuvre dans les chapitres précédents. Le lecteur moins intéressé par les aspects mathématiques pourra consulter directement le résumé de la méthode qui clôt ce chapitre ou la deuxième publication du chapitre 4. Nous commencerons par présenter les notions relatives aux chaînes de Markov et en particulier aux chaînes homogènes. Ensuite nous présenterons la structure générale de l’analyse et expliciterons la principale difficulté associée à cette approche : le calcul de la variance des fréquences attendues des mots. Ensuite nous présenterons la simplification de ces formules dans le cas de l'ordre maximal. Enfin, nous résumerons notre approche, le raisonnement sous-jacent à l'utilisation de ce modèle et ses limitations. 10.1 Les processus de Markov Un processus stochastique X={X(t), t ∈ T} est une collection de variables aléatoires, c'est à dire que pour chaque t dans l’ensemble d’indices T, X(t) est une variable aléatoire. Si l’ensemble d’indices T est un ensemble dénombrable alors X est un processus stochastique discret. En raison de la nature intrinsèquement discrète des molécules d’ADN (considérée comme une succession de bases), nous ne parlerons ici que des processus discrets. Dans les processus stochastiques, le futur n’est pas déterminé de façon univoque. Par contre, il existe des relations de probabilité qui nous autorisent à réaliser des prévisions et à prendre des décisions. Définition 1 (adapté de (Feller 1968)). Une séquence de variables aléatoires discrètes constitue une chaîne de Markov d’ordre m si pour une succession finie d’entiers {1, 2, ..., r1, ..., rm, n}, la probabilité de la relation conditionnelle X(n)=x sous l’hypothèse X(1)= x1, 96 ... , X(r1)= xr1, ..., X(rm)= xrm est identique à la probabilité conditionnelle X(n)=x sous l’hypothèse plus restreinte X(r1)=xr1, ..., X(rm)= xrm. En termes plus simples, étant donné les m avant-derniers états du système présent, aucune donnée additionnelle sur les états passés du système ne peut changer la probabilité de l’état dans le futur. Le processus a donc une "mémoire" finie de taille m. Les chaînes de Markov utilisées dans notre travail ont des probabilités de transition indépendantes de la position relative de l’événement dans la chaîne complète des événements. Les chaînes qui obéissent à cette propriété sont dénommées stationnaires (ou homogènes). Les chaînes qui nous intéressent sont construites par un processus aléatoire à partir d'un ensemble d'états fini. Dans le cas de chaînes de caractères (ADN) cet ensemble l'alphabet sur lequel sont construites les chaînes. Nous appellerons Ei l'état i de ei l’état du système à la position i constitue cet ensemble, de la chaîne et pjk la probabilité de transition de l’état Ej vers l’état Ek. Un état Ej est accessible à partir de l’état Ei s’il existe un nombre de pas n sur la chaîne pour lequel la probabilité de transition de l’état Ei vers Ej est non nulle. Deux états mutuellement accessibles communiquent entre eux. Il est facile de démontrer que la communication est une relation d’équivalence (Ross 1996). Deux états qui communiquent appartiennent donc à la même classe. Ainsi, une chaîne de Markov est dite irréductible s’il n’existe qu’une seule classe, i.e. si tous les états communiquent entre eux. Définition 2 (Feller, 1968) : L’état Ej a une période t>1 si, à partir de Ej, la probabilité d'y revenir en n pas est nulle sauf quand n est un multiple de t. La période est donnée par t, qui est le plus grand entier avec cette propriété. Un état Ej est apériodique s'il n'existe aucun t présentant cette propriété. La périodicité est une propriété de classe de recurrence. Définition 3 (Feller 1968) : L’état Ej est récurrent (ou persistant) que la chaîne revienne à cet état au bout si la probabilité d'un nombre fini de pas est 1, il est transitoire si cette probabilité est inférieure à 1. Pour un état persistant, on peut définir de récurrence comme le nombre de pas moyen pour revenir à cet le temps moyen état. Si le temps moyen de récurrence est infini, alors la chaîne est dite nulle. Si le temps moyen de récurrence est fini alors la chaîne est dite positive. Les chaînes récurrentes irreductibles sur des espaces d'état finis sont toujours positives. Puisque le processus recommence chaque fois qu’il passe par Ej, les états persistants sont visités un nombre infini de fois. La persistance est aussi une propriété de classe, i.e. si Ei est persistant et Ei et Ej communiquent alors Ej est aussi persistant (Ross 1996). En conséquence, dans une classe d'états finis persistants les transitions entre tous les états se font avec la probabilité 1 en un nombre fini de pas. Ceci sera implicitement admis dans notre analyse. 97 Définition 4 (Feller 1968) : Un état persistant apériodique Ej avec un temps moyen de récurrence fini est un état ergodique. Naturellement, l'ergodicité est une propriété de classe, car si Ei communique avec Ej et Ei est apériodique alors Ej est également apériodique. 10.2 L'admissibilité des hypothèses de base Dans l'approche que nous décrivons dans la suite nous accepterons hypothèses de base qu'il convient de vérifier dans le cas de certaines chaînes d'ADN. En particulier on fait l'hypothèse que la chaîne est irréductible, persistante, non-périodique et stationnaire. Irréductibilité. Une chaîne est irréductible quand tous les états communiquent avec tous les autres. Dans une séquence biologique, il n'y a pas normalement de transitions interdites et donc tous les états appartiennent bien à la même classe. Persistance. Il semble clair que les séquences biologiques sont normalement persistantes. Si elles ne l'étaient pas il y aurait un certain nombre d'états qui disparaîtraient le long de la séquence. Ceci impliquerait que, à partir d'une certaine longueur, la chaîne serait une répétition d'un sous-ensemble de symboles ou de mots. Apériodicité. Du fait que le code génétique s'écrit en mots de 3 lettres, il y a, dans les gènes, une hétérogénéité dans les fréquences des mots entre les différentes positions des codons (Figure 10.1). Ainsi, on a souvent rejeté l'hypothèse de non-périodicité et donc l'utilisation de chaînes de Markov sur la base de cette observation. Il faut néanmoins considérer que la définition précise de la périodicité implique qu'un état a une période t si la probabilité d'y revenir est nulle pour toute étape sauf les multiples de t (Définition 2). Ce type de contrainte, très forte, n'est, en pratique, jamais observé sur l'ADN. Stationnarité. Cette hypothèse considère que les matrices de transition sont les mêmes partout sur la chaîne, ce qui est évidemment faux. En effet, l'existence de différents objets dans les génomes et, en particulier, les différentes fréquences des nucléotides dans les différentes positions des codons remet en cause cette hypothèse (Figure 10.1). Nous allons essayer d'évaluer ici dans quelle mesure cette hypothèse est violée en pratique. 35 G A T 30 A T % A 25 C 20 G C C T G 15 1 2 3 position dans le codon Figure 10.1 - Distribution des différentes bases dans les codon des gènes de Bacillus subtilis. 98 Puisque chez les bactéries environ 90 % du génome est codant, nous détaillerons plus précisément le problème de l'analyse des gènes. Le traitement complet de ce problème passe par l'analyse des biais dans les trois positions des codons et par la formulation précise de modèles conditionnels pour les séquences codantes (Mathé 1996). Bien sûr, dans cette approche certains mots ne seront biaisés que dans une phase codante. Ainsi, il devient difficile de discerner les biais associés à l'existence de signaux de ceux simplement dus à l'usage du code. Si nous sommes intéressés par des biais génériques, on peut imaginer de regrouper les trois phases. Ceci fait perdre de la puissance au test, mais, par contre, permet la détermination des mots vraiment biaisés sur l'ensemble des trois phases. Le regroupement des trois phases n'est statistiquement valable que si leurs variances sont à peu près similaires. En effet, si une des variances est beaucoup totale sera inférieure à la variance de ce plus grande la variance groupe. L'analyse des nucléotides à chaque position du codon montre, qu'en pratique, les variances sont bien voisines (Tableau 10.1). Tableau 10.1 - Moyennes et variances des fréquences de nucléotides à chaque position l'ensemble des gènes de Bacillus subtilis. 1 A C G T % 29,95 18,62 33,67 17,76 2 Var 1.77 1.60 1.98 1.36 % 33,15 20,93 14,98 30,94 3 Var 1.99 1.98 1.26 2.21 % 26,97 21,04 23,53 28,46 Var 1.85 1.89 1.69 2.44 du codon, observés sur ensemble % Var 30,02 8.9 20,20 3.5 24,06 67.1 25,72 38.8 10.3 Les expressions asymptotiques et leurs simplifications 10.3.1 Expressions pour l’espérance et la variance des taux de comptage Considérons une chaîne d’ADN de longueur n, représentée par la succession de n bases S=X1X2...Xn, générée par un processus de Markov stationnaire d’ordre m sur l’alphabet A={A, C, G, T}. Le nombre NW d’occurrences d’un mot de longueur h, W=w1w2...wh, est donnée par : NW = N (W ) = N ( w1w2 ...wh ) = n − h +1 ∑1{Xi = w1,..., Xi + h −1 = wh } i =1 où 1{.} est la fonction indicatrice. La valeur attendue est µ (W ) = P{ Xi = w1 ,..., Xi + h −1 = wh } , qui dans un modèle de Markov d’ordre m, a comme estimateur naturel : h−m 1 ∏ j =1 N ( w j ...w j + m ) E( N (W )) = n ∏ h − m N ( w j ...w j + m −1 ) (Eq. 10.1) j =2 L'analyse statistique consiste en la comparaison de cette valeur attendue avec la valeur observée. Ceci passe par le calcul de la statistique centrée réduite : 99 N (W ) − E (W ) Var (W ) ZW = (Eq. 10.2) Le calcul de la variance de W n’est pas simple, même pour un modèle Markov d'ordre 1 et la matrice de covariance est encore plus compliquée (Kleffe & Borodovsky 1992). Le calcul de ces covariances est très compliqué pour des mots longs et intraitable pour des ordres supérieures à 1. Ainsi, une approche alternative basée sur des résultats de Whittle et de Cowan (Whittle 1955) (Cowan 1991) a été développée. Cette approche aboutit à une approximation asymptotique Gaussienne du biais d’un mot par rapport à une chaîne de Markov (Prum et al. 1995) (Schbath 1995). 10.3.2 Résultats asymptotiques Nous présenterons ici un résumé des théorèmes et lemmes concernant les résultats asymptotiques pour les chaînes d'ordre m. Nous simplifierons un peu la notation par rapport aux travaux de S. Schbath. Tous ces résultats sont dérivés des modèles conditionnels qui sont exposés en détail dans (Schbath 1995). Théorème 1 (Schbath 1995) - La statistique centrée réduite Zm = NW − Em (W ) Varm (W ) (Eq. 10.3) est définie pour n suffisamment grand et converge vers une variable aléatoire Gaussienne centrée réduite. Lemme 1 (Schbath 1995)- L’espérance asymptotique pour une chaîne de Markov d’ordre m est donnée par : h−m ∏ j =1 N (w j w j +1...w j + m ) nEm (W ) = h−m ∏ j = 2 N (w j w j +1...w j + m −1 ) (Eq. 10.4) Lemme 2 (Schbath 1995)- La variance asymptotique pour une chaîne de Markov d’ordre m est donnée par : h − m −1 Varm [W ] p = µ (W ) + 2 ∑ δ (W ; d ) µ (W ( d ) W ) n → +∞ n d =1 lim na1. ..a m + 2 1 − 2 nw1 ...w m + na1 ...a m+1 2 + µ (W ) ∑ − ∑ + a1 ,..., a m µ ( a1 ...am ) a1 ,..., a m+1 µ ( a1 ...am +1 ) µ ( w1 ...wm ) (Eq. 10.5) 2 où W(d)W est le mot obtenu par concaténation des d premières lettres de W avec W (e.g. pour W=CGCGC, on a W(1)W=CCGCGC; W(2)W=CGCGCGC). 100 Le terme δ(W;d) corrige les effets de chevauchement lettres de W sont les mêmes que les dernières h-d : δ(W;d)=1 si les premières h-d lettres ; δ(W;d)=0 dans les autres cas (pas de chevauchement). Par ailleurs, na1 ...a m+1 = h − m +1 ∑1{w j = a1; w j +1 = a2 ;...; w j + m = am +1} j =1 et na1 ...a m + = ∑ na1 ...a m b = ∑ b b h − m +1 ∑1{w j = a1; w j +1 = a2 ;...; w j + m −1 = am ; w j + m = b} j =1 sont des comptages du mot a1...am et a1...amX. Lemme 3 (Schbath 1995)- La covariance asymptotique pour une chaîne de Markov d’ordre m est donnée par :` Covarm [W , W' ] h − m −1 = ∑ δ (W , W' ; d ) µ (W ( d ) W' ) + µ (W ) µ (W' ) * n → +∞ n d = m +1− h lim na1. ..a m + n' a1. ..a m + na1 ...a m+1 n' a1 ...a m+1 − ∑ (Eq. 10.6) ∑ a a a a ) µ ( ... ) µ ( ... a1 ,..., a m a1 ,..., a m +1 m +1 m 1 1 * n' n 1{w1 = w' 1 ;...; wm = w' m } w' 1 ... w' m + − w1 ...w m + − + µ ( w1 ...wm ) µ ( w1 ...wm ) µ ( w' 1 ...w' m ) où n a1 . ..am et n ' a1. ..a m sont les comptages du mot a1...am dans W et W' et w'i est la lettre à la position i de W'. Le cas particulier δ(W,W';0)=1 arrive seulement si W=W' (chevauchement complet des deux mots). Naturellement, dans ce cas le lemme 3 est réduit au lemme 2. 10.3.3 Simplifications dans le cas maximal Les expressions présentées pour les trois lemmes précédents se simplifient considérablement dans le cas d’ordre maximal (m= h-2). Ainsi, l’expression du Lemme 1 devient : Em (W ) = N ( w1w2 ...wm +1 ) N ( w2 w3 ...wm + 2 ) N ( w2 w3 ...wm +1 ) (Eq. 10.7) 10.3.3.1 Variance La simplification de la formule pour la variance dans le cas de l’ordre maximal a été faite à partir d’une approche basée sur les martingales (Schbath 1995). Ici, nous suivrons une voie différente, en la déduisant directement des formules asymptotiques. Ceci, bien que plus compliqué, a l’avantage d’être immédiatement applicable à la covariance (qui n’était pas disponible explicitement dans la littérature). A partir du lemme 2 on a : 101 lim n → +∞ Varm [W ] = µ (W ) + (terme 1) n (1) 2δ (W ;1) µ (W W ) + (terme 2) 2 2 n 1 − 2 n n a1. .. a m + w1 ... w m + a1 ... a m +1 µ (W ) 2 ∑ − ∑ + (terme 3) a1 ,..., a m µ ( a1 ...am ) a1 ,..., a m+1 µ ( a1 ...am +1 ) µ ( w1 ...wm ) Considérons B (de beginning) le mot de taille h-1 obtenu de W, par suppression de la dernière lettre (B=w1w2...wh-1), E (de end) le mot de taille h-1 obtenu de W, par suppression de la première lettre (E=w2w3...wh), M (de middle) le mot de taille h-2 obtenu de W, par suppression de la première et la dernière lettre (M=w2w3...wh-1), Ms le mot de taille h-2 obtenu de W, par suppression des deux dernières lettres (Ms=w1w2...wh-2). Le deuxième terme est nul si B≠E, puisque dans ce cas B et E sont incompatibles. Si B=E (W est nécessairement une série consécutive de longueur h d’une seule lettre) on a : 2 µ (W (1)W ) = 2 µ ( w1w1w2 ...wh −1 )µ ( w1w2 ...wh ) µ ( w1w2 ...wh )2 µ (W ) 2 =2 =2 µ ( w1w2 ...wh −1 ) µ ( w1w2 ...wh −1 ) µ ( B) La seconde égalité de l'expression précédente est due au de Markov d’ordre h-2 et la troisième fait qu’il s’agit d’un processus égalité vient du fait que W est une simple série d’une lettre. Pour le troisième terme, on a : ∑ a1 ,..., a m ∑ 4 / µ ( M ), = µ ( a1 ...am ) 1 / µ ( M ) + 1 / µ ( M s ), a1 ,..., a m +1 na1. ..a m + 2 B= E B≠ E B= E 4 / µ ( B), = µ ( a1 ...am +1 ) 1 / µ ( B) + 1 / µ ( E ), B ≠ E na1 ...a m+1 2 (1 − 2 * 2) / µ ( M ), B = E = B≠ E µ ( w1 ...wm ) (1 − 2) / µ ( M s ), 1 − 2 nw1 ...w m + En résumé : Pour E=B on a (Ms=M) : 2 Varm [W ] 2 µ (W ) 2 2 2 2 3 = µ (W ) + + µ (W ) 2 − − − s + s n → +∞ µ ( B) n µ ( M ) µ ( M ) µ ( B) µ ( E ) µ ( M ) lim = µ (W ) [( µ( M ) − µ( B))( µ( M ) − µ( E ))] µ ( M )2 Pour E≠B on a : 1 Varm [W ] 1 1 1 1 = µ (W ) + µ (W ) 2 − − − s + s n → +∞ n µ ( M ) µ ( M ) µ ( B) µ ( E ) µ ( M ) lim = µ (W ) [( µ( M ) − µ( B))( µ( M ) − µ( E ))] µ ( M )2 C’est le résultat qui se trouve dans (Schbath 1997). 102 10.3.3.2 Covariance Nous traitons maintenant le cas W≠W'. 1 Covarm [W , W' ] = ∑ δ (W , W' ; d ) µ (W ( d ) W' ) + µ (W ) µ (W' ) n → +∞ n d = −1 lim na1. ..a m + n' a1. ..a m + na1 ...a m+1 n' a1 ...a m+1 − ∑ ∑ µ ( a1 ...am ) µ ( a1 ...am +1 ) a1 ,..., a m +1 a1 ,..., a m n' nw' 1 ...w' m + 1{w1 = w' 1 ;...; wm = w' m } − w1 ...w m + − + µ ( w1 ...wm ) µ ( w1 ...wm ) µ ( w' 1 ...w' m ) Pour le premier terme on a : µ (W' ( d ) W ) d = −1 et B' = E δ (W , W' ; d ) µ (W ( d ) W' ) = µ (W ) d = 0 et W = W' µ (W (1)W' ) d = 1 et B = E' Les autres termes se déduisent comme dans le cas de la variance. Le résultat final est résumé sur la Figure 10.2 (O = oui ; N = non). W=W' µ (W ) [(µ ( M ) − µ ( B))(µ ( M ) − µ ( E ))] µ( M) 2 O N E=B O B=B' − O N N E'=B' O µ ( W ) µ (W ') E=B' O O B'=B O − B'=E O µ (W ) µ (W ') 1 1 1 −2 + µ ( B) µ ( B ') µ ( M ) B=E' O µ (W ) µ (W ') 1 1 − µ ( B ') µ ( B ) µ (W ) µ (W ') µ ( B) [ [ N E'=B [ 1 1 1 −2 + µ (B' ) µ ( B) µ ( M ) B=E' N N µ(W ) µ(W ') µ ( B) O µ (W ) µ (W ') [ 1 1 − µ ( B ) µ ( B ') [ [ [ [ Figure 10.2 - Résumé des expressions pour le calcul de la covariance pour une chaîne de Markov d'ordre maximal. 10.4 La démarche 10.4.1 L'importance de l'ordre maximal Dans les travaux présentés dans cette thèse, nous avons toujours utilisé des chaînes de Markov d'ordre maximal pour analyser les biais des mots. On calcule, dans ce modèle, la 103 fréquence attendue d'un mot par rapport aux plus longs sous-mots qu'il contient (voir Tableau 10.2). Pour une taille m donnée nous cherchons à établir si la construction aléatoire de la séquence en tenant en compte les fréquences des mots de taille m-1 peut expliquer les fréquences observées des mots de taille m. Ainsi notre question revient à se demander quelle est la probabilité de trouver plus (ou moins) ces mots dans l'ensemble des séquences aléatoires qui partagent la même fréquence de mots de taille m-1. Par exemple, pour un mot de taille 4 (GATC), on prend en considération la fréquence des deux mots les plus longs que le mot original contient (ici GAT et ATC) et donc implicitement de tous les sous-mots de tailles inférieures. Si ces deux mots sont très fréquents, nous nous attendons à ce que GATC soit également très fréquent simplement par hasard. L'incorporation des sous-mots permet ainsi de normaliser les comptages du mot. L'utilisation des chaînes d'ordre maximal est la meilleure solution pour l'analyse du biais qui porte sur un mot spécifique. En effet, si un signal est exclusif d'un seul mot (e.g. sites de restriction), l'analyse permettra d'identifier le biais qui porte sur le signal au delà des biais des mots plus petits qu'il contient. En revanche, si la taille du signal est variable (e.g. 5 ou 6), alors cette approche va défavoriser la détection du biais des variantes les plus longues. Enfin, dans tous les cas, si le signal est dégénéré (e.g. le RBS), alors l'approche Markovienne exacte risque de le manquer en raison des effets de dilution du biais sur les différentes variantes du signal. Malheureusement, nous ne disposons pas encore de méthodes très efficaces pour ce cas de figure. Tableau 10.2- Expressions pour l'espérance d'un mot d'une certaine taille de Markov d'un ordre quelconque (en colonne). k k (en ligne) par rapport à un modèle ordre de la chaîne K 0 1 2 2 ∏i =1 N (wi ) - - - 3 ∏i =1 N (wi ) ∏i =1 N (wi wi +1 ) - - n2 N ( w2 ) ∏i =1 N (wi ) ∏i =1 N (wi wi +1 ) 3 ∏i = 2 N (wi ) ∏i =1 N (wi wi +1wi + 2 ) - 2 ... k-2 n 4 3 4 n3 2 3 2 N ( w2 w3 ) ... k - ∏i =1 N (wi ) k n k −1 k −1 ∏ k =1 N (wi wi +1 ) k −1 ∏i = 2 N (wi ) k −2 ∏i =1 N (wi wi +1wi + 2 ) k −2 ∏i = 2 N (wi wi +1 ) 104 ∏i =1 N (wi ...wi + k − 2 ) 2 N ( w2 ...wk −1 ) 10.4.2 Les chaînes de Markov comme hypothèse nulle L'idée sous-jacente à l'utilisation des chaînes de Markov n'est pas la construction effective de séquences biologiques par des mécanismes stochastiques. Ceci n'aurait pas de sens puisque les séquences biologiques contiennent des éléments fonctionnels contingents à leur histoire évolutive. Par contre les chaînes de Markov produisent des séquences qui respectent les propriétés moyennes des fréquences des mots d'une certaine taille. Ainsi, elles sont utilisées pour comparer une séquence biologique avec une séquence aléatoire de même composition. Les chaînes de Markov constituent donc une hypothèse nulle dont on peut se servir pour établir l'importance des biais, et le z-score permet, ensuite, de tester cette hypothèse. 10.4.3 Résumé de la méthode Nous allons maintenant résumer la méthode expérimentale de l'analyse des biais de mots par rapport à un modèle de Markov d'ordre maximal (Figure 10.5). Nous découpons données en sous-ensembles homogènes par rapport au problème biologique les en question (voir Chapitre 4). Ensuite nous déterminons le nombre de mots observés d'une taille k donnée. Notre objectif est alors de déterminer dans l'ensemble de ces mots, lesquels sont biaisés. Nous utilisons dans ce but le z-score suivant : zW = N (W ) − E (W ) Var (W ) (Eq. 10.8) où N(W) est le comptage observé du mot W=w1...wm, et E(W) et Var(W) sont données par : E (W ) = Var (W ) = E(W ) N ( w1w2 ...wm −1 ) N ( w2 w3 ...wm ) N ( w2 w3 ...wm −1 ) (Eq. 10.9) [( N (w2 w3 ...wm −1 ) − N (w1w2 ...wm −1 ))( N (w2 w3 ...wm −1 ) − N (w2 w3 ...wm ))] (Eq 10.10) N ( w2 w3 ...wm −1 )2 On sait que la distribution asymptotique de ce z-score est une Gaussienne centrée réduite. Ainsi, pour des comptages suffisamment grands nous pouvons appliquer (10.8) pour chaque mot de taille k. L'ensemble des mots biaisés est donc constitué par les mots dont les z-scores sortent d'un intervalle de confiance défini a priori (d'après la loi Normale). Nous utilisons généralement des intervalles de confiance à 1 ‰. Naturellement si k est grand (e.g. 6), on s'attend à trouver quelques mots en dehors de l'intervalle fixé (puisqu’il y a 4096 mots de taille 6). Néanmoins ceci ne sera pas très grave étant donné le nombre beaucoup plus grand de mots repérés par la méthode (voir chapitre 4). 105 k Mots chevauchants de taille k Modèle: chaîne de Markov d'ordre k-2 N Comptages observées N Calcul des comptages E zW = N(W ) − E(W) Var (W) Sur/sous représentation Figure 10.5 - Résumé de la démarche de l'analyse de biais de mots. 106 11. Statistiques et algorithmes pour la recherche de répétitions longues Nous examinerons dans ce chapitre les questions statistiques et algorithmiques relatives à la recherche de répétitions longues dans les textes génomiques. Notre objectif est l’identification des répétitions les plus longues présentes dans un génome. Ceci soulève immédiatement deux questions complémentaires. Quelle est la taille minimale d'une répétition “longue” ? Quelle méthode efficace utiliser pour trouver ces répétitions ? La réponse a ces deux questions constitue le but de ce chapitre. Nous avons examiné dans le chapitre précédant les statistiques l’identification des biais de fréquences de mots. Cette question est très différente relatives à de celle que nous traitons ici. En effet, notre problème n’est plus de vérifier si la fréquence d’un mot donné est en accord avec la valeur attendue dans un modèle donné. Il s’agit de trouver quelle est la taille à partir de laquelle nous pouvons garantir que le mot n’est pas répété simplement par hasard. Comme dans le chapitre précédant le mot hasard peut signifier beaucoup de choses et est toujours dépendant d'un modèle sous-jacent. Dans ce chapitre nous considérons toujours des chaînes de Markov d’ordre 0, i.e. le modèle d'indépendance entre les positions. Le chapitre précédent suggère que cette hypothèse est simpliste puisque les mots sont biaisés par rapport aux modèles maximaux jusqu’au moins à la taille huit. Nous discuterons cette simplification dans la section 11.1.2. 11.1 Segments homologues maximaux entre séquences aléatoires 11.1.1 Expressions de l'espérance et de la variance : cas d'une seule séquence Considérons un alphabet A (e.g. dans l’ADN, A = {A, C, G, T}), de m lettres et une séquence S de taille N. Un mot de taille k est un ensemble de k lettres consécutives d’une 107 séquence de S. Considérons le modèle d’indépendance où les positions consécutives de S sont des variables aléatoires, indépendantes et identiquement distribuées à valeurs dans A. On note pi la probabilité d'apparition du ième symbole de A. Notre but est de caractériser les longs mots répétées dans la séquence S au moins r fois (i.e. présents en r copies identiques). Dans ce but, nous décrirons les propriétés de la variable aléatoire Lr(N), la longueur du plus grand mot qui existe au moins r fois dans la séquence S de taille N. Supposons les séquences générées suivant un processus de Markov dont la matrice de transition est P. On note P(r) le produit de Schur de P par lui même r fois (P(r) = PºPº...ºP) (rappelons que le produit de Schur de A=||aij|| par B=||bij|| est AºB=||aijbij||). Pour une chaîne de Markov d'ordre 0, la première valeur propre de P(r) vaut: λ[ r ] = ∑ j =1 p rj 4 (Eq. 11.1) Notons αj(k,r) la probabilité d’un match commun de taille ≥ k aux positions autour de j. Pour toute séquence engendrée par la chaîne d’ordre 0, la collection de probabilités {αj(k,r)} est indépendante de j et a la forme : ( ) α j ( k, r ) = λ[ r ] k −1 γ + δ (k ) (Eq. 11.2) Dans cette formule γ est une constante positive (égale à λ pour les chaînes de Markov d'ordre 0), et δ(k)/(λ[r])k, converge vers zéro à taux géométrique quand k tend vers l’infini. La variable δ dépend de forme complexe de P et r. Karlin et Ost donnent dans (Karlin & Ost 1985), la moyenne et la variance asymptotiques de Lr(N) pour N →∞ : ( E L(rN ) ) ( N log r + α λ[ r ] , λ + 0.5 + ε N λ[ r ] = − log(λ[ r ] ) Var L(rN ) ( ) 1 = 1.645 log λ[ r ] ( ) ( ) ) 2 r + δ N λ[ ] ( ) (Eq. 11.3) (Eq. 11.4) Dans le cas de bases à fréquence identique, il a été estimé que |εN |< 0.0014, et que 0.1091< δN< 0.1104. Ainsi pour les séquences suffisamment longues nous pouvons utiliser les formules simplifiées suivants pour l'espérance et la variance. ( ) E L(rN ) = 1 − log λ[ r ] N [r ] [r ] log r + log 1 − λ + log λ + 0.5772 + 0.5 ( ) 108 (Eq. 11.5) ( Var L(rN ) ) 1 = 1.645 log λ[ r ] ( ) 2 (Eq. 11.6) 11.1.2 Expressions de l'espérance et de la variance : cas de plusieurs séquences Considérons le même alphabet A que précédemment de m lettres et S séquences indépendantes S1, S2, .., Ss de tailles N1, N2, ..., Ns, respectivement. Un mot de taille k est un ensemble de k lettres consécutives d’une séquence de S. Considérons le même modèle d’indépendance que précédemment où les positions consécutives de Si sont des variables aléatoires, indépendantes et identiquement distribuées à valeurs dans A. On note pi., λ et αj(k,r) comme précédemment. Notre but est de caractériser les longs mots répétés parmi les s séquences au moins r fois. On note Kr,s(N) la longueur du plus long mot commun parmi au moins r des s séquences S1, S2, ..., Ss, de taille N1, N2, ..., Ns. Karlin & Ost donnent dans (Karlin & Ost 1985), la moyenne et la variance asymptotiques de Kr,s(N) pour N →∞ : ( E Kr(,Ns ) ) s log r r log N [r ] [r ] = [r ] + [ r ] + α λ , λ + 0.5 + ε N λ − − log λ log(λ ) ( Var Kr(,Ns ) ( ) 1 = 1.645 log λ[ r ] ( ) 2 ) ( ) r + δ N λ[ ] ( ) (Eq. 11.7) (Eq. 11.8) εN et δN sont bornés comme dans le cas précédent. Ainsi pour les séquences suffisamment longues nous pouvons utiliser les formules simplifiées pour l'espérance et la variance. ( ) E Kr(,Ns ) = ( Var Kr(,Ns ) ) 1 − log λ[ r ] s r [r ] log N λ (1 − λ ) + log r + 0.5772 + 0.5 [ 1 = 1.645 log λ[ r ] ( ) ] (Eq. 11.9) 2 (Eq. 11.10) 109 11.1.3 Analyse de la validité des statistiques 11.1.3.1 Comportement asymptotique de l'approximation normale Nous disposons des expressions pour l'espérance et la variance de Lr(N) et Kr,s(N), mais nous ignorons leur distribution. Ainsi, la définition des intervalles de confiance a été faite en nous basant sur la distribution Normale. En réalité ceci ne serait correct que pour des séquences de taille infinie. Néanmoins la distribution normale donne des résultats beaucoup plus proches de nos simulations que les distributions habituellement utilisées dans la statistique d'extrêmes, (distribution de Gumbel ou distribution de Fréchet). Pour vérifier la justesse de cette approximation, nous avons réalisé quelques simulations. Nous avons construit des chromosomes aléatoires de tailles (5, 50, 500 et 5 000 kb) et contenu G+C différents (50%, 40%, 30%). Nous fabriquons pour chaque combinaison de ces paramètres 1000 chromosomes aléatoires (dans l'hypothèse d'indépendance des positions) et nous calculons le rapport du nombre de répétitions (r=2) observées sur les attendues à un niveau de signifiance de 1 % (Figure 11.1). On rappelle qu'à ce seuil on s'attend a trouver une répétition sur 100 génomes aléatoires. Les résultats montrent que la puissance du test est un peu inférieure à l'attendu. Néanmoins, la différence n'est pas très importante, puisqu'au maximum nous trouvons 60 répétitions dans mille chromosomes aléatoires pour 10 attendues. En étant donnée le nombre très élevé de répétitions que nous trouvons dans les génomes réels (Chapitre 7), ceci ne pose pas de difficultés majeures. Cette conclusion est valable pour toute la gamme de tailles de génomes et d'hétérogénéités de composition analysées. 7 Observ é/A t t endu 6 5 4 3 50/5 0 2 70/3 0 1 60/4 0 0 5 50 500 5000 t aille du génome ( kb) Figure 11.1- Le rapport observé/attendu du nombre de répétitions trouvés dans des génomes aléatoires de taille 5, 50, 500 et 5 000 kb. On a fait 1 000 expériences pour chaque point et le nombre attendu est calculé à un seuil de 1%. Nous avons généré trois ensembles de chromosomes, différents en termes de fréquences de chaque nucléotide. Nous considérons toujours A=T et C=G. Le valeurs sont 50/50 pour un génome 50% A+T; 60/40 pour un génome 60% A+T; 70/30 pour un génome 70% A+T. L'ordonnée indique le rapport du nombre de répétitions (r=2) observés sur attendues à un seuil de 1% dans l'hypothèse où L2N est distribué suivant une loi Normale. 110 11.1.3.2 Effets des dépendances d’ordre supérieur à zéro Dans la définition des statistiques précédentes nous avons supposé des chaînes de Markov d'ordre 0, c'est à dire l'indépendance entre les positions dans la séquence. Ceci n'est pas en accord avec ce qu'on sait des séquences biologiques (cf. chapitre 4 et 10). En conséquence, nous avons voulu tester cet effet sur le génome de Mycoplasma genitalium. Pour ceci, nous avons créé des séquences "shufflées" du génome de Mycoplasma genitalium avec la même composition en mots de taille k (k ∈ [1, 6]). Ensuite nous avons regardé combien de répétitions (r=2) sont trouvées défini par le modèle précédent, dans ces génomes aléatoires, en utilisant le seuil qui ne prend en compte que la distribution en mononucléotides. Ainsi nous regardons quel est l'effet du biais des mots sur la méthode. En particulier, nous sommes intéressés à déterminer la perte de puissance du test quand des biais de mots sont présents. Les résultats de 10 000 simulations pour chaque taille, montre qu'il y a une perte de puissance quand on considère les mots de taille 2 (Figure 11.2). Ensuite la perte de puissance est moins importante. Il faut remarquer que nous avons utilisé le génome de Mycoplasma genitalium, parce que c'est le plus petit des génomes connus. Ainsi, les valeurs présentées peuvent être considérées comme les valeurs maximales. 12 Observé/A tt endu 10 8 6 4 2 0 1 2 3 4 5 6 k Figure 11.2- Rapport observé/attendu du nombre de répétitions trouvés dans les séquences shufflés de Mycoplasma genitalium. Les séquences sont shufflés en maintenant la fréquence des mots d'une certaine taille k (k varie entre 1et 6). Pour chaque valeur de k, nous avons généré 10 000 génomes shufflés. 11.2 L’algorithme de Karp-Miller-Rosenberg Karp, Miller et Rosenberg (KMR) ont proposé un algorithme efficace pour identifier les "patterns" répétés dans des chaînes de caractères, des arbres ou des tableaux (Karp et al. 1972). Cependant, puisque notre application est limitée aux chaînes de caractères, nous allons nous restreindre ici à ce cas plus simple. Nous présenterons l'algorithme utilisant l’approche des piles avec la généralisation multi-séquences proposé par Landraud et 111 collègues (Landraud et al. 1989). D'autres applications de l’algorithme KMR peuvent être trouvées dans (Sagot et al. 1995b) (Soldano et al. 1995). 11.2.1 KMR pour une séquence KMR repose sur la notion de k-équivalence suivante : Définition 1 (Karp et al. 1972)- Deux positions x et y dans une chaîne de caractères S de longueur n sont k-équivalentes, noté x Ek y, si et seulement si les deux sous-chaînes de longueur k sx...sx+k-1 et sy...sy+k-1 sont identiques. Un lemme suit de cette définition : Lemme 1 (Karp et al. 1972)- x Ea+b y ⇔ (x Ea y et x+b Ea y+b) (avec b ≤ a). La démonstration est évidente à partir de la figure suivante : a a x y x+b n y+b a a L’algorithme utilise ce lemme pour construire les relations Ek à partir de E1 (qui est triviale) de la façon suivante (Figure 11.3). 1 La relation Ek est représentée par le vecteur de taille n-k+1, v(k)=[v1(k), v2(k), ,..., vn-k+1(k)] où vi(k) est l’étiquette de la classe Ek à laquelle la position i appartient (i=1, 2, ..., nk+1). 2 Chaque relation Ek détermine ek classes, numérotées de 1 a ek. 3 Ea+b est construit à partir de Ea par application du Lemme 1. Ceci est réalisé par l’intermédiaire des deux ensembles P et Q de ea piles chacun. Les positions i dans la chaîne de caractères S, sont placés dans les ensembles de piles P et Q de la façon suivante. 3.1 Les positions i qui appartiennent à la classe de Ea sont mises dans la même pile P(vi(a)). 3.2 Chaque élément de P est dépilé et les numéros i ainsi obtenus sont placés dans correspondantes de Q (précisément dans 3.3 les piles Q(v(a)i+b)). Chaque pile de Q est successivement dépilée. La classe v(a) de chaque position déjà retirée est comparée à la classe précédente. Si les deux classes sont différentes, les positions proviennent de deux piles de P différentes. Comme les positions sont maintenant triées au cours du processus ceci signifie que l'ont doit incrémenter le compteur de classes de Ea+b. KMR est conçu pour résoudre deux questions différentes : (1) La détermination de tous les mots répétés d'une taille donnée k ; (2) La détermination du plus long mot répété (taille kmax inconnue au départ). 112 En pratique, pour resoudre le problème (2) on procède de la manière suivante : A partir de E1 le lemme 1 est utilisé avec a=b pour calculer itérativement E2, E4, E8. Si k n'est pas une puissance de 2, on calcule ainsi la plus grande valeur k'=2p inférieure à k telle qu'il existe des mots répétés, puis on utilise le lemme 1 (avec a = k' et b = k'-k) pour calculer les mots répétés de taille k. pour resoudre le problème (2) on commence de p façon (E2, E4, E8…) jusqu'à la valeur k=2 telle que pour 2 p+1 la même il n'existe plus de mots répétés. En utilisant alors le lemme 1 on procède par dichotomie (entre 2p et 2p+1) pour déterminer kmax (Emax). 1 2 3 4 5 6 7 S A B A A B A A V( 1) 1 2 1 1 2 1 1 E1 contient e1=2 classes correspondant aux mots d'une lettre : classe 1 : A classe 2 : B La construction de E2 : (i.e. Ea+b où a=2 et b=2) 2) Depiler p de chaque P[i], et mettre p dans Q[V 1[p+1]] (si p+1≤n) 1) Les positions i de la même classe E1 sont mises ensemble 7 4 3 1 2 5 5 2 2 4 1 3 6 P(1) P(2) 1 Q(1) Q(2) 3) E2 contient e2 =3 classes de mots de 2 lettres. Les classes sont crées par dépilement successif de Q. classe 1 : BA classe 3 : AB classe 2 : AA V(2 ) 3 1 2 3 1 2 - La construction de E4 : (où a=2 et b=2) 1) Les positions i de la même classe E2 sont mises ensemble 2) Retiré si < q 4 1 5 2 6 3 4 1 3 2 1 3 P(1) P(2) P(3) Q(1) Q(2) Q(3) 3) E4 contient e4=1 classes de mots de 4 lettres. Les classes sont crées par dépilement successif de Q. V(4 ) 1 - - 1 - - - classe 1 : ABAA Figure 11.3 - Un exemple de l'algorithme de KMR (d'après (Sagot et al. 1995a)). La complexité en temps de l’algorithme est limitée par la construction des relations d’équivalence Ea+b en fonction de Ea. Celle-ci est en O(n), puisque les opérations d’empilement et dépilement concernent au plus n éléments. Ainsi le problème de trouver le plus grand k possible est résolu en O(n.log(k)). Dans le pire des cas k = n, mais en pratique k est très inférieur à n. Les vecteurs va et va+b ont une taille maximale n, les deux ensembles 113 de piles P et Q ont une taille maximale ea < n. Ainsi la complexité en espace de mémoire est O(n). 11.2.2 KMR pour plusieurs séquences Dans cette section, nous adaptons KMR pour trouver les plus grandes sous-séquences communes à q parmi un ensemble de N séquences (q≤N). Une légère modification de l’algorithme suffit à résoudre le problème. Ceci passe par la concaténation des N séquences en une seule séquence S (Landraud et al. 1989). La position d’un mot est celle de son premier caractère dans S, mais il faut garder maintenant l’information sur les bornes de chaque séquence dans S. Les tableaux v(k) sont produits à partir des tableaux v(1) comme précédemment. A chaque étape nous ne gardons que les mots qui obéissent à la condition du quorum (existence dans au moins q des N séquences). En effet, si un mot ne satisfait pas le quorum, alors un mot plus long qui l'inclue ne peut pas le satisfaire non plus. 11.2.3 Implémentations particulières de KMR Plusieurs variantes de KMR ont été implémentées dans le cadre de cette thèse. Nous les décrivons brièvement dans les paragraphes suivants. Lari est le programme à la base de tous les autres. Il permet l’identification des plus longs mots répétés au moins r fois dans 1 séquence (r est un paramètre). Le programme inclut les statistiques de Karlin et Ost (Karlin & Ost 1985), décrites plus haut, pour calculer un seuil de longueur minimale significative pour une probabilité donnée. Par ailleurs, le programme permet également l’identification des mots d'une taille donnée ou de tailles supérieures ou égales à une taille donnée. Le programme mari est l’extension de lari pour les recherches des plus longues répétitions présentes simultanément dans plusieurs séquences. Pour ceci, nous avons implémenté les statistiques de Karlin et Ost dans ce cas (Karlin & Ost 1985) ainsi que la modification de KMR pour séquences multiples (Landraud et al. 1989). Le programme accepte un paramètre supplémentaire, le nombre s de séquences avec la répétition (en plus de r, le nombre minimal de répétitions (nécessairement r≥s)). Les autres programmes sont dérivés soit de lari soit de mari par changement de la règle du quorum ou par le fait qu’ils agissent sur des fenêtres glissantes et non sur des séquences. Ainsi, le programme wali est un lari adapté à la recherche de répétitions sur une fenêtre glissante (lari "local"). Le programme twari recherche des répétitions présents sur les deux brins d’ADN et dans une fenêtre glissante. 114 11.3 Filtrage des résultats La combinaison de KMR et des statistiques d’extrêmes fournit une méthode efficace et statistiquement solide pour la recherche de longues répétitions dans les génomes. Cependant, la méthode exige une étape préliminaire de filtrage et transformation des donnés. 11.3.1 Les motifs répétitifs (répétitions de faible complexité) L’objectif de l’analyse est d’identifier des répétitions longues dans les génomes, mais non des motifs répétitifs simples. Nous avons utilisé un "filtre entropique" pour enlever ce type de répétitions. L’entropie informationnelle telle qu’elle a été définie par Shannon (Shannon & Weaver 1949) est mesurée par (Schneider et al. 1986) : H = ∑ i = A pi log pi T Dans cette formule pi est la fréquence relative du nucléotide i dans la séquence. Ici, nous utiliserons l'entropie relative, définie par le rapport : p log pi = ∑i = A i T H Ho (Eq. 11.11) ∑i = A pG log pG T i i où piG est la fréquence relative du nucléotide dans le génome. L’entropie relative est 1 si les répétitions ont la même composition que le génome et la répétition. 0 si une seule base est présente dans Dans notre étude, nous l’utilisons comme une mesure, grossière, de l’homogénéité des répétitions. Des raffinements de l’équation précédente sont possibles, notamment en utilisant des dinucléotides à la place de nucléotides. Le nombre très réduit des répétitions de faible complexité dans les génomes bactériens rendent cette approche simplifiée néanmoins satisfaisante. 11.3.2 Les trains au lieu des répétitions Il est important de noter que, dans l'approche précédemment décrite, nous recherchons des répétitions strictes, c'est à dire pour lesquelles les deux copies sont strictement identiques. Ainsi, si une répétition longue n’est pas stricte (parce qu’elle a accumulé des mutations), elle devient un ensemble ordonné de répétitions strictes (Figure 11.4). Puisque, dans la plupart des cas, l’unité d’intérêt biologique est la répétition la plus longue, il nous a fallu mettre au point une méthode pour agréger ces répétitions en un train de répétitions. Figure 11.4 - Une répétition longue composée de plusieurs répétitions strictes plus petites séparés par des mésappariements ou des délétions. 115 Nous appellerons un train une répétition non-stricte obtenue par l’agglomération de répétitions strictes. Les répétitions strictes deviennent ainsi les wagons de ces trains. Un train peut avoir un seul wagon et, dans ce cas, le train et le wagon sont constitués par la même séquence. Les conditions pour joindre une répétition à un train sont les suivantes : i) Deux répétitions constituent deux wagons consécutifs d’un même train quand d’occurrences se présentent le même ordre sur la chaîne et les deux paires ii) quand la moyenne quadratique des distances entre les deux wagons consécutifs est inférieure à un certain seuil (Figure 11.5). Ce seuil a pour but de minimiser les agglomérations dues au hasard. En pratique 1000 pb donnent de bons résultats. lab a lbc b pb pa a' la' b' c lab + la'b' 2 < 2L l bc2 + l b' c'2 < 2L 2 lb ' c' b' p b' p a' p a < pb < p c p a' < pb ' < pc ' pc c' pc ' Figure 11.5 - Règles pour la définition d’un train de 3 wagons. pi est la position de l’occurrence i et li sa longueur. L est un seuil généralement défini à 1000 pb. Après l'étape de construction des trains, nous avons terminé la première phase de l’analyse des répétitions (Figure 11.6). Il faut remarquer que quand nous parlons de répétitions dans un contexte biologique, comme dans le chapitre 7, c’est alors aux trains de Séquence génomique (-ARNt et ARNr) Ka rl in & Ost Analyse des résultats Calcul de Lmin Liste des répétitions Recherches de similarité 2ème occurrence répétitions que nous faisons référence. 1ère occurrence Recherche de la plus longue r-répétition L ≥ Lmin ? Non Filtrage des motifs répétitifs Oui KMR Enregistrer les occurrences de la répétition et les enlever de la séquence Figure 11.6 - Schéma général de l’utilisation de lari. 116 Construction des trains 11.4 Analyse de la similarité 11.4.1 Analyse de la similarité entre les occurrences Comme les trains correspondent à des répétitions dont les occurrences ne sont pas strictement identiques, il devient important de caractériser la similarité des deux occurrences. Pour ce but, il nous faut définir une méthodologie de comparaison des deux séquences. L’alignement simple des deux occurrences (qu'il soit global ou local) n’est pas nécessairement intéressant. Si les trains sont assez espacés (et très différemment espacés), la comparaison simple entre les deux séquences est peu informative. Pour aligner les deux occurrences nous avons employé une modification de l’alignement global de Needleman-Wunsch, dans laquelle les extrémités non alignées de la séquence la plus longue ne contribuent au score final de l’alignement ("end-gap free") (Erickson & Sellers 1983). Ainsi, nous réalisons un ajustement d’une séquence plus petite dans une séquence plus longue. Nous considérons ensuite chaque paire d’occurrences de trains (A et A') plus les séquences flanquantes de chaque extrémité (typiquement 500 bp de part et d'autre). Notons E et E' ces deux environnements. La méthode consiste alors à considérer des fenêtres glissantes sur E (de taille 50 pb par pas de 1 pb), et a les aligner successivement sur E’. De cette façon, nous calculons le score d’alignement optimal pour chaque La représentation de l’ensemble des scores pour les fenêtres de E fenêtre de E dans E’. donne une courbe telle que celle représentée sur la Figure 11.7. Naturellement puisque la méthode n'est pas symétrique nous faisons de même pour des fenêtres glissantes de E’ sur E. Cette méthode est un peu lourde du point de vue de temps de calcul, mais elle est très fine et elle fournit des informations intéressantes sur les séquences. L’exemple de la Figure 11.7.a est tiré de l’analyse du plasmide pWR100 de Shigella flexneri. Il s’agit du cas d’un train de répétitions qui a été coupé par l’introduction d’une séquence d’insertion. Naturellement l’alignement simple des deux séquences donnerait de mauvais résultats en raison de la grande taille du trou. La visualisation graphique de la région permet tout de suite de comprendre la raison de la différence de tailles entre les deux occurrences. L’analyse du contraste entre la région des répétitions et la région environnante est un indice de l’utilisation et du “vieillissement” de la répétition. Dans la Figure 11.7.b nous présentons une répétition dans une région à forte similarité. La première occurrence est dans un gène long (glmS ; 1800 pb codant une amidotransferase) alors que la deuxième occurrence est dans un tout petit gène de fonction inconnue (ybcM, 312 pb). Puisque la similarité débute avant la fin du deuxième gène, on peut se demander s’il ne s’agit pas ici d’une duplication d’un fragment de glmS. Dans ce cas, il est clair que la duplication a eu lieu il y a longtemps, puisque, de la répétition initiale, ne reste qu’une répétition stricte de 35 pb. 117 La Figure 11.7.c montre la situation inverse, puisqu’il s’agit d’un long train de 22 wagons qui définit une région de 1,6 kb presque strictement occurrences. Si la répétition a été créé par le mécanisme proposé identique entre les deux dans le chapitre 8, elle est probablement très récente. Cependant il faut considérer que par sa taille ces occurrences peuvent être l'objet de conversion génique et donc perdre plus lentement leur similarité. 1 2 3 4 5 6 -orf13-u -orf12-s 1 2 3 4 5 6 +IS629 201400 202400 1 +glmS +ybbU 212800 213800 1 +ybcL +ybcM 383260 +srfAA 384260 4 5 6 7 8 9 10 1112 13 14 385260 15 16 171819 20 21 22 12 3 395040 4 5 6 7 8 9 10 1112 13 14 396040 15 16 1718 19 20 21 22 394040 +srfAB 386260 12 3 397040 Figure 11.7 - Trois comparaisons entre des occurrences de répétitions suivant la méthode décrite dans le texte. Les boîtes noires représentent les répétitions strictes et sont numérotées par leurs positions relatives dans les trains. Les boîtes grises représentent les gènes et sont étiquetées par leur nom et par un signe qu'indique le brin (+ brin direct, - brin complémentaire). L'abscisse indique la position de la région dans le chromosome (plasmide pWR100 de S. flexneri en haut et Bacillus subtilis dans les autres cas). Les courbes indiquent la similarité entre des fenêtres glissant sur la séquence et la région de l’autre occurrence (cf. section 11.4.1). 11.4.2 Analyse de la similarité entre répétitions Nous avons utilisé la variante "end-gap free" décrite plus haut (section 11.4.1) afin de réaliser des alignements semi-globaux entre les occurrences des différentes répétitions. Nous obtenons ainsi une matrice de similarités entre les répétitions. Nous construisons ensuite les ensembles disjoints qui regroupent ces répétitions en termes de similarité. Nous utilisons, pour ce but, une technique d'agrégation par simple lien, i.e. si A est similaire à B et B est similaire à C, alors A, B et C sont regroupés dans la même classe. Ceci a l’avantage de grouper tout ce qui peut être similaire, mais présente quelques inconvénients. Si A est composé de deux répétitions XY, B est composé de XZ et C est composé de Z, alors la méthode regroupe des répétitions qui n'ont rien à voir (A et C). Aussi, nous construisons également une classification par lien total. Dans ce 118 cas A, B et C ne sont mis ensemble que si A est similaire à B et C, B est similaire à A et C, et C est similaire à A et B. La comparaison entre ces différentes classifications permet d'identifier les modules qui se regroupent réellement. 11.5 Avantages et désavantages de la méthode La méthode utilisée pour identifier les répétitions maximales présente quelques caractéristiques qui conditionnent de façon importante les résultats. Au début de notre étude KMR était la méthode la plus efficace pour résoudre le problème de façon raisonnable en termes de temps de calcul et de mémoire. Cependant, plusieurs simplifications ont été consenties. En particulier, après l’identification des plus longs mots répétés, nous les enlevons de la séquence initiale et nous recommençons. Ceci a l’avantage d'éviter le repérage des sous-mots composant les répétitions, mais un inconvénient majeur quand il existe une troisième occurrence de la répétition qui n’est pas strictement identique aux deux précédentes. Supposons un mot XnYZm qui est présent deux fois de façon stricte et une fois avec un mésappariement XnWZm. KMR trouvera XnYZm et enlèvera cette occurrence de la séquence. En conséquence XnWZm ne sera pas trouvé. Ainsi, notre méthode retrouve bien tous les types de répétitions, mais risque de sous-estimer leur multiplicité dans le génome. Nous avons partiellement contourné cette difficulté en re-exécutant l'algorithme KMR pour chercher des répétitions présentes au moins rmin fois (rmin = 2, 3, ..., 10). Néanmoins l'automatisation de l'assemblage de ces résultats est difficile et, de ce fait, n’a été faite de façon complète que dans le cas de Bacillus subtilis. Dans ce cas, toutes les répétitions étaient correctement identifiées, au moins de façon partielle, avec rmin=2. Le cas le plus fréquent était de trouver une répétition VlWXnYZm, qui "matchait" avec une répétition VlWXn (de VlWXnUm+1) et avec une répétition YZm (de TlKXnYZm). Ainsi le triplet original était séparé en plusieurs doublets qu’il a fallu rassembler manuellement. Dans ce cadre, les analyses de similarité sont très importantes, parce qu’elles ont permis d’identifier l’extension réelle de la répétition. Récemment une nouvelle implémentation des arbres de suffixes a été publiée (Kurtz & Schleiermacher 1999). Rappelons que la technique des arbres de suffixes permet, entre autres, de résoudre le même problème que KMR mais de manière optimale, c'est à dire, linéairement avec la taille de la séquence. Le problème des arbres de suffixes est que la constante de linéarité en mémoire est généralement très élevée, ce qui fait de KMR une meilleure option pour une bonne part des problèmes d’analyse de séquences. Cependant cette nouvelle implémentation présente une constante du même ordre que KMR ce qui la rend très intéressante. Une comparaison des résultats obtenus par les deux méthodes indique que nous n’avons pas beaucoup perdu par l’utilisation de notre heuristique associé à KMR, au moins en ce qui concerne Bacillus subtilis. Pour des génomes où les répétitions sont particulièrement abondantes et redondantes, l’utilisation de la nouvelle méthode pourrait présenter des avantages significatifs. En revanche, quand il faut considérer des quorums 119 complexes, comme dans le cas de la recherche de répétitions dans les gènes de stress, KMR reste encore la meilleure méthode. Cet algorithme permet, moyennant des changements minimes, la définition de requêtes complexes, comme la spécification de distances minimales et maximales entre les répétitions ou la définition de positions obligatoires. 120 12. Analyse discriminante linéaire Dans ce chapitre nous décrivons la technique d'Analyse Discriminante Linéaire (ADL) initiée par Fisher (Fisher 1936) et son utilisation dans le contexte de cette thèse (voir chapitre 5). L'analyse discriminante linéaire part de la connaissance de la partition en classes des individus d'une population et cherche les combinaisons linéaires des variables décrivant les individus qui conduisent à la meilleure discrimination entre les classes. Dans le chapitre 5 nous avons indiqué que l'utilisation des composantes principales ne donne pas nécessairement les meilleures solutions pour la discrimination. En effet, les directions de variabilité principale ne correspondent pas nécessairement aux directions de meilleure discrimination. 12.1 L'analyse discriminante de Fisher Le point de départ de l'ADL est une matrice X de données observées (individus x variables) dont les éléments sont identifiés dans une (et une seule) des k classes possibles. L'idée de Fisher a été de créer une méthode pour choisir entre les combinaisons linéaires des variables celle qui maximise l'homogénéité de chaque classe (Fisher 1936) (pour une description complète de la méthode voir (Lebart et al. 1995)). 12.1.1 La fonction discriminante de Fisher En utilisant le théorème de Huyghens on peut décomposer la matrice de covariances de la population de taille n en deux matrices différentes, l'une donnant la variabilité dans chacune des k classes et l'autre la variabilité entre les k classes: Σ=E+H (Eq. 12.1) Σ = Xt(In-P1n)X/n matrice des variances/covariances E = Xt(Pc-P1n)X/n matrice de la variabilité inter-classe t H= X (In-Pc)X/n matrice de la variabilité intra-classes 121 Dans les relations précédentes In est la matrice identité, P1n est la matrice de projection orthogonale dans l'espace 1n (i.e. P1n=1n1nt/n ). En conséquence (In - P1n)X est la matrice des données centrées. Pc est la matrice des projections orthogonales sur le sousespace de ℜn généré par les colonnes de la matrice de classification C. C est une matrice à k colonnes et n lignes où l'élément cij est 1 si l'individu i appartient à la classe j et zéro sinon. On peut réécrire l'équation 12.1 sous la forme : atΣa = atEa + atHa (Eq. 12.2) Ainsi, le premier axe (ou fonction) discriminant sera celui qui résulte de la combinaison linéaire des variables (a) qui maximise le rapport : atEa / atΣ a Ceci est équivalent à chercher le maximum de la forme quadratique atEa sous la contrainte atΣ a = 1. La recherche du maximum implique l'annulation des dérivées du Lagrangien : L = atEa - λ(atΣa -1) d'où on déduit la relation : Σa Ea = λΣ (Eq. 12.3) qui devient, lorsque la matrice de covariances est inversible : Σ−1Ea = λa (Eq. 12.4) On arrive donc à la définition complète de la méthode. La combinaison linéaire des variables centrées qui maximise la variabilité inter-classes est donnée par Xa1, où a1 est le vecteur propre associé à la plus grande valeur propre de la matrice Σ-1E. La variabilité inter- classes associée représente ainsi la proportion λ1 de la variabilité totale. Cette valeur est donc une mesure de la capacité discriminante de Xa1, elle sera d'autant plus importante que λ1 s'approchera de 1. La combinaison linéaire Xa1 est la première fonction discriminante des données et a1 est le premier axe discriminant. La matrice Σ-1E ne peut avoir au maximum que k-1 valeurs propres non-nulles. Une fois obtenue la fonction discriminante, celle-ci peut être utilisée pour décrire les facteurs les plus importants dans la discrimination. Ceci permet une visualisation à plus dimensionalité des éléments de la discrimination. Naturellement, la basse fonction peut également être utilisée pour classer de nouveaux individus dont on ignore l'appartenance. 12.1.2 La simplification dans le cas de deux classes Quand la population est divisée en deux classes, l'analyse discriminante linéaire est ramenée au cas de l'analyse de régression multiple y = aX + ε où y ne Considérons donc une population de taille n, prend que deux valeurs. constitué de deux classes de taille n1 et n2. On considère la matrice des covariances entre les classes (E) comme le produit d'une matrice colonne c par sa transposée. 122 E = cct , où c j = ( n1n2 x1 j − x2 j n ) (Eq. 12.5) Ainsi la relation 12.4 devient Σ−1ccta = λa (Eq. 12.6) et finalement, λ = ctΣ−1c (Eq. 12.7) Puisque E est de rang 1, la valeur propre λ est unique (λ est la distance de Mahalanobis entre les deux classes) et son vecteur propre associé a = Σ−1c (Eq. 12.8) est l'unique fonction discriminante. Considérons maintenant le problème comme s'il s'agissait de régression multiple. Considérons le vecteur w à n composantes, défini par: n n wi = 1 2 − n2 n1 , i ∈ classe 1 , i ∈ classe 2 La régression multiple expliquant w par les éléments de X conduit au vecteur de coefficients de régression b : b = Σ−1Xtw (Eq. 12.9) Les 'équations 12.8 et 12.9 sont identiques puisque c = Xtw/n Ainsi, le vecteur des coefficients de régression (b) coïncide avec le vecteur des composantes de la fonction discriminante (a). 12.2 La démarche expérimentale Nous avons utilisé l'analyse discriminante pour étudier les biais associés aux brins réplicatifs. L'objectif principal de notre étude était de comprendre les biais réplicatifs par rapport à plusieurs ensembles de variables dans les différents génomes séquencés. Cependant, nous ne connaissions pas la position exacte des origines et des terminaisons de réplication la plupart des bactéries. Ainsi, il a fallu développer une de approche qui conduise initialement à la détermination de ces régions. La démarche suivie est schématisée sur la figure 12.1. Nous commençons par définir une origine de réplication putative et nous identifions les gènes par rapport à cette origine (Figure 12.1.1). Puisque la terminaison de la réplication n'est pas forcément à 180° de l'origine, nous avons défini une fenêtre qui occupe 7/8 du chromosome. Ainsi, les gènes de cette fenêtre sont classés par rapport au brin en deux classes : leading (brin précoce) et lagging (brin tardif). On utilise 70 % des gènes dans l'apprentissage de la fonction discriminante et les 30 % restants pour le test. 123 1 classement dichotomique des gènes ori putative leading lagging 2 description x: 3 = {xi} i =1,n 5 ensembles de variables apprentissage (analyse discriminante linéaire) > 0 si n F(x) = α 0 + Σ αi xi i =1 4 apprentissage: 70 % du pool de gènes < 0 si évaluation (fonction discriminante) prédiction tp + tn Accuracy = tp fn fp tn tp + tn + fp + fn = % predictions corrèctes ensemble test : 30 % du pool de gènes 5 tracé Accuracy pos 1 0 0 100 pos Figure 12.1 - Démarche expérimentale pour l'analyse des biais de réplication. Ensuite nous décrivons les gènes par rapport à un ensemble de variables, par exemple par la fréquence relative des 4 types différents de nucléotides présents dans chaque gène (Figure 12.1.2). Cette description sert de base à l'apprentissage de la fonction discriminante 124 (Figure 12.1.3), qu'on utilise pour classer les 30 % de gènes restants. Le résultat de cette classification est évalué par la précision (accuracy) de la discrimination. Cette quantité correspond au pourcentage de prédictions correctes dans l'ensemble de test (Figure 12.1.4). Puisque nous ignorons l'origine de réplication exacte, nous faisons ensuite "tourner" la position putative sur le chromosome. On peut dessiner la variation de la précision et obtenir ainsi une description graphique du comportement de la fonction de discrimination. Si le biais réplicatif est fort, on s'attend à trouver de fortes valeurs de précision quand l'origine putative coïncide avec la vraie origine ou la vraie terminaison (par symétrie). Chaque ensemble de variables dans la phase de description produira des fonctions discriminantes différentes. Nous avons utilisé plusieurs ensembles de variables pour comprendre les différents effets du biais sur ces variables. En particulier nous avons utilisé la fréquence des nucléotides, la fréquence des nucléotides à chaque position du codon, la fréquence des codons, la fréquence des codons synonymes et la fréquence des aminoacides dans les protéines. Le poids associé à chaque variable est représentatif de l'importance de la variable dans la discrimination. Puisque les variables ne sont pas indépendantes cette analyse doit suivre la démarche typique de l'analyse en régression multiple, notamment on doit vérifier que les corrélations entre les variables ne nuisent pas trop à l'interprétation des coefficients. Dans ce cas, on peut utiliser les valeurs des coefficients de l'équation 12.8 pour identifier directement variables les plus discriminantes. 125 les 13. Conclusion et perspectives L'objectif principal de ce travail était la définition de stratégies et de méthodologies dédiées à l'analyse des génomes bactériens. Comme nous l'avons dit en introduction, ces analyses n'ont de sens que face à un sujet propre d'application. En conséquence, les travaux présentés dans cette thèse trouvent leur source dans un problème ou une hypothèse biologique. Étudier un génome c'est un peu comme faire la cartographie d'un nouveau continent. Souvent il y a trop d'inconnues pour que le chercheur puisse établir des hypothèses de travail très spécifiques. Dans ce cas, une exploration préalable du problème est nécessaire, quitte à attendre l'émergence de questions et d'histoires plus pertinentes. Même si cette approche n'est pas habituelle en biologie moléculaire, où la recherche est presque toujours dirigée par des hypothèses assez spécifiques, elle n'en est pas moins motivée du point de vue biologique. Par exemple quand nous nous sommes intéressé aux répétitions dans les génomes bactériens nous avions plusieurs questions biologiques sous-jacentes, notamment la stabilité des génomes et l'acquisition de nouvelles fonctions par duplication (Rocha et al. 1999b). Cependant, un des résultats le plus intéressant fut la suggestion, par les résultats in silico, d'un nouveau mécanisme évolutif chez Bacillus subtilis (Rocha et al. 1999a); mécanisme qui n'était pas prévu initialement. La même démarche exploratoire a été nécessaire pour la détermination des biais de composition liés à la traduction chez Bacillus subtilis (Rocha et al. 1998) (Rocha et al. 1999c). D'autres sujets, en revanche, ont été développés suivant une démarche plus traditionnelle : hypothèse, définition de l'expérience, expérience, conclusion. Cela a été le cas du travail sur les biais associés aux brins de réplication (Rocha et al. 1999d), le travail sur l'existence de la "Downstream Box" (Rocha et al. 2000) et l'analyse du rôle évolutif des systèmes de restriction (chapitre 9). Résumons maintenant l'ensemble de ce travail, du point de vue des thématiques biologiques abordées et des perspectives qu'il permet d'envisager. 126 L'organisation du chromosome : la traduction La traduction est probablement le processus cellulaire qui consomme le plus de ressources et la proximité physique, fonctionnelle et évolutive des gènes qui y sont associés reflète le besoin d'optimiser ce processus (Rocha et al. 1999c). Nos travaux sur les biais associés aux trois phases de la traduction (initiation, allongement et terminaison) ont démontré que les gènes eux-mêmes ne peuvent pas être simplement considérés comme une simple succession de codons entre un start et un stop. En effet, les contraintes associées aux processus de démarrage et de terminaison conditionnent significativement la séquence aux extrémités des gènes (Rocha et al. 1999c). L'organisation du chromosome : la réplication Chez la plupart des bactéries, la réplication provoque un enrichissement en G et T dans le brin précoce (leading) et C et A dans le brin tardif (lagging) (Lobry 1996a). Nous avons démontré que l'usage des codons conditionné par la réplication chez Borrelia burgdorferi (McInerney 1998) est, en fait, très fréquent dans le monde bactérien et qu'il est aussi présent au niveau de l'usage des acides aminés dans les protéines (Rocha et al. 1999d). Ces contraintes sont si fortes que, chez plusieurs bactéries, elles suffisent à prédire, sur la base de la seule séquence protéique, l'orientation du gène sur le chromosome avec plus de 95 % de taux de succès. De plus, nous avons montré que, lorsqu'ils existaient, ces biais de composition (en nucléotides, codons ou aminoacides) sont les mêmes chez tous les procaryotes étudiés. Le rôle des éléments répétés dans la dynamique des génomes On a très souvent soutenu l'idée que les répétitions, qui tendent à éloigner le génome de la situation "minimale", seraient pratiquement absentes (ou au moins fortement contresélectionnées) dans les génomes bactériens "fortement optimisés" (Maniloff 1996). Notre étude sur les répétitions dans ces génomes a donc commencé avec l'idée qu'il fallait vérifier cette affirmation en utilisant les séquences des chromosomes complets (Rocha et al. 1999a). En conséquence, nous avons cherché des répétitions longues susceptibles de faire de la recombinaison homologue et non associées aux ARN stables ni aux séquences d'insertion. Nous avons conclu que, même si l'ADN est probablement plus "cher" pour les procaryotes que pour les eucaryotes, ceci n'implique pas nécessairement l'absence de répétitions. En particulier, nous avons montré une liaison très forte entre la densité de répétitions et la pathogénicité des organismes. Mécanismes et barrières au transfert horizontal L'étude des répétitions peut nous renseigner également sur d'autres phénomènes cellulaires et évolutifs. Chez Bacillus subtilis, la présence de répétitions est probablement liée à l'existence d'éléments transférés horizontalement. Nous avons proposé que la plupart des répétitions dans cette espèce est crée par un mécanisme intégratif la recombinaison homologue entre l'ADN allogène du type Campbell, via et le chromosome (Rocha et al. 1999a). Ce mécanisme explique la grande quantité d'information transférée horizontalement dans 127 Bacillus subtilis (Kunst et al. 1997). Un mécanisme pourrait pas aboutir à l'intégration de de recombinaison homologue simple ne ce type d'information. Notre travail s'est trouvé ainsi inséré dans la récente vague d'études portant sur le transfert horizontal chez les bactéries, vague provoquée par l'analyse des génomes complets et les problèmes de dissémination de la résistance aux antibiotiques (Moszer et al. 1999) (Logsdon & Faguy 1999) (Sowers & Schreier 1999). Cependant, la plupart de ces travaux est basée sur le transfert par conjugaison, qui ne se produit pas chez Bacillus subtilis. Cette espèce, ainsi que beaucoup d'autres d'ailleurs (Lorenz transformation & Wackernagel 1994), naturelle. Or, la transformation acquiert naturelle mécanisme très peu étudié du point de vue évolutif (Levin et de l'information est, paradoxalement, par un al. 1999). Puisque beaucoup de bactéries utiles à l'homme ou pathogènes sont naturellement transformables (H. pylori, N. gonorrhoeae, Haemophilus influenzae), il devient donc urgent d'approfondir ce genre d'études. La capacité à évoluer A la suite de cette thèse nous souhaitons approfondir nos études sur la dynamique et l'évolution des chromosomes. Les motivations scientifiques derrière cet objectif sont multiples. En premier lieu, au-delà de la vision "sac de gènes" il va devenir crucial de bien comprendre l'organisation physique du chromosome bactérien pour aboutir à l'intégration complète des connaissances génétiques, biochimiques et évolutives. Cette question est intimement liée à plusieurs problèmes scientifiques ouverts. Les facteurs de virulence sont souvent regroupés sur le chromosome et leur transfert horizontal fait partie de la stratégie de virulence de plusieurs bactéries. L'étude des stratégies de recombinaison entre ces facteurs permettra certainement mieux comprendre et combattre les maladies par les bactéries. Par ailleurs, la rapide dissémination de la résistance aux antibiotiques pose, de nos jours, un problème grave de santé publique. Cette résistance profite de la plasticité du chromosome bactérien et du transfert horizontal de l'information génétique. Les questions précédentes sont ainsi très fortement liées aux études sur la dynamique et l'évolution des génomes. D'autres questions importantes en microbiologie sont également liées à ce domaine. La résistance aux radiations, à la sécheresse et à la salinité chez plusieurs bactéries capacité à faire de la recombinaison homologue entre les copies multiples est due à leur des chromosomes. Par exemple, chez Deinococcus radiodurans la recombinaison utilise probablement les répétitions présentes tout le long du chromosome (Battista et al. 1999). En conséquence le thème unificateur de nos recherches dans ce domaine est l'analyse de la capacité à évoluer, qui est au fond, la propriété la plus fondamentale des êtres vivants. 128 Références bibliographiques 129 Adamski, F. M., McCaughan, K. K., Jørgenson, F., Kurland, C. G., Tate, W. P. The concentration of polypeptide chain release factors 1 and 2 at different growth rates of Escherichia coli. J. Mol. Biol. 1994. 238, 302-308 Akashi, H., Eyre-Walker, A. Translational selection and molecular evolution. Curr. Op. Genet. Dev. 1998. 8, 688-693 Alm, R. A., Ling, L.-S. L., Moir, D. T., King, B. L., Brown, E. D. et al. Genomic-sequence comparison of two unrelated isolates of the human gastric pathogen Helicobacter pylori. Nature 1999. , Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Biol. 1990. 215, 403-410 Altschul, S. F., Madden, T. L., Schäfer, A. A., Zhang, J., Zhang, Z. et al. Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucl. Acids Res. 1997. 25, 33893402 Amábile-Cuevas, C. F., Chicurel, M. E. Bacterial plasmids and gene flux. Cell 1992. 70, 189-199 Anderson, J., Seilhamer, J. A comparison of selected mRNA and protein abundances in human liver. Electrophoresis 1997. 18, 533-537 Andersson, S. G. E., Kurland, C. G. Codon preferences in free-living microorganisms. Microbiol. Rev. 1990. 54, 198-210 Andersson, S. G. E., Kurland, C. G. Reductive evolution of resident genomes. Trends Microbiol. 1998. 6, 263-268 Andersson, S. G. E., Zomorodipour, A., Andersson, J. O., Sicheritz-Ponten, T., Alsmark, U. C. M. et al. The genome sequence of Rickettsia prowazekii and the origin of mitochondria. Nature 1998. 396, 133-143 Apostolico, A., Giancarlo, R. Sequence alignment in molecular biology. J. Comput. Biol. 1998. 5, 173-196 Arber, W. Host specificity of DNA produced by Escherichia coli. V. The role of methionine in the production of host specificity. J. Mol. Biol. 1965. 11, 247-256 Bachellier, S., Clément, J.-M., Hofnung, M., Gilson, E. Bacterial interspersed mosaic elements (BIMEs) are a major source of sequence polymorphism in Escherichia coli intergenic regions including specific associations with a new insertion sequence. Genetics 1997. 145, 551-562 Bachellier, S., Gilson, E., Hofnung, M., Hill, C. W. Analysis and predictions from Escherichia coli sequences, or Escherichia coli in silico. In Escherichia coli and Salmonella: cellular and molecular biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K Brooks Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 2012-2040. Washington DC: ASM Press Bachellier, S., Saurin, W., Perrin, D., Hofnung, M., Gilson, E. Structural and functional diversity among bacterial interspersed mosaic elements (BIMEs). Mol. Microbiol. 1994. 12, 61-70 Baril, C., Richaud, C., Baranton, G., Saint-Girons, I. S. Linear chromosome of Borrelia burgdorferi. Res. Microbiol. 1989. 140, 507-516 Barrick, D., Villanueba, K., Childs, J., Kalil, R., Schneider, T. D. et al. Quantitative analysis of ribosome binding sites in Escherichia coli. Nucl. Acids Res. 1994. 22, 1287-1295 Battista, J. R., Earl, A. M., Park, M. Why is Deinococcus radiodurans so resistant to ionizing radiation. Trends Microbiol. 1999. 7, 362-365 Belogurov, A. A., Delver, E. P. A motif conserved among the type I restriction-modificatipon enzymes and antirestriction proteins: a possible basis for mechanism of action of plasmid-encoded antirestriction functions. Nucl. Acids Res. 1995. 23, 785-787 Berg, O. G., Kurland, C. G. Growth rate-optimised tRNA abundance and codon usage. J. Mol. Biol. 1997. 270, 544-550 Berg, O. G., Silva, P. J. Codon bias in Escherichia coli: the influence of codon context on mutation and selection. Nucl. Acids Res. 1997. 25, 1397-1404 130 Bergthorsson, U., Ochman, H. Heterogeneity of genome sizes among natural isolates of Escherichia coli. J. Bacteriol. 1995. 177, 5784-5789 Bergthorsson, U., Ochman, H. Distribution of chromosome length variation in natural isolates of Escherichia coli. Mol. Biol. Evol. 1998. 15, 6-16 Birge, E. A. Bacterial and bacteriophage genetics. 3rd ed. 1994. New York: Springer-Verlag Björnsson, A., Mottagui-Tabar, S., Isaksson, L. A. Structure of the C-terminal end of the nascent peptide influences translation termination. EMBO J. 1996. 15, 1696-1704 Blackstock, W. P., Weir, M. P. Proteomics: quantitative and physical mapping of cellular proteins. Trends Biotech. 1999. 17, 121-127 Blaisdell, B. E., Rudd, K. E., Matin, A., Karlin, S. Significant dispersed recurrent DNA sequences in the Escherichia coli genome. J. Mol. Biol. 1993. 229, 833-848 Bläsi, U., O'Connor, M., Squires, C. L., Dahlberg, A. E. Misled by sequence complementarity: does the DB-anti-DB interaction withstand scientific scrutinity? Mol. Microbiol. 1999. 33, 439-441 Blattner, F. R., Burland, V., Plunkett, G., Sofia, H. J., Daniels, D. L. Analysis of the Escherichia coli genome. IV. Nucl. Acids Res. 1993. 21, 5408-5417 Blattner, F. R., III, G. P., Bloch, C. A., Perna, N. T., Burland, V. et al. The complete genome sequence of Escherichia coli K-12. Science 1997. 277, 1453-1461 Bono, H., Ogata, H., Goto, S., Kanehisa, M. Reconstruction of amino acid biosynthesis pathways from the complete genome sequence. Genome Res. 1998. 8, 203-210 Borodovsky, M., Rudd, K. E., Koonin, E. V. Intrinsic and extrinsic approaches for detecting genes in a bacterial genome. Nucl. Acids Res. 1994. 22, 4756-4767 Bouché, J.-P., Pichoff, S. On the birth and fate of bacterial division sites. Mol. Microbiol. 1998. 29, 19-26 Bouthinon, D., Soldano, H. An inductive logic programming framework to learn a concept from ambiguous examples. In Machine learning: ECML-98, 1998. ed. C. nédellec, C. Rouveirol. pp. 238249. Lecture Notes in Articial Intelligence Springer Verlag Bowie, J. U., Luethy, R., Eisenberg, D. A method to identify protein sequences that fold into a known three-dimensional structure. Science 1991. 253, 164-170 Brown, C. M., Stockwell, P. A., Trotman, C. N. A., Tate, W. P. The signal for the termination of protein synthesis in prokaryotes. Nucl. Acids Res. 1990. 18, 2079-2086 Bujnicki, J. M. Phylogeny of the restriction endonuclease-like superfamily inferred from comparison of protein structures. J. Mol. Evol. 2000. 50, 39-44 Bulmer, M. Codon usage and intragenic position. J. Theor. Biol. 1988. 133, 67-71 Bulmer, M. The selection-mutation-drift theory of synonimous codon usage. Genetics 1991a. 129, 897907 Bulmer, M. Strand symmetry of mutation rates in the β-globin region. J. Mol. Evol. 1991b. 33, 305310 Bult, C. J., White, O., Olsen, G. J., Zhou, L., Fleischmann, R. D. et al. Complete genome sequence of the methanogenic Archaeon, Methanococcus jannaschii. Science 1996. 273, 1058-1072 Burge, C., Campbell, A. M., Karlin, S. Over- and under-representation of short oligonucleotides in DNA sequences. Proc. Natl. Acad. Sci. USA 1992. 89, 1358-1362 Burland, V., Plunkett, G., Daniels, D. L., Blattner, F. R. DNA sequence and analysis of 136 kb of the Escherichia coli genome: organizational symmetry around the origin of replication. Genomics 1993. 16, 551-561 Bussiere, D. E., Bastia, D. Termination of DNA replication of bacterial and plasmid chromosomes. Mol. Microbiol. 1999. 31, 1611-1618 Canosi, U., Iglesias, A., Trautner, T. A. Plasmid transformation in Bacillus subtilis: DNA in plasmid pC194. Mol. Gen. Genet. 1981. 181, 434-440 Carafa, Y. d'Aubenton, Brody, E., Thermes, C. Prediction of Rho-independent E coli transcription terminators. A statistical analysis of their RNA stem-loop structures. J. Mol. Biol. 1990. 216, 835-858 Carlson, C. R., Kolsto, A. B. A small Bacillus cereus chromosome corresponds to one conserved region of a larger Bacillus cereus chromosome. Mol. Microbiol. 1994. 13, 161-169 Carpousis, A. J., Vanzo, N. F., Raynal, L. C. mRNA degradation: a tale of poly(A) and protein machines. Trends Genet. 1999. 15, 24-28 Casjens, S. The diverse and dynamic structure of bacterial genomes. Annu. Rev. Genet. 1998. 32, 339377 131 Cebrat, S., Dudek, M. R., Gierlik, A., Kowalczuk, M., Mackiewicz, P. Effect of replication on the third base of codons. Physica A 1999. 265, 78-84 Cellis, J. E., Rasmussen, H. H., Gromov, P., Olsen, E., Madsen, P. et al. Electrophoresis 1995. 12, 2177-2240 Chandler, M. S. Insertion sequences and transposons. In Bacterial Genomes, 1998. ed. F. J. d. Bruijn, J. R. Lupski, G. M. Weinstock. pp. 30-48 Chapman & Hall Chargaff, E. Chemical specificity of nucleic acids and mechanism of their enzymatic degradation. Experientia 1950. 6, 201-240 Chothia, C., Lesk, A. M. The divergence between the divergence of sequence and structure in proteins. EMBO J. 1986. 5, 823-826 Christie, P. J., Korman, R. Z., Zahler, S. A., Adsit, J. C., Dunny, G. M. Two conjugation systems associated with Streptococcus faecalis plasmid pCF10: identification of a conjugative transposon that transfers between S. faecalis and Bacillus subtilis. J. Bacteriol. 1987. 169, 2529-2536 Churchill, G. A., Daniels, D. L., Waterman, M. S. The distribution of restriction enzyme sites in Escherichia coli. Nucl. Acids Res. 1990. 18, 589-597 Clark, A. J., Warren, G. J. Conjugal transmission of plasmids. Annu. Rev. Genet. 1979. 13, 99-125 Claverie, J.-M., States, D. J. Information enhancement methods for large scale sequence analysis. Comput. Chem. 1993. 17, 191-201 Clayton, R. A., White, O., Fraser, C. M. Findings emerging from complete genome sequences. Curr. Op. Microbiol. 1998. 1, 562-566 Cohan, F. M., Roberts, M. S., King, E. C. The potential for genetic exchange by transformation within a natural population of Bacillus subtilis. Evolution 1991. 45, 1383-1421 Collado-Vides, J. A transformational-grammar approach to the study of the regulation of gene expression. J. Theor. Biol. 1989. 136, 403-425 Colot, V., Rossignol, J.-L. Eukaryotic DNA methylation as an evolutionary device. Bioessays 1999. 21, 402-411 Condon, C., French, S., Squires, C., Squires, C. L. Depletion of functional ribosomal RNA operons in Escherichia coli causes increased expression of the remaining intact copies. EMBO J 1993. 12, 43054315 Courchesne, P. L., Jones, M. D., Robinson, J. H., Spahr, C. S., McCracken, S. et al. Optimization of capillary chromatography ion trap-mass spectrometry for identification of gel-separated proteins. Electrophoresis 1998. 19, 956-967 Cowan, R. Expected frequencies of DNA patterns using Whittle's formula. J. Appl. Prob. 1991. 28, 886-892 Daly, M. J., Minton, K. W. Interchromosomal recombination in the extremely radioresistant bacterium Deinococcus radiodurans. J. Bacteriol. 1995. 177, 5495-5505 Danchin, A. Why sequence genomes? The Escherichia coli imbroglio. Mol. Microbiol. 1995. 18, 371376 Dawkins, R. The selfish gene 1976. Oxford: Oxford University Press Dayhoff, M. O., Schwartz, R. M., Orcutt, B. C. A model of evolutionary change in proteins. In Atlas of protein sequence and structure, 1978. ed. M. O. Dayhoff. pp. 345-352. Vol. 5 Natl. Biomed. Res. Found. de Smit, M. H. Translational control by mRNA structure. In RNA structure and function, 1998. ed. M. Grunberg-Manago. pp. 495-540 Cold Spring Harbour Laboratory Press de Smit, M. H., van Duin, J. Translational initiation on structures messengers: another role for the Shine-Delgarno interaction. J. Mol. Biol. 1994. 235, 173-184 Deonier, R. C. Native insertion sequence elements: locations, distributions, and sequence relationships. In Escherichia coli and Salmonella: cellular and molecular biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K Brooks Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 200-2011. Washington DC: ASM Press Depew, D. J., Weber, B. H. Darwinism evolving 1995. Cambridge, Massachussets: MIT Press. 588 pp. Dong, H., Nilsson, L., Kurland, C. G. Co-variation of tRNA abundance and codon usage in Escherichia coli at different growth rates. J. Mol. Biol. 1996. 260, 649-663 Doolittle, W. F., Logdson, J. M. Archaeal genomics: do archaea have a common heritage? Curr. Biol. 1998. 8, R209-R211 132 Doolittle, W. F., Sapienza, C. Selfish genes, the phenotype paradigm and genome evolution. Nature 1980. 284, 601-603 Dorman, C. J., Porter, M. E. The Shigella virulence gene regulatory cascade: a paradigm of bacterial gene control mechanisms. Mol. Microbiol. 1998. 29, 677-684 Drake, J. W., Charlesworth, B., Charlesworth, D., Crow, J. F. Rates of spontaneous mutation. Genetics 1998. 148, 1667-1686 Dreyfus, M. What constitutes the signal for the initiation of protein synthesis on Escherichia coli mRNAs? J. Mol. Biol. 1988. 204, 79-94 Dubnau, D. Genetic competence in Bacillus subtilis. Microbiol. Rev. 1991. 55, 395-424 Dubnau, D. Genetic exchange and homologous recombination. In Bacillus subtilis and other Grampositive bacteria, 1993. ed. A. L. Sonenshein, J. A. Hoch, R. Losick. pp. 555-584. Washington D. C.: American Society for Microbiology Dubnau, D. DNA uptake in bacteria. Annu. Rev. Microbiol. 1999. 53, 217-244 Dubnau, D., Cirigliano, C. Fate of transforming deoxyrribonucleic acid after uptake by competent Bacillus subtilis: size and distribution of the integrated donor sequences. J. Bacteriol. 1972. 111, 488494 Dujon, B. The yeast genome project: what did we learn? Trends Genet. 1996. 12, 263-270 Durbin, R., Eddy, S., Krogh, A., Mitchison, G. Biological sequence analysis 1998. Cambridge: Cambridge University Press. 356 pp. Dybvig, K., Voelker, L. L. Molecular Biology of mycoplasmas. Annu. Rev. Microbiol. 1996. 50, 2557 Echols, H., Goodman, M. F. Fidelity mechanisms in DNA replication. Annu. Rev. Biochem. 1991. 60, 477-511 Edgell, D. R., Doolittle, W. F. Archaea and the origin(s) of DNA replication proteins. Cell 1997a. 89, 995-998 Edgell, D. R., Doolittle, W. F. Archaebacterial genomics. The complete genome sequence of Methanococcus jannaschii. BioEssays 1997. 19, 1-4 Ehrlich, S. D., Schuman, W., Ogasawara, N. Functional analysis of bacterial genes: a practical manual 1999. New York: John Wiley & Sons Enright, A. J., Iliopoulos, I., Kyrpides, N. C., Ouzounis, C. A. Protein interaction maps for complete genomes based on gene fusion events. Nature 1999. 402, 86-90 Erickson, B. W., Sellers, P. H. Recognition of patterns in genetic sequences. In Time warps, string edits, and macromolecules: the theory and practice of sequence comparison, 1983. ed. D. Sankoff, J. B. Kruskal. pp. 55-91 Addison-Wesley Etchegaray, J.-P., Inouye, M. DB or not DB ins translation? Mol. Microbiol. 1999a. 33, 438-441 Etchegaray, J.-P., Inouye, M. Translational enhancement by an element dowstream of the initiation codon in Escherichia coli. J. Biol. Chem. 1999b. 274, 10079-10085 Eyre-Walker, A. The close proximity of Escherichia coli genes: consequences for stop codon and synonymous codon use. J. Mol. Evol. 1996. 42, 73-78 Eyre-Walker, A., Bulmer, M. Reduced synonimous substitution rate at the start of enterobacterial genes. Nucl. Acids Res. 1993. 21, 4599-4603 Feller, W. An introduction to probability theory and its applications. 2nd ed. 1968. New York: John Wiley & Sons Feng, D., Doolittle, R. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J. Mol. Evol. 1987. 25, 351-360 Fijalkowska, I. J., Jonczyk, P., Tkaczyk, M. M., Bialokorska, M., Schaaper, R. M. Unequal fidelity of leading strand and lagging strand DNA replication on the Escherichia coli genome. Proc. Natl. Acad. Sci. USA 1998. 95, 10020-10025 Finlay, B. B., Falkow, S. Common themes in Microbial pathogenicity revisited. Microbiol. Mol. Biol. Rev. 1997. 61, 136-169 Fisher, D., Eisenberg, D. Assigning folds to the proteins encoded in the genome of Mycoplasma genitalium. Proc. Natl. Acad. Sci. USA 1997. 94, 11929-11934 Fisher, R. A. The use of Multiple Measurements in Taxonomic Problems. Ann. Eugen. 1936. 7, 179188 Fitch, W. Toward defining the course of evolution: minimum change for a specific tree topology. Syst. Zool. 1971. 20, 406-416 133 Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E. F. et al. Wholegenome random sequencing and assembly of Haemophilus influenzae Rd. Science 1995. 269, 496-512 Fornilli, S. L., Fox, M. S. Electron microscope visualization of the products of Bacillus subtilis transformation. J. Mol. Biol. 1977. 113, 181-191 Forterre, P. Displacement of cellular proteins by fnctional analogues from plasmids or viruses could explain puzzling phylogenies of many DNA informational proteins. Mol. Microbiol. 1999. 33, 457-465 Francino, M. P., Chao, L., Riley, M. A., Ochman, H. Asymmetries generated by transcriptioncoupled repair in enterobacterial genes. Science 1996. 272, 107-109 Francino, M. P., Ochman, H. A comparative genomics approach to DNA asymmetry. Ann. N. Y. Acad. Sci. 1999. 870, 428-431 Frandsen, N., Barák, I., Karmazyn-Campelli, C., Stragier, P. Transient gene asymmetry during sporulation and establishment of cell specificity in Bacillus subtilis. Genes Dev. 1999. 13, 394-399 Frank, A. C., Lobry, J. R. Asymmetric patterns: a review of possible underlying mutational or selective mechanisms. Gene 1999. 238, 65-77 Fraser, C. M., Casjens, S., Huang, W. M., Sutton, G. S., Clayton, R. et al. Genomic seqience of a Lyme disease spirochaete, Borrelia burgdorferi. Nature 1997. 390, 580-586 Fraser, C. M., Gocayne, J. D., White, O., Adams, M. D., Clayton, R. A. et al. The minimal gene complement of Mycoplasma genitalium. Science 1995. 270, 397-403 Fraser, C. M., Norris, S. J., Weinstock, G. M., White, O., Sutton, G. G. et al. Complete genome sequence of Treponema pallidum the syphilis spirochete. Science 1998. 281, 375-388 Freeman, J. M., Plasterer, T. N., Smith, T. F., Mohr, S. C. Patterns of genome organization in bacteria. Science 1998. 279, 1827a Frishman, D., Mewes, H. Genome-based structural biology. Prog. Bioph. Mol. Biol. 1999. 72, 1-17 Frishman, D., Mironov, A., Mewes, H.-W., Gelfand, M. Combining diverse evidence for gene recognition in completely sequenced bacterial genomes. Nucl. Acids Res. 1998. 26, 2941-2947 Gaasterland, T., Selkov, E. 1995. Reconstruction of metabolic networks using incomplete information. In ISMB95. pp. 127-135 AAAI Press Gaasterland, T., Sensen, C. W. Magpie automated genome interpretation. Trends Genet. 1996. 13, 415-416 Galant, J., Maier, D., Storer, J. On finding minimal length superstrings. J. Comp. Systems Sci. 1980. 20, 50-58 Ganoza, M. C., Kofoid, E. C., Marlière, P., Louis, B. G. Potential secondary structure at translationinitiation sites. Nucl. Acids Res. 1987. 15, 345-360 Gerhold, D., Rushmore, T., Caskey, C. T. DNA chips: promising toys have become powerful tools. Trends Biochem. Sci. 1999. 24, 168-173 Goodman, L. Hypothesis-limited research. Genome Res. 1999. 9, 673-674 Gould, S. J., Lewontin, R. C. The spandrels of San Marco and the Panglossian paradigm: a critique of the adaptationist programme. Proc. Royal Soc. London B 1979. 205, 581-598 Gould, S. J., Lloyd, E. A. Individuality and adaptation across levels of selection: how shall we name and generalise the unit of Darwinism? Proc. Natl. Acad. Sci. USA 1999. 96, 11904-11909 Gouy, M., Gautier, C. Codon usage in bacteria: correlation with gene expressivity. Nucl. Acids Res. 1982. 10, 7055-7074 Graham, J. B., Istock, C. A. Genetic exchange in Bacillus subtilis in soil. Mol. Gen. Genet. 1978. 166, 287-290 Granjeaud, S., Bertucci, F., Jordan, B. R. Expression profiling: DNA arrays in many guises. BioEssays 1999. 21, 781-790 Grantham, R., Gautier, C., Gouy, M., Mercier, R., Pavé, A. Codon catalog usage and the genome hypothesis. Nucl. Acids Res. 1980. 8, r49-r62 Graves, D. J. Powerful tools for genetic analysis come of age. Trends Biotech. 1999. 17, 127-134 Grigoriev, A. Analyzing genomes with cumulative skew diagrams. Nucl. Acids Res. 1998. 26, 22862290 Groisman, E. A., Ochman, H. How Salmonella became a pathogen. Trends Microbiol. 1997. 5, 343349 Grosjean, H., Sankoff, D., Jou, W. M., Fiers, W., Cedergren, R. J. Bacteriophage MS2 RNA : a correlation between the stability of the codon-aniticodon interaction and the choice of code words. J. Mol. Evol. 1978. 12, 113-119 134 Gürtler, V. The role of recombination and mutation in 16S-23S rDNA spacer rearrangements. Gene 1999. 238, 241-252 Gusfield, D. Algorithms on strings, trees and sequences 1997. Cambridge: Cambridge University Press. 534 pp. Gutman, G. A., Hatfield, G. W. Nonrandom utilization of codon pairs in Escherichia coli. Proc. Natl. Acad. Sci. USA 1989. 86, 3699-3703 Hannenhalli, S. S., Hayes, W. S., Hatzigeorgiou, A. G., Fickett, J. W. Bacterial start site prediction. Nucl. Acids Res. 1999. 27, 3577-3582 Harvey, P. H., Brown, A. J. L., Smith, J. M., Nee, S., eds. New uses for new phylogenies. 1996. . New York: Oxford University Press. 349 pp. Henikoff, S., Henikoff, J. G. Performance evaluation of amino acid substitution matrices. Proteins 1993. 17, 49-61 Hieter, P., Boguski, M. Functional genomics: it's all you read it. Science 1997. 278, 601-602 Higgins, C. F., Peltz, S. W., Jacobson, A. Turnover of mRNA in prokaryotes and lower eukaryotes. Curr. Op. Genet. Dev. 1992. 2, 739-747 Hill, C. W. Structure and evolution of Escherichia coli Rhs elements. In Bacterial Genomes, 1998. ed. F. J. d. Bruijn, J. R. Lupski, G. M. Weinstock. pp. 240-248. Boston: Kluwer Academic Hill, C. W., Harnish, B. Inversions between ribossomal RNA genes of Escherichia coli. Proc. Natl. Acad. Sci. USA 1981. 78, 7069-7072 Himmelreich, R., Hilbert, H., Plagens, H., Pirki, E., Li, B.-C., Herrmann, R. Complete sequence analysis of the genome of the bacterium Mycoplasma pneumoniae. Nucl. Acids Res. 1996. 24, 4420-4449 Himmelreich, R., Plagens, H., Hilbert, H., Reiner, B., Herrmann, R. Comparative analysis of the genomes of the bacteria Mycoplasma pneumoniae and Mycoplasma genitalium. Nucl. Acids Res. 1997. 25, 701-712 Hinton, J. C. D. The Escherichia coli genome sequence: the end of an era or the start of the FUN? Mol. Microbiol. 1997. 26, 417-422 Hoelzer, M. A., Michod, R. E. DNA repair and the evolution of transformation in Bacillus subtilis. III. Sex with damaged DNA. Genetics 1991. 128, 215-223 Holm, L., Sander, C. Mapping the protein universe. Science 1996. 273, 595-602 Hou, Y. M. Transfer RNAs and pathogenicity islands. Trends Biochem. Sci 1999. 24, 295-298 Hull, D. L. Annu. Rev. Ecol. Syst. 1980. 11, 311-332 Hütenhofer, A., Noller, H. F. Footprinting mRNA-ribosomes complexes with chemical probes. EMBO J. 1994. 13, 3892-3901 Huynen, M., Doerks, T., Eisenhaber, F., Orengo, C., Sunyaev, S. et al. Homology-based fold predictions for Mycoplasma genitalium proteins. J. Mol. Biol. 1998. 280, 323-326 Huynen, M. A., Bork, P. Measuring genome evolution. Proc. Natl. Acad. Sci. USA 1998. 95, 58495856 Ikemura, T. Correlation between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codons in its protein genes. J. Mol. Biol. 1981. 146, 1-21 Itaya, M. An estimation of minimal genome size required for life. FEBS Lett. 1995. 362, 257-260 Itaya, M. Physical map of the Bacillus subtilis 166 genome. Microbiol. 1997. 143, 3723-3732 Itaya, M., Tanaka, T. Experimental surgery to create subgenomes of Bacillus subtilis 168. Proc. Natl. Acad. Sci. USA 1997. 94, 5378-5382 Itaya, M., Tanaka, T. Fate of unstable Bacillus subtilis subgenome: re-integration and amplification in the main genome. FEBS Lett. 1999. 448, 235-238 Ito, K., Ebihara, K., Uno, M., Nakamura, Y. Conserved motifs in prokaryotic and eukaryotic polypeptide release factors: tRNA-protein mimicry hypothesis. Proc. Natl. Acad. Sci. USA 1996. 93, 5443-5448 Ito, K., Kawakami, K., Nakamura, Y. Multiple control of Escherichia coli lysil-tRNA synthetase expression involves a transcriptional repressor and a translational enhancer element. Proc. Natl. Acad. Sci. USA 1993. 90, 302-306 Itoh, T., Takemoto, K., Mori, H., Gojobori, T. Evolutionary instability of operon structures disclosed by sequence comparisons of complete microbial genomes. Mol. Biol. Evol. 1999. 16, 332-346 Iwaki, T., Kawamura, A., Ishino, Y., Kohno, K., Kano, Y. et al. Preferential replication-dependent mutagenesis in the lagging DNA strand in Escherichia coli. Mol. Gen. Genet. 1996. 251, 657-664 135 Izuta, S., Roberts, J. D., Kunkel, T. A. Replication error rates for G.dGTP, T.dGTP, and A.dGTP mispairs and evidence for differential proofreading by leading and lagging strand DNA replication complexes in human cells. J. Biol. Chem. 1995. 270, 2595-2600 Jacob, F. Evolution and tinkering. Science 1977. 196, 1161-1166 Jacob, F., Monod, J. Genetic regulatory mechanisms in the synthesis of proteins. J. Mol. Biol. 1961. 3, 318-356 Jacobs, C., Shapiro, L. Bacterial cell division: a moveable feast. Proc. Natl. Acad. Sci. USA 1999. 96, 5891-5893 Jain, R., Rivera, M. C., Lake, J. A. Horizontal gene transfer among genomes: the complexity hypothesis. Proc. Natl. Acad. Sci. USA 1999. 96, 3801-3806 Jeltsch, A., Kröger, M., Pingoud, A. Evidence for an evolutionary relatioship among type-II restriction endonucleases. Gene 1995. 160, 7-16 Jeltsch, A., Pingoud, A. Horizontal gene transfer contributes to the wide distribution and evolution of type II restriction-modification systems. J. Mol. Evol. 1996. 42, 91-96 Kalman, S., Mitchell, W., Marathe, R., Lammel, C., Fan, J. et al. Comparative genomes of Chlamydia pneumoniae and C. trachomatis. Nat. Genet. 1999. 21, 385-389 Kanehisa, M. A database for post-genome analysis. Trends Genet. 1997. 13, 375-376 Karlin, S. Bacterial DNA strand compositional asymmetry. Trends Microbiol. 1999. 7, 305-308 Karlin, S., Altschul, S. F. Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc. Natl. Acad. Sci. USA 1993. 87, 2264-2268 Karlin, S., Brendel, V. Chance and statistical significance in protein and DNA analysis. Science 1992. 257, 39-49 Karlin, S., Burge, C., Campbell, A. M. Statistical analyses of counts and distributions of restriction sites in DNA sequences. Nucl. Acids Res. 1992. 20, 1363-1370 Karlin, S., Macken, C. Assessment of inhomogeneities in an Escherichia coli physical map. Nucl. Acids Res. 1991. 19, 4241-4246 Karlin, S., Mrázek, J., Campbell, A. M. Codon usages in different gene classes of the Escherichia coli genome. Mol. Microbiol. 1998. 29, 1341-1355 Karlin, S., Ost, F. Maximal segmental match length among random sequences from a finite alphabet. In Proceedings of the Berkeley Conference in honor of Jerzy Neyman and Jack Kiefer, 1985. ed. L. M. L. Cam, R. A. Olshen. pp. 225-243. Vol. I Wadsworth, Inc. Karp, P. D. Integrated access to metabolic and genomic data. J. Comp. Biol. 1996. 3, 191-212 Karp, P. D., Riley, M. 1993. Representations of metabolic knowledge. In Intelligent systems for molecular biology. pp. 207-215 AAAI Press Karp, R. M., Miller, R. E., Rosenberg, A. L. Rapid identification of repeated patterns in strings, trees and arrays. In Proceedings 4th Annual ACM Symposium Theory of computing, 1972. . pp. 125-136 ACM Kita, K., Tsuda, J., Kato, T., Okamoto, K., Yanese, H., Tanaka, M. Evidence of horizontal transfer of the EcoO1091 restriction modification gene to Escherichia coli chromosomal DNA. J. Bateriol. 1999. 181, 6822-6827 Kleffe, J., Borodovsky, M. First and second order moments of counts of words in random texts generated by Markov chains. CABIOS 1992. 8, 433-441 Kobayashi, I. Selfishness and death: raison d'être of restriction, recombination and mitochondria. Trends Genet. 1998. 14, 368-374 Kolsto, A.-B. Dynamic bacterial genome organization. Mol. Microbiol. 1997. 24, 241-248 Korona, R., Korona, B., Levin, B. R. Sensitivity of naturally occurring coliphages to type I and type II restriction and modification. J. Gen. Microbiol. 1993. 139, 1283-1290 Korona, R., Levin, B. R. Phage-mediated selection for restriction-modification. Evolution 1993. 47, 565-575 Kroll, J. S., Wilks, K. E., Farrant, J. L., Langford, P. L. Natural genetic exchange between Haemophilus and Neisseria: intergeneric transfer of chromosomal genes between major human pathogens. Proc. Natl. Acad. Sci. USA 1998. 95, 12381-12385 Krüger, D. H., Bickle, T. A. Bacteriophage survival. multiple mechanisms for avoiding the deoxyribonucleic acid restriction systems of their hosts. Microbiol. Rev. 1983. 47, 345-360 Kulakauskas, S., Lubys, A., Ehrlich, S. D. DNA restriction-modification systems mediate plasmid maintenance. J. Bacteriol. 1995. 177, 3451-3454 136 Kunst, F., Ogasawara, N., Moszer, I., Albertini, A. M., Alloni, G. et al. The complete genome sequence of the Gram-positive bacterium Bacillus subtilis. Nature 1997. 390, 249-256 Kurland, C. G., Hughes, D., Ehrenberg, M. Limitations of translation accuracy. In Escherichia coli and Salmonella: cellular and molecular biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K Brooks Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 979-1004. Washington DC: ASM Press Kurtz, S., Schleiermacher, C. REPuter: fast computation of maximal repeats in complete genomes. BioInformatics 1999. 15, 426-427 Kusano, K., Naito, T., Handa, N., Kobayashi, I. Restriction-modification systems as genomic parasites in competition for specific sequences. Proc. Natl. Acad. Sci. USA 1995. 92, 11095-11099 Lafay, B., Lloyd, A. T., McLean, M. J., Devine, K. M., Sharp, P. M., Wolfe, K. H. Proteome composition and codon usage in spirochaetes: species-specific and DNA strand-specific mutational biases. Nucl. Acids Res. 1999. 27, 1642-1649 Landraud, A. M., Avril, J.-F., Chretienne, P. An algorithm for finding a common structure shared by a family of strings. IEEE Trans. Patt. Anal. Mach. Intel. 1989. 11, 890-895 Lauster, R. Evolution of type II DNA methyltransferases: a gene duplication model. J. Mol. Biol. 1989. 206, 313-321 Lawrence, C. E., Altschul, S. F., Boguski, M. S., Liu, J. S., Neuwald, A. F., Wooton, J. C. Detecting subtle sequence signqls: q Gibbs sampling strategy for multiple alignement. Science 1993. 262, 208-214 Lawrence, C. E., Reilly, A. A. An expected maximization (EM) algorithm for the identification and characterization of common sites in unaligned biopolymer sequences. Proteins 1990. 7, 41-51 Lawrence, J. G., Ochman, H. Molecular archaeology of the Escherichia coli genome. Proc. Natl. Acad. Sci. USA 1998. 95, 9413-9417 Lawrence, J. G., Roth, J. R. Selfish operons: horizontal transfer may drive the evolution of gene clusters. Genetics 1996. 143, 1843-1860 Leach, D. R. F. Long DNA palindromes, cruciform structures, genetic instability and secondary structure repair. BioEssays 1994. 16, 893-900 Lebart, L., Morineau, A., Piron, M. Statistique exploratoire multidomensionelle 1995. Paris: Dunod. 439 pp. Leonard, C., Chen, Y., Mahillon, J. Diversity and differential distribution of IS231, IS232 and IS240 among Bacillus cereus, Bacillus thuringiensis and Bacillus mycoides. Microbiol. 1997. 143, 2537-2547 Leung, M.-Y., Marsh, G. M., Speed, T. P. Over- and under-representation of short DNA words in Herpesvirus genomes. J. Comput. Biol. 1996. 3, 345-360 Levin, B. R. The accessory genetic elements of bacteria: existence conditions and (co)evolution. Curr. Op. Genet. Dev. 1993. 3, 849-854 Levin, B. R., Lipsitch, M., Bonhoeffer, S. Population biology, evolution and infectious disease: convergence and synthesis. Science 1999. 283, 806-809 Lewin, B. Genes V 1995. Oxford: Oxford University Press. 1272 pp. Li, W.-H. Molecular evolution 1997. Sunderland, Massachussets: Sinauer Press. 487 pp. Lin, D. C.-H., Grossman, A. Identification and characterization of a bacterial chromosome partitioning site. Cell 1998. 92, 675-685 Lin, H. J., Chargaff, E. On the denaturation of deoxyribonucleic acid II. Effects of concentration. Biochem. Biophys. Acta 1967. 145, 398-409 Lindahl, L., Hinnebusch, A. Diversity of mechanisms in the regulation of translation in prokaryotes and lower eukaryotes. Curr. Op. Genet. Dev. 1992. 2, 720-726 Lindahl, T. Instability and decay of the primary structure of DNA. Nature 1993. 362, 709-715 Lloyd, R. G., Low, K. B. Homologous recombination. In Escherichia coli and Salmonella: cellular and molecular biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K Brooks Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 2236-2255. Washington DC: ASM Press Lobry, J. R. Properties of a general model of DNA evolution under no-strand bias conditions. J. Mol. Evol. 1995. 40, 326-330 Lobry, J. R. Asymetric substitution patterns in the two DNA strands of bacteria. Mol. Biol. Evol. 1996a. 13, 660-665 Lobry, J. R. Origin of replication of Mycoplasma genitalium. Science 1996b. 272, 745-746 137 Logsdon, J. M., Faguy, D. M. Evolutionary genomics: Thermotoga heats up lateral gene transfer. Curr. Biol. 1999. 9, R747-R751 Lopez, P., Espinosa, M., Stassi, D. L., Lacks, S. A. Facilitation of plasmid transfer in Streptococcus pneumoniae by chromosomal homology. J Bacteriol 1982. 150, 692-701 Lopez, P., Philippe, H., Myllykallio, H., Forterre, P. Identification of putative chromosomal origins of replication in Archaea. Mol. Microbiol. 1999. 32, 883-886 Lorenz, M. G., Wackernagel, W. Bacterial gene transfer by natural genetic transformation in the environment. Microbiol. Rev. 1994. 58, 563-602 Lovett, C. M., Love, P. E., Yasbin, R. E. Competence-specific induction of the Bacillus subtilis RecA protein analog: evidence for dual regulation of a recombination protein. J. Bacteriol. 1989. 171, 23182322 Lukashin, A. V., Borodovsky, M. GeneMark.hmm: new solutions for gene finding. Nucl. Acids Res. 1998. 26, 1107-1115 Mahillon, J., Chandler, M. Insertion Sequences. Microbiol. Mol. Biol. Rev. 1998. 62, 725-774 Maniloff, J. The minimal cell genome: "on being the right size". Proc. Natl. Acad. Sci. USA 1996. 93, 10004-10006 Marcotte, E. M., Pellegrini, M., Thompson, M. J., Yeates, T. O., Eisenberg, D. A combined algorithm for genome-wide prediction of protein function. Nature 1999. 402, 83-86 Marians, K. J. Prokaryotic DNA replication. Annu. Rev. Biochem. 1992. 61, 673-719 Martin-Farmer, J., Janssen, G. R. A downstream CA repeat sequence increases translation from leadered and unleadered mRNA in Escherichia coli. Mol. Microbiol. 1999. 31, 1025-1038 Mathé, C. 1996. Mise en oeuvre, comparaison et evaluation de modèles conditionnels pour des séquences codantes. In Laboratoire de Biometrie. pp. 24. Jouy-en-Josas: INRA Matic, I. Les mécanismes du contrôle de échanges génétiques interspécifiques et de la variabilité génétique chez les bactéries. Bull. Inst. Pasteur 1995. 93, 187-219 Matic, I., Rayssiguier, C., Radman, M. Interspecies gene exchange in bacteria: the role of SOS and mismatch repair systems in evolution of species. Cell 1995. 80, 507-515 Maynard-Smith, J. Optimization theory in evolution. Annu. Rev. Ecol. Syst. 1978. 9, 31-56 Maynard-Smith, J., Dowson, C. G., Spratt, B. G. Localised sex in bacteria. Nature 1991. 349, 29-31 Mayr, E. Animal species and evolution 1963. Cambridge, MA: Harvard University Press Mazel, D., Dychinco, B., Webb, V. A., Davies, J. A distinctive class of integron in the Vibrio cholerae genome. Science 1998. 280, 605-608 Mazza, G., Galizzi, A. Revised genetics of DNA metabolism in Bacillus subtilis. Microbiologica 1989. 12, 157-179 McCarthy, J. E. G., Gualerzi, C. Translational control of prokaryotic gene expression. Trends Genet. 1990. 6, 78-85 McClintock, B. The origin and behaviour of mutable loci in maize. Proc. Natl. Acad. Sci. USA 1950. 36, 344-355 McInerney, J. O. Replicational and transcriptional selection on codon usage in Borrelia burgdorferi. Proc. Natl. Acad. Sci. USA 1998. 95, 10698-10703 Médigue, C., Rechenmann, F., Danchin, A., Viari, A. Imagene: an integrated computer environments for sequence annotation and analysis. Bioinformatics 1999. 15, in press Médigue, C., Rouxel, T., Vigier, P., Henaut, A., Danchin, A. Evidence for horizontal gene transfer in Escherichia coli speciation. J. Mol. Biol. 1991. 222, 851-856 Meyers, R. S., Stahl, F. W. χ and the RecBCD Enzyme of Escherichia coli. Annu. Rev. Genet. 1994. 28, 49-70 Michaux, S., Paillisson, J., Carles-Nurit, M. J., Bourg, G., Allardet-Servent, A., Razmuz, M. Presence of two independent chromosomes in the Brucella melitensis 16M genome. J. Bacteriol. 1993. 175, 701-705 Michod, R. E., Wojciechowski, M. F., Hoelzer, M. A. DNA repair and the evolution of transformation in the bacterium Bacillus subtilis. Genetics 1988. 118, 31-39 Mitta, M., Fang, L., Inouye, M. Deletion analysis of cspA of Escherichia coli: requirement of the ATrich UP element for cspA transcription and the downstream box in the coding region for its cold shock induction. Mol. Microbiol. 1997. 26, 321-335 Morgenstern, B., Dress, A., Werner, T. Multiple DNA and protein sequence alignment based on segment-to-segment comparison. Proc. Natl. Acad. Sci. USA 1996. 93, 12098-1203 138 Moszer, I. The complete sequence of Bacillus subtilis: from sequence annotation to data management and analysis. FEBS lett. 1998. 430, 28-36 Moszer, I., Glaser, P., Danchin, A. Subtilist: a relational database for the Bacillus subtilis genome. Microbiology 1995. 141, 261-268 Moszer, I., Rocha, E. P. C., Danchin, A. Codon usage and lateral gene transfer in Bacillus subtilis. Curr. Op. Microbiol. 1999. 2, 524-528 Mottagui-Tabar, S., Björnsson, A., Isaksson, L. A. The second to last amino acid in the nascent peptide as a codon context determinant. EMBO J. 1994. 13, 249-257 Mottagui-Tabar, S., Isaksson, L. A. The influence of the 5'codon context on translation termination in Bacillus subtilis and Escherichia coli is similar but different from Salmonella Typhimurium. Gene 1998. 212, 189-196 Mrázek, J., Karlin, S. Strand compositional asymmetry in bacterial and large viral genomes. Proc. Natl. Acad. Sci. USA 1998. 95, 3720-3725 Mushegian, A. The minimal genome concept. Curr. Op. Genet. Dev. 1999. 9, 709-714 Mushegian, A. R., Koonin, E. V. A minimal gene set for cellular life derived by comparison of complete bacterial genomes. Proc. Natl. Acad. Sci. USA 1996. 93, 10268-10237 Muto, A., Osawa, S. The guanine and cytosine content of genomic DNA and bacterial evolution. Proc. Natnl. Acad. Sci. USA 1987. 84, 166-169 Naito, T., Kusano, K., Kobayashi, I. Selfish behavior of restriction-modification systems. Science 1995. 267, 897-899 Nakamura, Y., Ito, K., Isaksson, L. A. Emerging understanding of translation termination. Cell 1996. 87, 147-150 Nakayama, Y., Kobayashi, I. Restriction-modification gene complexes as selfish gene entities: roles of a regulatory system in their establishment, maintenance and apoptotic mutual exclusion. Proc. Natl. Acad. Sci. USA 1998. 95, 6442-6447 Needleman, S., Wunsch, C. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol. 1970. 48, 444 Nelson, K. E., Clayton, R. A., Gill, S. R., Gwinn, M. L., Dodson, R. J. et al. Evidence for lateral gene transfer between Archaea and Bacteria from genome sequence of Themotoga maritima. Nature 1999. 399, 323-329 Nguyen, C., Rocha, D., Granjeaud, S., Baldit, M., Bernard, K. et al. Differential gene expression in the murine thymus assayed by quantitative hybridisation of arrayed DNA clones. Genomics 1995. 29, 207-216 Nierhaus, K. H. Solution of the ribosome riddle: how the ribosome selects the correct aminoacyl-tRNA out of 41 similar contestants. Mol. Microbiol. 1993. 9, 661-669 Nitschke, P., Guerdoux-Jamet, P., Chiapello, H., Faroux, G., Henaut, C. et al. Indigo: a World Wide Web review of genomes and gene functions. FEMS Microbiol. Rev. 1998. 22, 207-227 Notredame, C., Higgins, D. G. SAGA: sequence alignment by genetic algorithm. Nucl. Acids Res. 1996. 24, 1515-1524 Nussinov, R. The universal dinucleotide asymmetry rules in DNA and the amino acid codon choice. J. Mol. Evol. 1981. 17, 237-244 O'Connor, M., Asai, T., Squires, C. L., Dahlberg, A. E. Enhancement of translation by the downstream box does not involve base pairing of mRNA with the penultimate stem sequence of 16S RNA. Proc. Natl. Acad. Sci. USA 1999. 96, 8973-8978 Ogasawara, N., Yoshikawa, H. Genes and their organization in the replication origin region of the bacterial chromosome. Mol. Microbiol. 1992. 6, 629-634 Orengo, C. A., Jones, D. T., Swindels, M. B., Thornton, J. M. Protein superfamilies and domain superfolds. Nature 1994. 372, 631-634 Orgel, L. E., Crick, F. H. C. Selfish DNA: the ultimate parasite. Nature 1980. 284, 604-607 Orr, H. A. The population genetics of adaptation: the distribution of factors fixed during adaptive evolution. Evolution 1998. 52, 935-949 Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. USA 1999. 96, 2896-2901 Palmeirim, I., Henrique, D., Ish-Horowicz, D., Pourquie, O. Avian hairy gene expression identifies a molecular clock linked to vertebrate segmentation and somitogenesis. Cell 1997. 91, 639-648 139 Pavlov, M. Y., Freistroffer, D. V., Dincbas, V., MacDougall, J., Buckingham, R. H., Ehrenberg, M. A direct estimation of the context effect on the efficiency of termination. J. Mol. Biol. 1998. 284, 579-590 Pearson, W. R., Lipman, D. J. Improved tools for biological sequence comparisons. Proc. Natl. Acad. Sci. USA 1988. 85, 2444-2448 Perrière, G., Lobry, J. R., Thioulouse, J. Correspondance discriminant analysis: a multivariate method for comparing classes of protein and nucleic acid sequences. CABIOS 1996. 12, 519-524 Peterson, S. N., Hu, P.-C., Bott, K. F., Hutchisson, C. A. A survey of the Mycoplasma genitalium genome by using random sequencing. J. Bacteriol. 1993. 175, 7918-7930 Philippe, H., Laurent, J. How good are deep phylogenetic trees? Curr. Opin. Genet. Dev. 1999. 8, 616-623 Picardeau, M., Lobry, J. R., Hinnenbusch, B. J. Physical mapping of an origin of bidirectional replication at the centre of the Borrelia burgdorferi linear chromosome. Mol. Microbiol. 1999. 32, 437445 Pinder, D. J., Blake, C. E., Lindsey, J. C., Leach, D. R. F. Replication strand preference for deletions associated with DNA palndromes. Mol. Microbiol. 1998. 28, 719-727 Plat, T. RNA structure in transcription elongation, termination and antitermination. In RNA structure and function, 1998. ed. M. Grunberg-Manago. pp. 541-574 Cold Spring Harbour Laboratory Press Plunkett, G., Rose, D. J., Durfee, T. J., Blattner, F. R. Sequence of Shigella toxin 2 phage 933W from Escherichia coli 0157:h7: Shiga toxin as a phage late-gene product. J. Bacteriol. 1999. 181, 17671778 Poole, E. S., Brown, C. M., Tate, W. P. The identity if the base following the stop codon determines the efficiency of in vivo translational termination in Escherichia coli. EMBO J. 1995. 14, 151-158 Poole, E. S., Major, L. L., Mannering, S. A., Tate, W. P. Translational termination in Escherichia coli: three bases following the stop codon crosslink to RF2 and affect the decoding efficiency of UGAcontaining signals. Nucl. Acids Res. 1998. 26, 954-960 Postel, E. H., Goodgal, S. H. Uptake of single stranded DNA in Haemophilus influenzae and its ability to transform. J. Mol. Biol. 1966. 16, 317-327 Prum, B., Rodolphe, F., de Turckheim, E. Finding words with unexpected frequencies in DNA sequences. J. Royal Stat. Soc. B 1995. 57, 205-220 Quentin, Y., Fichant, G., Denizot, F. Inventory, assembly and analysis of Bacillus subtilis ABC transport systems. J. Mol. Biol. 1999. 287, 467-484 Rabilloud, T., Adessi, C., Giraudel, A., Lunardi, J. Improvement of the solubilization of proteins in two-dimensional electrophoresis with immobilized pH gradients. Electrophoresis 1997. 18, 307-316 Radman, M. DNA replication: one strand may be more equal. Proc. Natl. Acad. Sci. USA 1998. 95, 9718-9719 Rayssiguier, C., Thaler, D. S., Radman, M. The barrier to recombination between Escherichia coli and S. typhimurium is disrupted in mismatch-repair mutants. Nature 1989. 342, 396-401 Razin, S., Yogev, D., Naot, Y. Molecular biology and pathogenicity of Mycoplasmas. Microbiol. Mol. Biol. Rev. 1998. 62, 1094-1165 Redaschi, N., Bickle, T. A. DNA restriction and modification systems. In Escherichia coli and Salmonella: cellular and molecular biology, 1996. ed. J. L. I. R Curtiss, Edmund C C Lin, K Brooks Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 773-781. Washington DC: ASM Press Redfield, R. J., Schrag, M. R., Dean, A. M. The evolution of bacterial transformation: sex with poor relations. Genetics 1997. 146, 27-38 Reisenauer, Kahng, L. S., McCollum, S., Shapiro, L. Bacterial DNA methylation: a cell cycle regulator ? J. Bacteriol. 1999. 181, 5135-5139 Rennell, D., Bouvier, S. E., Hardy, L. W., Poteete, A. R. Systematic mutation of bacteriophage T4 lysozyme. J. Mol. Biol. 1991. 222, 67-88 Resch, A., Tedin, K., Gründling, A., Mündlein, A., Bläsi, U. Downstream box-anti-downstream box interactions are dispensable for translation initiation of leaderless mRNAs. EMBO J. 1996. 15, 47404748 Riley, M., Labedan, B. Protein evolution viewed through Escherichia coli protein sequences: introducing the notion of a structural segment of homology, the module. J. Mol. Biol. 1997. 268, 857868 140 Rivera, M. C., Rain, R., Moore, J. E., Lake, J. A. Genomic evidence for two functionally distinct gene classes. Proc. Natl. Acad. Sci. USA 1998. 95, 6239-6244 Roberts, M. S., Cohan, F. M. The effect of DNA sequence divergence on sexual isolation in Bacillus. Genetics 1993. 134, 401-408 Roberts, R. J., Macelis, D. REBASE - Restriction enzymes and methylases. Nucl. Acid Res. 1997. 25, 248-262 Roberts, R. J., Macelis, D. REBASE - restriction enzymes and methylases. Nucl. Acids Res. 2000. 28, 306-307 Rocha, E. P. C., Danchin, A., Viari, A. Analysis of long repeats in bacterial genomes reveals alternative evolutionary mechanisms in Bacillus subtilis and other competent prokaryotes. Mol. Biol. Evol. 1999a. 16, 1219-1230 Rocha, E. P. C., Danchin, A., Viari, A. Functional and evolutionary roles of long repeats in prokaryotes. Res. Microbiol. 1999b. 150, 725-733 Rocha, E. P. C., Danchin, A., Viari, A. Translation in Bacillus subtilis: roles and trends of initiation and termination, insights from a genome analysis. Nucl. Acids res. 1999c. 27, 3567-3576 Rocha, E. P. C., Danchin, A., Viari, A. Universal replication bias in bacteria. Mol Microbiol 1999d. 32, 11-16 Rocha, E. P. C., Danchin, A., Viari, A. The DB case: pattern matching evidences are not significant. Mol. Microbiol. 2000. in press, Rocha, E. P. C., Viari, A., Danchin, A. Oligonucleotide bias in Bacillus subtilis: general trends and taxonomic comparisons. Nucl. Acids Res. 1998. 26, 2971-2980 Ross, S. Stochastic processes 1996. New York: John Wiley & Sons Roth, J. R., Benson, N., Galitski, T., Haack, K., Lawrence, J. G., Miesel, L. Rearrangements of the bacterial chromosome: formation and applications. In Escherichia coli and Salmonella: cellular and molecular biology, 1996. ed. R. C. H Neinhardt, J L Ingraham, Edmund C C Lin, K Brooks Low, Boris Magasanik, W S Reznikoff, Monica Riley, Moselio Schaechter, H E Umbarger. pp. 2256-2276. Washington DC: ASM Press Rutherford, S. L., Lindquist, S. Hsp90 as a capacitor for morphological evolution. Nature 1998. 396, 336-342 Rychlewski, L., Zhang, B., Godzik, A. Fold and unction predictions for Mycoplasma genitalium proteins. Fold. Des. 1998. 3, 229-238 Sagot, M.-F., Viari, A., Escalier, V., Soldano, H. 1995a. Searching for repeated words in a text allowing for mismatches and gaps. In 2nd South American Workshop on string processing, ed. R. BaezaYates, U. Manber. pp. 87-100. Valparaiso, Chile: Sagot, M.-F., Viari, A., Pothier, J., Soldano, H. 1995b. Finding flexible patterns in a text - an application to 3D molecular matching. In 1st IEEE workshop on stage and patterns matching in computational biology. pp. 117-145. Seattle: IEEE Sagot, M.-F. Ressemblance lexicale et structurale entre macromolécules - Formalisation et approches combinatoires. Thèse de Doctorat, 1997, Université de Marne-la-Valée. Saitou, N., Nei, M. The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol. Biol. Evol. 1987. 4, 406-425 Salzberg, S. L., Delcher, A. L., Kasif, S., White, O. Microbial gene identification using interpolated Markov models. Nucl. Acids Res. 1998a. 26, 544-548 Salzberg, S. L., Salzberg, A. J., Kerlavage, A. R., Tomb, J.-F. Skewed oligomers and origins of replication. Gene 1998b. 217, 57-67 Sanger, F., Coulson, A. R., Friedman, T., Air, G. M., Barrel, B. G. et al. The nucleotide sequence of bacteriophage phiX174. J. Mol. Biol. 1978. 125, 225-246 Sanger, F., Coulson, A. R., Hong, G. F., Hill, D. F., Petersen, G. B. Nucleotide sequence of bacteriophage lambda DNA. J. Mol. Biol. 1982. 162, 729-773 Saunders, C. W., Guild, W. R. Monomer plasmid DNA transforms Streptococcus peumoniae. Mol. Gen. Gentet. 1981. 180, 573-578 Saunders, N. J., Peden, J. F., Moxon, E. R. Absence in Helicobacter pylori of an uptake sequence for enhancing uptake of homospecific DNA during transformation. Microbiol. 1999. 145, 3523-3528 Schbath, S. 1995. Etude asymptotique du nombre d'occurrences d'un mot dans une chaîne de Markov et application à la recherche de mots de fréquence exceptionelle dans les séquences d'ADN. . pp. 174. Paris: Université René Descartes 141 Schbath, S. An efficient statistic to detect over- and under-represented words in DNA sequences. J. Comput. Biol. 1997. 4, 189-192 Schmidt, T. Multiplicity of ribosomal RNA operons in Prokaryotic genomes. In Bacterial Genomes, 1998. ed. F. J. d. Bruijn, J. R. Lupski, G. M. Weinstock. pp. 221-229 Chapman & Hall Schneider, T. D., Stormo, G. D., Gold, L. Information content of binding sites on nucleotide sequences. J. Mol. Biol. 1986. 188, 415-431 Shannon, C. E., Weaver, W. The mathematical theory of communication 1949. Urbana: University of Illinois Press Shapiro, J. A. Genome system architecture and natural genetic engineering in evolution. Ann. N. Y. Acad. Sci. 1999. 870, 23-35 Sharp, P. M. Molecular evolution of bacteriophages: evidence of selection against the recognition sites of host restriction enzymes. Mol. Biol. Evol. 1986. 3, 75-83 Sharp, P. M., Bulmer, M. Selective differences among translation termination codons. Gene 1988. 63, 141-145 Sharp, P. M., Leach, D. R. F. Palindrome-induced deletion in enterobacterial repetitive sequences. Mol. Microbiol. 1996. 22, 1055-1056 Sharp, P. M., Li, W.-H. An evolutionary perspective on synonimous codon usage in unicellular organisms. J. Mol. Evol. 1986. 24, 28-38 Sharp, P. M., Matassi, G. Codon usage and genome evolution. Curr. Op. Genet. Dev. 1994. 4, 851860 Sharp, P. M., Shields, D. C., Wolfe, K. H., Li, W.-H. Chromosomal location and evolutionary rate variation in enterobacterial genes. Science 1989. 246, 808-810 Sharples, G. J., Lloyd, R. G. A novel repeated DNA sequence located in the intergenic regions of bacterial genomes. Nucl. Acids Res. 1990. 18, 6503-6508 Shean, C., Gottesman, M. Translation of the prophage lambda cl transcript. Cell 1992. 70, 513-522 Shen, P., Huang, H. Effect of base pair mismatches on recombination via the RecBCD pathway. Mol. Gen. Genet. 1989. 218, 358-360 Sherman, J. M., Pillus, L. An uncertain silence. Trends Genet. 1997. 13, 308-313 Sippl M.J., Flockner H. Threading thrills and threats. Structure 1996. 4, 15-19 Sinden, R. R., Hashem, V. I., Rosche, W. A. DNA-directed mutations. Ann. N. Y. Acad. Sci. 1999. 870, 173-189 Smith, G. R. Homologous recombination in procaryotes. Microbiol. Rev. 1988. 52, 1-28 Smith, H. O., Tomb, J.-F., Dougherty, B. A., Fleischmann, R. D., Venter, J. C. Frequency and distribution of DNA uptake signal sequences in the Haemophilus influenzae Rd Genome. Science 1995. 269, 538-540 Smith, T. F., Waterman, M. S. Comparison of bio-sequences. Adv. Appl. Math. 1981. 2, 482-489 Sober, E., ed. Conceptual issues in evolutionary biology. 2nd ed. 1995. . Cambridge, MA: MIT Press. 506 pp. Soldano, H., Viari, A., Champesme, M. Searching for flexible repeated patterns using a non-transitive relation. Patt. Recogn. lett. 1995. 16, 233-246 Solomon, J. M., Grossman, A. D. Who's competent and when: regulation of natural genetic competence in bacteria. Trends Genet. 1996. 12, 150-155 Sowers, K. R., Schreier, H. J. Gene transfer systems for the archaea. Trends Microbiol. 1999. 7, 212219 Sprengart, M. L., Fatscher, H. P., Fuchs, E. The initiation of translation in Escherichia coli: apparent base-pairing between the 16S rRNA and downstream sequences of the mRNA. Nucl. Acids Res. 1990. 18, 1719-1723 Sprengart, M. L., Fuchs, E., Porter, A. G. The downstream box: an efficient and independent translation initiation signal in Escherichia coli. EMBO J. 1996. 15, 665-674 Sprengart, M. L., Porter, A. G. Functional importance of RNA interactions in selection of translation initiation codons. Mol. Microbiol. 1997. 24, 19-28 Stephens, R. S., Kalman, S., Lammel, C., Fan, J., Marathe, R. et al. Genome sequence of an obligate intracellular pathogen of humans: Chlamydia trachomatis. Science 1998. 282, 754-759 Stojanovic, N., Florea, L., Riemer, C., Gumucio, D., Slightom, J. et al. Comparison of five methods for finding conserved sequences in multiple alignments of gene regulatory regions. Nucl. Acids Res. 1999. 27, 3899-3910 142 Stormo, G. Consensus patterns in DNA. Meth. Enzym. 1990. 183, 211-221 Stormo, G. D., Hartzell, G. W. Identifying protein-binding sites from unaligned DNA fragments. Proc. Natl. Acad. Sci. USA 1989. 86, 1183-1187 Stormo, G. D., Schneider, T. D., Gold, L. Characterisation of translational initiation sites in Escherichia coli. Nucl. Acids Res. 1982. 10, 2971-2996 Stormo, G. D., Schneider, T. D., Gold, L. Quantitative analysis of the relationship between nucleotide sequence and functional activity. Nucl. Acids Res. 1986. 14, 6661-6679 Stragier, P., Kunkel, B., Kroos, L., Losick, R. Chromosomal rearrangement generating a composite gene for a developmental transcription factor. Science 1989. 243, 507-512 Sueoka, N. Directional mutation pressure, mutator mutations and dynamics of molecular evolution. J. Mol. Evol. 1993. 37, 137-153 Syvanen, M. Horizontal gene transfer: evidence and possible consequences. Annu. Rev. Genet. 1994. 28, 237-261 Syvanen, M. Insertion sequences and their evolutionary role. In Bacterial Genomes, 1998. ed. F. J. d. Bruijn, J. R. Lupski, G. M. Weinstock. pp. 213-220 Chapman & Hall Tang, C. M. Haemophilus influence: the impact of whole genome sequencing on microbiology. Trends Genet. 1997. 13, 399-404 Tao, H., Bausch, C., Richmond, C., Blattner, F. R., Conway, T. Functional genomics: expression analysis of Escherichia coli growing on minimal and rich media. J. Bacteriol. 1999. 181, 6425-6440 Tate, W. P., Mannering, S. A. Three, four or more: the translational stop signal at length. Mol. Microbiol. 1996. 21, 213-219 Tatusov, R. L., Koonin, E. V. A genomic perspective of protein families. Science 1997. 278, 631-637 Tedin, K., Moll, I., Grill, S., Resch, A., Graschopf, A. et al. Translation initiation factor 3 antagonizes authentic start codon selection on leaderless mRNAs. Mol. Microbiol. 1999. 31, 67-77 Tekaia, F., Lazcano, A., Dujon, B. The genomic tree as revealed from whole proteome comparisons. Genome Res. 1999. 9, 550-557 Thanaraj, T. A., Argos, P. Protein secondary structural types are differentially coded on messenger RNA. Prot. Sci. 1996. 5, 1973-1983 Thomas, N. S., Lusher, M., Storey, C. C., Clacke, I. N. Plasmid diversity in Clamydia. Microbiology 1997. 143, 1847-1854 Thomson, J. D., Higgins, D. G., Gibson, T. J. Clustal W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and wheight matrix choice. Nucl. Acids Res. 1994. 22, 4673-4680 Thomson, J. D., Plewniak, F., Poch, O. A comprehensive comparison of multiple sequence alignment programs. Nucl. Acids Res. 1999. 27, 2682-2690 Tomano, T. Shufflons: multiple inversion systems and integrons. Annu. Rev. Genet. 1999. 33, 171-191 Tomb, J.-F., White, O., Kerlavage, et al. The complete genome sequence of the gastric pathogen Helicobtacter pylori. Nature 1997. 388, 539-547 Tomii, K., Kanehisa, M. A comparative analysis of ABC transporters in complete microbial genomes. Genome Res. 1998. 8, 1048-1059 Trifonov, E. N. The multiple codes of nucleotides sequences. Bull. Math. Biol. 1989. 51, 417-432 Trinh, T. Q., Sinden, R. R. Preferential DNA secondary structure mutagenesis in the lagging strand of replication in Escherichia coli. Nature 1991. 352, 544-547 Vagner, V., Claverys, J.-P., Ehrlich, S. D., Méjean, V. Direction of DNA entry in competent vells of Bacillus subtilis. Mol. Microbiol. 1990. 4, 1785-1788 VanBogelen, R. A., Schiller, E. E., Thomas, J. D., Neidhardt, F. C. Diagnosis of cellular states of microbial genomes using proteomics. Electrophoresis 1999. 20, 2149-2159 Varenne, S., Buc, J., Lloures, R., Ladzunski, C. Translation is a non-uniform process: effect of tRNA availability on the rate of elongation of the nascent po lypeptide chains. J. Mol. Biol. 1984. 180, 549-576 Velicer, G. J., Kroos, L., Lenski, R. E. Loss of social behaviors by Myxococcus xanthus during evolution in an unstructured habitat. Proc. Natl. Acad. Sci. USA 1998. 95, 12376-12380 Vellanoweth, R. L. Translation and its regulation. In Bacillus subtilis and other Gram-positive bacteria, 1993. ed. A. L. Sonenshein, J. A. Hoch, R. Losick. pp. 699-711. Washington D. C.: American Society for Microbiology 143 Vellanoweth, R. L., Rabinowitz, J. C. The influence of ribosome-binding-site elements on translational efficiency in Bacillus subtilis and Escherichia coli in vivo. Mol. Microbiol. 1992. 6, 11051114 Versalovic, J., Lupski, J. R. Interspersed repetitive sequences in bacterial genomes. In Bacterial Genomes, 1998. ed. F. J. d. Bruijn, J. R. Lupski, G. M. Weinstock. pp. 38-48. Boston: Kluwer Academic Vinella, D., D'Ari, R. Overview of controls in the Escherichia coli cell cycle. BioEssays 1995. 17, 527536 Vingron, M., Waterman, M. S. Sequence alignment and penalty choice: review of concepts, case studies and implications. J. Mol. Biol. 1994. 235, 1-12 Volff, J.-N., Altenbuchner, J. Genetic instability of the Streptomyces chromosome. Mol. Microbiol. 1998. 27, 239-246 Vulic, M., Dionisio, F., Taddei, F., Radman, M. Molecular keys to speciation: DNA polymorphism and the control of genetic exchange in enterobacteria. Proc. Natl. Acad. Sci. USA 1997. 94, 9763-9767 Wake, R. G., Errington, J. Chromosome partitioning in bacteria. Annu. Rev. Genet. 1995. 29, 41-67 Wang, Y.-D., Zhao, S., Hill, C. W. Rhs elements comprise three subfamilies which diverged prior to acquisition by Escherichia coli. J. Bacteriol. 1998. 180, 4102-4110 Waterman, M. S. Introduction to computational biology. 1st ed. 1995. London: Chapman & Hall. 431 pp. Watson, J. D., Crick, F. C. Molecular structure of nucleic acids: a structure for deoxyribose nucleic acid. Nature 1953. 171, 737-738 Watt, V. M., Ingles, C. J., Urdea, M. S., Rutter, W. J. Homology requirements for recombination in Escherichia coli. Proc. Natl. Acad. Sci. USA 1985. 82, 4768-4772 Whitman, W. B., Coleman, D. C., Wiebe, W. J. Prokaryotes: the unseen majority. Proc. Natl. Acad. Sci. USA 1998. 95, 6578-6583 Whittle, P. Some distribution and moment formulae for the Markov chain. J. Royal Stat. Soc. B 1955. 17, 235-242 Williams, G. C. Adaptation and natural selection 1966. Princeton: Princeton University Press Wilson, D. S., Sober, E. Behav. Brain Sci. 1994. 17, 585-654 Wilson, G. G. Organization of restriction-modification systems. Nucl. Acids Res. 1991. 19, 2539-2566 Woese, C. R., Kandler, O., Wheelis, M. L. Towards a natural system of organisms: proposal for the domains of Archaea, Bacteria and Eucarya. Proc. Natl. Acad. Sci. USA 1990. 87, 4576-4579 Woldringh, C. L., Jensen, P. R., Westerhoff, H. V. Structure and partitioning of bacterial DNA: determined by a balance of compaction and expansion forces? FEMS Microbiol. Lett. 1995. 131, 235-242 Wu, C.-I., Maeda, N. Inequality in mutation rates of the two strands of DNA. Nature 1987. 327, 169170 Wu, L. J., Errington, J. Use of asymmetric cell division and spoIIIE mutants to probe chromosome orientation and organization in Bacillus subtilis. Mol. Microbiol. 1998. 27, 777-786 Yoshikawa, H., Wake, R. G. Initiation and termination of chromosome replication. In Bacillus subtilis and other Gram-positive bacteria, 1993. ed. A. L. Sonenshein, J. A. Hoch, R. Losick. pp. 507-528. Washington D. C.: American Society for Microbiology Yuzhakov, A., Turner, J., O'Donnell, M. Replisome assembly reveals the basis for asymetric function in leading and lagging strand replication. Cell 1996. 86, 877-886 Zawadzki, P., Cohan, F. M. The size and continuity of DNA segments integrated in Bacillus transformation. Genetics 1995. 141, 1231-1243. 144