Notes de Cours - Enseignements informatiques et mathématiques

Transcription

Notes de Cours - Enseignements informatiques et mathématiques
BI – Cours 1 et 2
Introduction à la Bio-informatique et la Génomique
Biais de composition des séquences
Introduction : La bioinformatique
Qu'est-ce que c'est ?
C'est répondre à des problématiques biologiques en utilisant des méthodes informatiques.
Comment ça se passe ?
A partir d'une problématique biologique et éventuellement de données expérimentales (séquençage,
puces à ADN, données d'interaction, RNA-seq, etc ….), la bioinformatique permet un traitement
massif et rapide du problème afin de réduire les champs d'investigation à venir et/ou de formuler
des prédictions. Les prédictions établies sur la base d'une méthodologie bio-informatique sont
ensuite validées (ou invalidées) expérimentalement. Rien n'empêche que la bioinformatique soit
l'élément déclenchant du questionnement.
Importance du dialogue Biologiste/(Bio-)Informaticien. Interfaces fréquentes avec d'autres
disciplines telles que la physique, les mathématiques, les statistiques.
Pour quoi faire ?
Champs d'investigation vastes et variés. Quelques exemples :
– Analyse de séquences (comparaisons, recherche de motifs/domaines, recherche de
répétitions, recherche de biais du contenu, etc.)
– Prédictions de structures tri-dimensionnelles (protéines,ARNs)
– Bases de données pour stocker et mettre à disposition les données (séquences) ou répertorier
des plans expérimentaux (Limms)
– Analyses phylogénétiques et évolutives (classification, arbre, étude des pressions évolutives)
Et bien d'autres.
Dans ce module, on insistera surtout sur les méthodes bioinformatiques de la génomique.
La Génomique
Qu'est-ce que c'est ?
C'est la science/le domaine (-omique)1 qui étudie les génomes en se basant sur leur séquence. Les
analyses génomiques concernent les génomes individuellement et les uns par rapport aux autres =>
Génomique comparative
Oui mais un génome ?
1On parle aussi de protéomique, transcriptomique, métagénomique, etc.
C'est l'ensemble du matériel génétique d'un organisme, c'est à dire les gènes codants (=> protéines)
ou non codants (ARNt, ARNr ARNi, snARN, snoARN et microARN), les signaux de régulation
(séquences types « boîtes » par ex.) et plus encore ...
J'en veux un …
facile ! Les données issues du séquençage sont stockées dans des banques de données. Certaines
données sont privées mais de nombreux génomes complètement séquencés sont publiques et leur
séquence est disponible en ligne. Par exemple, au NCBI
(http://www.ncbi.nlm.nih.gov/genome/browse/) ou à l'EMBL-EBI
(http://www.ebi.ac.uk/genomes/) .
Depuis les années 80, séquençage de génomes complets (de + en + grand). Maintenant métagénome
aussi. Séquençage de + en + rapide.
EMBL-EBI : (Janvier 2014) 2615 bactéries, 171 eucaryotes, 3490 virus, 1514 phages
Ça ressemble à quoi ?
C'est une longue série des bases A,C,G,T des acides nucléiques qui composent l'ADN de
l'organisme étudié. On parle de séquence brute. Le format standard pour échanger ce type de
données est le format FASTA2. Il se compose d'une ligne d'entête (> suivi d'un
identifiant/commentaire sur la nature et l'origine des données) puis la séquence elle même sur les
lignes suivantes avec un nombre fixe de caractères par ligne (nbre variable d'un fichier à un autre,
autour de 60 à 80). Pour un génome qui contient plusieurs chromosomes, le fichier est souvent un
« fasta multiple » qui contient autant de '>' et de séquences qu'il y a de chromosomes (les uns à la
suite des autres).
Rque importante : Où commence cette séquence ?? arbitraire sinon comment choisir ? Surtout si
molécule circulaire. ORI pour les bactéries ?
Qu'est-ce qu'on en fait ?
Etude des caractéristiques générales :
Les génomes sont de tailles variables (de 160 kb à 10Mb pour les bactéries).
Quelques repères de taille :
Virus : de quelques Kb à 10^5 bp et jusqu'à 1200 gènes (mimivirus)
E. coli (K12) : 4,6Mb 4400 gènes
Levure : 1,4x10^7 bp, 6000 gènes
Drosophile : 1x10^8 bp, 12000 gènes
Homme/Souris : 3x10^9 bp, 35000 gènes
Rq : k=10^3, M=10^6, G=10^9
Composition en nt
Règles de Chargaff (1950!!)
• Dans une molécule double brin A=T et G=C => attribué plus tard (1953) aux appariements
Watson Crick dans le double hélice d'ADN
• Au sein du même brin (et à l'échelle macroscopique) A=T et G=C !!! On ne sait toujours pas
2 Le format fasta est aussi le format des séquences pour les gènes, les protéines, etc.
pourquoi même si la présence d'éléments inversés répétés contribuent à maintenir cet
équilibre
Le %GC
Les génomes présentent des compositions en bases différentes (de 16 à 75% de GC chez les
bactéries). Taux variable aussi chez les génomes eucaryotes.
Quand le %GC d'un génome s'éloigne de la moyenne, on dit que sa composition est biaisée
(génome GC riche ou AT riche) même si il n'y a pas vraiment de norme en la matière du fait des
différences constatées.
Le %GC sur la 3ième base du codon (%GC3) reflète le taux de GC du génome en l'absence de
contrainte (évolution neutre) du fait du wooble (mutation silencieuse sur la 3ième base du codon).
Le %GC3 est une caractéristique utilisée surtout chez les vertébrés (du fait de la faible densité de
codant).
On a pu remarqué que les génomes courts ont un plus faible pourcentage en GC. On a montré que
les organismes ayant un mode de vie parasitique ont un taux de GC plus faible que ceux ayant un
mode de vie libre (Rocha and Danchin, 2002). Plusieurs autres corrélations plus moins nettes ont
été testées (lien avec la température de croissance, le stress oxydatif, etc.)
Il faut noter que ce %GC reflète la composition globale du génome. En fait, celle-ci varie le long du
génome et on peut parfois constater d'importantes variations locales. En général, les gènes sont plus
riches en GC que le reste du génome. Mais ces variations locales peuvent aussi être liées à des
séquences issues de transferts horizontaux et/ou des éléments mobiles.
cf image de Mabs ci-après
Accident dun GC% qui chute <=> prophage (en vert)
ID=*, particulièrement regroupés à cet endroit
Caractérisation des éléments d'un génome
Annotation des génomes
C'est établir le « catalogue » de tous les objets génétiques présents dans le génome.
Prédire les gènes codants, les ARN non codants (ARNt, ARNr, etc.), les signaux régulateurs
repérables, les éléments mobiles ou transférés, etc.
L'annotation peut être syntaxique et fonctionnelle.
Comment on le fait ?
Les techniques sont différentes selon ce qu'on cherche à identifier. On exploite en fait la
connaissance des éléments qu'on cherche à identifier pour trouver les signaux assez discriminants
pour permettre une détection automatique à partir de la séquence brute. Par exemple, les tRNA sont
repérés en recherchant des séquences susceptibles de s'apparier pour donner la structure secondaire
tige/boucle caractéristique + anti-codon (tRNA-scan). Autre exemple, les ARNr étant très conservés
en séquences, on les retrouve par similarité de séquence avec d'autres ARNr déjà connus.
Cas particulier de la détection des gènes codants
Un gène codant bactérien se caractérise par :
• Un promoteur constitué d'1 boîte de Pribnow (TTGACa) vers -35, 1 boîte TATA (TatAAT)
vers -10 et le site d'initiation de la transcription (A/G). On peut aussi repérér un spacer
•
•
•
d'environ 17bp entre la région -35 et -10.
Pribnow Ecoli (%) = T82 T84 G78 A65 C54 a45
TATA Ecoli(%) = T80 A95 T45 A60 a50 T96
NB : notion de consensus et de PSSM fera l'objet d'un prochain cours
Un CDS = Coding Sequence débutant par un codon START (très souvent le codon ATG) et
se terminant par un codon STOP (TAA,TAG ou TGA) => ORF (Open Reading Frame)
le RBS (Ribosome Binding Site) ou séquence de Shine-Dalgarno environ 10 nt avant le
start. Cette région s'apparie avec l'ARN 16s (aGGAGGu).
Un terminateur Rho dépendants ou pas (tiges-boucles riches en GC)
=> Autant de signaux qui peuvent permettre de détecter les gènes codant. Mais Problème de
sensibilité/spécificité. Trouver tout (ne rien manquer mais sans trop de faux positifs). La recherche
de signaux seule s'avère insuffisante.
Rq : Pour les gènes eucaryotes, les signaux sont différents (TATA box, 5'UTR,3'UTR et Site PolyA,
ilôts CpG des vertébrés, sites donneurs/accepteurs des jonctions introns exons).
Autre information détectable : le contenu. En fait le contenu est principalement dans les ORFs (cf
biais d'usage des codons). On a pu montré que la différence de composition entre un gène codant et
son environnement est détectable si on observe la composition en hexanucléotides (série de 6 nt).
On peut ainsi établir des matrices de transition qui reflètent la probabilité d'être ou pas codant
(Chaînes de Markov). Ces modèles ont été améliorés en tenant compte de beaucoup plus d'états que
codants/non codants en utilisant les HMM et en combinant l'analyse du contenu avec celle des
signaux (RBS par exemple). Exemples de logiciels de prédiction : GenMark, Glimmer.
Rq : chez les eucaryotes, la nature morcelée en introns/exons des gènes rend plus difficile la
détection automatique des gènes (p.ex avec Genscan). L'annotation des gènes eucaryotes est
souvent combinée avec l'alignement avec des ESTs (Expressed Sequence Tags) ou des données de
RNAseq.
Dans tous les cas, il est indispensable de vérifier les annotations automatiques en confrontant les
prédictions à des données expérimentales. Cependant, la validation des prédictions par recherche de
similarité dans les banques même si elle est intéressante repose sur une hypothèse conservative qui
tend à la fois à propager les erreurs et à manquer certains changements (mutations).
Aparté sur la notion de phase
Pour traduire un ARNm en protéine, les bases sont lues par triplet. Chaque triplet est un codon. A
chaque codon correspond un acide-aminé (il peut y avoir plusieurs codons pour un même acide
aminé). Ainsi, il existe 3 phases différentes selon laquelle on peut lire les triplets et même 6 si on
considère également l'autre sens.
Que peux on dire des éléments ainsi catalogués ?
Quelques éléments remarquables.
On constate une inégale répartition des éléments catalogués.
Les gènes sont inégalement répartis sur le chromosome (cf représentation de B. subtilis diaporama).
En fait, il sont plus nombreux sur le brin qui est répliqué en continu (ou brin précoce). Chez B.
subtilis, 75% des gènes sont sur le brin précoce. Pour d’autres organismes, le biais n’est visible
qu’au niveau des gènes essentiels tels que les opérons codant pour les ARN ribosomaux qui sont
tous sur le brin précoce chez E. coli. Une explication de ce phénomène vient des interactions entre
l’ADN polymérase de la fourche de réplication et l’ARN polymérase qui effectue la transcription
qui soit rentrent en collision (peut être délétère) soient avancent dans le même sens. => sélection
favoriserait donc gènes sur brin précoce surtout pour les gènes « essentiels ».
cf images réplication dans le diaporama
Fourche de réplication montre bien que brin précoce et tardif sont inversés de part et d'autre de l'axe
ORI-ter.
Cf diaporam
Les éléments mobiles/transférés peuvent être groupés (liés à des 'spots' de recombinaisons).
Variation locale du contenu en GC + contenu atypique (en hexanucléotides par exemple). Cf image
de M. abscessus.
Biais d'usage du code
Les gènes codants sont affectés par un biais d'usage des codons (= du code).
64 codons (statistique!) dont 3 STOP donc 61 codons pour les AA. 20 AA à coder => redondance du
code, codons synonymes.
Plusieurs codons codent pour un même AA (1,2,3,4 ou 6).
cf diapo du code génétique.
On a déjà vu que 3ième base moins contrainte (wooble et mutations silencieuses).
Mais chaque espèce utilise « préférentiellement » certains codons. Lesquels ? Pourquoi ?
On a pu constaté que :
=> Les codons favorisés correspondent aux ARNt majoritaires.
Certains gènes sont fortement exprimés (protéines traduites en très grand nbre)
=> Ces gènes présentent la fréquence la plus élevée de codons favorisés.
Ceci a permis de définir des codons « optimaux ». Ce sont ceux qui permettent les taux de
traduction les + élevés.
Rque 1 : Chez E. coli, 35 (39?) anticodons de tRNA différents. Il y a moins d'anticodons différents
que de codons distincts. En fait, la reconnaissance tRNA/codon se fait avec un certain flou ce qui
permet a un même tRNA de reconnaître plusieurs codons synonymes. Il ne les reconnaît cependant
pas avec la même affinité => codons « préférés » ou « favorisés ».
Rque2 : Le biais de composition des génomes (%GC) peut influer sur le biais d'usage des codons.
Quelques mesures du biais d'usage du code :
RSCU (Relative Synonymous Codon Usage) = fréquence observée / fréquence attendue
1 calcul de RSCU pour chaque codon.
Par exemple, chez E.coli. ARG codée par 6 codons différents mais le codon préférentiel est CGC
avec 40% de fréquence observée contre 17% (=1/6) de fréquence attendue (RSCU = 2.39).
CAI = Codon Adaptation Index calcul pour 1 gène (tient compte de tous les codons du gènes)
=> permet de détecter les gènes fortement exprimés.
CAI = CAIobs/CAImax (ne pas utiliser certains gènes tq ribo???)
CAIobs = Produit des RSCU pour tous les codons du gènes élevé puissance 1/n où n est le nbre de
codons dans le gène
CAImax même chose si tous les codons du gènes étaient optimaux.
Rq : il existe aussi des mesures indépendantes de l'identification des codons optimaux . Par
exemple, Nc:effective Number of Codons.
En conclusion, les mesures de bais d'usage du code permettent d'indentifier les gènes fortement
exprimés. Ils peuvent aussi permettre d'identifier des gènes issus de transferts horizontaux
(provenant d'espèces ayant un usage des codons différent).
Le GC skew ...
GC skew = (G-C)/(G+C)
Enrichissement en G ou en C.
cf diapos sur le GC-skew
A gauche (G<C), Lagging Strand (=tardif)
A droite (G>C), Leading Strand (=précoce)
Lié à la réplication et aux taux de mutation qui sont différents entre brin précoce et tardif.
Le brin tardif étant plus longtemps exposé sous la forme simple brin réagit différemment aux
mutations.
Essentiellement, la désamination des Cytosines sur le brin précoce.
Désamination plus rapide sur ADN simple brin donc sur le complémentaire du brin tardif en cours
de synthèse qui est donc le brin précoce de la prochaine génération.
Après correction C => T (baisse du nb de C sur brin précoce)
=> exploité pour détecter Origine de réplication (=ORI) et terminus des bactéries en utilisant une
fenêtre glissante.

Documents pareils