Analyse fonctionnelle des génomes ex. génome humain 3.4Mb
Transcription
Analyse fonctionnelle des génomes ex. génome humain 3.4Mb
Cours de Biologie Moléculaire L2S3 Structure de l’ADN Organisation des génomes 2ème cours (1h30) Les propriétés physicochimiques de l’ADN Structure des génomes La chromatine L’ADN est chargé négativement • Electrophorèse sur gel d’acrylamide L’ADN absorbe la lumière à 260nm (UV) Le chauffage des solutions d'ADN produit une augmentation d'absorbance à 260 nm. Ce phénomène correspond à la dénaturation de l’ADN bicaténaire en 2 brins d’ADN monocaténaires, d’ou le doublement de densité optique. On peut caractériser la température de fusion de l’ADN notée Tm qui correspond à la température à la moitié du phénomène. double brin simple brin Les brins d’ADN s’hybrident • Hybridation = Association spontanée, spécifique et réversible de deux brins d’ADN complémentaires (formant des paires WC) • L’hybridation est : – spécifique : une séquence d’ADN monobrin ne peut s’apparier qu’à la séquence qui lui est complémentaire dans le génome. – réversible : En jouant sur les conditions expérimentales (température) on peut entrainer ou briser (dissociation) l’hybridation de deux molécules d’ADN. • Ce passage se visualise en mesurant la DO à 260 nm. T > Tm T = Tm T < Tm Organisation des génomes Définition du mot génome Ensemble de l’information héréditaire d’un organisme, présente en totalité dans chaque cellule de l’organisme Organisation des génomes Définition du mot génome Ensemble de l’information héréditaire d’un organisme, présente en totalité dans chaque cellule de l’organisme Taille - Quelques dizaines de milliers de bases pour le génome d’un virus - Quelques millions de bases pour une bactérie - 3 milliards de bases pour le génome humain -16 milliards de bases pour le génome du blé Organisation des génomes Définition du mot génome Ensemble de l’information héréditaire d’un organisme, présente en totalité dans chaque cellule de l’organisme Taille - Quelques dizaines de milliers de bases pour le génome d’un virus - Quelques millions de bases pour une bactérie - 3 milliards de bases pour le génome humain -16 milliards de bases pour le génome du blé Les individus d’espèces différentes ont des génomes différents par leur taille, l’ordre et la nature des informations qu’ils contiennent. Par contre 2 individus de la même espèce possèdent le même génome même si au sens strict le génome de chaque individu est unique. Chez l’homme le génome ne diffère que de 0.1% entre 2 personnes non apparentées La ressemblance entre génomes • Homme/chimpanzé – Codant: <1,5% de différence – Non codant ~3% de différence – Quelques duplications/délétions importantes de région de quelques dizaines de kb • Homme/souris – Codant: 10% de différence – Non codant: la plus grande partie des régions non codantes est sans identité apparente, mais il y aurait ~2000nt conservés dans chaque région intergénique chez l’ensemble des mammifères – Mutations : 0,6/site • Homme/poulet – Mutations : 1,5/site Organism HIV-1 Bp 10,000 Genes ratio 10 1000 Haemophilus influenzae 1,830,000 1703 1075 Escherichia coli 4,600,000 4288 1072 Methanococcus jannashchii 1,660,000 1738 955 Amoeba dubia ~670,000,000,000 ~5000? 134,000,000 Amoeba proteus ~270,000,000,000 ~5000? 54,000,000 Saccharomyces cerevisiae Erysiphe cichoracearum (fungus) ~13,000,000 5885 2209 ~1,500,000,000 ~10,000? 150,000 ~25,000,000,000 ~5000? 5,000,000 Caenorhabditis elegans ~100,000,000 ~14,000 7000 Drosophila melanogaster ~170,000,000 ~12,000 14,000 Arabidopsis thaliana ~120,000,000 Coscinodiscus asteromphalus (diatom) Lilium formosanum (lily) ~10,000 12,000 ~36,000,000,000 ~15, 000? 2,400,000 ~5,000,000,000 ~20,000? 250,000 ~18,000,000,000 ~20,000? 900,000 Protopterus aethiopicus (lungfish) ~140,000,000,000 ~40,000? 3,500,000 human ~3,400,000,000 ~30,000 80,500 Zea mays Allium cepa (onion) Espèce modèle Taxon Virus de la grippe Virus Bactériophage T4 Escherichia coli Saccharomyces cerevisiae Arabidopsis thaliana Caenorhabditis elegans Nb de chromosomes Taille du génome Nb de gènes estimé 13 500 bp 12 Virus Bactérie ARN simple brin 1 (circulaire) 1 (circulaire) 165 000 bp 4,7 Mb 200 4000 Ascomycète 16 14 Mb 6000 Crucifère 5 100 Mb 25000 Nématode 6 100 Mb 13500 Drosophila melanogaster Insecte 4 165 Mb 1200016000 Mus musculus Mammifère 20 3400 Mb Homo sapiens Mammifère 23 3400 Mb 2500030000 2500030000 Codant et non codant… Chabalina et al. Genome Biology, 2004 Génomes procaryotes et génomes eucaryotes Caractéristiques des génomes procaryotes -Chromosome circulaire unique -Présence possible de petites séquences d’ADN circulaires indépendantes : les plasmides. -Contenu en G+C variable selon les espèces. Ex : 22% chez un parasite Wiggleworthia glossinidia 67% chez deinicoccus radiodurans Répartition des gènes procaryotes – Longueur gène 950 nt. en moyenne (coli) – Densité en gènes. 95% du génome est transcrit chez E. coli. – Gènes organisés en opérons. 600 opérons dans le génome de Coli. Les gènes procaryotes Séquences qui contiennent les informations nécessaires au développement, au fonctionnement, au maintien de l’intégrité et à la reproduction de la cellule. fraction codante des génomes procaryotes élevée de 85 à 90%. Ex. :97% chez Bacillus subtilis 49.5% chez Mycobacterium leprae Les séquences codantes codent des protéines ou des ARNs (ribosomiques et de transfert) - Chez les procaryotes la séquence des gènes est continue. Pas d’intron -Le nombre de pseudogènes (gènes mutés, non transcrits ou non traduits est faible (1 à 2%). -Les domaines non codants sont représentés par les régions intergéniques contenant les séquences régulatrices - Les séquences répétées sont beaucoup plus rares chez les procaryotes que chez les eucaryotes. Fig1348a.jpeg les génomes eucaryotes, caractéristiques -noyau -taille -plusieurs chromosomes, plusieurs origines de réplication/chromosome -notion de gène, disloqués (exons, introns) -grandes régions intergéniques, fonction inconnue Pendant la division cellulaires les chromosomes individualisés sont observables au microscope leur nombre, leur taille et leur forme sont caractéristiques d’une espèce donnée Chez homme: 23 paires de chromosomes Chez la vache et la chèvre: 30 Chez le porc: 19 Chez le cheval: 32 Répartition des gènes eucaryotes – Densité: humain: 1 gène tous les 100kb en moyenne; – C.elegans: 1gène/5-6kb (25%); – S. Cerevisiae: 1 gène/2kb. From « Genomes 2 », T.A. Brown Le gène de mammifère –Gène humain moyen: 9 introns, 27 kb, 3'UTR:770bp, 5'UTR:300bp, CDS:1340bp, exon moyen: 145 bp (218 bp pour C. elegans), intron moyen:3365 bp. –Gènes "monstres": dystrophine: 2,4 Mb; Facteur de coagulation VIII: 186 kb, 26 exons; Tinine: CDS de 80780 bp, 178 exons Analyse fonctionnelle des génomes ex. génome humain 3.4gb • 80 à 85% de fonction inconnue: - régions intergéniques - régions intragéniques: les introns • 15 à 20% de fonction connue: - les gènes qui codent les protéines - les gènes qui codent les ARNs - les séquences régulatrices - Télomères, centromères, MAR.. Junk DNA: les séquences répétées dans le génome humain • Les principales séquences répétées – Répétition de type transposon – Répétition simples de k-mères courts, p. ex. (A)n, (CA)n ou (CGG)n – Segments dupliqués: blocs de 10–300 kb copiés d'une région à l'autre ou en tandem • Un ADN pas si "poubelle" que ça qui joue un grand rôle dans la transformation des gènes et l'apparition de nouveaux gènes. • Les répétitions humaines sont relativement anciennes comparées à celles qu'on trouve dans le génome de drosophile. Notre génome a des difficultés pour se débarasser des répétitions. Pseudogènes et retrotransposons • Deux mécanismes proches From « Genomes 2 », T.A. Brown Séquences répétées de type transposon • • Les séquences répétées de type transposon représentent plus de 1/3 du génome des vertébrés Génome humain: 45% !! LINES (Long interspersed repeated sequences) – 21% du génome humain (850.000 copies). Le plus commun de ces éléments est L1: 6kb. – Contiennent un promoteur et 2 ORFs. – Après traduction, l'ARN LINE s'assemble avec ses propres protéines et se déplace vers le noyau où l'ARN est reverse transcrit et s'insère dans le génome au niveau d'une coupure simple brin. La transcription inverse s'interrompt souvent avant terme, créant de nombreux inserts tronqués (la plupart en fait) – La machinerie LINE est responsable également de la retrotranscription des éléments SINE. – Il y a en fait trois familles de LINE dans le génome humain (LINE1, LINE2, LINE3), mais seule L1 est active. SINEs (Short interspersed repeated sequences) – – – – Contiennent un promoteur pol-III mais pas d'ORF Vivent « sur le dos » des LINE 13% du génome humain. 3 types: Alu, MIR et Ther2/MIR3. (1 500 000 SINEs par génome humain haploide, dont 1 000 000 Alu) – La plus connue est ALU, la seule SINE active: 290 bp constitué de 2 répétitions en tandem de 130 bp. – On ne trouve pas ces séquences dans les régions codantes, mais souvent dans l'unité de transcription, soit dans les introns, soit dans les parties non traduites des ARNm. Autres séquences répétées • Les répétitions simples (Simple Sequence Repeats - SSR) – – – – Répétition parfaite ou non d'un fragment de longueur k (k-mère). Fragment court (1 à 13b): microsatellite Fragment long (14 à 500b): minisatellite Représentent 3% du génome humain, 0,5% provenant des répétitions de dinucléotides (85% AC ou AT). La chromatine Taille du génome humain: 3,4 Mpb soit une taille de 1m contenue dans une cellule de 6 µ de diamètre. Nécessité d’empaquetage de l’ADN