Master 1 IUP Génomique et Protéomique Examen de GP4
Transcription
Master 1 IUP Génomique et Protéomique Examen de GP4
Master 1 IUP Génomique et Protéomique Examen de GP4 - Bioinf ormatique Durée de l’épreuve : 2h Documents autorisés Exe rci ce 1 : banques de données . Q1) Le schéma ci-dessous représente le nombre d’articles scientifiques écrits par un Dupont, celui de ceux écrits par un Martin, ainsi que le nombre d’articles coécrits par un Dupont et un Martin. D’après ces informations, indiquez le nombre d’articles trouvés pour chacune des requêtes suivantes : Dupont [author] AND Martin [author] Dupont [author] OR Martin [author] Dupont [author] NOT Martin [author] Q2) Quelles sont les 3 banques généralistes de séquences nucléiques ? Quel est leur principal point commun ? Q3) Qu’est-ce que SwissProt et trEMBL ? Quelle est la différence entre ces deux banques ? Q4) Qu’est-ce que le format FASTA ? Et sa variante MultiFASTA ? Exe rci ce 2 : a l igneme nt pai re à pai r e et dotplots. Q1) Un dotplot est réalisé entre deux séquences très similaires. Il est observé, sur une partie de la diagonale principale, le phénomène suivant : Que représente le rectangle hachuré (soyez précis) ? Q2) Ci-dessous figure l’alignement de meilleur score obtenu en utilisant le système de score suivant : Match = +1, Mismatch = -1, Ouverture de gap = -10, Extension de gap = -1 AAAAGGGG AA----GG a) Quel est le score de cet alignement ? b) Cet alignement a t-il été obtenu par méthode globale/semi-globale ou locale ? Justifiez votre réponse lorsque vous éliminez certaines des possibilités. c) Ecrivez les séquences brutes utilisées en entrée de l'alignement. d) Le temps mis pour calculer cet alignement est de 1 milliseconde. Donnez une estimation du temps mis dans les mêmes conditions si les séquences étaient toutes les deux 10 fois plus grandes. Exe rci ce 3 : Logi cie ls de re che r che dans les banques . Q1) Une séquence a été cherchée dans une banque de données à l'aide de Blastn. Cette requête n'a donné aucun résultat. La même séquence a été ensuite cherchée dans la même banque, cette fois-ci à l'aide du logiciel discontiguous megablast. L'alignement suivant a été trouvé avec un score pourtant très significatif : |572780 |572770 |572760 |572750 |572740 |572730 |572720 ATGCCTTCCCAGTAAACGCCCCCGTCGCTGGTCTCGGCCACATTGGTAAAGATTGTGTTCTTCTGGATGGTCTTGATGGC ||.||:|||||.:|:||:||.|||||...|||....|||||:|||||:|||||.||||||||.||.||:|..|..||||| ATCCCCTCCCACCAGACACCGCCGTCCGGGGTGAGCGCCACGTTGGTGAAGATGGTGTTCTTGTGCATAGAGTGCATGGC |866490 |866500 |866510 |866520 |866530 |866540 |866550 |572700 |572690 |572680 |572670 |572660 ATTGGGGTTGGTCTTCACTGAAGTCCCAGGAGCGACACCGAAAAAGCCATTTTCTGGGTTGATGG :||.|||||.|.|||.|.:||:||.||:||:||.||:|||||:|||||:.:|||:||.||||||| GTTCGGGTTCGACTTGAACGAGGTGCCGGGGGCCACGCCGAAGAAGCCGGCTTCCGGCTTGATGG |866570 |866580 |866590 |866600 |866610 a) A votre avis pourquoi ? b) Entre « template : coding/non-coding », quel choix feriez vous pour trouver un tel alignement ? Justifiez votre réponse. Q2) P-valeur et E-valeur : a) Quelles sont les E-valeur et P-valeur d’un alignement de bit-score 20 lorsque l’on compare une séquence requête de taille 1000 à une banque de taille 1000000 ? Est ce significatif ? b) Dans ces conditions, quel bit-score devrait-on attendre d’un alignement pour que sa E-valeur soit inférieure à 10 - 6 ? c) Dans l’hypothèse où la séquence requête est nucléique, et donc comparée contre toutes les séquences de la banque, mais également contre toutes les séquences complémentaires inversées de cette même banque, quel bit-score devrait-on attendre de cet alignement pour que sa E-valeur soir inférieure à 10 - 6 ? Exe rci ce 4 : Phy logénies. Q1) UPGMA : a) Déroulez l’algorithme UPGMA sur la matrice de distances suivante : | A B C D ---+-----------A | 1 5 8 B | 2 4 C | 6 b) L’arbre obtenu reflète t’il la matrice de distances originale ? Expliquez en à la fois la raison pratique (mutations) et théorique due à l’algorithme UPGMA. Q2) Voici deux arbres : A B a) Lequel de ces deux arbres provient d’une méthode UPGMA ? Expliquez. b) Donnez la matrice de distances respectant l’arbre obtenu par UPGMA et illustrez la propriété nécessaire au bon fonctionnement de UPGMA. c) Selon vous, quelle méthode de distances peut permettre d’obtenir l’autre arbre ? Quelle est la propriété à respecter pour cette autre méthode ? Q3) Quel est le rôle des modèles de Jukes-Cantor ou Kimura ? Proposez un exemple simple qui justifie leur utilisation (on ne vous demande pas ici de les utiliser, mais de montrer dans quel contexte ils servent). Exe rci ce 5 : A lignem ents multiples . Q1) Score d’un alignement multiple a) Donnez le score de l’alignement multiple global suivant selon la somme des paires en considérant le système de scores suivant : score(x,x) = +1, score(x,y) = -1, score(x,-) = score(-,x) = -2, score(-,-) = 0 ACTATGTG A-T--GTG A-TT-GTG b) Est-ce le meilleur alignement global que l’on pouvait obtenir ? Justifiez votre réponse. Q2) Structure d’ARN Voici un alignement de séquences nucléiques : 1234567__890___________098_abcde_______edcba_____________fghij_______jihgf7654321_ GGTGAGGTGGCCGAGTGGTTAAAGGCAGCAGACTGTAAATCTGCCCGCGTAGCGTACGTAGGTTCGAATCCTACCCTCACCA GGTGGGATTGGGGAGCGGTCAAACCCAACAGACTGTAAATCTGTCG-CGAAAGCTTCGAAGGTTCGAATCCTTCTCCCACCA GGAGGGGTTGGGGAGCGGTCAAACCCAGCAGACTGTAAATCTGCCGCCTCGTGCTTCGAAGGTTCGAATCCTTCCCCCTCCA GGTGAGTTACTCAAGTGGCCAACGAGGGCAGACTGTAAATCTGCTGACTATGTCTTCGAAGGTTCGAATCCTTCACTCACCA GGTGGGGTACCCAAGCGGTCAACGGGATCAGACTGTAAATCTGACGGCTATGCCTTCGAAGGTTCGAATCCTTCCCCCACCA GGTGGGGTACCGAAGCGGTCAAACGGGGCAGACTGTAAATCTGCTGGCATAGCCTTCGGAGGTTCGAATCCTCCCCCCACCA GGAGGGGTACTCAAGCGGTCAACGAGGGCAGACTGTAAATCTGCTGGCCCTGCCTTCGCAGGTTCGAATCCTGCCCCCTCCA GGCGGTGTGCCCGAGCGGCCAAAGGGAGCAGACTGTAAATCTGCCGGCTCAGCCTTCCCAGGTTCGAATCCTGGCGCCGCCA GGTGAGATTCCCGAGCGGTCAAAGGGGGCGGACTGTAACTCCGCTA-CGAAAGTTTCGAAGGTTCGAATCCTTCTCTCACCA GGGGAGTTTCCCGAGTGGTCAAAGGGAGCAGACTGTAAATCTGTTGGCGTTGTCTTCCAAGGTTCGAATCCTTGACTCCCCA GGGGAGATTCCCGAGCGGTCAAAGGGGGCAGACTGTAAATCTGTTGGCTCAGCCTTCGAAGGTTCGAATCCTTCTCTCCCCA GGATGGGTTCCCGAGTGGCCAAAGGGGGCAGACTGTAAATCTGTTAGCAACGCTTTCGAAGGTTCGAATCCTTCTCCATCCA GGGTGGATACCCGAGTGGCCAAAGGGGACAGACTGTAAATCTGTTGGCATAGCCTTCGGAGGTTCGAATCCTCCTCCACCCA GGAGGATTTCCCGAGCGGCCAAAGGGGGCAGACTGTAAATCTGTTGTCATCGACTTCGGTGGTTCGAATCCACCATCCTCCA GGAGGGGTTCCCGAGTGGTCAAAGGGAGCAGACTGTAAATCTGTCGGCTCAGCCTACGGAGGTTCGAACCCTCCCCCCTCCA GGAGGGGTACCCAAGTGGTCAAAGGGGGCAGACTGTAAATCTGTTGCCGCAGGCTTCGTTGGTTCGAATCCAACCCCCTCCA GGAGGGGTTCCCGAGTGGCCAAAGGGATCAGACTGTAAATCTGACG-CGCGAGCTTCGGTGGTTCGAATCCACCCCCCTCCA GGAGGGGTTCCCGAGTGGCCAAAGGGGACAGACTGTAAATCTGTTGGCACTGCCTTCGGTGGTTCGAATCCACCCCCCTCCA GGGGGAATTCCCGAGCGGCCAAAGGGGTCAGACTGTAAATCTGATGGCTACGCCTTCGCAGGTTCGAATCCTGCTTCCCCCA GGAGGGATCCCTTAGTGGCCAAA-GGATCAGACTGTAAATCTGACGTCATAGACTTCGAAGGTTCGAATCCTTCTCCCTCCA GGAGGGATTCCCGAGCGGCCAAAGGGAACAGACTGTAAATCTGTCGTCGTAGACTTCGGAGGTTCGAATCCTCCTCCCTCCA GGAGGGATTCCCGAGCGGTCAAAGGGATCAGACTGTAAATCTGACGGCACAGCCTTCGCAGGTTCGAATCCTGCTCCCTCCA GGCGAGTTACCCAAGCGGCCAAAGGGATCTGACTGTAAATCAGCTGGCATTGCCTTCGGGGGTTCGAATCCCTCACTCGCCA GGCGGGTTGCCCGAGCGGCCAATGGGAGGGGACTGTAAATCCCCCGGCTCTGCCTTCGAAGGTTCAAATCCTTCACCCGCCA GGCGGGTTGCCCGAGCGGCCAAAGGGAGCGGATTGTAAATCCGCCGGCGTAGCCTACGTTGGTTCGAATCCATCACCCGCCA **_____*_____**_**__**________**_*****_**______*______*_*___*****_**_**________*** a) Que pouvez vous constater au niveau des différentes colonnes marquées par le même caractère figurant au-dessus de l’alignement ? b) Expliquez en quoi cela peut aider à inférer la structure à deux dimensions des ARN présents dans l’alignement. Réalisez un dessin rapide de la structure d’un de ces ARN (tous ces ARN ont la même). Exe rci ce 6 : prédi ction de gènes. Traduire dans les 6 phases de lecture la séquence ci-dessous à l'aide du code génétique standard. Les codons de terminaison de la traduction (ter) seront symbolisés par des *. Expliquez la façon dont vous avez fait vos traductions. ATGGCATTTAGA Exe rci ce 7 : a nnotation de protéine s. Comment prédire la localisation cellulaire d’une protéine ?