Master 1 IUP Génomique et Protéomique Examen de GP4

Transcription

Master 1 IUP Génomique et Protéomique Examen de GP4
Master 1 IUP Génomique et Protéomique
Examen de GP4 - Bioinf ormatique
Durée de l’épreuve : 2h
Documents autorisés
Exe rci ce 1 : banques de données .
Q1) Le schéma ci-dessous représente le nombre d’articles scientifiques écrits par un
Dupont, celui de ceux écrits par un Martin, ainsi que le nombre d’articles coécrits par
un Dupont et un Martin.
D’après ces informations, indiquez le nombre d’articles trouvés pour chacune des
requêtes suivantes :
Dupont [author] AND Martin [author]
Dupont [author] OR Martin [author]
Dupont [author] NOT Martin [author]
Q2) Quelles sont les 3 banques généralistes de séquences nucléiques ? Quel est leur
principal point commun ?
Q3) Qu’est-ce que SwissProt et trEMBL ? Quelle est la différence entre ces deux
banques ?
Q4) Qu’est-ce que le format FASTA ? Et sa variante MultiFASTA ?
Exe rci ce 2 : a l igneme nt pai re à pai r e et dotplots.
Q1) Un dotplot est réalisé entre deux séquences très similaires. Il est observé, sur
une partie de la diagonale principale, le phénomène suivant :
Que représente le rectangle hachuré (soyez précis) ?
Q2) Ci-dessous figure l’alignement de meilleur score obtenu en utilisant le système de
score suivant :
Match = +1, Mismatch = -1, Ouverture de gap = -10, Extension de gap = -1
AAAAGGGG
AA----GG
a) Quel est le score de cet alignement ?
b) Cet alignement a t-il été obtenu par méthode globale/semi-globale ou locale ?
Justifiez votre réponse lorsque vous éliminez certaines des possibilités.
c) Ecrivez les séquences brutes utilisées en entrée de l'alignement.
d) Le temps mis pour calculer cet alignement est de 1 milliseconde. Donnez une
estimation du temps mis dans les mêmes conditions si les séquences étaient toutes
les deux 10 fois plus grandes.
Exe rci ce 3 : Logi cie ls de re che r che dans les banques .
Q1) Une séquence a été cherchée dans une banque de données à l'aide de Blastn.
Cette requête n'a donné aucun résultat. La même séquence a été ensuite cherchée
dans la même banque, cette fois-ci à l'aide du logiciel discontiguous megablast.
L'alignement suivant a été trouvé avec un score pourtant très significatif :
|572780
|572770
|572760
|572750
|572740
|572730
|572720
ATGCCTTCCCAGTAAACGCCCCCGTCGCTGGTCTCGGCCACATTGGTAAAGATTGTGTTCTTCTGGATGGTCTTGATGGC
||.||:|||||.:|:||:||.|||||...|||....|||||:|||||:|||||.||||||||.||.||:|..|..|||||
ATCCCCTCCCACCAGACACCGCCGTCCGGGGTGAGCGCCACGTTGGTGAAGATGGTGTTCTTGTGCATAGAGTGCATGGC
|866490
|866500
|866510
|866520
|866530
|866540
|866550
|572700
|572690
|572680
|572670
|572660
ATTGGGGTTGGTCTTCACTGAAGTCCCAGGAGCGACACCGAAAAAGCCATTTTCTGGGTTGATGG
:||.|||||.|.|||.|.:||:||.||:||:||.||:|||||:|||||:.:|||:||.|||||||
GTTCGGGTTCGACTTGAACGAGGTGCCGGGGGCCACGCCGAAGAAGCCGGCTTCCGGCTTGATGG
|866570
|866580
|866590
|866600
|866610
a) A votre avis pourquoi ?
b) Entre « template : coding/non-coding », quel choix feriez vous pour trouver un
tel alignement ? Justifiez votre réponse.
Q2) P-valeur et E-valeur :
a) Quelles sont les E-valeur et P-valeur d’un alignement de bit-score 20 lorsque l’on
compare une séquence requête de taille 1000 à une banque de taille 1000000 ? Est ce
significatif ?
b) Dans ces conditions, quel bit-score devrait-on attendre d’un alignement pour que sa
E-valeur soit inférieure à 10 - 6 ?
c) Dans l’hypothèse où la séquence requête est nucléique, et donc comparée contre
toutes les séquences de la banque, mais également contre toutes les séquences
complémentaires inversées de cette même banque, quel bit-score devrait-on attendre
de cet alignement pour que sa E-valeur soir inférieure à 10 - 6 ?
Exe rci ce 4 : Phy logénies.
Q1) UPGMA :
a) Déroulez l’algorithme UPGMA sur la matrice de distances suivante :
| A B C D
---+-----------A |
1 5 8
B |
2 4
C |
6
b) L’arbre obtenu reflète t’il la matrice de distances originale ? Expliquez en à la fois
la raison pratique (mutations) et théorique due à l’algorithme UPGMA.
Q2) Voici deux arbres :
A
B
a) Lequel de ces deux arbres provient d’une méthode UPGMA ? Expliquez.
b) Donnez la matrice de distances respectant l’arbre obtenu par UPGMA et illustrez la
propriété nécessaire au bon fonctionnement de UPGMA.
c) Selon vous, quelle méthode de distances peut permettre d’obtenir l’autre arbre ?
Quelle est la propriété à respecter pour cette autre méthode ?
Q3) Quel est le rôle des modèles de Jukes-Cantor ou Kimura ? Proposez un exemple
simple qui justifie leur utilisation (on ne vous demande pas ici de les utiliser, mais de
montrer dans quel contexte ils servent).
Exe rci ce 5 : A lignem ents multiples .
Q1) Score d’un alignement multiple
a) Donnez le score de l’alignement multiple global suivant selon la somme des paires en
considérant le système de scores suivant :
score(x,x) = +1, score(x,y) = -1, score(x,-) = score(-,x) = -2, score(-,-) = 0
ACTATGTG
A-T--GTG
A-TT-GTG
b) Est-ce le meilleur alignement global que l’on pouvait obtenir ? Justifiez votre
réponse.
Q2) Structure d’ARN
Voici un alignement de séquences nucléiques :
1234567__890___________098_abcde_______edcba_____________fghij_______jihgf7654321_
GGTGAGGTGGCCGAGTGGTTAAAGGCAGCAGACTGTAAATCTGCCCGCGTAGCGTACGTAGGTTCGAATCCTACCCTCACCA
GGTGGGATTGGGGAGCGGTCAAACCCAACAGACTGTAAATCTGTCG-CGAAAGCTTCGAAGGTTCGAATCCTTCTCCCACCA
GGAGGGGTTGGGGAGCGGTCAAACCCAGCAGACTGTAAATCTGCCGCCTCGTGCTTCGAAGGTTCGAATCCTTCCCCCTCCA
GGTGAGTTACTCAAGTGGCCAACGAGGGCAGACTGTAAATCTGCTGACTATGTCTTCGAAGGTTCGAATCCTTCACTCACCA
GGTGGGGTACCCAAGCGGTCAACGGGATCAGACTGTAAATCTGACGGCTATGCCTTCGAAGGTTCGAATCCTTCCCCCACCA
GGTGGGGTACCGAAGCGGTCAAACGGGGCAGACTGTAAATCTGCTGGCATAGCCTTCGGAGGTTCGAATCCTCCCCCCACCA
GGAGGGGTACTCAAGCGGTCAACGAGGGCAGACTGTAAATCTGCTGGCCCTGCCTTCGCAGGTTCGAATCCTGCCCCCTCCA
GGCGGTGTGCCCGAGCGGCCAAAGGGAGCAGACTGTAAATCTGCCGGCTCAGCCTTCCCAGGTTCGAATCCTGGCGCCGCCA
GGTGAGATTCCCGAGCGGTCAAAGGGGGCGGACTGTAACTCCGCTA-CGAAAGTTTCGAAGGTTCGAATCCTTCTCTCACCA
GGGGAGTTTCCCGAGTGGTCAAAGGGAGCAGACTGTAAATCTGTTGGCGTTGTCTTCCAAGGTTCGAATCCTTGACTCCCCA
GGGGAGATTCCCGAGCGGTCAAAGGGGGCAGACTGTAAATCTGTTGGCTCAGCCTTCGAAGGTTCGAATCCTTCTCTCCCCA
GGATGGGTTCCCGAGTGGCCAAAGGGGGCAGACTGTAAATCTGTTAGCAACGCTTTCGAAGGTTCGAATCCTTCTCCATCCA
GGGTGGATACCCGAGTGGCCAAAGGGGACAGACTGTAAATCTGTTGGCATAGCCTTCGGAGGTTCGAATCCTCCTCCACCCA
GGAGGATTTCCCGAGCGGCCAAAGGGGGCAGACTGTAAATCTGTTGTCATCGACTTCGGTGGTTCGAATCCACCATCCTCCA
GGAGGGGTTCCCGAGTGGTCAAAGGGAGCAGACTGTAAATCTGTCGGCTCAGCCTACGGAGGTTCGAACCCTCCCCCCTCCA
GGAGGGGTACCCAAGTGGTCAAAGGGGGCAGACTGTAAATCTGTTGCCGCAGGCTTCGTTGGTTCGAATCCAACCCCCTCCA
GGAGGGGTTCCCGAGTGGCCAAAGGGATCAGACTGTAAATCTGACG-CGCGAGCTTCGGTGGTTCGAATCCACCCCCCTCCA
GGAGGGGTTCCCGAGTGGCCAAAGGGGACAGACTGTAAATCTGTTGGCACTGCCTTCGGTGGTTCGAATCCACCCCCCTCCA
GGGGGAATTCCCGAGCGGCCAAAGGGGTCAGACTGTAAATCTGATGGCTACGCCTTCGCAGGTTCGAATCCTGCTTCCCCCA
GGAGGGATCCCTTAGTGGCCAAA-GGATCAGACTGTAAATCTGACGTCATAGACTTCGAAGGTTCGAATCCTTCTCCCTCCA
GGAGGGATTCCCGAGCGGCCAAAGGGAACAGACTGTAAATCTGTCGTCGTAGACTTCGGAGGTTCGAATCCTCCTCCCTCCA
GGAGGGATTCCCGAGCGGTCAAAGGGATCAGACTGTAAATCTGACGGCACAGCCTTCGCAGGTTCGAATCCTGCTCCCTCCA
GGCGAGTTACCCAAGCGGCCAAAGGGATCTGACTGTAAATCAGCTGGCATTGCCTTCGGGGGTTCGAATCCCTCACTCGCCA
GGCGGGTTGCCCGAGCGGCCAATGGGAGGGGACTGTAAATCCCCCGGCTCTGCCTTCGAAGGTTCAAATCCTTCACCCGCCA
GGCGGGTTGCCCGAGCGGCCAAAGGGAGCGGATTGTAAATCCGCCGGCGTAGCCTACGTTGGTTCGAATCCATCACCCGCCA
**_____*_____**_**__**________**_*****_**______*______*_*___*****_**_**________***
a) Que pouvez vous constater au niveau des différentes colonnes marquées par le
même caractère figurant au-dessus de l’alignement ?
b) Expliquez en quoi cela peut aider à inférer la structure à deux dimensions des ARN
présents dans l’alignement. Réalisez un dessin rapide de la structure d’un de ces ARN
(tous ces ARN ont la même).
Exe rci ce 6 : prédi ction de gènes.
Traduire dans les 6 phases de lecture la séquence ci-dessous à l'aide du code
génétique standard. Les codons de terminaison de la traduction (ter) seront
symbolisés par des *. Expliquez la façon dont vous avez fait vos traductions.
ATGGCATTTAGA
Exe rci ce 7 : a nnotation de protéine s.
Comment prédire la localisation cellulaire d’une protéine ?