TD 2 : Expressions régulières 1 Travaux dirigés

Transcription

TD 2 : Expressions régulières 1 Travaux dirigés
UFR SMBH, Licence Sciences de la Vie
UE S5T1 Informatique
septembre 2016
TD 2 : Expressions régulières
1
Travaux dirigés
Partie 1 : Transcription d’un brin d’ADN
Dans cette partie, on veut simuler la transcription d’une séquence d’ADN en ARNm.
Exercice 1 Écrire un script Perl qui réalise la transcription d’un brin d’ADN, c’est-à-dire qui remplace
toutes les bases thymine (T) par de l’uracile (U).
Exercice 2 Écrire un script Perl qui calcule le complément inverse d’un brin d’ADN. Le complément
inverse peut être obtenu en inversant l’ordre des nucléotides et en remplaçant chaque nucléotide par
son complément (A →T, C →G, G →C, T →A). Note : la fonction Perl reverse permet d’inverser un tableau
ou une chaîne de caractères. Par exemple, le code
$a="abc";
$b=reverse $a;
print $b;
affiche la chaîne de caractères "cba" sur la sortie standard.
Partie 2 : Lecture de fichiers FASTA
Le format FASTA est un format textuel utilisé pour stocker des séquences de nucléotides ou de
peptides. Dans ce format, chaque nucléotide ou acide aminé est représenté par un seul caractère. Une
séquence au format FASTA est constituée d’une ligne d’entête, suivie de la séquence elle-même, repésentée par une chaîne de caractères. La ligne d’entête commence par un ’>’, et la chaîne de caractères
représentant la séquence est découpée en lignes de moins de 80 caractères. Voici un exemple de représentation d’une séquence d’ADN au format FASTA :
>gi|240254421|ref|NC_003070.9| Arabidopsis thaliana chromosome 1, complete sequence
CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATG
AATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTAT
CGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGT
GGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTC
...
Le fichier AT.fna contient l’ADN séquencé de la fleur
Arabidopsis Thaliana au format FASTA, tel que trouvée sur le site du National Center for Biotechnology Information (NCBI) a .
a. ftp://ftp.ncbi.nih.gov/genomes/
Exercice 3 Écrire un script Perl qui lit le contenu d’un fichier au format FASTA et écrit sur la sortie
standard la séquence d’ADN sous forme d’une seule chaîne de caractères, dans laquelle les espaces et
la ligne d’entête ont été supprimés.
1
Partie 3 : Recherche globale avec la fonction m
Dans cette partie, on veut trouver tous les sites de méthylation d’une séquence d’ADN. Un site de
méthylation est une suite de bases composée d’une purine (A ou G), un C, suivis de n’importe quelle
base (éventuellement aucune), puis un G.
Exercice 4 Donner le langage des sites de méthylation. Écrire l’expression régulière qui correspond à
ce langage.
Exercice 5 Écrire un script Perl qui recherche dans une séquence d’ADN tous les sites de méthylation.
On veut afficher pour chaque site trouvé le nom du site, l’indice dans la séquence et un extrait de la
séquence autour à l’endroit où le site a été trouvé.
2
Implémentation
Partie 1 : Recherche simple avec la fonction m
Dans cette partie, nous reprenons l’exemple du cours.
Exercice 6 Déclarer une variable scalaire adn et y placer une séquence d’ADN de votre choix. Cette
séquence doit contenir au moins un codon stop, i.e., TAG, TAA ou TGA. Écrire ensuite l’instruction conditionnelle suivante, qui permet de rechercher le codon qui precéde immédiatement le codon stop dans
la chaîne de caractères adn :
if ($adn =~ m/(...)(TAG|TAA|TGA)/){
print "Le mot trouve est $&.\n";
print "Ce mot contient le codon stop $2, precede du codon $1.\n";
print "La sequence qui precede ce mot est $‘\n";
print "La sequence qui suit ce mot est $’\n";
}
Partie 2 : Manipulation des séquences d’ADN
Implémenter les scripts écrits plus haut pour faire la transcription, le complément inverse d’une
séquence d’ADN, lire un fichier FASTA et rechercher les sites de méthylation. Tester à chaque fois avec
la séquence d’ADN contenue dans le fichier AT.fna.
Note : Le fichier AT.fna est assez volumineux (30 Mo) car il contient toute la séquence d’ADN. On pourra
utiliser à la place le fichier extrait.fna pour faire des tests. Celui-ci contient seulement le début de la séquence.
2

Documents pareils