TD 2 : Expressions régulières 1 Travaux dirigés
Transcription
TD 2 : Expressions régulières 1 Travaux dirigés
UFR SMBH, Licence Sciences de la Vie UE S5T1 Informatique septembre 2016 TD 2 : Expressions régulières 1 Travaux dirigés Partie 1 : Transcription d’un brin d’ADN Dans cette partie, on veut simuler la transcription d’une séquence d’ADN en ARNm. Exercice 1 Écrire un script Perl qui réalise la transcription d’un brin d’ADN, c’est-à-dire qui remplace toutes les bases thymine (T) par de l’uracile (U). Exercice 2 Écrire un script Perl qui calcule le complément inverse d’un brin d’ADN. Le complément inverse peut être obtenu en inversant l’ordre des nucléotides et en remplaçant chaque nucléotide par son complément (A →T, C →G, G →C, T →A). Note : la fonction Perl reverse permet d’inverser un tableau ou une chaîne de caractères. Par exemple, le code $a="abc"; $b=reverse $a; print $b; affiche la chaîne de caractères "cba" sur la sortie standard. Partie 2 : Lecture de fichiers FASTA Le format FASTA est un format textuel utilisé pour stocker des séquences de nucléotides ou de peptides. Dans ce format, chaque nucléotide ou acide aminé est représenté par un seul caractère. Une séquence au format FASTA est constituée d’une ligne d’entête, suivie de la séquence elle-même, repésentée par une chaîne de caractères. La ligne d’entête commence par un ’>’, et la chaîne de caractères représentant la séquence est découpée en lignes de moins de 80 caractères. Voici un exemple de représentation d’une séquence d’ADN au format FASTA : >gi|240254421|ref|NC_003070.9| Arabidopsis thaliana chromosome 1, complete sequence CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCCTACATCCATG AATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTAT CGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGT GGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTC ... Le fichier AT.fna contient l’ADN séquencé de la fleur Arabidopsis Thaliana au format FASTA, tel que trouvée sur le site du National Center for Biotechnology Information (NCBI) a . a. ftp://ftp.ncbi.nih.gov/genomes/ Exercice 3 Écrire un script Perl qui lit le contenu d’un fichier au format FASTA et écrit sur la sortie standard la séquence d’ADN sous forme d’une seule chaîne de caractères, dans laquelle les espaces et la ligne d’entête ont été supprimés. 1 Partie 3 : Recherche globale avec la fonction m Dans cette partie, on veut trouver tous les sites de méthylation d’une séquence d’ADN. Un site de méthylation est une suite de bases composée d’une purine (A ou G), un C, suivis de n’importe quelle base (éventuellement aucune), puis un G. Exercice 4 Donner le langage des sites de méthylation. Écrire l’expression régulière qui correspond à ce langage. Exercice 5 Écrire un script Perl qui recherche dans une séquence d’ADN tous les sites de méthylation. On veut afficher pour chaque site trouvé le nom du site, l’indice dans la séquence et un extrait de la séquence autour à l’endroit où le site a été trouvé. 2 Implémentation Partie 1 : Recherche simple avec la fonction m Dans cette partie, nous reprenons l’exemple du cours. Exercice 6 Déclarer une variable scalaire adn et y placer une séquence d’ADN de votre choix. Cette séquence doit contenir au moins un codon stop, i.e., TAG, TAA ou TGA. Écrire ensuite l’instruction conditionnelle suivante, qui permet de rechercher le codon qui precéde immédiatement le codon stop dans la chaîne de caractères adn : if ($adn =~ m/(...)(TAG|TAA|TGA)/){ print "Le mot trouve est $&.\n"; print "Ce mot contient le codon stop $2, precede du codon $1.\n"; print "La sequence qui precede ce mot est $‘\n"; print "La sequence qui suit ce mot est $’\n"; } Partie 2 : Manipulation des séquences d’ADN Implémenter les scripts écrits plus haut pour faire la transcription, le complément inverse d’une séquence d’ADN, lire un fichier FASTA et rechercher les sites de méthylation. Tester à chaque fois avec la séquence d’ADN contenue dans le fichier AT.fna. Note : Le fichier AT.fna est assez volumineux (30 Mo) car il contient toute la séquence d’ADN. On pourra utiliser à la place le fichier extrait.fna pour faire des tests. Celui-ci contient seulement le début de la séquence. 2