Analyse d`un jeu de données de microarrays a ymetrix
Transcription
Analyse d`un jeu de données de microarrays a ymetrix
Analyse d'un jeu de données de microarrays aymetrix Denis Puthier 28 septembre 2010 Laboratoire INSERM TAGC/ERM206, Parc Scientique de Luminy case 928, 13288 MARSEILLE cedex 09, FRANCE. 1 Le jeux de données GSE2004 Le jeu de données GSE2004 est disponible à 'adresse suivante. • http ://www.ncbi.nlm.nih.gov/geo/query/acc.cgi ?acc=GSE2004 Il s'agit d'une expérience dans laquelle les auteurs ont hybridé plusieurs tissus (foie, rate, rein, pool d'échantillons) an de comparer la reproductibilité des résultats obtenus dans diérents laboratoires. Descriptif : Normal kidney, liver, spleen, and Universal RNA from Stratagene were expression proled across ve centers (UCLA, Duke, TGen, Children's National Medical Center in Washington, DC, and University of Pennsylvania) using the Aymetrix microarrays (...). To compare (...) the reproducibility across the centers. Créons un dossier de travail, téléchargeons le jeu de données et décompressons le. [user@machine] cd [user@machine] mkdir GSE2004 [user@machine] cd GSE2004 [user@machine] wget ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE2004/ GSE2004_RAW.tar [user@machine] tar xvf GSE2004_RAW.tar [user@machine] gunzip *.gz 1 2 La biopuce Il s'agit d'une puce aymetrix de première génération de type HG-U133A. Description : The U133 set includes 2 arrays with a total of 44928 entries and was indexed 29-Jan-2002. The set includes over 1,000,000 unique oligonucleotide features covering more than 39,000 transcript variants, which in turn represent greater than 33,000 of the best characterized human genes. Sequences were selected from GenBank, dbEST, and RefSeq. Sequence clusters were created from Build 133 of UniGene (April 20, 2001) and rened by analysis and comparison with a number of other publicly available databases including the Washington University EST trace repository and the University of California, Santa Cruz golden-path human genome database (April 2001 release). 3 Normalisation des données avec R/BioC Description : R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS. Bioconductor provides tools for the analysis and comprehension of high-throughput genomic data. Bioconductor uses the R statistical programming language, and is open source and open development. It has two releases each year, more than 380 packages, and an active user community. Demarrons une session sous R. [user@machine] R version 2.10.1 (2009-12-14) Copyright (C) 2009 The R Foundation for Statistical Computing ISBN 3-900051-07-0 On charge ensuite la library ay de BioC pour faire quelques diagnostics et normaliser les données (le code est à taper à l'invite de R). > library(affy) > d <- ReadAffy() > dim(intensity(d)) [1] 506944 26 > image(d[,1]) > plotDensity(intensity(d)) > plotDensity(log2(intensity(d))) > boxplot(log2(intensity(d)),pch=".") > n <- rma(d) 2 Background correcting Normalizing Calculating Expression > plotDensity(exprs(n)) > boxplot(as.data.frame(exprs(n)),pch=".") > dim(exprs(n)) [1] 22283 26 > write.table(exprs(n),"GSE2004.norm.txt",sep="\t", col.names=NA, quote =F) 4 MeV : MultiExperiment Viewer C'est un outil très pratique car intégrant de nombreux outils de classications. Description :MeV is a desktop application for the analysis, visualization and data-mining of large-scale genomic data. It is a versatile microarray tool, incorporating sophisticated algorithms for clustering, visualization, classication, statistical analysis and biological theme discovery. Thousands of biologists have downloaded and used MeV to examine their data with an easy-to-use, graphical interface.MeV generates informative and interrelated displays of expression and annotation data from single or multiple experiments. A huge array of alrogithms are included in MeV modules, and are available at a button-click, such as K-means clustering, Hierarchical clustering, t-Tests, Signicance Analysis of Microarrays, Gene Set Enrichment Analysis, and EASE. 4.1 Installation Vous pouvez télécharger MeV à l'adresse suivante : • http ://www.tm4.org/mev/ Dans le cadre de ce TD, il est disponible sur bionteractif : [user@machine] [user@machine] [user@machine] [user@machine] [user@machine] wget http://biologie.univ-mrs.fr/upload/p245/MeV_4_6_1_r2445_linux32.zip unzip MeV_4_6_1_r2445_linux32.zip cd MeV_4_6_1 chmod 777 tmev.sh ./tmev.sh 4.2 Chargement des données • File>load data>Browse> et indiquez le chier GSE2004.norm.txt. Selectionnez Ay HGU-133A, cliquez sur la valeur d'expression se trouvant le plus à droite sur la première ligne. Selectionnez load. 3 4.3 Filtres On applique quelques ltres pour limiter le nombre de gènes à analyser (cependant il faudrait faire une analyse plus ne pour xer les seuils voire faire une première analyse avec la totalité du jeux de données). • • • Adjust Data>Low Intensity cut-o lter>one channel (cut-o 5). A partir de la nouvelle matrice : Adjust Data>Data lter>variance lter (75%) On travaillera par la suite sur la nouvelle matrice. 4.4 Classication 4.4.1 Clustering/regroupement hiérarchique • Analysis>Clustering>HCL. Utilisez les paramètres ad hoc. • Sélectionnez Display>Gene Row labels pour sélectionner les informations à visualiser (e.g. le symbole du gène). • • Display>Set Element size pour modier la taille des cellules. Sélectionnez Adjust Data>Gene/Row adjustments>Median Center Genes/Rows Sélectionnez pour centrer les lignes. • • • Display>set color scale limits (lower = -2, Midpoint = 0, Upper = 2). Sélectionnez Utilities>Cluster utilities>Automatic cluster import>By gene annotation>chr. Sélectionnez Utilities>Cluster utilities>Automatic cluster import>By gene annotation>GO_TERMS. Sélectionnez Essayez de trouver un cluster contenant des marqueurs de cellules immunes (CD19, CD3E, CD22,...). 4.4.2 Kmeans Eectuez un Kmeans à 15 classes. 4.4.3 SAM Eectuez une analyse de type SAM pour chercher les gènes discriminant le foie et le rein. 4