Analyse d`un jeu de données de microarrays a ymetrix

Transcription

Analyse d`un jeu de données de microarrays a ymetrix
Analyse d'un jeu de données de microarrays aymetrix
Denis Puthier
28 septembre 2010
Laboratoire INSERM TAGC/ERM206, Parc Scientique de Luminy case 928,
13288 MARSEILLE cedex 09, FRANCE.
1
Le jeux de données GSE2004
Le jeu de données GSE2004 est disponible à 'adresse suivante.
•
http ://www.ncbi.nlm.nih.gov/geo/query/acc.cgi ?acc=GSE2004
Il s'agit d'une expérience dans laquelle les auteurs ont hybridé plusieurs tissus (foie, rate,
rein, pool d'échantillons) an de comparer la reproductibilité des résultats obtenus dans
diérents laboratoires.
Descriptif : Normal kidney, liver, spleen, and Universal RNA from Stratagene were expression proled across ve centers (UCLA, Duke, TGen, Children's National Medical Center
in Washington, DC, and University of Pennsylvania) using the Aymetrix microarrays (...).
To compare (...) the reproducibility across the centers.
Créons un dossier de travail, téléchargeons le jeu de données et décompressons le.
[user@machine] cd
[user@machine] mkdir GSE2004
[user@machine] cd GSE2004
[user@machine] wget ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE2004/
GSE2004_RAW.tar
[user@machine] tar xvf GSE2004_RAW.tar
[user@machine] gunzip *.gz
1
2
La biopuce
Il s'agit d'une puce aymetrix de première génération de type HG-U133A.
Description : The U133 set includes 2 arrays with a total of 44928 entries and was indexed
29-Jan-2002. The set includes over 1,000,000 unique oligonucleotide features covering more
than 39,000 transcript variants, which in turn represent greater than 33,000 of the best
characterized human genes. Sequences were selected from GenBank, dbEST, and RefSeq.
Sequence clusters were created from Build 133 of UniGene (April 20, 2001) and rened by
analysis and comparison with a number of other publicly available databases including the
Washington University EST trace repository and the University of California, Santa Cruz
golden-path human genome database (April 2001 release).
3
Normalisation des données avec R/BioC
Description :
R is a free software environment for statistical computing and graphics.
It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS. Bioconductor provides tools for the analysis and comprehension of high-throughput genomic data.
Bioconductor uses the R statistical programming language, and is open source and open
development. It has two releases each year, more than 380 packages, and an active user
community.
Demarrons une session sous R.
[user@machine] R
version 2.10.1 (2009-12-14)
Copyright (C) 2009 The R Foundation for Statistical Computing
ISBN 3-900051-07-0
On charge ensuite la library ay de BioC pour faire quelques diagnostics et normaliser les
données (le code est à taper à l'invite de R).
> library(affy)
> d <- ReadAffy()
> dim(intensity(d))
[1] 506944
26
> image(d[,1])
> plotDensity(intensity(d))
> plotDensity(log2(intensity(d)))
> boxplot(log2(intensity(d)),pch=".")
> n <- rma(d)
2
Background correcting
Normalizing
Calculating Expression
> plotDensity(exprs(n))
> boxplot(as.data.frame(exprs(n)),pch=".")
> dim(exprs(n))
[1] 22283
26
> write.table(exprs(n),"GSE2004.norm.txt",sep="\t", col.names=NA, quote =F)
4
MeV : MultiExperiment Viewer
C'est un outil très pratique car intégrant de nombreux outils de classications.
Description :MeV is a desktop application for the analysis, visualization and data-mining
of large-scale genomic data. It is a versatile microarray tool, incorporating sophisticated algorithms for clustering, visualization, classication, statistical analysis and biological theme
discovery. Thousands of biologists have downloaded and used MeV to examine their data
with an easy-to-use, graphical interface.MeV generates informative and interrelated displays of expression and annotation data from single or multiple experiments. A huge array
of alrogithms are included in MeV modules, and are available at a button-click, such as
K-means clustering, Hierarchical clustering, t-Tests, Signicance Analysis of Microarrays,
Gene Set Enrichment Analysis, and EASE.
4.1 Installation
Vous pouvez télécharger MeV à l'adresse suivante :
•
http ://www.tm4.org/mev/
Dans le cadre de ce TD, il est disponible sur bionteractif :
[user@machine]
[user@machine]
[user@machine]
[user@machine]
[user@machine]
wget http://biologie.univ-mrs.fr/upload/p245/MeV_4_6_1_r2445_linux32.zip
unzip MeV_4_6_1_r2445_linux32.zip
cd MeV_4_6_1
chmod 777 tmev.sh
./tmev.sh
4.2 Chargement des données
• File>load data>Browse> et indiquez le chier GSE2004.norm.txt. Selectionnez Ay
HGU-133A, cliquez sur la valeur d'expression se trouvant le plus à droite sur la première
ligne. Selectionnez load.
3
4.3 Filtres
On applique quelques ltres pour limiter le nombre de gènes à analyser (cependant il
faudrait faire une analyse plus ne pour xer les seuils voire faire une première analyse
avec la totalité du jeux de données).
•
•
•
Adjust Data>Low Intensity cut-o lter>one channel (cut-o 5).
A partir de la nouvelle matrice : Adjust Data>Data lter>variance lter (75%)
On travaillera par la suite sur la nouvelle matrice.
4.4 Classication
4.4.1 Clustering/regroupement hiérarchique
• Analysis>Clustering>HCL. Utilisez les paramètres ad hoc.
• Sélectionnez Display>Gene Row labels pour sélectionner les informations à visualiser
(e.g. le symbole du gène).
•
•
Display>Set Element size pour modier la taille des cellules.
Sélectionnez Adjust Data>Gene/Row adjustments>Median Center Genes/Rows
Sélectionnez
pour centrer les lignes.
•
•
•
Display>set color scale limits (lower = -2, Midpoint = 0, Upper = 2).
Sélectionnez Utilities>Cluster utilities>Automatic cluster import>By gene annotation>chr.
Sélectionnez Utilities>Cluster utilities>Automatic cluster import>By gene annotation>GO_TERMS.
Sélectionnez
Essayez de trouver un cluster contenant des marqueurs de cellules immunes (CD19, CD3E,
CD22,...).
4.4.2 Kmeans
Eectuez un Kmeans à 15 classes.
4.4.3 SAM
Eectuez une analyse de type SAM pour chercher les gènes discriminant le foie et le rein.
4