Analyse des données d`expression issues de la puce CATMAv6

Transcription

Analyse des données d`expression issues de la puce CATMAv6
Analyse des données d'expression issues de la puce
CATMAv6: normalisation, analyse diérentielle
Marie-Laure Martin-Magniette
February 4, 2012
1 Description de la puce catmav6
Les puces CATMAv6 sont des puces NimbleGen avec 12 chambres identiques
qui contiennent 3 sondes identiques par unité biologique
1 . Une chambre est
l'équivalent d'une lame avant la miniaturisation extrême du supportDans la
suite du texte, les deux termes seront utilisés. Sur la plate-forme, nous avons
décidé d'utiliser ce support en co-hybridant 2 conditions simultanément.
2 La normalisation
Les biais techniques sont nombreux et aectent de manière non négligeable
la mesure de l'expression des gènes. Ils existent tout au long de l'expérience :
de la préparation du support jusqu'à la quantication des signaux, en passant par l'hybridation. Il est donc important lors de l'analyse statistique de
les identier, de les quantier et de les soustraire du signal avant d'analyser
l'expression des fragments déposés sur la puce. C'est le rôle de la normalisation, qui est une étape délicate, propre à chaque plate-forme.
Après avoir présenté les types de biais courants et les hypothèses nécessaires
pour normaliser, nous expliquerons la méthode de normalisation mise en
place pour les données issues de la puce CATMAv6.
2.1 Pourquoi normaliser et sous quelles conditions ?
2.1.1
Deux types de biais techniques
Les biais techniques sont parfois inévitables car certains paramètres, tels que
l'ecacité d'incorporation des uorochromes, ne peuvent être parfaitement
contrôlés. Cependant il est possible d'en limiter certains en mettant au point
un protocole rigoureux au sein du laboratoire. C'est pourquoi nous distinguons deux types de biais :
1
une unité biologique est soit un gène soit la copie du gène sur le brin complémentaire
1
•
les biais contrôlables par les biologistes. Par exemple, il est préfèrable
dans la mesure du possible d'avoir un seul expérimentateur, de ne
pas toucher au réglage du scanner (PMT) et de suivre précisement le
protocole expérimental. Nous considérons dans la suite que toutes les
précautions sont prises pour éviter ces artéfacts.
•
les biais non contrôlables .
Ces biais sont inhérents aux expériences
d'hybridation diérentielle et nécessitent un traitement statistique pour
être supprimés. Sur les puces à sondes fabriquées
in situ,
le biais non
contrôlables le plus important est la diérence constatée entre la stabilité des uorochromes Cy3 et Cy5. De nombreuses méthodes existent,
nous ne présentons ici que la méthode de régression locale pondérée,
appelée loess, qui est la plus utilisée.
2.1.2
Les hypothèses
La normalisation nécessite quelques hypothèses souvent implicitement supposées. La première hypothèse suppose que l'eet biologique n'est pas confondu avec le biais technique que l'on souhaite corriger. En eet, si ce n'est
pas le cas, il est dicile de trancher entre un artefact technique ou une
variabilité biologique.
Par exemple si toutes les sondes d'intérêt sont re-
groupées sur le support, alors on ne pourra pas distinguer dans l'analyse la
variabilité biologique d'un eet support. On cherchera donc à éviter cette
co-localisation lors de la conception de la puce. Ensuite comme l'explique
Yang et al. (2002), il est nécessaire de choisir les sondes qui permettront de
normaliser les données. La première idée est d'utiliser des sondes connues
pour s'exprimer de manière identiques entre les deux conditions testées, et
qui devraient par conséquent avoir la même intensité en rouge et en vert.
Dans la pratique, cette méthode est très dicile à mettre en ÷uvre, car
il n'est pas évident de trouver des gènes répondant à cette condition. C'est
pourquoi la normalisation est eectuée à partir de toutes les sondes présentes
sur le support.
Ceci est possible si et seulement si un très grand nombre
d'entre elles s'hybride de la même manière pour les deux conditions. Cette
condition est fondamentale et doit être prise en compte dès la construction
du plan d'expérience.
Les biologistes ont pour habitude de regarder le rapport entre le signal rouge
(Cy5) et le signal vert (Cy3). An de se ramener à un modèle additif, les
statisticiens préfèrent eux étudier le logarithme du rapport. Cette transformation permet de plus de stabiliser la variance. Le logarithme en base 2 est
le plus utilisé, car les signaux sont des puissances de 2, variant entre 0 et
216 − 1.
Les valeurs seuils du rapport, 0.5 et 2, arbitrairement choisies par
les biologistes pour déterminer si un gène est stimulé ou réprimé deviennent
-1 et 1. Dans la suite, nous employons abusivement le terme signal pour sa
transformation logarithmique en base 2.
2
Figure 1: MA-plot sur les données brutes. Figure monochrome permttant
de voir la densité de points
2.2 La normalisation par loess
La normalisation par loess est valable pour des puces où deux conditions sont
hybridées sur la même lame. La gure 1 est un graphe M-A qui représente
la diérence des signaux (M ) en fonction du signal moyen du gène (A). Par
dénition,
M = R−V
et
A = (R + V )/2
où
R
est le signal en rouge et
le signal en vert (après transformation logarithmique des signaux).
souvent appelé log-ratio et
A
M
V
est
intensité moyenne. Sous l'hypothèse que peu
de sondes s'expriment diérentiellement entre les deux conditions et que la
quantité de uorochrome incorporée n'a pas d'inuence sur le rapport, le
nuage de points devrait se situer autour de l'axe des abscisses. Or nous observons une déformation qui est principalement due à la diérence d'ecacité
des uorochromes, et qui varie de plus d'une sonde à l'autre.
Pour corriger cet eet, Yang et al. (2002) proposent de modéliser la relation
entre
M
et
A
en posant
M = c(A) + E
où
E
est une variable aléatoire dont
la distribution est symétrique d'espérance nulle et de variance constante, et
d'estimer à partir des observations
(Ag , Mg ) pour g = 1, . . . G, la fonction de
3
régression
c
par une loess
2 Les données sont normalisées par soustraction
de la valeur prédite par le modèle.
A partir de la version 6 de CATMA, les sondes sont synthétisées
in situ
et
les sondes ne sont plus organisées par bloc comme sur les versions précédentes. On ne peut donc plus procéder à une correction de biais spatiaux
éventuels. La normalisation consiste donc seulement en une correction des
biais de uorochromes. Par contre, pour évaluer la qualité de l'hybridation,
de nombreux graphiques sont générés.
Pour chaque chambre normalisée, il y a un chier de graphiques qui permet
de suivre les diérentes étapes de la normalisation. Ce chier est créé directement dans le programme et s'appelle "nom_de_la_lame.pdf". Il contient :
•
sur les données brutes, un histogramme des intensités vertes, rouges
et du log-ratio (rouge/vert), un graphique montrant la relation entre
l'intensité verte et rouge.
•
Sur les données brutes, un MA-plot.
•
Sur les données normalisées, un MA-plot.
•
Un graphique montre le log-ratio moyen par ligne et par colonne avant
la normalisation (en noir) et après la normalisation (en vert).
Pour les 12 chambres présentes sur une puce, nous évaluons les biais spatiaux
en traçant les intensités vertes et rouges en fonction de l'emplacement des
sondes sur la chambre. Nous traçons également 10% des intensités vertes et
rouges les plus fortes pour évaluer s'elles sont concentrées spatialement.
2.3 Intensité corrigée du signal pour chaque condition
Yang and Thorne (2003) proposent dans leur article de normaliser par canal
en redistribuant la correction du log-ratio.
Précisement, après la normali-
sation du log-ratio, le log-ratio corrigé est égal au log-ratio brut moins une
correction, notée
c(A).
L'intensité du canal rouge normalisée, notée I.rouge,
est dénie par l'intensité brute du canal rouge moins la moitié de
c(A).
L'intensité du canal vert normalisée, notée I.vert, est dénie par l'intensité
brute du canal vert moins la moitié de
c(A).
A et
calculées à partir de l'intensité normalisée
2
Ces quantités peuvent être
le log-ratio normalisé
M
de
Le principe de la loess est d'approcher localement c par un polynôme de degré d
(souvent d =1 ou 2) et d'estimer les coecients de ce polynôme par moindres carrés
pondérés à partir des observations qui sont dans le voisinage. Le poids attribué à une
observation dépend de sa distance au centre du voisinage : plus la distance est grande,
plus le poids est petit. La taille du voisinage de chaque observation est dénie comme
l'entier le plus proche de f × G où f est un paramètre à préciser compris entre 0 et 1.
Plus f est proche de 1, plus le voisinage est grand et plus la fonction estimée sera lisse.
4
la façon suivante
I.rouge
= (2A + M )/2
I.verte
= (2A − M )/2
Ces informations sont disponibles dans le chier contenant les résultats de
l'analyse statistique.
3 Analyse diérentielle
L'objectif est de comparer l'expression des sondes et d'identier quelles sont
celles dont l'expression dière entre les deux traitements. Le cadre statistique
est celui des tests d'hypothèses.
H0,g ={La
Pour chaque sonde
g,
l'hypothèse nulle
diérence d'expression entre les deux traitements est nulle} est
testée contre l'hypothèse alternative
H1,g ={La
diérence d'expression entre
les deux traitements est non nulle}.
3.1 Principe du test statistique
L'objectif du test est de décider à partir des données quelle est l'hypothèse à
retenir. Le principe est de calculer une fonction des observations, la statistique de test, et de comparer sa valeur à sa distribution attendue s'il n'y a
pas de diérence d'expression (sous
H0,g ).
Suite à la décision, quatre situations sont envisageables :
deux décisions
possibles (H0,g est rejetée ou acceptée) pour deux vérités possibles (H0,g est
vraie ou fausse). Le tableau 1 indique la probabilité de chaque situation. La
H0,g à tort, notée α, est le risque de première espèce. La
probabilité d'accepter H0,g à tort, notée β est le risque de deuxième espèce.
Dans le cadre de l'analyse des puces, α est la probabilité de décider qu'il y a
probabilité de rejeter
une diérence d'expression entre les deux traitements, alors qu'elle n'existe
pas et
β
la probabilité de décider qu'il n'y a pas de diérence d'expression
entre les deux traitements, alors qu'il y en a une. Les deux risques sont liés :
pour une même expérience quand
α
augmente,
β
diminue.
Décision
vrai
H0,g acceptée
1−α
fausse
β
H0,g
H0,g
rejetée
α
Vérité
H0,g
1−β
Table 1: Probabilités de chaque conclusion possible d'un test
Dans la pratique, un test est toujours réalisé à un niveau
α
revient à se prémunir contre le risque de première espèce.
5
donné, ce qui
Généralement
(quand on fait un seul test d'hypothèse)
pas de contrôle de
β.
α
est xé à
5
ou
1%
et il n'y a
L'objectif de l'analyse diérentielle étant de détecter
une diérence d'expression quand elle existe, les tests doivent être puissants,
H0,g
c'est-à-dire que la probabilité de rejeter
Remarque
avec raison, doit être grande.
Tous les tests présentés dans cette section supposent que la
diérence des signaux
et de variance
σg2 .
∆g
suit une distribution gaussienne de moyenne
g dénies
H1,g ={µg =
6 0}.
paramétriques. Les hypothèses du test pour la sonde
ment sont équivalentes à
3.1.1
µg
C'est pourquoi ils font partie de la classe des tests
H0,g ={µg = 0}
et
précédem-
Construction de la statistique de test
La statistique de test est une fonction des observations. Pour les tests qui
nous intéressent, il est naturel que cette statistique soit construite à partir
de la moyenne empirique de la diérence des signaux. Précisement, elle est
dénie par:
Tg =
(1)
où
∆g
√
ng
∆g
,
σ
cg
est la diérence d'expression moyenne entre les deux traitements
σ
cg est unPestimateur de l'écart-type σg . Précisement, ∆g est
ng
∆gk , où ∆gk est la k ième mesure de la diérence
∆g = n1g k=1
d'expression de la sonde g et ng est le nombre total de mesure disponible
testées et
dénie par
pour cette sonde.
L'étape cruciale dans le calcul de la statistique de test est l'estimation de la
variance, car elle doit être faite à partir d'un nombre restreint d'observations
(souvent
ng ≤ 10).
Voici les méthodes implémentées pour les analyses de
données d'expression à l'URGV :
1.
Variance spécique à chaque gène : c'est l'hypothèse d'hétéroscédasticité.
2
La variance par sonde σg , est estimée par
(2)
2
σ
cg =
Png
− ∆g )2
ng − 1
k=1 (∆gk
Quand le nombre d'observations par sonde est petit (ng
≤ 6),
cette
estimation est très mauvaise et la puissance du test est extrêment faible.
2.
Variance commune à tous les gènes
: c'est l'approche qui consiste à dire
que tous les sondes ont la même variance
σg2 = σ 2 .
C'est l'hypothèse
P
2
d'homoscédasticité. La variance σ est estimée par σ
b2 = G1 G
cg 2
g=1 σ
2
avec σ
cg déni Equation 2. Grâce au grand nombre de sondes, la
variance est estimée avec une grande précision et le test associé est
6
très puissant. Cette hypothèse d'homoscédasticité est forte et tous les
sondes ne la vérient pas.
Une solution est de conserver les sondes
satisfaisant la condition suivante :
χ2 (α0 /2; ng − 1) < (ng − 1)
α0 d'un chi-deux à ng − 1
0
degrés de liberté. Un bon choix pour α est l'inverse de l'ordre de
0
grandeur du nombre de sondes étudiés : α ≈ 1/G. Cependant malgré
où
χ2 (1 − α0 ; ng − 1)
σ
bg2
< χ2 (1 − α0 /2; ng − 1),
σ
b2
est le quantile d'ordre
cette précaution, dans de nombreuses expériences, on constate que
cette hypothèse d'homoscédasticité n'est absolument pas vériée, elle
ne peut donc pas toujours être utilisée.
3.
Limma
:
Smyth
et al.
Smyth (2004) proposent d'utiliser un mod-
èle bayésien hiérarchique pour modéliser la variance de la diérence
d'expression.
L'idée de la méthode est d'utiliser une distribution a
priori de la variance (inverse de chi-deux) et de l'utiliser avec les observations pour estimer une loi a posteriori de la variance pour ensuite
estimer une variance par sonde.
Ce modèle de la variance a en plus
l'avantage de permettre d'avoir la loi exacte de la statistique de test
sous l'hypothèse nulle. C'est une loi de Student avec un nombre de degré de liberté supérieur à celui d'un t-test classique. Par conséquent,
la méthode Limma permet d'améliorer la puissance du test.
Quand
le degré de liberté a posteriori est inni, la méthode limma revient à
estimer une variance commune à toutes les sondes.
Une étude comparative au sein de la plate-forme et également la veille bibliographique (Jeanmougin et al. (2010)) nous a amené à choisir la méthode
Limma comme méthode la plus pertinente.
Remarque très importante :
D'après les plans d'expérience construits à
l'URGV, votre projet comporte des répétitions biologiques et pour chacune
d'elle vous avez généralement deux répétitions techniques (un dye-swap).
Par conséquent, il existe trois types de variabilités : (i) la variabilité par
duplication des sondes sur le support, (ii) la variabilité technique qui traduit
l'ensemble de la variabilité issue des étapes de marquage et d'hybridation.
Cette dernière est mesurée grâce aux dye-swaps (iii) la variabilité biologique.
Ces trois types de variabilité sont diérentes et sont dissociées dans l'analyse.
Tout d'abord les sondes dupliquées sur la lame sont moyennées.
Puis les
observations utilisées sont la moyenne de la diérence d'expression calculée
à partir du dye-swap pour chaque répétition biologique.
Cela permet de
dissocier la variabilité biologique de la variabilité technique et de donner
plus d'importance à la variabilité biologique. Comme le plan d'expérience
est équilibré, on peut montrer que théoriquement un modèle mixte sur les
sondes est équivalent à un modèle à eet xe sur la moyenne du dye-swap.
7
3.1.2
Règle de décision, calcul de la probabilité critique
Une fois la statistique de test calculée, il faut dénir une règle de décision
qui va permettre d'accepter ou de rejeter pour chaque sonde
g
l'hypothèse
nulle. Nous utiliserons dans la suite les notations suivantes :
Sous
H0,g ,
la statistique de test
Tg
suit une loi de Student. Pour un risque
α xé, et pour une hypothèse alternative dénie par
H1,g ={µg 6= 0}, la zone de rejet du test est donnée par Rα = {|Tg | >
t(α, ddl)}, où t(α, ddl) est le quantile d'ordre α du loi de Student à ddl degrés de liberté. La règle de décision consiste à rejeter H0,g si la statistique de
obs ∈ R .
test calculée à partir des observations est dans la zone de rejet : Tg
α
L'inconvénient de cette règle est le seuil, qui est une fonction de α, par
de première espèce
conséquent il est nécessaire de le redénir pour chaque risque de première
espèce considéré. C'est pourquoi il est préférable de dénir la règle de décision à partir de la probabilité critique
Pg ,
qui est la probabilité d'observer
les données si l'hypothese nulle est vraie :
Pg = PH0,g (|T | > |Tgobs |),
où
T
est une variable aléatoire qui suit la même distribution que la statis-
tique de test sous
H0,g .
La probabilité critique mesure la cohérence entre
l'hypothèse nulle et les observations.
rejet de
H0,g .
Une valeur faible de
Pg
entraine un
Par conséquent une deuxième règle de décision, équivalente à
la première, consiste à rejeter
H0,g
{Pg < α}.
si
3.2 Les tests multiples
La particularité de la technologie des puces est d'étudier la diérence d'expression
de milliers de sondes simultanément.
Il y a donc à faire autant de tests
d'hypothèses que de sondes présentes sur le support étudié.
Nous devons
donc nous placer dans un cadre de tests multiples. Si chaque test est réalisé
à un risque de première espèce égal à
α,
alors en réalisant
G
tests indépen-
dants le nombre moyen de faux-positifs, c'est-à-dire le nombre moyen de
gènes déclarés diérentiellement exprimés à tort, est égal à
Gα3 .
Il est donc
important de contrôler les risques du test multiple dont l'hypothèse nulle
est {toutes les sondes n'ont pas de diérence d'expression entre les 2 traitements} et l'hypothèse alternative est {il existe au moins une sonde diérentiellement exprimée}. A l'issue d'un test multiple,
P
sondes sont déclarées
diérentiellement exprimés avec un nombre inconnu de faux-positifs (F P ) et
N
sondes sont déclarées non diérentiellement exprimés, dont certains sont
des faux-négatifs (Tableau 2).
Dans un test simple d'hypothèse, on cherche à contrôler le risque de première espèce. De manière analogue, dans les tests multiples, on cherche à
3
Pratiquement si G=10000 gènes et α = 0.05, alors en moyenne 500 gènes sont déclarés
diérentiellement exprimés à tort.
8
Décision
m0
déclaré non di. exp.
déclaré di. exp.
Vrais négatifs
Faux positifs
Faux négatifs
Vrai positifs
N négatifs
P positifs
gènes non di. expr.
Vérité
m1
gènes di. expr.
G = m0 + m1
Table 2: Conclusions possibles d'un test multiple
contrôler une fonction du nombre de faux-positifs. Nous nous limiterons ici
aux contrôles les plus couramment utilisés.
Family-Wise Error Rate (FWER)
Le FWER est la probabilité d'avoir
au moins un faux-positif. Le contrôle du FWER par la procédure de Bon-
G, le test est réalisé
(G0 /G)α, où G0 indique le vrai nombre d'hypothèses nulles vériées. Le rapport (G0 /G) étant
toujours inférieur à 1, on a toujours que le FWER est inférieur ou égal à α.
Ainsi pour un FWER inférieur ou égal à 0.05, si G = 10000, alors chaque
−6 .
test est réalisé avec un risque de première espèce égal à 5.10
ferroni est le plus connu. Si pour chaque gène
au niveau
α/G,
g=1
à
alors le FWER est inférieur ou égal à
False Discovery Rate
L'idée est de contrôler non pas le risque d'avoir
au moins un faux-positif mais l'espérance de la proportion de faux-positifs
parmi les gènes déclarés diérentiellement exprimés.
niveau
α
donné, on sait que
Par la théorie, à un
F DR ≤ F W ER.
La procédure la plus connue pour contrôler le FDR est celle de Benjamini et
Hochberg Benjamini and Hochberg (1995) qui dénit la probabilité critique
ajustée par
Pe(g) = min{min(1, p(j) G/j)}.
j≥g
Cette procédure suppose que
G0 /G = 1,
or il est fort vraisemblable que
ce rapport soit inférieur à 1. Le probabilité critiquée ajustée, connue sous
4 proposée par Storey (2002) contrôle le FDR où la
le nom de la q-value
proportion
G0 /G
est estimée à partir des données.
3.3 chiers générés
A la n d'une analyse diérentielle, plusieurs chiers sont disponibles
le chier contenant les sondes retirées de l'analyse.
4
http://genomics.princeton.edu/storeylab/qvalue/
9
un chier contenant les sondes diérentiellement exprimées par niveau de
test et par type de contrôle. Par exemple
Bonferroni-0.05-ListeGene.txt
contient les sondes diérentiellement exprimées quand la p-value a été
ajustée par la méthode de Bonferroni et que le seuil était xé à 0.05%.
le chier contenant toutes les sondes avec toutes les ajustements de la probabilté critique.
Il y a également un achage à l'écran, qui récapitule des arguments de la
fonction, puis donne des détails en fonction de la modélisation de la variance.
Le calcul des probabilités critiques ajustées est réalisé à l'aide de la librairie
R
kerfdr, qui fournit un controle du FWER et FDR avec une estimation
de la proportion
G0 /G.
References
Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate:
a practical and powerfull approach to multiple testing.
B 57 (1),
J. R. Statist. Soc.
289300.
Jeanmougin, M., A. de Reynies, L. Marisa, C. Paccard, G. Nuel, and
M. Guedj (2010, 09). Should we abandon the t-test in the analysis of gene
expression microarray data: A comparison of variance modeling strategies.
PLoS ONE 5 (9),
e12336.
Smyth, G. K. (2004). Linear models and empirical bayes methods for assessing dierential expression in microarray experiments.
tions in Genetics and Molecular Biology .
Statistical Applica-
Yang, Y., S. Dudoit, D. Luu, V. Peng, and T. Ngai, J.and Speed (2002).
Normalization for cdna microarray data: a robust composite method addressing single and multiple slide systematic variation.
search 30.
Nucleic Acids Re-
Yang, Y. H. and N. Thorne (2003). Single channel normalisation for cdna
microarray data.
IMS Lecture Notes Monograph Series 40.
10