Analyse des données d`expression issues de la puce CATMAv6
Transcription
Analyse des données d`expression issues de la puce CATMAv6
Analyse des données d'expression issues de la puce CATMAv6: normalisation, analyse diérentielle Marie-Laure Martin-Magniette February 4, 2012 1 Description de la puce catmav6 Les puces CATMAv6 sont des puces NimbleGen avec 12 chambres identiques qui contiennent 3 sondes identiques par unité biologique 1 . Une chambre est l'équivalent d'une lame avant la miniaturisation extrême du supportDans la suite du texte, les deux termes seront utilisés. Sur la plate-forme, nous avons décidé d'utiliser ce support en co-hybridant 2 conditions simultanément. 2 La normalisation Les biais techniques sont nombreux et aectent de manière non négligeable la mesure de l'expression des gènes. Ils existent tout au long de l'expérience : de la préparation du support jusqu'à la quantication des signaux, en passant par l'hybridation. Il est donc important lors de l'analyse statistique de les identier, de les quantier et de les soustraire du signal avant d'analyser l'expression des fragments déposés sur la puce. C'est le rôle de la normalisation, qui est une étape délicate, propre à chaque plate-forme. Après avoir présenté les types de biais courants et les hypothèses nécessaires pour normaliser, nous expliquerons la méthode de normalisation mise en place pour les données issues de la puce CATMAv6. 2.1 Pourquoi normaliser et sous quelles conditions ? 2.1.1 Deux types de biais techniques Les biais techniques sont parfois inévitables car certains paramètres, tels que l'ecacité d'incorporation des uorochromes, ne peuvent être parfaitement contrôlés. Cependant il est possible d'en limiter certains en mettant au point un protocole rigoureux au sein du laboratoire. C'est pourquoi nous distinguons deux types de biais : 1 une unité biologique est soit un gène soit la copie du gène sur le brin complémentaire 1 • les biais contrôlables par les biologistes. Par exemple, il est préfèrable dans la mesure du possible d'avoir un seul expérimentateur, de ne pas toucher au réglage du scanner (PMT) et de suivre précisement le protocole expérimental. Nous considérons dans la suite que toutes les précautions sont prises pour éviter ces artéfacts. • les biais non contrôlables . Ces biais sont inhérents aux expériences d'hybridation diérentielle et nécessitent un traitement statistique pour être supprimés. Sur les puces à sondes fabriquées in situ, le biais non contrôlables le plus important est la diérence constatée entre la stabilité des uorochromes Cy3 et Cy5. De nombreuses méthodes existent, nous ne présentons ici que la méthode de régression locale pondérée, appelée loess, qui est la plus utilisée. 2.1.2 Les hypothèses La normalisation nécessite quelques hypothèses souvent implicitement supposées. La première hypothèse suppose que l'eet biologique n'est pas confondu avec le biais technique que l'on souhaite corriger. En eet, si ce n'est pas le cas, il est dicile de trancher entre un artefact technique ou une variabilité biologique. Par exemple si toutes les sondes d'intérêt sont re- groupées sur le support, alors on ne pourra pas distinguer dans l'analyse la variabilité biologique d'un eet support. On cherchera donc à éviter cette co-localisation lors de la conception de la puce. Ensuite comme l'explique Yang et al. (2002), il est nécessaire de choisir les sondes qui permettront de normaliser les données. La première idée est d'utiliser des sondes connues pour s'exprimer de manière identiques entre les deux conditions testées, et qui devraient par conséquent avoir la même intensité en rouge et en vert. Dans la pratique, cette méthode est très dicile à mettre en ÷uvre, car il n'est pas évident de trouver des gènes répondant à cette condition. C'est pourquoi la normalisation est eectuée à partir de toutes les sondes présentes sur le support. Ceci est possible si et seulement si un très grand nombre d'entre elles s'hybride de la même manière pour les deux conditions. Cette condition est fondamentale et doit être prise en compte dès la construction du plan d'expérience. Les biologistes ont pour habitude de regarder le rapport entre le signal rouge (Cy5) et le signal vert (Cy3). An de se ramener à un modèle additif, les statisticiens préfèrent eux étudier le logarithme du rapport. Cette transformation permet de plus de stabiliser la variance. Le logarithme en base 2 est le plus utilisé, car les signaux sont des puissances de 2, variant entre 0 et 216 − 1. Les valeurs seuils du rapport, 0.5 et 2, arbitrairement choisies par les biologistes pour déterminer si un gène est stimulé ou réprimé deviennent -1 et 1. Dans la suite, nous employons abusivement le terme signal pour sa transformation logarithmique en base 2. 2 Figure 1: MA-plot sur les données brutes. Figure monochrome permttant de voir la densité de points 2.2 La normalisation par loess La normalisation par loess est valable pour des puces où deux conditions sont hybridées sur la même lame. La gure 1 est un graphe M-A qui représente la diérence des signaux (M ) en fonction du signal moyen du gène (A). Par dénition, M = R−V et A = (R + V )/2 où R est le signal en rouge et le signal en vert (après transformation logarithmique des signaux). souvent appelé log-ratio et A M V est intensité moyenne. Sous l'hypothèse que peu de sondes s'expriment diérentiellement entre les deux conditions et que la quantité de uorochrome incorporée n'a pas d'inuence sur le rapport, le nuage de points devrait se situer autour de l'axe des abscisses. Or nous observons une déformation qui est principalement due à la diérence d'ecacité des uorochromes, et qui varie de plus d'une sonde à l'autre. Pour corriger cet eet, Yang et al. (2002) proposent de modéliser la relation entre M et A en posant M = c(A) + E où E est une variable aléatoire dont la distribution est symétrique d'espérance nulle et de variance constante, et d'estimer à partir des observations (Ag , Mg ) pour g = 1, . . . G, la fonction de 3 régression c par une loess 2 Les données sont normalisées par soustraction de la valeur prédite par le modèle. A partir de la version 6 de CATMA, les sondes sont synthétisées in situ et les sondes ne sont plus organisées par bloc comme sur les versions précédentes. On ne peut donc plus procéder à une correction de biais spatiaux éventuels. La normalisation consiste donc seulement en une correction des biais de uorochromes. Par contre, pour évaluer la qualité de l'hybridation, de nombreux graphiques sont générés. Pour chaque chambre normalisée, il y a un chier de graphiques qui permet de suivre les diérentes étapes de la normalisation. Ce chier est créé directement dans le programme et s'appelle "nom_de_la_lame.pdf". Il contient : • sur les données brutes, un histogramme des intensités vertes, rouges et du log-ratio (rouge/vert), un graphique montrant la relation entre l'intensité verte et rouge. • Sur les données brutes, un MA-plot. • Sur les données normalisées, un MA-plot. • Un graphique montre le log-ratio moyen par ligne et par colonne avant la normalisation (en noir) et après la normalisation (en vert). Pour les 12 chambres présentes sur une puce, nous évaluons les biais spatiaux en traçant les intensités vertes et rouges en fonction de l'emplacement des sondes sur la chambre. Nous traçons également 10% des intensités vertes et rouges les plus fortes pour évaluer s'elles sont concentrées spatialement. 2.3 Intensité corrigée du signal pour chaque condition Yang and Thorne (2003) proposent dans leur article de normaliser par canal en redistribuant la correction du log-ratio. Précisement, après la normali- sation du log-ratio, le log-ratio corrigé est égal au log-ratio brut moins une correction, notée c(A). L'intensité du canal rouge normalisée, notée I.rouge, est dénie par l'intensité brute du canal rouge moins la moitié de c(A). L'intensité du canal vert normalisée, notée I.vert, est dénie par l'intensité brute du canal vert moins la moitié de c(A). A et calculées à partir de l'intensité normalisée 2 Ces quantités peuvent être le log-ratio normalisé M de Le principe de la loess est d'approcher localement c par un polynôme de degré d (souvent d =1 ou 2) et d'estimer les coecients de ce polynôme par moindres carrés pondérés à partir des observations qui sont dans le voisinage. Le poids attribué à une observation dépend de sa distance au centre du voisinage : plus la distance est grande, plus le poids est petit. La taille du voisinage de chaque observation est dénie comme l'entier le plus proche de f × G où f est un paramètre à préciser compris entre 0 et 1. Plus f est proche de 1, plus le voisinage est grand et plus la fonction estimée sera lisse. 4 la façon suivante I.rouge = (2A + M )/2 I.verte = (2A − M )/2 Ces informations sont disponibles dans le chier contenant les résultats de l'analyse statistique. 3 Analyse diérentielle L'objectif est de comparer l'expression des sondes et d'identier quelles sont celles dont l'expression dière entre les deux traitements. Le cadre statistique est celui des tests d'hypothèses. H0,g ={La Pour chaque sonde g, l'hypothèse nulle diérence d'expression entre les deux traitements est nulle} est testée contre l'hypothèse alternative H1,g ={La diérence d'expression entre les deux traitements est non nulle}. 3.1 Principe du test statistique L'objectif du test est de décider à partir des données quelle est l'hypothèse à retenir. Le principe est de calculer une fonction des observations, la statistique de test, et de comparer sa valeur à sa distribution attendue s'il n'y a pas de diérence d'expression (sous H0,g ). Suite à la décision, quatre situations sont envisageables : deux décisions possibles (H0,g est rejetée ou acceptée) pour deux vérités possibles (H0,g est vraie ou fausse). Le tableau 1 indique la probabilité de chaque situation. La H0,g à tort, notée α, est le risque de première espèce. La probabilité d'accepter H0,g à tort, notée β est le risque de deuxième espèce. Dans le cadre de l'analyse des puces, α est la probabilité de décider qu'il y a probabilité de rejeter une diérence d'expression entre les deux traitements, alors qu'elle n'existe pas et β la probabilité de décider qu'il n'y a pas de diérence d'expression entre les deux traitements, alors qu'il y en a une. Les deux risques sont liés : pour une même expérience quand α augmente, β diminue. Décision vrai H0,g acceptée 1−α fausse β H0,g H0,g rejetée α Vérité H0,g 1−β Table 1: Probabilités de chaque conclusion possible d'un test Dans la pratique, un test est toujours réalisé à un niveau α revient à se prémunir contre le risque de première espèce. 5 donné, ce qui Généralement (quand on fait un seul test d'hypothèse) pas de contrôle de β. α est xé à 5 ou 1% et il n'y a L'objectif de l'analyse diérentielle étant de détecter une diérence d'expression quand elle existe, les tests doivent être puissants, H0,g c'est-à-dire que la probabilité de rejeter Remarque avec raison, doit être grande. Tous les tests présentés dans cette section supposent que la diérence des signaux et de variance σg2 . ∆g suit une distribution gaussienne de moyenne g dénies H1,g ={µg = 6 0}. paramétriques. Les hypothèses du test pour la sonde ment sont équivalentes à 3.1.1 µg C'est pourquoi ils font partie de la classe des tests H0,g ={µg = 0} et précédem- Construction de la statistique de test La statistique de test est une fonction des observations. Pour les tests qui nous intéressent, il est naturel que cette statistique soit construite à partir de la moyenne empirique de la diérence des signaux. Précisement, elle est dénie par: Tg = (1) où ∆g √ ng ∆g , σ cg est la diérence d'expression moyenne entre les deux traitements σ cg est unPestimateur de l'écart-type σg . Précisement, ∆g est ng ∆gk , où ∆gk est la k ième mesure de la diérence ∆g = n1g k=1 d'expression de la sonde g et ng est le nombre total de mesure disponible testées et dénie par pour cette sonde. L'étape cruciale dans le calcul de la statistique de test est l'estimation de la variance, car elle doit être faite à partir d'un nombre restreint d'observations (souvent ng ≤ 10). Voici les méthodes implémentées pour les analyses de données d'expression à l'URGV : 1. Variance spécique à chaque gène : c'est l'hypothèse d'hétéroscédasticité. 2 La variance par sonde σg , est estimée par (2) 2 σ cg = Png − ∆g )2 ng − 1 k=1 (∆gk Quand le nombre d'observations par sonde est petit (ng ≤ 6), cette estimation est très mauvaise et la puissance du test est extrêment faible. 2. Variance commune à tous les gènes : c'est l'approche qui consiste à dire que tous les sondes ont la même variance σg2 = σ 2 . C'est l'hypothèse P 2 d'homoscédasticité. La variance σ est estimée par σ b2 = G1 G cg 2 g=1 σ 2 avec σ cg déni Equation 2. Grâce au grand nombre de sondes, la variance est estimée avec une grande précision et le test associé est 6 très puissant. Cette hypothèse d'homoscédasticité est forte et tous les sondes ne la vérient pas. Une solution est de conserver les sondes satisfaisant la condition suivante : χ2 (α0 /2; ng − 1) < (ng − 1) α0 d'un chi-deux à ng − 1 0 degrés de liberté. Un bon choix pour α est l'inverse de l'ordre de 0 grandeur du nombre de sondes étudiés : α ≈ 1/G. Cependant malgré où χ2 (1 − α0 ; ng − 1) σ bg2 < χ2 (1 − α0 /2; ng − 1), σ b2 est le quantile d'ordre cette précaution, dans de nombreuses expériences, on constate que cette hypothèse d'homoscédasticité n'est absolument pas vériée, elle ne peut donc pas toujours être utilisée. 3. Limma : Smyth et al. Smyth (2004) proposent d'utiliser un mod- èle bayésien hiérarchique pour modéliser la variance de la diérence d'expression. L'idée de la méthode est d'utiliser une distribution a priori de la variance (inverse de chi-deux) et de l'utiliser avec les observations pour estimer une loi a posteriori de la variance pour ensuite estimer une variance par sonde. Ce modèle de la variance a en plus l'avantage de permettre d'avoir la loi exacte de la statistique de test sous l'hypothèse nulle. C'est une loi de Student avec un nombre de degré de liberté supérieur à celui d'un t-test classique. Par conséquent, la méthode Limma permet d'améliorer la puissance du test. Quand le degré de liberté a posteriori est inni, la méthode limma revient à estimer une variance commune à toutes les sondes. Une étude comparative au sein de la plate-forme et également la veille bibliographique (Jeanmougin et al. (2010)) nous a amené à choisir la méthode Limma comme méthode la plus pertinente. Remarque très importante : D'après les plans d'expérience construits à l'URGV, votre projet comporte des répétitions biologiques et pour chacune d'elle vous avez généralement deux répétitions techniques (un dye-swap). Par conséquent, il existe trois types de variabilités : (i) la variabilité par duplication des sondes sur le support, (ii) la variabilité technique qui traduit l'ensemble de la variabilité issue des étapes de marquage et d'hybridation. Cette dernière est mesurée grâce aux dye-swaps (iii) la variabilité biologique. Ces trois types de variabilité sont diérentes et sont dissociées dans l'analyse. Tout d'abord les sondes dupliquées sur la lame sont moyennées. Puis les observations utilisées sont la moyenne de la diérence d'expression calculée à partir du dye-swap pour chaque répétition biologique. Cela permet de dissocier la variabilité biologique de la variabilité technique et de donner plus d'importance à la variabilité biologique. Comme le plan d'expérience est équilibré, on peut montrer que théoriquement un modèle mixte sur les sondes est équivalent à un modèle à eet xe sur la moyenne du dye-swap. 7 3.1.2 Règle de décision, calcul de la probabilité critique Une fois la statistique de test calculée, il faut dénir une règle de décision qui va permettre d'accepter ou de rejeter pour chaque sonde g l'hypothèse nulle. Nous utiliserons dans la suite les notations suivantes : Sous H0,g , la statistique de test Tg suit une loi de Student. Pour un risque α xé, et pour une hypothèse alternative dénie par H1,g ={µg 6= 0}, la zone de rejet du test est donnée par Rα = {|Tg | > t(α, ddl)}, où t(α, ddl) est le quantile d'ordre α du loi de Student à ddl degrés de liberté. La règle de décision consiste à rejeter H0,g si la statistique de obs ∈ R . test calculée à partir des observations est dans la zone de rejet : Tg α L'inconvénient de cette règle est le seuil, qui est une fonction de α, par de première espèce conséquent il est nécessaire de le redénir pour chaque risque de première espèce considéré. C'est pourquoi il est préférable de dénir la règle de décision à partir de la probabilité critique Pg , qui est la probabilité d'observer les données si l'hypothese nulle est vraie : Pg = PH0,g (|T | > |Tgobs |), où T est une variable aléatoire qui suit la même distribution que la statis- tique de test sous H0,g . La probabilité critique mesure la cohérence entre l'hypothèse nulle et les observations. rejet de H0,g . Une valeur faible de Pg entraine un Par conséquent une deuxième règle de décision, équivalente à la première, consiste à rejeter H0,g {Pg < α}. si 3.2 Les tests multiples La particularité de la technologie des puces est d'étudier la diérence d'expression de milliers de sondes simultanément. Il y a donc à faire autant de tests d'hypothèses que de sondes présentes sur le support étudié. Nous devons donc nous placer dans un cadre de tests multiples. Si chaque test est réalisé à un risque de première espèce égal à α, alors en réalisant G tests indépen- dants le nombre moyen de faux-positifs, c'est-à-dire le nombre moyen de gènes déclarés diérentiellement exprimés à tort, est égal à Gα3 . Il est donc important de contrôler les risques du test multiple dont l'hypothèse nulle est {toutes les sondes n'ont pas de diérence d'expression entre les 2 traitements} et l'hypothèse alternative est {il existe au moins une sonde diérentiellement exprimée}. A l'issue d'un test multiple, P sondes sont déclarées diérentiellement exprimés avec un nombre inconnu de faux-positifs (F P ) et N sondes sont déclarées non diérentiellement exprimés, dont certains sont des faux-négatifs (Tableau 2). Dans un test simple d'hypothèse, on cherche à contrôler le risque de première espèce. De manière analogue, dans les tests multiples, on cherche à 3 Pratiquement si G=10000 gènes et α = 0.05, alors en moyenne 500 gènes sont déclarés diérentiellement exprimés à tort. 8 Décision m0 déclaré non di. exp. déclaré di. exp. Vrais négatifs Faux positifs Faux négatifs Vrai positifs N négatifs P positifs gènes non di. expr. Vérité m1 gènes di. expr. G = m0 + m1 Table 2: Conclusions possibles d'un test multiple contrôler une fonction du nombre de faux-positifs. Nous nous limiterons ici aux contrôles les plus couramment utilisés. Family-Wise Error Rate (FWER) Le FWER est la probabilité d'avoir au moins un faux-positif. Le contrôle du FWER par la procédure de Bon- G, le test est réalisé (G0 /G)α, où G0 indique le vrai nombre d'hypothèses nulles vériées. Le rapport (G0 /G) étant toujours inférieur à 1, on a toujours que le FWER est inférieur ou égal à α. Ainsi pour un FWER inférieur ou égal à 0.05, si G = 10000, alors chaque −6 . test est réalisé avec un risque de première espèce égal à 5.10 ferroni est le plus connu. Si pour chaque gène au niveau α/G, g=1 à alors le FWER est inférieur ou égal à False Discovery Rate L'idée est de contrôler non pas le risque d'avoir au moins un faux-positif mais l'espérance de la proportion de faux-positifs parmi les gènes déclarés diérentiellement exprimés. niveau α donné, on sait que Par la théorie, à un F DR ≤ F W ER. La procédure la plus connue pour contrôler le FDR est celle de Benjamini et Hochberg Benjamini and Hochberg (1995) qui dénit la probabilité critique ajustée par Pe(g) = min{min(1, p(j) G/j)}. j≥g Cette procédure suppose que G0 /G = 1, or il est fort vraisemblable que ce rapport soit inférieur à 1. Le probabilité critiquée ajustée, connue sous 4 proposée par Storey (2002) contrôle le FDR où la le nom de la q-value proportion G0 /G est estimée à partir des données. 3.3 chiers générés A la n d'une analyse diérentielle, plusieurs chiers sont disponibles le chier contenant les sondes retirées de l'analyse. 4 http://genomics.princeton.edu/storeylab/qvalue/ 9 un chier contenant les sondes diérentiellement exprimées par niveau de test et par type de contrôle. Par exemple Bonferroni-0.05-ListeGene.txt contient les sondes diérentiellement exprimées quand la p-value a été ajustée par la méthode de Bonferroni et que le seuil était xé à 0.05%. le chier contenant toutes les sondes avec toutes les ajustements de la probabilté critique. Il y a également un achage à l'écran, qui récapitule des arguments de la fonction, puis donne des détails en fonction de la modélisation de la variance. Le calcul des probabilités critiques ajustées est réalisé à l'aide de la librairie R kerfdr, qui fournit un controle du FWER et FDR avec une estimation de la proportion G0 /G. References Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: a practical and powerfull approach to multiple testing. B 57 (1), J. R. Statist. Soc. 289300. Jeanmougin, M., A. de Reynies, L. Marisa, C. Paccard, G. Nuel, and M. Guedj (2010, 09). Should we abandon the t-test in the analysis of gene expression microarray data: A comparison of variance modeling strategies. PLoS ONE 5 (9), e12336. Smyth, G. K. (2004). Linear models and empirical bayes methods for assessing dierential expression in microarray experiments. tions in Genetics and Molecular Biology . Statistical Applica- Yang, Y., S. Dudoit, D. Luu, V. Peng, and T. Ngai, J.and Speed (2002). Normalization for cdna microarray data: a robust composite method addressing single and multiple slide systematic variation. search 30. Nucleic Acids Re- Yang, Y. H. and N. Thorne (2003). Single channel normalisation for cdna microarray data. IMS Lecture Notes Monograph Series 40. 10