Etude de données d`expression par Analyse en Composantes
Transcription
Etude de données d`expression par Analyse en Composantes
Etude de données d’expression par Analyse en Composantes Principales Fonctionnelles BARRA VINCENT LIMOS, FRE CNRS 2239, Campus des Cézeaux, 63117 AUBIERE Courriel : [email protected] Résumé Nous proposons dans cet article une méthode d’analyse de résultats expérimentaux des niveaux d’expression des gènes. Cette technique étend l’analyse en composantes principales classique à des données fonctionnelles, issues par exemple de la mesure répétée d’un paramètre évolutif issu d’un processus. La méthode extrait des composantes fonctionnelles représentatives des mesures, et évalue l’adéquation de chaque donnée à ces composantes sous la forme de scores. La méthode est automatique, rapide et particulièrement adaptée à l’analyse de données temporelles. Nous illustrons et évaluons l’analyse en composantes principales fonctionnelles sur des données de synthèse, puis nous proposons une application sur des données du cycle cellulaire de la levure Saccharomyces cerevisiae. Les premiers résultats de cette étude prospective laissent augurer une technique performante d’analyse de données d’expression de gènes Mots-clés : Biopuces, Composante principale fonctionnelle, Classification, Cycle cellulaire. Abstract We propose here a method for the analysis of genes expressions. This technique widen the classical principal component analysis to functional data, coming e.g. from the repeated measure of a parameter through time. The method extracts functional principal components reflecting the main tendencies of the measures, and assesses the agreement of each gene to these components by means of scores. The method is fast, fully automatic and well-adapted to the analysis of temporal data. We illustrate and we asses the functional principal components analysis on synthetic data, and we then propose an application for the identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae. First results of this prospective study shed light on the potential interest of this technique for the analysis of gene expression data. Keywords: Microarray, Functional principal component, Clustering, Cell cycle. 1 Introduction Les biopuces offrent la possibilité d’étudier les variations simultanées de milliers de gènes en fonction de diza ines d’expériences, permettant par exemple de regrouper les gènes en différentes familles au comportement bien distinct. Les méthodes utilisées pour analyser cette masse de données incluent les réseaux de neurones [11], les algorithmes de classification [2] ou encore l’analyse en composantes principales [5][9]. Nous proposons ici une méthode fondée sur les travaux de Ramsay concernant l’analyse de données fonctionnelles [8]. Nous considérons qu’un profil de gène est une fonction continue d’un paramètre « temporel », et nous utilisons une analyse en composantes principales fonctionnelles pour extraire des variations significatives dans les données et pour regrouper les courbes en fonction de leurs variations significatives. Nous présentons tout d’abord brièvement la méthode utilisée, nous l’évaluons ensuite que des données de synthèse et nous l’appliquons enfin de façon prospective sur des données du cycle cellulaire de la levure Saccharomyces cerevisiae. 2 L’analyse en composantes principales fonctionnelles Soit une matrice X = (xij ) à N lignes et P colonnes. représentant des données fonctionnelles, i.e. des données issues de la mesure répétée d’un paramètre évolutif issu d’un processus. Les buts de l’analyse fonctionnelle présentée ci après sont : de représenter les données fonctionnelles de façon à faciliter leur analyse ; de visualiser les données de façon à mettre en évidence des caractéristiques diverses ; d’étudier des sources importantes de motifs de variations dans les données ; d’expliquer ces variations ; de comparer plusieurs ensembles de données par rapport à certaines variations. JOBIM 2002 Étude V. JOBIM Barra de 2002 données d’expression par analyse en composantes principales fonctionnelles 343 2.1 Un rappel sur l’analyse en composantes principales L’analyse en composantes principales (ACP) [7] est une méthode d'étude des proximités entre variables avec une métrique euclidienne (corrélation) et des différences entre individus (inertie) avec une autre métrique euclidienne. On cherche par exemple à représenter les proximités des N individus de X par rapport aux P variables. L’ACP se divise en étapes : Normalisation des données pour être indépendant des unités des P paramètres Calcul d’une matrice de similarité C (bien souvent la corrélation) Recherche des éléments propres de C, qui donnent les axes principaux Représentation des individus dans le nouvel espace (en ne considérant que les valeurs propres expliquant une variance cumulée suffisante) L’ACP a été appliquée à l’étude des biopuces [5][9], et nous proposons ici une extension de cette technique, fondée sur les travaux de Ramsay [8]. 2.2 L’analyse en composantes principales fonctionnelles (ACPF) Les données fonctionnelles sont maintenant un ensemble de courbes continues (xi (s), i=1..N), s variant entre a et b. X est alors composé de N individus et de la variable continue s (dimension infinie). Le problème consiste alors à trouver un ensemble de fonctions εα(s), α dans 1..q (équivalent des vecteurs propres de C) mutuellement orthogonales, de norme 1. Chacune d’entre elles maximise : N b 1 ( εα (s) xi( s)ds)² ∫ N∑ i =1 a On introduit une fonction de covariance v(s,t) = N 1 xi(s) xi(t) = 1 XT (s) X(t), modélisée par une matrice V, ∑ N i=1 N et le problème de maximisation peut se mettre sous la forme : b b N b b 1 i ( s ) x ( s ) ds ( t ) x ( t ) dt ( s ) εα εα i =∫εα ∫v(s ,t )εα (t) dt ds ∑ ∫ ∫ N i=1 a a a a On montre que la maximisation équivaut à la recherche des éléments propres de la matrice V, appelée opérateur de covariance [8]. C’est le principe de l’ACP fonctionnelle. La méthode consiste, après avoir centré les données fonctionnelles, à résoudre le problème d’éléments propres. Nous choisissons ici d’écrire les données fonctionnelles comme des combinaisons linéaires de fonctions de bas e. Chaque composante principale fonctionnelle (CPF) est alors représentée par une fonction continue. Supposons que chaque fonction continue xi (s) soit combinaison linéaire de K fonctions de base φk (s), k=1..K. pondérées par des coefficients cik . Si Θ = (φk (s)) k=1..K est la matrice des fonctions de base, on peut écrire: X(s) = CΘ(s), C matrice N*K des coefficients de combinaisons linéaires. La fonction de covariance v(s,t) devient alors : v(s,t) = 1 T 1 X (s) X(t) = Θ(s)T CT CΘ (t) N N Soit W la matrice K*K de coefficients wkl = ∫Φ k ( s ) Φ l ( s ) ds . Si la fonction propre ξ(s) s’écrit dans la base des φk (s) : ξ(s) = Θ(s)T.b, où b = [b 1 ….b k ]T alors par définition de V : b Vξ(s) = ∫ v (s , t )ξ (t )dt = a 1 N ∫Θ Τ ( s )C Τ CΘ( t )Θ Τ ( t )bdt = 1 T T Θ (s)C CWb. N Et 1 T T Θ (s)C CWb = λξ(s) = λΘ (s)T.b N λ valeur propre associée à la fonction propre ξ(s). Cela signifie qu’il existe une équation matricielle pour tous les s telle que : 1 T C CWb = λb N 344 (1) JOBIM 2002 Compte tenu du fait que ∫ξ ∫ b Θ( s ) Θ( s ) T T 2 ( s )ds = 1 on a bds = bT Wb = 1 Soit finalement u un vecteur normalisé tel que u = W1/2 b. (1) devient alors : 1 (W1/2 CTC W1/2 )u = λu. N L’ACPF consiste alors à : Calculer les m éléments propres (u1 … um ) et (λ1 …λm) de la matrice Q = (W1/2 CTC W1/2 )/N Calculer les m composantes principales ξi (s), i=1..m par ξ(s) = Θ(s)T.b. Calculer comme en ACP classique la contribution de chaque composante principale par le rapport entre la valeur propre correspondante et la somme des valeurs propres. Calculer la position de chaque individu (ou courbe xi (s)) dans le système des composantes principales par le produit Xε, ε = [ξ1 …ξm]. Si U = [u1 …um ] et B = [b1 …bm ], alors par définition F = Xε = (CΘ)(ΘTB) = CWB = CWW-1/2 B = CW1/2 U. Les scores de la courbe xi (s) dans le système des m composantes principales sont définies sur la ième ligne de F. Comme en ACP classique, on se limite à m=2 ou m=3. L’éloignement d’un point par rapport à l’origine traduit l’écart de la courbe considérée par rapport à la courbe moyenne. Le scalaire fij est le score de l’individu i par rapport à la composante principale j. Les intérêts de ce type d’analyse sont nombreux: • Les comp osantes principales sont des fonctions, donnant les comportements principaux rencontrés dans la matrice X • Dans le cas d’analyses temporelles (i.e. les expériences sont des mesures d’un même phénomène à des temps différents), l’ACPF permet d’analyser des données même si les mesures ne sont pas effectuées aux mêmes instants pour chaque gène (interpolation par les fonctions de base φk ) • L’analyse donne une formulation analytique de chaque composante principale fonctionnelle, sous la forme d’une combinaison linéaire des φk . 3 Résultats et discussion Dans la suite, les fonctions de base φk utilisées sont les fonctions splines cubiques de Cox de Boor N3 i (s), qui sont rapides à calculer et proposent de bonnes propriétés mathématiques, tant au niveau de la régularité que de l'interpolation. 3.1 Données simulées La méthode est tout d’abord testée sur des données simulées. Suivant le modèle proposé dans [13], le niveau d'expression du gène i au temps j xij est modélisé par xij = δij + λj (αi + βi .φ(i,j)) où φ(i,j) = sin(2πj/8 -2πk/10) et : αi est le niveau moyen d'expression du gène i (choisi d'après une loi normale N(0,2)), βi est l'amplitude d'expression du gène i (tiré d'après une loi normale N(3,0.5)). La fonction φ(i,j) modélise les variations cycliques des données. k est le numéro de la classe, et deux classes différentes auront donc un déphasage différent. λj contrôle l'amplitude sur l'expérience j (loi normale N(3,0.5)) et δij représente une erreur expérimentale de mesure (loi normale N(0,1)). Nous avons généré par cette méthode une matrice X de dimension 200*10 (200 gènes et 10 expériences), et avons classé ces données par ACPF. Les trois premières composantes principales fonctionnelles expliquent 97% des variations des courbes, et donnent accès aux variations prédominantes dans les données. En particulier, puisque les composantes fonctionnelles sont des courbes continues, il est possible par analyse harmonique d'en extraire les caractéristiques principales (amplitude, période). L’analyse des plans de scores fait de plus apparaître des regroupements nets de points autour des axes principaux fonctionnels (Fig. 1) . La distance dans le plan des scores entre un point (i.e. une ligne de X) et l’origine traduit l’amplitude de la variation de la courbe par rapport à la moyenne. La position de ce point par rapport à l’origine donne quant à elle le sens de la variation par rapport à CPF considérée (signe positif si même variation, et négatif si en opposition de phase). JOBIM 2002 345 2 Plan CPF1/CPF2 1,5 1 0,5 0 -4 -3 -2 -1 0 1 2 3 4 -0,5 -1 -1,5 -2 -2,5 -3 FIG. 1 – Plan des scores des deux pre mières composantes principales fonctionnelles Nous pensons, tout comme [9] que l’utilisation d’un algorithme de classification comme étape de post-traitement des données n’est pas nécessairement obligatoire. Les auteurs de [9] ont en effet montré sur des données de cycle cellulaire que les regroupements pertinents des lignes de X n’étaient pas nécessairement inclus dans des nuages de points bien définis, voire que les nuages de points résultant d’une classification étaient plutôt arbitraires [4], et qu’il était peut être plus pertinent de déterminer des relations de voisinage entre les lignes de X, ou en ce qui nous concerne entre les points dans les plans de score (représentant les profiles des lignes de X). C’est cette démarche que nous avons utilisé dans la suite. 0,6 0,4 2 1,5 0,2 1 CPF 1 0 0,5 0 1 2 3 4 5 6 7 8 9 10 0 -0,5 1 3 5 7 -0,2 9 -1 -0,4 -1,5 -0,6 -2 CPF1 2 CPF2 CPF3 2 2 CPF 1,5 3 CPF 1,5 1 1 0,5 0,5 0 -0,5 0 1 -0,5 3 5 7 9 1 3 5 7 9 -1 -1,5 -1 -1,5 -2 -2,5 Fig.2 : composantes principales fonctionnelles et expression des lignes dans les nuages de points : un exemple pour chaque CPF 3.2 Données réelles : étude du cycle cellulaire de la levure Saccharomyces cerevisiae L’objectif est maintenant pour nous d’appliquer cette méthode aux données du cycle cellulaire de la levure Saccharomyces cerevisiae [10]. En 1998, la mise à disposition du génome de cette levure a permis de lancer des études sur les gènes régulateurs de cycle. Des biopuces ont été utilisées pour mesurer l’abondance relative ou absolue d’ARNm pour chaque gène à différents temps du cycle cellulaire, après que les cellules aient été synchronisées sur un moment précis du cycle. L'ensemble des informations concernant cette étude est disponible à l'adresse http://cellcycle-www.stanford.edu/. Les données dont nous disposons mesurent l’expression relative d'ARNm en fonction du temps dans des cultures cellulaires synchronisées de trois manières indépendantes : • phéromone alpha (pour stopper les cellules MATa dans G1) : deux cycles (données temporelles toutes les 7 minutes, pendant 119 minutes) • élutriation centrifugée (pour obtenir de petites cellules G1) : un cycle (données temporelles toutes les 30 minutes, pendant 390 minutes) • mutation sensible à la température, cdc15-2, qui stoppe la méiose à la température critique : 3 cycles (données temporelles toutes les 10 minutes, pendant 290 minutes) 346 JOBIM 2002 Trois méthodes ont été utilisées car chacune introduit des artefacts propres (par exemple, un choc thermique pour la dernière). Spellman et al. [10] ont identifié 800 gènes régulés par le cycle cellulaire, qui forment nos données de départ. L’application de l'ACPF sur ces gènes, décrits par les 56 expériences temporelles, prend 1 seconde sur un AMD Athlon XP 1500+, avec 256 Mo de RAM. Les premiers résultats obtenus sont encourageants vis à vis des données de la littérature [3][10][12], et doivent maintenant être spécifiquement analysés par des spécialistes de la levure : par exemple, nous retrouvons une composante fonctionnelle exhibant une période de 110 minutes pour l’expérience synchronisée avec cdc15. Il reste donc à exploiter pleinement la masse de données fournie par l’ACPF (i.e. composantes principales fonctionnelles, analyse dans le plan des score qui donne le comportement des gènes vis à vis du cycle…). Là encore, nous pensons d’abord utiliser des relations de voisinage dans l’espace des scores plutôt qu’un algorithme de classification délimitant des nuages de points bien définis. L'ACPF est une technique d'analyse du transcriptome intéressante, surtout dans le cas de l'étude de données temporelles, puisqu'elle peut prendre en compte les cas où ces dernières sont acquises de façon irrégulière (les données étant traitées comme des courbes continues dépendant d'un paramètre). De plus, dans le cas temporel, il est également possible de traiter des données manquantes, lorsque celles-ci sont peu nombreuses pour un gène donné (interpolation à l'aide des fonctions de base φk ). Tous ces aspects répondent en particulier aux problèmes déjà soulevés quant à l'application de l'analyse en composantes principales classique pour l'étude du transcriptome ([9]). L'ACPF permet également de décrire de manière analytique les composantes principales fonctionnelles, par l'intermédiaire de leur décomposition dans la base des φk . Les profils des gènes, comme les composantes principales fonctionnelles, sont alors des courbes de la variable réelle s et peuvent être analysées par des outils classiques (analyse harmonique, ondelettes), afin d'en extraire les paramètres caractéristiques (par exemple fréquence de cycle cellulaire de 110 minutes obtenue sur les données de la levure). Outre l'étude du cycle cellulaire, nous poursuivons au laboratoire l'application de l'ACPF sur d'autres données publiques : nous menons par exemple une étude sur les données de sporulation de la levure du boulanger [4] et les résultats sont là-aussi encourageants et en cours de publication [1]. Références [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] BARRA (V.), Analysis of gene expression data using functional principal components, Bioinformatics (soumis ) SHAMIR (R.), YAKHINI (Z.), Clustering Gene Expression Patterns, Journal of BEN-DOR (A.), Computational Biology, 6, pp 281-297 , 1999. CHO (R.J.), CAMPBELL (M.J.), W INZELER (E.A.), STEINMETZ (L.), CONWAY (A.), WODICKA (L.), W OLFSBER (T.G.), GABRIELIAN (A.E.), LANDSMAN (D.), LOCKHART (D.J.), ET AL ., A genome-wide transcriptional analysis of the mitotic-cell cycle, Mol Cell, 2, pp 65-73, 1998. CHU (S.), DERISI (J.), EISEN (M.), MULHOLLAND (J.), BOTSTEIN (D.), BROWN (P.O.), HERSKOWITZ (I.), The transcriptional program of sporulation in budding yeast, Science, 282, pp 699-705, 1998. CRESCENZI (M.), GIULIANI (A.), The main biological determinants of tumor line taxonomy elucidated by a principal component analysis of microarray data, FEBS Letters, 507, pp 114-118, 2001. D’HAESELLER (P.), LIANG (J.), SOMOGYI (R.), Genetic Network inference: from co-expression clustering to reverse engineering , Bioinformatics, 16-8, pp 707-726, 2000. DUNTEMAN (G. H) Principal Components Analysis. Sage Publications, 1989 RAMSAY (J.), SILVERMAN (B.), Functional Data Analysis, Springer-Verlag, 1997. RAYCHAUDHURI (S.), STUART (J.M.), ALTMAN (R. B.), Principal components analysis to summarize microarray experiments: application to sporulation time series. In Pacific Symposium on Biocomputing, vol. 5, 2000. SPELLMAN (P.T.), SHERLOCK (G.), ZHANG (M.Q.), IYER (V.R.), EISEN (M..B.), BROWN (P.O.), BOTSTEIN (D.), FUTCHER (B.), Comprehensive identification of Cell-Cycle-regulated genes of the Yeast Saccharomyces cerevisiae by microarray hybridization, Molecular Biology of the Cell, 9, pp 3273-3297, 1998. TAMAYO (P.), SLONIM (D.), MESIROV (J.), ZHU (Q.), KITAREEWAN (S.), DMITROVSKY (E.), LANDER (E.), GOLUB (T.), Interpreting patterns of gene expression with self-organizing maps: Methods and application to hematopoietic differentiation, Proc. Natl. Acad. Sci. USA, 96, pp. 2907–2912, 1999. TAVAZOIE (S.), HUGHES (J.D.), CAMPBELL (M.J.), CHO (R.J.), CHURCH (G.M.), Systematic determination of genetic network architecture, Nature Genetics, 22, pp 281-285, 1999. YEUNG (K.Y.), Principal Component Analysis for clustering gene expression data, Technical Report UWCSE-2000-11-03, Department of Computer Science & Engineering, University of Washington, Seattle, 2000. JOBIM 2002 347