Etude de données d`expression par Analyse en Composantes

Transcription

Etude de données d`expression par Analyse en Composantes
Etude de données d’expression par Analyse en Composantes
Principales Fonctionnelles
BARRA VINCENT
LIMOS, FRE CNRS 2239, Campus des Cézeaux, 63117 AUBIERE
Courriel : [email protected]
Résumé
Nous proposons dans cet article une méthode d’analyse de résultats expérimentaux des niveaux d’expression des
gènes. Cette technique étend l’analyse en composantes principales classique à des données fonctionnelles, issues
par exemple de la mesure répétée d’un paramètre évolutif issu d’un processus. La méthode extrait des
composantes fonctionnelles représentatives des mesures, et évalue l’adéquation de chaque donnée à ces
composantes sous la forme de scores. La méthode est automatique, rapide et particulièrement adaptée à
l’analyse de données temporelles. Nous illustrons et évaluons l’analyse en composantes principales
fonctionnelles sur des données de synthèse, puis nous proposons une application sur des données du cycle
cellulaire de la levure Saccharomyces cerevisiae. Les premiers résultats de cette étude prospective laissent
augurer une technique performante d’analyse de données d’expression de gènes
Mots-clés : Biopuces, Composante principale fonctionnelle, Classification, Cycle cellulaire.
Abstract
We propose here a method for the analysis of genes expressions. This technique widen the classical principal
component analysis to functional data, coming e.g. from the repeated measure of a parameter through time. The
method extracts functional principal components reflecting the main tendencies of the measures, and assesses
the agreement of each gene to these components by means of scores. The method is fast, fully automatic and
well-adapted to the analysis of temporal data. We illustrate and we asses the functional principal components
analysis on synthetic data, and we then propose an application for the identification of cell cycle-regulated
genes of the yeast Saccharomyces cerevisiae. First results of this prospective study shed light on the potential
interest of this technique for the analysis of gene expression data.
Keywords: Microarray, Functional principal component, Clustering, Cell cycle.
1
Introduction
Les biopuces offrent la possibilité d’étudier les variations simultanées de milliers de gènes en fonction de
diza ines d’expériences, permettant par exemple de regrouper les gènes en différentes familles au comportement
bien distinct. Les méthodes utilisées pour analyser cette masse de données incluent les réseaux de neurones [11],
les algorithmes de classification [2] ou encore l’analyse en composantes principales [5][9]. Nous proposons ici
une méthode fondée sur les travaux de Ramsay concernant l’analyse de données fonctionnelles [8]. Nous
considérons qu’un profil de gène est une fonction continue d’un paramètre « temporel », et nous utilisons une
analyse en composantes principales fonctionnelles pour extraire des variations significatives dans les données et
pour regrouper les courbes en fonction de leurs variations significatives. Nous présentons tout d’abord
brièvement la méthode utilisée, nous l’évaluons ensuite que des données de synthèse et nous l’appliquons enfin
de façon prospective sur des données du cycle cellulaire de la levure Saccharomyces cerevisiae.
2
L’analyse en composantes principales fonctionnelles
Soit une matrice X = (xij ) à N lignes et P colonnes. représentant des données fonctionnelles, i.e. des données
issues de la mesure répétée d’un paramètre évolutif issu d’un processus. Les buts de l’analyse
fonctionnelle présentée ci après sont :
de représenter les données fonctionnelles de façon à faciliter leur analyse ;
de visualiser les données de façon à mettre en évidence des caractéristiques diverses ;
d’étudier des sources importantes de motifs de variations dans les données ;
d’expliquer ces variations ;
de comparer plusieurs ensembles de données par rapport à certaines variations.
JOBIM 2002
Étude
V.
JOBIM
Barra
de 2002
données d’expression par analyse en composantes principales fonctionnelles
343
2.1
Un rappel sur l’analyse en composantes principales
L’analyse en composantes principales (ACP) [7] est une méthode d'étude des proximités entre variables avec une
métrique euclidienne (corrélation) et des différences entre individus (inertie) avec une autre métrique
euclidienne. On cherche par exemple à représenter les proximités des N individus de X par rapport aux P
variables. L’ACP se divise en étapes :
Normalisation des données pour être indépendant des unités des P paramètres
Calcul d’une matrice de similarité C (bien souvent la corrélation)
Recherche des éléments propres de C, qui donnent les axes principaux
Représentation des individus dans le nouvel espace (en ne considérant que les valeurs propres
expliquant une variance cumulée suffisante)
L’ACP a été appliquée à l’étude des biopuces [5][9], et nous proposons ici une extension de cette technique,
fondée sur les travaux de Ramsay [8].
2.2
L’analyse en composantes principales fonctionnelles (ACPF)
Les données fonctionnelles sont maintenant un ensemble de courbes continues (xi (s), i=1..N), s variant entre a et
b. X est alors composé de N individus et de la variable continue s (dimension infinie). Le problème consiste alors
à trouver un ensemble de fonctions εα(s), α dans 1..q (équivalent des vecteurs propres de C) mutuellement
orthogonales, de norme 1. Chacune d’entre elles maximise :
N
b
1 ( εα (s) xi( s)ds)²
∫
N∑
i =1 a
On introduit une fonction de covariance v(s,t) =
N
1 xi(s) xi(t) = 1 XT (s) X(t), modélisée par une matrice V,
∑
N i=1
N
et le problème de maximisation peut se mettre sous la forme :
b
b
N b
b

1
i
(
s
)
x
(
s
)
ds
(
t
)
x
(
t
)
dt
(
s
)
εα
εα i
=∫εα ∫v(s ,t )εα (t) dt ds
∑
∫
∫
N i=1 a
a
a
a

On montre que la maximisation équivaut à la recherche des éléments propres de la matrice V, appelée opérateur
de covariance [8]. C’est le principe de l’ACP fonctionnelle.
La méthode consiste, après avoir centré les données fonctionnelles, à résoudre le problème d’éléments propres.
Nous choisissons ici d’écrire les données fonctionnelles comme des combinaisons linéaires de fonctions de bas e.
Chaque composante principale fonctionnelle (CPF) est alors représentée par une fonction continue.
Supposons que chaque fonction continue xi (s) soit combinaison linéaire de K fonctions de base φk (s), k=1..K.
pondérées par des coefficients cik . Si Θ = (φk (s)) k=1..K est la matrice des fonctions de base, on peut écrire:
X(s) = CΘ(s), C matrice N*K des coefficients de combinaisons linéaires.
La fonction de covariance v(s,t) devient alors :
v(s,t) =
1 T
1
X (s) X(t) =
Θ(s)T CT CΘ (t)
N
N
Soit W la matrice K*K de coefficients wkl =
∫Φ
k
( s ) Φ l ( s ) ds . Si la fonction propre ξ(s) s’écrit dans la base
des φk (s) : ξ(s) = Θ(s)T.b, où b = [b 1 ….b k ]T alors par définition de V :
b
Vξ(s) =
∫ v (s , t )ξ (t )dt =
a
1
N
∫Θ
Τ
( s )C Τ CΘ( t )Θ Τ ( t )bdt =
1 T T
Θ (s)C CWb.
N
Et
1 T T
Θ (s)C CWb = λξ(s) = λΘ (s)T.b
N
λ valeur propre associée à la fonction propre ξ(s). Cela signifie qu’il existe une équation matricielle pour tous les
s telle que :
1 T
C CWb = λb
N
344
(1)
JOBIM 2002
Compte tenu du fait que
∫ξ
∫ b Θ( s ) Θ( s )
T
T
2
( s )ds = 1 on a
bds = bT Wb = 1
Soit finalement u un vecteur normalisé tel que u = W1/2 b. (1) devient alors :
1
(W1/2 CTC W1/2 )u = λu.
N
L’ACPF consiste alors à :
Calculer les m éléments propres (u1 … um ) et (λ1 …λm) de la matrice Q = (W1/2 CTC W1/2 )/N
Calculer les m composantes principales ξi (s), i=1..m par ξ(s) = Θ(s)T.b.
Calculer comme en ACP classique la contribution de chaque composante principale par le rapport entre
la valeur propre correspondante et la somme des valeurs propres.
Calculer la position de chaque individu (ou courbe xi (s)) dans le système des composantes principales
par le produit Xε, ε = [ξ1 …ξm]. Si U = [u1 …um ] et B = [b1 …bm ], alors par définition F = Xε =
(CΘ)(ΘTB) = CWB = CWW-1/2 B = CW1/2 U.
Les scores de la courbe xi (s) dans le système des m composantes principales sont définies sur la ième ligne de F.
Comme en ACP classique, on se limite à m=2 ou m=3. L’éloignement d’un point par rapport à l’origine traduit
l’écart de la courbe considérée par rapport à la courbe moyenne. Le scalaire fij est le score de l’individu i par
rapport à la composante principale j.
Les intérêts de ce type d’analyse sont nombreux:
• Les comp osantes principales sont des fonctions, donnant les comportements principaux rencontrés dans
la matrice X
• Dans le cas d’analyses temporelles (i.e. les expériences sont des mesures d’un même phénomène à des
temps différents), l’ACPF permet d’analyser des données même si les mesures ne sont pas effectuées
aux mêmes instants pour chaque gène (interpolation par les fonctions de base φk )
• L’analyse donne une formulation analytique de chaque composante principale fonctionnelle, sous la
forme d’une combinaison linéaire des φk .
3
Résultats et discussion
Dans la suite, les fonctions de base φk utilisées sont les fonctions splines cubiques de Cox de Boor N3 i (s), qui
sont rapides à calculer et proposent de bonnes propriétés mathématiques, tant au niveau de la régularité que de
l'interpolation.
3.1
Données simulées
La méthode est tout d’abord testée sur des données simulées. Suivant le modèle proposé dans [13], le niveau
d'expression du gène i au temps j xij est modélisé par
xij = δij + λj (αi + βi .φ(i,j))
où
φ(i,j) = sin(2πj/8 -2πk/10)
et : αi est le niveau moyen d'expression du gène i (choisi d'après une loi normale N(0,2)), βi est l'amplitude
d'expression du gène i (tiré d'après une loi normale N(3,0.5)). La fonction φ(i,j) modélise les variations cycliques
des données. k est le numéro de la classe, et deux classes différentes auront donc un déphasage différent. λj
contrôle l'amplitude sur l'expérience j (loi normale N(3,0.5)) et δij représente une erreur expérimentale de mesure
(loi normale N(0,1)).
Nous avons généré par cette méthode une matrice X de dimension 200*10 (200 gènes et 10 expériences), et
avons classé ces données par ACPF. Les trois premières composantes principales fonctionnelles expliquent 97%
des variations des courbes, et donnent accès aux variations prédominantes dans les données. En particulier,
puisque les composantes fonctionnelles sont des courbes continues, il est possible par analyse harmonique d'en
extraire les caractéristiques principales (amplitude, période). L’analyse des plans de scores fait de plus apparaître
des regroupements nets de points autour des axes principaux fonctionnels (Fig. 1) .
La distance dans le plan des scores entre un point (i.e. une ligne de X) et l’origine traduit l’amplitude de la
variation de la courbe par rapport à la moyenne. La position de ce point par rapport à l’origine donne quant à elle
le sens de la variation par rapport à CPF considérée (signe positif si même variation, et négatif si en opposition
de phase).
JOBIM 2002
345
2
Plan CPF1/CPF2
1,5
1
0,5
0
-4
-3
-2
-1
0
1
2
3
4
-0,5
-1
-1,5
-2
-2,5
-3
FIG. 1 – Plan des scores des deux pre mières composantes principales fonctionnelles
Nous pensons, tout comme [9] que l’utilisation d’un algorithme de classification comme étape de post-traitement
des données n’est pas nécessairement obligatoire. Les auteurs de [9] ont en effet montré sur des données de cycle
cellulaire que les regroupements pertinents des lignes de X n’étaient pas nécessairement inclus dans des nuages
de points bien définis, voire que les nuages de points résultant d’une classification étaient plutôt arbitraires [4], et
qu’il était peut être plus pertinent de déterminer des relations de voisinage entre les lignes de X, ou en ce qui
nous concerne entre les points dans les plans de score (représentant les profiles des lignes de X). C’est cette
démarche que nous avons utilisé dans la suite.
0,6
0,4
2
1,5
0,2
1 CPF
1
0
0,5
0
1
2
3
4
5
6
7
8
9
10
0
-0,5
1
3
5
7
-0,2
9
-1
-0,4
-1,5
-0,6
-2
CPF1
2
CPF2
CPF3
2
2 CPF
1,5
3 CPF
1,5
1
1
0,5
0,5
0
-0,5
0
1
-0,5
3
5
7
9
1
3
5
7
9
-1
-1,5
-1
-1,5
-2
-2,5
Fig.2 : composantes principales fonctionnelles et expression des lignes dans les nuages de points : un exemple
pour chaque CPF
3.2
Données réelles : étude du cycle cellulaire de la levure Saccharomyces cerevisiae
L’objectif est maintenant pour nous d’appliquer cette méthode aux données du cycle cellulaire de la levure
Saccharomyces cerevisiae [10]. En 1998, la mise à disposition du génome de cette levure a permis de lancer des
études sur les gènes régulateurs de cycle. Des biopuces ont été utilisées pour mesurer l’abondance relative ou
absolue d’ARNm pour chaque gène à différents temps du cycle cellulaire, après que les cellules aient été
synchronisées sur un moment précis du cycle. L'ensemble des informations concernant cette étude est disponible
à l'adresse http://cellcycle-www.stanford.edu/.
Les données dont nous disposons mesurent l’expression relative d'ARNm en fonction du temps dans des cultures
cellulaires synchronisées de trois manières indépendantes :
• phéromone alpha (pour stopper les cellules MATa dans G1) : deux cycles (données temporelles toutes
les 7 minutes, pendant 119 minutes)
• élutriation centrifugée (pour obtenir de petites cellules G1) : un cycle (données temporelles toutes les 30
minutes, pendant 390 minutes)
• mutation sensible à la température, cdc15-2, qui stoppe la méiose à la température critique : 3 cycles
(données temporelles toutes les 10 minutes, pendant 290 minutes)
346
JOBIM 2002
Trois méthodes ont été utilisées car chacune introduit des artefacts propres (par exemple, un choc thermique pour
la dernière). Spellman et al. [10] ont identifié 800 gènes régulés par le cycle cellulaire, qui forment nos données
de départ.
L’application de l'ACPF sur ces gènes, décrits par les 56 expériences temporelles, prend 1 seconde sur un AMD
Athlon XP 1500+, avec 256 Mo de RAM. Les premiers résultats obtenus sont encourageants vis à vis des
données de la littérature [3][10][12], et doivent maintenant être spécifiquement analysés par des spécialistes de la
levure : par exemple, nous retrouvons une composante fonctionnelle exhibant une période de 110 minutes pour
l’expérience synchronisée avec cdc15. Il reste donc à exploiter pleinement la masse de données fournie par
l’ACPF (i.e. composantes principales fonctionnelles, analyse dans le plan des score qui donne le comportement
des gènes vis à vis du cycle…). Là encore, nous pensons d’abord utiliser des relations de voisinage dans l’espace
des scores plutôt qu’un algorithme de classification délimitant des nuages de points bien définis.
L'ACPF est une technique d'analyse du transcriptome intéressante, surtout dans le cas de l'étude de données
temporelles, puisqu'elle peut prendre en compte les cas où ces dernières sont acquises de façon irrégulière (les
données étant traitées comme des courbes continues dépendant d'un paramètre). De plus, dans le cas temporel, il
est également possible de traiter des données manquantes, lorsque celles-ci sont peu nombreuses pour un gène
donné (interpolation à l'aide des fonctions de base φk ). Tous ces aspects répondent en particulier aux problèmes
déjà soulevés quant à l'application de l'analyse en composantes principales classique pour l'étude du
transcriptome ([9]).
L'ACPF permet également de décrire de manière analytique les composantes principales fonctionnelles, par
l'intermédiaire de leur décomposition dans la base des φk . Les profils des gènes, comme les composantes
principales fonctionnelles, sont alors des courbes de la variable réelle s et peuvent être analysées par des outils
classiques (analyse harmonique, ondelettes), afin d'en extraire les paramètres caractéristiques (par exemple
fréquence de cycle cellulaire de 110 minutes obtenue sur les données de la levure).
Outre l'étude du cycle cellulaire, nous poursuivons au laboratoire l'application de l'ACPF sur d'autres données
publiques : nous menons par exemple une étude sur les données de sporulation de la levure du boulanger [4] et
les résultats sont là-aussi encourageants et en cours de publication [1].
Références
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
BARRA (V.), Analysis of gene expression data using functional principal components, Bioinformatics
(soumis )
SHAMIR (R.), YAKHINI (Z.), Clustering Gene Expression Patterns, Journal of
BEN-DOR (A.),
Computational Biology, 6, pp 281-297 , 1999.
CHO (R.J.), CAMPBELL (M.J.), W INZELER (E.A.), STEINMETZ (L.), CONWAY (A.), WODICKA (L.),
W OLFSBER (T.G.), GABRIELIAN (A.E.), LANDSMAN (D.), LOCKHART (D.J.), ET AL ., A genome-wide
transcriptional analysis of the mitotic-cell cycle, Mol Cell, 2, pp 65-73, 1998.
CHU (S.), DERISI (J.), EISEN (M.), MULHOLLAND (J.), BOTSTEIN (D.), BROWN (P.O.), HERSKOWITZ (I.),
The transcriptional program of sporulation in budding yeast, Science, 282, pp 699-705, 1998.
CRESCENZI (M.), GIULIANI (A.), The main biological determinants of tumor line taxonomy elucidated by a
principal component analysis of microarray data, FEBS Letters, 507, pp 114-118, 2001.
D’HAESELLER (P.), LIANG (J.), SOMOGYI (R.), Genetic Network inference: from co-expression clustering
to reverse engineering , Bioinformatics, 16-8, pp 707-726, 2000.
DUNTEMAN (G. H) Principal Components Analysis. Sage Publications, 1989
RAMSAY (J.), SILVERMAN (B.), Functional Data Analysis, Springer-Verlag, 1997.
RAYCHAUDHURI (S.), STUART (J.M.), ALTMAN (R. B.), Principal components analysis to summarize
microarray experiments: application to sporulation time series. In Pacific Symposium on Biocomputing,
vol. 5, 2000.
SPELLMAN (P.T.), SHERLOCK (G.), ZHANG (M.Q.), IYER (V.R.), EISEN (M..B.), BROWN (P.O.), BOTSTEIN
(D.), FUTCHER (B.), Comprehensive identification of Cell-Cycle-regulated genes of the Yeast
Saccharomyces cerevisiae by microarray hybridization, Molecular Biology of the Cell, 9, pp 3273-3297,
1998.
TAMAYO (P.), SLONIM (D.), MESIROV (J.), ZHU (Q.), KITAREEWAN (S.), DMITROVSKY (E.), LANDER (E.),
GOLUB (T.), Interpreting patterns of gene expression with self-organizing maps: Methods and application
to hematopoietic differentiation, Proc. Natl. Acad. Sci. USA, 96, pp. 2907–2912, 1999.
TAVAZOIE (S.), HUGHES (J.D.), CAMPBELL (M.J.), CHO (R.J.), CHURCH (G.M.), Systematic determination
of genetic network architecture, Nature Genetics, 22, pp 281-285, 1999.
YEUNG (K.Y.), Principal Component Analysis for clustering gene expression data, Technical Report UWCSE-2000-11-03, Department of Computer Science & Engineering, University of Washington, Seattle,
2000.
JOBIM 2002
347

Documents pareils