Modèle de Cox-PLS : Application en transcriptomique.

Transcription

Modèle de Cox-PLS : Application en transcriptomique.
!
&' (" )
*!
,!(
- +!$ $ #!%
1 2! $ - #!% +!$
!" # $ %
* !+
"!
"!
& !." $/ %&
"!
3
& !." "
(
"0 (
"&(!+" *
"&(!+"0 *
Résumé
L'analyse des profils d'expression des gènes est de plus en plus utilisée pour
découvrir de nouveaux marqueurs et de nouvelles cibles thérapeutiques. Elle
suppose la prise en compte de l’expression de milliers de gènes en regard de
seulement quelques dizaines d'individus. Prédire la probabilité de survie d'individus
sur la base de leur profil transcriptomique peut devenir un outil diagnostique très
utile. Le caractère hautement multi dimensionnel de ces données met à défaut les
approches classiques. Le modèle de Cox-PLS, en opérant une réduction de l'espace
des gènes dirigée vers l'explication de la fonction de risque, se révèle
particulièrement adapté. Il permet de déterminer des signatures transcriptomiques
associées à la survie, de prédire la probabilité de survie à partir de ces profils, et
offre une meilleure prise en compte de la variabilité inter-individuelle en faisant
passer l'ajustement du niveau phénotypique au niveau génotypique.
Abstract
With advances in high-density DNA microarray technology, gene expression profiling
is extensively used to discover new markers and new therapeutic targets. This
technique supposes to take into account the expression of thousands of genes with
respect to only a limited number of patients. To predict survival probability on the
basis of gene expression, signature can become a very useful diagnostic tool. In the
context of highly multidimensional data the classical Cox model does not work. The
Cox-PLS model by operating a dimension reduction of the genes expression space
directed towards the explanation of the risk function appears particularly useful. It
allows the determination of signatures of genomic expressions associated with
survival, the prediction of survival probability from these profiles, and the reduction of
the inter individual variability by changing the level of adjustment from a phenotypical
level to a genotypical level.
I.Introduction
Le modèle de régression à risques proportionnels proposé par Cox en 1972 pour
étudier la relation entre le temps d’apparition d’un événement et un ensemble de
covariables en présence de censure est, sans conteste, le modèle le plus utilisé pour
l’analyse des données de survie. Il suppose cependant comme tout modèle de
régression multiple plus d’observations que de variables, des données complètes, et
des variables non fortement corrélées entres elles. Ces contraintes deviennent
souvent rédhibitoires dans la pratique. En particulier l'analyse des données de
transcriptomique suppose la prise en compte de l’expression de milliers de gènes en
regard de seulement quelques dizaines d'individus. La solution proposée est d’opérer
dans un premier temps une réduction de la dimension de l’espace des gènes
orientée vers l'explication de la fonction de risque. On construit ensuite un modèle de
Cox sur les composantes PLS.
Alizadeh et al (2000) identifièrent à partir de l'expression des gènes de 40 sujets
atteints de lymphomes B à grandes cellules (DLBCL) deux sous groupes
moléculaires caractérisés par des signatures d'expression génotypiques distinctes et
associés à des pronostiques cliniques très différents. Reprenant ces données, et
connaissant les durées de survie des sujets, on a estimé des combinaisons linéaires
des gènes liées à la fonction de risque et déterminé les probabilités de survie à partir
de ces profiles d'expression. On montre que ces signatures génotypiques apportent
une information complémentaire à un indice de risque clinique existant.
II Méthodes
La méthode proposée est une association de la régression PLS (Wold, Martens,
Wold 1983) avec le modèle de Cox Elle a déjà été utilisée sur des données
épidémiologiques (Bastien, Tenenhaus, 2001). Sa spécificité tient dans la prise en
compte de la censure dans la construction des composantes PLS.
Soit X0 la matrice dont les colonnes sont formées des valeurs (log ratio) des
expressions des gènes xj. On recherche successivement m composantes PLS
orthogonales Th combinaisons linéaires des xj. En particulier la recherche de la hième composante PLS Th s'effectue suivant les étapes :
Etape 1 : Calculer le coefficient de régression ahj de xj dans le modèle de Cox avec
covariables T1, T2, …, Th-1 et xj.
Etape 2 : Normer le vecteur colonne ah formé des ahj : wh = ah/||ah||
Etape 3 : Calculer le résidu Xh-1 de la régression linéaire de X sur T1,…,Th-1
Etape 4 : Calculer la composante Th = Xh-1wh/wh′wh.
Etape 5 : Exprimer la composante Th en fonction de X0 : Th =
La prédiction de la fonction de risque h(t) s'éffectue ensuite de façon naturelle avec
le modèle de Cox en ajustant sur les composantes PLS. L'équation de régression
peut aussi s'écrire en fonction des variables initiales avec des intervalles de
confiance, sur les coefficients, construits par rééchantillonnage bootstrap. Le nombre
de composantes PLS Th a été choisi par validation croisée en estimant pour chaque
individu son score ( " à partir des coefficients du modèle avec cet individu exclu :
( " = 4 "− 2
−"
(
= 4"−
−
"
5= 5
)
( &5 2
et & 5 le coefficient de Tj dans la régression de
4 −" sur T1,…,Tj
Cet algorithme, reprenant les principes de l'algorithme NIPALS (Wold 1966), peut
aussi fonctionner en présence de données manquantes. Le modèle de Cox-PLS est
un cas particulier de régression PLS linéaire généralisé (Bastien, Esposito Vinzi,
Tenenhaus, 2002).
Les probabilités de survie individuelles peuvent être estimées à partir des scores
(Kalbfleich et Prentice, 1973).
( = ∏α 5 la probabilité de survie au temps t
Soit
5 ( 5 <(
"
( = ∏α 5
%" β
5 ( 5 <(
la probabilité de survie au temps t pour un individu i de
covariable xi
L'estimateur du maximum de vraisemblance α"
comme solution de :
=
6
6∈7"
−α" 6
∈ ("
avec
α" est obtenu numériquement
6
=
%6 β , Fi l'ensemble des
individus décédant à ti, et R(ti) l'ensemble des individus à risque à ti. Lorsque les
dates de décès sont distinctes, une solution analytique existe. Elle est donnée par
−
"
. On retrouve l'estimateur de Kaplan-Meier lorsque xi = 0 pour
α" = − "
∈ ("
tous les individus.
( =
∏
5 ( 5 <(
5
−$ 5
5
III Application
Les données sont les niveaux d'expression des gènes provenant de cDNA impliquant
trois formes de tumeurs : Diffuse Large B-Cell Lymphoma (DLBCL), B-Cell chronic
Lymphocytic Leukemia (BCLL), et Follicular Lymphoma (FL). Les cibles de cDNA ont
été préparées à partir d'échantillons expérimentaux d'ARN messager.(mRNA) et
labellés avec Cy5 durant la phase de transcription inverse. Un échantillon de cDNA
de référence a été préparé à partir d'une combinaison de neuf lignées cellulaires
différentes de lymphomes et a été labellé avec Cy3. Les cDna expérimentaux et de
référence ont ensuite été mixés et hybridés sur les biopuces. Le ratio d'intensité de
fluorescence a été quantifié pour chaque gène,.il reflète la relative abondance du
gène dans chaque échantillon expérimental de mRNA par rapport à l'échantillon de
référence.
En utilisant une CAH , Alizadeh et al. ont identifié deux sous-groupes de DLBCL
présentant des profils transcriptomiques différents, indicatifs de niveaux distincts de
différentiation des lymphocytes B : Germinal Centre B-like (GC) (19 patients) et
Activated B-like (AC) (21 patients). En complément des données d'expression des
gènes, la durée de survie des patients a aussi été recueillie. Parmi les 40 patients on
a observé 22 évènements (décès), les 18 durées de survie restantes étant
censurées. Les patients associés a une DLBCL de type Germinal center B-like ont
une survie significativement meilleure en moyenne que ceux de type Activated B-like
comme le montre le graphique ci-dessous. La classification moléculaire des tumeurs
sur la base de leur profil transcriptomique a ainsi permis de mettre en évidence des
sous-types de cancer jusqu'alors non identifiés.
Graphique
1 : Estimation
de Kaplan-Meier
des courbes de survie par type moléculaire
Kaplan-Meier
Survival
Estimate
1.0
Logrank p=0.01
.8
.6
GROUP
.4
Probability
Activated
.2
Germinal Center
0.0
0
20
40
60
80
100
120
140
Time (Months)
IV Résultats
Sur plus de 13000 gènes, 1800 ont été selectionnés pour avoir entre les deux types
moléculaires des expressions différentiées (ttest, p< 0.05). Nous avons retenu deux
composantes PLS par cross-validation. Le graphique ci-dessous présente les
coefficients du modèle de Cox sur les deux composantes PLS exprimées en fonction
des données initiales (log ratio). Les intervalles de confiance ont été estimés par
rééchantillonnage bootstrap (balanced bootstrap, N=100). Les coefficients ont été
classés par valeurs croissantes. Pour simplifier les composantes PLS, seuls les
gènes ayant une contribution significative au seuil de 5% ont été pris en compte ce
qui explique la nette séparation de part et d'autre de l'axe des ordonnés.
Graphique 2 : Intervalles de confiance bootstrap des coefficients associés aux gènes
.10
.08
.06
.04
.02
-.00
Mean +- 2 SD
-.02
-.04
-.06
-.08
-.10
Genes
Le graphique suivant présente les distributions individuelles, en rouge pour les
patients de type Activated B-like et en bleu pour ceux de type Germinal center B-like
Les lettres représentent les distributions moyennes par type moléculaire. Les
distributions ont été estimées par cross-validation avec deux composantes PLS.
Graphique 3 : Courbes de survie estimées par validation croisée
En se basant sur les log ratio d’expression, on retrouve, pour les niveaux moyens
des composantes PLS, des courbes de survie avec des pronostiques plus marqués
entre les deux types moléculaires que ne le montrait les estimations de Kaplan-Meier
basées sur la survie uniquement. Les signatures transcriptomiques des deux types
moléculaires apparaissent bien associées à des pronostiques différents, avec
seulement de rares chevauchements.
International Prognostic indicator (IPI)
Un index clinique pronostique de 0 à 5 est utilisé pour définir des sous-groupes de
patients atteints de DLBCL. Les sujets du groupe à scores IPI faibles (0-2) ont un
meilleur pronostique que ceux ayant un score élevé (3-5). Alizadeh et al. ont montré
que dans le groupe à risque faible, les patients présentant un profil transcriptomique
de type Germinal center B-like avaient un pronostique significativement meilleur
(Logrank, p<0.05) que ceux de type Activated B-like. Ils n'ont pas observé d'effet
similaire dans le groupe à haut risque (p=0.55). Le modèle de Cox-PLS sur le groupe
à haut risque prenant en compte l'information transcriptomique est plus sélectif et
permet de différencier les deux types cellulaires. Le graphique ci-dessous présente
les distributions de survie individuelles estimées par cross-validation.
Graphique 4 : Courbes de survie estimées par validation croisée pour le groupe à haut risque
V Discussion
L'analyse des profils transcriptomiques est de plus en plus utilisée pour découvrir de
nouveaux marqueurs et de nouvelles cibles thérapeutiques. Elle suppose la prise en
compte de l’expression de milliers de gènes en regard de seulement quelques
dizaines d'individus. Prédire la probabilité de survie d'individus sur la base de leur
profil transcriptomique peut devenir un outil diagnostique très utile. Le caractère
hautement multi dimensionnel de ces données met à défaut les approches
classiques.
Récemment Nguyen et Rocke (2002) ont montré sur l'exemple d'Alizadeh et al.
l'utilisation de composantes PLS comme covariables pour prédire les probabilités de
survie dans un modèle de Cox. Leur modèle n'est cependant pas complètement
satisfaisant dans la mesure ou il ne prend pas en compte la censure dans
l'estimation des composantes PLS, induisant ainsi un biais dans leur estimation.
Le modèle de Cox-PLS, en opérant une réduction de l'espace des données
transcriptomiques dirigée vers l'explication de la fonction de risque, se révèle
particulièrement adapté. Il permet de déterminer des signatures d'expression
génique associées à la survie, de prédire la probabilité de survie à partir de ces
profils, et offre une meilleur prise en compte de la variabilité inter-individuelle en
faisant passer l'ajustement du niveau phénotypique au niveau génotypique. Cela
pourrait permettre d'améliorer l'évaluation de l'efficacité de nouveaux traitements par
une meilleur charactérisation des groupes de patients.
VI Bibliographie
[1] Allison, Paul D. (1995) : Survival Analysis Using the SAS System : A practical guide, SAS Inc,
Cary, NC.
[2] Alizadeh,A.A. et al.(2000). Distinct types of diffuse large B-cell lymphoma identified by gene
expression profile. Nature,403, 503-511.
[3] Bastien P., Tenenhaus M. (2001) : PLS generalized linear regression. Application to the analysis
of life time data. In PLS and Related Methods, Proceedings of the PLS'01 International
Symposium, Esposito Vinzi V., Lauro C., Morineau A. & Tenenhaus M. (Eds). CISIA-CERESTA
Editeur, Paris, p. 131-140.
[4] Bastien P.,Esposito Vinzi V., Tenenhaus M (2002)., Régression linéaire généralisée PLS, HEC
Research Papers Series, n° 766/20002, HEC School of Business and Management, Jouy-enJosas, France
[5] Cox, D.R. (1972), Regression models and life tables (with discussion). Journal of the Royal
Statistical Society, B, 74, 187-220.
[6] Efron B., Tibshirani R.J. (1993) – An introduction to the Bootstrap. Chapman and Hall, New York.
[7] Kalbfleich J.D. and Prentice R.L. (1973) Marginal Likelihoods based on Cox’s regression and life
model. Biometrika, 60, 267-278.
[8] Nguyen D.V. and Rocke D. (2001) Partial least squares proportional hazard regression for
application to DNA microarray survival data, Bioinformatics, 18, 1625-1632.
[9] Tenenhaus M. (1998) : La régression PLS. Technip, Paris
[10] Wold S., Martens & Wold H. (1983) : The multivariate calibration problem in chemistry solved by
the PLS method. In Proc. Conf. Matrix Pencils, Ruhe A. & Kåstrøm B. (Eds), March 1982, Lecture
Notes in Mathematics, Springer Verlag, Heidelberg, p. 286-293.
[11] Wold H.,(1966) : Estimation of principal components and related models by iterative least squares,
in Multivariate Analysis, Krishnaiah P.R.(Ed.), Academic Press, New York, pp. 391-420.

Documents pareils