Modèle de Cox-PLS : Application en transcriptomique.
Transcription
Modèle de Cox-PLS : Application en transcriptomique.
! &' (" ) *! ,!( - +!$ $ #!% 1 2! $ - #!% +!$ !" # $ % * !+ "! "! & !." $/ %& "! 3 & !." " ( "0 ( "&(!+" * "&(!+"0 * Résumé L'analyse des profils d'expression des gènes est de plus en plus utilisée pour découvrir de nouveaux marqueurs et de nouvelles cibles thérapeutiques. Elle suppose la prise en compte de l’expression de milliers de gènes en regard de seulement quelques dizaines d'individus. Prédire la probabilité de survie d'individus sur la base de leur profil transcriptomique peut devenir un outil diagnostique très utile. Le caractère hautement multi dimensionnel de ces données met à défaut les approches classiques. Le modèle de Cox-PLS, en opérant une réduction de l'espace des gènes dirigée vers l'explication de la fonction de risque, se révèle particulièrement adapté. Il permet de déterminer des signatures transcriptomiques associées à la survie, de prédire la probabilité de survie à partir de ces profils, et offre une meilleure prise en compte de la variabilité inter-individuelle en faisant passer l'ajustement du niveau phénotypique au niveau génotypique. Abstract With advances in high-density DNA microarray technology, gene expression profiling is extensively used to discover new markers and new therapeutic targets. This technique supposes to take into account the expression of thousands of genes with respect to only a limited number of patients. To predict survival probability on the basis of gene expression, signature can become a very useful diagnostic tool. In the context of highly multidimensional data the classical Cox model does not work. The Cox-PLS model by operating a dimension reduction of the genes expression space directed towards the explanation of the risk function appears particularly useful. It allows the determination of signatures of genomic expressions associated with survival, the prediction of survival probability from these profiles, and the reduction of the inter individual variability by changing the level of adjustment from a phenotypical level to a genotypical level. I.Introduction Le modèle de régression à risques proportionnels proposé par Cox en 1972 pour étudier la relation entre le temps d’apparition d’un événement et un ensemble de covariables en présence de censure est, sans conteste, le modèle le plus utilisé pour l’analyse des données de survie. Il suppose cependant comme tout modèle de régression multiple plus d’observations que de variables, des données complètes, et des variables non fortement corrélées entres elles. Ces contraintes deviennent souvent rédhibitoires dans la pratique. En particulier l'analyse des données de transcriptomique suppose la prise en compte de l’expression de milliers de gènes en regard de seulement quelques dizaines d'individus. La solution proposée est d’opérer dans un premier temps une réduction de la dimension de l’espace des gènes orientée vers l'explication de la fonction de risque. On construit ensuite un modèle de Cox sur les composantes PLS. Alizadeh et al (2000) identifièrent à partir de l'expression des gènes de 40 sujets atteints de lymphomes B à grandes cellules (DLBCL) deux sous groupes moléculaires caractérisés par des signatures d'expression génotypiques distinctes et associés à des pronostiques cliniques très différents. Reprenant ces données, et connaissant les durées de survie des sujets, on a estimé des combinaisons linéaires des gènes liées à la fonction de risque et déterminé les probabilités de survie à partir de ces profiles d'expression. On montre que ces signatures génotypiques apportent une information complémentaire à un indice de risque clinique existant. II Méthodes La méthode proposée est une association de la régression PLS (Wold, Martens, Wold 1983) avec le modèle de Cox Elle a déjà été utilisée sur des données épidémiologiques (Bastien, Tenenhaus, 2001). Sa spécificité tient dans la prise en compte de la censure dans la construction des composantes PLS. Soit X0 la matrice dont les colonnes sont formées des valeurs (log ratio) des expressions des gènes xj. On recherche successivement m composantes PLS orthogonales Th combinaisons linéaires des xj. En particulier la recherche de la hième composante PLS Th s'effectue suivant les étapes : Etape 1 : Calculer le coefficient de régression ahj de xj dans le modèle de Cox avec covariables T1, T2, …, Th-1 et xj. Etape 2 : Normer le vecteur colonne ah formé des ahj : wh = ah/||ah|| Etape 3 : Calculer le résidu Xh-1 de la régression linéaire de X sur T1,…,Th-1 Etape 4 : Calculer la composante Th = Xh-1wh/wh′wh. Etape 5 : Exprimer la composante Th en fonction de X0 : Th = La prédiction de la fonction de risque h(t) s'éffectue ensuite de façon naturelle avec le modèle de Cox en ajustant sur les composantes PLS. L'équation de régression peut aussi s'écrire en fonction des variables initiales avec des intervalles de confiance, sur les coefficients, construits par rééchantillonnage bootstrap. Le nombre de composantes PLS Th a été choisi par validation croisée en estimant pour chaque individu son score ( " à partir des coefficients du modèle avec cet individu exclu : ( " = 4 "− 2 −" ( = 4"− − " 5= 5 ) ( &5 2 et & 5 le coefficient de Tj dans la régression de 4 −" sur T1,…,Tj Cet algorithme, reprenant les principes de l'algorithme NIPALS (Wold 1966), peut aussi fonctionner en présence de données manquantes. Le modèle de Cox-PLS est un cas particulier de régression PLS linéaire généralisé (Bastien, Esposito Vinzi, Tenenhaus, 2002). Les probabilités de survie individuelles peuvent être estimées à partir des scores (Kalbfleich et Prentice, 1973). ( = ∏α 5 la probabilité de survie au temps t Soit 5 ( 5 <( " ( = ∏α 5 %" β 5 ( 5 <( la probabilité de survie au temps t pour un individu i de covariable xi L'estimateur du maximum de vraisemblance α" comme solution de : = 6 6∈7" −α" 6 ∈ (" avec α" est obtenu numériquement 6 = %6 β , Fi l'ensemble des individus décédant à ti, et R(ti) l'ensemble des individus à risque à ti. Lorsque les dates de décès sont distinctes, une solution analytique existe. Elle est donnée par − " . On retrouve l'estimateur de Kaplan-Meier lorsque xi = 0 pour α" = − " ∈ (" tous les individus. ( = ∏ 5 ( 5 <( 5 −$ 5 5 III Application Les données sont les niveaux d'expression des gènes provenant de cDNA impliquant trois formes de tumeurs : Diffuse Large B-Cell Lymphoma (DLBCL), B-Cell chronic Lymphocytic Leukemia (BCLL), et Follicular Lymphoma (FL). Les cibles de cDNA ont été préparées à partir d'échantillons expérimentaux d'ARN messager.(mRNA) et labellés avec Cy5 durant la phase de transcription inverse. Un échantillon de cDNA de référence a été préparé à partir d'une combinaison de neuf lignées cellulaires différentes de lymphomes et a été labellé avec Cy3. Les cDna expérimentaux et de référence ont ensuite été mixés et hybridés sur les biopuces. Le ratio d'intensité de fluorescence a été quantifié pour chaque gène,.il reflète la relative abondance du gène dans chaque échantillon expérimental de mRNA par rapport à l'échantillon de référence. En utilisant une CAH , Alizadeh et al. ont identifié deux sous-groupes de DLBCL présentant des profils transcriptomiques différents, indicatifs de niveaux distincts de différentiation des lymphocytes B : Germinal Centre B-like (GC) (19 patients) et Activated B-like (AC) (21 patients). En complément des données d'expression des gènes, la durée de survie des patients a aussi été recueillie. Parmi les 40 patients on a observé 22 évènements (décès), les 18 durées de survie restantes étant censurées. Les patients associés a une DLBCL de type Germinal center B-like ont une survie significativement meilleure en moyenne que ceux de type Activated B-like comme le montre le graphique ci-dessous. La classification moléculaire des tumeurs sur la base de leur profil transcriptomique a ainsi permis de mettre en évidence des sous-types de cancer jusqu'alors non identifiés. Graphique 1 : Estimation de Kaplan-Meier des courbes de survie par type moléculaire Kaplan-Meier Survival Estimate 1.0 Logrank p=0.01 .8 .6 GROUP .4 Probability Activated .2 Germinal Center 0.0 0 20 40 60 80 100 120 140 Time (Months) IV Résultats Sur plus de 13000 gènes, 1800 ont été selectionnés pour avoir entre les deux types moléculaires des expressions différentiées (ttest, p< 0.05). Nous avons retenu deux composantes PLS par cross-validation. Le graphique ci-dessous présente les coefficients du modèle de Cox sur les deux composantes PLS exprimées en fonction des données initiales (log ratio). Les intervalles de confiance ont été estimés par rééchantillonnage bootstrap (balanced bootstrap, N=100). Les coefficients ont été classés par valeurs croissantes. Pour simplifier les composantes PLS, seuls les gènes ayant une contribution significative au seuil de 5% ont été pris en compte ce qui explique la nette séparation de part et d'autre de l'axe des ordonnés. Graphique 2 : Intervalles de confiance bootstrap des coefficients associés aux gènes .10 .08 .06 .04 .02 -.00 Mean +- 2 SD -.02 -.04 -.06 -.08 -.10 Genes Le graphique suivant présente les distributions individuelles, en rouge pour les patients de type Activated B-like et en bleu pour ceux de type Germinal center B-like Les lettres représentent les distributions moyennes par type moléculaire. Les distributions ont été estimées par cross-validation avec deux composantes PLS. Graphique 3 : Courbes de survie estimées par validation croisée En se basant sur les log ratio d’expression, on retrouve, pour les niveaux moyens des composantes PLS, des courbes de survie avec des pronostiques plus marqués entre les deux types moléculaires que ne le montrait les estimations de Kaplan-Meier basées sur la survie uniquement. Les signatures transcriptomiques des deux types moléculaires apparaissent bien associées à des pronostiques différents, avec seulement de rares chevauchements. International Prognostic indicator (IPI) Un index clinique pronostique de 0 à 5 est utilisé pour définir des sous-groupes de patients atteints de DLBCL. Les sujets du groupe à scores IPI faibles (0-2) ont un meilleur pronostique que ceux ayant un score élevé (3-5). Alizadeh et al. ont montré que dans le groupe à risque faible, les patients présentant un profil transcriptomique de type Germinal center B-like avaient un pronostique significativement meilleur (Logrank, p<0.05) que ceux de type Activated B-like. Ils n'ont pas observé d'effet similaire dans le groupe à haut risque (p=0.55). Le modèle de Cox-PLS sur le groupe à haut risque prenant en compte l'information transcriptomique est plus sélectif et permet de différencier les deux types cellulaires. Le graphique ci-dessous présente les distributions de survie individuelles estimées par cross-validation. Graphique 4 : Courbes de survie estimées par validation croisée pour le groupe à haut risque V Discussion L'analyse des profils transcriptomiques est de plus en plus utilisée pour découvrir de nouveaux marqueurs et de nouvelles cibles thérapeutiques. Elle suppose la prise en compte de l’expression de milliers de gènes en regard de seulement quelques dizaines d'individus. Prédire la probabilité de survie d'individus sur la base de leur profil transcriptomique peut devenir un outil diagnostique très utile. Le caractère hautement multi dimensionnel de ces données met à défaut les approches classiques. Récemment Nguyen et Rocke (2002) ont montré sur l'exemple d'Alizadeh et al. l'utilisation de composantes PLS comme covariables pour prédire les probabilités de survie dans un modèle de Cox. Leur modèle n'est cependant pas complètement satisfaisant dans la mesure ou il ne prend pas en compte la censure dans l'estimation des composantes PLS, induisant ainsi un biais dans leur estimation. Le modèle de Cox-PLS, en opérant une réduction de l'espace des données transcriptomiques dirigée vers l'explication de la fonction de risque, se révèle particulièrement adapté. Il permet de déterminer des signatures d'expression génique associées à la survie, de prédire la probabilité de survie à partir de ces profils, et offre une meilleur prise en compte de la variabilité inter-individuelle en faisant passer l'ajustement du niveau phénotypique au niveau génotypique. Cela pourrait permettre d'améliorer l'évaluation de l'efficacité de nouveaux traitements par une meilleur charactérisation des groupes de patients. VI Bibliographie [1] Allison, Paul D. (1995) : Survival Analysis Using the SAS System : A practical guide, SAS Inc, Cary, NC. [2] Alizadeh,A.A. et al.(2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profile. Nature,403, 503-511. [3] Bastien P., Tenenhaus M. (2001) : PLS generalized linear regression. Application to the analysis of life time data. In PLS and Related Methods, Proceedings of the PLS'01 International Symposium, Esposito Vinzi V., Lauro C., Morineau A. & Tenenhaus M. (Eds). CISIA-CERESTA Editeur, Paris, p. 131-140. [4] Bastien P.,Esposito Vinzi V., Tenenhaus M (2002)., Régression linéaire généralisée PLS, HEC Research Papers Series, n° 766/20002, HEC School of Business and Management, Jouy-enJosas, France [5] Cox, D.R. (1972), Regression models and life tables (with discussion). Journal of the Royal Statistical Society, B, 74, 187-220. [6] Efron B., Tibshirani R.J. (1993) – An introduction to the Bootstrap. Chapman and Hall, New York. [7] Kalbfleich J.D. and Prentice R.L. (1973) Marginal Likelihoods based on Cox’s regression and life model. Biometrika, 60, 267-278. [8] Nguyen D.V. and Rocke D. (2001) Partial least squares proportional hazard regression for application to DNA microarray survival data, Bioinformatics, 18, 1625-1632. [9] Tenenhaus M. (1998) : La régression PLS. Technip, Paris [10] Wold S., Martens & Wold H. (1983) : The multivariate calibration problem in chemistry solved by the PLS method. In Proc. Conf. Matrix Pencils, Ruhe A. & Kåstrøm B. (Eds), March 1982, Lecture Notes in Mathematics, Springer Verlag, Heidelberg, p. 286-293. [11] Wold H.,(1966) : Estimation of principal components and related models by iterative least squares, in Multivariate Analysis, Krishnaiah P.R.(Ed.), Academic Press, New York, pp. 391-420.