Le modèle de Cox dans STATISTICA
Transcription
Le modèle de Cox dans STATISTICA
Le modèle de Cox dans STATISTICA Le statisticien britannique, David Cox a présenté le modèle des risques proportionnels dans un article paru en 1972, "Modèles de Régression et Tables de Survie" dans le Journal de la Société Statistique Royale, Séries B 34 (2) : pages 187 à 220. Ce modèle statistique, le modèle des risques proportionnels de Cox, n'impose aucune forme spécifique à la fonction de survie, ce qui permet de modéliser les données censurées de façon très flexible. La principale caractéristique qui distingue l'analyse de survie des autres domaines en statistiques/data-mining tient au fait que les méthodes d'analyse de survie sont spécifiquement conçues pour traiter des données censurées. Les modèles basés sur des distributions connues du type temps à l‟échec comme les analyses Weibull sont appelés des modèles paramétriques. A l‟opposé, les modèles à risque proportionnel de Cox disposent d‟un aspect non paramètrique dans le sens où ils impliquent une fonction non spécifiée sous la forme d‟une fonction arbitraire de risque de base. Ces modèles intègrent également une modélisation paramétrique de la relation entre le taux de défaillance ou d‟échec et des covariants. Le modèle de Cox est donc une méthode de survie dite semi-paramétrique parce qu‟il n‟y a pas d‟hypothèse distributionnelle sur la fonction de risque de base. Ces modèles sont, dans leur forme générale, très souples, mais en raison de la présence de composantes non-paramétriques, requièrent des méthodes non standards pour l‟estimation et le test. Pour comprendre la méthode des risques proportionnels, tout d‟abord considérons une courbe de survie de "référence". On peut imaginer une courbe de survie d‟un sujet hypothétique "complètement moyenne" – quelqu‟un pour qui chaque prédicteur est égal à la valeur moyenne de cette variable pour le jeu complet de sujets dans l‟étude. Cette courbe de survie de base n‟a pas à avoir une représentation particulière; elle peut avoir n‟importe quelle forme à partir du moment où elle commence à 1.0 au temps 0 et descend constamment en avançant dans le temps de survie. La courbe de survie de base est ensuite systématiquement "infléchie" par les prédicteurs, tout en gardant sa forme générale. La méthode des risques proportionnels calcule un coefficient pour chaque prédicteur qui indique la direction et degré d‟inflexion du prédicteur sur la courbe de survie. Zéro signifiant qu‟une variable n‟a pas d‟effet sur la courbe – Ce n‟est pas un prédicteur; une valeur positive indiquant que des grandes valeurs sont associés à une mortalité supérieure. En connaissant ces coefficients, nous pourrons construire une courbe de survie "personnalisée" pour n‟importe quelle combinaison particulière de prédicteurs. Plus important, la méthode propose une mesure de l‟erreur d‟échantillonnage associée à chaque coefficient de prédicteur. Ce qui nous permet d‟estimer quelles coefficients de variable sont significativement différent de zéro; c‟est-à-dire: quelles variables sont significativement liées à la survie. Le modèle de Cox est préféré à la régression logistique parce que le modèle de Cox utilise l‟information des temps de survie et censure tandis que le modèle logistique, ne considère juste qu‟une sortie binaire et ignore l‟information des temps de survie et de censure. La grosse différence avec la régression logistique est le type de variable utilisé en sortie. En analyse de survie, la variable de sortie est le “délai avant manifestation,” avec l‟information de censure, mais dans la modélisation logistique, la variable de sortie est une variable dichotomique, comme oui ou non. Dans la modélisation logistique, la mesure de l‟effet est un odds ratio exprimé en termes de coefficients de régression exponentiels dans le modèle, par exemple, e à la puissance b (eb). Pour la régression de Cox, la mesure d‟effet est un ratio de risque (eb). Mais les mesures d‟effets s‟interprètent pareillement dans les deux méthodes de régression. Un ratio de risque de 1, comme un odds ratio de 1, signifie aucun effet. Un ratio de risque de 3 signifie que le groupe exposé a 3 fois plus de risque que le groupe non exposé. La fonction de risque mesure le potentiel de survenue d‟un événement à un instant t particulier, étant donné que l‟événement n‟est pas encore apparu. Une valeur de fonction de risque élevée suggère que l‟événement a de grandes chances d‟arriver. Il est noté par h(t) qui peut être estimé en utilisant l‟équation suivante : Dans le contexte du data mining et de l‟industrie des télécommunications, la „survie‟ se réfère à la rétention d‟un client tandis que la „fonction de risque‟ peut être assimilée à la probabilité qu‟un client change d‟opérateur. Analysons un modèle de Cox sur des données d‟attrition par un opérateur Internet et de téléphonie. Il existe des caractéristiques continues (mesures) et catégorielles (comportements) que nous allons interpréter à l‟aide de STATISTICA et qui nous serviront de modèle prédictif en Data Mining. Les caractéristiques démographiques La première partie de l‟étude se concentre sur des paramètres démographiques tels que l‟âge ou le lieu de résidence pouvant affecter l‟intention de changer d‟opérateur. Cette étude montre que, avec un taux de risque de 0.98 pour la variable Age, le souhait des clients pour changer d‟opérateur diminue de 2% chaque année. Pour les covariants continus une statistique plus claire est obtenue en soustrayant 1 du ratio de risque et en multipliant par 100 (soit 2% de risque par année pour la variable Age). Cela donne le changement en pourcentage estimé du risque pour l‟augmentation d‟une unité du covariant. Plus le ratio de risque est élevé moins la probabilité de survie est élevée, et vice versa. L‟autre variable démographique, c‟est-à-dire, le lieu de résidence du client, semble aussi affecter la probabilité d‟attrition. Nous avons ainsi découvert que les clients parisiens changeaient 1.5 fois plus que les provinciaux. Les caractéristiques comportementales Cette étude intègre également l‟analyse d‟effets comportementaux des clients sur le taux d‟attrition tels que la fréquence de changement de forfaits. On a ainsi découvert que les clients sont moins susceptibles de changer s‟ils ont modifié leurs forfaits durant la période d‟étude comparé à ceux qui n‟en ont pas changés. Ceux qui ont changé une fois durant la période d‟étude de 48 mois ont 22% moins de risques de changer d‟opérateur (c‟est-à-dire, 1 – ratio de risque de 0.781; P<0.001). Ainsi, ceux qui ont ajusté leurs forfait deux fois auront 40% moins de risques de changer d‟opérateur (c‟est-à-dire, 1 – taux de risque de 0.6; P<0.001). De même, les clients ont moins de risques de quitter leur opérateur s‟ils changent de téléphone. Comparé aux clients qui n‟ont pas changé, ils ont 25% moins de risques de changer (c‟est-à-dire, 1 – taux de risque de 0.75; P<0.001). Alors que ceux qui ont changé deux fois de téléphone ont tendance à avoir 41% moins de risques de quitter leur opérateur. Le taux d‟attrition est corrélé négativement à la fréquence de changement de forfait. Le modèle de Cox donnera aussi des indications sur l‟importance de bloquer les clients avec des contrats de service. Avec un ratio de risque de 0.045, ceux qui se sont engagés avec ces contrats ont 95% moins de risques de changer par rapport aux clients qui n‟ont pas de contrats. Ce résultat montre que le contrat de service peut jouer un rôle de barrière au basculement vers d‟autres opérateurs de façon efficace. Cette observation n‟est pas surprenante étant donné les frais de résiliation à payer avant le terme du contrat même s‟ils sont compensés par la récente loi Chatel qui facilite la rupture de contrat avec un opérateur. On peut donc observer que l‟adéquation du forfait est très significative (P<0.001) pour influencer l‟attrition d‟un client. Le ratio de risque est de 1.922, le plus élevé des ratios parmi toutes les variables indépendantes de cette étude. Les clients disposant de forfaits financièrement adaptés sont tracés en rouge alors que ceux non adaptés sont tracés en bleu. Cela signifie que, après ajustement des effets de toutes les autres variables (ici pour les parisiens dans la tranche d‟âge 40 à 50 ans), les clients avec des forfaits non adaptés sont 1.922 fois plus à risques que les clients aux forfaits adaptés. Le forfait adapté agissant comme le groupe de référence dans cette analyse, la fonction de survie illustre bien l‟importance d‟avoir des clients avec des forfaits adaptés. La ligne bleue inférieure correspond aux clients utilisant des forfaits non adaptés. On peut observer que ces clients ont un taux de survie beaucoup plus bas sur la période que les clients aux forfaits adaptés représentés par la ligne rouge supérieure. Notre but enfin dans une phase de déploiement sera de produire le meilleur modèle prévisionnel pour calculer les probabilités de survie prévues en fonction des prédicteurs et des durées observées à partir de nouvelles observations.