Le modèle de Cox dans STATISTICA

Transcription

Le modèle de Cox dans STATISTICA
Le modèle de Cox dans STATISTICA
Le statisticien britannique, David Cox a présenté le modèle des risques proportionnels dans
un article paru en 1972, "Modèles de Régression et Tables de Survie" dans le Journal de la
Société Statistique Royale, Séries B 34 (2) : pages 187 à 220. Ce modèle statistique, le
modèle des risques proportionnels de Cox, n'impose aucune forme spécifique à la fonction
de survie, ce qui permet de modéliser les données censurées de façon très flexible.
La principale caractéristique qui distingue l'analyse de survie des autres domaines en
statistiques/data-mining tient au fait que les méthodes d'analyse de survie sont
spécifiquement conçues pour traiter des données censurées.
Les modèles basés sur des distributions connues du type temps à l‟échec comme les
analyses Weibull sont appelés des modèles paramétriques. A l‟opposé, les modèles à risque
proportionnel de Cox disposent d‟un aspect non paramètrique dans le sens où ils impliquent
une fonction non spécifiée sous la forme d‟une fonction arbitraire de risque de base. Ces
modèles intègrent également une modélisation paramétrique de la relation entre le taux de
défaillance ou d‟échec et des covariants. Le modèle de Cox est donc une méthode de survie
dite semi-paramétrique parce qu‟il n‟y a pas d‟hypothèse distributionnelle sur la fonction de
risque de base.
Ces modèles sont, dans leur forme générale, très souples, mais en raison de la présence de
composantes non-paramétriques, requièrent des méthodes non standards pour l‟estimation
et le test.
Pour comprendre la méthode des risques
proportionnels, tout d‟abord considérons une
courbe de survie de "référence". On peut imaginer
une courbe de survie d‟un sujet hypothétique
"complètement moyenne" – quelqu‟un pour qui
chaque prédicteur est égal à la valeur moyenne de
cette variable pour le jeu complet de sujets dans
l‟étude. Cette courbe de survie de base n‟a pas à
avoir une représentation particulière; elle peut avoir
n‟importe quelle forme à partir du moment où elle
commence à 1.0 au temps 0 et descend
constamment en avançant dans le temps de
survie.
La courbe de survie de base est ensuite
systématiquement "infléchie" par les prédicteurs, tout
en gardant sa forme générale. La méthode des
risques proportionnels calcule un coefficient pour
chaque prédicteur qui indique la direction et degré
d‟inflexion du prédicteur sur la courbe de survie. Zéro
signifiant qu‟une variable n‟a pas d‟effet sur la courbe
– Ce n‟est pas un prédicteur; une valeur positive
indiquant que des grandes valeurs sont associés à
une mortalité supérieure. En connaissant ces
coefficients, nous pourrons construire une courbe de
survie "personnalisée" pour n‟importe quelle
combinaison particulière de prédicteurs. Plus
important, la méthode propose une mesure de l‟erreur d‟échantillonnage associée à chaque
coefficient de prédicteur. Ce qui nous permet d‟estimer quelles coefficients de variable sont
significativement différent de zéro; c‟est-à-dire: quelles variables sont significativement liées
à la survie.
Le modèle de Cox est préféré à la régression logistique parce que le modèle de Cox utilise
l‟information des temps de survie et censure tandis que le modèle logistique, ne considère
juste qu‟une sortie binaire et ignore l‟information des temps de survie et de censure. La
grosse différence avec la régression logistique est le type de variable utilisé en sortie. En
analyse de survie, la variable de sortie est le “délai avant manifestation,” avec l‟information
de censure, mais dans la modélisation logistique, la variable de sortie est une variable
dichotomique, comme oui ou non.
Dans la modélisation logistique, la mesure de l‟effet est un odds ratio exprimé en termes de
coefficients de régression exponentiels dans le modèle, par exemple, e à la puissance b (eb).
Pour la régression de Cox, la mesure d‟effet est un ratio de risque (eb). Mais les mesures
d‟effets s‟interprètent pareillement dans les deux méthodes de régression. Un ratio de risque
de 1, comme un odds ratio de 1, signifie aucun effet. Un ratio de risque de 3 signifie que le
groupe exposé a 3 fois plus de risque que le groupe non exposé.
La fonction de risque mesure le potentiel de survenue d‟un événement à un instant t
particulier, étant donné que l‟événement n‟est pas encore apparu. Une valeur de fonction de
risque élevée suggère que l‟événement a de grandes chances d‟arriver. Il est noté par h(t)
qui peut être estimé en utilisant l‟équation suivante :
Dans le contexte du data mining et de l‟industrie des télécommunications, la „survie‟ se
réfère à la rétention d‟un client tandis que la „fonction de risque‟ peut être assimilée à la
probabilité qu‟un client change d‟opérateur.
Analysons un modèle de Cox sur des données d‟attrition par un opérateur Internet et de
téléphonie. Il existe des caractéristiques continues (mesures) et catégorielles
(comportements) que nous allons interpréter à l‟aide de STATISTICA et qui nous serviront
de modèle prédictif en Data Mining.
Les caractéristiques démographiques
La première partie de l‟étude se concentre sur des paramètres démographiques tels que
l‟âge ou le lieu de résidence pouvant affecter l‟intention de changer d‟opérateur. Cette étude
montre que, avec un taux de risque de 0.98 pour la variable Age, le souhait des clients pour
changer d‟opérateur diminue de 2% chaque année.
Pour les covariants continus une statistique plus claire est obtenue en soustrayant 1 du ratio
de risque et en multipliant par 100 (soit 2% de risque par année pour la variable Age). Cela
donne le changement en pourcentage estimé du risque pour l‟augmentation d‟une unité du
covariant. Plus le ratio de risque est élevé moins la probabilité de survie est élevée, et vice
versa.
L‟autre variable démographique, c‟est-à-dire, le lieu de résidence du client, semble aussi
affecter la probabilité d‟attrition. Nous avons ainsi découvert que les clients parisiens
changeaient 1.5 fois plus que les provinciaux.
Les caractéristiques comportementales
Cette étude intègre également l‟analyse d‟effets comportementaux des clients sur le taux
d‟attrition tels que la fréquence de changement de forfaits. On a ainsi découvert que les
clients sont moins susceptibles de changer s‟ils ont modifié leurs forfaits durant la période
d‟étude comparé à ceux qui n‟en ont pas changés. Ceux qui ont changé une fois durant la
période d‟étude de 48 mois ont 22% moins de risques de changer d‟opérateur (c‟est-à-dire, 1
– ratio de risque de 0.781; P<0.001). Ainsi, ceux qui ont ajusté leurs forfait deux fois auront
40% moins de risques de changer d‟opérateur (c‟est-à-dire, 1 – taux de risque de 0.6;
P<0.001).
De même, les clients ont moins de risques de quitter leur opérateur s‟ils changent de
téléphone. Comparé aux clients qui n‟ont pas changé, ils ont 25% moins de risques de
changer (c‟est-à-dire, 1 – taux de risque de 0.75; P<0.001). Alors que ceux qui ont changé
deux fois de téléphone ont tendance à avoir 41% moins de risques de quitter leur opérateur.
Le taux d‟attrition est corrélé négativement à la fréquence de changement de forfait.
Le modèle de Cox donnera aussi des indications sur l‟importance de bloquer les clients avec
des contrats de service. Avec un ratio de risque de 0.045, ceux qui se sont engagés avec
ces contrats ont 95% moins de risques de changer par rapport aux clients qui n‟ont pas de
contrats. Ce résultat montre que le contrat de service peut jouer un rôle de barrière au
basculement vers d‟autres opérateurs de façon efficace. Cette observation n‟est pas
surprenante étant donné les frais de résiliation à payer avant le terme du contrat même s‟ils
sont compensés par la récente loi Chatel qui facilite la rupture de contrat avec un opérateur.
On peut donc observer que l‟adéquation du forfait est très significative (P<0.001) pour
influencer l‟attrition d‟un client. Le ratio de risque est de 1.922, le plus élevé des ratios parmi
toutes les variables indépendantes de cette étude.
Les clients disposant de forfaits financièrement
adaptés sont tracés en rouge alors que ceux
non adaptés sont tracés en bleu. Cela signifie
que, après ajustement des effets de toutes les
autres variables (ici pour les parisiens dans la
tranche d‟âge 40 à 50 ans), les clients avec des
forfaits non adaptés sont 1.922 fois plus à
risques que les clients aux
forfaits adaptés. Le forfait
adapté agissant comme le
groupe de référence dans
cette analyse, la fonction
de survie illustre bien l‟importance d‟avoir des
clients avec des forfaits adaptés. La ligne bleue inférieure correspond aux clients utilisant
des forfaits non adaptés. On peut observer que ces clients ont un taux de survie beaucoup
plus bas sur la période que les clients aux forfaits adaptés représentés par la ligne rouge
supérieure.
Notre but enfin dans une phase
de déploiement sera de produire
le meilleur modèle prévisionnel
pour calculer les probabilités de
survie prévues en fonction des
prédicteurs et des durées
observées à partir de nouvelles
observations.