1 Régression logistique base de données d`assurance véhicules
Transcription
1 Régression logistique base de données d`assurance véhicules
Université de CAEN 1 7 novembre 2010 M2-MASS Modèles de régression Régression logistique base de données d’assurance véhicules 1.1 Description Les données sont extraites d’une basse de données d’assurance véhicule durant une année. Chaque ligne de cette table correspond au résumé de l’activité de chaque police d’assurance par véhicules assuré pendant cette période. L’objectif est de prédire la probabilité d’avoir au moins un accident en fonction des covariables explicatives disponibles. On veut donc construire un modèle de régression logistique expliquant la probabilité d’avoir au moins un accident (variable clm) en fonction des covariables. La variable risque n’est pas une variable explicative. Le fichier de données http://math.unicaen.fr/~kauffman/data/car.csv contient 67856+1 lignes et 11 colonnes séparées par des virgules ”,”. col 1 2 3 4 5 6 7 8 9 10 11 nom value risque clm nbclm coutclm veh veh age sexe sup age OBSTAT type quanti quanti quali ordinal quanti quali quali quali quali quali quanti ref 0 SEDAN ]0,1] F C 3 ? commentaires montant total des remboursements en millier d’euros taux estimé du risque d’accident pour le client 0=pas d’accidents ; 1 au moins un accident nombre d’accidents coût total des accidents type de véhicule classe d’age du véhicule 1=]0,1],2=]1,3],3=]3,8],4=]8,15] sexe du conducteur principal région d’habitation : urbaine, péri-urbaine,rurale,...) A à F classe d’age 1(plus jeune) à 6 Tab. 1 – Descriptif du fichier de données 1 2 3 4 5 6 value 1.06 1.03 3.26 4.14 0.72 2.01 risque 0.30 0.65 0.57 0.32 0.65 0.85 clm 0 0 0 0 0 0 nbclm 0 0 0 0 0 0 coutclm 0.00 0.00 0.00 0.00 0.00 0.00 veh HBACK HBACK UTE STNWG HBACK HDTOP veh age 3 2 2 2 4 3 sexe F F F F F M sup C A E D C C age 2 4 2 2 2 4 OBSTAT 01101 0 0 01101 0 0 01101 0 0 01101 0 0 01101 0 0 01101 0 0 0 0 0 0 0 0 Tab. 2 – Premières ligne de la table Références [1] Piet de Jong and Gillian Z. Heller. Generalized linear models for Insurance Data. Cambridge University Press, 2008. 1.2 Enoncé 1. Décrire l’ensemble des attributs X . Rappelez la définition d’un modèle additif défini sur X . Est ce qu’un modèle additif peut avoir une infinité de degré de liberté ? Soit p ∈ N quelconque, existe t-il un modèle additif défini sur X ayant p degré de libertés. Donnez un modèle additif défini sur X saturé. 2. Dans cette question, on construit la table de données X. (a) Lire la table X à partir du fichier de données, (b) Définir les facteurs, en respectant les modalités de références. (c) Trouvez a0 = 0 < a1 · · · < a8 = 100 huit nombres réels tels que si l’on découpe la variable value en la variable f.value en classes selon ces seuils, on ait le tableau de contingence suivant : http ://www.math.unicaen.fr/∼kauffman/cours 1 [email protected] Université de CAEN 7 novembre 2010 classe [a0 , a1 ] ]a1 , a2 ] ]a2 , a3 ] ]a4 , a5 ] ]a6 , a7 ] ]a7 , a8 ] M2-MASS Modèles de régression f.value 54971 11439 1265 104 44 33 Est ce que les (ai )1≤i≤8 sont uniques ? Construire alors la variable f.value de la table X. 3. Dans cette question, on veut étudier le problème de la séparabilité des données. Soit Mvalue un modèle additif défini sur Xvalue . Soit α ∈ Xvalue un élément de l’ensemble des attributs de la variable value. On note n(α) le nombre de fois ou α a été observé dans l’échantillon et oui(α) le nombre de fois ou il y a eu au moins un accident. (a) Exprimez la vraisemblance L(value, β) du modèle de régression logistique modélisant la probabilité d’avoir au moins un accident, de modèle additif Mvamlue et de fonction de lien logit en fonction de l’échantillon value = (valuei )1≤i≤n=67856 et des coefficients inconnus β ∈ M2,1 (R). (b) Pour quelle valeur de π ∈ [0, 1] la fonction [0, 1] → f: π 7−→ R π oui(α) (1 − π)n(α)−oui(α) est elle maximum ? (c) Est ce que la vraisemblance de l’échantillon peut être égale à 1 ? Trouvez une condition nécessaire et suffisante pour que supβ L(value, β) = 1 (d) On suppose dans cette question qu’il existe α ∈ {valuei , 1 = 1..n} tel que 0 < oui(α) < n(α). Vérifiez alors que supβ L(value, β) < 1 En déduire que le plan d’expériences n’est pas séparé. (e) Vérifiez que l’hypothèse est réalisée pour le plan d’expériences. (f) Montrer que pour tout modèle additif défini Xveh ne sera pas séparé. age × Xveh × Xsexe × Xsup × Xage , le plan d’expériences (g) Vérifiez que si l’on prend un modèle additif défini sur Xnbclm considéré comme attribut qualitatif, le plan d’expériences sera séparé. 4. Dans cette question on veut étudier des modèles additifs additifs polynomiaux Md défini sur l’ensemble d’attribut Xvalue de degré d. M1 ⊂ M2 ⊂ · · · ⊂ Md ⊂ Md+1 ⊂ · · · . La figure suivante représente les crières de déviance, AIC et BIC en fonction des dll utilisés par le modèle. http ://www.math.unicaen.fr/∼kauffman/cours 2 [email protected] Université de CAEN 7 novembre 2010 M2-MASS Modèles de régression deviance aic bic x x x x x x 33740 33750 x 33720 33730 criteres 33760 33770 33780 x x x x 33710 x x 2 x x x x x x x x x x 4 6 x x 8 x x x x 10 ddl Fig. 1 – Criteres (Mi )1≤i≤10 (a) Est que la suite des déviances des modèles Md va tend vers une limite strictement positive quand d → +∞. (b) En déduire un comportenenmt asymptotique des critères AIC et BIC en fonction des ddl. (c) Discuter le choix du modèle. (d) On choisit dans cette question un modèle additif de degré 3 défini sur Xvalue . i. Construire un modèle de régression logistique dont le modèle additif défini sur Xvalue est polynomial de degré 3. Estimer la probabité π b(value) d’avoir un au moins un accident en fonction de l’attribut value. ii. Découper en classes la variables value et calculer la frequence f requence(f.value) empirique d’avoir au moins un accident en fonction de la classe. Puis construire la représentation graphique suivante ( uniquement les deux graphes π b (value) et f requence(f.value). 1.0 proba( value in classe|clm) 0.8 0.6 0.5 clm 0.6 0.4 0.4 0.3 0.2 0.2 0.0 0.1 5 10 15 20 25 30 35 value Fig. 2 – Modèle et observations iii. Discuter, expliquer les avantages et inconvénients de ce modèle. (e) Consruire un modèle de régression logistique dont le modèle additif est défini sur Xf.value . Tracer π b(value). Expliquer le tracé en escalier. Discuter les avantages et les inconvénients. http ://www.math.unicaen.fr/∼kauffman/cours 3 [email protected] Université de CAEN 7 novembre 2010 M2-MASS Modèles de régression 0.20 Pr([clm=1|value]) 0.10 0.00 0.05 pr.pred 0.15 observation modele degré 3 modèle quali 0 5 10 15 20 25 30 35 value Fig. 3 – Modèles et observations 5. Dans cette question, on veut construire une table aggrégée X.agg pour chacune des clases de f.value de type binomiale. La variable n sera le nombre de polices par ligne et clm sera le nombre de police parmi ces n polices ayant subies au moins un accident. Les variables quantitatives t risque seront aggrégées par leurs moyennes. 1 2 3 4 5 6 f.value [0,2.5] [0,2.5] [0,2.5] [0,2.5] [0,2.5] [0,2.5] age 1 1 1 1 1 1 sup A A A A A A veh BUS CONVT COUPE HBACK HDTOP MCARA n 2.00 1.00 18.00 554.00 19.00 3.00 clm 0 0 2 47 2 2 risque 0.44 0.08 0.33 0.46 0.52 0.69 value 1.81 1.64 1.09 1.24 1.55 2.13 Tab. 3 – Premières lignes de la table X.agg Sélectionner alors un modèle de régression logistique défini sur les attributs de la table agrégée (hors risque) (critères, validitéation, ROC, recherche de valeurs abérantes, résidus, ...). Interpréter et illustrer vos résultats. http ://www.math.unicaen.fr/∼kauffman/cours 4 [email protected]