1 Régression logistique base de données d`assurance véhicules

Transcription

1 Régression logistique base de données d`assurance véhicules
Université de CAEN
1
7 novembre 2010
M2-MASS Modèles de régression
Régression logistique base de données d’assurance véhicules
1.1
Description
Les données sont extraites d’une basse de données d’assurance véhicule durant une année. Chaque ligne de cette
table correspond au résumé de l’activité de chaque police d’assurance par véhicules assuré pendant cette période.
L’objectif est de prédire la probabilité d’avoir au moins un accident en fonction des covariables explicatives disponibles.
On veut donc construire un modèle de régression logistique expliquant la probabilité d’avoir au moins un accident
(variable clm) en fonction des covariables. La variable risque n’est pas une variable explicative.
Le fichier de données http://math.unicaen.fr/~kauffman/data/car.csv contient 67856+1 lignes et 11 colonnes
séparées par des virgules ”,”.
col
1
2
3
4
5
6
7
8
9
10
11
nom
value
risque
clm
nbclm
coutclm
veh
veh age
sexe
sup
age
OBSTAT
type
quanti
quanti
quali
ordinal
quanti
quali
quali
quali
quali
quali
quanti
ref
0
SEDAN
]0,1]
F
C
3
?
commentaires
montant total des remboursements en millier d’euros
taux estimé du risque d’accident pour le client
0=pas d’accidents ; 1 au moins un accident
nombre d’accidents
coût total des accidents
type de véhicule
classe d’age du véhicule 1=]0,1],2=]1,3],3=]3,8],4=]8,15]
sexe du conducteur principal
région d’habitation : urbaine, péri-urbaine,rurale,...) A à F
classe d’age 1(plus jeune) à 6
Tab. 1 – Descriptif du fichier de données
1
2
3
4
5
6
value
1.06
1.03
3.26
4.14
0.72
2.01
risque
0.30
0.65
0.57
0.32
0.65
0.85
clm
0
0
0
0
0
0
nbclm
0
0
0
0
0
0
coutclm
0.00
0.00
0.00
0.00
0.00
0.00
veh
HBACK
HBACK
UTE
STNWG
HBACK
HDTOP
veh age
3
2
2
2
4
3
sexe
F
F
F
F
F
M
sup
C
A
E
D
C
C
age
2
4
2
2
2
4
OBSTAT
01101 0 0
01101 0 0
01101 0 0
01101 0 0
01101 0 0
01101 0 0
0
0
0
0
0
0
Tab. 2 – Premières ligne de la table
Références
[1] Piet de Jong and Gillian Z. Heller. Generalized linear models for Insurance Data. Cambridge University Press,
2008.
1.2
Enoncé
1. Décrire l’ensemble des attributs X . Rappelez la définition d’un modèle additif défini sur X . Est ce qu’un modèle
additif peut avoir une infinité de degré de liberté ? Soit p ∈ N quelconque, existe t-il un modèle additif défini sur
X ayant p degré de libertés. Donnez un modèle additif défini sur X saturé.
2. Dans cette question, on construit la table de données X.
(a) Lire la table X à partir du fichier de données,
(b) Définir les facteurs, en respectant les modalités de références.
(c) Trouvez a0 = 0 < a1 · · · < a8 = 100 huit nombres réels tels que si l’on découpe la variable value en la
variable f.value en classes selon ces seuils, on ait le tableau de contingence suivant :
http ://www.math.unicaen.fr/∼kauffman/cours
1
[email protected]
Université de CAEN
7 novembre 2010
classe
[a0 , a1 ]
]a1 , a2 ]
]a2 , a3 ]
]a4 , a5 ]
]a6 , a7 ]
]a7 , a8 ]
M2-MASS Modèles de régression
f.value
54971
11439
1265
104
44
33
Est ce que les (ai )1≤i≤8 sont uniques ? Construire alors la variable f.value de la table X.
3. Dans cette question, on veut étudier le problème de la séparabilité des données. Soit Mvalue un modèle additif
défini sur Xvalue . Soit α ∈ Xvalue un élément de l’ensemble des attributs de la variable value. On note n(α) le
nombre de fois ou α a été observé dans l’échantillon et oui(α) le nombre de fois ou il y a eu au moins un accident.
(a) Exprimez la vraisemblance L(value, β) du modèle de régression logistique modélisant la probabilité d’avoir
au moins un accident, de modèle additif Mvamlue et de fonction de lien logit en fonction de l’échantillon
value = (valuei )1≤i≤n=67856 et des coefficients inconnus β ∈ M2,1 (R).
(b) Pour quelle valeur de π ∈ [0, 1] la fonction
[0, 1] →
f:
π
7−→
R
π oui(α) (1 − π)n(α)−oui(α)
est elle maximum ?
(c) Est ce que la vraisemblance de l’échantillon peut être égale à 1 ? Trouvez une condition nécessaire et
suffisante pour que
supβ L(value, β) = 1
(d) On suppose dans cette question qu’il existe α ∈ {valuei , 1 = 1..n} tel que 0 < oui(α) < n(α). Vérifiez alors
que
supβ L(value, β) < 1
En déduire que le plan d’expériences n’est pas séparé.
(e) Vérifiez que l’hypothèse est réalisée pour le plan d’expériences.
(f) Montrer que pour tout modèle additif défini Xveh
ne sera pas séparé.
age
× Xveh × Xsexe × Xsup × Xage , le plan d’expériences
(g) Vérifiez que si l’on prend un modèle additif défini sur Xnbclm considéré comme attribut qualitatif, le plan
d’expériences sera séparé.
4. Dans cette question on veut étudier des modèles additifs additifs polynomiaux Md défini sur l’ensemble d’attribut
Xvalue de degré d.
M1 ⊂ M2 ⊂ · · · ⊂ Md ⊂ Md+1 ⊂ · · · .
La figure suivante représente les crières de déviance, AIC et BIC en fonction des dll utilisés par le modèle.
http ://www.math.unicaen.fr/∼kauffman/cours
2
[email protected]
Université de CAEN
7 novembre 2010
M2-MASS Modèles de régression
deviance
aic
bic
x
x
x
x
x
x
33740
33750
x
33720
33730
criteres
33760
33770
33780
x
x
x
x
33710
x
x
2
x
x
x
x
x
x
x
x
x
x
4
6
x
x
8
x
x
x
x
10
ddl
Fig. 1 – Criteres (Mi )1≤i≤10
(a) Est que la suite des déviances des modèles Md va tend vers une limite strictement positive quand d → +∞.
(b) En déduire un comportenenmt asymptotique des critères AIC et BIC en fonction des ddl.
(c) Discuter le choix du modèle.
(d) On choisit dans cette question un modèle additif de degré 3 défini sur Xvalue .
i. Construire un modèle de régression logistique dont le modèle additif défini sur Xvalue est polynomial
de degré 3. Estimer la probabité π
b(value) d’avoir un au moins un accident en fonction de l’attribut
value.
ii. Découper en classes la variables value et calculer la frequence f requence(f.value) empirique d’avoir
au moins un accident en fonction de la classe. Puis construire la représentation graphique suivante (
uniquement les deux graphes π
b (value) et f requence(f.value).
1.0
proba( value in classe|clm)
0.8
0.6
0.5
clm
0.6
0.4
0.4
0.3
0.2
0.2
0.0
0.1
5
10
15
20
25
30
35
value
Fig. 2 – Modèle et observations
iii. Discuter, expliquer les avantages et inconvénients de ce modèle.
(e) Consruire un modèle de régression logistique dont le modèle additif est défini sur Xf.value . Tracer π
b(value).
Expliquer le tracé en escalier. Discuter les avantages et les inconvénients.
http ://www.math.unicaen.fr/∼kauffman/cours
3
[email protected]
Université de CAEN
7 novembre 2010
M2-MASS Modèles de régression
0.20
Pr([clm=1|value])
0.10
0.00
0.05
pr.pred
0.15
observation
modele degré 3
modèle quali
0
5
10
15
20
25
30
35
value
Fig. 3 – Modèles et observations
5. Dans cette question, on veut construire une table aggrégée X.agg pour chacune des clases de f.value de type
binomiale. La variable n sera le nombre de polices par ligne et clm sera le nombre de police parmi ces n polices
ayant subies au moins un accident. Les variables quantitatives t risque seront aggrégées par leurs moyennes.
1
2
3
4
5
6
f.value
[0,2.5]
[0,2.5]
[0,2.5]
[0,2.5]
[0,2.5]
[0,2.5]
age
1
1
1
1
1
1
sup
A
A
A
A
A
A
veh
BUS
CONVT
COUPE
HBACK
HDTOP
MCARA
n
2.00
1.00
18.00
554.00
19.00
3.00
clm
0
0
2
47
2
2
risque
0.44
0.08
0.33
0.46
0.52
0.69
value
1.81
1.64
1.09
1.24
1.55
2.13
Tab. 3 – Premières lignes de la table X.agg
Sélectionner alors un modèle de régression logistique défini sur les attributs de la table agrégée (hors risque)
(critères, validitéation, ROC, recherche de valeurs abérantes, résidus, ...). Interpréter et illustrer vos résultats.
http ://www.math.unicaen.fr/∼kauffman/cours
4
[email protected]

Documents pareils