1 Régression logistique base de données d`assurance véhicules

Transcription

Université de CAEN
1
7 novembre 2010
M2-MASS Modèles de régression
Régression logistique base de données d’assurance véhicules
1.1
Description
Les données sont extraites d’une basse de données d’assurance véhicule durant une année. Chaque ligne de cette
table correspond au résumé de l’activité de chaque police d’assurance par véhicules assuré pendant cette période.
L’objectif est de prédire la probabilité d’avoir au moins un accident en fonction des covariables explicatives disponibles.
On veut donc construire un modèle de régression logistique expliquant la probabilité d’avoir au moins un accident
(variable clm) en fonction des covariables. La variable risque n’est pas une variable explicative.
Le fichier de données http://math.unicaen.fr/~kauffman/data/car.csv contient 67856+1 lignes et 11 colonnes
séparées par des virgules ”,”.
col
1
2
3
4
5
6
7
8
9
10
11
nom
value
risque
clm
nbclm
coutclm
veh
veh age
sexe
sup
age
OBSTAT
type
quanti
quanti
quali
ordinal
quanti
quali
quali
quali
quali
quali
quanti
ref
0
SEDAN
]0,1]
F
C
3
?
commentaires
montant total des remboursements en millier d’euros
taux estimé du risque d’accident pour le client
0=pas d’accidents ; 1 au moins un accident
nombre d’accidents
coût total des accidents
type de véhicule
classe d’age du véhicule 1=]0,1],2=]1,3],3=]3,8],4=]8,15]
sexe du conducteur principal
région d’habitation : urbaine, péri-urbaine,rurale,...) A à F
classe d’age 1(plus jeune) à 6
Tab. 1 – Descriptif du fichier de données
1
2
3
4
5
6
value
1.06
1.03
3.26
4.14
0.72
2.01
risque
0.30
0.65
0.57
0.32
0.65
0.85
clm
0
0
0
0
0
0
nbclm
0
0
0
0
0
0
coutclm
0.00
0.00
0.00
0.00
0.00
0.00
veh
HBACK
HBACK
UTE
STNWG
HBACK
HDTOP
veh age
3
2
2
2
4
3
sexe
F
F
F
F
F
M
sup
C
A
E
D
C
C
age
2
4
2
2
2
4
OBSTAT
01101 0 0
01101 0 0
01101 0 0
01101 0 0
01101 0 0
01101 0 0
0
0
0
0
0
0
Tab. 2 – Premières ligne de la table
Références
[1] Piet de Jong and Gillian Z. Heller. Generalized linear models for Insurance Data. Cambridge University Press,
2008.
1.2
Enoncé
1. Décrire l’ensemble des attributs X . Rappelez la définition d’un modèle additif défini sur X . Est ce qu’un modèle
additif peut avoir une infinité de degré de liberté ? Soit p ∈ N quelconque, existe t-il un modèle additif défini sur
X ayant p degré de libertés. Donnez un modèle additif défini sur X saturé.
2. Dans cette question, on construit la table de données X.
(a) Lire la table X à partir du fichier de données,
(b) Définir les facteurs, en respectant les modalités de références.
(c) Trouvez a0 = 0 < a1 · · · < a8 = 100 huit nombres réels tels que si l’on découpe la variable value en la
variable f.value en classes selon ces seuils, on ait le tableau de contingence suivant :
http ://www.math.unicaen.fr/∼kauffman/cours
1
[email protected]
7 novembre 2010
classe
[a0 , a1 ]
]a1 , a2 ]
]a2 , a3 ]
]a4 , a5 ]
]a6 , a7 ]
]a7 , a8 ]
f.value
54971
11439
1265
104
44
33
Est ce que les (ai )1≤i≤8 sont uniques ? Construire alors la variable f.value de la table X.
3. Dans cette question, on veut étudier le problème de la séparabilité des données. Soit Mvalue un modèle additif
défini sur Xvalue . Soit α ∈ Xvalue un élément de l’ensemble des attributs de la variable value. On note n(α) le
nombre de fois ou α a été observé dans l’échantillon et oui(α) le nombre de fois ou il y a eu au moins un accident.
(a) Exprimez la vraisemblance L(value, β) du modèle de régression logistique modélisant la probabilité d’avoir
au moins un accident, de modèle additif Mvamlue et de fonction de lien logit en fonction de l’échantillon
value = (valuei )1≤i≤n=67856 et des coefficients inconnus β ∈ M2,1 (R).
(b) Pour quelle valeur de π ∈ [0, 1] la fonction
[0, 1] →
f:
π
7−→
R
π oui(α) (1 − π)n(α)−oui(α)
est elle maximum ?
(c) Est ce que la vraisemblance de l’échantillon peut être égale à 1 ? Trouvez une condition nécessaire et
suffisante pour que
supβ L(value, β) = 1
(d) On suppose dans cette question qu’il existe α ∈ {valuei , 1 = 1..n} tel que 0 < oui(α) < n(α). Vérifiez alors
que
supβ L(value, β) < 1
En déduire que le plan d’expériences n’est pas séparé.
(e) Vérifiez que l’hypothèse est réalisée pour le plan d’expériences.
(f) Montrer que pour tout modèle additif défini Xveh
ne sera pas séparé.
age
× Xveh × Xsexe × Xsup × Xage , le plan d’expériences
(g) Vérifiez que si l’on prend un modèle additif défini sur Xnbclm considéré comme attribut qualitatif, le plan
d’expériences sera séparé.
4. Dans cette question on veut étudier des modèles additifs additifs polynomiaux Md défini sur l’ensemble d’attribut
Xvalue de degré d.
M1 ⊂ M2 ⊂ · · · ⊂ Md ⊂ Md+1 ⊂ · · · .
La figure suivante représente les crières de déviance, AIC et BIC en fonction des dll utilisés par le modèle.
2
[email protected]
7 novembre 2010
deviance
aic
bic
x
x
x
x
x
x
33740
33750
x
33720
33730
criteres
33760
33770
33780
x
x
x
x
33710
x
x
2
x
x
x
x
x
x
x
x
x
x
4
6
x
x
8
x
x
x
x
10
ddl
Fig. 1 – Criteres (Mi )1≤i≤10
(a) Est que la suite des déviances des modèles Md va tend vers une limite strictement positive quand d → +∞.
(b) En déduire un comportenenmt asymptotique des critères AIC et BIC en fonction des ddl.
(c) Discuter le choix du modèle.
(d) On choisit dans cette question un modèle additif de degré 3 défini sur Xvalue .
i. Construire un modèle de régression logistique dont le modèle additif défini sur Xvalue est polynomial
de degré 3. Estimer la probabité π
b(value) d’avoir un au moins un accident en fonction de l’attribut
value.
ii. Découper en classes la variables value et calculer la frequence f requence(f.value) empirique d’avoir
au moins un accident en fonction de la classe. Puis construire la représentation graphique suivante (
uniquement les deux graphes π
b (value) et f requence(f.value).
1.0
proba( value in classe|clm)
0.8
0.6
0.5
clm
0.6
0.4
0.4
0.3
0.2
0.2
0.0
0.1
5
10
15
20
25
30
35
value
Fig. 2 – Modèle et observations
iii. Discuter, expliquer les avantages et inconvénients de ce modèle.
(e) Consruire un modèle de régression logistique dont le modèle additif est défini sur Xf.value . Tracer π
b(value).
Expliquer le tracé en escalier. Discuter les avantages et les inconvénients.
3
[email protected]
7 novembre 2010
0.20
Pr([clm=1|value])
0.10
0.00
0.05
pr.pred
0.15
observation
modele degré 3
modèle quali
0
5
10
15
20
25
30
35
value
Fig. 3 – Modèles et observations
5. Dans cette question, on veut construire une table aggrégée X.agg pour chacune des clases de f.value de type
binomiale. La variable n sera le nombre de polices par ligne et clm sera le nombre de police parmi ces n polices
ayant subies au moins un accident. Les variables quantitatives t risque seront aggrégées par leurs moyennes.
1
2
3
4
5
6
f.value
[0,2.5]
[0,2.5]
[0,2.5]
[0,2.5]
[0,2.5]
[0,2.5]
age
1
1
1
1
1
1
sup
A
A
A
A
A
A
veh
BUS
CONVT
COUPE
HBACK
HDTOP
MCARA
n
2.00
1.00
18.00
554.00
19.00
3.00
clm
0
0
2
47
2
2
risque
0.44
0.08
0.33
0.46
0.52
0.69
value
1.81
1.64
1.09
1.24
1.55
2.13
Tab. 3 – Premières lignes de la table X.agg
Sélectionner alors un modèle de régression logistique défini sur les attributs de la table agrégée (hors risque)
(critères, validitéation, ROC, recherche de valeurs abérantes, résidus, ...). Interpréter et illustrer vos résultats.
4
[email protected]

1 Régression logistique base de données d`assurance véhicules

Transcription

Documents pareils

facture proforma - Pierre Etchegoyen

09/04/98

Value investing : pièges et stratégie

certificat d`analyse / certificate of analysis

Solutions en performance management

ADM VALUE RECRUTE UN RESPONSABLE ADMINISTRATIF

REGLEMENT GENERAL « JEU INTERNET VIRGIN RADIO

Tocqueville Value Europe

Crediinvest SICAV International Value

Bracelet rose gratuit