Lele - MASTAT

Transcription

Lele - MASTAT
i
ANALYSE STATISTIQUE DES TARIFS DES GARANTIES DOMMAGES
EN ASSURANCES AUTOMOBILE : CAS DE CHANAS ASSURANCES S.A
Mémoire
présenté et soutenu en vue de l’obtention du Diplôme de Master de Statistique Appliquée.
Par :
LELE SIAKA HERNANDEZ
Maître ès Sciences
Sous la supervision du :
Dr. Eugène-Patrice NDONG NGUEMA
Enseignant à l’ENSP de Yaoundé
M. Guy Florent NLOM NSHOUANGUELE
Responsable Département Technique et Courtage à Chanas Assurances s.a
&
M. Albert KATSI
Consultant à Chanas Assurances s.a
Année académique 2011/2012
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Dédicace
Je dédie ce travail à mes parents M. & Mme SIAKA
ii
Remerciements
La réalisation de ce travail a été possible grâce à Dieu le père tout puissant et au concours
de nombreuses personnes auxquelles nous témoignons ici notre gratitude. Nous pensons au :
– Pr Henri GWET, responsable du master de statistique appliquée et Chef de Département de Sciences Physiques et de Mathématiques de l’Ecole Nationale Supérieure
Polytechnique ;
– Le Corps enseignant de Master de Statistique Appliquée pour leur encadrement et leur
dévouement tout au long de notre formation. Particulièrement le Dr. Eugène-Patrice
NDONG NGUEMA, le Dr. Jacques TAGOUDJEU, le Dr. TEWA, et le Dr.
VERZELEN.
Nous remercions également :
– Mme Jacqueline CASALEGNO, Président Directeur Général de Chanas Assurances s.a qui nous a donné la possibilité de faire ce stage académique dans sa société ;
– M. Martin ABEGA, Secrétaire Général de Chanas Assurances s.a. Pour tout son
soutien et ses conseils ;
– M. Laurent MOUGNOL, Directeur de la Direction Technique, pour ses nombreux
conseils et son apport dans la mise en oeuvre de ce mémoire ;
– M. Guy Florent NLOM, l’encadreur professionnel, pour sa disponibilité et son
apport technique pour la mise en oeuvre de ce mémoire ;
– Tout le personnel de la Direction Technique ;
– M. Barnabas FAMI, Directeur de la Direction Informatique, ses collaborateurs M.
Serge BIKANDA & M. Olivier NJINGA et tout le reste des informaticiens ;
– M. Romuald TAMPE, responsable commercial ;
– M. KATSI ;
– Tout le personnel de Chanas Assurances, pour l’acceuil chaleureux et l’ambiance.
Nous ne saurions oublier mes camarades de master, ma famille, et mes amis, particulièrement :
– M. & Mme KOM ;
– M. & Mme KOMMOGNE ;
– M. & Mme NOUMSI ;
iii
iv
– Mes dames NGASSU Henriette et FOFOU ANNE, et Mlle Michelle MEGAPTCHE.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Table des matières
Dédicace
ii
Remerciements
iii
Glossaire
viii
Résumé
xii
Abstract
1
Introduction Générale
1
Résumé Exécutif
8
1 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
1.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Qu’est ce qu’une unité statistique dans notre étude ? . . . . . . .
1.1.2 Description des variables . . . . . . . . . . . . . . . . . . . . . . .
1.2 Analyse descriptive des données . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Distributions empiriques des variables qualitatives . . . . . . . . .
1.2.2 Croisement des modalités des variables USAGE et GARANTIES .
1.2.3 Quelques résumés des variables quantitatives . . . . . . . . . . . .
1.2.4 Analyse descriptive de la sinistralité . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
1
1
1
1
4
4
5
7
7
.
.
.
.
.
.
15
15
15
16
18
19
21
2 METHODES STATISTIQUES
2.1 La régression de Poisson . . . . . . . . . . . .
2.1.1 Définitions et hypothèses . . . . . . . .
2.1.2 La loi de Poisson . . . . . . . . . . . .
2.1.3 Les modèles linéaires généralisés . . . .
2.1.4 La régression de Poisson . . . . . . . .
2.2 Les équations d’estimation généralisées (GEE)
v
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
vi
TABLE DES MATIÈRES
2.3
2.4
2.5
2.6
2.2.1 Des définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Les équations d’estimation sous l’indépendance (IEE) . . . . . . . . .
2.2.3 Les équations d’estimation généralisées (GEE) . . . . . . . . . . . . .
2.2.4 L’estimation du paramètre βb (estimateur de β) . . . . . . . . . . . .
2.2.5 Les types de matrices de corrélation Ri (α) les plus connus. . . . . . .
2.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La régression de Poisson longitudinale . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Les données longitudinales . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Les équations d’estimation généralisées dans le cas d’une loi de Poisson
2.3.3 Le modèle de la régression de Poisson longitudinale . . . . . . . . . .
Convergences des suites de variables aléatoires et étude de la statistique X .
2.4.1 Quelques types de convergence et le théorème central-limite . . . . .
2.4.2 La statistique X . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mesure de liaison entre une variable qualitative et une variable quantitative .
2.5.1 Décomposition de la variance d’une variable quantitative Y . . . . . .
2.5.2 Un indicateur de la liaison entre une variable quantitative et une variable qualitative : le rapport de corrélation . . . . . . . . . . . . . .
2.5.3 Interprétation du rapport de corrélation . . . . . . . . . . . . . . . .
Méthode bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.2 Echantillon Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.3 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . .
2.6.4 Estimation de l’erreur quadratique . . . . . . . . . . . . . . . . . . .
2.6.5 Estimation du biais . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.6 Estimation de l’intervalle de confiance pour π(Fn ) de niveau 1 − γ,
pour γ ∈]0, 1[ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 APPLICATION PRATIQUE
3.1 Modélisation de la fréquence moyenne des sinistres . . . . . . . . . . . . . .
3.1.1 Construction d’un modèle . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Effet des variables explicatives . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.4 Fréquence moyenne des sinistres dans les différentes classes de risque
3.2 Estimation du coût relatif moyen des sinistres . . . . . . . . . . . . . . . . .
3.2.1 Mesure de la corrélation entre la variable qualitative USAGE et la
variable quantitative COUT_RELATIF . . . . . . . . . . . . . . . .
3.2.2 Mesure de la corrélation entre la variable qualitative GARANTIES et
la variable quantitative COUT_RELATIF . . . . . . . . . . . . . . .
Master de Statistique Appliquée.
21
22
24
25
26
29
29
29
30
31
32
32
33
35
35
35
35
37
37
37
38
38
38
38
39
39
40
41
42
42
44
44
45
© HERNANDEZ LELE, UY1/ENSP 2012
vii
TABLE DES MATIÈRES
Application de la statistique X (moyenne empirique) pour estimer le
coût relatif moyen des sinistres . . . . . . . . . . . . . . . . . . . . .
Estimation du taux de prime pure . . . . . . . . . . . . . . . . . . . . . . .
3.2.3
3.3
45
46
CONCLUSION GENERALE
48
ANNEXE : Programmes informatique dans le logiciel R
51
BIBLIOGRAPHIE
66
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Glossaire
Assurance (au sens de mutualisation des risques) : c’est une opération par laquelle
une entreprise d’assurance organise en mutualité un ensemble d’assurés exposés aux mêmes
risques et répartit ces risques et les compense selon les lois de la statistque, à l’aide d’un
fonds alimenté par des primes ou des cotisations qu’il collecte préalablement.
Assuré : c’est une personne qui a contracté une assurance.
Assureur : c’est une personne qui s’engage, par un contrat d’assurance, à fournir des
prestations prévues en cas de réalisation du risque.
Contrat : c’est une convention par laquelle une ou plusieurs personnes s’obligent, envers
une ou plusieurs autres, à donner, à faire ou à ne pas faire quelque chose.
Coût des sinistres : c’est la charge des sinistres, c’est-à-dire le coût mis par les assurés
à charge de la compagnie d’assurances.
Dommage (Dommage matériel) : c’est toute atteinte à la structure ou à la substance
d’une chose.
Coût relatif d’un sinistre (en automobile) : c’est le rapport entre le coût du sinistre
et la valeur du véhicule assuré au moment de la souscription du contrat.
Fréquence des sinistres : c’est le nombre de fois qu’un sinistre se produit dans un
temps donné.
Garantie : couverture d’un risque par l’assureur en contrepartie d’une prime convenue
d’avance. Si le risque prévu par le contrat se réalise, la garantie de l’assureur permet de
prendre en charge tout ou partie de ses conséquences.
Portefeuille : c’est l’ensemble des contrats d’assurances détenus par une société d’assurance.
Prime : somme que doit payer l’assuré en contrepartie de l’engagement de l’assureur de
prendre en charge le risque. Le coût de l’assurance est donc proportionnel à l’importance du
risque pris en charge par l’assureur.
Prime pure : elle correspond à la valeur statistique (produit du coût et de la fréquence)
du risque pris par l’assureur.
Risque (Risque-objet) : c’est l’objet sur lequel porte l’assurance (un bien meuble ou
immeuble). Le bien assuré peut être par exemple un véhicule, une habitation, une usine, etc.
viii
TABLE DES MATIÈRES
ix
Sinistralité : c’est le total des sinistres supportés par une entité (une entreprise, une
collectivité publique, etc.) ou par une société d’assurance au cours d’une période déterminée.
La sinistralité peut être exprimée en nombre de sinistres et/ou en coût de sinistres.
Sinistre : c’est la réalisation de l’événement couvert par le contrat et susceptible d’entraîner la garantie de l’assureur. Il suppose l’existence d’un fait dommageable (un incendie,
un vol, etc.) susceptible de mettre en jeu la garantie de l’assureur.
Tarif : c’est la fixation de la prime d’assurance.
Taux de Prime : c’est la prime calculée en pourcentage de la somme assurée par le
contrat d’assurance.
Valeur à Neuf (garantie) : en assurance automobile, le véhicule assuré, lorsqu’il a été
achété neuf, peut être garanti en valeur à neuf pendant une certaine durée.
Valeur Vénale : c’est la valeur marchande ou prix de vente sur le marché de l’occasion d’un bien meuble ou immeuble présentant les mêmes caractéristiques et dans un état
semblable que le bien détruit lors du sinistre.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Table des figures
1.1
1.2
1.3
1.4
1.5
Nombre de garanties souscrites en croisant les modalités des variables USAGE
et GARANTIES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Nombre et fréquence moyenne des sinistres observés dans les différentes catégories d’usages de véhicules. . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Nombre et fréquence moyenne des sinistres observés dans les garanties souscrites 10
Fréquence moyenne des sinistres en croisant les modalités des variables USAGE
et GARANTIES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Proportion moyenne du coût des sinistres sur chaque catégorie d’usage de
véhicules et de garanties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
x
Liste des tableaux
1
2
3
1.1
1.2
Estimation de la fréquence moyenne annuelle des sinistres par véhicule dans
les classes de risque. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation du coût relatif moyen des sinistres dans chaque classe de risque. .
Estimation du taux de primes pures (%) dans les différentes classes de risque.
9
10
10
4
1.6
Quelques lignes du tableau de données. . . . . . . . . . . . . . . . . . . . . .
Répartition du nombre de souscriptions des garanties dommages automobile
de l’étude sur les années 2007 à 2011. . . . . . . . . . . . . . . . . . . . . . .
Répartition du nombre de souscriptions des garanties dommages automobile
de l’étude dans les trois zones géographiques. . . . . . . . . . . . . . . . . . .
Répartition du nombre de souscriptions des garanties dommages automobile
de l’étude dans les trois différentes catégories d’usages de véhicule. . . . . . .
Répartition des différentes garanties dommage de l’étude dans notre jeu de
données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résumés des variables quantitatives . . . . . . . . . . . . . . . . . . . . . . .
2.1
Propriétés de certaines lois discrètes . . . . . . . . . . . . . . . . . . . . . . .
17
3.1
Estimations des paramètres du modèle de la fréquence moyenne des sinistres
en fonction des variables USAGE et GARANTIES . . . . . . . . . . . . . . .
table de l’Anova du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fréquence moyenne annuelle des sinistres par véhicule dans les différentes
classes de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fréquence moyenne annuelle des sinistres par véhicule dans les différentes
classes de risque après majoration . . . . . . . . . . . . . . . . . . . . . . . .
Estimation du coût relatif moyen des sinistres dans les différentes classes de
risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation du coût relatif moyen des sinistres dans chaque classe de risque
après majoration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estimation du taux de prime pure (%) dans les différentes classes de risque .
1.3
1.4
1.5
3.2
3.3
3.4
3.5
3.6
3.7
xi
4
4
5
5
7
41
41
43
43
45
46
47
Résumé
Notre étude avait pour objectif principal de réviser les taux de primes pures des garanties
dommages en assurance automobile dans la compagnie d’assurances Chanas. Pour estimer
les nouveaux taux de primes pures, nous avons utilisé la technique GEE (Equations d’Estimation Généralisées), pour l’estimation de la fréquence moyenne des sinistres, et la moyenne
empirique, pour l’estimation de la proportion moyenne du coût des sinistres. Tout celà nous
a permis de proposer une estimation des différents taux de primes pures des garanties dommages en assurance automobile. Les nouveaux taux estimés ont baissé considérablement par
rapport à ce qui existe dans l’entreprise.
Mots clés : assurance,garanties dommages,taux de prime.
xii
Abstract
The principal objective of our study was to revise the premium rate of damage warranties
in automobile insurance in the Chanas insurance company. To estimate the new premium
rate, we used the GEE (Generalized estimating equations) technique, to estimate the mean
frequency of disasters, and the empirical mean, for the estimation of the mean proportion
of the cost of disasters. All these permitted us to propose an estimation of the different
premium rates of damage warranties in automobile insurance. The new estimated rates
dropped considerably with respect to the rates the company is using.
Keys words : damage warrantigs, insurance,premium rate
1
2
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Introduction Générale
Présentation de Chanas Assurances
Chanas Assurances S.A est une compagnie d’assurances née en 1999 de la transformation
de Chanas & Privat Assurances Sarl, société d’intermédiation d’assurances créée au Cameroun en 1953 par Madame CASALEGNO née Jacqueline CHANAS, sa gérante statuaire.
Chanas & Privat Assurances Sarl va représenter au Cameroun jusqu’en 1973, de nombreuses compagnies d’assurances internationales telles que : les Assurances Générales de
France, La Foncière Transports, L’AIA, etc. Elle va participer à la création de la première
Société Camerounaise d’Assurance (SOCAR), en lui apportant la totalité de son portefeuille.
Suite à un appel d’offres de privatisation de la SOCAR par le gouvernement du Cameroun
en octobre 1998, Chanas & Privat Assurances et son partenaire financier la Société Nationale
des Hydrocarbures (S.N.H) se portent avec succès acquéreur du portefeuille privatisé. Le 24
mars 1999, Chanas & Privat Assurances est alors désignée Adjudicataire de l’appel d’offres
international du Gouvernement de la République du Cameroun et de la Banque Mondiale
pour la privatisation du portefeuille de la SOCAR. Le 15 avril 1999, Chanas & Privat Assurances devient Chanas Assurances S.A une véritable compagnie d’assurances. Et le 24
mars 2000, elle est agréée par Arrêté Ministériel N°000142 /MINEFI/DCE/A pour présenter
les opérations d’assurances sur l’étendue du territoire du Cameroun. Depuis plus de 5 ans
aujourd’hui, cette compagnie reste le leader du marché d’assurances IRD (Incendie Risques
Divers) au Cameroun.
Contexte
L’assurance est l’activité qui consiste, en échange d’une cotisation ou prime, à fournir
une prestation prédéfinie, généralement financière, à un individu, une association ou une
entreprise lors de la survenance d’un risque. Cette assurance est souscrite auprès d’une
société qui peut en faire son activité exclusive (compagnie d’assurances). Dans notre étude,
nous allons nous intéresser essentiellement à l’assurance automobile et particulièrement celle
des dommages aux véhicules.
1
2
Les garanties dommages en automobile présentent des caractéristiques communes et des
traits spécifiques.
1. Les caractéristiques communes
Elles se situent au niveau de leur objet, de la définition de l’assuré et de certaines
exclusions.
(a) L’objet des garanties dommages
Elles couvrent les dommages subis par le véhicule assuré et par les accessoires et
pièces de rechange dont le constructeur prévoit la livraison en même temps que
le véhicule, lorsque ces dommages proviennent d’accidents, d’incendies, de vol ou
de bris de glaces.
(b) La substance du concept d’assuré
Seuls ont qualité d’assurés en ce qui concerne les garanties dommages, le souscripteur de la police d’assurance et le propriétaire du véhicule. Le conducteur
autorisé non-souscripteur du contrat d’assurance automobile n’a donc pas la qualité d’assuré, de telle sorte que si les dommages subis par le véhicule engagent
sa responsabilité civile, l’assureur peut, après avoir indemnisé son assuré, exercer
une action récursoire (action en recours contre un tiers) contre lui.
Il convient de noter cependant que pour des raisons commerciales notamment, la
plupart des garanties dommages sont assorties de clauses d’abandon de recours
de l’assureur contre les tiers responsables n’ayant pas la qualité d’assurés.
(c) Les exclusions communes des garanties dommages en automobile
Les garanties dommages du contrat d’assurance automobile ne couvrent pas les
dommages causés :
– intentionnellement par l’assuré lui même, étant précisé que restent couverts les
dommages causés intentionnellement par toute personne dont il est civilement
responsable ;
– par la guerre civile ou étrangère, les grèves, les émeutes et mouvements populaires, les actes de terrorisme ou de sabotage commis dans le cadre d’une action
concertée, d’une manière générale par tout acte de vandalisme ou de brigandage
isolé ou concerté ;
– au cours du transport par voie maritime ou aérienne, sauf en cas de perte totale,
cette garantie s’octroyant traditionnellement au moyen des polices d’assurance
transports par voie maritime ou aérienne ;
– au cours du chargement ou du déchargement du véhicule ;
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
3
– lorsque l’assuré est sous l’emprise de l’alcool ou de la drogue au moment de l’accident, sauf à établir que cette situation a été sans incidence sur la survenance
du sinistre ;
– pendant une réquisition par une autorité civile ou militaire ;
– au cours du transport des matières inflammables comburantes ou explosives, si
elles ont été à l’origine des dommages ou en ont aggravé les effets ;
– lorsque le conducteur n’a pas l’âge requis pour la conduite des véhicules automobiles ou n’est pas titulaire du permis requis par la réglémentation en vigueur
pour la conduite du véhicule endommagé.
2. Les traits spécifiques des garanties dommages en automobile
Nous allons les examiner successivement pour les différentes garanties dommages, à
savoir :
(a) La garantie des dommages par accidents
Elle se présente sous la forme de la «Tierce Complète» (encore appelée Dommages
tous Accidents) ou de la «Tierce collision» (encore appelée Dommages Collision).
i. Les Dommages tous Accidents («Tierce Complète»)
Par cette garantie, l’assureur couvre les dommages subis par le véhicule assuré, les accessoires et pièces de rechange dont le catalogue du constructeur
prévoit la livraison en même temps que le véhicule, lorsqu’ils proviennent
d’une collision avec un autre véhicule, d’un choc avec un corps fixe ou mobile
(un animal, un poteau électrique, etc.) ou d’un renversement sans collision
préalable.
ii. Les Dommages Collision («Tierce collision»)
Elle garantit les dommages subis par le véhicule assuré, les accessoires et
pièces de rechange dont le catalogue du constructeur prévoit la livraison en
même temps que le véhicule, lorsque ces dommages résultent d’une collision
soit avec un piéton identifié, soit avec un véhicule ou animal appartenant à
une tierce personne identifiée.
La garantie Tierce collision suppose entre autres :
– Qu’il y ait un choc dont résultent les traces visibles.
– Que ce choc ait lieu avec un piéton identifié, un véhicule, ou un animal appartenant à une tierce personne identifiée. Cela exclut par exemple le choc
avec des objets tombant des véhicules. Dans ces cas, le recours à la garantie
de la responsabilité civile du tiers responsable devient donc nécessaire pour
la réparation du préjudice subi par le propriétaire du véhicule.
– L’exclusion du champ de la garantie des dommages consécutifs au choc du
véhicule assuré avec les animaux sauvages traversant la chaussée.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
4
Il est à préciser, par ailleurs, que les garanties de dommages par accidents
(tierce complète et tierce collision) ne couvrent pas :
– sauf en cas d’extension expresse de la garantie moyennant surprime, les
dommages subis par les pneumatiques à moins qu’ils ne soient consécutifs
ou concomitants à des dommages de même nature subis par le véhicule ;
– les dommages consécutifs à un vol ou à un incendie, ces dommages étant
couverts dans le cadre des garanties vol ou incendie ;
– les dommages éprouvés par le véhicule pendant qu’il est confié aux professionnels de la vente, de la réparation et du contrôle des véhicules automobiles.
(b) La garantie Incendie
Elle couvre les dommages subis par le véhicule assuré, les accessoires et pièces de
rechange dont la livraison est prévue par le constructeur en même temps que le
véhicule, et résultant de l’incendie, de l’explosion et de la chute de la foudre.
Ne rentrent pas dans le champ de cette garantie :
– les dommages subis par le véhicule assuré pendant le transport d’explosifs,
cette garantie étant généralement accordée dans le cadre d’une extension du
contrat d’assurance de la responsabilité civile de chef d’entreprise au transport
d’explosifs ;
– les dommages causés aux appareils électriques du seul fait de leur fonctionnement ;
– les dommages résultant de la seule action de la chaleur sans commencement
d’incendie et donc en définitive non susceptibles d’être considérés comme résultant d’un incendie.
La garantie incendie peut être étendue aux risques électriques, en d’autres termes
aux dommages causés aux appareils électriques du fait de leur seul fonctionnement.
(c) La garantie Vol
Elle se subdivise en une garantie de Vol Total et en une garantie de Vol Total et
Partiel.
i. La garantie Vol Total
Elle couvre les dommages causés par la disparition ou la détérioration du
véhicule assuré à la suite d’un vol ou d’une tentative de vol, ainsi que les frais
engagés avec l’accord de l’assureur en vue de la récupération du véhicule volé.
ii. La garantie Vol Total et Partiel
C’est une extension de la garantie Vol Total accordée avec surprime, qui en
porte le champ de couverture aux objets ci-après :
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
5
– les accessoires et pièces de rechange dont le catalogue du conducteur prévoit
la livraison en même temps que le véhicule ;
– les accessoires dont le catalogue du conducteur ne prévoit pas la livraison
en même temps que le véhicule, mais qui y sont incorporés par l’assuré. La
garantie vol partiel est accordée dans ce cas à concurrence des montants
assurés pour ces accessoires tels qu’ils figurent dans la police d’asurance.
Ne sont pas couverts par la garantie vol :
– les vols commis par les préposés pendant les heures de service ou par les
membres de la famille de l’assuré ou avec leur complicité ;
– les vols de pneumatiques, accessoires et pièces de rechange dont le constructeur prévoit la livraison en même temps que le véhicule sauf s’ils sont commis dans un garage ou une remise avec effraction, escalade ou usage de
fausses clés, à moins que le contrat n’ait fait l’objet d’une extension à la
garantie de vol total et partiel.
Il est à noter par ailleurs, que la garantie vol peut être étendue au vol des
objets transportés par l’assuré à la condition qu’il survienne avec celui du
véhicule, à l’exclusion toutefois des bijoux, fourrures, espèces, titres ou des
objets précieux qui restent généralement exclus.
(d) La garantie des bris de glaces
Elle couvre les bris accidentels du pare-brise, des glaces latérales et de la lunette
arrière du véhicule assuré.
Elle ne couvre cependant pas :
– Les bris des verres, de phares, de miroirs, des rétroviseurs et des feux de position
qui sont du ressort des garanties dommages accidents ou dommages collision.
– Les bris de glaces consécutifs à un incendie dans la mesure où ils sont couverts
par la garantie incendie ou ceux consécutifs au vol qui rentrent dans le champ
de la garantie vol.
Calcul de la prime d’assurance des garanties dommages en automobile
Le calcul d’une prime d’assurance se fait en trois étapes :
– Le calcul de la prime pure : c’est le montant du sinistre moyen auquel devra faire
face l’assureur pour le risque. Mathématiquement, la prime pure est égale à l’espérance
des pertes. C’est le calcul de cette prime qui nous intéresse dans cette étude.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
6
– Le calcul de la prime nette : c’est l’addition de la prime pure et le chargement des
frais de gestion. Ces frais comportent aussi bien les frais de gestion des sinistres que
la rémunération des apporteurs (agents généraux ou courtiers). Ici, c’est la compagnie
qui fixe ou détermine ces frais de gestion.
– Le calcul de la prime totale : c’est l’addition de la prime nette et les taxes. Dans
chaque contrat d’assurance, l’Etat du Cameroun fixe des taxes à payer par l’assuré.
Au terme du calcul de ces différentes primes, ce que l’assuré donne à son assureur comme
prime d’assurance, pour la couverture d’un éventuel dommage à son véhicule, est la prime
totale. Mais le calcul de la prime qui nous intéresse dans cette étude est celui de
la prime pure.
La prime pure d’un véhicule voulant souscrire une garantie dommages se calcule de la
manière suivante :
(taux de prime pure)*(valeur neuve actualisée ou valeur vénale du véhicule)
Pour les garanties dommages par accidents, les bris de glaces, on applique au
taux de prime pure la valeur neuve actualisée du véhicule pour obtenir la prime
pure.
Pour les garanties vol et incendie on applique au taux de prime pure la valeur
vénale du véhicule pour obtenir la prime pure.
Problématique
Quels sont les taux de primes pures en garanties dommages automobile adaptés au portefeuille actuel de l’entreprise (reflétant la sinistralité du portefeuille) ?
C’est le problème posé par l’entreprise, car soucieuse de proposer à ses clients des primes
d’assurances assez compétitives dans le secteur d’assurance dommages automobile.
La formule analytique du taux de prime pure est donnée par :
(taux de prime pure)=(fréquence moyenne des sinistres)×(coût relatif moyen
des sinistres)
La fréquence moyenne des sinistres est le rapport entre le nombre de sinistres et le
nombre total de véhicules assurés.
Le coût relatif moyen des sinistres est la moyenne arithmétique des coûts relatifs
des sinistres.
Le problème est donc d’obtenir une estimation de la fréquence moyenne des
sinistres et du coût relatif des sinistres.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
7
Objectif
L’objectif de cette étude est de réviser les taux de primes pures des garanties dommages en
assurances automobile à Chanas Assurances de telle sorte que les primes proposées aux clients
reflètent la sinistralité du portefeuille et soient compétitives dans le marché d’assurance
Camerounais.
Méthodologie
Pour apporter une réponse au problème posé, nous avons extrait un certains nombre
d’informations sur la sinistralité des véhicules ayant eu à souscrire au moins une garantie
dommages sur la période 2007-2011 à la compagnie Chanas Assurances S.A.
Après une analyse descriptive des données, nous allons construire un modèle de la fréquence moyenne des sinistres en fonction d’un certain nombre de variables en utilisant la
technique GEE (Equations d’Estimation Généralisées). Ensuite, nous allons estimer à partir de la moyenne empirique, le coût relatif moyen des sinistres en fonction également d’un
certain nombre de variables. Et enfin déduire le taux de prime pure des différentes garanties
dommages automobile.
Plan
Nous avons divisé notre travail en trois chapitres :
– dans le premier chapitre, nous allons faire une présentation et une analyse descriptive
des données ;
– le second va être la présentation des méthodes statistiques qui vont nous permettre de
résoudre le problème ;
– enfin au dernier chapitre, une application de ces méthodes statistiques sera faite sur
les données ;
– Pour terminer l’étude, une conclusion générale va être faite. On y trouvera quelques
recommandations pour la compagnie d’assurance Chanas.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Résumé Exécutif
Problématique
Quels sont les taux de primes pures en garanties dommages automobile adaptés au portefeuille actuel de l’entreprise (reflétant la sinistralité du portefeuille) ?
C’est le problème posé par l’entreprise, car soucieuse de proposer à ses clients des primes
d’assurances assez compétitives dans le secteur d’assurance dommages automobile.
La formule analytique du taux de prime pure est donnée par :
(taux de prime pure)=(fréquence moyenne des sinistres)×(coût relatif moyen
des sinistres)
La fréquence moyenne des sinistres est le rapport entre le nombre de sinistres et le
nombre total de véhicules assurés.
Le coût relatif moyen des sinistres est la moyenne arithmétique des coûts relatifs
des sinistres.
Le problème est donc d’obtenir une estimation de la fréquence moyenne des
sinistres et du coût relatif moyen des sinistres.
Objectif
L’objectif de cette étude est de réviser les taux de primes pures des garanties dommages en
assurances automobile à Chanas Assurances de telle sorte que les primes proposées aux clients
reflètent la sinistralité du portefeuille et soient compétitives dans le marché d’assurance
Camerounais.
Méthodologie
Pour apporter une réponse au problème posé, nous avons :
1. extrait un certain nombre d’informations sur la sinistralité des véhicules ayant eu à
souscrire au moins une garantie dommages sur la période 2007-2011 à Chanas. Nous
8
9
avons eu donc au total un tableau de données de 25.481 lignes (unités statistiques)
et 10 colonnes (variables) ; chaque ligne représentant un véhicule ayant souscrit une
garantie dommage ;
2. présenté les différentes méthodes statistiques permettant de résoudre le problème. Il
s’agit, d’une part, de la technique GEE qui va permettre d’estimer les paramètres du
modèle de la fréquence moyenne des sinistres tout en tenant compte de la corrélation
qui peut exister entre plusieurs observations différentes d’un même individu au cours
du temps. Ensuite la moyenne empirique et ses propriétés pour l’estimation du
coût relatif moyen des sinistres ;
3. fait une application de ces différentes méthodes statistiques pour estimer les différents
taux de primes pures des garanties dommages en assurance automobile.
Résultats
Après construction d’un modèle de Poisson dont les paramètres sont estimés par la technique GEE, nous avons l’estimation des différentes fréquences moyennes des sinistres dans
le tableau suivant :
Dommages Accidents
Dommages Collision
Vol Total
Vol Total et Partiel
Incendie
Incendie & Risques Electriques
Bris de Glaces
Vol par Braquage
Usage Touristique
0,38910
0,04097
0,00203
0,01220
0,00105
0,00320
0,05995
0,00214
TPM (<3,5 tonnes)
4,48e-01
1,17e-01
8,38e-03
1,58e-02
7,78e-21
1,56e-20
5,75e-02
3,24e-03
TPM (>3,5 tonnes)
5,62e-02
1,86e-02
7,78e-21
1,47e-03
8,04e-22
4,35e-03
8,66e-03
3,09e-04
Tab. 1 – Estimation de la fréquence moyenne annuelle des sinistres par véhicule dans les
classes de risque.
NB : l’abréviation TPM renvoie aux catégories de véhicules de Transports Publics de Marchandises.
Ce qu’on peut dire, c’est que la fréquence moyenne des sinistres est assez élevée dans la
garantie Dommages Accidents (38%) et assez faible dans les garanties vol et incendie.
La fréquence moyenne des sinistres est plus élevée sur les véhicules de Transport Public
de Marchandise (TPM) avec charge utile inférieure à 3,5 tonnes(catégorie d’usage 2) que
chez les véhicules de type TPM (>3,5 tonnes).
La moyenne empirique a permis d’avoir une estimation du coût relatif moyen des sinistres.
Les résultats sont présentés dans le tableau 2.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
10
Dommages Accidents
Dommages Collision
Vol Total
Vol Total & Partiel
Incendie
Incendie & Risques Electriques
Bris de Glaces
Vol par Braquage
Usage Touristique
0,0810
0,0873
0,6842
0,7628
0,7561
0,9707
0,0255
0,8051
TM (<3,5 tonnes)
0,0810
0,0873
0,6842
0,7628
0,7561
0,9707
0,0255
0,8051
TM (>3,5 tonnes)
0,1514
0,0873
0,6842
0,7628
0,7561
0,9707
0,0255
0,8051
Tab. 2 – Estimation du coût relatif moyen des sinistres dans chaque classe de risque.
NB : le coût relatif moyen des sinistres est sensiblement le même quelque soit la
catégorie d’usage du véhicule.
Au regard des résultats, on peut dire que le coût relatif moyen des sinistres est plus élevé
dans les garanties vol et incendie.
Après donc l’estimation de la fréquence des sinistres et du coût relatif moyen des sinistres,
on en déduit une estimation du taux de primes pures. On a les résultats suivant :
Dommages Accidents
Dommages Collision
Vol Total
Vol Toatal & Partiel
Incendie
Incendie & Risques Electriques
Bris de Glaces
Vol par Braquage
Usage Touristique
3,1551
[2,560 ; 4,013]
0,3537
[0,040 ; 1,168]
0,1392
[0,059 ; 0,241]
0,9315
[0,598 ; 1,279]
0,0794
[0,00936 ; 0,166]
0,3109
[0,145 ; 0,489]
0,1533
[0,089 ; 0,208]
0,1725
[0,0394 ; 0,404]
TPM (< 3,5 tonnes)
3,63
[2,855 ; 4,707]
1,01
[0,039 ; 3,049]
0,575
[0,119 ; 1.383]
1,21
[0,472 ; 2,404]
5,88e-19
[5,391e-19 ; 3,384e-08]
1,51e-18
[1,291e-18 ; 2,437e-07]
0,147
[0,045 ; 0,275]
0,261
[0,0519 ; 0,952]
TPM (> 3,5 tonnes)
0,846
[0,716 ; 0,942]
0,161
[0,0119 ; 0,903]
5,33e-19
[4,209e-19 ; 2,321e-08]
0,112
[0,0386 ; 0,2144]
6,08e-20
[3,512e-21 ; 2,169e-19]
0,422
[0,157 ; 2,949]
0,0221
[0,00867 ; 0,0435]
0,0249
[0,00403 ; 0,0654]
Tab. 3 – Estimation du taux de primes pures (%) dans les différentes classes de risque.
Commentaire
Globalement, les taux de primes pures ont considérablement baissé par rapport à ce qui
existe actuellement.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
11
Le taux de prime a peu varié dans la garantie Dommages Accidents. Nous observons une
baisse d’environ 9,85% pour les véhicules à usage touristique. Et une hausse de 3,71% pour
les véhicules de type TPM à charge utile inférieure à 3,5 tonnes par rapport à ce qui existe
actuellement dans la compagnie Chanas.
Pour ce qui est de la garantie Dommages Collision, le taux de prime pure a baissé de
85,85% pour les véhicules à usage touristique, et de 59,6% pour les véhicules de type
TPM à charge utile inférieure à 3,5 tonnes par rapport à ce qui existe actuellement dans la
compagnie Chanas.
Dans la garantie Vol Total, le taux de prime pure a baissé de 76,8% pour les véhicules
à usage touristique, et de 4,16% pour les véhicules de type TPM (<3,5 tonnes) par rapport
à ce qui existe actuellement dans la compagnie Chanas.
Dans la garantie Vol Total & Partiel, le taux de prime pure a baissé de 25,48% pour les
véhicules à usage touristiques, et de 3,2% pour les véhicules de type TPM (< 3,5 tonnes)
par rapport à ce qui existe actuellement dans la compagnie Chanas.
Dans la garantie Incendie, le taux de prime pure a baissé de 84,12%.
Dans la garantie Incendie & Risques Electriques, le taux de prime pure a baissé de
58,55% pour les véhicules à usage touristique, et de 43,73% pour les véhicules de type
TPM (> 3,5 tonnes) par rapport à ce qui existe actuellement dans la compagnie Chanas.
Dans la garantie Bris de Glaces, le taux de prime pure a baissé de 81,96% pour les
véhicules à usage touristique, de 82,70% pour les véhicules de type TPM (<3,5 tonnes),
et de 97,4% pour les véhicules de type TPM (> 3,5 tonnes) par rapport à ce qui existe
actuellement dans la compagnie Chanas.
Bref en moyenne, les taux de prime pure ont baisé d’environ 48,3%. On peut donc dire
que les taux utilisés actuellement dans l’entreprise sont un peu élevés.
Conclusion
L’objectif principal de cette étude était de réviser les taux de primes des garanties dommages en assurance automobile. Une méthodologie d’estimation de ces taux a été proposée
et a permis d’estimer de nouveaux taux de primes pures nettement inférieurs à ceux existant
déjà dans l’entreprise. Nous suggérons à Chanas Assurances de revoir à la baisse le plus tôt
possible ses taux de primes pures en se basant sur nos résultats, afin de rester davantage
compétitive dans le marché d’assurance dommages automobile. De plus, la conception actuelle de la base de données doit être révisée afin de faciliter cette étude dans les autres
catégories d’usages de véhicules et branches d’assurances.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
12
Quelques recommandations par rapport aux résultats obtenus
Nous suggérons que les taux de primes pures qui tendent vers 0 (zéro) soient ramenés à
0,01%. Par conséquent pour la garantie Vol Total par exemple, au lieu d’avoir un taux de
prime de 5,33e-19% sur les véhicules de type TPM (>3,5 tonnes), nous proposons que se
soit ramener à 0,01%.
Nous suggérons également que les taux de primes pures qui ont baissé de plus de 40% se
ramènent à une baisse de 40% par rapport à ce qui existe dejà dans l’entreprise. Ceci va
permettre d’avoir une certaine marge de sécurité tout en évitant de faire baisser considérablement et de façon brusque les taux.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Chapitre 1
PRESENTATION ET ANALYSE
DESCRIPTIVE DES DONNEES
Dans ce chapitre, nous allons faire une présentation des données et, par la suite, on va
faire une analyse descriptive de ces données.
1.1
Présentation des données
Les données que nous avons en notre possession ont été extraites du data base II (base
de données de l’entreprise). Après extraction des données sous la forme brute (sous forme de
table relative aux notions de base de données), nous les avons traitées sous Access afin d’avoir
un tableau statistique standard (des unités statistiques sur lesquelles on fait des observations
sur des variables). A l’issue de ce travail, nous avons pu avoir un tableau statistique constitué
de 25.481 lignes et 10 variables.
1.1.1
Qu’est ce qu’une unité statistique dans notre étude ?
Dans notre étude, une unité statistique est tout véhicule ayant souscrit une garantie dommages en assurance automobile sur la période 2007-2011 à Chanas Assurances. Pour chacun
des véhicules, on a observé l’année de souscription d’une garantie dommage, la catégorie
d’usage du véhicule, la garantie dommage souscrite, la zone géographique de circulation régulière, le nombre de sinistres observés sur l’année, le coût total des sinistres observés durant
l’année, la valeur neuve ou la valeur vénale, et la proporion du coût des sinistres durant
l’année par rapport à la valeur neuve ou vénale du véhicule.
1.1.2
Description des variables
Les variables observées sont au nombre de dix (10) dont quatre (04) qualitatives et six
(06) quantitatives.
1
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
2
1. Variables qualitatives
(a) ANNEE : années des observations des unités statistiques, c’est-à-dire les années
2007 à 2011
(b) USAGE : variable permettant d’identifier la catégorie d’usage du véhicule. Elle
a 03 modalités codées numériquement :
– 1 : véhicule de Tourisme ;
– 2 : véhicule de Transport Public de Marchandise (TPM) avec charge utile
inférieure à 3,5 tonnes ;
– 3 : véhicule de Transport Public de Marchandise (TPM) avec charge utile
supérieure à 3,5 tonnes.
(c) GARANTIES : ce sont les garanties dommages proposées aux assurés à Chanas.
Elle comporte 08 modalités codées aussi numériquement :
–
–
–
–
–
–
–
–
20
30
40
41
50
51
60
95
:
:
:
:
:
:
:
:
Dommages Accidents ;
Dommages Collision ;
Vol Total ;
Vol Total & Partiel ;
Incendie ;
Incendie & Risques Electriques ;
Bris de Glaces ;
Vol par Braquage.
(d) ZONEGEO : elle identifie la zone géographique de circulation des véhicules
assurés. Le découpage est fait en trois (03) grandes zones :
– A : cette zone est essentiellement constituée des villes Bafoussam, Bamenda,
Douala, Garoua, Yaoundé et les chefs-lieux de départements ou d’arrondissements situés au plus à 25 KM de ces villes ;
– B : cette zone est constituée des autres chefs lieux de départements ;
– C : cette zone est constituée des autres localités du pays (Cameroun).
2. Variables quantitatives
(a) id : variable entière identifiant les unités statistiques (véhicule ayant souscrit une
garantie dommage). Notons qu’une valeur de la variable "id" peut apparaître
plusieurs fois dans le tableau de données, mais ne peut apparaître qu’une seule
fois pour la même année.
(b) NBRE_SINISTRE : c’est le nombre de sinistres observés sur chaque unité
statistique pendant une année de l’étude. Il vaut 0 ou 1 dans nos données.
(c) COUT_SINISTRE : c’est la valeur totale du règlement d’un sinistre.Il est
strictement positif.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
3
(d) VALEUR_NEUVE : c’est la valeur neuve actualisée du véhicule au moment
de la souscription d’une garantie dommages.
(e) VALEUR_VENALE : c’est la valeur vénale du véhicule au moment de la
souscription d’une garantie dommages.
(f) COUT_RELATIF : c’est le rapport entre le coût d’un sinistre et la valeur
neuve ou vénale du véhicule sinistré.
Notons que le coût relatif des sinistres se détermine de deux manières en fonction du type
de garantie :
1. Si nous avons affaire aux garanties Dommages Accidents, Dommages Collision et Bris
de Glaces, le coût relatif d’un sinistre est égale au rapport du coût du sinistre sur la
valeur neuve actualisée du véhicule sinistré.
2. Par contre, si nous avons affaire aux garanties vol et incendie, le coût relatif d’un
sinistre est le rapport du coût du sinistre sur la valeur vénale du véhicule sinistré.
Remarque
Le nombre d’observation strictement positive de la variable COUT_RELATIF est égale
au nombre de sinistres observés (608) sur la période 2007-2011 en dommage automobile à
Chanas.
On présente ci-dessous, quelques lignes de notre tableau de données.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
4
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
id
5553
31
3541
4784
ANNEE
2008
2007
2008
2008
ZONEGEO
A
A
A
A
USAGE
1
3
2
3
GARANTIES
41
30
20
50
NBRE_SINISTRE
0
0
1
0
COUT_SINISTRE
0
0
299.200
0
VAL_NEUVE
VAL_VENALE
12.243.000
10.529.000
Tab. 1.1 – Quelques lignes du tableau de données.
1.2
Analyse descriptive des données
Il sera question ici, de faire une analyse descriptive des données. Ce qui nous permettra
de mieux nous familiariser avec les données. Dans un premier temps, nous allons faire une
répartition des unités statistiques sur les modalités de chaque variable ; ensuite, nous allons
faire un croisement des modalités des variables qualitatives deux à deux et présenter la
répartition de la fréquence des sinistres sur les différentes modalités ; enfin nous allons faire
une répartition des coûts et de la proportion des sinistres sur les différentes variables.
1.2.1
Distributions empiriques des variables qualitatives
La variable ANNEE
2007
5401 (21,2%)
2008
5295 (20,8%)
2009
5110 (20,1%)
2010
4976 (19,5%)
2011
4699 (18,4%)
Tab. 1.2 – Répartition du nombre de souscriptions des garanties dommages automobile de
l’étude sur les années 2007 à 2011.
La variable ZONEGEO
A
25031 (98,23%)
B
350 (1,37%)
C
100 (0,40%)
Tab. 1.3 – Répartition du nombre de souscriptions des garanties dommages automobile de
l’étude dans les trois zones géographiques.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
5
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
La variable USAGE
1
17056 (66,9%)
2
3279 (12,9%)
3
5146 (20,2%)
Tab. 1.4 – Répartition du nombre de souscriptions des garanties dommages automobile de
l’étude dans les trois différentes catégories d’usages de véhicule.
La variable GARANTIES
20
1627 (6,39%)
30
278 (1,09%)
40
5827 (22.9%)
41
4045 (15,9%)
50
5959 (23,4%)
51
3871 (15,2%)
60
1080 (4,2%)
95
2794 (11%)
Tab. 1.5 – Répartition des différentes garanties dommage de l’étude dans notre jeu de
données.
Sur la variable ANNEE, on constate que le nombre d’unités statistiques observées chaque
année de notre étude ne varie pas beaucoup, même si on peut observer une certaine diminution progressive.
Sur la variable ZONEGEO, la zone A représente environ 98,2% des souscriptions des
garanties dommages. La zone B environ 1,4% et la zone C 0,4% des souscriptions. Les
véhicules ayant donc souscrit une garantie dommages à Chanas circulent le plus dans la zone
A. Ce qui n’est pas du tout surprenant, car Chanas n’est présente que dans quatre grandes
villes du pays. Au regard de ces chiffres, on peut dire qu’il n’y a pas un grand intérêt de
considérer cette variable dans notre étude.
Pour ce qui concerne les catégories d’usage des véhicules, ce sont les véhicules à
usage touristique qui souscrivent plus de contrats dommages dans l’entreprise.
Pour ce qui est des garanties souscrites, on peut dire que les garanties vols et incendies
sont celles là qui intéressent le plus les clients.
1.2.2
Croisement des modalités des variables USAGE et GARANTIES
La figure 1.1 nous permet de visualiser le nombre de souscriptions de garanties dommages
automobile sur la période 2007 à 2011 en croisant les modalités des variables USAGE et
GARANTIES.
Les véhicules à usage touristique qui représentent plus de 64% des souscriptions, ont
plus de contrats dans les garanties vol et incendie. Il est donc important pour l’entreprise
d’avoir des tarifs très compétitifs dans cette catégorie de véhicule.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
6
Fig. 1.1 – Nombre de garanties souscrites en croisant les modalités des variables USAGE et
GARANTIES
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
7
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
1.2.3
Quelques résumés des variables quantitatives
Le tableau ci dessous, décrit les variables quantitatives.
VARIABLES
NBRE_SINISTRE
COUT_SINISTRE (FCFA)
VAL_NEUVE (FCFA)
VAL_VENALE (FCFA)
MIN
0
19.260
1.500.000
250.000
MAX
1
36.800.000
100.400.000
40.000.000
MOYENNE
0,0239
1.357.215
22.130.000
10.650.000
ECART-TYPE
0,15517
3.063.264
17.013.997
8.377.488
DONNEES MANQUANTES
0
0
99 (17%)
0
Tab. 1.6 – Résumés des variables quantitatives
Le nombre total de sinistres observés dans notre jeu de données est de 608.
1.2.4
Analyse descriptive de la sinistralité
Nombre et fréquence moyenne des sinistres
Rappelons que la fréquence moyenne des sinistres dans cette étude, est le nombre moyen
de sinistre sur la période 2007-2011. En d’autres termes, c’est le rapport entre le nombre de
sinistres et le nombre de contrats souscrits sur toute la période 2007-2011.
Ci-dessous, nous allons faire quelques représentations graphiques pour avoir une meilleure
description de la sinistralité.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
8
Le graphe de la fréquence moyenne des sinistres nous montre clairement que la distribution de la sinistralité dans les différentes catégories d’usages de véhicules n’est pas la même.
Il est donc évident que l’usage du véhicule a une influence considérable sur la sinistralité.
Notons également qu’on observe plus de sinistres dans la catégorie de véhicules à usage
touristique. Ce qui est normal, car c’est dans cette catégorie de véhicule qu’on enregistre le
plus dans les contrats. Mais la fréquence des sinistres dans cette catégorie est relativement
faible par rapport à la catégorie d’usage 2.
Observons maintenant le comportement de la sinistralité dans les différentes garanties.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
9
Fig. 1.2 – Nombre et fréquence moyenne des sinistres observés dans les différentes catégories
d’usages de véhicules.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
10
Fig. 1.3 – Nombre et fréquence moyenne des sinistres observés dans les garanties souscrites
La fréquence moyenne des sinistres est élevée dans les garanties Dommages Accidents,
Dommages Collision et Bris de Glaces. Il apparaît également sur la figure 1.3 que la distribution de la sinistralité n’est pas la même dans les différentes garanties.
Observons la fréquence des sinistres en croisant les modalités des variables USAGE et GARANTIES.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
11
Fig. 1.4 – Fréquence moyenne des sinistres en croisant les modalités des variables USAGE
et GARANTIES
De la figure 1.4 ci-dessus, il ressort que :
– Dans la garantie Dommages Accidents (20), la fréquence moyenne des sinistres est
plus élevée sur les véhicules à catégorie d’usage 2 (près de 40%), et sur les véhicules à
catégorie d’usage 1 (environ 33%).
– Dans la garantie Dommages Collision (30), la fréquence moyenne des sinistres est plus
élevée sur les véhicules de catégorie d’usage 2 (12%).
– Dans les garanties vols (40,41 et 95), et incendie (50 et 51), la fréquence moyenne des
sinistres est très faible quelque soit la catégorie d’usage du véhicule.
– Dans la garantie Bris de Glaces (60), la fréquence moyenne des sinistres est plus élevée
dans les catégories de véhicules d’usage 1 et 2.
Bref, il est clair que pour la plupart des garanties, la fréquence moyenne des sinistres varie
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
12
en fonction de l’usage du véhicule ou bien, la distribution de la fréquence moyenne des
sinistres dans les différentes garanties n’est pas la même pour toutes les catégories d’usages
de véhicules.
Proportion moyenne du coût des sinistres sur les valeurs des véhicules sinistrés
Notons que sur chaque ligne i du tableau de données où la variable NBRE_SINISTRE
prend la valeur 1, on a une observation pi de la variable COUT_RELATIF.
Posons A = {i = 1 . . . 25481/N BRE_SIN IST REi = 1}. Alors ∀i ∈ A, pi se calcul de
la manière suivante :
( COU T _SIN IST RE
i
si GARAN T IEi = 20, 30, 60
V AL_N EU V Ei
(1.1)
pi =
COU T _SIN IST REi
si GARAN T IEi = 40, 41, 50, 51, 95
V AL_V EN ALEi
Notons que pour i ∈
/ A, pi = 0
Rappelons que nous devons avoir normalement 608 observations de la variable COUT_RELATIF,
car c’est le nombre total de sinistres observés sur la période 2007-2011. Mais étant donnée
qu’il y a 99 obsevations manquantes sur la variable VAL_NEUVE, on a donc au total 509
observations sur la variable COUT_RELATIF.
Par souci d’une bonne gestion des analyses sur la variable COUT_RELATIF, nous avons
extrait les données du tableau de base où la variable NBRE_SINISTRE prend la valeur 1,
deux tableaux de même structure que celle du tableau de données de base. De telle sorte que
l’un des tableaux est constitué uniquement des garanties 20, 30, 60, et l’autre des garanties
40, 41, 50, 51, 95.
Le coût relatif moyen des sinistres n’est rien d’autres que la moyenne arithmétique des
coûts relatifs des sinistres strictements positives dans le jeu de données.
Observons le coût relatif moyen des sinistres sur les variables USAGE et GARANTIES
(figure 1.5).
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
13
Fig. 1.5 – Proportion moyenne du coût des sinistres sur chaque catégorie d’usage de véhicules
et de garanties
Il apparaît sur la figure 1.5 que le coût relatif des sinistres dans les garanties vol (40/95) et
incendie (50) est élevée et proche de 1. Par contre, pour les garanties Dommages Accidents,
Collision et Bris de Glaces, le coût relatif moyen des sinistres est relativement faible.
Au terme de cette analyse descriptive des données, il en ressort que :
– la segmentation des données en zones géographiques n’apporte pas grande chose dans
l’analyse de la sinistralité car plus de 98% des observations se trouvent dans la zone
géographique A ;
– les véhicules à usage touristique représentent plus de 66% du portefeuille ;
– les garanties les plus souscrites sont le Vol Total (23%), le Vol Total & Partiel (16%),
l’Incendie (23%), l’Incendie & Risques Electriques (15%) et le Vol par Braquage (11%) ;
– la fréquence moyenne des sinistres est fonction de l’usage du véhicule et de la garantie
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES
–
–
–
–
14
souscrite ;
la fréquence moyenne des sinistres est plus élevée sur les véhicules de transport de
marchandises (7% environ) avec une charge utile inférieure à 3,5 tonnes ;
la fréquence moyenne des sinistres est plus élevée dans la garantie Dommages Accidents
(plus de 30%) ;
les véhicules de catégories d’usage 1 et 2 ont une fréquence moyenne de sinistres élevée
dans la garantie Dommages Accidents ;
le coût relatif moyen des sinistres est plus élevée dans les garanties Vol et Incendie.
Remarque
La sinistralité dans les garanties Dommages Accidents, vol Total & Partiel, et Incendie
& risques électriques sera amélioré et revue à la hausse juste parce qu’implicitement, elles
couvrent d’autres garanties. Si un individu a une garantie Dommages Accidents et a plus tard
un sinistre Bris de Glaces, l’entreprise se doit de régler le sinistre. De même, un individu ayant
souscrit la garantie Vol Total & Partiel est totalement couvert de la garantie Vol Total. C’est
pareil pour la garantie Incendie & Risques Electriques. Or dans notre analyse descriptive de
la sinistralité, on se rend compte que les garanties que nous avons énumérées ci-dessus ont
une sinistralité faible par rapport aux garanties qu’elles englobent. Ce qui s’explique par le
fait qu’on enregistre plutôt dans la base de données la garantie correspondante au sinistre.
C’est-à-dire qu’un individu ayant souscrit uniquement la garantie Vol Total & Partiel, et qui
plus tard a un sinistre vol total, au moment de l’enregistrement du sinistre, c’est le code de
la garantie vol total qui sera saisi. Ce qui laissera croire qu’il n’y a pas eu de sinistres dans
la garantie Vol Total & partiel. Pour résoudre ce problème, nous allons faire une majoration
du taux de prime pure (surprime) dans ces garanties (Confert chapitre 3).
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Chapitre 2
METHODES STATISTIQUES
Dans ce chapitre, il est question de présenter et de développer les outils statistiques qui
vont nous permettre de résoudre le problème de notre étude.
Le taux de prime pure étant le produit entre la fréquence moyenne des sinistres et le coût
relatif moyen des sinistres, pour l’estimer, il suffit d’estimer la fréquence moyenne des sinistres
et le coût relatif moyen des sinistres. C’est pourquoi dans un premier temps pour obtenir une
estimation de la fréquence moyenne des sinistres, nous allons utiliser le modèle de régression
de Poisson sur les données longitidunales. En effet la variable NBRE_SINISTRE
caractérisant la fréquence des sinistres peut prendre ses valeurs dans l’ensemble des entiers
naturels. C’est pourquoi la régression de Poisson est indiquée ici. Ensuite pour obtenir une
estimation du coût relatif moyen des sinistres, la moyenne empirique sera utiliser. Enfin
une estimation des intervalles de confiances des différents taux de primes pures sera proposé
à partir de la méthode de simulation Bootstrap.
2.1
La régression de Poisson
Cette section présente une introduction à la régression de Poisson. En premier la loi de
Poisson et ses différentes propriétés seront énoncées. Ensuite les modèles linéaires généralisés
seront introduits, pour enfin faire place au sujet principal : la régression de Poisson.
2.1.1
Définitions et hypothèses
Soient y1 , . . . , yn les réalisations des variables aléatoires indépendantes Y1 , . . . , Yn , où l’on
suppose que la loi de probabilité de Yi (i = 1, . . . , n) a deux paramètres θi (paramètre
naturel) et φ (paramètre de dispersion), de densité (discrète ou continue),
yi θi − b(θi )
f (yi |θi , φ) = exp
− c(yi , φ)
(2.1)
φ
La fonction de vraisemblance est définie comme étant,
n
Y
f (yi |θi , φ)
i=1
15
16
METHODES STATISTIQUES
où n est le nombre d’observations ou d’individus. Ainsi, pour une loi de probabilité ayant
une densité sous la forme (2.1),
n
Y
yi θi − b(θi )
L (y|θ, φ) =
exp
− c (yi , φ)
φ
i=1
)
( n
(2.2)
n
X yi θi − b(θi ) X
−
c (yi , φ)
= exp
φ
i=1
i=1
0
0
où y = [y1 , · · · , yn ] et θ = [θ1 , · · · , θn ] . Quant à la fonction de log-vraisemblance, elle
s’obtient en prenant le logarithme naturel de la fonction de vraisemblance. Donc,
n
n
X
yi θi − b(θi ) X
−
l (y|θ, φ) = ln {L (y|θ, φ)} =
c (yi , φ)
(2.3)
φ
i=1
i=1
Etant donné que dans notre étude pour modéliser la fréquence moyenne des sinistres nous
allons supposer que la variable NBRE_SINISTRE suit une loi de Poisson, dans ce qui suit
nous allons présenter la loi de Poisson et ses propriétés.
2.1.2
La loi de Poisson
On dit que Y suit une loi de Poisson de paramètre µ si sa fonction de probabilité est
(
y
e−µ µy! si y = 0, 1, 2, . . . ,
(2.4)
P [Y = y] =
0 sinon.
où µ est un nombre réel positif.
La fonction de répartition de Y est alors donnée par :
(
P[y] µt
e−µ t=0
si y ≥ 0
t!
P [Y ≤ y] =
0 sinon.
où [y] correspond à la partie entière de y.
Suite à une transformation de la fonction de probabilité (2.4), on montre qu’elle peut se
mettre sous la forme (2.1) de la manière suivante :
e−µ+yln(µ)
eln(y!)
yln(µ) − µ
= exp
− ln(y!)
1
P [Y = y] =
Alors, les paramètres de (2.1) sont donnés dans ce cas par :
θ = ln(µ)
b(θ) = exp(θ) = exp(ln(µ)) = µ
φ=1
c (y, φ) = ln(y!)
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
17
METHODES STATISTIQUES
a. La fonction génératrice des moments de la loi de Poisson
La fonction génératrice de la loi de Poisson notée MY (t), est utile afin de trouver le
(k)
moment d’ordre k, où E[Y k ] = MY (t)|t=0 . On définit cette fonction génératrice des moments
comme étant E[etY ]. On a
tY
MY (t) = E[e ] =
∞
X
−µ y
µ
ty e
e
y!
y=0
= e−µ+µe
−µ
=e
∞
y
X
(µet )
y=0
y!
t
(2.5)
= eµ(e −1)
t
A l’aide de cette fonction génératrice des moments, l’espérance et la variance de la loi peuvent
être calculées :
E[Y ] = µ
et
V ar[Y ] = E[Y 2 ] − E 2 [Y ] = µ
On obtient donc une propriété intéressante de la loi de Poisson, appelée propriété d’équidispersion, impliquant que E[Y ] = V ar[Y ]. Notons qu’une loi est équidispersée dans le cas
où son espérance et sa variance sont égales ; elle est surdispersée (sousdispersée) dans le cas
où son espérance est inférieure (supérieure) à sa variance. Les propriétés de dispersion des
lois discrètes communes sont présentées au Tableau ci-dessous.
On mentionne que si Yj suit une loi de Poisson de paramètre µj (j = 1, 2, . . .), que les Yj
P∞
P
sont des variables aléatoires indépendantes et que ∞
j=1 Yj suit
j=1 µj < ∞ , alors ZY =
P∞
une loi de Poisson de paramètre j=1 µj .
Loi
Binomiale(n, p)
Espérance
np
Variance
np(1 − p)
Propriété
Sousdispersion si 0 < p ≤ 1
Equidispersion si p = 0
Binomiale négative(m, p)
m
p
m(1−p)
p2
1
2
Equidispersion si p = 21
Surdispersion si p < 12
Poisson(µ)
µ
µ
Equidispersion
Sousdispersion si p >
Tab. 2.1 – Propriétés de certaines lois discrètes
b. Les fonctions de vraisemblance et de log-vraisemblance de la loi de Poisson
Soient Y1 , . . . , Yn , des observations mutuellement indépendantes telles que Yi suit une loi
de Poisson de paramètre µi , i = 1, . . . , n. Ainsi, on a θi = ln(µi ), b(θi ) = µi , a(φ) = 1 et
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
18
METHODES STATISTIQUES
c(yi , φ) = ln(yi !). En substituant ces valeurs dans les équations (2.2) et (2.3), on obtient
L(θ|y; φ) = exp
= exp
( n
X yi ln(µi ) − µi
( i=1n
X
1
−
n
X
)
ln(yi !)
i=1
!)
(2.6)
(yi ln(µi ) − µi − ln(yi !)
i=1
et
l(θ|y; φ) =
n
X
yi ln(µi ) − µi −
i=1
0
n
X
!
ln(yi !)
(2.7)
i=1
0
où θ = [ln(µ1 ), . . . , ln(µn )] = [θ1 , . . . , θn ] .
2.1.3
Les modèles linéaires généralisés
Un modèle linéaire généralisé (abrégé en anglais GLM, pour Generalized Linear Model )
est une extension du modèle de régression linéaire, permettant à la variable endogène de
suivre n’importe quelle loi de probabilité ayant une densité sous la forme (2.1).
a. Quand utilise-t-on un GLM plutôt qu’un modèle linéaire ?
Dans le cas où la variable réponse n’est pas continue, le modèle linéaire n’est pas approprié.
Une autre raison expliquant le fait qu’un modèle linéaire n’est pas approprié est tout
simplement le cas où la relation entre la variable endogène et la (les) variable(s) exogène(s)
n’est pas linéaire. Une fonction de lien adéquatement choisie permet de mieux modéliser
l’effet des variables exogènes sur la variable endogène dans un GLM.
b. Les composantes d’un GLM
Un modèle linéaire généralisé est composé de trois éléments, à savoir :
1. la variable à expliquer Y , composante aléatoire à laquelle est associée une loi de probabilité de densité sous forme (2.1) ;
2. les variables explicatives X1 , . . . , Xp , p ∈ ℵ∗ utilisées comme prédicteurs dans le modèle ;
3. le lien qui décrit la relation fonctionnelle entre la combinaison linéaire des variables
X1 , . . . , Xp et l’espérance mathématique de la variable à expliquer Y .
Nous allons maintenant étudier la régression de Poisson qui est un cas particulier d’un
GLM.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
19
METHODES STATISTIQUES
2.1.4
La régression de Poisson
Soient une réponse Yi à valeur dans ℵ, un vecteur de régresseurs xi = (1, xi1 , . . . , xip ) et
β = (β0 , . . . , βp ) vecteur des paramètres.
La régression de Poisson est utilisée dans le cas où la variable réponse, Yi , est une variable
de dénombrement et qu’on suppose que
e−µi µyi i
, i = 1, . . . , n
(2.8)
P [Yi = yi |xi ] =
yi !
La fonction de lien dans la régression de Poisson est le lien logarithmique, c’est-à-dire ln(µi ) =
0
xi β.
a. Le modèle de régression de Poisson
Soient n observations indépendantes d’une variable explicatives Yi (i = 1, . . . , n) et p
variables explicatives xi = (1, xi1 , . . . , xip ) pour ces n variables réponses. De plus supposons
que Yi |xi suit une loi de Poisson de paramètre µi et que la fonction de lien est g(µi ) = ln(µi ).
Le modèle de Poisson permet d’avoir une approximation de µi , en estimant le vecteur
des paramètres β.
Estimation de β par maximum de vraisemblance
Estimer le vecteur des paramètres β par maximum de vraisemblance, revient à maximiser la
log-vraisemblance, c’est-à-dire résoudre l’équation
U (β) = 0,
où U (β) représente le vecteur gradient par rapport à β de la log-vraisemblance l(y|θ, φ). Or
à partir de l’équation (2.7), on a :
n
X
U (β) =
xi (yi − µi )
(2.9)
i=1
0
Avec µi = exp(xi β).
La matrice hessienne de l(y|θ, φ) de dimension (p + 1) × (p + 1) est donnée par
n
X
0
0
H(β) = −
xi xi µi = −X diag(µ)X
i=1
où diag(µ) désigne la matrice diagonale de
sont µ1 , . . . , µn . Et

1 x11

 1 x21

X=
 1 x31
 .. ..
 . .
dimension n × n dont les éléments principaux
x12
x22
x32
..
.
1 xn1 xn2
Master de Statistique Appliquée.
· · · x1p
· · · x2p
· · · x3p
.
..
. ..
· · · xnp








© HERNANDEZ LELE, UY1/ENSP 2012
20
METHODES STATISTIQUES
est la martice de dimension n × (p + 1) des vecteurs explicatifs xi .
La procédure itérative de Newton-Raphson pour obtenir l’estimation du maximum de
vraisemblance β̂ de β est la suivante : partant d’une valeur initiale βˆ0 , que l’on espère proche
ème ˆ
βr par
de β, on définit la (r + 1)ème valeur approchée de βd
r+1 de β̂, à partir de la r
0
−1 0
ˆ
βd
ˆr )X
X (y − µˆr ) ,
(2.10)
r+1 = βr + X diag(µ
avec g(µˆr ) = X βˆr
b. L’interprétation d’estimations de paramètres βˆk (scalaires)
Les estimations des paramètres βˆk (k = 0, . . . , p) (scalaires) ont une interprétation particulière sous le lien logarithmique. Ainsi, βˆ0 représente le logarihme naturel de l’espérance
de la variable réponse lorsque les p variables exogènes prennent simultanément la valeur 0 :
ˆ
µ̂i = eβ0 ;
d’où βˆ0 = ln(µ̂i ).
Quant aux paramètres βˆ1 , . . . , βˆp , si on augmente xil (l < p) d’une unité et que l’on maintient
constante la valeur des autres variables exogènes, alors la valeur moyenne de Yi est multipliée
ˆ
par eβl :
c. Les résidus de Pearson
Les résidus de Pearson, rPi permettent de mesurer l’adéquation d’un modèle à un jeu de
données. Ils sont définis comme étant :
Yi − µ
bi
rPi = √
w
bi
On note que w
bi est un estimé de la variance de Yi . Dans le cas de la loi de Poisson, w
bi = µ
bi ,
et alors :
Yi − µ
bi
rPi = p
.
(2.11)
µ
bi
d. La validation d’un modèle : la statistique de Pearson
La statistique de Pearson, notée X 2 , mesure l’ajustement d’un modèle. Cette statistique
est obtenue en sommant les carrés des résidus de Pearson définis à l’équation (2.11). Si le
modèle que l’on tente d’ajuster aux données est bon, cette statistique devrait suivre approximativement une loi du khi-deux avec n − p − 1 degrés de liberté.
La statistique de Pearson peut aussi être utilisée afin de déceler des problèmes avec l’hypothèse d’équidispersion. En fait, si X 2 >> n − p − 1, il y a lieu de penser que les données sont
surdispersées.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
21
METHODES STATISTIQUES
2.2
Les équations d’estimation généralisées (GEE)
En sciences appliquées, il est fréquent de prendre des mesures sur un même individu à
plusieurs moments dans le temps (on parle alors de données longitudinales), ce qui fait que
la corrélation des mesures pour un individu particulier doit être prise en considération dans
les analyses statistiques. Les méthodes décrites précédemment ne sont alors plus valides,
puisqu’elles ne tiennent pas compte de la corrélation entre les observations prises sur un
même individu. La méthode GEE va permettre de résoudre le problème en permettant
d’estimer les paramètres d’un modèle de données longitudinales.
L’approche par GEE ne spécifie pas entièrement la distribution conjointe des Yi , mais
plutôt une modélisation de la moyenne et une spécification de la structure de corrélation.
Dans le contexte longitudinal, différentes formes de travail de la structure de corrélation sont
utilisées et les estimateurs sont solutions des GEE. Un élément attrayant de cette approche
est que les estimations des paramètres du modèle sont convergentes même dans l’éventualité
où la structure de corrélation serait mal spécifiée.
Les données longitudinales sont analysées en utilisant la même fonction de lien et le même
prédicteur linéaire que dans un cas où les données seraient indépendantes. Pour une analyse
longitudinale, on permet aux variables réponses d’être corrélées entre elles pour un individu
donné. Cependant, elles doivent être indépendantes d’un individu à l’autre.
2.2.1
Des définitions
Soit la fonction de lien g(µit ) = x0it β = ηit (t = 1, · · · , ni ) où µit = b0 (θit ) = E(Yit )
et supposons le vecteur de dimension ni × 1 des variables réponses pour l’individu i(i =
1, · · · , n), noté Yi = [Yi1 , · · · , Yin1 ]0 . De plus, chacun des vecteurs Yi a comme vecteur moyen
µi = [µi1 , · · · , µin1 ]0 . Finalement, posons le vecteur x0it = [xit1 , · · · , xitp ] comme étant le
vecteur de dimension p × 1 des variables indépendantes ou explicatives pour le ième individu
au temps t.
Une matrice de dimension ni × p regroupant l’ensemble des variables explicatives de
l’individu i peut être obtenue à partir des différents vecteurs xit . On note alors Xi :




0
Xi = [xi1 , · · · , xini ] = 



xi11
xi21
xi31
..
.
xi12
xi22
xi32
..
.
xi13
xi23
xi33
..
.
···
···
···
xi1p
xi2p
xi3p
..
.




.



xini 1 xini 2 xini 3 · · · xini p
Définissons de plus les matrices et vecteurs suivants :
∆i = diag
dθit
dηit
= diag
dθit
dx0it β
Master de Statistique Appliquée.
de dimension ni × ni ,
© HERNANDEZ LELE, UY1/ENSP 2012
22
METHODES STATISTIQUES
Si = Yi − µi est de dimension ni × 1,
1
diag(Var(Yit )) est de dimension ni × ni .
φ
Supposons enfin que la densité marginale de Yit vérifie l’équation (2.1), c’est-à-dire que
la densité de Yit se réexprime comme suit :
Ai = diag (b”(θit )) =
f (yit θit ; φ) = exp
2.2.2
Yit θit − b(θit )
− c(Yit , φ) .
φ
(2.12)
Les équations d’estimation sous l’indépendance (IEE)
Dans le cas où l’on suppose que Yit1 est indépendant de Yit2 (t1 6= t2 ) ∀i = 1, . . . , n,
l’estimation des paramètres βk se fait en posant égale à 0 la fonction score. Cette fonction
score est définie comme étant le vecteur dont l’élément en position k (k = 0, · · · , p0 ) est
donné par :
Uk (βk ) =
∂
l(Y β).
∂βk
De plus, dans le cas où nous sommes en présence d’une loi vérifiant l’équation 2.1,
( n n )
i
XX
θ
Y
−
b(θ
)
it
it
it
− c(Yit , φ)
l(Y β) = exp
φ
i=1 t=1
ni n X
X
θ
Y
−
b(θ
)
it
it
it
l(β Yi ) = ln(L(β Yi )) =
− c(Yit , φ)
φ
i=1 t=1
ni
n
∂l(β Yi ) X X
1
dθit
dθit
0
Uk (βk ) =
=
Yit
− b (θit )
∂βk
φ
dβ
dβk
k
i=1 t=1






ni
n X

X
1  dθit dηit
dθ
dη
it
it
0
=
Yit
− b (θit )
φ
dηit dβk
dηit dβk 


i=1 t=1
 |{z}

|{z}
≡∆it
=
=
ni
n X
X
i=1 t=1
ni
n X
X
i=1 t=1
≡∆it
1
{Yit ∆it xitk − b0 (θit )∆it xitk }
φ
1
(Yit ∆it xitk − µit ∆it xitk )
φ
ni
n X
X
1
=
∆it xitk (Yit − µit ).
φ
i=1 t=1
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
23
METHODES STATISTIQUES
En utilisant la notation matricielle, on peut donc écrire le système d’équations à résoudre
comme suit :
n
X
1 0
UIEE (β) =
Xi ∆i (Yi − µi )
φ
i=1
b résolvons :
Ainsi, afin de trouver β,
UIEE (β) = 0
=⇒
n
X
1 0
Xi ∆i (Yi − µi ) = 0
φ
i=1
=⇒
n
X
Di0 Vi−1 Si = 0,
(2.13)
i=1
∂µi
et Vi = φAi Ri (α)Ai avec Ri = I.
∂β
Donc, dans le cas où nous sommes en présence de données indépendantes, le vecteur β est
obtenu en résolvant le système d’équations UIEE (β) = 0, et la matrice de variance-covariance
des βb peut être estimée de façon convergente (Liang et Zeger, 1986) par :
!−1
! n
!−1
n
n
X
X
X
Vb =
X 0 ∆i Ai ∆i Xi
X 0 ∆i Si S 0 ∆i Xi
X 0 ∆i Ai ∆i Xi
1
2
où Di = Ai ∆i Xi =
1
2
i
i
i=1
i
i=1
i
i=1
β=βb
Si les Yit ne sont pas indépendantes et que les équations d’estimation sous l’indépendance
b Cependant, si les Yit sont
sont utilisées, Vb donne un estimé valide de la variance de β.
vraiment des données indépendantes, la matrice de variance-covariance peut être estimée de
façon plus efficace par
!−1
n
X
0
b
V =
Xi ∆i Ai ∆i Xi
b
i=1
β=β
.
Intervalles de confiance et tests d’hypothèses pour βj
On utilise le fait que β̂ est un estimateur du maximum de vraisemblance de β et par
conséquent asymptotiquement on aura que β̂ suit approximativement une loi gaussienne de
vecteur moyen β et de matrice de variance-covariance V̂ . Ainsi, pour un paramètre individuel βj , soit Vjj l’élément de V̂ correspondant à la variance de βbj . Alors de cette proprieté
asymptotique de β̂, on a :
βbj − βj
P [−z α2 ≤ p
≤ z α2 ] ≈ 1 − α
Vjj
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
24
METHODES STATISTIQUES
z α2 est le quantile d’ordre α2 d’une loi normale centrée réduite.
Ceci suggère l’intervalle de confiance de niveau 1 - α suivant pour βj :
βbj ± z α2
p
Vjj
Pour tester une hypothèse de la forme H0 : βj = βj0 contre H1 : βj 6= βj0 ou H2 : βj > βj0
ou H3 : βj < βj0 , la procédure est simple. On calcule tout d’abord sous H0 la statistique de
cj −βj0
β
.
test Z0 = √
Vjj
Soit γ ∈]0, 1[
– Si 2P[N(0,1)≥ |z0 | ](P-value) < γ alors on accepte H1 sinon, on garde H0
– Si P[N(0,1)≥ z0 ] < γ alors on accepte H2 sinon, on garde H0
– Si P[N(0,1)≤ −z0 ] < γ alors on accepte H3 sinon, on garde H0
Revenons maintenant dans le cas général où les données ne sont plus supposées indépendantes. Il sera question ici, d’estimer les paramètres du modèle par la méthode GEE.
2.2.3
Les équations d’estimation généralisées (GEE)
Les équations d’estimation généralisées ont été développées par Liang et Zeger (1986) afin
de traiter les données corrélées entre elles quand celles-ci peuvent être vues marginalement
comme un modèle linéaire généralisé.
Soit Ri (α) une structure de corrélation de travail pour Yi . Ici on suppose que cette matrice
contient certains paramètres inconnus que l’on représente par le vecteur α. Des choix pour
cette matrice sont donnés à la sous section 2.2.5 en page 26.
Une matrice de covariance pour Yi peut être calculée comme suit :
1
1
Vi = φAi2 Ri (α)Ai2 .
(2.14)
En utilisant la valeur de Vi de l’équation 2.14, dans l’équation 2.13, on obtient les équations d’estimation généralisées données par :
UGEE (β) =
n
X
Di0 Vi−1 (b
α)Si = 0,
(2.15)
i=1
où




0
Di =
=

∂β

∂µ0i
Master de Statistique Appliquée.
xi11
g 0 (µi1 )
xi12
g 0 (µi1 )
xi21
g 0 (µi2 )
xi22
g 0 (µi2 )
···
xi1(p+1)
g 0 (µi1 )
xi2(p+1)
g 0 (µi2 )
···
..
.
..
.
···
..
.
xini 1
g 0 (µini )
xini 2
g 0 (µini )
..
.
xini (p+1)
,
g 0 (µini )







© HERNANDEZ LELE, UY1/ENSP 2012
25
METHODES STATISTIQUES
et où α
b est un estimateur convergent de α. L’équation (2.15) doit être résolue de façon
itérative afin de trouver βb et l’algorithme qui sera utilisé à cette fin est présenté à la sous
section 2.2.4 qui suit.
Malheureusement, en pratique, la matrice Ri (α) est inconnue. Dans le cas où la matrice
Ri (α) est la vraie matrice de corrélation (ce qui est généralement peu probable), la matrice
de variance asymptotique de βb pourrait être estimée par :
!
−1
n
X
0 −1
α=α
Vv =
Di Vi Di
(2.16)
b
i=1
b
β=β
φ = φb
Mais comme Ri (α) n’est qu’une matrice de corrélation de travail et est possiblement
fausse, alors on estime la variance de βb par un estimateur de matrice de variance sandwich :
!
n
X
0 −1
0 −1
(2.17)
Vc = Vv
Di Vi Si Si Vi Di Vv α = α
b
i=1
b
β=β
φ = φb
=
n
X
!−1
Di0 Vi−1 Di
i=1
!
!
−1 n
n
X
X
α=α
Di0 Vi−1 Si Si0 Vi−1 Di
Di0 Vi−1 Di
b
i=1
i=1
β = βb
φ = φb
L’estimateur Vc donné par (2.17) est souvent appelé "estimateur sandwich" de la variance
b
de β.
2.2.4
L’estimation du paramètre βb (estimateur de β)
L’algorithme de Newton-Raphson suivant est proposé afin de trouver la valeur du paramètre βb (vecteur) dans le cas où les données sont corrélées ou mesurées à travers le temps :
1. Calculer, selon l’équation (2.13) de la page 23, un estimé initial de β à partir d’un modèle linéaire généralisé supposant l’indépendance des observations : dénoter le vecteur
obtenu par βb(0) ;
2. Estimer α
b et φb à partir du βb de l’étape précédente et à partir des résidus de Pearson.
Le α
b est obtenu selon l’une des expressions (2.19), (2.22), (2.23), (2.24) tandis que le φb
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
26
METHODES STATISTIQUES
est obtenu selon l’une des expressions (2.20) ou (2.21). Obtenir finalement une matrice
de corrélation Ri (b
α) basée sur la structure de la matrice Ri (α) supposée au préalable ;
1
1
b 2 Ri (b
α)Ai2 ;
3. Calculer la matrice de covariance Vi = φA
i
4. Obtenir un nouveau vecteur βb :
n
X
βb(r+1) = βb(r) +
!−1
Di0 Vi−1 Di
i=1
!
n
X
0 −1
Di Vi Si α = α
b(r)
i=1
β = βb(r)
φ = φb(r)
(2.18)
5. Recommencer les étapes 2 à 4 jusqu’à convergence.
Lorsque le modèle pour µ est bien spécifié, les βb obtenus par la méthode des équations
d’estimation généralisées s’approchent des paramètres β quand n −→ ∞, peu importe le
choix de Ri (α). Cependant, un bon choix de Ri (α) assure des estimations plus efficaces de
β et de sa variance.
2.2.5
Les types de matrices de corrélation Ri (α) les plus connus.
La structure autorégressive
Cette première structure de corrélation est utile lorsque l’on suppose une dépendance
temporelle des répétitions. Par exemple, si l’on mesure la taille d’un individu en 10 années
consécutives, il est possible alors de dire que les mesures sont dépendantes les unes des autres
dans le temps et que les répétitions ont un ordre chronologique. Ce type de matrice nécessite
l’estimation d’un seul paramètre. On a :
0
corr(Yit , Yit0 ) = α|t−t | pour |t − t0 | = 0, · · · , ni − t,
Donc,




Ri (α) = 



1
α
α2
..
.
α
1
α
..
.
α2
α
1
..
.
αni −1 αni −2 αni −3
· · · αni −1
· · · αni −2
· · · αni −3
..
..
.
.
···
1








Dans le but de trouver la valeur de α
b, les résidus de Pearson doivent être calculés, et
ceux-ci sont définis comme à la sous-section 2.1.4 de la page 20. On calcule ensuite :
α
b=
Master de Statistique Appliquée.
1
(K1 − p)φb
n
X
X
rPit rPi(t+1) ,
(2.19)
i=1 t≤ni −1
© HERNANDEZ LELE, UY1/ENSP 2012
27
METHODES STATISTIQUES
où
K1 =
n
X
(ni − 1),
i=1
et
ni
K X
X
1
φb =
n
X
!
−p
ni
rP2 it .
(2.20)
i=1 t=1
i=1
Une deuxième façon d’exprimer φb est :
φb =
1
n
X
ni
n X
X
ni
rP2 it .
(2.21)
i=1 t=1
i=1
La structure d’équicorrélation
Cette structure est utilisée lorsque les mesures répétées ne dépendent pas du temps et
lorsque l’on suppose que les observations ont une corrélation commune. Un exemple de ce
type de données peut être les différentes mesures prises chez les individus de la ième famille.
Un seul paramètre, α, est estimé. On a :
(
corr(Yit , Yit0 ) =
1, si t = t0 ,
α, si t 6= t0 ,
Et donc




Ri (α) = 



1 α α ···
α 1 α ···
α α 1 ···
.. .. .. . .
.
. . .
α α α ···
α
α
α
..
.








1
Afin d’obtenir l’estimateur de α, les résidus de Pearson vus auparavant doivent être
calculés. Ensuite :
n X
X
1
rPit rPi(t+1) ,
(2.22)
α
b=
(N ∗ − p)φb i=1 t6=t0
où
∗
N =
n
X
ni (ni − 1).
i=1
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
28
METHODES STATISTIQUES
La structure d’indépendance
On utilise ce type de matrice lorsque l’on suppose que le temps n’a pas d’effet sur les
mesures prises. En supposant que Ri (α) = Ini , on se ramène aux équations décrites à la
section 2.2.2 en page 22. On a :
(
1, si t = t0 ,
corr(Yit , Yit0 ) =
0, si t 6= t0 ,
La structure m-dépendante
Pour ce type de matrice, m paramètres doivent être estimés. On a :


si |t − t0 | = 0,
 1,
corr(Yit , Yit0 ) =
α|t−t0 | , si |t − t0 | = 1, 2, · · · , m,


0,
si |t − t0 | > m,
où
α
b|t−t0 | =
n
X
1
(K|t−t0 | − p)φb
X
i=1 t≤ni
rPit rPit0 ,
(2.23)
−|t−t0 |
et
K|t−t0 | =
n
X
(ni − |t − t0 |).
i=1
Pour une matrice de corrélation de dimension ni × ni , il existe ni − 1 choix possibles pour
m. Par exemple, si ni = 4, on a :
• 1-DÉPENDANTE



Ri (α) = 

1 α1 0 0
α1 1 α1 0
0 α1 1 α1
0 0 α1 1





• 2-DÉPENDANTE



Ri (α) = 


1 α1 α2 0
α1 1 α1 α2 


α2 α1 1 α1 
0 α2 α1 1
• 3-DÉPENDANTE



Ri (α) = 

Master de Statistique Appliquée.

1 α1 α2 α3
α1 1 α1 α2 


α2 α1 1 α1 
α3 α2 α1 1
© HERNANDEZ LELE, UY1/ENSP 2012
29
METHODES STATISTIQUES
Non-structuré
Cette structure de corrélation n’impose aucune structure particulière à la matrice Ri (α).
1
Un total de ni (ni − 1) paramètres sont estimés pour ce type de matrice. On pose :
2
(
1,
si t = t0 ,
corr(Yit , Yit0 ) =
αtt0 , si t 6= t0 ,
D’où




Ri (α) = 



1
α12
α13
..
.
α12
1
α22
..
.
α13
α12
1
..
.
α1ni α2ni α3ni
· · · α1ni
· · · α2ni
· · · α3ni
..
..
.
.
··· 1








et on estime αtt0 par :
α
btt0 =
2.2.6
1
n
X
(K − p)φb
i=1
rPit rPit0 .
(2.24)
Conclusion
Les équations d’estimation généralisées sont utilisées afin de trouver la valeur des paramètres βbk (scalaire) d’un modèle de régression dans le cas où plusieurs mesures ont été prises
sur un même individu en différentes périodes. Ces équations seront appliquées à la régression
de Poisson longitudinale de la section suivant.
2.3
La régression de Poisson longitudinale
La régression de Poisson jusqu’ici a été introduite dans le cas où les données sont indépendantes les unes des autres. Cependant, il a été vu à la section précedente que ce n’est pas
toujours le cas : il arrive fréquemment que des mesures soient prises sur un même individu
à plusieurs moments distincts dans le temps, ce qui induit de la corrélation. En ajoutant la
condition que la variable réponse en soit une de dénombrement, nous obtenons un cas où la
régression de Poisson longitudinale doit être considérée. Cette section appliquera l’approche
basée sur les GEE dans le cas où la variable réponse en soit une de dénombrement.
2.3.1
Les données longitudinales
Il a été mentionné auparavant que des données longitudinales surviennent lorsque des
mesures sont prises sur des individus à travers le temps. Les deux raisons suivantes peuvent
motiver la réalisation d’analyses longitudinales :
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
30
METHODES STATISTIQUES
1. Accroître la sensibilité lors des comparaisons entre les sujets ;
2. Étudier les variations à travers le temps.
2.3.2
Les équations d’estimation généralisées dans le cas d’une loi
de Poisson
Nous supposons dans cette section que la variable à expliquer est de dénombrement (plus
précisément lorsqu’elle suit une loi de Poisson.
A la sous section 2.2.3, nous avons vu que les équations d’estimation généralisées (équation 2.15) sont données par :
U (β) =
n
X
Di0 Vi−1 Si = 0.
(2.25)
i=1
1
1
1
diag(Var(Yit )), Si = Yi − µi et Vi = φAi2 Ri (α)Ai2 .
φ
Comme les données proviennent d’une loi de Poisson, il s’ensuit que :
Avec Di = Ai ∆i Xi , Ai =
0
d(ln(µit ))
d(ln(exit β ))
dx0 β
dηit
dθit
=
=
= it =
= 1,
∆it =
dηit
dηit
dηit
dηit
dηit
Et Ai = diag(µit ), alors, ∆i = Ini et Di = Ai Xi . L’équation 2.17 se réduit donc à :
U (β) =
n
X
1
1
Xi0 Ai {Ai2 Ri (α)Ai2 }−1 Si = 0.
(2.26)
i=1
Dans le cas où nous avons des données indépendantes, la fonction de vraisemblance
ni
n Y
Y
f (Yit |xit ), avec f (Yit |xit ) définit comme à l’équation 2.29, permet d’avoir
obtenue par
i=1 t=1
les équations d’estimation généralisées. Ainsi, nous avons :
l(µi |Yi ) = ln(L(µi |Yi )) =
ni
n X
X
0
[−exit β + Yit x0it β − ln(Yit !)]
i=1 t=1
.
Et la fonction score est :
U (β) =
=
ni
n X
X
i=1 t=1
ni
n X
X
0
[−x0it exit β + Yit x0it ]
0
[x0it {−exit β + Yit }]
i=1 t=1
=
n
X
Xi0 [−µi + Yi ]
i=1
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
31
METHODES STATISTIQUES
=
n
X
Xi0 Si .
(2.27)
i=1
Dans le cas où les données ne seraient pas indépendantes, la fonction score est généralisée
ainsi :
n
X
1
1
Xi0 Ai {Ai2 Ri (α)Ai2 }−1 Si .
(2.28)
i=1
Donc, en posant Ri (α) = Ini dans l’équation 2.28, nous nous rapportons à l’équation 2.27,
car :
U (β) =
n
X
1
1
Xi0 Ai {Ai2 Ri (α)Ai2 }−1 Si
i=1
=
n
X
1
1
Xi0 Ai {Ai2 Ini Ai2 }−1 Si
i=1
=
=
n
X
i=1
n
X
1
1
Xi0 Ai {Ai2 Ai2 }−1 Si
Xi0 Ai A−1
i Si
i=1
=
n
X
Xi0 Si .
i=1
2.3.3
Le modèle de la régression de Poisson longitudinale
De la même façon qu’à la sous-section 2.4 de la section 2, nous avons toujours :
f (Yit | xit ) =
e−µit µYitit
, i = 1, · · · , n, t = 1, · · · , ni .
Yit !
(2.29)
0
avec µit = exit β . Nous tentons encore d’estimer l’espérance de la variable réponse avec
une fonction de lien logarithmique et le même prédicteur linéaire ηit . Ainsi, nous voulons
0
estimer µit = exit β = exp{β0 + β1 xit1 + · · · + βp0 xitp0 }. Quant au vecteur xit , il est défini
comme à la section 2.2.1.
Pour une régression de Poisson longitudinale, Zorn (2001) mentionne que l’interprétation
des paramètres est toujours la même que sous l’hypothèse d’indépendance des observations.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
32
METHODES STATISTIQUES
Ce que nous avons fait jusqu’ici, est de présenter les outils statistiques permettant de
modéliser la fréquence moyenne des sinistres des garanties dommages à Chanas Assurances.
Mais pour une estimation du taux de prime pure, nous avons également besoin d’avoir une
estimation du coût relatif moyen des sinistres. C’est pourquoi dans ce qui suit, nous allons
présenter la statistique X et donnée quelques une de ses proriétés.
2.4
Convergences des suites de variables aléatoires et étude
de la statistique X
2.4.1
Quelques types de convergence et le théorème central-limite
Une suite (Xn ) de variables aléatoires étant une suite de fonctions de Ω (l’univers des
possibles) dans <, il existe diverses façons de définir la convergence de (Xn ).
a. La convergence en probabilité
La suite (Xn ) converge en probabilité vers la constante a si, ∀ et η (arbitrairement
petits), il existe n0 tel que n > n0 entraîne :
P (|Xn − a| > ) < η,
P
et on note alors (Xn ) → a.
b. La convergence presque sûre ou convergence forte
La suite (Xn ) converge presque sûrement vers X si :
P (ω| lim Xn (ω) 6= X(ω)) = 0,
n→∞
ps
et on note (Xn ) → X.
c. La convergence en loi
La suite (Xn ) converge en loi vers la variable X de fonction de répartition F si, en tout
point de continuité de F , la suite (Fn ) des fonctions de répartition des Xn converge vers F .
l
On note (Xn ) → X.
d. Le théorème central-limite
L’étude de sommes de variables indépendantes et de même loi joue un rôle capital en
statistique.
Le théorème suivant connu sous le nom de théorème central-limite établit la convergence
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
33
METHODES STATISTIQUES
vers la loi de Gauss sous des hypothèses peu contraignantes.
Théorème
Soit (Xn ) une suite de variables aléatoires indépendantes de même loi d’espérance µ et
d’écart-type σ. Alors :
X1 + X2 + · · · + Xn − nµ
1
l
√
→ LG(0; 1).
σ
n
LG désigne la loi gaussienne.
2.4.2
La statistique X
Soient X1 , . . . , Xn une suite de variables aléatoires i.i.d telles que ∀i = 1, . . . , n, E[Xi ] =
m et V ar[Xi ] = σ 2
Définition
La statistique X ou moyenne empirique de l’échantillon est :
n
1X
X=
Xi
n i=1
a. Propriétés
E[X] = m
et
V ar[X] =
σ2
n
b. Loi des grands nombres
Elles sont de deux types : lois faibles mettant en jeu la convergence en probabilité et lois
fortes relatives à la convergence presque sûre.
Ici, les suites de variables aléatoires X1 , . . . Xn sont non nécessairement de même loi.
Loi faible des grands nombres
Soient X1 , . . . Xn indépendantes d’espérance m1 , . . . , mn finies et de variance σ12 , . . . , σn2
finies.
P
P
P
P
P
Si n1 ni=1 mi → m et si n12 ni=1 σi2 → 0, alors X = n1 ni=1 Xi est tel que :
P
X → m.
Loi forte des grands nombres
P
P
P
Soit X1 , . . . Xn indépendantes telles que n1 ni=1 mi → m et ni=1
alors :
ps
X → m.
Master de Statistique Appliquée.
σi2
i
est convergente ;
© HERNANDEZ LELE, UY1/ENSP 2012
34
METHODES STATISTIQUES
c. Distribution
Le théorème central-limite peut s’écrire :
X −m l
√ → LG(0; 1)
σ/ n
Ce résultant permet d’obtenir un intervalle de confiance de m pour des grandes valeurs
de n. Mais nous allons utiliser la méthode de simulation bootstrap pour obtenir un intervalle
de confiance de m. Mais avant de présenter cette méthode, nous allons d’abord parler de la
mesure de liaison entre une variable qualitative et une variable quantitative.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
35
METHODES STATISTIQUES
2.5
Mesure de liaison entre une variable qualitative et
une variable quantitative
Dans cette partie, nous allons élaborer le procédé théorique qui permet de mesurer la
liaison entre une variable qualitative et une variable quantitative.
2.5.1
Décomposition de la variance d’une variable quantitative Y
Si l’on a définit c groupes (correspondant aux c modalités de la variables qualitative X)
et si l’on note yj et s2j , j = 1, . . . , c les moyennes et variances conditionnelles à chaque sousgroupe d’effectif n.j , et ȳ la moyenne globale alors :
La variance de la variable Y se décompose de la façon suivante :
s2y = Vinter + Vintra
(2.30)
où
– Vinter =
– Vintra =
2.5.2
1
n
1
n
Pc
2
j=1 n.j (yj − ȳ) est la variance inter-groupes.
Pc
2
j=1 n.j sj est la variance intra-groupe.
Un indicateur de la liaison entre une variable quantitative et
une variable qualitative : le rapport de corrélation
Pour quantifier la liaison qui existe entre une variable quantitative Y et une variable
qualitative X, on va construire un indicateur numérique qui va mesurer la différence entre
les moyennes conditionnelles de Y sachant X par rapport à la moyenne globale de Y : c’est
le rapport de corrélation de Y par rapport à X défini par
s
s
Vinter
Vintra
ηY |X =
= 1− 2 .
(2.31)
2
Sy
sy
Cet indicateur est basé sur la décomposition de la variance de la variable quantitative Y.
2.5.3
Interprétation du rapport de corrélation
Plus la variance inter-groupes est grande, plus il y a de disparités entre les moyennes
conditionnelles de chaque groupe et donc plus la variable X influe sur la variable Y.
– Plus ηY |X est proche de 1 (Vinter » Vintra ) plus l’hétérogénéité d’un groupe à l’autre est
très importante, donc il existe une forte liaison entre X et Y .
– Lorsque ηY |X est proche de 0 (Vinter « Vintra ), cela se traduit par des moyennes conditionnelles qui fluctuent peu entre elles, il n’y a pas de liaison entre X et Y
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
METHODES STATISTIQUES
36
La fontion R construite ("coef.test.quant.qualit") qui permet la mise en oeuvre du calcul du
rapport de corrélation se trouve en Annexe.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
37
METHODES STATISTIQUES
Nous allons maintenant présenter la méthode de simulation bootstrap qui va permettre
d’estimer l’intervalle de confiance du taux de prime pure.
2.6
Méthode bootstrap
2.6.1
introduction
Imaginé par Efron en 1979, le bootstrap a vu son champ d’application s’étendre considérablement : intervalles de confiance et tests d’hypothèses, distribution d’échantillonnage,
etc.
L’usage du bootstrap dans la résolution de problèmes actuariels est récent, mais s’étend
rapidement en particulier en tarification.
Etant essentiellement des simulations, les procédures bootsrap sont simples à mettre en
oeuvre. Leur justification théorique est plus complexe. Dans cette partie, nous présentons
les principes du bootstrap.
2.6.2
Echantillon Bootstrap
Notations
Soit X une variable aléatoire réelle (v.a.r.) de fonction de répartition (f.r.) F inconnue.
On dispose d’un n-échantillon (i.i.d) X = (X1 , . . . , Xn ) de X dont on notera x = (x1 , . . . , xn )
une réalisation. Soient :
– Fn , la f.r. empirique associée à l’échantillon ;
– Π(F ), le paramètre statistique que l’on cherche à estimer à l’aide de l’échantillon ;
– Tn (X1 , . . . , Xn ), un estimateur de celui-ci.
– M ISE(Tn ) = E [Tn − π(F )]2 et V (Tn ) l’erreur quadratique et la variance de Tn ,
indicateurs standard de l’erreur d’estimation de π(F ) par Tn .
Bootstrap
Un échantillon bootstrap est un n-échantillon de la f.r. empirique Fn , soit X ∗ =
(X1∗ , . . . , Xn∗ ) tel que P (Xi∗ = Xj ) = n1 pour 1, j ≤ n.
Une réalisation bootstrap x∗ = (x∗1 , . . . , x∗n ) résulte donc d’un tirage avec remise de n
éléments dans l’échantillon initial x1 , . . . , xn .
T (X1∗ , . . . , Xn∗ ) est appelé réplique bootstrap de Tn de réalisation T (x∗ ) pour T (x).
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
38
METHODES STATISTIQUES
2.6.3
Estimation de la variance
On tire B échantillons indépendants (X1∗b , . . . , Xn∗b ), b = 1, . . . , B de Fn .
Pour b = 1, . . . , B, on obtient Tn∗b = T X1∗b , . . . , Xn∗b , bi−me réplique bootstrap de Tn ,
puis la variance empirique
B
B
V[
Boot =
PB
2
1 X ∗b
Tn − Tn∗
B − 1 b=1
Tn∗b .
Où Tn∗ =
1
B
2.6.4
Estimation de l’erreur quadratique
b=1
L’estimation bootstrap de l’erreur quadratique est donnée par :
B
i2
1 X h ∗b
B
\
c
M ISEBoot =
T − π(Fn )
B b=1 n
2.6.5
Estimation du biais
Une estimation bootstrap du biais de l’estimateur Tn est donnée par :
∗
B
c
b[
Boot = Tn − π(Fn )
cn ) est la réalisation de Tn (X1 , . . . , Xn ) sur l’échantillon initial.
π(F
2.6.6 Estimation de l’intervalle de confiance pour π(Fn ) de niveau 1 − γ, pour γ ∈]0, 1[
1. Ranger les Tn∗b dans l’ordre croissant :
Tn∗(1) ≤ Tn∗(2) ≤ · · · Tn∗(B)
∗(kγ )
Soit Tn∗B,γ = Tn
tels que
1
card j ∈ 1, . . . , B/Tn∗(j) ≤ Tn∗(kγ ) ≈ 1 − γ
B
2. Un intervalle de confiance pour π(Fn ) de niveau ≈ 1 − γ :
h
i
∗B, γ
∗B,1− γ2
IC = Tn 2 , Tn
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
Chapitre 3
APPLICATION PRATIQUE
Dans ce chapitre, nous allons proposer une estimation du taux de primes pures
à partir des méthodes statistiques présentées au chapitre précedent. Dans un premier
temps, nous allons construire un modèle de la fréquence des sinistres. Ensuite, proposer
une estimation du coût relatif moyen des sinistres et enfin estimer le taux de primes
pures.
Rappelons que :
(taux de primes pures)=(fréquence des sinistres)×(coût relatif moyen)
3.1
Modélisation de la fréquence moyenne des sinistres
Dans la section description des données, nous avons dit qu’il n’était pas judicieux d’utiliser la variable ZONEGEO (zone géographique) dans cette étude juste parce que la
modalité A représentant les chefs lieux de régions et quelques chefs lieux de département contient à elle seule 98% des observations de la variable ZONEGEO. Il n’est
pas aussi nécessaire d’utiliser la variable ANNEE car elle permet juste de spécifier les
années d’observations d’une unité statisque.
Etant donné que la variable NBRE_SINISTRE que nous noterons prochainement N
est une variable de comptage, nous allons utiliser le modèle de régression de Poisson
pour estimer la fréquence moyenne des sinistres, c’est-à-dire l’espérance de N.
Quelques notations
Le nombre de sinistres d’une unité statistique peut être observé plus d’une fois sur la
période 2007-2011. Nous sommes donc en présence de données longitidunales.
Soit Nit le nombre de sinistres observé sur l’unité statistique i durant l’année t,
i = 1, 2, . . . , 10185, t = 1, 2, . . . , Ti , où Ti désigne le nombre d’années d’observation
pour l’unité statistique i.
Posons également xit , le vecteur colonne aléatoire des variables USAGE et GARANTIES.
39
40
APPLICATION PRATIQUE
3.1.1
Construction d’un modèle
Désignons par m1 , le vecteur des modalités croissantes de la variable USAGE de longueur 3, et m2 le vecteur des modalités croissantes de la variable GARANTIES de
longueur 8. Supposant que Nit |xit ,→ poisson(E[Nit |xit ]) ("poison" désigne la loi de
Poisson), et en considérant l’interaction entre les variables USAGE et GARANTIES,
le modèle de régression de Poisson permet d’écrire le modèle suivant :
(
3
8
X
X
E[Nit |xit ] = exp µ +
αj × 1U SAGE=m1 [j] +
βk × 1GARAN T IES=m2 [k]
j=1
+
3 X
8 X
k=1
(3.1)
γll0 × 1U SAGE=m1 [l] × 1GARAN T IES=m2 [l0 ] ,
0
l=1 l =1
∀i = 1, 2, . . . , 10185 et ∀t = 1, 2, . . . , Ti
Pour rendre le système d’équation (3.1) indentifiable, nous allons considérer comme
dans le logiciel R que
α1 = β1 = γ11 = γ12 = γ13 = γ14 = γ15 = γ16 = γ17 = γ18 = γ31 = γ21 = 0.
Il ne reste donc plus que 24 coefficients à estimer.
En supposant que Nit est indépendant de Njt ∀i 6= j, tout en n’excluant pas la possibilité que les Nit pour i fixé soient corrélées entre elles, une estimation de la fréquence
moyenne conditionnelle des sinistres sachant le type d’usage et le type de garanties du
\
véhicule est donc donnée par E[N
it |xit ] tels que :
(
\
E[N
it |xit ] = exp µ̂ +
3
X
j=1
+
3 X
8 X
αbj × 1U SAGE=m1 [j] +
8
X
βbk × 1GARAN T IES=m2 [k]
k=1
(3.2)
γc
ll0 × 1U SAGE=m1 [l] × 1GARAN T IES=m2 [l0 ]
l=1 l0 =1
∀i = 1, 2, . . . , 10185 et ∀t = 1, 2, . . . , Ti ,
0
où µ̂, α̂j (j = 2, 3),βˆk (k = 2, . . . , 8), γˆll0 (l = 2, 3etl = 2, . . . , 8) sont des estimations par GEE respectifs des paramètres µ, αj (j = 2, 3), βk (k = 2, . . . , 8), γll0
0
(l = 2, 3etl = 2, . . . , 8).
Pour le choix du type de matrice de corrélation Ri (α), les actuaires utilisent en général
la matrice de corrélation de type AR. Car on suppose que la corrélation du nombre
de sinistres est fonction du temps. D’ailleurs peu importe le choix de la structure de
corrélation, les estimations des paramètres seront sensiblement les mêmes.
La fonction geeglm du package geepack du logiciel statistique R va nous permettre
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
41
APPLICATION PRATIQUE
de construire donc ce modèle (voir Annexe).
Résultat
Coefficients
Intercept µ̂
USAGE2 αˆ2
USAGE3 αˆ3
ˆ
GARANTIES30 β2
GARANTIES40 βˆ3
GARANTIES41 βˆ4
GARANTIES50 βˆ5
GARANTIES51 βˆ6
GARANTIES60 βˆ7
GARANTIES95 βˆ8
USAGE2
USAGE3
USAGE2
USAGE3
USAGE2
USAGE3
USAGE2
USAGE3
USAGE2
USAGE3
USAGE2
USAGE3
USAGE2
USAGE3
:GARANTIES30
:GARANTIES30
:GARANTIES40
:GARANTIES40
:GARANTIES41
:GARANTIES41
:GARANTIES50
:GARANTIES50
:GARANTIES51
:GARANTIES51
:GARANTIES60
:GARANTIES60
:GARANTIES95
:GARANTIES95
γc
22
γc
32
γc
23
γc
33
γc
24
γc
34
γc
25
γc
35
γc
26
γc
36
γc
27
γc
37
γc
28
γc
38
Estimation
-1,1112
0,1709
-1,9354
-2,0837
-5,0883
-3,4773
-5,7472
-5,0293
-1,7029
-5,0340
0,8754
1,1462
1,2472
-38,1677
-0,4861
-39,7786
-39,6150
2,6379
-40,3329
-38,2267
-0,2127
-0.6523
0,2437
-38.2219
Ecart type
0,0543
0,0803
0,2590
0,4041
0,3575
0,1926
0,5027
0,4113
0,1612
0,5025
0,5335
1,1002
0,5743
0,4391
0,5369
0,3207
0,5079
0,8060
0,4186
0,4848
0,4069
1,0421
1,1194
0,5642
Statistique de wald
418.07
4,53
55,85
26,59
202,64
326,13
130,68
1490,48
111,62
100,37
2,69
1,09
4,72
7556,33
0,82
15388,27
6084,28
10,71
9282,70
6218,33
0,27
0,39
0,05
4588,78
P value
< 2e-16 ***
0,0333 *
7,8e-14 ***
2,5e-07 ***
< 2e-16 ***
< 2e-16 ***
< 2e-16 ***
< 2e-16 ***
< 2e-16 ***
< 2e-16 ***
0,1009
0,2975
0,0299 *
< 2e-16 ***
0,3653
< 2e-16 ***
< 2e-16 ***
0,0011 **
< 2e-16 ***
< 2e-16 ***
0,6011
0,5313
0,8276
< 2e-16 ***
Tab. 3.1 – Estimations des paramètres du modèle de la fréquence moyenne des sinistres en
fonction des variables USAGE et GARANTIES
L’estimation du coefficient de la matrice de corrélation "AR-1" est 0,05377 d’écart type
0,2834.
3.1.2
Effet des variables explicatives
L’ANOVA du modèle nous donne le résultat suivant :
Variables
USAGE
GANTIES
USAGE :GARANTIES
Dégré de liberté
2
7
14
statistique
267
1178
77552
P_value
<2e-16
<2e-16
<2e-16
Tab. 3.2 – table de l’Anova du modèle
Au regard de la table de l’Anova ci-dessus, il est donc évident que les variables USAGE,
GARANTIES et leur interaction ont un effet significatif sur la fréquence des sinistres.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
42
APPLICATION PRATIQUE
3.1.3
Validation du modèle
Pour valider le modèle construit, nous allons utiliser la statistique du test de Pearson
X 2 : c’est la somme des carrés des résidus de Pearson.
Hypothèses
(H0) : Le modèle ajuste bien les données
(H1) : le modèle n’ajuste pas bien les données
Statistique
La fonction R "residuals", nous permet de calculer aisément les résidus de Pearson :
res <- residuals(model,type="pearson")
2
de la statistique X 2
Ayant obtenu les résidus, il est facile de déduire l’observation Xobs
dans le logiciel R. On obtient donc :
2
Xobs
= 20495
Théoriquement, si le modèle est bon,la statistique X 2 devrait suivre approximativement une loi du khi-deux avec (n-p)=25457 degrés de liberté, car n=25481 et p=24.
Pour un seuil α = 0, 05, le quantile d’ordre 1 − α à 25457 degrés de liberté d’une loi
(1−α)
du khi-deux est qn−p = 25829.
Test
(1−α)
2
Nous avons Xobs
< qn−p , donc on garde l’hypothèse (H0). Par conséquent, le modèle que nous avons construit ajuste bien les données.
2
Xobs
Une estimation du paramètre de dispersion est donnée par : n−p
≈ 0, 81.
3.1.4 Fréquence moyenne des sinistres dans les différentes classes
de risque
Nous avons construit un code R en Annexe qui permet de déduire la fréquence moyenne
des sinistres dans chaque classe de risque (croisement des modalités des variables
USAGE et GARANTIES) à partir des paramètres du modèle. On a donc le tableau
ci-dessous.
Difficulté de la surprime
Dans notre étude, il existe des garanties qui couvrent implicitement d’autres garanties.
C’est le cas de :
– la garantie Dommages Accidents qui couvre également les risques de Bris de Glaces.
– la garantie Vol Total et Partiel qui couvre également le Vol Total
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
43
APPLICATION PRATIQUE
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
20
30
40
41
50
51
60
95
USAGE 1
0,32915
0,04097
0,00203
0,01017
0,00105
0,00215
0,05995
0,00214
USAGE 2
3,90e-01
1,17e-01
8,38e-03
7,42e-03
7,78e-21
7,78e-21
5,75e-02
3,24e-03
USAGE 3
4,75e-02
1,86e-02
7,78e-21
1,47e-03
8,04e-22
4,35e-03
8,66e-03
3,09e-04
Tab. 3.3 – Fréquence moyenne annuelle des sinistres par véhicule dans les différentes classes
de risque
– la garantie Incendie & Risques Electriques qui couvre également la garantie Incendie
Par exemple, si un client a souscrit uniquement la garantie Dommages Accidents et
que par la suite a un sinistre Bris de Glaces, l’information enregistrée dans la base de
données concernant le sinistre est celle du Bris de Glaces. Ce qui va entraîner une sous
estimation de la sinistralité de la garantie Dommages Accidents.
Pour palier à cette situation, nous avons jugé bon de faire une majoration de la prime
pure (surprime) en sommant les fréquences des sinistres. C’est-à-dire que, pour la
garantie Dommages Accidents par exemple, nous allons additionner la fréquence des
sinistres de cette garantie à celle de la garantie Bris de glaces obtenue dans le modèle. Cette addition nous donne donc la nouvelle fréquence des sinistres de la garantie
Dommages Accidents. Dans le cas où cette sommation est supérieure à 1, on majore la
fréquence des sinistres à 1. Notons que cette manière de faire est arbitraire et
a pour seul souci d’éviter de sous-estimer la fréquence des sinistres et par
ricochet la prime pure. Le même procédé sera appliqué pour déterminer le coût
relatif moyen des sinistres dans chaque classe de risque.
Nous avons alors le tableau des fréquences des sinistres amélioré suivant :
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
20
30
40
41
50
51
60
95
USAGE 1
0,38910
0,04097
0,00203
0,01220
0,00105
0,00320
0,05995
0,00214
USAGE 2
4,48e-01
1,17e-01
8,38e-03
1,58e-02
7,78e-21
1,56e-20
5,75e-02
3,24e-03
USAGE 3
5,62e-02
1,86e-02
7,78e-21
1,47e-03
8,04e-22
4,35e-03
8,66e-03
3,09e-04
Tab. 3.4 – Fréquence moyenne annuelle des sinistres par véhicule dans les différentes classes
de risque après majoration
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
44
APPLICATION PRATIQUE
Commentaires
Les différentes fréquences moyennes de sinistres obtenues dans le tableau ci-dessus
reflètent en grande partie l’analyse faite dans la description des données. On peut donc
dire que :
– la fréquence moyenne annuelle des sinistres par véhicule est plus élevée dans la grantie
Dommages Accidents ;
– les véhicules à usage touristique, ont une fréquence moyenne de sinistres plus élevée
que les autres types d’usages de véhicule ;
– les garanties les plus souscrites telles que le Vol Total et l’Incendie ont une sinistralité
relativement faible.
3.2
Estimation du coût relatif moyen des sinistres
Pour estimer le coût relatif moyen des sinistres dans chaque classe de risque, nous
allons utiliser la statistique X. Mais avant cela, nous allons mesurer la corrélation
entre les variables USAGE et COUT_RELATIF, et les variables GARANTIES et
COUT_RELATIF. En effet, dans la phase de l’analyse descriptive des données, il paraissait que le coût relatif moyen des sinistres est fonction de la variable GARANTIES.
Par contre, au niveau des catégories d’usages 1 et 2, on avait l’impression d’avoir un
même coût relatif moyen des sinistres. La différence s’observait plutôt sur les véhicules
de catégories d’usage 3.
3.2.1 Mesure de la corrélation entre la variable qualitative USAGE
et la variable quantitative COUT_RELATIF
Pour mesurer la corrélation entre une variable qualitative et une variable quantitative,
nous allons utiliser le rapport de corrélation présenté au chapitre 2. La fonction que
nous avons construite qui permet d’obtenir ce rapport est "coef.test.quant.qualit"
(voir Annexe). En appliquant donc cette fonction sur ces deux variables, on obtient
η1 = 0, 0575.
En tenant compte de l’observation faite dans l’analyse descriptive, excluons l’usage
de type 3 qui a un coût relatif moyen des sinistres au dessus des autres catégories
d’usages. Et en réduisant la variable USAGE uniquement aux modalités 1 et 2, on
obtient un rapport de corrélation η2 = 0, 00721. Nous pouvons donc dire que le coût
relatif moyen des sinistres ne varie presque pas entre les catégories d’usages 1 et 2.
Mais en considérant la catégorie d’usage 3 il y a quand même une faible variation que
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
45
APPLICATION PRATIQUE
nous n’allons pas négliger, par souci d’avoir plus de précision dans l’estimation du coût
relatif moyen des sinistres.
Bref, le coût relatif moyen des sinistres est relativement le même dans les catégories
d’usage 1 et 2 et diffère faiblement de la catégorie d’usage 3. Nous allons tenir compte
de cela dans son estimation.
3.2.2
Mesure de la corrélation entre la variable qualitative GA-
RANTIES et la variable quantitative COUT_RELATIF
En appliquant la fontion "coef.test.quant.qualit" sur les variables GARANTIES et
COUT_RELATIF, on obtient η3 = 0, 718. Il est donc clair que la variable COUT_RELATIF
est fonction de la variable GARANTIES. Par conséquent, pour chaque garantie, nous
allons estimer le coût relatif moyen des sinistres.
3.2.3 Application de la statistique X (moyenne empirique) pour
estimer le coût relatif moyen des sinistres
Nous utilisons la statistique X pour estimer le coût relatif moyen des sinistres dans
les classes de risque (le calcul de cette moyenne se fait uniquement sur les valeurs
strictements positives de la variable COUT_RELATIF). Comme on l’a dit précédemment, il sera le même pour les catégories d’usage 1 et 2 et sera fonction de la variable
GARANTIES. Pour tenir compte du caractère longitidunale des données, nous allons
considérer comme observation du coût relatif de l’individu i, la moyenne des différents
coûts relatifs (strictements positifs) observés chez cet individu sur la période 2007-2011.
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
20
30
40
41
50
51
60
95
USAGE 1
estimation : 0,0554
estimation : 0,0868
estimation : 0,684
estimation : 0,0781
estimation : 0,756
estimation : 0,216
estimation : 0,0255
estimation : 0,805
USAGE 2
estimation : 0,0554
estimation : 0,0868
estimation : 0,684
estimation : 0,0781
estimation : 0,756
estimation : 0,216
estimation : 0,0255
estimation : 0,805
USAGE 3
estimation : 0,127
estimation : 0,0868
estimation : 0,684
estimation : 0,0781
estimation : 0,756
estimation : 0,216
estimation : 0,0255
estimation : 0,805
Tab. 3.5 – Estimation du coût relatif moyen des sinistres dans les différentes classes de risque
Pour tenir compte du problème de surprime énoncé lors de l’estimation de la fréquence moyenne des sinistres, nous allons procéder de la même manière. Et on obtient
ci-dessous après correction, l’estimation du coût relatif moyen des sinistres dans les
différentes classes de risque.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
46
APPLICATION PRATIQUE
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
GARANTIES
20
30
40
41
50
51
60
95
USAGE 1
0,0810
0,0873
0,6842
0,7628
0,7561
0,9707
0,0255
0,8051
USAGE 2
0,0810
0,0873
0,6842
0,7628
0,7561
0,9707
0,0255
0,8051
USAGE 3
0,1514
0,0873
0,6842
0,7628
0,7561
0,9707
0,0255
0,8051
Tab. 3.6 – Estimation du coût relatif moyen des sinistres dans chaque classe de risque après
majoration
On constate que le coût relatif moyen des sinistres sur la valeur du véhicule est très
élevé dans les garanties vol et incendie. Ce qui est tout à fait logique dans la mesure
où les sinistres observés dans ces garanties sont soit la perte totale du véhicule, soit la
destruction d’une bonne partie du véhicule.
S’il est vrai que la sinistralité est assez forte dans la garantie Dommages Accidents, le
coût relatif des sinistres est relativement faible.
3.3
Estimation du taux de prime pure
En admettant que X est le vecteur aléatoire des variables USAGE et GARANTIES,
N la variable aléatoire du nombre de sinistres, K la variable aléatoire du coût relatif
d’un sinistre sur la valeur du véhicule sinistré, la formule analytique du taux de prime
pure est donnée par :
taux = E[N |X] × E[K|X].
(3.3)
Il suffit donc de trouver une estimation de E[N |X] et de E[K|X] pour déduire une
estimation du taux de prime pure sachant X. C’est pourquoi les deux sections precédentes ont été consacrées à cet effet.
Par conséquent, il suffit juste de faire un produit des éléments de mêmes positions des
tablaux 3.4 et 3.6 pour obtenir une estimation du taux de prime pure. On a alors le
résultat suivant qui est exprimé en pourcentage.
Commentaire
Notons que, dans la presque totalité des classes de risque, il y a une nette diminution
du taux de prime pure par rapport à ce qui existe actuellement dans l’entreprise. Ce
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
47
GARANTIES20
GARANTIES30
GARANTIES40
GARANTIES41
GARANTIES50
GARANTIES51
GARANTIES60
GARANTIES95
USAGE 1
3,1551
[2,560 ; 4,013]
0,3537
[0,040 ; 1,168]
0,1392
[0,059 ; 0,241]
0,9315
[0,598 ; 1,279]
0,0794
[0,00936 ; 0,166]
0,3109
[0,145 ; 0,489]
0,1533
[0,089 ; 0,208]
0,1725
[0,0394 ; 0,404]
USAGE 2
3,63
[2,855 ; 4,707]
1,01
[0,039 ; 3,049]
0,575
[0,119 ; 1.383]
1,21
[0,472 ; 2,404]
5,88e-19
[5,391e-19 ; 3,384e-08]
1,51e-18
[1,291e-18 ; 2,437e-07]
0,147
[0,045 ; 0,275]
0,261
[0,0519 ; 0,952]
USAGE 3
0,846
[0,716 ; 0,942]
0,161
[0,0119 ; 0,903]
5,33e-19
[4,209e-19 ; 2,321e-08]
0,112
[0,0386 ; 0,2144]
6,08e-20
[3,512e-21 ; 2,169e-19]
0,422
[0,157 ; 2,949]
0,0221
[0,00867 ; 0,0435]
0,0249
[0,00403 ; 0,0654]
Tab. 3.7 – Estimation du taux de prime pure (%) dans les différentes classes de risque
qui ne surprend pas du tout l’entreprise car elle s’attendait à cela.
– Le taux de prime pure est plus élévé sur les véhicules de catégorie d’usage 2. Et
beaucoup moins sur les catégories de véhicule d’usage 3.
– La garantie Dommages Accidents a le plus fort taux de prime pure, quelque soit
l’usage du véhicule. Elle a augmenté de 3,71% par rapport au taux précedent sur
les véhicules de catégorie d’usage 2, a diminué de 9,85% sur les véhicules de catégorie
d’usage 1 et a considérablement chuté sur les véhicules de catégorie d’usage 3.
– Le taux de prime pure a fortement baissé dans la garantie Dommages collision,
quelque soit l’usage du véhicule.
– Dans les autres garanties, la baisse du taux de prime est également assez considérable,
quelque soit la catégorie d’usage du véhicule.
En conclusion, malgré les majorations faites pour éviter de sous-estimer le taux de
prime pure, nous obtenons des taux assez faibles par rapport à ce qui existe actuellement dans l’entreprise.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
CONCLUSION GENERALE
La question qui a motivé notre étude était celle de savoir quels sont les taux de primes
pures en garanties dommages automobile adaptés au portefeuille actuel de l’entreprise Chanas Assurances s.a ? D’où l’objectif de ce travail : estimer les taux de primes
pures des garanties dommages en assurance automobile de telle sorte qu’ils reflètent
la sinistralité du portefeuille. Les résultats obtenus vont permettre de réviser les taux
existants.
Pour mener à bien notre étude, après extraction et nettoyage des données, nous avons
organisé le travail en trois chapitres.
Le premier chapitre a consisté à présenter les données et à faire une analyse descriptive.
Il en ressort que le taux de prime pure est fonction de la garantie et de la catégorie
d’usage du véhicule. Les garanties vol et incendie sont les plus souscrites dans le portefeuille et la fréquence moyenne des sinistres est plus élevée dans la garantie Dommages
Accidents. La variable repésentant la zone de circulation du véhicule a été enlevée de
l’étude parce que la modalité A de cette variable constitue plus de 98% des unités
statistiques. Le coût relatif moyen des sinistres est fonction de la garantie souscrite et
est relativement la même dans les catégories d’usage 1 et 2.
Dans le deuxième chapitre, il était question de présenter les méthodes statistiques
permettant d’estimer les différents taux de primes pures des garanties dommages automobile. Etant donné que la formule analytique du taux de prime pure est le produit
entre la fréquence moyenne des sinistres et le coût relatif moyen des sinistres, il était
donc question de trouver des éléments théoriques qui permettent de les estimer. Pour
ce faire, nous avons construit un modèle de la fréquence moyenne des sinistres basé
essentiellement sur la distribution de Poisson et dont l’estimation des paramètres du
modèle s’appuyait sur la méthode GEE. Notons que le choix de la méthode GEE était
davantage indiqué parce qu’on était face à des données longitidunales. Pour ce qui est
de l’estimation du coût relatif moyen des sinistres, nous avons plutôt utilisé la statistique X.
Le dernier chapitre quant à lui, était consacré aux applications, donc la mise en oeuvre
de la théorie élaborée pour l’estimation des différents taux de primes pures.
48
49
Le modèle construit a été validé et s’adapte bien aux données dans le cas où l’interaction entre les variables USAGE et GARANTIES est pris en compte. Les résultats
obtenus indiquent que la fréquence moyenne annuelle des sinistres par véhicule est plus
élevée dans les garanties Dommages Accidents (38%), Dommages collision (4%) et
Bris de Glaces (5%). Alors que dans les garanties Vol et Incendie, elle est assez faible.
Nous sommes d’ailleurs arrivés aux mêmes conclusions quand on faisait l’analyse descriptive des données.
La statistique X a permis d’obtenir une estimation du coût relatif moyen des sinistres.
Il découle de ces estimations que le coût relatif moyen des sinistres est plus élevée dans
les garanties Vol Total (0,68%), Incendie (0,75%) et Vol par Braquage (0,80%). Par
contre dans les autres garanties il est assez faible.
Après avoir donc estimé les différentes fréquences moyennes des sinistres et les différents
coûts relatifs moyens des sinistres, nous avons fait une déduction des différents taux de
primes pures. Il ressort qu’il y a une nette diminution de plus de 48% en moyenne de
ces taux par rapport à ce qui existe, à l’exception de la garantie Dommages Accidents
pour les véhicules de transport public de marchandises à charge utile inférieure à 3,5
tonnes, où par contre on observe une augmentation du taux d’environ 3,9%.
Au terme de cette analyse, on constate que les taux de primes proposés sont assez
faibles par rapport à ce qui existe dejà dans l’entreprise Chanas. Cela peut s’expliquer
par le fait qu’auparavant, la détermination des taux était faite de manière empirique,
sans accompagnement d’une étude rigoureuse. Toutefois, la mise en oeuvre de cette
étude n’a pas été chose facile. Nous avons rencontré d’énormes difficultés dans l’extraction et le nettoyage des données (cela représente pratiquement 75% du temps de
l’étude). C’est l’une des raisons expliquant le fait que nous n’avons pas pu étendre
l’étude aux autres catégories d’usage de véhicule.
La limite principale de cette étude est que dans l’estimation du coût relatif moyen des
sinistres, pour tenir compte du caractère longitidunale des données, nous avons fait la
moyenne des observations répétées. Mais serait plus intéressant dans une autre étude
de modéliser le coût relatif moyen des sinistres par un modèle linéaire mixte.
Nous ne saurions terminer cette étude sans faire quelques recommandations.
Recommandations
Au regard des résultats obtenus et des difficultés rencontrées pour la mise en oeuvre
de cette étude, nous suggérons que :
– l’entreprise révise le plus tôt possible, ses taux de primes pures en tenant compte
des résultats que nous avons obtenus. Cela va permettre à la compagnie de rester
assez compétitive dans le marché d’assurance automobile ;
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
50
– les taux de primes pures qui tendent vers 0 (zéro) soient ramener à 0,01%. Par
conséquent pour la garantie Vol Total par exemple, au lieu d’avoir un taux de prime
de 5,33e-19% sur les véhicules de type TPM (>3,5 tonnes), nous proposons que se
soit ramenés à 0,01% ;
– les taux de primes pures qui ont baissé de plus de 40% se ramènent à une baisse
de 40% par rapport à ce qui existe dejà dans l’entreprise. Ceci va permettre d’avoir
une certaine marge de sécurité tout en évitant de faire baisser considérablement et
de façon brusque les taux ;
– des mesures d’accompagnement suivent pour booster la production des contrats automobiles, vu que les taux de primes pures vont baisser ;
– des études simulaires soient faites dans toutes les autres branches d’assurances pour
avoir une meilleure production d’un point de vue global dans l’entreprise ;
– le système informatique soit amélioré afin de faciliter la recherche et l’extraction des
données. De plus, il devrait avoir une relation systématique entre la production
des contrats et le règlement des sinistres dans la base de données ;
– une cellule statistique soit créée, pour en permanence avoir un meilleur contrôle des
différents risques d’assurances.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
ANNEXE : Programmes informatique
dans le logiciel R
###############################################################
#
#
#
Statistique descriptive des données
#
#
#
###############################################################
# On la table de données d’étude
tab <- read.csv("donnee_stage_id.csv",header=TRUE,sep=";")
dim(tab)
## 1. Répartition des unités statistiques sur les
# modalités des variables qualitatives.
a1 <- table(tab$ANNEE)
b1 <- (a1/sum(a1))*100
# répartition en pourcentage.
a2 <- table(tab$ZONEGEO)
b2 <- (a2/sum(a2))*100 # répartition en pourcentage.
a3 <- table(tab$USAGE)
b3 <- (a3/sum(a3))*100
# répartition en pourcentage.
a4 <- table(tab$GARANTIES)
b4 <- (a4/sum(a4))*100 # répartition en pourcentage.
51
52
# Tracé de la représentation des modalités des
# variables USAGE et GARANTIES.
par(mfrow=c(2,1))
barplot(a3, main="représentation des modalités de la variable USAGE",
col="red",ylab="catégories d’usages")
barplot(a4,main="représentation des modalités de la variable GARANTIES",
col="blue",ylab="garanties")
# Statistique descriptive des variables quantitatives
a <- which(tab$NBRE_SINISTRE==1)
data <- tab[a,]
summary(data$NBRE_SINISTRE)
# résumé des quantiles.
sd(data$NBRE_SINISTRE,na=TRUE)
# calcul de l’écart type.
sum(is.na(data$NBRE_SINISTRE==TRUE)) # nombre de valeur manquante.
summary(data$COUT_SINISTRE)
# résumé des quantiles.
sd(data$COUT_SINISTRE,na=TRUE)
# calcul de l’écart type.
sum(is.na(data$COUT_SINISTRE==TRUE)) # nombre de valeur manquante.
# On récupère maintenant les lignes des garanties dont la
# valeur du véhicule appliquée au taux est la valeur
# neuve du véhicule dans le jeu de données data.
c1 <- which(data$GARANTIES==20)
c2 <- which(data$GARANTIES==30)
c3 <- which(data$GARANTIES==60)
data1 <- data[c(c1,c2,c3),]
summary(data1$VAL_NEUVE)
# résumé des quantiles.
sd(data1$VAL_NEUVE,na=TRUE)
# calcul de l’écart type.
sum(is.na(data1$VAL_NEUVE==TRUE)) # nombre de valeur manquante.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
53
# On récupère maintenant les lignes des garanties dont la
# valeur du véhicule appliquée au taux est la valeur
# vénale du véhicule dans le jeu de données data.
data2 <- data[-c(c1,c2,c3),]
summary(data2$VAL_VENALE)
# résumé des quantiles.
sd(data2$VAL_VENALE,na=TRUE)
# calcul de l’écart type.
sum(is.na(data2$VAL_VENALE==TRUE)) # nombre de valeur manquante.
## Analyse descriptive de la sinistralité
par(mfrow=c(2,1))
barplot(table(data$USAGE),col="red",
main="Fréquence des sinistres dans les différents usages de véhicule",
ylab="Fréquence des sinistres",
xlab="modalités de la variable USAGE")
barplot((table(data$USAGE)/a3)*100,col="blue",
main="Fréquence moyenne des sinistres dans les usages de véhicule",
ylab="Fréquence moyenne des sinistres(%)",
xlab="modalités de la variable USAGE")
barplot(table(data$GARANTIES),col="red",
main="Fréquence des sinistres dans les différentes garanties souscrites",
ylab="Fréquence des sinistres", xlab="modalités de la variable GARANTIES")
barplot((table(data$GARANTIES)/a4)*100,col="blue",
main="Fréquence moyenne des sinistres dans les garanties souscrites",
ylab="Fréquence moyenne des sinistres(%)",
xlab="modalités de la variable GARANTIES")
# NB: Pour le croisement des modalités des variables USAGE et GARANTIES,
# nous avons utilisé les applications Access et Excel de Microsoft.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
54
# Analyse du coût moyen des sinistres.
L1 <- tapply(data$COUT_SINISTRE,data$USAGE,mean)
L2 <- tapply(data$COUT_SINISTRE,data$GARANTIES,mean)
names(L1) <- c(1,2,3,4,8)
names(L2) <- c(20,30,40,41,50,51,60,95)
barplot(L1,xlab="USAGE",ylab="Coût moyen",
main="Coût moyen des sinistres dans les catégories d’usages de véhicules",
col="red")
barplot(L2,xlab="GARANTIES",
ylab="Coût moyen",main="Coût moyen des sinistres dans les garanties",
col="blue")
#
#
#
#
#
#
#
#
#
#
#
#
Nous allons importer actuellement deux tables donnant
l’information sur le coût relatif moyen des sinistres.
Etant donné qu’en fonction de la garantie,
on utilise soit la valeur neuve
soit la valeur vénale duvéhicule pour avoir la prime pure,
les deux tableaux que nous allons importer
sont séparés suivant cette logique.
C’est-à-dire que la table 1 (proportion1),
donne le coût relatif des sinistres
de chaque sinistre des garanties 20,30 et 60.
Et la table 2 (proportion2), donne le coût relatif
de chaque sinistre des garanties 40,41,50,51,95.
tab1 <- read.csv("proportion1.csv",header=TRUE,sep=";",dec=",")
tab2 <- read.csv("proportion2.csv",header=TRUE,sep=";",dec=",")
tab3 <- rbind(tab1[,c("USAGE","COUT_RELATIF")],
tab2[,c("USAGE","COUT_RELATIF")])
v1 <- tapply(tab1$COUT_RELATIF,tab1$GARANTIES,mean)
v2 <- tapply(tab2$COUT_RELATIF,tab2$GARANTIES,mean)
#names(v1) <- c(20,30,60)
#names(v2) <- c(40,41,50,51,95)
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
55
w <- tapply(tab3$COUT_RELATIF,tab3$USAGE,mean)
#w <- w[1:3]
#names(w) <- c(1,2,3)
barplot(w,xlab="USAGE",ylab="coût relatif ",
main="Coût relatif moyen des sinistres",col="blue")
barplot(c(v1,v2),xlab="GARANTIES",ylab="coût relatif ",
main="Coût relatif moyen des sinistres",col="red")
#####*******############***********########********########
## 1.
#
#
#
#
Fontion qui permet de calculer
le rapport de corrélation pour
déterminer la dépendance ou pas entre
une variable qualitative et une
variable quantitative.
# Données: - x: variable quantitative
# - gpe: variable qualitative
coef.test.quant.qualit <- function(x, gpe) {
moyennes <- tapply(x, gpe, mean)
effectifs <- tapply(x, gpe, length)
varinter <- (sum(effectifs * (moyennes - mean(x))^2))
vartot <- (var(x) * (length (x) - 1))
res <- sqrt(varinter/vartot)
return (res)
}
## Quelques test d’indépendances entre une
# variable quantitatives et une variable qualitative.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
56
# Test d’indépendance de la variable USAGE
# contre la variable COUT_RELATIF.
var.USAGE <- tab$USAGE
var.COUT <- tab$COUT_RELATIF
res1 <- coef.test.quant.qualit(var.COUT ,var.USAGE)
# Exclusion de la modalité 3 de la variable USAGE.
g <- which(tab$USAGE!=3);
var.USAGE1 <- tab$USAGE[g]
var.COUT1 <- tab$COUT_RELATIF[g]
res2 <- coef.test.quant.qualit(var.COUT1 ,var.USAGE1)
# Test d’indépendance de la variable GARANTIES contre
# la variable COUT_RELATIF.
var.GARANTIES <- tab$GARANTIES
res3 <- coef.test.quant.qualit(var.COUT ,var.GARANTIES)
####################################################################
#
#
# Ce programme va nous permettre d’estimer le taux de prime pure
#
#
et les intervalles de confiances de ces taux.
#
#
#
####################################################################
library(geepack) # Package permettant de construire
# un modèle dont l’estimation des
# paramètres sont estimés par GEE.
# On charge le tableau de données
tab <- read.csv("donnee_stage_id1.csv",header=TRUE,sep=";",dec=",")
tab$USAGE <- as.factor(tab$USAGE)
tab$GARANTIES <- as.factor(tab$GARANTIES)
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
57
###*** Construction d’un certain nombre de fonctions utiles ***###
# 2. Construction de la fonction "fic.Boots".
# Cette fonction permet de générer un échantillon
# bootstrap d’un jeu de données longitidunale.
# Données: - data: jeu de donnée initial;
# - ind: identifiants 2 à 2 distincts de data.
fic.Boots <- function (ind=unique(tab$id),data=tab) {
A <- data.frame() # création(vide) du tableau de données
# bootstrap.
ind.Boot <- sample(ind,size=length(ind),replace=TRUE)
ind.BOOt <- sort(ind.Boot)
names(ind.Boot) <- 1:length(ind.Boot) # Les identifiants
# dans le fichier bootstrap.
for (i in 1:length(ind.Boot)){
B <- data[data$id==ind.Boot[i],]
B$id <- rep(names(ind.Boot)[i],nrow(B))
A <- rbind(A,B)
}
## Autre approche
#g <- table(ind.Boot)
# Construction effectif du jeu de données bootstrap.
#for (i in 1:max(g)){
#y <- which(g==i)
#w <- as.numeric(names(y))
#if (length(w)!=0){
#z <- which(data$id%in%w)
#n <- length(z)
#B <- data[rep(z,i),]
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
58
#p <- 0
#q <- 30000
# compteur
# compteur
# On construit maintenant les nouveaux identifiants.
#for (j in 1:i){
#B$id[(p+1):(n+p)] <-B$id[(p+1):(n+p)]+q
#p <- n+p
#q <- max(B$id[p])
#}
#}
#A <- rbind(A,B)
#}
return(A)
# NB: La taille de donnée du fichier de données bootstrap (A),
# n’est pas forcement la même que celle du jeu de données initial.
}
# 3. Construction de la fonction "interval.boot".
# Cette fonction permet de construire un
# intervalle de confiance à partir du bootstrap
# Données: - v: vecteur des quantiles
# - alpha: l’ordre du quantile
interval.boot <- function(v,alpha=0.05){
v <- sort(v) # On ordonne les données de manière croissante
v.cum <- cumsum(rep(1,length(v)))/length(v)
inf.boot <- v[max(which(v.cum <= alpha/2))]
max.boot <- v[max(which(v.cum <= 1-(alpha/2)))]
intervalle <- c(inf.boot,max.boot)
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
59
#names(intervalle) <- c("inf.bootst","sup.bootst")
return(intervalle)
}
# 4. Fonction qui construit le modèle de la
# fréquence moyenne des sinistres: "model.GEE".
# Donnée: - dat: jeu de données bootstrap.
model.GEE <- function(dat=tab){
mod <- geeglm(NBRE_SINISTRE~USAGE*GARANTIES,
id=id,corstr="ar1",family=poisson,data=dat)
return(mod)
}
# 5. Fonction qui estime la fréquence moyenne
# des sinistres dans le croisement des modalités
# des variables USAGE et GARANTIES: "freq.USA.GAR".
# Données: - model: modèle de la fréquence
# moyenne des sinistres.
freq.USA.GAR <- function(model=model.GEE()){
# Coefficients estimés du model
coef <- model$coefficients
coef <- as.vector(coef);
ff1 <- coef[c(11,13,15,17,19,21,23)]
ff2 <- coef[c(12,14,16,18,20,22,24)]
coef[11:17] <- ff1; coef[18:24] <- ff2
names(coef) <- c(names(model$coefficients)[1:10],
names(model$coefficients)[c(11,13,15,17,19,21,23)],
names(model$coefficients)[c(12,14,16,18,20,22,24)])
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
60
indice.usage <- c(0,coef[2:3]) #
#
#
#
positions des
différents coefficients
de la variable USAGE
sur la variable coef.
indice.garanties <- c(0,coef[4:10]) #
#
#
#
#
positions des
différents
coefficients de la
variable GARANTIES
sur la variable coef
# Positions des interactions des modalités de la variable
# USAGE avec les modalités de la variable GARANTIES
indice.interaction <- c(rep(0,8),0,
coef[11:17],0,coef[18:19],0,coef[20:21],0,0)
# Dans ce qui suit, nous allons écrire un code qui détermine
# la fréquence des sinistres dans les différents croisement
# des modalités des variables USAGE et GARANTIES.
freq <- c()
# variable qui permet de stocker
# le calcul des fréquences
mat.freq <- matrix(0,nrow=length(indice.garanties),
ncol=length(indice.usage))
k <- 1; # compteur
for (i in 1:length(indice.usage)){
for (j in 1:length(indice.garanties)){
x3 <- indice.usage[i]
x4 <- indice.garanties[j]
x5 <- indice.interaction[k]
freq[j] <- exp(coef[1]+x3+x4+x5)
k <- k+1
}
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
61
# names(freq) <- c("GARANTIES20",names(coef[4:10]))
# a=names(coef[i])
#cat("tableau des fréquences des garanties des véhicules à",a,"\n","\n")
# print(freq*100)
# cat("\n","\n")
mat.freq[,i] <- freq
}
rownames(mat.freq) <- c("GARANTIES20",names(coef[4:10]))
colnames(mat.freq) <- c("USAGE1",names(coef[2:3]))
x <- mat.freq[c(1,4,6),]
y <- mat.freq[c(7,3,5),]
D <- x+y
# On augmente aux fréquences moyennes de certaines garanties
# la fréquence moyenne de celles qu’elles
# contiennent (problème de surprime).
mat.freq[c(1,4,6),] <- D
return(mat.freq)
}
# 6. Construction de la fonction "cout.relatif.mean"
# Cette fonction permet d’estimer la moyenne empirique
# des coûts relatifs sur chaque garantie. Tout en sachant
# que cette moyenne ne varie pas en fonction de
# la catégorie d’usage de véhicule.
# Données - dat: jeu de données bootstrap
cout.relatif.mean <- function(dat=tab){
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
62
s <- which(dat$COUT_RELATIF > 0)
g <- tapply(dat$COUT_RELATIF[s],dat$GARANTIES[s],mean)
# Matrice des coûts relatifs moyens: "mat.cout.relatif"
mat.cout.relatif <- matrix(c(min(c(1,g[1]+g[7])),g[2],
g[3],min(c(1,g[4]+g[3])),
g[5],min(c(1,g[6]+g[5])),g[7],g[8]),
nrow=length(g),
ncol=length(unique(dat$USAGE)))
# On tient maintenant compte du fait que,
# le coût relatif moyen des sinistres dans autres
# la catégorie d’usage 3 diffère légèrement des garanties.
if (sum(dat$USAGE[s]==3)!=0) #
#
#
#
On tient compte du fait que,
le coût relatif moyen des sinistres dans
la catégorie d’usage 3 diffère légèrement
des autres garanties.
mat.cout.relatif[1,ncol(mat.cout.relatif)]=min(c(1,
mean(dat$USAGE[s]==3)+g[7]))
rownames(mat.cout.relatif) <- c("GARANTIES20","GARANTIES30",
"GARANTIES40","GARANTIES41",
"GARANTIES50","GARANTIES51",
"GARANTIES60","GARANTIES95")
colnames(mat.cout.relatif) <- c("USAGE1","USAGE2","USAGE3")
return(mat.cout.relatif)
}
# 7. Construction de la fonction "taux.prime" qui renvoie
# les différentes estimations des taux de primes pures.
# Données - F: matrice des fréquences moyennes
# - C: matrice des coûts relatifs moyens.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
63
taux.prime <- function(F=freq.USA.GAR(),C=cout.relatif.mean()){
Z <- F*C*100
return(Z)
}
# 8. Construction de la fonction "resultats.stage". Cette fonction va
# permettre de retourner un intervalle de confiance pour chaque
# estimation du taux de prime pure et les différents taux de primes pures.
# Données - dat: jeu de données initial
# - B: nombre d’itération bootstrap
# - beta: probabilité que la vrai valeur du taux de prime pure
# soit à l’extérieur de l’intervalle de confiance estimer.
resultats.stage <- function(dat=tab,B=1000,beta=0.05){
# Les taux de primes pures estimés à partir de notre jeu de données
# "tab" (données initiales) se trouvent dans la matrice T ci-dessous.
T <- taux.prime()
FREQ <- freq.USA.GAR()
COUT <- cout.relatif.mean()
# On génère les différents jeux de données bootstrap tout en
# estimant dans chaque jeu les taux de primes pures.
K <- list() # Cette variable va permettre de stocker les
# différents matrices bootstrap des taux de primes pures.
for(i in 1:B){
L <- fic.Boots() # Jeu de données bootstrap à la i ème itération.
mat.freq <- freq.USA.GAR(model=model.GEE(L)) # Construction de la
# matrice de la fréquence
# moyenne des sinistres.
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
64
mat.cout <- cout.relatif.mean(L) # Construction de la matrice
# du coût relatif moyen des sinistres.
taux <- taux.prime(F=mat.freq,C=mat.cout) # matrice des différents taux
# de primes estimés.
K[[i]] <- taux
print(i)
}
# Nous allons maintenant construire un intervalle de confiance des différents
# taux de primes pures obtenus dans la variable T.
Q <- matrix(0,nrow=nrow(taux),ncol=2*ncol(taux)) # matrice qui va contenir
# les intervalles de
# confiances des
# taux de primes pures.
rownames(Q) <- c("GARANTIE20","GARANTIE30","GARANTIE40","GARANTIE41",
"GARANTIE50","GARANTIE51","GARANTIE60","GARANTIE95" )
colnames(Q) <- c("inf.USAGE1","sup.USAGE1",
"inf.USAGE2","sup.USAGE2",
"inf.USAGE3","sup.USAGE3")
a <- c()
for(i in 1:nrow(taux)){
l <- 1
for(j in 1:ncol(taux)){
a <- c()
for(k in 1:B){
a[k] <- K[[k]][i,j]
}
intervale <- interval.boot(a,alpha=beta)
Q[i,l:(l+1)] <- intervale
l <- l+2
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
65
}
}
# Les résultats:
# - mat.taux.prime: matrice d’estimations des taux de primes pures;
# - interval.taux: intervalle de confiance des différents
# taux de primes pures estimés;
# - alpha: ordre de l’intervalle de confiance des
# différents taux de primes;
# - iteration.boot: nombre d’itérations bootstrap;
# - mat.frequence: matrice d’estimations des fréquences moyennes;
# - mat.cout.relatif: matrice d’estimations des couts relatifs moyens.
res <- list(mat.taux.prime=T,interval.taux=Q,alpha=beta,iteration.boot=B,
mat.frequence=FREQ,mat.cout.relatif=COUT)
return(res)
}
Master de Statistique Appliquée.
© HERNANDEZ LELE, UY1/ENSP 2012
BIBLIOGRAPHIE
66
Bibliographie
[1] Christian PARTRAT, Jean-Luc BESSON (2005) : Assurance NON-VIE, Modélisation, Simulation. Economica
[2] CIMA : CODE DES ASSURANCES ; Nouvelle Edition 2009
[3] Dr Eugène-Patrice NDONG NGUEMA (2012) : Cours de Data Mining et Données
Censurées au master de statistique appliquée à l’ENSP.
[4] Gilbert SAPORTA (2006) : Probabilités, Analyse des Données et Statistique. 2me
édition révisée et augmentée. Technip
[5] James Landel(2010) Lexique des termes d’assurance. L’argus
[6] Julien JACQUEMIN, WINTER & Associés : Modèles financiers et Analyses de
risque dynamique en assurance.
[7] KAMKUMO TCHATCHUENG OMER (2005) : Analyse statistique du profil des
clients à haut risque du portefeuille automobile d’une compagnie d’assurance.
[8] LIANG, K.Y.,& ZEGER S.L. (1986) : Longitudinal data analysis using generalized
linear models. Biometrika 73, 13-22.
[9] Michel DENUIT, Arthur CHARPENTIER (2005) : Mathématiques de l’assurance
non-vie, Tome II Tarification et Provisionnement.Economica
[10] NJOMO NANA Yannick Lionel (2010) : Effet de l’Albendazole sur la micro-filaire
Loa Loa. Master de statistique appliquée à ENSP
67