Lele - MASTAT
Transcription
Lele - MASTAT
i ANALYSE STATISTIQUE DES TARIFS DES GARANTIES DOMMAGES EN ASSURANCES AUTOMOBILE : CAS DE CHANAS ASSURANCES S.A Mémoire présenté et soutenu en vue de l’obtention du Diplôme de Master de Statistique Appliquée. Par : LELE SIAKA HERNANDEZ Maître ès Sciences Sous la supervision du : Dr. Eugène-Patrice NDONG NGUEMA Enseignant à l’ENSP de Yaoundé M. Guy Florent NLOM NSHOUANGUELE Responsable Département Technique et Courtage à Chanas Assurances s.a & M. Albert KATSI Consultant à Chanas Assurances s.a Année académique 2011/2012 Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Dédicace Je dédie ce travail à mes parents M. & Mme SIAKA ii Remerciements La réalisation de ce travail a été possible grâce à Dieu le père tout puissant et au concours de nombreuses personnes auxquelles nous témoignons ici notre gratitude. Nous pensons au : – Pr Henri GWET, responsable du master de statistique appliquée et Chef de Département de Sciences Physiques et de Mathématiques de l’Ecole Nationale Supérieure Polytechnique ; – Le Corps enseignant de Master de Statistique Appliquée pour leur encadrement et leur dévouement tout au long de notre formation. Particulièrement le Dr. Eugène-Patrice NDONG NGUEMA, le Dr. Jacques TAGOUDJEU, le Dr. TEWA, et le Dr. VERZELEN. Nous remercions également : – Mme Jacqueline CASALEGNO, Président Directeur Général de Chanas Assurances s.a qui nous a donné la possibilité de faire ce stage académique dans sa société ; – M. Martin ABEGA, Secrétaire Général de Chanas Assurances s.a. Pour tout son soutien et ses conseils ; – M. Laurent MOUGNOL, Directeur de la Direction Technique, pour ses nombreux conseils et son apport dans la mise en oeuvre de ce mémoire ; – M. Guy Florent NLOM, l’encadreur professionnel, pour sa disponibilité et son apport technique pour la mise en oeuvre de ce mémoire ; – Tout le personnel de la Direction Technique ; – M. Barnabas FAMI, Directeur de la Direction Informatique, ses collaborateurs M. Serge BIKANDA & M. Olivier NJINGA et tout le reste des informaticiens ; – M. Romuald TAMPE, responsable commercial ; – M. KATSI ; – Tout le personnel de Chanas Assurances, pour l’acceuil chaleureux et l’ambiance. Nous ne saurions oublier mes camarades de master, ma famille, et mes amis, particulièrement : – M. & Mme KOM ; – M. & Mme KOMMOGNE ; – M. & Mme NOUMSI ; iii iv – Mes dames NGASSU Henriette et FOFOU ANNE, et Mlle Michelle MEGAPTCHE. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Table des matières Dédicace ii Remerciements iii Glossaire viii Résumé xii Abstract 1 Introduction Générale 1 Résumé Exécutif 8 1 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 1.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Qu’est ce qu’une unité statistique dans notre étude ? . . . . . . . 1.1.2 Description des variables . . . . . . . . . . . . . . . . . . . . . . . 1.2 Analyse descriptive des données . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Distributions empiriques des variables qualitatives . . . . . . . . . 1.2.2 Croisement des modalités des variables USAGE et GARANTIES . 1.2.3 Quelques résumés des variables quantitatives . . . . . . . . . . . . 1.2.4 Analyse descriptive de la sinistralité . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 1 4 4 5 7 7 . . . . . . 15 15 15 16 18 19 21 2 METHODES STATISTIQUES 2.1 La régression de Poisson . . . . . . . . . . . . 2.1.1 Définitions et hypothèses . . . . . . . . 2.1.2 La loi de Poisson . . . . . . . . . . . . 2.1.3 Les modèles linéaires généralisés . . . . 2.1.4 La régression de Poisson . . . . . . . . 2.2 Les équations d’estimation généralisées (GEE) v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi TABLE DES MATIÈRES 2.3 2.4 2.5 2.6 2.2.1 Des définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Les équations d’estimation sous l’indépendance (IEE) . . . . . . . . . 2.2.3 Les équations d’estimation généralisées (GEE) . . . . . . . . . . . . . 2.2.4 L’estimation du paramètre βb (estimateur de β) . . . . . . . . . . . . 2.2.5 Les types de matrices de corrélation Ri (α) les plus connus. . . . . . . 2.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La régression de Poisson longitudinale . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Les données longitudinales . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Les équations d’estimation généralisées dans le cas d’une loi de Poisson 2.3.3 Le modèle de la régression de Poisson longitudinale . . . . . . . . . . Convergences des suites de variables aléatoires et étude de la statistique X . 2.4.1 Quelques types de convergence et le théorème central-limite . . . . . 2.4.2 La statistique X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesure de liaison entre une variable qualitative et une variable quantitative . 2.5.1 Décomposition de la variance d’une variable quantitative Y . . . . . . 2.5.2 Un indicateur de la liaison entre une variable quantitative et une variable qualitative : le rapport de corrélation . . . . . . . . . . . . . . 2.5.3 Interprétation du rapport de corrélation . . . . . . . . . . . . . . . . Méthode bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2 Echantillon Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.3 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4 Estimation de l’erreur quadratique . . . . . . . . . . . . . . . . . . . 2.6.5 Estimation du biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.6 Estimation de l’intervalle de confiance pour π(Fn ) de niveau 1 − γ, pour γ ∈]0, 1[ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 APPLICATION PRATIQUE 3.1 Modélisation de la fréquence moyenne des sinistres . . . . . . . . . . . . . . 3.1.1 Construction d’un modèle . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Effet des variables explicatives . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Fréquence moyenne des sinistres dans les différentes classes de risque 3.2 Estimation du coût relatif moyen des sinistres . . . . . . . . . . . . . . . . . 3.2.1 Mesure de la corrélation entre la variable qualitative USAGE et la variable quantitative COUT_RELATIF . . . . . . . . . . . . . . . . 3.2.2 Mesure de la corrélation entre la variable qualitative GARANTIES et la variable quantitative COUT_RELATIF . . . . . . . . . . . . . . . Master de Statistique Appliquée. 21 22 24 25 26 29 29 29 30 31 32 32 33 35 35 35 35 37 37 37 38 38 38 38 39 39 40 41 42 42 44 44 45 © HERNANDEZ LELE, UY1/ENSP 2012 vii TABLE DES MATIÈRES Application de la statistique X (moyenne empirique) pour estimer le coût relatif moyen des sinistres . . . . . . . . . . . . . . . . . . . . . Estimation du taux de prime pure . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 3.3 45 46 CONCLUSION GENERALE 48 ANNEXE : Programmes informatique dans le logiciel R 51 BIBLIOGRAPHIE 66 Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Glossaire Assurance (au sens de mutualisation des risques) : c’est une opération par laquelle une entreprise d’assurance organise en mutualité un ensemble d’assurés exposés aux mêmes risques et répartit ces risques et les compense selon les lois de la statistque, à l’aide d’un fonds alimenté par des primes ou des cotisations qu’il collecte préalablement. Assuré : c’est une personne qui a contracté une assurance. Assureur : c’est une personne qui s’engage, par un contrat d’assurance, à fournir des prestations prévues en cas de réalisation du risque. Contrat : c’est une convention par laquelle une ou plusieurs personnes s’obligent, envers une ou plusieurs autres, à donner, à faire ou à ne pas faire quelque chose. Coût des sinistres : c’est la charge des sinistres, c’est-à-dire le coût mis par les assurés à charge de la compagnie d’assurances. Dommage (Dommage matériel) : c’est toute atteinte à la structure ou à la substance d’une chose. Coût relatif d’un sinistre (en automobile) : c’est le rapport entre le coût du sinistre et la valeur du véhicule assuré au moment de la souscription du contrat. Fréquence des sinistres : c’est le nombre de fois qu’un sinistre se produit dans un temps donné. Garantie : couverture d’un risque par l’assureur en contrepartie d’une prime convenue d’avance. Si le risque prévu par le contrat se réalise, la garantie de l’assureur permet de prendre en charge tout ou partie de ses conséquences. Portefeuille : c’est l’ensemble des contrats d’assurances détenus par une société d’assurance. Prime : somme que doit payer l’assuré en contrepartie de l’engagement de l’assureur de prendre en charge le risque. Le coût de l’assurance est donc proportionnel à l’importance du risque pris en charge par l’assureur. Prime pure : elle correspond à la valeur statistique (produit du coût et de la fréquence) du risque pris par l’assureur. Risque (Risque-objet) : c’est l’objet sur lequel porte l’assurance (un bien meuble ou immeuble). Le bien assuré peut être par exemple un véhicule, une habitation, une usine, etc. viii TABLE DES MATIÈRES ix Sinistralité : c’est le total des sinistres supportés par une entité (une entreprise, une collectivité publique, etc.) ou par une société d’assurance au cours d’une période déterminée. La sinistralité peut être exprimée en nombre de sinistres et/ou en coût de sinistres. Sinistre : c’est la réalisation de l’événement couvert par le contrat et susceptible d’entraîner la garantie de l’assureur. Il suppose l’existence d’un fait dommageable (un incendie, un vol, etc.) susceptible de mettre en jeu la garantie de l’assureur. Tarif : c’est la fixation de la prime d’assurance. Taux de Prime : c’est la prime calculée en pourcentage de la somme assurée par le contrat d’assurance. Valeur à Neuf (garantie) : en assurance automobile, le véhicule assuré, lorsqu’il a été achété neuf, peut être garanti en valeur à neuf pendant une certaine durée. Valeur Vénale : c’est la valeur marchande ou prix de vente sur le marché de l’occasion d’un bien meuble ou immeuble présentant les mêmes caractéristiques et dans un état semblable que le bien détruit lors du sinistre. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Table des figures 1.1 1.2 1.3 1.4 1.5 Nombre de garanties souscrites en croisant les modalités des variables USAGE et GARANTIES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Nombre et fréquence moyenne des sinistres observés dans les différentes catégories d’usages de véhicules. . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Nombre et fréquence moyenne des sinistres observés dans les garanties souscrites 10 Fréquence moyenne des sinistres en croisant les modalités des variables USAGE et GARANTIES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Proportion moyenne du coût des sinistres sur chaque catégorie d’usage de véhicules et de garanties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 x Liste des tableaux 1 2 3 1.1 1.2 Estimation de la fréquence moyenne annuelle des sinistres par véhicule dans les classes de risque. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation du coût relatif moyen des sinistres dans chaque classe de risque. . Estimation du taux de primes pures (%) dans les différentes classes de risque. 9 10 10 4 1.6 Quelques lignes du tableau de données. . . . . . . . . . . . . . . . . . . . . . Répartition du nombre de souscriptions des garanties dommages automobile de l’étude sur les années 2007 à 2011. . . . . . . . . . . . . . . . . . . . . . . Répartition du nombre de souscriptions des garanties dommages automobile de l’étude dans les trois zones géographiques. . . . . . . . . . . . . . . . . . . Répartition du nombre de souscriptions des garanties dommages automobile de l’étude dans les trois différentes catégories d’usages de véhicule. . . . . . . Répartition des différentes garanties dommage de l’étude dans notre jeu de données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résumés des variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . 2.1 Propriétés de certaines lois discrètes . . . . . . . . . . . . . . . . . . . . . . . 17 3.1 Estimations des paramètres du modèle de la fréquence moyenne des sinistres en fonction des variables USAGE et GARANTIES . . . . . . . . . . . . . . . table de l’Anova du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . Fréquence moyenne annuelle des sinistres par véhicule dans les différentes classes de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fréquence moyenne annuelle des sinistres par véhicule dans les différentes classes de risque après majoration . . . . . . . . . . . . . . . . . . . . . . . . Estimation du coût relatif moyen des sinistres dans les différentes classes de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation du coût relatif moyen des sinistres dans chaque classe de risque après majoration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation du taux de prime pure (%) dans les différentes classes de risque . 1.3 1.4 1.5 3.2 3.3 3.4 3.5 3.6 3.7 xi 4 4 5 5 7 41 41 43 43 45 46 47 Résumé Notre étude avait pour objectif principal de réviser les taux de primes pures des garanties dommages en assurance automobile dans la compagnie d’assurances Chanas. Pour estimer les nouveaux taux de primes pures, nous avons utilisé la technique GEE (Equations d’Estimation Généralisées), pour l’estimation de la fréquence moyenne des sinistres, et la moyenne empirique, pour l’estimation de la proportion moyenne du coût des sinistres. Tout celà nous a permis de proposer une estimation des différents taux de primes pures des garanties dommages en assurance automobile. Les nouveaux taux estimés ont baissé considérablement par rapport à ce qui existe dans l’entreprise. Mots clés : assurance,garanties dommages,taux de prime. xii Abstract The principal objective of our study was to revise the premium rate of damage warranties in automobile insurance in the Chanas insurance company. To estimate the new premium rate, we used the GEE (Generalized estimating equations) technique, to estimate the mean frequency of disasters, and the empirical mean, for the estimation of the mean proportion of the cost of disasters. All these permitted us to propose an estimation of the different premium rates of damage warranties in automobile insurance. The new estimated rates dropped considerably with respect to the rates the company is using. Keys words : damage warrantigs, insurance,premium rate 1 2 Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Introduction Générale Présentation de Chanas Assurances Chanas Assurances S.A est une compagnie d’assurances née en 1999 de la transformation de Chanas & Privat Assurances Sarl, société d’intermédiation d’assurances créée au Cameroun en 1953 par Madame CASALEGNO née Jacqueline CHANAS, sa gérante statuaire. Chanas & Privat Assurances Sarl va représenter au Cameroun jusqu’en 1973, de nombreuses compagnies d’assurances internationales telles que : les Assurances Générales de France, La Foncière Transports, L’AIA, etc. Elle va participer à la création de la première Société Camerounaise d’Assurance (SOCAR), en lui apportant la totalité de son portefeuille. Suite à un appel d’offres de privatisation de la SOCAR par le gouvernement du Cameroun en octobre 1998, Chanas & Privat Assurances et son partenaire financier la Société Nationale des Hydrocarbures (S.N.H) se portent avec succès acquéreur du portefeuille privatisé. Le 24 mars 1999, Chanas & Privat Assurances est alors désignée Adjudicataire de l’appel d’offres international du Gouvernement de la République du Cameroun et de la Banque Mondiale pour la privatisation du portefeuille de la SOCAR. Le 15 avril 1999, Chanas & Privat Assurances devient Chanas Assurances S.A une véritable compagnie d’assurances. Et le 24 mars 2000, elle est agréée par Arrêté Ministériel N°000142 /MINEFI/DCE/A pour présenter les opérations d’assurances sur l’étendue du territoire du Cameroun. Depuis plus de 5 ans aujourd’hui, cette compagnie reste le leader du marché d’assurances IRD (Incendie Risques Divers) au Cameroun. Contexte L’assurance est l’activité qui consiste, en échange d’une cotisation ou prime, à fournir une prestation prédéfinie, généralement financière, à un individu, une association ou une entreprise lors de la survenance d’un risque. Cette assurance est souscrite auprès d’une société qui peut en faire son activité exclusive (compagnie d’assurances). Dans notre étude, nous allons nous intéresser essentiellement à l’assurance automobile et particulièrement celle des dommages aux véhicules. 1 2 Les garanties dommages en automobile présentent des caractéristiques communes et des traits spécifiques. 1. Les caractéristiques communes Elles se situent au niveau de leur objet, de la définition de l’assuré et de certaines exclusions. (a) L’objet des garanties dommages Elles couvrent les dommages subis par le véhicule assuré et par les accessoires et pièces de rechange dont le constructeur prévoit la livraison en même temps que le véhicule, lorsque ces dommages proviennent d’accidents, d’incendies, de vol ou de bris de glaces. (b) La substance du concept d’assuré Seuls ont qualité d’assurés en ce qui concerne les garanties dommages, le souscripteur de la police d’assurance et le propriétaire du véhicule. Le conducteur autorisé non-souscripteur du contrat d’assurance automobile n’a donc pas la qualité d’assuré, de telle sorte que si les dommages subis par le véhicule engagent sa responsabilité civile, l’assureur peut, après avoir indemnisé son assuré, exercer une action récursoire (action en recours contre un tiers) contre lui. Il convient de noter cependant que pour des raisons commerciales notamment, la plupart des garanties dommages sont assorties de clauses d’abandon de recours de l’assureur contre les tiers responsables n’ayant pas la qualité d’assurés. (c) Les exclusions communes des garanties dommages en automobile Les garanties dommages du contrat d’assurance automobile ne couvrent pas les dommages causés : – intentionnellement par l’assuré lui même, étant précisé que restent couverts les dommages causés intentionnellement par toute personne dont il est civilement responsable ; – par la guerre civile ou étrangère, les grèves, les émeutes et mouvements populaires, les actes de terrorisme ou de sabotage commis dans le cadre d’une action concertée, d’une manière générale par tout acte de vandalisme ou de brigandage isolé ou concerté ; – au cours du transport par voie maritime ou aérienne, sauf en cas de perte totale, cette garantie s’octroyant traditionnellement au moyen des polices d’assurance transports par voie maritime ou aérienne ; – au cours du chargement ou du déchargement du véhicule ; Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 3 – lorsque l’assuré est sous l’emprise de l’alcool ou de la drogue au moment de l’accident, sauf à établir que cette situation a été sans incidence sur la survenance du sinistre ; – pendant une réquisition par une autorité civile ou militaire ; – au cours du transport des matières inflammables comburantes ou explosives, si elles ont été à l’origine des dommages ou en ont aggravé les effets ; – lorsque le conducteur n’a pas l’âge requis pour la conduite des véhicules automobiles ou n’est pas titulaire du permis requis par la réglémentation en vigueur pour la conduite du véhicule endommagé. 2. Les traits spécifiques des garanties dommages en automobile Nous allons les examiner successivement pour les différentes garanties dommages, à savoir : (a) La garantie des dommages par accidents Elle se présente sous la forme de la «Tierce Complète» (encore appelée Dommages tous Accidents) ou de la «Tierce collision» (encore appelée Dommages Collision). i. Les Dommages tous Accidents («Tierce Complète») Par cette garantie, l’assureur couvre les dommages subis par le véhicule assuré, les accessoires et pièces de rechange dont le catalogue du constructeur prévoit la livraison en même temps que le véhicule, lorsqu’ils proviennent d’une collision avec un autre véhicule, d’un choc avec un corps fixe ou mobile (un animal, un poteau électrique, etc.) ou d’un renversement sans collision préalable. ii. Les Dommages Collision («Tierce collision») Elle garantit les dommages subis par le véhicule assuré, les accessoires et pièces de rechange dont le catalogue du constructeur prévoit la livraison en même temps que le véhicule, lorsque ces dommages résultent d’une collision soit avec un piéton identifié, soit avec un véhicule ou animal appartenant à une tierce personne identifiée. La garantie Tierce collision suppose entre autres : – Qu’il y ait un choc dont résultent les traces visibles. – Que ce choc ait lieu avec un piéton identifié, un véhicule, ou un animal appartenant à une tierce personne identifiée. Cela exclut par exemple le choc avec des objets tombant des véhicules. Dans ces cas, le recours à la garantie de la responsabilité civile du tiers responsable devient donc nécessaire pour la réparation du préjudice subi par le propriétaire du véhicule. – L’exclusion du champ de la garantie des dommages consécutifs au choc du véhicule assuré avec les animaux sauvages traversant la chaussée. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 4 Il est à préciser, par ailleurs, que les garanties de dommages par accidents (tierce complète et tierce collision) ne couvrent pas : – sauf en cas d’extension expresse de la garantie moyennant surprime, les dommages subis par les pneumatiques à moins qu’ils ne soient consécutifs ou concomitants à des dommages de même nature subis par le véhicule ; – les dommages consécutifs à un vol ou à un incendie, ces dommages étant couverts dans le cadre des garanties vol ou incendie ; – les dommages éprouvés par le véhicule pendant qu’il est confié aux professionnels de la vente, de la réparation et du contrôle des véhicules automobiles. (b) La garantie Incendie Elle couvre les dommages subis par le véhicule assuré, les accessoires et pièces de rechange dont la livraison est prévue par le constructeur en même temps que le véhicule, et résultant de l’incendie, de l’explosion et de la chute de la foudre. Ne rentrent pas dans le champ de cette garantie : – les dommages subis par le véhicule assuré pendant le transport d’explosifs, cette garantie étant généralement accordée dans le cadre d’une extension du contrat d’assurance de la responsabilité civile de chef d’entreprise au transport d’explosifs ; – les dommages causés aux appareils électriques du seul fait de leur fonctionnement ; – les dommages résultant de la seule action de la chaleur sans commencement d’incendie et donc en définitive non susceptibles d’être considérés comme résultant d’un incendie. La garantie incendie peut être étendue aux risques électriques, en d’autres termes aux dommages causés aux appareils électriques du fait de leur seul fonctionnement. (c) La garantie Vol Elle se subdivise en une garantie de Vol Total et en une garantie de Vol Total et Partiel. i. La garantie Vol Total Elle couvre les dommages causés par la disparition ou la détérioration du véhicule assuré à la suite d’un vol ou d’une tentative de vol, ainsi que les frais engagés avec l’accord de l’assureur en vue de la récupération du véhicule volé. ii. La garantie Vol Total et Partiel C’est une extension de la garantie Vol Total accordée avec surprime, qui en porte le champ de couverture aux objets ci-après : Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 5 – les accessoires et pièces de rechange dont le catalogue du conducteur prévoit la livraison en même temps que le véhicule ; – les accessoires dont le catalogue du conducteur ne prévoit pas la livraison en même temps que le véhicule, mais qui y sont incorporés par l’assuré. La garantie vol partiel est accordée dans ce cas à concurrence des montants assurés pour ces accessoires tels qu’ils figurent dans la police d’asurance. Ne sont pas couverts par la garantie vol : – les vols commis par les préposés pendant les heures de service ou par les membres de la famille de l’assuré ou avec leur complicité ; – les vols de pneumatiques, accessoires et pièces de rechange dont le constructeur prévoit la livraison en même temps que le véhicule sauf s’ils sont commis dans un garage ou une remise avec effraction, escalade ou usage de fausses clés, à moins que le contrat n’ait fait l’objet d’une extension à la garantie de vol total et partiel. Il est à noter par ailleurs, que la garantie vol peut être étendue au vol des objets transportés par l’assuré à la condition qu’il survienne avec celui du véhicule, à l’exclusion toutefois des bijoux, fourrures, espèces, titres ou des objets précieux qui restent généralement exclus. (d) La garantie des bris de glaces Elle couvre les bris accidentels du pare-brise, des glaces latérales et de la lunette arrière du véhicule assuré. Elle ne couvre cependant pas : – Les bris des verres, de phares, de miroirs, des rétroviseurs et des feux de position qui sont du ressort des garanties dommages accidents ou dommages collision. – Les bris de glaces consécutifs à un incendie dans la mesure où ils sont couverts par la garantie incendie ou ceux consécutifs au vol qui rentrent dans le champ de la garantie vol. Calcul de la prime d’assurance des garanties dommages en automobile Le calcul d’une prime d’assurance se fait en trois étapes : – Le calcul de la prime pure : c’est le montant du sinistre moyen auquel devra faire face l’assureur pour le risque. Mathématiquement, la prime pure est égale à l’espérance des pertes. C’est le calcul de cette prime qui nous intéresse dans cette étude. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 6 – Le calcul de la prime nette : c’est l’addition de la prime pure et le chargement des frais de gestion. Ces frais comportent aussi bien les frais de gestion des sinistres que la rémunération des apporteurs (agents généraux ou courtiers). Ici, c’est la compagnie qui fixe ou détermine ces frais de gestion. – Le calcul de la prime totale : c’est l’addition de la prime nette et les taxes. Dans chaque contrat d’assurance, l’Etat du Cameroun fixe des taxes à payer par l’assuré. Au terme du calcul de ces différentes primes, ce que l’assuré donne à son assureur comme prime d’assurance, pour la couverture d’un éventuel dommage à son véhicule, est la prime totale. Mais le calcul de la prime qui nous intéresse dans cette étude est celui de la prime pure. La prime pure d’un véhicule voulant souscrire une garantie dommages se calcule de la manière suivante : (taux de prime pure)*(valeur neuve actualisée ou valeur vénale du véhicule) Pour les garanties dommages par accidents, les bris de glaces, on applique au taux de prime pure la valeur neuve actualisée du véhicule pour obtenir la prime pure. Pour les garanties vol et incendie on applique au taux de prime pure la valeur vénale du véhicule pour obtenir la prime pure. Problématique Quels sont les taux de primes pures en garanties dommages automobile adaptés au portefeuille actuel de l’entreprise (reflétant la sinistralité du portefeuille) ? C’est le problème posé par l’entreprise, car soucieuse de proposer à ses clients des primes d’assurances assez compétitives dans le secteur d’assurance dommages automobile. La formule analytique du taux de prime pure est donnée par : (taux de prime pure)=(fréquence moyenne des sinistres)×(coût relatif moyen des sinistres) La fréquence moyenne des sinistres est le rapport entre le nombre de sinistres et le nombre total de véhicules assurés. Le coût relatif moyen des sinistres est la moyenne arithmétique des coûts relatifs des sinistres. Le problème est donc d’obtenir une estimation de la fréquence moyenne des sinistres et du coût relatif des sinistres. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 7 Objectif L’objectif de cette étude est de réviser les taux de primes pures des garanties dommages en assurances automobile à Chanas Assurances de telle sorte que les primes proposées aux clients reflètent la sinistralité du portefeuille et soient compétitives dans le marché d’assurance Camerounais. Méthodologie Pour apporter une réponse au problème posé, nous avons extrait un certains nombre d’informations sur la sinistralité des véhicules ayant eu à souscrire au moins une garantie dommages sur la période 2007-2011 à la compagnie Chanas Assurances S.A. Après une analyse descriptive des données, nous allons construire un modèle de la fréquence moyenne des sinistres en fonction d’un certain nombre de variables en utilisant la technique GEE (Equations d’Estimation Généralisées). Ensuite, nous allons estimer à partir de la moyenne empirique, le coût relatif moyen des sinistres en fonction également d’un certain nombre de variables. Et enfin déduire le taux de prime pure des différentes garanties dommages automobile. Plan Nous avons divisé notre travail en trois chapitres : – dans le premier chapitre, nous allons faire une présentation et une analyse descriptive des données ; – le second va être la présentation des méthodes statistiques qui vont nous permettre de résoudre le problème ; – enfin au dernier chapitre, une application de ces méthodes statistiques sera faite sur les données ; – Pour terminer l’étude, une conclusion générale va être faite. On y trouvera quelques recommandations pour la compagnie d’assurance Chanas. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Résumé Exécutif Problématique Quels sont les taux de primes pures en garanties dommages automobile adaptés au portefeuille actuel de l’entreprise (reflétant la sinistralité du portefeuille) ? C’est le problème posé par l’entreprise, car soucieuse de proposer à ses clients des primes d’assurances assez compétitives dans le secteur d’assurance dommages automobile. La formule analytique du taux de prime pure est donnée par : (taux de prime pure)=(fréquence moyenne des sinistres)×(coût relatif moyen des sinistres) La fréquence moyenne des sinistres est le rapport entre le nombre de sinistres et le nombre total de véhicules assurés. Le coût relatif moyen des sinistres est la moyenne arithmétique des coûts relatifs des sinistres. Le problème est donc d’obtenir une estimation de la fréquence moyenne des sinistres et du coût relatif moyen des sinistres. Objectif L’objectif de cette étude est de réviser les taux de primes pures des garanties dommages en assurances automobile à Chanas Assurances de telle sorte que les primes proposées aux clients reflètent la sinistralité du portefeuille et soient compétitives dans le marché d’assurance Camerounais. Méthodologie Pour apporter une réponse au problème posé, nous avons : 1. extrait un certain nombre d’informations sur la sinistralité des véhicules ayant eu à souscrire au moins une garantie dommages sur la période 2007-2011 à Chanas. Nous 8 9 avons eu donc au total un tableau de données de 25.481 lignes (unités statistiques) et 10 colonnes (variables) ; chaque ligne représentant un véhicule ayant souscrit une garantie dommage ; 2. présenté les différentes méthodes statistiques permettant de résoudre le problème. Il s’agit, d’une part, de la technique GEE qui va permettre d’estimer les paramètres du modèle de la fréquence moyenne des sinistres tout en tenant compte de la corrélation qui peut exister entre plusieurs observations différentes d’un même individu au cours du temps. Ensuite la moyenne empirique et ses propriétés pour l’estimation du coût relatif moyen des sinistres ; 3. fait une application de ces différentes méthodes statistiques pour estimer les différents taux de primes pures des garanties dommages en assurance automobile. Résultats Après construction d’un modèle de Poisson dont les paramètres sont estimés par la technique GEE, nous avons l’estimation des différentes fréquences moyennes des sinistres dans le tableau suivant : Dommages Accidents Dommages Collision Vol Total Vol Total et Partiel Incendie Incendie & Risques Electriques Bris de Glaces Vol par Braquage Usage Touristique 0,38910 0,04097 0,00203 0,01220 0,00105 0,00320 0,05995 0,00214 TPM (<3,5 tonnes) 4,48e-01 1,17e-01 8,38e-03 1,58e-02 7,78e-21 1,56e-20 5,75e-02 3,24e-03 TPM (>3,5 tonnes) 5,62e-02 1,86e-02 7,78e-21 1,47e-03 8,04e-22 4,35e-03 8,66e-03 3,09e-04 Tab. 1 – Estimation de la fréquence moyenne annuelle des sinistres par véhicule dans les classes de risque. NB : l’abréviation TPM renvoie aux catégories de véhicules de Transports Publics de Marchandises. Ce qu’on peut dire, c’est que la fréquence moyenne des sinistres est assez élevée dans la garantie Dommages Accidents (38%) et assez faible dans les garanties vol et incendie. La fréquence moyenne des sinistres est plus élevée sur les véhicules de Transport Public de Marchandise (TPM) avec charge utile inférieure à 3,5 tonnes(catégorie d’usage 2) que chez les véhicules de type TPM (>3,5 tonnes). La moyenne empirique a permis d’avoir une estimation du coût relatif moyen des sinistres. Les résultats sont présentés dans le tableau 2. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 10 Dommages Accidents Dommages Collision Vol Total Vol Total & Partiel Incendie Incendie & Risques Electriques Bris de Glaces Vol par Braquage Usage Touristique 0,0810 0,0873 0,6842 0,7628 0,7561 0,9707 0,0255 0,8051 TM (<3,5 tonnes) 0,0810 0,0873 0,6842 0,7628 0,7561 0,9707 0,0255 0,8051 TM (>3,5 tonnes) 0,1514 0,0873 0,6842 0,7628 0,7561 0,9707 0,0255 0,8051 Tab. 2 – Estimation du coût relatif moyen des sinistres dans chaque classe de risque. NB : le coût relatif moyen des sinistres est sensiblement le même quelque soit la catégorie d’usage du véhicule. Au regard des résultats, on peut dire que le coût relatif moyen des sinistres est plus élevé dans les garanties vol et incendie. Après donc l’estimation de la fréquence des sinistres et du coût relatif moyen des sinistres, on en déduit une estimation du taux de primes pures. On a les résultats suivant : Dommages Accidents Dommages Collision Vol Total Vol Toatal & Partiel Incendie Incendie & Risques Electriques Bris de Glaces Vol par Braquage Usage Touristique 3,1551 [2,560 ; 4,013] 0,3537 [0,040 ; 1,168] 0,1392 [0,059 ; 0,241] 0,9315 [0,598 ; 1,279] 0,0794 [0,00936 ; 0,166] 0,3109 [0,145 ; 0,489] 0,1533 [0,089 ; 0,208] 0,1725 [0,0394 ; 0,404] TPM (< 3,5 tonnes) 3,63 [2,855 ; 4,707] 1,01 [0,039 ; 3,049] 0,575 [0,119 ; 1.383] 1,21 [0,472 ; 2,404] 5,88e-19 [5,391e-19 ; 3,384e-08] 1,51e-18 [1,291e-18 ; 2,437e-07] 0,147 [0,045 ; 0,275] 0,261 [0,0519 ; 0,952] TPM (> 3,5 tonnes) 0,846 [0,716 ; 0,942] 0,161 [0,0119 ; 0,903] 5,33e-19 [4,209e-19 ; 2,321e-08] 0,112 [0,0386 ; 0,2144] 6,08e-20 [3,512e-21 ; 2,169e-19] 0,422 [0,157 ; 2,949] 0,0221 [0,00867 ; 0,0435] 0,0249 [0,00403 ; 0,0654] Tab. 3 – Estimation du taux de primes pures (%) dans les différentes classes de risque. Commentaire Globalement, les taux de primes pures ont considérablement baissé par rapport à ce qui existe actuellement. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 11 Le taux de prime a peu varié dans la garantie Dommages Accidents. Nous observons une baisse d’environ 9,85% pour les véhicules à usage touristique. Et une hausse de 3,71% pour les véhicules de type TPM à charge utile inférieure à 3,5 tonnes par rapport à ce qui existe actuellement dans la compagnie Chanas. Pour ce qui est de la garantie Dommages Collision, le taux de prime pure a baissé de 85,85% pour les véhicules à usage touristique, et de 59,6% pour les véhicules de type TPM à charge utile inférieure à 3,5 tonnes par rapport à ce qui existe actuellement dans la compagnie Chanas. Dans la garantie Vol Total, le taux de prime pure a baissé de 76,8% pour les véhicules à usage touristique, et de 4,16% pour les véhicules de type TPM (<3,5 tonnes) par rapport à ce qui existe actuellement dans la compagnie Chanas. Dans la garantie Vol Total & Partiel, le taux de prime pure a baissé de 25,48% pour les véhicules à usage touristiques, et de 3,2% pour les véhicules de type TPM (< 3,5 tonnes) par rapport à ce qui existe actuellement dans la compagnie Chanas. Dans la garantie Incendie, le taux de prime pure a baissé de 84,12%. Dans la garantie Incendie & Risques Electriques, le taux de prime pure a baissé de 58,55% pour les véhicules à usage touristique, et de 43,73% pour les véhicules de type TPM (> 3,5 tonnes) par rapport à ce qui existe actuellement dans la compagnie Chanas. Dans la garantie Bris de Glaces, le taux de prime pure a baissé de 81,96% pour les véhicules à usage touristique, de 82,70% pour les véhicules de type TPM (<3,5 tonnes), et de 97,4% pour les véhicules de type TPM (> 3,5 tonnes) par rapport à ce qui existe actuellement dans la compagnie Chanas. Bref en moyenne, les taux de prime pure ont baisé d’environ 48,3%. On peut donc dire que les taux utilisés actuellement dans l’entreprise sont un peu élevés. Conclusion L’objectif principal de cette étude était de réviser les taux de primes des garanties dommages en assurance automobile. Une méthodologie d’estimation de ces taux a été proposée et a permis d’estimer de nouveaux taux de primes pures nettement inférieurs à ceux existant déjà dans l’entreprise. Nous suggérons à Chanas Assurances de revoir à la baisse le plus tôt possible ses taux de primes pures en se basant sur nos résultats, afin de rester davantage compétitive dans le marché d’assurance dommages automobile. De plus, la conception actuelle de la base de données doit être révisée afin de faciliter cette étude dans les autres catégories d’usages de véhicules et branches d’assurances. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 12 Quelques recommandations par rapport aux résultats obtenus Nous suggérons que les taux de primes pures qui tendent vers 0 (zéro) soient ramenés à 0,01%. Par conséquent pour la garantie Vol Total par exemple, au lieu d’avoir un taux de prime de 5,33e-19% sur les véhicules de type TPM (>3,5 tonnes), nous proposons que se soit ramener à 0,01%. Nous suggérons également que les taux de primes pures qui ont baissé de plus de 40% se ramènent à une baisse de 40% par rapport à ce qui existe dejà dans l’entreprise. Ceci va permettre d’avoir une certaine marge de sécurité tout en évitant de faire baisser considérablement et de façon brusque les taux. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Chapitre 1 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES Dans ce chapitre, nous allons faire une présentation des données et, par la suite, on va faire une analyse descriptive de ces données. 1.1 Présentation des données Les données que nous avons en notre possession ont été extraites du data base II (base de données de l’entreprise). Après extraction des données sous la forme brute (sous forme de table relative aux notions de base de données), nous les avons traitées sous Access afin d’avoir un tableau statistique standard (des unités statistiques sur lesquelles on fait des observations sur des variables). A l’issue de ce travail, nous avons pu avoir un tableau statistique constitué de 25.481 lignes et 10 variables. 1.1.1 Qu’est ce qu’une unité statistique dans notre étude ? Dans notre étude, une unité statistique est tout véhicule ayant souscrit une garantie dommages en assurance automobile sur la période 2007-2011 à Chanas Assurances. Pour chacun des véhicules, on a observé l’année de souscription d’une garantie dommage, la catégorie d’usage du véhicule, la garantie dommage souscrite, la zone géographique de circulation régulière, le nombre de sinistres observés sur l’année, le coût total des sinistres observés durant l’année, la valeur neuve ou la valeur vénale, et la proporion du coût des sinistres durant l’année par rapport à la valeur neuve ou vénale du véhicule. 1.1.2 Description des variables Les variables observées sont au nombre de dix (10) dont quatre (04) qualitatives et six (06) quantitatives. 1 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 2 1. Variables qualitatives (a) ANNEE : années des observations des unités statistiques, c’est-à-dire les années 2007 à 2011 (b) USAGE : variable permettant d’identifier la catégorie d’usage du véhicule. Elle a 03 modalités codées numériquement : – 1 : véhicule de Tourisme ; – 2 : véhicule de Transport Public de Marchandise (TPM) avec charge utile inférieure à 3,5 tonnes ; – 3 : véhicule de Transport Public de Marchandise (TPM) avec charge utile supérieure à 3,5 tonnes. (c) GARANTIES : ce sont les garanties dommages proposées aux assurés à Chanas. Elle comporte 08 modalités codées aussi numériquement : – – – – – – – – 20 30 40 41 50 51 60 95 : : : : : : : : Dommages Accidents ; Dommages Collision ; Vol Total ; Vol Total & Partiel ; Incendie ; Incendie & Risques Electriques ; Bris de Glaces ; Vol par Braquage. (d) ZONEGEO : elle identifie la zone géographique de circulation des véhicules assurés. Le découpage est fait en trois (03) grandes zones : – A : cette zone est essentiellement constituée des villes Bafoussam, Bamenda, Douala, Garoua, Yaoundé et les chefs-lieux de départements ou d’arrondissements situés au plus à 25 KM de ces villes ; – B : cette zone est constituée des autres chefs lieux de départements ; – C : cette zone est constituée des autres localités du pays (Cameroun). 2. Variables quantitatives (a) id : variable entière identifiant les unités statistiques (véhicule ayant souscrit une garantie dommage). Notons qu’une valeur de la variable "id" peut apparaître plusieurs fois dans le tableau de données, mais ne peut apparaître qu’une seule fois pour la même année. (b) NBRE_SINISTRE : c’est le nombre de sinistres observés sur chaque unité statistique pendant une année de l’étude. Il vaut 0 ou 1 dans nos données. (c) COUT_SINISTRE : c’est la valeur totale du règlement d’un sinistre.Il est strictement positif. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 3 (d) VALEUR_NEUVE : c’est la valeur neuve actualisée du véhicule au moment de la souscription d’une garantie dommages. (e) VALEUR_VENALE : c’est la valeur vénale du véhicule au moment de la souscription d’une garantie dommages. (f) COUT_RELATIF : c’est le rapport entre le coût d’un sinistre et la valeur neuve ou vénale du véhicule sinistré. Notons que le coût relatif des sinistres se détermine de deux manières en fonction du type de garantie : 1. Si nous avons affaire aux garanties Dommages Accidents, Dommages Collision et Bris de Glaces, le coût relatif d’un sinistre est égale au rapport du coût du sinistre sur la valeur neuve actualisée du véhicule sinistré. 2. Par contre, si nous avons affaire aux garanties vol et incendie, le coût relatif d’un sinistre est le rapport du coût du sinistre sur la valeur vénale du véhicule sinistré. Remarque Le nombre d’observation strictement positive de la variable COUT_RELATIF est égale au nombre de sinistres observés (608) sur la période 2007-2011 en dommage automobile à Chanas. On présente ci-dessous, quelques lignes de notre tableau de données. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 4 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES id 5553 31 3541 4784 ANNEE 2008 2007 2008 2008 ZONEGEO A A A A USAGE 1 3 2 3 GARANTIES 41 30 20 50 NBRE_SINISTRE 0 0 1 0 COUT_SINISTRE 0 0 299.200 0 VAL_NEUVE VAL_VENALE 12.243.000 10.529.000 Tab. 1.1 – Quelques lignes du tableau de données. 1.2 Analyse descriptive des données Il sera question ici, de faire une analyse descriptive des données. Ce qui nous permettra de mieux nous familiariser avec les données. Dans un premier temps, nous allons faire une répartition des unités statistiques sur les modalités de chaque variable ; ensuite, nous allons faire un croisement des modalités des variables qualitatives deux à deux et présenter la répartition de la fréquence des sinistres sur les différentes modalités ; enfin nous allons faire une répartition des coûts et de la proportion des sinistres sur les différentes variables. 1.2.1 Distributions empiriques des variables qualitatives La variable ANNEE 2007 5401 (21,2%) 2008 5295 (20,8%) 2009 5110 (20,1%) 2010 4976 (19,5%) 2011 4699 (18,4%) Tab. 1.2 – Répartition du nombre de souscriptions des garanties dommages automobile de l’étude sur les années 2007 à 2011. La variable ZONEGEO A 25031 (98,23%) B 350 (1,37%) C 100 (0,40%) Tab. 1.3 – Répartition du nombre de souscriptions des garanties dommages automobile de l’étude dans les trois zones géographiques. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 5 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES La variable USAGE 1 17056 (66,9%) 2 3279 (12,9%) 3 5146 (20,2%) Tab. 1.4 – Répartition du nombre de souscriptions des garanties dommages automobile de l’étude dans les trois différentes catégories d’usages de véhicule. La variable GARANTIES 20 1627 (6,39%) 30 278 (1,09%) 40 5827 (22.9%) 41 4045 (15,9%) 50 5959 (23,4%) 51 3871 (15,2%) 60 1080 (4,2%) 95 2794 (11%) Tab. 1.5 – Répartition des différentes garanties dommage de l’étude dans notre jeu de données. Sur la variable ANNEE, on constate que le nombre d’unités statistiques observées chaque année de notre étude ne varie pas beaucoup, même si on peut observer une certaine diminution progressive. Sur la variable ZONEGEO, la zone A représente environ 98,2% des souscriptions des garanties dommages. La zone B environ 1,4% et la zone C 0,4% des souscriptions. Les véhicules ayant donc souscrit une garantie dommages à Chanas circulent le plus dans la zone A. Ce qui n’est pas du tout surprenant, car Chanas n’est présente que dans quatre grandes villes du pays. Au regard de ces chiffres, on peut dire qu’il n’y a pas un grand intérêt de considérer cette variable dans notre étude. Pour ce qui concerne les catégories d’usage des véhicules, ce sont les véhicules à usage touristique qui souscrivent plus de contrats dommages dans l’entreprise. Pour ce qui est des garanties souscrites, on peut dire que les garanties vols et incendies sont celles là qui intéressent le plus les clients. 1.2.2 Croisement des modalités des variables USAGE et GARANTIES La figure 1.1 nous permet de visualiser le nombre de souscriptions de garanties dommages automobile sur la période 2007 à 2011 en croisant les modalités des variables USAGE et GARANTIES. Les véhicules à usage touristique qui représentent plus de 64% des souscriptions, ont plus de contrats dans les garanties vol et incendie. Il est donc important pour l’entreprise d’avoir des tarifs très compétitifs dans cette catégorie de véhicule. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 6 Fig. 1.1 – Nombre de garanties souscrites en croisant les modalités des variables USAGE et GARANTIES Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 7 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 1.2.3 Quelques résumés des variables quantitatives Le tableau ci dessous, décrit les variables quantitatives. VARIABLES NBRE_SINISTRE COUT_SINISTRE (FCFA) VAL_NEUVE (FCFA) VAL_VENALE (FCFA) MIN 0 19.260 1.500.000 250.000 MAX 1 36.800.000 100.400.000 40.000.000 MOYENNE 0,0239 1.357.215 22.130.000 10.650.000 ECART-TYPE 0,15517 3.063.264 17.013.997 8.377.488 DONNEES MANQUANTES 0 0 99 (17%) 0 Tab. 1.6 – Résumés des variables quantitatives Le nombre total de sinistres observés dans notre jeu de données est de 608. 1.2.4 Analyse descriptive de la sinistralité Nombre et fréquence moyenne des sinistres Rappelons que la fréquence moyenne des sinistres dans cette étude, est le nombre moyen de sinistre sur la période 2007-2011. En d’autres termes, c’est le rapport entre le nombre de sinistres et le nombre de contrats souscrits sur toute la période 2007-2011. Ci-dessous, nous allons faire quelques représentations graphiques pour avoir une meilleure description de la sinistralité. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 8 Le graphe de la fréquence moyenne des sinistres nous montre clairement que la distribution de la sinistralité dans les différentes catégories d’usages de véhicules n’est pas la même. Il est donc évident que l’usage du véhicule a une influence considérable sur la sinistralité. Notons également qu’on observe plus de sinistres dans la catégorie de véhicules à usage touristique. Ce qui est normal, car c’est dans cette catégorie de véhicule qu’on enregistre le plus dans les contrats. Mais la fréquence des sinistres dans cette catégorie est relativement faible par rapport à la catégorie d’usage 2. Observons maintenant le comportement de la sinistralité dans les différentes garanties. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 9 Fig. 1.2 – Nombre et fréquence moyenne des sinistres observés dans les différentes catégories d’usages de véhicules. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 10 Fig. 1.3 – Nombre et fréquence moyenne des sinistres observés dans les garanties souscrites La fréquence moyenne des sinistres est élevée dans les garanties Dommages Accidents, Dommages Collision et Bris de Glaces. Il apparaît également sur la figure 1.3 que la distribution de la sinistralité n’est pas la même dans les différentes garanties. Observons la fréquence des sinistres en croisant les modalités des variables USAGE et GARANTIES. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 11 Fig. 1.4 – Fréquence moyenne des sinistres en croisant les modalités des variables USAGE et GARANTIES De la figure 1.4 ci-dessus, il ressort que : – Dans la garantie Dommages Accidents (20), la fréquence moyenne des sinistres est plus élevée sur les véhicules à catégorie d’usage 2 (près de 40%), et sur les véhicules à catégorie d’usage 1 (environ 33%). – Dans la garantie Dommages Collision (30), la fréquence moyenne des sinistres est plus élevée sur les véhicules de catégorie d’usage 2 (12%). – Dans les garanties vols (40,41 et 95), et incendie (50 et 51), la fréquence moyenne des sinistres est très faible quelque soit la catégorie d’usage du véhicule. – Dans la garantie Bris de Glaces (60), la fréquence moyenne des sinistres est plus élevée dans les catégories de véhicules d’usage 1 et 2. Bref, il est clair que pour la plupart des garanties, la fréquence moyenne des sinistres varie Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 12 en fonction de l’usage du véhicule ou bien, la distribution de la fréquence moyenne des sinistres dans les différentes garanties n’est pas la même pour toutes les catégories d’usages de véhicules. Proportion moyenne du coût des sinistres sur les valeurs des véhicules sinistrés Notons que sur chaque ligne i du tableau de données où la variable NBRE_SINISTRE prend la valeur 1, on a une observation pi de la variable COUT_RELATIF. Posons A = {i = 1 . . . 25481/N BRE_SIN IST REi = 1}. Alors ∀i ∈ A, pi se calcul de la manière suivante : ( COU T _SIN IST RE i si GARAN T IEi = 20, 30, 60 V AL_N EU V Ei (1.1) pi = COU T _SIN IST REi si GARAN T IEi = 40, 41, 50, 51, 95 V AL_V EN ALEi Notons que pour i ∈ / A, pi = 0 Rappelons que nous devons avoir normalement 608 observations de la variable COUT_RELATIF, car c’est le nombre total de sinistres observés sur la période 2007-2011. Mais étant donnée qu’il y a 99 obsevations manquantes sur la variable VAL_NEUVE, on a donc au total 509 observations sur la variable COUT_RELATIF. Par souci d’une bonne gestion des analyses sur la variable COUT_RELATIF, nous avons extrait les données du tableau de base où la variable NBRE_SINISTRE prend la valeur 1, deux tableaux de même structure que celle du tableau de données de base. De telle sorte que l’un des tableaux est constitué uniquement des garanties 20, 30, 60, et l’autre des garanties 40, 41, 50, 51, 95. Le coût relatif moyen des sinistres n’est rien d’autres que la moyenne arithmétique des coûts relatifs des sinistres strictements positives dans le jeu de données. Observons le coût relatif moyen des sinistres sur les variables USAGE et GARANTIES (figure 1.5). Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES 13 Fig. 1.5 – Proportion moyenne du coût des sinistres sur chaque catégorie d’usage de véhicules et de garanties Il apparaît sur la figure 1.5 que le coût relatif des sinistres dans les garanties vol (40/95) et incendie (50) est élevée et proche de 1. Par contre, pour les garanties Dommages Accidents, Collision et Bris de Glaces, le coût relatif moyen des sinistres est relativement faible. Au terme de cette analyse descriptive des données, il en ressort que : – la segmentation des données en zones géographiques n’apporte pas grande chose dans l’analyse de la sinistralité car plus de 98% des observations se trouvent dans la zone géographique A ; – les véhicules à usage touristique représentent plus de 66% du portefeuille ; – les garanties les plus souscrites sont le Vol Total (23%), le Vol Total & Partiel (16%), l’Incendie (23%), l’Incendie & Risques Electriques (15%) et le Vol par Braquage (11%) ; – la fréquence moyenne des sinistres est fonction de l’usage du véhicule et de la garantie Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 PRESENTATION ET ANALYSE DESCRIPTIVE DES DONNEES – – – – 14 souscrite ; la fréquence moyenne des sinistres est plus élevée sur les véhicules de transport de marchandises (7% environ) avec une charge utile inférieure à 3,5 tonnes ; la fréquence moyenne des sinistres est plus élevée dans la garantie Dommages Accidents (plus de 30%) ; les véhicules de catégories d’usage 1 et 2 ont une fréquence moyenne de sinistres élevée dans la garantie Dommages Accidents ; le coût relatif moyen des sinistres est plus élevée dans les garanties Vol et Incendie. Remarque La sinistralité dans les garanties Dommages Accidents, vol Total & Partiel, et Incendie & risques électriques sera amélioré et revue à la hausse juste parce qu’implicitement, elles couvrent d’autres garanties. Si un individu a une garantie Dommages Accidents et a plus tard un sinistre Bris de Glaces, l’entreprise se doit de régler le sinistre. De même, un individu ayant souscrit la garantie Vol Total & Partiel est totalement couvert de la garantie Vol Total. C’est pareil pour la garantie Incendie & Risques Electriques. Or dans notre analyse descriptive de la sinistralité, on se rend compte que les garanties que nous avons énumérées ci-dessus ont une sinistralité faible par rapport aux garanties qu’elles englobent. Ce qui s’explique par le fait qu’on enregistre plutôt dans la base de données la garantie correspondante au sinistre. C’est-à-dire qu’un individu ayant souscrit uniquement la garantie Vol Total & Partiel, et qui plus tard a un sinistre vol total, au moment de l’enregistrement du sinistre, c’est le code de la garantie vol total qui sera saisi. Ce qui laissera croire qu’il n’y a pas eu de sinistres dans la garantie Vol Total & partiel. Pour résoudre ce problème, nous allons faire une majoration du taux de prime pure (surprime) dans ces garanties (Confert chapitre 3). Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Chapitre 2 METHODES STATISTIQUES Dans ce chapitre, il est question de présenter et de développer les outils statistiques qui vont nous permettre de résoudre le problème de notre étude. Le taux de prime pure étant le produit entre la fréquence moyenne des sinistres et le coût relatif moyen des sinistres, pour l’estimer, il suffit d’estimer la fréquence moyenne des sinistres et le coût relatif moyen des sinistres. C’est pourquoi dans un premier temps pour obtenir une estimation de la fréquence moyenne des sinistres, nous allons utiliser le modèle de régression de Poisson sur les données longitidunales. En effet la variable NBRE_SINISTRE caractérisant la fréquence des sinistres peut prendre ses valeurs dans l’ensemble des entiers naturels. C’est pourquoi la régression de Poisson est indiquée ici. Ensuite pour obtenir une estimation du coût relatif moyen des sinistres, la moyenne empirique sera utiliser. Enfin une estimation des intervalles de confiances des différents taux de primes pures sera proposé à partir de la méthode de simulation Bootstrap. 2.1 La régression de Poisson Cette section présente une introduction à la régression de Poisson. En premier la loi de Poisson et ses différentes propriétés seront énoncées. Ensuite les modèles linéaires généralisés seront introduits, pour enfin faire place au sujet principal : la régression de Poisson. 2.1.1 Définitions et hypothèses Soient y1 , . . . , yn les réalisations des variables aléatoires indépendantes Y1 , . . . , Yn , où l’on suppose que la loi de probabilité de Yi (i = 1, . . . , n) a deux paramètres θi (paramètre naturel) et φ (paramètre de dispersion), de densité (discrète ou continue), yi θi − b(θi ) f (yi |θi , φ) = exp − c(yi , φ) (2.1) φ La fonction de vraisemblance est définie comme étant, n Y f (yi |θi , φ) i=1 15 16 METHODES STATISTIQUES où n est le nombre d’observations ou d’individus. Ainsi, pour une loi de probabilité ayant une densité sous la forme (2.1), n Y yi θi − b(θi ) L (y|θ, φ) = exp − c (yi , φ) φ i=1 ) ( n (2.2) n X yi θi − b(θi ) X − c (yi , φ) = exp φ i=1 i=1 0 0 où y = [y1 , · · · , yn ] et θ = [θ1 , · · · , θn ] . Quant à la fonction de log-vraisemblance, elle s’obtient en prenant le logarithme naturel de la fonction de vraisemblance. Donc, n n X yi θi − b(θi ) X − l (y|θ, φ) = ln {L (y|θ, φ)} = c (yi , φ) (2.3) φ i=1 i=1 Etant donné que dans notre étude pour modéliser la fréquence moyenne des sinistres nous allons supposer que la variable NBRE_SINISTRE suit une loi de Poisson, dans ce qui suit nous allons présenter la loi de Poisson et ses propriétés. 2.1.2 La loi de Poisson On dit que Y suit une loi de Poisson de paramètre µ si sa fonction de probabilité est ( y e−µ µy! si y = 0, 1, 2, . . . , (2.4) P [Y = y] = 0 sinon. où µ est un nombre réel positif. La fonction de répartition de Y est alors donnée par : ( P[y] µt e−µ t=0 si y ≥ 0 t! P [Y ≤ y] = 0 sinon. où [y] correspond à la partie entière de y. Suite à une transformation de la fonction de probabilité (2.4), on montre qu’elle peut se mettre sous la forme (2.1) de la manière suivante : e−µ+yln(µ) eln(y!) yln(µ) − µ = exp − ln(y!) 1 P [Y = y] = Alors, les paramètres de (2.1) sont donnés dans ce cas par : θ = ln(µ) b(θ) = exp(θ) = exp(ln(µ)) = µ φ=1 c (y, φ) = ln(y!) Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 17 METHODES STATISTIQUES a. La fonction génératrice des moments de la loi de Poisson La fonction génératrice de la loi de Poisson notée MY (t), est utile afin de trouver le (k) moment d’ordre k, où E[Y k ] = MY (t)|t=0 . On définit cette fonction génératrice des moments comme étant E[etY ]. On a tY MY (t) = E[e ] = ∞ X −µ y µ ty e e y! y=0 = e−µ+µe −µ =e ∞ y X (µet ) y=0 y! t (2.5) = eµ(e −1) t A l’aide de cette fonction génératrice des moments, l’espérance et la variance de la loi peuvent être calculées : E[Y ] = µ et V ar[Y ] = E[Y 2 ] − E 2 [Y ] = µ On obtient donc une propriété intéressante de la loi de Poisson, appelée propriété d’équidispersion, impliquant que E[Y ] = V ar[Y ]. Notons qu’une loi est équidispersée dans le cas où son espérance et sa variance sont égales ; elle est surdispersée (sousdispersée) dans le cas où son espérance est inférieure (supérieure) à sa variance. Les propriétés de dispersion des lois discrètes communes sont présentées au Tableau ci-dessous. On mentionne que si Yj suit une loi de Poisson de paramètre µj (j = 1, 2, . . .), que les Yj P∞ P sont des variables aléatoires indépendantes et que ∞ j=1 Yj suit j=1 µj < ∞ , alors ZY = P∞ une loi de Poisson de paramètre j=1 µj . Loi Binomiale(n, p) Espérance np Variance np(1 − p) Propriété Sousdispersion si 0 < p ≤ 1 Equidispersion si p = 0 Binomiale négative(m, p) m p m(1−p) p2 1 2 Equidispersion si p = 21 Surdispersion si p < 12 Poisson(µ) µ µ Equidispersion Sousdispersion si p > Tab. 2.1 – Propriétés de certaines lois discrètes b. Les fonctions de vraisemblance et de log-vraisemblance de la loi de Poisson Soient Y1 , . . . , Yn , des observations mutuellement indépendantes telles que Yi suit une loi de Poisson de paramètre µi , i = 1, . . . , n. Ainsi, on a θi = ln(µi ), b(θi ) = µi , a(φ) = 1 et Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 18 METHODES STATISTIQUES c(yi , φ) = ln(yi !). En substituant ces valeurs dans les équations (2.2) et (2.3), on obtient L(θ|y; φ) = exp = exp ( n X yi ln(µi ) − µi ( i=1n X 1 − n X ) ln(yi !) i=1 !) (2.6) (yi ln(µi ) − µi − ln(yi !) i=1 et l(θ|y; φ) = n X yi ln(µi ) − µi − i=1 0 n X ! ln(yi !) (2.7) i=1 0 où θ = [ln(µ1 ), . . . , ln(µn )] = [θ1 , . . . , θn ] . 2.1.3 Les modèles linéaires généralisés Un modèle linéaire généralisé (abrégé en anglais GLM, pour Generalized Linear Model ) est une extension du modèle de régression linéaire, permettant à la variable endogène de suivre n’importe quelle loi de probabilité ayant une densité sous la forme (2.1). a. Quand utilise-t-on un GLM plutôt qu’un modèle linéaire ? Dans le cas où la variable réponse n’est pas continue, le modèle linéaire n’est pas approprié. Une autre raison expliquant le fait qu’un modèle linéaire n’est pas approprié est tout simplement le cas où la relation entre la variable endogène et la (les) variable(s) exogène(s) n’est pas linéaire. Une fonction de lien adéquatement choisie permet de mieux modéliser l’effet des variables exogènes sur la variable endogène dans un GLM. b. Les composantes d’un GLM Un modèle linéaire généralisé est composé de trois éléments, à savoir : 1. la variable à expliquer Y , composante aléatoire à laquelle est associée une loi de probabilité de densité sous forme (2.1) ; 2. les variables explicatives X1 , . . . , Xp , p ∈ ℵ∗ utilisées comme prédicteurs dans le modèle ; 3. le lien qui décrit la relation fonctionnelle entre la combinaison linéaire des variables X1 , . . . , Xp et l’espérance mathématique de la variable à expliquer Y . Nous allons maintenant étudier la régression de Poisson qui est un cas particulier d’un GLM. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 19 METHODES STATISTIQUES 2.1.4 La régression de Poisson Soient une réponse Yi à valeur dans ℵ, un vecteur de régresseurs xi = (1, xi1 , . . . , xip ) et β = (β0 , . . . , βp ) vecteur des paramètres. La régression de Poisson est utilisée dans le cas où la variable réponse, Yi , est une variable de dénombrement et qu’on suppose que e−µi µyi i , i = 1, . . . , n (2.8) P [Yi = yi |xi ] = yi ! La fonction de lien dans la régression de Poisson est le lien logarithmique, c’est-à-dire ln(µi ) = 0 xi β. a. Le modèle de régression de Poisson Soient n observations indépendantes d’une variable explicatives Yi (i = 1, . . . , n) et p variables explicatives xi = (1, xi1 , . . . , xip ) pour ces n variables réponses. De plus supposons que Yi |xi suit une loi de Poisson de paramètre µi et que la fonction de lien est g(µi ) = ln(µi ). Le modèle de Poisson permet d’avoir une approximation de µi , en estimant le vecteur des paramètres β. Estimation de β par maximum de vraisemblance Estimer le vecteur des paramètres β par maximum de vraisemblance, revient à maximiser la log-vraisemblance, c’est-à-dire résoudre l’équation U (β) = 0, où U (β) représente le vecteur gradient par rapport à β de la log-vraisemblance l(y|θ, φ). Or à partir de l’équation (2.7), on a : n X U (β) = xi (yi − µi ) (2.9) i=1 0 Avec µi = exp(xi β). La matrice hessienne de l(y|θ, φ) de dimension (p + 1) × (p + 1) est donnée par n X 0 0 H(β) = − xi xi µi = −X diag(µ)X i=1 où diag(µ) désigne la matrice diagonale de sont µ1 , . . . , µn . Et 1 x11 1 x21 X= 1 x31 .. .. . . dimension n × n dont les éléments principaux x12 x22 x32 .. . 1 xn1 xn2 Master de Statistique Appliquée. · · · x1p · · · x2p · · · x3p . .. . .. · · · xnp © HERNANDEZ LELE, UY1/ENSP 2012 20 METHODES STATISTIQUES est la martice de dimension n × (p + 1) des vecteurs explicatifs xi . La procédure itérative de Newton-Raphson pour obtenir l’estimation du maximum de vraisemblance β̂ de β est la suivante : partant d’une valeur initiale βˆ0 , que l’on espère proche ème ˆ βr par de β, on définit la (r + 1)ème valeur approchée de βd r+1 de β̂, à partir de la r 0 −1 0 ˆ βd ˆr )X X (y − µˆr ) , (2.10) r+1 = βr + X diag(µ avec g(µˆr ) = X βˆr b. L’interprétation d’estimations de paramètres βˆk (scalaires) Les estimations des paramètres βˆk (k = 0, . . . , p) (scalaires) ont une interprétation particulière sous le lien logarithmique. Ainsi, βˆ0 représente le logarihme naturel de l’espérance de la variable réponse lorsque les p variables exogènes prennent simultanément la valeur 0 : ˆ µ̂i = eβ0 ; d’où βˆ0 = ln(µ̂i ). Quant aux paramètres βˆ1 , . . . , βˆp , si on augmente xil (l < p) d’une unité et que l’on maintient constante la valeur des autres variables exogènes, alors la valeur moyenne de Yi est multipliée ˆ par eβl : c. Les résidus de Pearson Les résidus de Pearson, rPi permettent de mesurer l’adéquation d’un modèle à un jeu de données. Ils sont définis comme étant : Yi − µ bi rPi = √ w bi On note que w bi est un estimé de la variance de Yi . Dans le cas de la loi de Poisson, w bi = µ bi , et alors : Yi − µ bi rPi = p . (2.11) µ bi d. La validation d’un modèle : la statistique de Pearson La statistique de Pearson, notée X 2 , mesure l’ajustement d’un modèle. Cette statistique est obtenue en sommant les carrés des résidus de Pearson définis à l’équation (2.11). Si le modèle que l’on tente d’ajuster aux données est bon, cette statistique devrait suivre approximativement une loi du khi-deux avec n − p − 1 degrés de liberté. La statistique de Pearson peut aussi être utilisée afin de déceler des problèmes avec l’hypothèse d’équidispersion. En fait, si X 2 >> n − p − 1, il y a lieu de penser que les données sont surdispersées. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 21 METHODES STATISTIQUES 2.2 Les équations d’estimation généralisées (GEE) En sciences appliquées, il est fréquent de prendre des mesures sur un même individu à plusieurs moments dans le temps (on parle alors de données longitudinales), ce qui fait que la corrélation des mesures pour un individu particulier doit être prise en considération dans les analyses statistiques. Les méthodes décrites précédemment ne sont alors plus valides, puisqu’elles ne tiennent pas compte de la corrélation entre les observations prises sur un même individu. La méthode GEE va permettre de résoudre le problème en permettant d’estimer les paramètres d’un modèle de données longitudinales. L’approche par GEE ne spécifie pas entièrement la distribution conjointe des Yi , mais plutôt une modélisation de la moyenne et une spécification de la structure de corrélation. Dans le contexte longitudinal, différentes formes de travail de la structure de corrélation sont utilisées et les estimateurs sont solutions des GEE. Un élément attrayant de cette approche est que les estimations des paramètres du modèle sont convergentes même dans l’éventualité où la structure de corrélation serait mal spécifiée. Les données longitudinales sont analysées en utilisant la même fonction de lien et le même prédicteur linéaire que dans un cas où les données seraient indépendantes. Pour une analyse longitudinale, on permet aux variables réponses d’être corrélées entre elles pour un individu donné. Cependant, elles doivent être indépendantes d’un individu à l’autre. 2.2.1 Des définitions Soit la fonction de lien g(µit ) = x0it β = ηit (t = 1, · · · , ni ) où µit = b0 (θit ) = E(Yit ) et supposons le vecteur de dimension ni × 1 des variables réponses pour l’individu i(i = 1, · · · , n), noté Yi = [Yi1 , · · · , Yin1 ]0 . De plus, chacun des vecteurs Yi a comme vecteur moyen µi = [µi1 , · · · , µin1 ]0 . Finalement, posons le vecteur x0it = [xit1 , · · · , xitp ] comme étant le vecteur de dimension p × 1 des variables indépendantes ou explicatives pour le ième individu au temps t. Une matrice de dimension ni × p regroupant l’ensemble des variables explicatives de l’individu i peut être obtenue à partir des différents vecteurs xit . On note alors Xi : 0 Xi = [xi1 , · · · , xini ] = xi11 xi21 xi31 .. . xi12 xi22 xi32 .. . xi13 xi23 xi33 .. . ··· ··· ··· xi1p xi2p xi3p .. . . xini 1 xini 2 xini 3 · · · xini p Définissons de plus les matrices et vecteurs suivants : ∆i = diag dθit dηit = diag dθit dx0it β Master de Statistique Appliquée. de dimension ni × ni , © HERNANDEZ LELE, UY1/ENSP 2012 22 METHODES STATISTIQUES Si = Yi − µi est de dimension ni × 1, 1 diag(Var(Yit )) est de dimension ni × ni . φ Supposons enfin que la densité marginale de Yit vérifie l’équation (2.1), c’est-à-dire que la densité de Yit se réexprime comme suit : Ai = diag (b”(θit )) = f (yit θit ; φ) = exp 2.2.2 Yit θit − b(θit ) − c(Yit , φ) . φ (2.12) Les équations d’estimation sous l’indépendance (IEE) Dans le cas où l’on suppose que Yit1 est indépendant de Yit2 (t1 6= t2 ) ∀i = 1, . . . , n, l’estimation des paramètres βk se fait en posant égale à 0 la fonction score. Cette fonction score est définie comme étant le vecteur dont l’élément en position k (k = 0, · · · , p0 ) est donné par : Uk (βk ) = ∂ l(Y β). ∂βk De plus, dans le cas où nous sommes en présence d’une loi vérifiant l’équation 2.1, ( n n ) i XX θ Y − b(θ ) it it it − c(Yit , φ) l(Y β) = exp φ i=1 t=1 ni n X X θ Y − b(θ ) it it it l(β Yi ) = ln(L(β Yi )) = − c(Yit , φ) φ i=1 t=1 ni n ∂l(β Yi ) X X 1 dθit dθit 0 Uk (βk ) = = Yit − b (θit ) ∂βk φ dβ dβk k i=1 t=1 ni n X X 1 dθit dηit dθ dη it it 0 = Yit − b (θit ) φ dηit dβk dηit dβk i=1 t=1 |{z} |{z} ≡∆it = = ni n X X i=1 t=1 ni n X X i=1 t=1 ≡∆it 1 {Yit ∆it xitk − b0 (θit )∆it xitk } φ 1 (Yit ∆it xitk − µit ∆it xitk ) φ ni n X X 1 = ∆it xitk (Yit − µit ). φ i=1 t=1 Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 23 METHODES STATISTIQUES En utilisant la notation matricielle, on peut donc écrire le système d’équations à résoudre comme suit : n X 1 0 UIEE (β) = Xi ∆i (Yi − µi ) φ i=1 b résolvons : Ainsi, afin de trouver β, UIEE (β) = 0 =⇒ n X 1 0 Xi ∆i (Yi − µi ) = 0 φ i=1 =⇒ n X Di0 Vi−1 Si = 0, (2.13) i=1 ∂µi et Vi = φAi Ri (α)Ai avec Ri = I. ∂β Donc, dans le cas où nous sommes en présence de données indépendantes, le vecteur β est obtenu en résolvant le système d’équations UIEE (β) = 0, et la matrice de variance-covariance des βb peut être estimée de façon convergente (Liang et Zeger, 1986) par : !−1 ! n !−1 n n X X X Vb = X 0 ∆i Ai ∆i Xi X 0 ∆i Si S 0 ∆i Xi X 0 ∆i Ai ∆i Xi 1 2 où Di = Ai ∆i Xi = 1 2 i i i=1 i i=1 i i=1 β=βb Si les Yit ne sont pas indépendantes et que les équations d’estimation sous l’indépendance b Cependant, si les Yit sont sont utilisées, Vb donne un estimé valide de la variance de β. vraiment des données indépendantes, la matrice de variance-covariance peut être estimée de façon plus efficace par !−1 n X 0 b V = Xi ∆i Ai ∆i Xi b i=1 β=β . Intervalles de confiance et tests d’hypothèses pour βj On utilise le fait que β̂ est un estimateur du maximum de vraisemblance de β et par conséquent asymptotiquement on aura que β̂ suit approximativement une loi gaussienne de vecteur moyen β et de matrice de variance-covariance V̂ . Ainsi, pour un paramètre individuel βj , soit Vjj l’élément de V̂ correspondant à la variance de βbj . Alors de cette proprieté asymptotique de β̂, on a : βbj − βj P [−z α2 ≤ p ≤ z α2 ] ≈ 1 − α Vjj Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 24 METHODES STATISTIQUES z α2 est le quantile d’ordre α2 d’une loi normale centrée réduite. Ceci suggère l’intervalle de confiance de niveau 1 - α suivant pour βj : βbj ± z α2 p Vjj Pour tester une hypothèse de la forme H0 : βj = βj0 contre H1 : βj 6= βj0 ou H2 : βj > βj0 ou H3 : βj < βj0 , la procédure est simple. On calcule tout d’abord sous H0 la statistique de cj −βj0 β . test Z0 = √ Vjj Soit γ ∈]0, 1[ – Si 2P[N(0,1)≥ |z0 | ](P-value) < γ alors on accepte H1 sinon, on garde H0 – Si P[N(0,1)≥ z0 ] < γ alors on accepte H2 sinon, on garde H0 – Si P[N(0,1)≤ −z0 ] < γ alors on accepte H3 sinon, on garde H0 Revenons maintenant dans le cas général où les données ne sont plus supposées indépendantes. Il sera question ici, d’estimer les paramètres du modèle par la méthode GEE. 2.2.3 Les équations d’estimation généralisées (GEE) Les équations d’estimation généralisées ont été développées par Liang et Zeger (1986) afin de traiter les données corrélées entre elles quand celles-ci peuvent être vues marginalement comme un modèle linéaire généralisé. Soit Ri (α) une structure de corrélation de travail pour Yi . Ici on suppose que cette matrice contient certains paramètres inconnus que l’on représente par le vecteur α. Des choix pour cette matrice sont donnés à la sous section 2.2.5 en page 26. Une matrice de covariance pour Yi peut être calculée comme suit : 1 1 Vi = φAi2 Ri (α)Ai2 . (2.14) En utilisant la valeur de Vi de l’équation 2.14, dans l’équation 2.13, on obtient les équations d’estimation généralisées données par : UGEE (β) = n X Di0 Vi−1 (b α)Si = 0, (2.15) i=1 où 0 Di = = ∂β ∂µ0i Master de Statistique Appliquée. xi11 g 0 (µi1 ) xi12 g 0 (µi1 ) xi21 g 0 (µi2 ) xi22 g 0 (µi2 ) ··· xi1(p+1) g 0 (µi1 ) xi2(p+1) g 0 (µi2 ) ··· .. . .. . ··· .. . xini 1 g 0 (µini ) xini 2 g 0 (µini ) .. . xini (p+1) , g 0 (µini ) © HERNANDEZ LELE, UY1/ENSP 2012 25 METHODES STATISTIQUES et où α b est un estimateur convergent de α. L’équation (2.15) doit être résolue de façon itérative afin de trouver βb et l’algorithme qui sera utilisé à cette fin est présenté à la sous section 2.2.4 qui suit. Malheureusement, en pratique, la matrice Ri (α) est inconnue. Dans le cas où la matrice Ri (α) est la vraie matrice de corrélation (ce qui est généralement peu probable), la matrice de variance asymptotique de βb pourrait être estimée par : ! −1 n X 0 −1 α=α Vv = Di Vi Di (2.16) b i=1 b β=β φ = φb Mais comme Ri (α) n’est qu’une matrice de corrélation de travail et est possiblement fausse, alors on estime la variance de βb par un estimateur de matrice de variance sandwich : ! n X 0 −1 0 −1 (2.17) Vc = Vv Di Vi Si Si Vi Di Vv α = α b i=1 b β=β φ = φb = n X !−1 Di0 Vi−1 Di i=1 ! ! −1 n n X X α=α Di0 Vi−1 Si Si0 Vi−1 Di Di0 Vi−1 Di b i=1 i=1 β = βb φ = φb L’estimateur Vc donné par (2.17) est souvent appelé "estimateur sandwich" de la variance b de β. 2.2.4 L’estimation du paramètre βb (estimateur de β) L’algorithme de Newton-Raphson suivant est proposé afin de trouver la valeur du paramètre βb (vecteur) dans le cas où les données sont corrélées ou mesurées à travers le temps : 1. Calculer, selon l’équation (2.13) de la page 23, un estimé initial de β à partir d’un modèle linéaire généralisé supposant l’indépendance des observations : dénoter le vecteur obtenu par βb(0) ; 2. Estimer α b et φb à partir du βb de l’étape précédente et à partir des résidus de Pearson. Le α b est obtenu selon l’une des expressions (2.19), (2.22), (2.23), (2.24) tandis que le φb Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 26 METHODES STATISTIQUES est obtenu selon l’une des expressions (2.20) ou (2.21). Obtenir finalement une matrice de corrélation Ri (b α) basée sur la structure de la matrice Ri (α) supposée au préalable ; 1 1 b 2 Ri (b α)Ai2 ; 3. Calculer la matrice de covariance Vi = φA i 4. Obtenir un nouveau vecteur βb : n X βb(r+1) = βb(r) + !−1 Di0 Vi−1 Di i=1 ! n X 0 −1 Di Vi Si α = α b(r) i=1 β = βb(r) φ = φb(r) (2.18) 5. Recommencer les étapes 2 à 4 jusqu’à convergence. Lorsque le modèle pour µ est bien spécifié, les βb obtenus par la méthode des équations d’estimation généralisées s’approchent des paramètres β quand n −→ ∞, peu importe le choix de Ri (α). Cependant, un bon choix de Ri (α) assure des estimations plus efficaces de β et de sa variance. 2.2.5 Les types de matrices de corrélation Ri (α) les plus connus. La structure autorégressive Cette première structure de corrélation est utile lorsque l’on suppose une dépendance temporelle des répétitions. Par exemple, si l’on mesure la taille d’un individu en 10 années consécutives, il est possible alors de dire que les mesures sont dépendantes les unes des autres dans le temps et que les répétitions ont un ordre chronologique. Ce type de matrice nécessite l’estimation d’un seul paramètre. On a : 0 corr(Yit , Yit0 ) = α|t−t | pour |t − t0 | = 0, · · · , ni − t, Donc, Ri (α) = 1 α α2 .. . α 1 α .. . α2 α 1 .. . αni −1 αni −2 αni −3 · · · αni −1 · · · αni −2 · · · αni −3 .. .. . . ··· 1 Dans le but de trouver la valeur de α b, les résidus de Pearson doivent être calculés, et ceux-ci sont définis comme à la sous-section 2.1.4 de la page 20. On calcule ensuite : α b= Master de Statistique Appliquée. 1 (K1 − p)φb n X X rPit rPi(t+1) , (2.19) i=1 t≤ni −1 © HERNANDEZ LELE, UY1/ENSP 2012 27 METHODES STATISTIQUES où K1 = n X (ni − 1), i=1 et ni K X X 1 φb = n X ! −p ni rP2 it . (2.20) i=1 t=1 i=1 Une deuxième façon d’exprimer φb est : φb = 1 n X ni n X X ni rP2 it . (2.21) i=1 t=1 i=1 La structure d’équicorrélation Cette structure est utilisée lorsque les mesures répétées ne dépendent pas du temps et lorsque l’on suppose que les observations ont une corrélation commune. Un exemple de ce type de données peut être les différentes mesures prises chez les individus de la ième famille. Un seul paramètre, α, est estimé. On a : ( corr(Yit , Yit0 ) = 1, si t = t0 , α, si t 6= t0 , Et donc Ri (α) = 1 α α ··· α 1 α ··· α α 1 ··· .. .. .. . . . . . . α α α ··· α α α .. . 1 Afin d’obtenir l’estimateur de α, les résidus de Pearson vus auparavant doivent être calculés. Ensuite : n X X 1 rPit rPi(t+1) , (2.22) α b= (N ∗ − p)φb i=1 t6=t0 où ∗ N = n X ni (ni − 1). i=1 Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 28 METHODES STATISTIQUES La structure d’indépendance On utilise ce type de matrice lorsque l’on suppose que le temps n’a pas d’effet sur les mesures prises. En supposant que Ri (α) = Ini , on se ramène aux équations décrites à la section 2.2.2 en page 22. On a : ( 1, si t = t0 , corr(Yit , Yit0 ) = 0, si t 6= t0 , La structure m-dépendante Pour ce type de matrice, m paramètres doivent être estimés. On a : si |t − t0 | = 0, 1, corr(Yit , Yit0 ) = α|t−t0 | , si |t − t0 | = 1, 2, · · · , m, 0, si |t − t0 | > m, où α b|t−t0 | = n X 1 (K|t−t0 | − p)φb X i=1 t≤ni rPit rPit0 , (2.23) −|t−t0 | et K|t−t0 | = n X (ni − |t − t0 |). i=1 Pour une matrice de corrélation de dimension ni × ni , il existe ni − 1 choix possibles pour m. Par exemple, si ni = 4, on a : • 1-DÉPENDANTE Ri (α) = 1 α1 0 0 α1 1 α1 0 0 α1 1 α1 0 0 α1 1 • 2-DÉPENDANTE Ri (α) = 1 α1 α2 0 α1 1 α1 α2 α2 α1 1 α1 0 α2 α1 1 • 3-DÉPENDANTE Ri (α) = Master de Statistique Appliquée. 1 α1 α2 α3 α1 1 α1 α2 α2 α1 1 α1 α3 α2 α1 1 © HERNANDEZ LELE, UY1/ENSP 2012 29 METHODES STATISTIQUES Non-structuré Cette structure de corrélation n’impose aucune structure particulière à la matrice Ri (α). 1 Un total de ni (ni − 1) paramètres sont estimés pour ce type de matrice. On pose : 2 ( 1, si t = t0 , corr(Yit , Yit0 ) = αtt0 , si t 6= t0 , D’où Ri (α) = 1 α12 α13 .. . α12 1 α22 .. . α13 α12 1 .. . α1ni α2ni α3ni · · · α1ni · · · α2ni · · · α3ni .. .. . . ··· 1 et on estime αtt0 par : α btt0 = 2.2.6 1 n X (K − p)φb i=1 rPit rPit0 . (2.24) Conclusion Les équations d’estimation généralisées sont utilisées afin de trouver la valeur des paramètres βbk (scalaire) d’un modèle de régression dans le cas où plusieurs mesures ont été prises sur un même individu en différentes périodes. Ces équations seront appliquées à la régression de Poisson longitudinale de la section suivant. 2.3 La régression de Poisson longitudinale La régression de Poisson jusqu’ici a été introduite dans le cas où les données sont indépendantes les unes des autres. Cependant, il a été vu à la section précedente que ce n’est pas toujours le cas : il arrive fréquemment que des mesures soient prises sur un même individu à plusieurs moments distincts dans le temps, ce qui induit de la corrélation. En ajoutant la condition que la variable réponse en soit une de dénombrement, nous obtenons un cas où la régression de Poisson longitudinale doit être considérée. Cette section appliquera l’approche basée sur les GEE dans le cas où la variable réponse en soit une de dénombrement. 2.3.1 Les données longitudinales Il a été mentionné auparavant que des données longitudinales surviennent lorsque des mesures sont prises sur des individus à travers le temps. Les deux raisons suivantes peuvent motiver la réalisation d’analyses longitudinales : Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 30 METHODES STATISTIQUES 1. Accroître la sensibilité lors des comparaisons entre les sujets ; 2. Étudier les variations à travers le temps. 2.3.2 Les équations d’estimation généralisées dans le cas d’une loi de Poisson Nous supposons dans cette section que la variable à expliquer est de dénombrement (plus précisément lorsqu’elle suit une loi de Poisson. A la sous section 2.2.3, nous avons vu que les équations d’estimation généralisées (équation 2.15) sont données par : U (β) = n X Di0 Vi−1 Si = 0. (2.25) i=1 1 1 1 diag(Var(Yit )), Si = Yi − µi et Vi = φAi2 Ri (α)Ai2 . φ Comme les données proviennent d’une loi de Poisson, il s’ensuit que : Avec Di = Ai ∆i Xi , Ai = 0 d(ln(µit )) d(ln(exit β )) dx0 β dηit dθit = = = it = = 1, ∆it = dηit dηit dηit dηit dηit Et Ai = diag(µit ), alors, ∆i = Ini et Di = Ai Xi . L’équation 2.17 se réduit donc à : U (β) = n X 1 1 Xi0 Ai {Ai2 Ri (α)Ai2 }−1 Si = 0. (2.26) i=1 Dans le cas où nous avons des données indépendantes, la fonction de vraisemblance ni n Y Y f (Yit |xit ), avec f (Yit |xit ) définit comme à l’équation 2.29, permet d’avoir obtenue par i=1 t=1 les équations d’estimation généralisées. Ainsi, nous avons : l(µi |Yi ) = ln(L(µi |Yi )) = ni n X X 0 [−exit β + Yit x0it β − ln(Yit !)] i=1 t=1 . Et la fonction score est : U (β) = = ni n X X i=1 t=1 ni n X X 0 [−x0it exit β + Yit x0it ] 0 [x0it {−exit β + Yit }] i=1 t=1 = n X Xi0 [−µi + Yi ] i=1 Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 31 METHODES STATISTIQUES = n X Xi0 Si . (2.27) i=1 Dans le cas où les données ne seraient pas indépendantes, la fonction score est généralisée ainsi : n X 1 1 Xi0 Ai {Ai2 Ri (α)Ai2 }−1 Si . (2.28) i=1 Donc, en posant Ri (α) = Ini dans l’équation 2.28, nous nous rapportons à l’équation 2.27, car : U (β) = n X 1 1 Xi0 Ai {Ai2 Ri (α)Ai2 }−1 Si i=1 = n X 1 1 Xi0 Ai {Ai2 Ini Ai2 }−1 Si i=1 = = n X i=1 n X 1 1 Xi0 Ai {Ai2 Ai2 }−1 Si Xi0 Ai A−1 i Si i=1 = n X Xi0 Si . i=1 2.3.3 Le modèle de la régression de Poisson longitudinale De la même façon qu’à la sous-section 2.4 de la section 2, nous avons toujours : f (Yit | xit ) = e−µit µYitit , i = 1, · · · , n, t = 1, · · · , ni . Yit ! (2.29) 0 avec µit = exit β . Nous tentons encore d’estimer l’espérance de la variable réponse avec une fonction de lien logarithmique et le même prédicteur linéaire ηit . Ainsi, nous voulons 0 estimer µit = exit β = exp{β0 + β1 xit1 + · · · + βp0 xitp0 }. Quant au vecteur xit , il est défini comme à la section 2.2.1. Pour une régression de Poisson longitudinale, Zorn (2001) mentionne que l’interprétation des paramètres est toujours la même que sous l’hypothèse d’indépendance des observations. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 32 METHODES STATISTIQUES Ce que nous avons fait jusqu’ici, est de présenter les outils statistiques permettant de modéliser la fréquence moyenne des sinistres des garanties dommages à Chanas Assurances. Mais pour une estimation du taux de prime pure, nous avons également besoin d’avoir une estimation du coût relatif moyen des sinistres. C’est pourquoi dans ce qui suit, nous allons présenter la statistique X et donnée quelques une de ses proriétés. 2.4 Convergences des suites de variables aléatoires et étude de la statistique X 2.4.1 Quelques types de convergence et le théorème central-limite Une suite (Xn ) de variables aléatoires étant une suite de fonctions de Ω (l’univers des possibles) dans <, il existe diverses façons de définir la convergence de (Xn ). a. La convergence en probabilité La suite (Xn ) converge en probabilité vers la constante a si, ∀ et η (arbitrairement petits), il existe n0 tel que n > n0 entraîne : P (|Xn − a| > ) < η, P et on note alors (Xn ) → a. b. La convergence presque sûre ou convergence forte La suite (Xn ) converge presque sûrement vers X si : P (ω| lim Xn (ω) 6= X(ω)) = 0, n→∞ ps et on note (Xn ) → X. c. La convergence en loi La suite (Xn ) converge en loi vers la variable X de fonction de répartition F si, en tout point de continuité de F , la suite (Fn ) des fonctions de répartition des Xn converge vers F . l On note (Xn ) → X. d. Le théorème central-limite L’étude de sommes de variables indépendantes et de même loi joue un rôle capital en statistique. Le théorème suivant connu sous le nom de théorème central-limite établit la convergence Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 33 METHODES STATISTIQUES vers la loi de Gauss sous des hypothèses peu contraignantes. Théorème Soit (Xn ) une suite de variables aléatoires indépendantes de même loi d’espérance µ et d’écart-type σ. Alors : X1 + X2 + · · · + Xn − nµ 1 l √ → LG(0; 1). σ n LG désigne la loi gaussienne. 2.4.2 La statistique X Soient X1 , . . . , Xn une suite de variables aléatoires i.i.d telles que ∀i = 1, . . . , n, E[Xi ] = m et V ar[Xi ] = σ 2 Définition La statistique X ou moyenne empirique de l’échantillon est : n 1X X= Xi n i=1 a. Propriétés E[X] = m et V ar[X] = σ2 n b. Loi des grands nombres Elles sont de deux types : lois faibles mettant en jeu la convergence en probabilité et lois fortes relatives à la convergence presque sûre. Ici, les suites de variables aléatoires X1 , . . . Xn sont non nécessairement de même loi. Loi faible des grands nombres Soient X1 , . . . Xn indépendantes d’espérance m1 , . . . , mn finies et de variance σ12 , . . . , σn2 finies. P P P P P Si n1 ni=1 mi → m et si n12 ni=1 σi2 → 0, alors X = n1 ni=1 Xi est tel que : P X → m. Loi forte des grands nombres P P P Soit X1 , . . . Xn indépendantes telles que n1 ni=1 mi → m et ni=1 alors : ps X → m. Master de Statistique Appliquée. σi2 i est convergente ; © HERNANDEZ LELE, UY1/ENSP 2012 34 METHODES STATISTIQUES c. Distribution Le théorème central-limite peut s’écrire : X −m l √ → LG(0; 1) σ/ n Ce résultant permet d’obtenir un intervalle de confiance de m pour des grandes valeurs de n. Mais nous allons utiliser la méthode de simulation bootstrap pour obtenir un intervalle de confiance de m. Mais avant de présenter cette méthode, nous allons d’abord parler de la mesure de liaison entre une variable qualitative et une variable quantitative. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 35 METHODES STATISTIQUES 2.5 Mesure de liaison entre une variable qualitative et une variable quantitative Dans cette partie, nous allons élaborer le procédé théorique qui permet de mesurer la liaison entre une variable qualitative et une variable quantitative. 2.5.1 Décomposition de la variance d’une variable quantitative Y Si l’on a définit c groupes (correspondant aux c modalités de la variables qualitative X) et si l’on note yj et s2j , j = 1, . . . , c les moyennes et variances conditionnelles à chaque sousgroupe d’effectif n.j , et ȳ la moyenne globale alors : La variance de la variable Y se décompose de la façon suivante : s2y = Vinter + Vintra (2.30) où – Vinter = – Vintra = 2.5.2 1 n 1 n Pc 2 j=1 n.j (yj − ȳ) est la variance inter-groupes. Pc 2 j=1 n.j sj est la variance intra-groupe. Un indicateur de la liaison entre une variable quantitative et une variable qualitative : le rapport de corrélation Pour quantifier la liaison qui existe entre une variable quantitative Y et une variable qualitative X, on va construire un indicateur numérique qui va mesurer la différence entre les moyennes conditionnelles de Y sachant X par rapport à la moyenne globale de Y : c’est le rapport de corrélation de Y par rapport à X défini par s s Vinter Vintra ηY |X = = 1− 2 . (2.31) 2 Sy sy Cet indicateur est basé sur la décomposition de la variance de la variable quantitative Y. 2.5.3 Interprétation du rapport de corrélation Plus la variance inter-groupes est grande, plus il y a de disparités entre les moyennes conditionnelles de chaque groupe et donc plus la variable X influe sur la variable Y. – Plus ηY |X est proche de 1 (Vinter » Vintra ) plus l’hétérogénéité d’un groupe à l’autre est très importante, donc il existe une forte liaison entre X et Y . – Lorsque ηY |X est proche de 0 (Vinter « Vintra ), cela se traduit par des moyennes conditionnelles qui fluctuent peu entre elles, il n’y a pas de liaison entre X et Y Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 METHODES STATISTIQUES 36 La fontion R construite ("coef.test.quant.qualit") qui permet la mise en oeuvre du calcul du rapport de corrélation se trouve en Annexe. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 37 METHODES STATISTIQUES Nous allons maintenant présenter la méthode de simulation bootstrap qui va permettre d’estimer l’intervalle de confiance du taux de prime pure. 2.6 Méthode bootstrap 2.6.1 introduction Imaginé par Efron en 1979, le bootstrap a vu son champ d’application s’étendre considérablement : intervalles de confiance et tests d’hypothèses, distribution d’échantillonnage, etc. L’usage du bootstrap dans la résolution de problèmes actuariels est récent, mais s’étend rapidement en particulier en tarification. Etant essentiellement des simulations, les procédures bootsrap sont simples à mettre en oeuvre. Leur justification théorique est plus complexe. Dans cette partie, nous présentons les principes du bootstrap. 2.6.2 Echantillon Bootstrap Notations Soit X une variable aléatoire réelle (v.a.r.) de fonction de répartition (f.r.) F inconnue. On dispose d’un n-échantillon (i.i.d) X = (X1 , . . . , Xn ) de X dont on notera x = (x1 , . . . , xn ) une réalisation. Soient : – Fn , la f.r. empirique associée à l’échantillon ; – Π(F ), le paramètre statistique que l’on cherche à estimer à l’aide de l’échantillon ; – Tn (X1 , . . . , Xn ), un estimateur de celui-ci. – M ISE(Tn ) = E [Tn − π(F )]2 et V (Tn ) l’erreur quadratique et la variance de Tn , indicateurs standard de l’erreur d’estimation de π(F ) par Tn . Bootstrap Un échantillon bootstrap est un n-échantillon de la f.r. empirique Fn , soit X ∗ = (X1∗ , . . . , Xn∗ ) tel que P (Xi∗ = Xj ) = n1 pour 1, j ≤ n. Une réalisation bootstrap x∗ = (x∗1 , . . . , x∗n ) résulte donc d’un tirage avec remise de n éléments dans l’échantillon initial x1 , . . . , xn . T (X1∗ , . . . , Xn∗ ) est appelé réplique bootstrap de Tn de réalisation T (x∗ ) pour T (x). Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 38 METHODES STATISTIQUES 2.6.3 Estimation de la variance On tire B échantillons indépendants (X1∗b , . . . , Xn∗b ), b = 1, . . . , B de Fn . Pour b = 1, . . . , B, on obtient Tn∗b = T X1∗b , . . . , Xn∗b , bi−me réplique bootstrap de Tn , puis la variance empirique B B V[ Boot = PB 2 1 X ∗b Tn − Tn∗ B − 1 b=1 Tn∗b . Où Tn∗ = 1 B 2.6.4 Estimation de l’erreur quadratique b=1 L’estimation bootstrap de l’erreur quadratique est donnée par : B i2 1 X h ∗b B \ c M ISEBoot = T − π(Fn ) B b=1 n 2.6.5 Estimation du biais Une estimation bootstrap du biais de l’estimateur Tn est donnée par : ∗ B c b[ Boot = Tn − π(Fn ) cn ) est la réalisation de Tn (X1 , . . . , Xn ) sur l’échantillon initial. π(F 2.6.6 Estimation de l’intervalle de confiance pour π(Fn ) de niveau 1 − γ, pour γ ∈]0, 1[ 1. Ranger les Tn∗b dans l’ordre croissant : Tn∗(1) ≤ Tn∗(2) ≤ · · · Tn∗(B) ∗(kγ ) Soit Tn∗B,γ = Tn tels que 1 card j ∈ 1, . . . , B/Tn∗(j) ≤ Tn∗(kγ ) ≈ 1 − γ B 2. Un intervalle de confiance pour π(Fn ) de niveau ≈ 1 − γ : h i ∗B, γ ∗B,1− γ2 IC = Tn 2 , Tn Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 Chapitre 3 APPLICATION PRATIQUE Dans ce chapitre, nous allons proposer une estimation du taux de primes pures à partir des méthodes statistiques présentées au chapitre précedent. Dans un premier temps, nous allons construire un modèle de la fréquence des sinistres. Ensuite, proposer une estimation du coût relatif moyen des sinistres et enfin estimer le taux de primes pures. Rappelons que : (taux de primes pures)=(fréquence des sinistres)×(coût relatif moyen) 3.1 Modélisation de la fréquence moyenne des sinistres Dans la section description des données, nous avons dit qu’il n’était pas judicieux d’utiliser la variable ZONEGEO (zone géographique) dans cette étude juste parce que la modalité A représentant les chefs lieux de régions et quelques chefs lieux de département contient à elle seule 98% des observations de la variable ZONEGEO. Il n’est pas aussi nécessaire d’utiliser la variable ANNEE car elle permet juste de spécifier les années d’observations d’une unité statisque. Etant donné que la variable NBRE_SINISTRE que nous noterons prochainement N est une variable de comptage, nous allons utiliser le modèle de régression de Poisson pour estimer la fréquence moyenne des sinistres, c’est-à-dire l’espérance de N. Quelques notations Le nombre de sinistres d’une unité statistique peut être observé plus d’une fois sur la période 2007-2011. Nous sommes donc en présence de données longitidunales. Soit Nit le nombre de sinistres observé sur l’unité statistique i durant l’année t, i = 1, 2, . . . , 10185, t = 1, 2, . . . , Ti , où Ti désigne le nombre d’années d’observation pour l’unité statistique i. Posons également xit , le vecteur colonne aléatoire des variables USAGE et GARANTIES. 39 40 APPLICATION PRATIQUE 3.1.1 Construction d’un modèle Désignons par m1 , le vecteur des modalités croissantes de la variable USAGE de longueur 3, et m2 le vecteur des modalités croissantes de la variable GARANTIES de longueur 8. Supposant que Nit |xit ,→ poisson(E[Nit |xit ]) ("poison" désigne la loi de Poisson), et en considérant l’interaction entre les variables USAGE et GARANTIES, le modèle de régression de Poisson permet d’écrire le modèle suivant : ( 3 8 X X E[Nit |xit ] = exp µ + αj × 1U SAGE=m1 [j] + βk × 1GARAN T IES=m2 [k] j=1 + 3 X 8 X k=1 (3.1) γll0 × 1U SAGE=m1 [l] × 1GARAN T IES=m2 [l0 ] , 0 l=1 l =1 ∀i = 1, 2, . . . , 10185 et ∀t = 1, 2, . . . , Ti Pour rendre le système d’équation (3.1) indentifiable, nous allons considérer comme dans le logiciel R que α1 = β1 = γ11 = γ12 = γ13 = γ14 = γ15 = γ16 = γ17 = γ18 = γ31 = γ21 = 0. Il ne reste donc plus que 24 coefficients à estimer. En supposant que Nit est indépendant de Njt ∀i 6= j, tout en n’excluant pas la possibilité que les Nit pour i fixé soient corrélées entre elles, une estimation de la fréquence moyenne conditionnelle des sinistres sachant le type d’usage et le type de garanties du \ véhicule est donc donnée par E[N it |xit ] tels que : ( \ E[N it |xit ] = exp µ̂ + 3 X j=1 + 3 X 8 X αbj × 1U SAGE=m1 [j] + 8 X βbk × 1GARAN T IES=m2 [k] k=1 (3.2) γc ll0 × 1U SAGE=m1 [l] × 1GARAN T IES=m2 [l0 ] l=1 l0 =1 ∀i = 1, 2, . . . , 10185 et ∀t = 1, 2, . . . , Ti , 0 où µ̂, α̂j (j = 2, 3),βˆk (k = 2, . . . , 8), γˆll0 (l = 2, 3etl = 2, . . . , 8) sont des estimations par GEE respectifs des paramètres µ, αj (j = 2, 3), βk (k = 2, . . . , 8), γll0 0 (l = 2, 3etl = 2, . . . , 8). Pour le choix du type de matrice de corrélation Ri (α), les actuaires utilisent en général la matrice de corrélation de type AR. Car on suppose que la corrélation du nombre de sinistres est fonction du temps. D’ailleurs peu importe le choix de la structure de corrélation, les estimations des paramètres seront sensiblement les mêmes. La fonction geeglm du package geepack du logiciel statistique R va nous permettre Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 41 APPLICATION PRATIQUE de construire donc ce modèle (voir Annexe). Résultat Coefficients Intercept µ̂ USAGE2 αˆ2 USAGE3 αˆ3 ˆ GARANTIES30 β2 GARANTIES40 βˆ3 GARANTIES41 βˆ4 GARANTIES50 βˆ5 GARANTIES51 βˆ6 GARANTIES60 βˆ7 GARANTIES95 βˆ8 USAGE2 USAGE3 USAGE2 USAGE3 USAGE2 USAGE3 USAGE2 USAGE3 USAGE2 USAGE3 USAGE2 USAGE3 USAGE2 USAGE3 :GARANTIES30 :GARANTIES30 :GARANTIES40 :GARANTIES40 :GARANTIES41 :GARANTIES41 :GARANTIES50 :GARANTIES50 :GARANTIES51 :GARANTIES51 :GARANTIES60 :GARANTIES60 :GARANTIES95 :GARANTIES95 γc 22 γc 32 γc 23 γc 33 γc 24 γc 34 γc 25 γc 35 γc 26 γc 36 γc 27 γc 37 γc 28 γc 38 Estimation -1,1112 0,1709 -1,9354 -2,0837 -5,0883 -3,4773 -5,7472 -5,0293 -1,7029 -5,0340 0,8754 1,1462 1,2472 -38,1677 -0,4861 -39,7786 -39,6150 2,6379 -40,3329 -38,2267 -0,2127 -0.6523 0,2437 -38.2219 Ecart type 0,0543 0,0803 0,2590 0,4041 0,3575 0,1926 0,5027 0,4113 0,1612 0,5025 0,5335 1,1002 0,5743 0,4391 0,5369 0,3207 0,5079 0,8060 0,4186 0,4848 0,4069 1,0421 1,1194 0,5642 Statistique de wald 418.07 4,53 55,85 26,59 202,64 326,13 130,68 1490,48 111,62 100,37 2,69 1,09 4,72 7556,33 0,82 15388,27 6084,28 10,71 9282,70 6218,33 0,27 0,39 0,05 4588,78 P value < 2e-16 *** 0,0333 * 7,8e-14 *** 2,5e-07 *** < 2e-16 *** < 2e-16 *** < 2e-16 *** < 2e-16 *** < 2e-16 *** < 2e-16 *** 0,1009 0,2975 0,0299 * < 2e-16 *** 0,3653 < 2e-16 *** < 2e-16 *** 0,0011 ** < 2e-16 *** < 2e-16 *** 0,6011 0,5313 0,8276 < 2e-16 *** Tab. 3.1 – Estimations des paramètres du modèle de la fréquence moyenne des sinistres en fonction des variables USAGE et GARANTIES L’estimation du coefficient de la matrice de corrélation "AR-1" est 0,05377 d’écart type 0,2834. 3.1.2 Effet des variables explicatives L’ANOVA du modèle nous donne le résultat suivant : Variables USAGE GANTIES USAGE :GARANTIES Dégré de liberté 2 7 14 statistique 267 1178 77552 P_value <2e-16 <2e-16 <2e-16 Tab. 3.2 – table de l’Anova du modèle Au regard de la table de l’Anova ci-dessus, il est donc évident que les variables USAGE, GARANTIES et leur interaction ont un effet significatif sur la fréquence des sinistres. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 42 APPLICATION PRATIQUE 3.1.3 Validation du modèle Pour valider le modèle construit, nous allons utiliser la statistique du test de Pearson X 2 : c’est la somme des carrés des résidus de Pearson. Hypothèses (H0) : Le modèle ajuste bien les données (H1) : le modèle n’ajuste pas bien les données Statistique La fonction R "residuals", nous permet de calculer aisément les résidus de Pearson : res <- residuals(model,type="pearson") 2 de la statistique X 2 Ayant obtenu les résidus, il est facile de déduire l’observation Xobs dans le logiciel R. On obtient donc : 2 Xobs = 20495 Théoriquement, si le modèle est bon,la statistique X 2 devrait suivre approximativement une loi du khi-deux avec (n-p)=25457 degrés de liberté, car n=25481 et p=24. Pour un seuil α = 0, 05, le quantile d’ordre 1 − α à 25457 degrés de liberté d’une loi (1−α) du khi-deux est qn−p = 25829. Test (1−α) 2 Nous avons Xobs < qn−p , donc on garde l’hypothèse (H0). Par conséquent, le modèle que nous avons construit ajuste bien les données. 2 Xobs Une estimation du paramètre de dispersion est donnée par : n−p ≈ 0, 81. 3.1.4 Fréquence moyenne des sinistres dans les différentes classes de risque Nous avons construit un code R en Annexe qui permet de déduire la fréquence moyenne des sinistres dans chaque classe de risque (croisement des modalités des variables USAGE et GARANTIES) à partir des paramètres du modèle. On a donc le tableau ci-dessous. Difficulté de la surprime Dans notre étude, il existe des garanties qui couvrent implicitement d’autres garanties. C’est le cas de : – la garantie Dommages Accidents qui couvre également les risques de Bris de Glaces. – la garantie Vol Total et Partiel qui couvre également le Vol Total Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 43 APPLICATION PRATIQUE GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES 20 30 40 41 50 51 60 95 USAGE 1 0,32915 0,04097 0,00203 0,01017 0,00105 0,00215 0,05995 0,00214 USAGE 2 3,90e-01 1,17e-01 8,38e-03 7,42e-03 7,78e-21 7,78e-21 5,75e-02 3,24e-03 USAGE 3 4,75e-02 1,86e-02 7,78e-21 1,47e-03 8,04e-22 4,35e-03 8,66e-03 3,09e-04 Tab. 3.3 – Fréquence moyenne annuelle des sinistres par véhicule dans les différentes classes de risque – la garantie Incendie & Risques Electriques qui couvre également la garantie Incendie Par exemple, si un client a souscrit uniquement la garantie Dommages Accidents et que par la suite a un sinistre Bris de Glaces, l’information enregistrée dans la base de données concernant le sinistre est celle du Bris de Glaces. Ce qui va entraîner une sous estimation de la sinistralité de la garantie Dommages Accidents. Pour palier à cette situation, nous avons jugé bon de faire une majoration de la prime pure (surprime) en sommant les fréquences des sinistres. C’est-à-dire que, pour la garantie Dommages Accidents par exemple, nous allons additionner la fréquence des sinistres de cette garantie à celle de la garantie Bris de glaces obtenue dans le modèle. Cette addition nous donne donc la nouvelle fréquence des sinistres de la garantie Dommages Accidents. Dans le cas où cette sommation est supérieure à 1, on majore la fréquence des sinistres à 1. Notons que cette manière de faire est arbitraire et a pour seul souci d’éviter de sous-estimer la fréquence des sinistres et par ricochet la prime pure. Le même procédé sera appliqué pour déterminer le coût relatif moyen des sinistres dans chaque classe de risque. Nous avons alors le tableau des fréquences des sinistres amélioré suivant : GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES 20 30 40 41 50 51 60 95 USAGE 1 0,38910 0,04097 0,00203 0,01220 0,00105 0,00320 0,05995 0,00214 USAGE 2 4,48e-01 1,17e-01 8,38e-03 1,58e-02 7,78e-21 1,56e-20 5,75e-02 3,24e-03 USAGE 3 5,62e-02 1,86e-02 7,78e-21 1,47e-03 8,04e-22 4,35e-03 8,66e-03 3,09e-04 Tab. 3.4 – Fréquence moyenne annuelle des sinistres par véhicule dans les différentes classes de risque après majoration Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 44 APPLICATION PRATIQUE Commentaires Les différentes fréquences moyennes de sinistres obtenues dans le tableau ci-dessus reflètent en grande partie l’analyse faite dans la description des données. On peut donc dire que : – la fréquence moyenne annuelle des sinistres par véhicule est plus élevée dans la grantie Dommages Accidents ; – les véhicules à usage touristique, ont une fréquence moyenne de sinistres plus élevée que les autres types d’usages de véhicule ; – les garanties les plus souscrites telles que le Vol Total et l’Incendie ont une sinistralité relativement faible. 3.2 Estimation du coût relatif moyen des sinistres Pour estimer le coût relatif moyen des sinistres dans chaque classe de risque, nous allons utiliser la statistique X. Mais avant cela, nous allons mesurer la corrélation entre les variables USAGE et COUT_RELATIF, et les variables GARANTIES et COUT_RELATIF. En effet, dans la phase de l’analyse descriptive des données, il paraissait que le coût relatif moyen des sinistres est fonction de la variable GARANTIES. Par contre, au niveau des catégories d’usages 1 et 2, on avait l’impression d’avoir un même coût relatif moyen des sinistres. La différence s’observait plutôt sur les véhicules de catégories d’usage 3. 3.2.1 Mesure de la corrélation entre la variable qualitative USAGE et la variable quantitative COUT_RELATIF Pour mesurer la corrélation entre une variable qualitative et une variable quantitative, nous allons utiliser le rapport de corrélation présenté au chapitre 2. La fonction que nous avons construite qui permet d’obtenir ce rapport est "coef.test.quant.qualit" (voir Annexe). En appliquant donc cette fonction sur ces deux variables, on obtient η1 = 0, 0575. En tenant compte de l’observation faite dans l’analyse descriptive, excluons l’usage de type 3 qui a un coût relatif moyen des sinistres au dessus des autres catégories d’usages. Et en réduisant la variable USAGE uniquement aux modalités 1 et 2, on obtient un rapport de corrélation η2 = 0, 00721. Nous pouvons donc dire que le coût relatif moyen des sinistres ne varie presque pas entre les catégories d’usages 1 et 2. Mais en considérant la catégorie d’usage 3 il y a quand même une faible variation que Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 45 APPLICATION PRATIQUE nous n’allons pas négliger, par souci d’avoir plus de précision dans l’estimation du coût relatif moyen des sinistres. Bref, le coût relatif moyen des sinistres est relativement le même dans les catégories d’usage 1 et 2 et diffère faiblement de la catégorie d’usage 3. Nous allons tenir compte de cela dans son estimation. 3.2.2 Mesure de la corrélation entre la variable qualitative GA- RANTIES et la variable quantitative COUT_RELATIF En appliquant la fontion "coef.test.quant.qualit" sur les variables GARANTIES et COUT_RELATIF, on obtient η3 = 0, 718. Il est donc clair que la variable COUT_RELATIF est fonction de la variable GARANTIES. Par conséquent, pour chaque garantie, nous allons estimer le coût relatif moyen des sinistres. 3.2.3 Application de la statistique X (moyenne empirique) pour estimer le coût relatif moyen des sinistres Nous utilisons la statistique X pour estimer le coût relatif moyen des sinistres dans les classes de risque (le calcul de cette moyenne se fait uniquement sur les valeurs strictements positives de la variable COUT_RELATIF). Comme on l’a dit précédemment, il sera le même pour les catégories d’usage 1 et 2 et sera fonction de la variable GARANTIES. Pour tenir compte du caractère longitidunale des données, nous allons considérer comme observation du coût relatif de l’individu i, la moyenne des différents coûts relatifs (strictements positifs) observés chez cet individu sur la période 2007-2011. GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES 20 30 40 41 50 51 60 95 USAGE 1 estimation : 0,0554 estimation : 0,0868 estimation : 0,684 estimation : 0,0781 estimation : 0,756 estimation : 0,216 estimation : 0,0255 estimation : 0,805 USAGE 2 estimation : 0,0554 estimation : 0,0868 estimation : 0,684 estimation : 0,0781 estimation : 0,756 estimation : 0,216 estimation : 0,0255 estimation : 0,805 USAGE 3 estimation : 0,127 estimation : 0,0868 estimation : 0,684 estimation : 0,0781 estimation : 0,756 estimation : 0,216 estimation : 0,0255 estimation : 0,805 Tab. 3.5 – Estimation du coût relatif moyen des sinistres dans les différentes classes de risque Pour tenir compte du problème de surprime énoncé lors de l’estimation de la fréquence moyenne des sinistres, nous allons procéder de la même manière. Et on obtient ci-dessous après correction, l’estimation du coût relatif moyen des sinistres dans les différentes classes de risque. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 46 APPLICATION PRATIQUE GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES GARANTIES 20 30 40 41 50 51 60 95 USAGE 1 0,0810 0,0873 0,6842 0,7628 0,7561 0,9707 0,0255 0,8051 USAGE 2 0,0810 0,0873 0,6842 0,7628 0,7561 0,9707 0,0255 0,8051 USAGE 3 0,1514 0,0873 0,6842 0,7628 0,7561 0,9707 0,0255 0,8051 Tab. 3.6 – Estimation du coût relatif moyen des sinistres dans chaque classe de risque après majoration On constate que le coût relatif moyen des sinistres sur la valeur du véhicule est très élevé dans les garanties vol et incendie. Ce qui est tout à fait logique dans la mesure où les sinistres observés dans ces garanties sont soit la perte totale du véhicule, soit la destruction d’une bonne partie du véhicule. S’il est vrai que la sinistralité est assez forte dans la garantie Dommages Accidents, le coût relatif des sinistres est relativement faible. 3.3 Estimation du taux de prime pure En admettant que X est le vecteur aléatoire des variables USAGE et GARANTIES, N la variable aléatoire du nombre de sinistres, K la variable aléatoire du coût relatif d’un sinistre sur la valeur du véhicule sinistré, la formule analytique du taux de prime pure est donnée par : taux = E[N |X] × E[K|X]. (3.3) Il suffit donc de trouver une estimation de E[N |X] et de E[K|X] pour déduire une estimation du taux de prime pure sachant X. C’est pourquoi les deux sections precédentes ont été consacrées à cet effet. Par conséquent, il suffit juste de faire un produit des éléments de mêmes positions des tablaux 3.4 et 3.6 pour obtenir une estimation du taux de prime pure. On a alors le résultat suivant qui est exprimé en pourcentage. Commentaire Notons que, dans la presque totalité des classes de risque, il y a une nette diminution du taux de prime pure par rapport à ce qui existe actuellement dans l’entreprise. Ce Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 47 GARANTIES20 GARANTIES30 GARANTIES40 GARANTIES41 GARANTIES50 GARANTIES51 GARANTIES60 GARANTIES95 USAGE 1 3,1551 [2,560 ; 4,013] 0,3537 [0,040 ; 1,168] 0,1392 [0,059 ; 0,241] 0,9315 [0,598 ; 1,279] 0,0794 [0,00936 ; 0,166] 0,3109 [0,145 ; 0,489] 0,1533 [0,089 ; 0,208] 0,1725 [0,0394 ; 0,404] USAGE 2 3,63 [2,855 ; 4,707] 1,01 [0,039 ; 3,049] 0,575 [0,119 ; 1.383] 1,21 [0,472 ; 2,404] 5,88e-19 [5,391e-19 ; 3,384e-08] 1,51e-18 [1,291e-18 ; 2,437e-07] 0,147 [0,045 ; 0,275] 0,261 [0,0519 ; 0,952] USAGE 3 0,846 [0,716 ; 0,942] 0,161 [0,0119 ; 0,903] 5,33e-19 [4,209e-19 ; 2,321e-08] 0,112 [0,0386 ; 0,2144] 6,08e-20 [3,512e-21 ; 2,169e-19] 0,422 [0,157 ; 2,949] 0,0221 [0,00867 ; 0,0435] 0,0249 [0,00403 ; 0,0654] Tab. 3.7 – Estimation du taux de prime pure (%) dans les différentes classes de risque qui ne surprend pas du tout l’entreprise car elle s’attendait à cela. – Le taux de prime pure est plus élévé sur les véhicules de catégorie d’usage 2. Et beaucoup moins sur les catégories de véhicule d’usage 3. – La garantie Dommages Accidents a le plus fort taux de prime pure, quelque soit l’usage du véhicule. Elle a augmenté de 3,71% par rapport au taux précedent sur les véhicules de catégorie d’usage 2, a diminué de 9,85% sur les véhicules de catégorie d’usage 1 et a considérablement chuté sur les véhicules de catégorie d’usage 3. – Le taux de prime pure a fortement baissé dans la garantie Dommages collision, quelque soit l’usage du véhicule. – Dans les autres garanties, la baisse du taux de prime est également assez considérable, quelque soit la catégorie d’usage du véhicule. En conclusion, malgré les majorations faites pour éviter de sous-estimer le taux de prime pure, nous obtenons des taux assez faibles par rapport à ce qui existe actuellement dans l’entreprise. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 CONCLUSION GENERALE La question qui a motivé notre étude était celle de savoir quels sont les taux de primes pures en garanties dommages automobile adaptés au portefeuille actuel de l’entreprise Chanas Assurances s.a ? D’où l’objectif de ce travail : estimer les taux de primes pures des garanties dommages en assurance automobile de telle sorte qu’ils reflètent la sinistralité du portefeuille. Les résultats obtenus vont permettre de réviser les taux existants. Pour mener à bien notre étude, après extraction et nettoyage des données, nous avons organisé le travail en trois chapitres. Le premier chapitre a consisté à présenter les données et à faire une analyse descriptive. Il en ressort que le taux de prime pure est fonction de la garantie et de la catégorie d’usage du véhicule. Les garanties vol et incendie sont les plus souscrites dans le portefeuille et la fréquence moyenne des sinistres est plus élevée dans la garantie Dommages Accidents. La variable repésentant la zone de circulation du véhicule a été enlevée de l’étude parce que la modalité A de cette variable constitue plus de 98% des unités statistiques. Le coût relatif moyen des sinistres est fonction de la garantie souscrite et est relativement la même dans les catégories d’usage 1 et 2. Dans le deuxième chapitre, il était question de présenter les méthodes statistiques permettant d’estimer les différents taux de primes pures des garanties dommages automobile. Etant donné que la formule analytique du taux de prime pure est le produit entre la fréquence moyenne des sinistres et le coût relatif moyen des sinistres, il était donc question de trouver des éléments théoriques qui permettent de les estimer. Pour ce faire, nous avons construit un modèle de la fréquence moyenne des sinistres basé essentiellement sur la distribution de Poisson et dont l’estimation des paramètres du modèle s’appuyait sur la méthode GEE. Notons que le choix de la méthode GEE était davantage indiqué parce qu’on était face à des données longitidunales. Pour ce qui est de l’estimation du coût relatif moyen des sinistres, nous avons plutôt utilisé la statistique X. Le dernier chapitre quant à lui, était consacré aux applications, donc la mise en oeuvre de la théorie élaborée pour l’estimation des différents taux de primes pures. 48 49 Le modèle construit a été validé et s’adapte bien aux données dans le cas où l’interaction entre les variables USAGE et GARANTIES est pris en compte. Les résultats obtenus indiquent que la fréquence moyenne annuelle des sinistres par véhicule est plus élevée dans les garanties Dommages Accidents (38%), Dommages collision (4%) et Bris de Glaces (5%). Alors que dans les garanties Vol et Incendie, elle est assez faible. Nous sommes d’ailleurs arrivés aux mêmes conclusions quand on faisait l’analyse descriptive des données. La statistique X a permis d’obtenir une estimation du coût relatif moyen des sinistres. Il découle de ces estimations que le coût relatif moyen des sinistres est plus élevée dans les garanties Vol Total (0,68%), Incendie (0,75%) et Vol par Braquage (0,80%). Par contre dans les autres garanties il est assez faible. Après avoir donc estimé les différentes fréquences moyennes des sinistres et les différents coûts relatifs moyens des sinistres, nous avons fait une déduction des différents taux de primes pures. Il ressort qu’il y a une nette diminution de plus de 48% en moyenne de ces taux par rapport à ce qui existe, à l’exception de la garantie Dommages Accidents pour les véhicules de transport public de marchandises à charge utile inférieure à 3,5 tonnes, où par contre on observe une augmentation du taux d’environ 3,9%. Au terme de cette analyse, on constate que les taux de primes proposés sont assez faibles par rapport à ce qui existe dejà dans l’entreprise Chanas. Cela peut s’expliquer par le fait qu’auparavant, la détermination des taux était faite de manière empirique, sans accompagnement d’une étude rigoureuse. Toutefois, la mise en oeuvre de cette étude n’a pas été chose facile. Nous avons rencontré d’énormes difficultés dans l’extraction et le nettoyage des données (cela représente pratiquement 75% du temps de l’étude). C’est l’une des raisons expliquant le fait que nous n’avons pas pu étendre l’étude aux autres catégories d’usage de véhicule. La limite principale de cette étude est que dans l’estimation du coût relatif moyen des sinistres, pour tenir compte du caractère longitidunale des données, nous avons fait la moyenne des observations répétées. Mais serait plus intéressant dans une autre étude de modéliser le coût relatif moyen des sinistres par un modèle linéaire mixte. Nous ne saurions terminer cette étude sans faire quelques recommandations. Recommandations Au regard des résultats obtenus et des difficultés rencontrées pour la mise en oeuvre de cette étude, nous suggérons que : – l’entreprise révise le plus tôt possible, ses taux de primes pures en tenant compte des résultats que nous avons obtenus. Cela va permettre à la compagnie de rester assez compétitive dans le marché d’assurance automobile ; Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 50 – les taux de primes pures qui tendent vers 0 (zéro) soient ramener à 0,01%. Par conséquent pour la garantie Vol Total par exemple, au lieu d’avoir un taux de prime de 5,33e-19% sur les véhicules de type TPM (>3,5 tonnes), nous proposons que se soit ramenés à 0,01% ; – les taux de primes pures qui ont baissé de plus de 40% se ramènent à une baisse de 40% par rapport à ce qui existe dejà dans l’entreprise. Ceci va permettre d’avoir une certaine marge de sécurité tout en évitant de faire baisser considérablement et de façon brusque les taux ; – des mesures d’accompagnement suivent pour booster la production des contrats automobiles, vu que les taux de primes pures vont baisser ; – des études simulaires soient faites dans toutes les autres branches d’assurances pour avoir une meilleure production d’un point de vue global dans l’entreprise ; – le système informatique soit amélioré afin de faciliter la recherche et l’extraction des données. De plus, il devrait avoir une relation systématique entre la production des contrats et le règlement des sinistres dans la base de données ; – une cellule statistique soit créée, pour en permanence avoir un meilleur contrôle des différents risques d’assurances. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 ANNEXE : Programmes informatique dans le logiciel R ############################################################### # # # Statistique descriptive des données # # # ############################################################### # On la table de données d’étude tab <- read.csv("donnee_stage_id.csv",header=TRUE,sep=";") dim(tab) ## 1. Répartition des unités statistiques sur les # modalités des variables qualitatives. a1 <- table(tab$ANNEE) b1 <- (a1/sum(a1))*100 # répartition en pourcentage. a2 <- table(tab$ZONEGEO) b2 <- (a2/sum(a2))*100 # répartition en pourcentage. a3 <- table(tab$USAGE) b3 <- (a3/sum(a3))*100 # répartition en pourcentage. a4 <- table(tab$GARANTIES) b4 <- (a4/sum(a4))*100 # répartition en pourcentage. 51 52 # Tracé de la représentation des modalités des # variables USAGE et GARANTIES. par(mfrow=c(2,1)) barplot(a3, main="représentation des modalités de la variable USAGE", col="red",ylab="catégories d’usages") barplot(a4,main="représentation des modalités de la variable GARANTIES", col="blue",ylab="garanties") # Statistique descriptive des variables quantitatives a <- which(tab$NBRE_SINISTRE==1) data <- tab[a,] summary(data$NBRE_SINISTRE) # résumé des quantiles. sd(data$NBRE_SINISTRE,na=TRUE) # calcul de l’écart type. sum(is.na(data$NBRE_SINISTRE==TRUE)) # nombre de valeur manquante. summary(data$COUT_SINISTRE) # résumé des quantiles. sd(data$COUT_SINISTRE,na=TRUE) # calcul de l’écart type. sum(is.na(data$COUT_SINISTRE==TRUE)) # nombre de valeur manquante. # On récupère maintenant les lignes des garanties dont la # valeur du véhicule appliquée au taux est la valeur # neuve du véhicule dans le jeu de données data. c1 <- which(data$GARANTIES==20) c2 <- which(data$GARANTIES==30) c3 <- which(data$GARANTIES==60) data1 <- data[c(c1,c2,c3),] summary(data1$VAL_NEUVE) # résumé des quantiles. sd(data1$VAL_NEUVE,na=TRUE) # calcul de l’écart type. sum(is.na(data1$VAL_NEUVE==TRUE)) # nombre de valeur manquante. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 53 # On récupère maintenant les lignes des garanties dont la # valeur du véhicule appliquée au taux est la valeur # vénale du véhicule dans le jeu de données data. data2 <- data[-c(c1,c2,c3),] summary(data2$VAL_VENALE) # résumé des quantiles. sd(data2$VAL_VENALE,na=TRUE) # calcul de l’écart type. sum(is.na(data2$VAL_VENALE==TRUE)) # nombre de valeur manquante. ## Analyse descriptive de la sinistralité par(mfrow=c(2,1)) barplot(table(data$USAGE),col="red", main="Fréquence des sinistres dans les différents usages de véhicule", ylab="Fréquence des sinistres", xlab="modalités de la variable USAGE") barplot((table(data$USAGE)/a3)*100,col="blue", main="Fréquence moyenne des sinistres dans les usages de véhicule", ylab="Fréquence moyenne des sinistres(%)", xlab="modalités de la variable USAGE") barplot(table(data$GARANTIES),col="red", main="Fréquence des sinistres dans les différentes garanties souscrites", ylab="Fréquence des sinistres", xlab="modalités de la variable GARANTIES") barplot((table(data$GARANTIES)/a4)*100,col="blue", main="Fréquence moyenne des sinistres dans les garanties souscrites", ylab="Fréquence moyenne des sinistres(%)", xlab="modalités de la variable GARANTIES") # NB: Pour le croisement des modalités des variables USAGE et GARANTIES, # nous avons utilisé les applications Access et Excel de Microsoft. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 54 # Analyse du coût moyen des sinistres. L1 <- tapply(data$COUT_SINISTRE,data$USAGE,mean) L2 <- tapply(data$COUT_SINISTRE,data$GARANTIES,mean) names(L1) <- c(1,2,3,4,8) names(L2) <- c(20,30,40,41,50,51,60,95) barplot(L1,xlab="USAGE",ylab="Coût moyen", main="Coût moyen des sinistres dans les catégories d’usages de véhicules", col="red") barplot(L2,xlab="GARANTIES", ylab="Coût moyen",main="Coût moyen des sinistres dans les garanties", col="blue") # # # # # # # # # # # # Nous allons importer actuellement deux tables donnant l’information sur le coût relatif moyen des sinistres. Etant donné qu’en fonction de la garantie, on utilise soit la valeur neuve soit la valeur vénale duvéhicule pour avoir la prime pure, les deux tableaux que nous allons importer sont séparés suivant cette logique. C’est-à-dire que la table 1 (proportion1), donne le coût relatif des sinistres de chaque sinistre des garanties 20,30 et 60. Et la table 2 (proportion2), donne le coût relatif de chaque sinistre des garanties 40,41,50,51,95. tab1 <- read.csv("proportion1.csv",header=TRUE,sep=";",dec=",") tab2 <- read.csv("proportion2.csv",header=TRUE,sep=";",dec=",") tab3 <- rbind(tab1[,c("USAGE","COUT_RELATIF")], tab2[,c("USAGE","COUT_RELATIF")]) v1 <- tapply(tab1$COUT_RELATIF,tab1$GARANTIES,mean) v2 <- tapply(tab2$COUT_RELATIF,tab2$GARANTIES,mean) #names(v1) <- c(20,30,60) #names(v2) <- c(40,41,50,51,95) Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 55 w <- tapply(tab3$COUT_RELATIF,tab3$USAGE,mean) #w <- w[1:3] #names(w) <- c(1,2,3) barplot(w,xlab="USAGE",ylab="coût relatif ", main="Coût relatif moyen des sinistres",col="blue") barplot(c(v1,v2),xlab="GARANTIES",ylab="coût relatif ", main="Coût relatif moyen des sinistres",col="red") #####*******############***********########********######## ## 1. # # # # Fontion qui permet de calculer le rapport de corrélation pour déterminer la dépendance ou pas entre une variable qualitative et une variable quantitative. # Données: - x: variable quantitative # - gpe: variable qualitative coef.test.quant.qualit <- function(x, gpe) { moyennes <- tapply(x, gpe, mean) effectifs <- tapply(x, gpe, length) varinter <- (sum(effectifs * (moyennes - mean(x))^2)) vartot <- (var(x) * (length (x) - 1)) res <- sqrt(varinter/vartot) return (res) } ## Quelques test d’indépendances entre une # variable quantitatives et une variable qualitative. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 56 # Test d’indépendance de la variable USAGE # contre la variable COUT_RELATIF. var.USAGE <- tab$USAGE var.COUT <- tab$COUT_RELATIF res1 <- coef.test.quant.qualit(var.COUT ,var.USAGE) # Exclusion de la modalité 3 de la variable USAGE. g <- which(tab$USAGE!=3); var.USAGE1 <- tab$USAGE[g] var.COUT1 <- tab$COUT_RELATIF[g] res2 <- coef.test.quant.qualit(var.COUT1 ,var.USAGE1) # Test d’indépendance de la variable GARANTIES contre # la variable COUT_RELATIF. var.GARANTIES <- tab$GARANTIES res3 <- coef.test.quant.qualit(var.COUT ,var.GARANTIES) #################################################################### # # # Ce programme va nous permettre d’estimer le taux de prime pure # # et les intervalles de confiances de ces taux. # # # #################################################################### library(geepack) # Package permettant de construire # un modèle dont l’estimation des # paramètres sont estimés par GEE. # On charge le tableau de données tab <- read.csv("donnee_stage_id1.csv",header=TRUE,sep=";",dec=",") tab$USAGE <- as.factor(tab$USAGE) tab$GARANTIES <- as.factor(tab$GARANTIES) Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 57 ###*** Construction d’un certain nombre de fonctions utiles ***### # 2. Construction de la fonction "fic.Boots". # Cette fonction permet de générer un échantillon # bootstrap d’un jeu de données longitidunale. # Données: - data: jeu de donnée initial; # - ind: identifiants 2 à 2 distincts de data. fic.Boots <- function (ind=unique(tab$id),data=tab) { A <- data.frame() # création(vide) du tableau de données # bootstrap. ind.Boot <- sample(ind,size=length(ind),replace=TRUE) ind.BOOt <- sort(ind.Boot) names(ind.Boot) <- 1:length(ind.Boot) # Les identifiants # dans le fichier bootstrap. for (i in 1:length(ind.Boot)){ B <- data[data$id==ind.Boot[i],] B$id <- rep(names(ind.Boot)[i],nrow(B)) A <- rbind(A,B) } ## Autre approche #g <- table(ind.Boot) # Construction effectif du jeu de données bootstrap. #for (i in 1:max(g)){ #y <- which(g==i) #w <- as.numeric(names(y)) #if (length(w)!=0){ #z <- which(data$id%in%w) #n <- length(z) #B <- data[rep(z,i),] Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 58 #p <- 0 #q <- 30000 # compteur # compteur # On construit maintenant les nouveaux identifiants. #for (j in 1:i){ #B$id[(p+1):(n+p)] <-B$id[(p+1):(n+p)]+q #p <- n+p #q <- max(B$id[p]) #} #} #A <- rbind(A,B) #} return(A) # NB: La taille de donnée du fichier de données bootstrap (A), # n’est pas forcement la même que celle du jeu de données initial. } # 3. Construction de la fonction "interval.boot". # Cette fonction permet de construire un # intervalle de confiance à partir du bootstrap # Données: - v: vecteur des quantiles # - alpha: l’ordre du quantile interval.boot <- function(v,alpha=0.05){ v <- sort(v) # On ordonne les données de manière croissante v.cum <- cumsum(rep(1,length(v)))/length(v) inf.boot <- v[max(which(v.cum <= alpha/2))] max.boot <- v[max(which(v.cum <= 1-(alpha/2)))] intervalle <- c(inf.boot,max.boot) Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 59 #names(intervalle) <- c("inf.bootst","sup.bootst") return(intervalle) } # 4. Fonction qui construit le modèle de la # fréquence moyenne des sinistres: "model.GEE". # Donnée: - dat: jeu de données bootstrap. model.GEE <- function(dat=tab){ mod <- geeglm(NBRE_SINISTRE~USAGE*GARANTIES, id=id,corstr="ar1",family=poisson,data=dat) return(mod) } # 5. Fonction qui estime la fréquence moyenne # des sinistres dans le croisement des modalités # des variables USAGE et GARANTIES: "freq.USA.GAR". # Données: - model: modèle de la fréquence # moyenne des sinistres. freq.USA.GAR <- function(model=model.GEE()){ # Coefficients estimés du model coef <- model$coefficients coef <- as.vector(coef); ff1 <- coef[c(11,13,15,17,19,21,23)] ff2 <- coef[c(12,14,16,18,20,22,24)] coef[11:17] <- ff1; coef[18:24] <- ff2 names(coef) <- c(names(model$coefficients)[1:10], names(model$coefficients)[c(11,13,15,17,19,21,23)], names(model$coefficients)[c(12,14,16,18,20,22,24)]) Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 60 indice.usage <- c(0,coef[2:3]) # # # # positions des différents coefficients de la variable USAGE sur la variable coef. indice.garanties <- c(0,coef[4:10]) # # # # # positions des différents coefficients de la variable GARANTIES sur la variable coef # Positions des interactions des modalités de la variable # USAGE avec les modalités de la variable GARANTIES indice.interaction <- c(rep(0,8),0, coef[11:17],0,coef[18:19],0,coef[20:21],0,0) # Dans ce qui suit, nous allons écrire un code qui détermine # la fréquence des sinistres dans les différents croisement # des modalités des variables USAGE et GARANTIES. freq <- c() # variable qui permet de stocker # le calcul des fréquences mat.freq <- matrix(0,nrow=length(indice.garanties), ncol=length(indice.usage)) k <- 1; # compteur for (i in 1:length(indice.usage)){ for (j in 1:length(indice.garanties)){ x3 <- indice.usage[i] x4 <- indice.garanties[j] x5 <- indice.interaction[k] freq[j] <- exp(coef[1]+x3+x4+x5) k <- k+1 } Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 61 # names(freq) <- c("GARANTIES20",names(coef[4:10])) # a=names(coef[i]) #cat("tableau des fréquences des garanties des véhicules à",a,"\n","\n") # print(freq*100) # cat("\n","\n") mat.freq[,i] <- freq } rownames(mat.freq) <- c("GARANTIES20",names(coef[4:10])) colnames(mat.freq) <- c("USAGE1",names(coef[2:3])) x <- mat.freq[c(1,4,6),] y <- mat.freq[c(7,3,5),] D <- x+y # On augmente aux fréquences moyennes de certaines garanties # la fréquence moyenne de celles qu’elles # contiennent (problème de surprime). mat.freq[c(1,4,6),] <- D return(mat.freq) } # 6. Construction de la fonction "cout.relatif.mean" # Cette fonction permet d’estimer la moyenne empirique # des coûts relatifs sur chaque garantie. Tout en sachant # que cette moyenne ne varie pas en fonction de # la catégorie d’usage de véhicule. # Données - dat: jeu de données bootstrap cout.relatif.mean <- function(dat=tab){ Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 62 s <- which(dat$COUT_RELATIF > 0) g <- tapply(dat$COUT_RELATIF[s],dat$GARANTIES[s],mean) # Matrice des coûts relatifs moyens: "mat.cout.relatif" mat.cout.relatif <- matrix(c(min(c(1,g[1]+g[7])),g[2], g[3],min(c(1,g[4]+g[3])), g[5],min(c(1,g[6]+g[5])),g[7],g[8]), nrow=length(g), ncol=length(unique(dat$USAGE))) # On tient maintenant compte du fait que, # le coût relatif moyen des sinistres dans autres # la catégorie d’usage 3 diffère légèrement des garanties. if (sum(dat$USAGE[s]==3)!=0) # # # # On tient compte du fait que, le coût relatif moyen des sinistres dans la catégorie d’usage 3 diffère légèrement des autres garanties. mat.cout.relatif[1,ncol(mat.cout.relatif)]=min(c(1, mean(dat$USAGE[s]==3)+g[7])) rownames(mat.cout.relatif) <- c("GARANTIES20","GARANTIES30", "GARANTIES40","GARANTIES41", "GARANTIES50","GARANTIES51", "GARANTIES60","GARANTIES95") colnames(mat.cout.relatif) <- c("USAGE1","USAGE2","USAGE3") return(mat.cout.relatif) } # 7. Construction de la fonction "taux.prime" qui renvoie # les différentes estimations des taux de primes pures. # Données - F: matrice des fréquences moyennes # - C: matrice des coûts relatifs moyens. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 63 taux.prime <- function(F=freq.USA.GAR(),C=cout.relatif.mean()){ Z <- F*C*100 return(Z) } # 8. Construction de la fonction "resultats.stage". Cette fonction va # permettre de retourner un intervalle de confiance pour chaque # estimation du taux de prime pure et les différents taux de primes pures. # Données - dat: jeu de données initial # - B: nombre d’itération bootstrap # - beta: probabilité que la vrai valeur du taux de prime pure # soit à l’extérieur de l’intervalle de confiance estimer. resultats.stage <- function(dat=tab,B=1000,beta=0.05){ # Les taux de primes pures estimés à partir de notre jeu de données # "tab" (données initiales) se trouvent dans la matrice T ci-dessous. T <- taux.prime() FREQ <- freq.USA.GAR() COUT <- cout.relatif.mean() # On génère les différents jeux de données bootstrap tout en # estimant dans chaque jeu les taux de primes pures. K <- list() # Cette variable va permettre de stocker les # différents matrices bootstrap des taux de primes pures. for(i in 1:B){ L <- fic.Boots() # Jeu de données bootstrap à la i ème itération. mat.freq <- freq.USA.GAR(model=model.GEE(L)) # Construction de la # matrice de la fréquence # moyenne des sinistres. Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 64 mat.cout <- cout.relatif.mean(L) # Construction de la matrice # du coût relatif moyen des sinistres. taux <- taux.prime(F=mat.freq,C=mat.cout) # matrice des différents taux # de primes estimés. K[[i]] <- taux print(i) } # Nous allons maintenant construire un intervalle de confiance des différents # taux de primes pures obtenus dans la variable T. Q <- matrix(0,nrow=nrow(taux),ncol=2*ncol(taux)) # matrice qui va contenir # les intervalles de # confiances des # taux de primes pures. rownames(Q) <- c("GARANTIE20","GARANTIE30","GARANTIE40","GARANTIE41", "GARANTIE50","GARANTIE51","GARANTIE60","GARANTIE95" ) colnames(Q) <- c("inf.USAGE1","sup.USAGE1", "inf.USAGE2","sup.USAGE2", "inf.USAGE3","sup.USAGE3") a <- c() for(i in 1:nrow(taux)){ l <- 1 for(j in 1:ncol(taux)){ a <- c() for(k in 1:B){ a[k] <- K[[k]][i,j] } intervale <- interval.boot(a,alpha=beta) Q[i,l:(l+1)] <- intervale l <- l+2 Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 65 } } # Les résultats: # - mat.taux.prime: matrice d’estimations des taux de primes pures; # - interval.taux: intervalle de confiance des différents # taux de primes pures estimés; # - alpha: ordre de l’intervalle de confiance des # différents taux de primes; # - iteration.boot: nombre d’itérations bootstrap; # - mat.frequence: matrice d’estimations des fréquences moyennes; # - mat.cout.relatif: matrice d’estimations des couts relatifs moyens. res <- list(mat.taux.prime=T,interval.taux=Q,alpha=beta,iteration.boot=B, mat.frequence=FREQ,mat.cout.relatif=COUT) return(res) } Master de Statistique Appliquée. © HERNANDEZ LELE, UY1/ENSP 2012 BIBLIOGRAPHIE 66 Bibliographie [1] Christian PARTRAT, Jean-Luc BESSON (2005) : Assurance NON-VIE, Modélisation, Simulation. Economica [2] CIMA : CODE DES ASSURANCES ; Nouvelle Edition 2009 [3] Dr Eugène-Patrice NDONG NGUEMA (2012) : Cours de Data Mining et Données Censurées au master de statistique appliquée à l’ENSP. [4] Gilbert SAPORTA (2006) : Probabilités, Analyse des Données et Statistique. 2me édition révisée et augmentée. Technip [5] James Landel(2010) Lexique des termes d’assurance. L’argus [6] Julien JACQUEMIN, WINTER & Associés : Modèles financiers et Analyses de risque dynamique en assurance. [7] KAMKUMO TCHATCHUENG OMER (2005) : Analyse statistique du profil des clients à haut risque du portefeuille automobile d’une compagnie d’assurance. [8] LIANG, K.Y.,& ZEGER S.L. (1986) : Longitudinal data analysis using generalized linear models. Biometrika 73, 13-22. [9] Michel DENUIT, Arthur CHARPENTIER (2005) : Mathématiques de l’assurance non-vie, Tome II Tarification et Provisionnement.Economica [10] NJOMO NANA Yannick Lionel (2010) : Effet de l’Albendazole sur la micro-filaire Loa Loa. Master de statistique appliquée à ENSP 67