UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D`ACCIDENTS
Transcription
UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D`ACCIDENTS
BRUSSELS ECONOMIC REVIEW - CAHIERS ECONOMIQUES DE BRUXELLES VOL. 49 - N°2 SUMMER 2006 UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D’ACCIDENTS DANS LE SECTEUR DE L’ASSURANCE AUTOMOBILE* MARÍA DEL CARMEN MELGAR** (UNIVERSIDAD PABLO DE OLAVIDE), JOSÉ ANTONIO ORDAZ (UNIVERSIDAD PABLO DE OLAVIDE) ET FLOR MARÍA GUERRERO (UNIVERSIDAD PABLO DE OLAVIDE) RÉSUMÉ: L’estimation du nombre d’accidents est un des objectifs les plus importants des travaux de recherche dans le secteur de l’assurance automobile. Dans pareil cas, on a généralement recours aux modèles économétriques pour données de comptage, en particulier les modèles de Poisson ou binomial négatif. Cependant, dans certains cas, les modèles à expansion de zéros peuvent être plus pertinents. Le but principal de cet article est de déterminer les facteurs les plus significatifs des accidents déclarés par les assurés. Nous estimons leur nombre à partir de données fournies par une compagnie d’assurance privée espagnole au moyen de différents modèles économétriques pour données de comptage et nous comparons les résultats obtenus entre ces différents modèles. ABSTRACT: The estimation of the number of accidents is one of the most important purposes in the research field of the auto insurance industry. Count data econometric models are usually employed in this process, in particular the traditional Poisson and the negative binomial specifications. Nevertheless, zero-inflated models could be more appropriated solutions. The main objective of this paper is to show the most significant factors in the accidents that are declared by the policyholders. We estimate its number using the data provided by a Spanish private insurance company throughout the different models we have previously pointed out, comparing the obtained results. JEL CLASSIFICATION: C52, G22. MOTS-CLÉS : accident, assurance automobile, modèles économétriques pour données de comptage. KEYWORDS: accident, automobile insurance, count data econometric models. * Ce travail a bénéficié du support du Ministerio de Educación y Ciencia (Espagne) et du FEDER (SEJ200500741/ECON). ** Adresse de correspondance : María del Carmen Melgar, Departamento de Economía, Métodos Cuantitativos e Historia Económica, Universidad Pablo de Olavide, Carretera de Utrera Km.1, 41013 Sevilla (España); e-mail: [email protected] 169 UNE ETUDE ECONOMETRIQUE DU NOMBRE D’ACCIDENTS DANS LE SECTEUR DE L’ASSURANCE AUTOMOBILE INTRODUCTION Parmi les secteurs économiques les plus dynamiques dans les pays industrialisés, on peut citer celui de l’assurance, aussi bien le secteur vie que le secteur non-vie. En ce qui concerne les assurances non-vie, la branche la plus importante en Espagne est celle de l’assurance automobile, qui en 2003, concernait plus du 25% de l’ensemble des primes d’assurance du pays. Il est également intéressant de souligner que c’est dans ce secteur d’assurance que l’on retrouve la plupart des travaux de recherche empirique s’intéressant aux asymétries d’information notamment sur le plan de la validation empirique des modèles théoriques. Parmi ces études, l’analyse du nombre d’accidents encourus par les conducteurs acquiert une part de plus en plus importante. Dans ce type d’étude, on s’intéresse typiquement à déterminer dans quelle mesure les conducteurs qui subissent le plus d’accidents sont également ceux qui incluent le plus de couvertures dans leur contrat d’assurance. Tandis que les fondements théoriques à cet égard ont été établis à partir des années 70, ce n’est qu’à partir de la dernière décennie que les études empiriques auxquelles nous faisons référence ont commencé à apparaître. Nous pouvons citer, entre autres, les travaux de Puelz et Snow (1994), Chiappori et Salanié (1997, 2000), Dionne, Gouriéroux et Vanasse (1999) et Cohen (2005). Notre étude porte sur le lien entre le nombre de sinistres dans le secteur de l’assurance automobile et différentes variables explicatives comme par exemple les caractéristiques des preneurs d’assurance. A l’instar des articles cités, on s’intéresse également sur le lien entre le niveau de couverture et le nombre de sinistres. L’estimation économétrique de ce type de relation dont la variable dépendante reflète un nombre d’évènements s’effectue habituellement au moyen de modèles économétriques pour données de comptage (count data models en anglais). Parmi ces modèles, le modèle de Poisson et le modèle binomial négatif représentent les deux modèles les plus souvent utilisés au niveau empirique. D’autres modèles, tel que les modèles à expansion de zéros (zero inflated models en anglais) sont plus rarement mis en œuvre. Ce type de modèles permet de prendre en compte certaines caractéristiques de la variable dépendante, ce qui n’est pas le cas lorsque l’on a recours à des modèles plus simples. Dans le domaine de l’assurance automobile, on ne trouve pas d’étude empirique mettant en œuvre ce dernier type de modèle. Cette étude se propose de pallier cette lacune en comparant les résultats obtenus au moyen de tous ces modèles économétriques. Le plan de l’article est le suivant. Après cette brève introduction, nous exposons dans la section 1 la méthodologie mise en œuvre dans l’analyse empirique. Nous décrivons les données, les variables utilisées dans la partie empirique ainsi que les principales caractéristiques des modèles estimés. Dans la section 2, nous présentons et comparons les résultats des estimations du nombre d’accidents déclarés par les assurés obtenus au moyen des modèles de régression de Poisson, binomial négatif, Poisson à expansion de zéros et binomial négatif à expansion de zéros. La dernière section reprend les principales conclusions de l’analyse. 170 MARÍA DEL CARMEN MELGAR, JOSÉ ANTONIO ORDAZ ET FLOR MARÍA GUERRERO 1. MÉTHODOLOGIE 1.1. DONNÉES ET ANALYSE DESCRIPTIVE Les données que nous avons utilisées dans cette étude ont été très aimablement fournies par une importante compagnie d’assurance privée espagnole. La base de données mise à notre disposition contient de l’information relative à 60000 assurés concernant les caractéristiques du véhicule automobile assuré, du conducteur et du contrat entre l’assuré et la compagnie. La base de données fournit également le nombre de sinistres qui ont eu lieu entre juin 2002 et juin 2003 et qui sont connus par l’assureur. Les variables que l’on a considérées font référence à la catégorie du véhicule assuré ; son utilisation ; l’âge du conducteur ; son expérience, mesurée par le nombre d’années après l’obtention du permis de conduire ; le sexe ; la région principale de circulation ; la prime payée annuellement ; le niveau de couverture choisi et le nombre d’accidents déclarés à la compagnie d’assurance. Il est à noter que la plupart de ces variables sont inclues dans l’analyse au moyen de variables binaires qui reflètent leur catégories1. Nous présentons dans ce qui suit quelques résultats issus de l’analyse statistique descriptive de ces variables.2 En ce qui concerne les caractéristiques des automobiles assurés, nous remarquons que 80,80% des véhicules concernent des voitures de tourisme ou des fourgonnettes. On compte 7,32% de cyclomoteurs ou motos et 6,76% de tracteurs ou autres moyens de transport agricole. Le solde est insignifiant. En ce qui concerne l’utilisation des véhicules, près de 80% le sont à titre privé ; un peu moins de 10% des véhicules sont utilisés pour transporter des marchandises et 8% pour réaliser des travaux agricoles. La moyenne d’âge des conducteurs est d’environ 48 ans. 92,15% des assurés ont 30 ans ou plus et seulement 2,26% moins de 25 ans. La plupart des personnes sont des hommes ; il n’y a que 14,67% de femmes parmi les assurés. Presque tous ont obtenu leur permis de conduire depuis deux ans au moins (99,19%). Par rapport au domicile de l’assuré, qui est considéré par la compagnie d’assurance comme étant la région d’utilisation principale du véhicule, nous avons regroupé les conducteurs selon le niveau 1 de la nomenclature des unités territoriales statistiques (NUTS 1) établie par Eurostat. Les Communautés Autonomes espagnoles sont ainsi regroupées dans les 8 régions reprises dans l’annexe A. Plus de 45% des assurés habitent dans la région du Sud ; les régions Est, Nord-ouest et Centre réunissent chacune entre 12% et 17% des conducteurs, tandis que les régions restantes, c’est-à-dire les Canaries, le Nord-est, Madrid, Ceuta et Melilla, représentent moins de 5% des assurés. 1 2 Voir l’annexe A, pour une définition. Pour plus de détails, voir Melgar, Ordaz et Guerrero (2004). 171 UNE ETUDE ECONOMETRIQUE DU NOMBRE D’ACCIDENTS DANS LE SECTEUR DE L’ASSURANCE AUTOMOBILE En ce qui concerne les caractéristiques des contrats entre l’assuré et sa compagnie, on peut observer que plus de 48% individus paient une prime annuelle comprise entre 200 et 400€. Au-delà de cette somme, le pourcentage d’assurés diminue au fur et à mesure que la prime augmente. Les primes les moins communes sont celles d’un montant inférieur à 200€. Celles-ci ne concernent que 9,80% des conducteurs. Le niveau de couverture du risque qui est fonction du montant de la prime payée constitue le deuxième élément important définissant la relation entre la compagnie d’assurance et son client. Nous avons considéré plusieurs niveaux, en partant du niveau le plus bas qui correspond au minimum légal obligatoire pour un véhicule jusqu’au niveau le plus haut qui couvre l’ensemble des éventualités possibles, en passant par deux niveaux intermédiaires qui incluent, outre le minimum, d’autres garanties telles que le vol de voiture, l’incendie ou l’assurance contre la suspension provisoire du permis de conduire. Presque 54% des conducteurs ont seulement une assurance de responsabilité aux tiers, tandis que moins de 8% bénéficient de l’assurance la plus complète. De manière générale, ces pourcentages diminuent au fur et à mesure que le niveau de couverture augmente. En ce qui concerne le nombre d’accidents avérés et déclarés à la compagnie d’assurance, on dénombre au total 19841 sinistres dans l’ensemble de 13909 conducteurs. 76,82% des conducteurs assurés n’a ainsi subi aucun accident. Parmi les conducteurs ayant déclaré un accident, 70,44% d’entre eux n’ont subi qu’un seul accident, ce qui représente 16,33% des assurés par rapport au total de 60000 assurés de la base de données. 1.2. MODÈLES La variable sur laquelle se centre notre étude, le nombre d’accidents déclarés par les conducteurs à leur compagnie d’assurance, est une variable discrète à valeurs non négatives. Ce type de variable est en général estimé par les modèles de régression pour données de comptage (count data models). Parmi ces modèles, on distingue en général le modèle de Poisson et le modèle binomial négatif qui sont le plus souvent utilisés. Les modèles à expansion de zéros peuvent être plus adéquats, étant donné qu’ils permettent de tenir compte de certains aspects propres aux valeurs prises par la variable endogène, ce que les modèles classiques ne permettent pas de considérer.3 Le modèle de régression de Poisson permet d’estimer la probabilité qu’une variable aléatoire Y prenne la valeur yi pour l’individu i : e − λi λiyi yi ! où yi = 0,1,2,…; P(Y = y i ) = 3 Voir Winkelmann (2003) pour davantage d’information sur les modèles count data. 172 (1) MARÍA DEL CARMEN MELGAR, JOSÉ ANTONIO ORDAZ ET FLOR MARÍA GUERRERO le paramètre λi vérifie la relation : lnλi = Xiβ, ou de façon équivalente, λi = eXiβ et Xi représente le vecteur des régresseurs et β celui des coefficients que l’on souhaite estimer. Une des caractéristiques du modèle de Poisson est l’égalité entre ces deux moments conditionnels : Var(Y) = E(Y). Cette propriété d’équidispersion peut paraître restrictive. Celle-ci peut faire l’objet d’un test statistique qui dans le cas où il est rejeté (H0 : équidispersion) justifie le recours à des modèles de régression caractérisés par des distributions de probabilité plus flexibles. Dans pareil cas, le modèle binomial négatif est l’alternative habituellement retenue. Ce modèle de régression permet d’appréhender des variables dépendantes de type données de comptage caractérisées par un degré important d’hétérogénéité qui peut provenir de la présence élevée de valeur nulles pour la variable dépendante (Mullahy, 1997). La fonction de probabilité s’exprime dans ce cas par la relation : Γ( y i + ν ) ν ⎛ ν ⎞ ⎟ P(Y = yi ) = ⋅⎜ Γ( y i + 1) ⋅ Γ(ν ) ⎜⎝ ν + λi ⎟⎠ y ⎛ λi ⎞ i ⎜ ⎟ ⎜ν + λ ⎟ i⎠ ⎝ (2) où υ > 0.4 Pour ce modèle, la variance de la distribution conditionnelle de la variable Y n’est plus égale à sa moyenne conditionnelle, mais une fonction quadratique de celle-ci : Var(Y) = E(Y) + αE(Y)2, où α = 1 représente le coefficient de surdispersion. ν On peut observer que si α → 0 , le modèle binomial négatif coïncide avec le modèle de Poisson. Le test de la nullité de α permet ainsi de tester la validité du modèle de Poisson. Les développements les plus récents des modèles pour données de comptage donnent lieu à une double interprétation des valeurs nulles de la variable dépendante, ce qui n’est pas le cas avec les modèles plus classiques tels que les modèles de Poisson et binomial négatif. Concrètement, les modèles plus récents considèrent qu’il existe une décision initiale de participation de la part de l’individu considéré à un évènement. Si celui-ci ne participe pas, la variable dépendante prendra toujours la valeur zéro, tandis que s’il décide de participer, la variable dépendante prendra des valeurs dont la distribution pourra se conduire selon une loi de Poisson ou binomiale négative, valeurs qui pourront éventuellement être nulles. Cette valeur nulle peut ainsi être la conséquence de deux situations différentes. 4 Selon la terminologie de Cameron et Trivedi (1986), ce modèle se réfère au modèle binomial négatif II. 173 UNE ETUDE ECONOMETRIQUE DU NOMBRE D’ACCIDENTS DANS LE SECTEUR DE L’ASSURANCE AUTOMOBILE La distribution de probabilité du modèle de Poisson à expansion de zéros (zero-inflated Poisson model ou ZIP) s’exprime comme suit: P(Yi = 0) = qi + (1 − q i )e − λi P(Y = y i > 0) = (1 − q i ) (3) e −λi λiyi yi ! Dans le cas du modèle binomial négatif à expansion de zéros (zero-inflated negative binomial model ou ZINB), la distribution de probabilité s’exprime comme suit : ⎛ ν P(Yi = 0) = qi + (1 − q i )⎜⎜ ⎝ ν + λi ν ⎞ ⎟ ⎟ ⎠ ν ⎛ ν ⎞ Γ( y i + ν ) ⎟ P(Y = y i > 0) = (1 − q i ) ⋅⎜ Γ ( y i + 1) ⋅ Γ (ν ) ⎜⎝ ν + λi ⎟⎠ ⎛ λi ⎞ ⎜⎜ ⎟⎟ ⎝ ν + λi ⎠ yi (4) où qi est, dans les deux cas, la probabilité liée au fait de ne pas participer et 1 - qi au fait de participer. La valeur espérée et la variance de Y s’expriment comme suit : E (Y | X i ) = (1 − qi )λi et Var (Y | X i ) = λi (1 − q i )(1 + λi q i ) dans le cas du modèle ZIP, E (Y | X i ) = (1 − qi )λi et Var (Y | X i ) = λ i (1 − q i )(1 + αλ i + λi q i ) dans le cas du modèle ZINB. Ainsi, α représente de nouveau le paramètre qui nous permet de discriminer entre le modèle de Poisson (ZIP) et le modèle binomial négatif (ZINB). Quant à la probabilité qi, lorsque celle-ci est nulle, qi = 0, on se retrouve dans le cas des modèles de Poisson ou binomial négatif traditionnels, selon le cas. Par conséquent, le test de nullité ou non de ce paramètre permet de nous aider à décider lequel de ces modèles (celui à expansion de zéros ou le traditionnel) est le meilleur ou le plus convenable pour l’estimation proposée. Hélas, les logiciels informatiques ne permettent pas de tester directement ce paramètre, mais ils considèrent qu’il suit une loi de distribution particulière. Ainsi, dans le cadre du logiciel que nous avons utilisé, Limdep 7.0, qi suit une distribution logistique : q i = Λ (τX i β ) avec τ ∈ R. Le choix entre le modèle à expansion de zéros et le modèle traditionnel est possible au moyen de la statistique de Vuong5 qui se définit comme suit : V= 5 ⎡1 N ⎤ N ⎢ ∑ mi ⎥ ⎣ N i =1 ⎦ 1 N 2 ∑ m −m N i=1 i ( ) Voir Vuong (1989) et Greene (1995) à ce sujet. 174 (5) MARÍA DEL CARMEN MELGAR, JOSÉ ANTONIO ORDAZ ET FLOR MARÍA GUERRERO où mi = ln P1 (Y = y i ) et P2 (Y = y i ) P1(Y = yi) et P2 (Y = yi) représentent les fonctions de probabilité des modèles à expansion de zéros et traditionnel, respectivement, et m la moyenne de mi , i = 1, …, N. Vuong démontre que la statistique mi suit une distribution normale réduite : quand sa valeur est supérieure à 1,96 le modèle à expansion de zéros donne une meilleure estimation ; c’est l’inverse qui se produit lorsque celle-ci est inférieure à -1,96. Enfin, elle n’apporte pas d’information suffisante sur la qualité du modèle lorsqu’elle prend des valeurs comprises entre -1,96 et 1,96. Pour la variable qui nous intéresse (le nombre d’accidents déclarés), la valeur 0 peut soit indiquer que le conducteur n’a pas eu d’accident ou soit qu’il en a eu mais qu’il n’en a pas informé sa compagnie d’assurance. Le fait que près de 77% des assurés n’ont déclaré aucun accident peut nous amener à penser que le modèle binomial négatif à expansion de zéros s’avère plus approprié pour déterminer les facteurs qui apparaissent significatifs pour expliquer le nombre de sinistres. 2. LES PRINCIPAUX RÉSULTATS DES ESTIMATIONS Nous présentons dans cette section les principaux résultats des estimations effectuées afin de déterminer les variables qui sont significatives dans l’occurrence d’accidents déclarés par les conducteurs à leur compagnie d’assurance. Nous avons estimés les différents modèles pour données de comptage discutés dans la section précédente. Les tableaux 1, 2, 3 et 4 de l’annexe B reprennent les résultats obtenus avec chacun de ces modèles. Nous avons uniquement repris dans ces tableaux les variables statistiquement significatives au niveau de 5%. Les estimations ont été réalisées avec le logiciel Limdep 7.0., à partir d’un échantillon aléatoire de 15000 assurés sur les 60000 disponibles dans la base de données initiale, et ce afin de palier les contraintes de calcul. La section qui suit s’intéresse aux principales similitudes et différences entre les quatre modèles estimés. 2.1. RÉSULTATS COMMUNS En ce qui concerne les variables significatives communes aux quatre modèles, on distingue certaines catégories de véhicules, certains types d’utilisation de ceux-ci, l’âge du conducteur, certaines régions de résidence de ceux-ci, ainsi que l’ensemble des niveaux de primes et de couverture. On peut souligner aussi, comme point commun entre les quatre estimations, l’absence de significativité de la variable relative au sexe du conducteur. 175 UNE ETUDE ECONOMETRIQUE DU NOMBRE D’ACCIDENTS DANS LE SECTEUR DE L’ASSURANCE AUTOMOBILE Plus précisément, au niveau de la catégorie du véhicule, les camions, remorques et cyclomoteurs ou motos sont systématiquement significatifs quelque soit le modèle estimé. De plus, l’incidence de ces trois catégories sur la probabilité d’observer un sinistre est plus faible par rapport à la catégorie de référence représentée par les véhicules de tourisme ou fourgonnette. Quant à l’utilisation faite des véhicules, seuls les usages à titre d’activité industrielle, agricole et pour le transport scolaire apparaissent comme étant des facteurs déterminants et ce pour les quatre modèles estimés. Pour les deux premiers types d’utilisation, en particulier l’usage agricole, le nombre de sinistres est plus faible par rapport au groupe de référence représenté par les véhicules destinés à un usage particulier. Le transport scolaire quant à lui est associé avec un taux de sinistres plus élevé que les autres types d’utilisation. La variable âge est associée à un nombre plus faible de sinistres. Plus les conducteurs sont âgés (et plus ils sont expérimentés) moins ils subissent d’accidents. En ce qui concerne la région de résidence de l’assuré, seules les régions du Nord-ouest et du Centre paraissent se différentier des autres, en ce sens que l’on y observe moins d’accidents par rapport à la catégorie de référence représentée par la région du Sud (ainsi que les régions non significatives). Parmi les autres variables analysées, on retrouve celles pour lesquelles on a regroupé les primes payées chaque année par les assurés. Toutes ces catégories apparaissent significatives et on observe un plus grand nombre de sinistres, par rapport à la catégorie de référence, au fur et à mesure que la prime annuelle augmente. Ainsi, pour les primes les plus élevées (supérieures à 750€), on trouve deux fois plus de sinistres par rapport aux primes comprises dans l’intervalle entre 200 et 300€, avec des incréments entre groupes consécutifs de l’ordre de 15 à 25 % et ce pour les quatre estimations réalisées. Si l’on s’intéresse finalement aux degrés de couverture, nous observons qu’ils sont tous significatifs et que, indépendamment du modèle appliqué, la probabilité de sinistres est supérieure dans toutes les catégories par rapport au taux de couverture minimum (catégorie de référence). On remarque également pour les quatre modèles une relation non monotone entre les coefficients estimés et les catégories de couverture. Ainsi bien que le coefficient associé au niveau de couverture le plus élevé soit le plus élevé (plus on est assuré et plus on a d’accidents), une différence apparaît entre les deux niveaux intermédiaires de couverture, le coefficient associé à la catégorie représentant un degré de couverture moindre étant plus élevé. On notera que ces résultats ne concordent pas avec ceux de Cohen (2005) et Dionne, Gouriéroux et Vanasse (1999), qui mettent en avant une relation positive entre le niveau de couverture et la probabilité d’un sinistre. Chiaporri et Salanié (1997, 2000) n’arrivent pas non plus à cette conclusion bien que leur échantillon soit constitué d’assurés avec peu d’expérience6. 6 Ce qui est différent par rapport à notre étude qui s’intéressent aux conducteurs disposant de différents niveaux d’expérience ou d’ancienneté. 176 MARÍA DEL CARMEN MELGAR, JOSÉ ANTONIO ORDAZ ET FLOR MARÍA GUERRERO 2.2. DIFFÉRENCES ENTRE MODÈLES Les principales différences rencontrées au niveau des résultats obtenus au travers des quatre modèles estimés concernent les différents types d’utilisation des véhicules ainsi que l’expérience du conducteur. En ce qui concerne le transport de marchandises, le coefficient associé à ce type d’utilisation apparaît comme étant significatif que dans le modèle de Poisson (voir Tableau 1). Néanmoins ce coefficient apparaît comme étant le moins significatif ce qui pourrait expliquer qu’il n’est plus significatif dans les trois autres modèles. Pour ce type d’utilisation, on observe une probabilité de sinistres légèrement moins élevée par rapport à l’usage privé. Si l’on considère le nombre d’années depuis l’obtention du permis de conduire, on observe que le coefficient associé à cette variable n’est pas significatif dans le modèle de régression de Poisson (voir Tableau 1). Ceci n’est pas confirmé pour les autres modèles. Les conducteurs ayant moins de 2 ans d’expérience ont toutes choses étant égales par ailleurs une probabilité plus élevée de subir un sinistre par rapport aux conducteurs plus expérimentés. CONCLUSION Cet article a comme objectif fondamental de montrer quels sont les principaux facteurs déterminants des sinistres déclarés par les conducteurs à leur compagnie d’assurance. A partir des données fournies par une compagnie d’assurance privée espagnole, nous avons pu investiguer cette question en mettant en œuvre différents modèles économétriques pour données de comptage. Concrètement, on a utilisé les modèles de régression de Poisson, binomial négatif, Poisson à expansion de zéros et binomial négatif à expansion de zéros. Les variables définies et utilisées dans les estimations font références aux caractéristiques du véhicule assuré, à celles des conducteurs et au type de police d’assurance. Les principales différences que l’on trouve en appliquant les divers modèles concernent l’utilisation du véhicule et l’expérience du conducteur. À l’exception du sexe qui ne semble pas influencer la probabilité d’avoir un sinistre, les autres variables explicatives sont toutes significatives et ont toutes le même signe dans les quatre modèles estimés. La principale nouveauté de l’article réside dans l’estimation du modèle binomial négatif à expansion de zéros appliqué à l’assurance automobile. D’un point de vue théorique, ce modèle est le plus approprié, et ce pour deux raisons. Tout d’abord le pourcentage élevé de valeurs nulles prises par la variable dépendante (près de 77%) implique une situation de surdispersion des données. Deuxièmement, ce modèle permet de prendre en compte une interprétation supplémentaire attachée à ces valeurs nulles, à savoir le fait d’avoir subi un sinistre et de ne pas l’avoir déclaré auprès de sa compagnie d’assurance outre le fait de ne pas avoir eu de sinistre. Les résultats des estimations économétriques réalisées au moyen du logiciel Limdep 7.0 corroborent ce choix du modèle négatif binomial à expansion de zéro. En effet, bien que les résultats estimés entre les différents modèles économétriques sont dans l’ensemble semblables et cohérents, la significativité de même que les valeurs prises par les paramètres alpha et tau de même que la valeur prise par la statistique du test de Vuong dans le tableau 4 ne rejettent pas l’utilisation de ce modèle plus général. 177 UNE ETUDE ECONOMETRIQUE DU NOMBRE D’ACCIDENTS DANS LE SECTEUR DE L’ASSURANCE AUTOMOBILE REFERENCES Cameron,A. and P. Trivedi, 1986. “Econometric models based on count data: comparison and applications of some estimators and tests”, Journal of Applied Econometrics, 1, pp. 29-54. Chiappori, P.A. and B. Salanié, 1997. “Empirical contract theory: the case of insurance data”, European Economic Review, 41, pp. 943-950. Chiappori, P.A. and B. Salanié, 2000. “Testing for asymmetric information in insurance markets”, Journal of Political Economy, 108 (1), pp. 56-78. Cohen, A., 2005. “Asymmetric information and learning: evidence from the automobile insurance market”, Review of Economics and Statistics, 87 (2), pp. 197-207. Dionne, G., C. Gouriéroux and C. Vanasse, 1999. “Evidence of adverse selection in automobile insurance markets”, in G. Dionne and C. Laberge-Nadeau (ed.), Automobile Insurance: Road Safety, New Drivers, Risks, Insurance Fraud and Regulation, Boston, pp. 13-46. Greene, W.H., 1995. Limdep Version 7.0: User's Manual, Bellport NY. Melgar, M.C., J.A. Ordaz and F.M. Guerrero, 2004. “The Main Determinants of the Number of Accidents in the Automobile Insurance: an Empirical Analysis”, Études et Dossiers, 286, pp. 45-56. Mullahy, J., 1997. “Heterogeneity, excess zeros, and the structure of count data models”, Journal of Applied Econometrics, 12, pp. 337-350. Puelz, R. and A. Snow, 1994. “Evidence on adverse selection: equilibrium signalling and cross-subsidization in the insurance market”, Journal of Political Economy, 102 (2), pp. 236-257. Vuong, G.H., 1989. “Likelihood Ratio Tests for Model Selection and Non-Nested Hypotheses”, Econometrica, 57, pp. 307-333. Winkelmann, R., 2003. Econometric analysis of count data, Berlin. 178 MARÍA DEL CARMEN MELGAR, JOSÉ ANTONIO ORDAZ ET FLOR MARÍA GUERRERO APPENDIX ANNEXE A. DÉFINITION DES VARIABLES UTILISÉES DANS L’ANALYSE ÉCONOMÉTRIQUE variable définitions et modalités Catégorie du véhicule TOU_FOUR*, CAMION, REMORQUE, AUTOCAR, TRAC_MA, VEH_IND, CICL_MOT : variables dummies qui indiquent si le véhicule assuré est, respectivement, un véhicule de tourisme ou une fourgonnette, un camion, une remorque, un autocar, un tracteur ou autre matériel agricole, un véhicule industriel ou un cyclomoteur ou une moto Utilisation du véhicule US_PRIVE*, US_SP, US_LOCAT, US_ECOL, US_ACVN, US_INDUS, US_TMAR, US_TSCOL, US_TGV, US_AGRIC, US_SPC : variables dummies qui indiquent si le véhicule assuré s’utilise, respectivement, à titre privé, dans le cadre de services publics, location, autoécole, achat et vente, industrie, transport de marchandises, transport scolaire, transport en général de voyageurs, agriculture ou est immobilisé en cas de suspension du permis de conduire Âge de l’assuré AGE : variable qui indique l’âge de l’assuré (à la date du 15 décembre 2002) Expérience du conducteur assuré ANCIE<2A : variable dummy qui indique si l’assuré a obtenu un permis de conduire depuis moins de 2 ans (à la date du 15 décembre 2002) Sexe de l’assuré FEMME : variable dummy qui indique si l’assuré est une femme Région de résidence de l’assuré SUD*, N_OUEST, N_EST, CENTRE, MADRID, EST, CANARIES, CEUT_MEL : variables dummies qui indiquent si l’assuré habite et circule normalement dans la région du Sud (Andalucía et Region de Murcia), le Nordouest (Cantabria, Galicia, Principado de Asturias), le Nord-est (Aragón, Comunidad Foral de Navarra, La Rioja, País Vasco), le Centre (Castilla y León, Castilla-La Mancha, Extremadura), Madrid (Comunidad de Madrid), l’Est (Cataluña, Comunidad Valenciana, Islas Baleares), les Canaries (Canarias) ou Ceuta et Melilla (villes autonomes de Ceuta et Melilla) Prime annuelle payée par l’assuré P0_200*, P200_300, P300_400, P400_500, P500_750, P750_ : variables dummies qui indiquent, respectivement, si la prime annuelle payée par l’assuré ne dépasse pas 200 €, si elle est de plus de 200 € et ne dépasse pas 300 €,si elle est de plus de 300 € et ne dépasse pas 400 €, si elle est de plus de 400 € et ne dépasse pas 500 €, si elle de plus de 500 € et ne dépasse pas 750 € ou si elle de plus de 750 € Couverture de l’assurance DG_BAS*, DG_SBAS, DG_SHAUT, DG_HAUT : variables dummies qui indiquent si l’assuré bénéficie, respectivement, d’un degré de couverture le plus faible, faible, élevé ou le plus élevé Nombre de sinistres NOMSIN : variable qui indique le nombre d’accidents subis par l’assuré et déclarés à la compagnie d’assurance entre le 16 juin 2002 et le 15 juin 2003 * Catégorie de référence de la variable. 179 UNE ETUDE ECONOMETRIQUE DU NOMBRE D’ACCIDENTS DANS LE SECTEUR DE L’ASSURANCE AUTOMOBILE TABLEAU 1. ESTIMATION DU NOMBRE D’ACCIDENTS AVEC LE MODÈLE DE RÉGRESSION DE POISSON Variable Coefficient p-valeur Constante CAMION REMORQUE CICL_MOT US_INDUS US_TMAR US_TSCOL US_AGRIC AGE N_OUEST CENTRE P200_300 P300_400 P400_500 P500_750 P750_ DG_SBAS DG_SHAUT DG_HAUT -2,254646741 -0,522299424 -1,823364320 -1,203371762 -0,902381658 -0,111221301 0,648109025 -1,232840680 -0,002932743 -0,213569465 -0,101746717 0,957317404 1,236352682 1,423679002 1,642785182 1,837868660 0,219566604 0,167887390 0,250183632 0,0000 0,0001 0,0001 0,0000 0,0000 0,0332 0,0038 0,0000 0,0107 0,0000 0,0206 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0005 0,0000 Log-vraisemblance -10959,71 Nombre d’observations 15000 180 MARÍA DEL CARMEN MELGAR, JOSÉ ANTONIO ORDAZ ET FLOR MARÍA GUERRERO TABLEAU 2. ESTIMATION DU NOMBRE D’ACCIDENTS AVEC LE MODÈLE BINOMIAL NÉGATIF Variable Coefficient p-valeur Constante CAMION REMORQUE CICL_MOT US_INDUS US_TSCOL US_AGRIC AGE ANCIE<2A N_OUEST CENTRE P200_300 P300_400 P400_500 P500_750 P750_ DG_SBAS DG_SHAUT DG_HAUT -2,256251717 -0,597393570 -1,888292647 -1,237282257 -0,851476118 0,686768007 -1,227075217 -0,002937104 0,447991086 -0,213924515 -0,107301165 0,945020697 1,226025674 1,406036963 1,617471474 1,796373219 0,230013863 0,185641273 0,281741521 0,0000 0,0002 0,0001 0,0000 0,0015 0,0366 0,0000 0,0435 0,0245 0,0000 0,0485 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0012 0,0003 Paramètres Alpha (surdispersion) 1,176923707 0,0000 Log-vraisemblance -10555,91 Nombre d’observations 15000 181 UNE ETUDE ECONOMETRIQUE DU NOMBRE D’ACCIDENTS DANS LE SECTEUR DE L’ASSURANCE AUTOMOBILE TABLEAU 3. ESTIMATIONS DU NOMBRE D’ACCIDENTS AVEC LE MODÈLE ZIP Variable Coefficient p-valeur Constante CAMION REMORQUE CICL_MOT US_INDUS US_TSCOL US_AGRIC AGE ANCIE<2A N_OUEST CENTRE P200_300 P300_400 P400_500 P500_750 P750_ DG_SBAS DG_SHAUT DG_HAUT -1,151407954 -0,443378249 -1,354895062 -0,909931552 -0,635156237 0,585433540 -0,883374009 -0,002181357 0,302522638 -0,161769270 -0,083448823 0,678068469 0,890110509 1,023026707 1,187666583 1,314610856 0,169580184 0,146831726 0,214435672 0,0000 0,0002 0,0002 0,0000 0,0029 0,0014 0,0000 0,0458 0,0312 0,0000 0,0447 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0006 0,0001 Paramètres Tau (expansion de zéros) -0,574189940 0,0001 Log-vraisemblance -10594,696 Statistique de Vuong 34,7655 Nombre d’observations 15000 182 MARÍA DEL CARMEN MELGAR, JOSÉ ANTONIO ORDAZ ET FLOR MARÍA GUERRERO TABLEAU 4. ESTIMATION DU NOMBRE D’ACCIDENTS AVEC LE MODÈLE ZINB Variable Coefficient p-valeur Constante CAMION REMORQUE CICL_MOT US_INDUS US_TSCOL US_AGRIC AGE ANCIE<2A N_OUEST CENTRE P200_300 P300_400 P400_500 P500_750 P750_ DG_SBAS DG_SHAUT DG_HAUT -1,220351591 -0,456477151 -1,440569122 -0,966062757 -0,666068319 0,599652707 -0,943024909 -0,002314716 0,319876987 -0,167706187 -0,088469681 0,723898146 0,947739613 1,085073593 1,256576363 1,384417644 0,175134212 0,153338661 0,221621881 0,0000 0,0004 0,0003 0,0000 0,0037 0,0030 0,0000 0,0481 0,0363 0,0000 0,0470 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0008 0,0003 Paramètres Alpha (surdispersion) Tau (expansion de zéros) 0,047411667 0,0292 -0,462016158 0,0014 Log-vraisemblance -10592,434 Statistique de Vuong 9,0560 Nombre d’observations 15000 183