DATA MINING EN ASSURANCE : Quelques Utilisations

Transcription

DATA MINING EN ASSURANCE : Quelques Utilisations
DATA MINING EN ASSURANCE : Quelques Utilisations
Rédha TIR
Inspecteur Central
Direction des Grandes Entreprises (DGE)
Ministères des Finances
Tél. :+213 70 35 53 85
Fax : +213 94 19 43
E-mail :[email protected]
Résumé / Abstract
Dans un contexte de compétitivité économique fondée sur l’usage de l’information,
les compagnies d’assurances sont de plus en plus fréquemment amenées à entreprendre
une démarche stratégique de traitement de l’information.
Eu égard aux gisements d’informations existants dans ce type d’entreprises,
l’extraction des connaissances à partir de données appelée communément le « Data
Mining » devient un enjeu majeur pour l’ensemble des acteurs (compagnies, autorité de
contrôle, conseils consultatifs et organismes d’intelligence économique en général).
Au moment où les modèles statistico- mathématiques ont prouvé leurs limites, le
Data Mining a pris un essor extraordinaire à travers un certain nombre de techniques
empruntées à l’intelligence artificielle et à la biologie.
Le but de cette communication est de fournir quelques éléments clés susceptibles
d’être utiles aux compagnies d’assurances en matière de traitement des données
statistiques disponibles et de leur exploitation à des fins de croissance et de
développement de produits et de services personnalisés.
La première partie de ce travail consiste à examiner les techniques du Data Mining
qui revêtent une importance cruciale pour l’assurance. Ces techniques sont au nombre de
quatre : le réseau neuronal (Neural Network), la logique floue (Fuzzy Logic), l’algorithme
génétique (Genetic Algorithm) et les ensembles approximatifs (Rough Sets).
La deuxième partie concerne les différentes utilisations de ces techniques- simulant
le raisonnement humain- et leur adaptation aux problèmes d’assurance. On pourrait citer,
la classification de la clientèle et des entreprises à des fins de marketing, l’optimisation
du portefeuille et des stratégies commerciales, l’évaluation du risque, la détection des
fraudes, etc.
Quelques pistes de développement de ces systèmes seront discutées tout au long de
cette communication.
Mots-clés :
Intelligence artificielle, Data Mining, produits d’assurance, classification,
optimisation.
1
I- INTRODUCTION
Actuellement, il est de plus en plus clair que l’avantage compétitif réside dans les compétences
des ressources humaines et la capacité à se doter d’une organisation apprenante. De plus, la
connaissance est devenue, plus encore que le capital et les ressources matérielles, l’ingrédient
essentiel de la création de valeur (Manfred, 1995).
Concernant le marché algérien des assurances, le besoin d’implanter des systèmes d’aide à la
décision et d’extraction de connaissance est ressenti de plus en plus avec l’évolution de
l’informatique et de la taille de l’entreprise. Ceci dit, l’informatique dans ces entreprises est
cantonnée à l’aide à la production effective de la compagnie, ainsi qu’à l’administration
traditionnelle (paie, comptabilité, etc.).
Les compagnies d’assurances ont aujourd’hui tout intérêt à se concevoir comme organisation
apprenante en utilisant le volume d’informations existant. En d’autres termes, il y a une
nécessité d’intégrer les services aux spécialités diverses et d’ajouter aux données de production
des informations permettant de les mettre en perspective pour des décisions de l’ordre de la
stratégie d’entreprise.
A cet égard, le data warehouse (entrepôt de données) est considéré comme une reconnaissance
de la valeur et du rôle de l’information. Son opérationnalisation pourrait augmenter la
performance des décideurs en consolidant, convertissant, transformant et intégrant les données
issues de différents sous- systèmes constituant la compagnie d’assurances, et en leur
fournissant une vue dynamique, globale et pertinente de leur entreprise.
Par ailleurs, Peppers et Rogers disaient qu’ « au lieu de se concentrer sur un produit à la fois,
en essayant de le vendre au plus grand nombre possible, concentrez – vous sur un client la
fois et essayez de lui vendre autant de produits que possible ». D’où la connaissance du client
est d’une importance cruciale pour l’entreprise et sa pérennité. Elle constitue également l’un
des facteurs essentiels de la réussite ou de l’échec de la compagnie d’assurances.
Ce processus de connaissance utilise souvent les techniques du Data Mining qui signifie la
fouille de données dans les gisements de l’entreprise. Ses applications en assurance couvrent
l’estimation des risques, gestion de la relation client (CRM), acquisition de nouveaux clients,
élaboration des plans de réassurance et enfin, la détection des fraudes.
Les outils de data mining représentent l’élément de base autour desquels la connaissance du
client et la réalisation de ses applications se construisent. Donc, qu’est-ce que le data mining ?
Comment peut-on le mettre en œuvre en assurance ? Quelles sont ses techniques ?
2
II. DATA MINING : PROCESSUS ET TECHNIQUES
Le terme data mining a pris son essor depuis 1995 ; mais les techniques qu’il utilise ont
plusieurs décennies. Le traitement des données à travers le data mining est un processus de
trois étapes fondamentales. Un ensemble de techniques empruntées à l’intelligence artificielle
pourrait y intervenir.
II-1. Processus de data mining.
Michel Jambu définie le data mining comme suit : « Le data mining est un processus d’analyse
fine et intelligente des données détaillées, interactif et itératif, permettant aux managers
d’activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur
– mesure dans l’intérêt de l’activité dont ils ont la charge et de l’entreprise pour laquelle ils
travaillent ».
Ainsi, le data mining est né de :
•
l’évolution des systèmes de gestion des bases de données vers l’informatique décisionnelle
avec l’apparition des entrepôts de données (Data Warehouse).
•
de plus en plus, du recours des entreprises à la constitution de giga bases de données.
•
Développement de la Gestion de la Relation Client (CRM) qui représente la tendance
actuelle vers un marketing orienté client au lieu de marketing produit.
•
Progrès réalisés dans le domaine de l’intelligence artificielle en matière d’algorithme
d’apprentissage et de règles d’extraction de connaissances.
Ce processus suit trois étapes : exploration, construction d’un modèle ou définition d’une
structure, et validation / vérification.
En outre, la mise en place d’un projet data mining suppose une très bonne compréhension des
objectifs de l’application. Il s’agit, en fait, de bien décomposer le problème en sousproblèmes, et de récupérer, éventuellement, des données supplémentaires jugées nécessaires
pour la solution. Cette décomposition du problème permet de connaître sa nature (exploration,
création de modèles, identification de modèles, etc.). Un projet de data mining est une gestion
par les résultats, autrement dit, l’évaluation des résultats obtenus est cruciale pour sa réussite.
Donc, il faudrait choisir la technique convenable pour que le résultat corresponde aux attentes.
Après la fixation des objectifs, la première étape de data mining consistera en l’exploration des
données.
3
II-1-1. Exploration
Cette étape comporte plusieurs opérations. Ces opérations ont trait à la préparation des données
pour qu’elles soient exploitables.
En effet, la recherche des données (collecte) consiste en un inventaire des sources de données
(comment combiner des formats différents). Ensuite, un ensemble d’attributs sera sélectionné
par un expert (ex : souscripteur, risk manager, etc.). De plus, ces données doivent être
nettoyées (suppression, remplacement, contournement des valeurs manquantes) et modifiées
(homogénéisation et normalisation) le cas échéant.
II-1-2. Construction d’un modèle
Le data mining est souvent considéré comme un mélange des statistiques, d’intelligence
artificielle et de recherche de base de données. Il s’appuie sur l’intégration de tests statistiques
et d’algorithmes de choix des meilleures techniques de modélisation en fonction des
caractéristiques de chaque cas. La constitution d’un modèle en data mining repose sur la nature
du problème (discrimination, clustering, etc.). Pour ce faire, des bases de test et
d’apprentissage seront mobilisées pour qu’elles soient utilisées par l’algorithme choisi.
L’apprentissage peut être supervisé (prédictif) ou non supervisé (exploratoire). Cependant, la
data mining ne traite pas d’estimation et de test de modèles préspécifiés, mais la découverte de
structures inconnues jusqu’ici
par le biais d’un processus de recherche algorithmique
d’exploration de modèles linéaire et non linéaire, explicite et implicite.
II-1-3. Validation / vérification du modèle
Le modèle doit être évalué et validé qualitativement (présentation graphique ou textuelle des
résultats) et quantitativement (affectation d’un indice de confiance eaux résultats obtenus).
Généralement, ces modèles sont validés par le test, c’est – à – dire à l’aide d’un autre
échantillon appelé « échantillon test et / ou validation ».
En résumé, pour mener à bien un projet de data mining dans une entreprise de banque ou
d’assurance, il es nécessaire de :
•
identifier et analyser les besoins en vue de fixer des objectifs ;
•
obtenir (collecter et traiter) des données représentatives du problème étudié ;
•
identifier le contexte de l’apprentissage ;
•
sélectionner les attributs et réduire leurs dimensions ;
•
choisir un algorithme et / ou un espace d’hypothèses ;
•
choisir un modèle résultant et valider les performances de la méthode utilisée.
4
II-2. Méthodes de data mining
Il existe plusieurs méthodes pour effectuer une analyse de type data mining. En fait,
l’extraction de connaissances peut être sous forme d’extraction d’association, de ressemblances
(ou de similitudes), ou sous forme d’apprentissage automatique.
II-2-1. Extraction d’associations
Une association peut se présenter au niveau des valeurs (implication) ou au niveau des attributs
(corrélations, dépendances). Notons que l’implication est une relation très forte entre deux
valeurs, ce qui est rare en réalité. C’est pourquoi la recherche tend vers l’étude des
dépendances qui caractérisent les attributs.
II-2-2. Ressemblance / Similitude
La ressemblance entre deux objets décrits linéairement est l’ensemble des points communs à
leurs descriptions. On parle aussi de similitude entre deux objets qui se ressemblent. Parmi les
méthodes de regroupement par ressemblance : les K- moyennes, le voisinage dense et
l’agglomération.
II-2-3. Apprentissage automatique
Cette méthode constitue un outil efficace permettant de faire face à la croissance exponentielle
du volume de l’information et d’offrir aux utilisateurs des moyens d’accès faciles aux
informations. Ainsi, l’apprentissage automatique apporte un gain important de productivité et
de réactivité dans l’analyse. En effet, il offre la possibilité aux utilisateurs de réaliser leurs
propres modèles de manière autonome. Enfin, les techniques qui se basent sur l’apprentissage
automatique sont relativement nombreuses :
•
Agents intelligents ;
•
Arbre de décision ;
•
Moteur d’association ;
•
Algorithmes génétiques ;
•
Réseaux bayésiens ;
•
Réseaux de neurones ;
•
Ensembles approximatifs ;
•
Logique floue.
Nous limiterons notre présentation à celles qui s’appliquent le plus souvent en assurance, tel
qu’il est connu dans la littérature assurantielle, et prouvé dans plusieurs expériences
d’entreprises d’envergure mondiale.
5
III. CARACTERISATION DES TECHNIQUES DE DATA MINING
Le but de cette section de faire connaître les techniques usuelles en data mining et dans le
domaine de l’assurance.
III-1. Réseaux de neurones : présentation et évaluation
Les réseaux neuronaux revêtent une importance cruciale dans plusieurs domaines. La finance
n’échappe pas à l’emploi de ce type de méthodes ou techniques modernes. Il s’agit d’un outil
issu de l’intelligence artificielle, habituellement utilisé en sciences appliquées (biologie,
physique, etc.) et qui a fait son entrée en finance et en assurance en particulier. Le réseau de
neurones est utilisé à des fins de prévision, de classification et de reconnaissance de forme en
général. Selon (Paquet, 1997), il existe deux raisons essentielles qui poussent les chercheurs à
s’intéresser à cet outil. Primo, contrairement aux techniques statistiques classiques, le réseau
neuronal ne nécessite aucune hypothèse sur les variables. Secondo, il représente un instrument
adapté pour traiter des problèmes complexes et non structurés, d’où l’impossibilité de spécifier, à
priori, la forme de la relation entre les variables étudiées.
En finance, le réseau de neurones peut être utilisé pour différentes questions. On pourrait
citer : la détection des entreprises en difficulté, la gestion de portefeuille (Paquet, 1997), la
prévision des séries financières, du taux de change, l’évaluation d’actifs (Bolgot & Meyfredi,
1999) et le choix de stratégies ( Montagno, Sexton & Smith, 2002).
III-1-1 . Architecture du réseau multi -couches
Le réseau à couches est le plus utilisé en finance. Il est organisé, comme son nom l’indique,
en couches. Chaque couche comporte plusieurs neurones. Chaque neurone représente une unité
de calcul autonome reliée aux neurones de la ou les couches précédentes.
Le réseau neuronal comporte trois couches. La couche d’entrée (Inputs), une couche de
sortie comportant un seul neurone et donnant le résultat de tous les calculs internes.
Il existe entre ces deux couches une couche non visible de l’extérieur (hidden) appelée
couche « cachée », qui est, en fait, une boite ou engin noir. Là où tous les calculs intermédiaires
et transformations s’effectuent.
Quant au fonctionnement du réseau, l’algorithme d’apprentissage aura pour tâche d’évaluer
des poids dits synaptiques, qui relient les neurones entre eux. Chaque neurone reçoit les
informations fournies par les neurones de la couche précédente. Il calcule, ensuite, son potentiel
d’activation. Une fonction d’activation sert à déterminer l’impulsion à envoyer aux neurones de
la couche qui suit afin de calculer le potentiel de sortie (outputs).
6
III-1-2. Apprentissage du réseau neuronal
Afin que le réseau puisse découvrir la forme de la relation entre les variables, il suit, en
général, deux types d’apprentissage. Le premier, dit supervisé consiste en l’existence d’un
échantillon sur lequel le réseau apprend (s’entraîne) à reconnaître les formes. L’apprentissage
non supervisé, qui est le second type, est utilisé lorsque on n’est en mesure de présenter au
système un échantillon mettant en regard une quantité d’information, et la forme qu’elle est
censée représenter (Paquet, 1997).Par voie de conséquence, le réseau s’auto organise, comme
c’est le cas pour l’algorithme de Kohonen, en vue d’être capable de découvrir la forme à partir
des données fournies et sans aide extérieure.
Les données disponibles doivent être réparties en trois sous-ensembles (apprentissage,
validation et test) à raison de 60%, 30% et 10% respectivement.
A partir de l’échantillon d’apprentissage, le réseau de neurones se paramètre. Autrement dit,
l’algorithme d’apprentissage ajuste les poids synaptiques tout en minimisant une fonction de
coût. Cette dernière n’est, en fait, que la somme des carrés des erreurs produits par le réseau eu
égard le résultat souhaité.
La rétro- propagation des erreurs se fait continuellement jusqu’à ce que la fonction de coût
soit minimisée, ou jusqu’à ce que le concepteur intervienne pour y mettre fin.
Pour éviter le sur ajustement « overfitting », une procédure d’early stopping devrait être
exécutée. Elle consiste en l’introduction de l’échantillon de validation. Le point où cet
échantillon réalise le minimum d’erreur reflète la meilleure performance.
III-1-3. L’évaluation du réseau neuronal
L’échantillon d’apprentissage servira au paramétrage. Le deuxième servira à la validation
(arrêter l’apprentissage quand le niveau d’erreur soit le plus bas possible). Autrement dit,
l’objectif de celui-ci est d’arrêter le processus d’apprentissage lorsqu’il semble donner un résultat
satisfaisant en minimisation de la fonction d’erreur. Le troisième, sera réservé pour évaluer les
capacités du réseau à se généraliser et à simuler les outputs relatifs à un autre ensemble de
données. Enfin, il est à noter que le réseau neuronal est privilégié pour traiter des non linéarités,
et de la complexité en travaillant sur des données caractérisées par l’incomplétude et
l’imprécision. De même, les réseaux de neurones permettent le traitement des variables
qualitatives à travers des neurones recevant des valeurs binaires comme c’est le cas pour la
segmentation et la classification en sciences comportementales (Collins & Clark, 1993).
7
III-2. La logique floue
La logique floue constitue l’une des meilleures techniques de modélisation des différents
phénomènes. Elle a mis en exergue le fossé qui sépare les représentations mentales de la réalité
et les modèles mathématiques connus à base de variables booléennes (vrai / faux).
III-2-1. La théorie des ensembles flous
Les travaux de L. Zadeh et ses associés se basent sur le constat suivant : « Très souvent, les
classes d’objets rencontrés dans le monde physique ne possèdent pas de critères d’appartenance
bien définis » (cité par NGUYEN PHUNG, 2001).
Ainsi, ce penseur a suggéré qu’au lieu de chercher à tout prix un seuil unique S décidant
l’appartenance à un ensemble dans un contexte donné, il semble plus réaliste de considérer deux
seuils S1, S2, avec une fonction d’appartenance donnant à chaque individu un degré
d’appartenance (compris entre 0 et 1) selon lequel l’individu en question appartient à une classe
donnée. En deçà de S1, l’individu appartient complètement à une classe (quand le degré
d’appartenance est maximal et égal à 1) ; au delà de S2, il n’appartient plus du tout à cette classe
(par convention, le degré d’appartenance est égal à 0). Entre S1 et S2, les degrés d’appartenance
seront intermédiaires (entre 0 et 1).
La logique floue part essentiellement de la notion de variable linguistique. Ce type de
variables sert à modéliser des connaissances imprécises ou incomplètes.
III-2-2. Le système flou
Un système flou est un processus de formulation de relations entre des entrées (inputs) et des
sorties (outputs) en utilisant les règles de la logique floue (The Mathworks, 2004). A partir de ces
relations, une décision peut être extraite ou une forme peut être découverte.
Ce processus met en relief un certain nombre d’outils, que sont : les fonctions
d’appartenance, les opérateurs logiques et les règles de type « Si – Alors ». La figure N° 1 donne
une illustration de son fonctionnement.
Fonctions d’appartenance :
-
les ensembles flous décrivent des concepts vagues ;
-
Un ensemble flou admet la possibilité d’une appartenance partielle en lui ;
- L’appartenance d’un objet à un ensemble flou est déterminée par un degré d’appartenance
compris entre 0 et 1.
- La fonction d’appartenance associée à un ensemble flou relie la valeur de l’input à sa
valeur d’appartenance appropriée ;
8
Opérateurs logiques : il s’agit d’un certain nombre d’opérations sur les ensembles
classiques et qui ont été généralisées pour être appliquées aux ensembles flous. Parmi ces
opérateurs : L’opérateur NON (complément), l’opérateur ET (intersection), l’opérateur
OU (union), L’implication floue.
Figure 1. Processus d’un système flou
Règles Si- Alors : l’interprétation de ce type de règles est un processus de quatre étapes :
Définition des entrées et des sorties ;
Fuzzification ou définition des fonctions d’appartenance des variables. Il s’agit, en
fait, d’attribuer à chaque variable des degrés d’appartenance à différents états que l’on
doit définir ;
Création des règles d’inférence : ceci consiste en une formulation de règles qui lient les
données aux actions. Ces règles sont établies pat une personne experte dans le domaine et
non pas par un programmeur.
Calcul et défuzzification : une fois les calculs faits, on obtient un schéma de résultats
qui n’est autre qu’une valeur floue. L’objectif est de transformer cette valeur floue en
grandeur réelle. Pour cela, il existe trois grandes méthodes :
-
La méthode du maximum qui correspond à l’abscisse minimum de l’ordonnée maximum
de la surface. Elle est peu utilisée.
9
-
La méthode de la moyenne pondérée ;
- La méthode des centroides est la meilleure. Elle consiste tout simplement à calculer les
centres de gravité des surfaces.
De plus, il existe deux types de système d’inférence que l’on peut utiliser selon le besoin. La
méthode MAMDANI est la plus connue et qui présente les caractéristiques suivantes :
- Elle est intuitive ;
- Elle largement utilisée ;
- Elle simule le raisonnement humain ;
Par ailleurs, la méthode dite Sugeno, introduite pour la première fois en 1985, présente,
quant à elle, les avantages suivants :
- Très efficace du point de vue de calcul ;
- Elle fonctionne bien avec les techniques linéaires, l’optimisation et les techniques dites
adaptives ;
- Enfin, elle privilégie l’analyse mathématique ;
Concernant les domaines d’application de la logique floue en assurance,on peut citer
l’évaluation d’actifs et de crédit, l’évaluation du risque, la souscription des contrats d’assurance,
les recherches commerciales, la segmentation, etc. des models de l’assurance floue ( fuzzy
insurance) sont largement conçus et exploités pour répondre à ces attentes ( Lemaire, 1990)..
III-3. Les Algorithmes Génétiques
Holland fut le premier qui a proposé les Algorithmes Génétiques (AGs) dans les années 70.
Ces derniers sont des algorithmes d’optimisation stochastique fondés sur les mécanismes de
l’évolution génétique des espèces, plus précisément, du principe de sélection naturelle.
III-3-1. Présentation des Algorithmes Génétiques
Les AGs travaillent sur une population de points au lieu d’un point unique. Contrairement
aux autres méthodes, Ils utilisent un codage des paramètres et non les paramètres eux mêmes. De
plus, les AGs ne prennent en considération que les valeurs de la fonction étudiée, pas sa dérivée,
ou une autre connaissance auxiliaire (Cordon et al, 2004).
Lors de leur fonctionnement, ils utilisent des règles de transition probabilistes (en situation
de croisement ou de mutation par exemple) et non déterministe.
Un AG manipule une population de taille constante N. Cette population se compose
d’individus, chacun représente le codage d’une solution potentielle au problème posé, donnée
10
sous la forme d’une chaîne de caractères. Chaque chaîne de caractères correspond à un
Chromosome (individu / séquence). Chaque caractère à un gène et chaque lettre de l’alphabet à
un allèle. Le locus est la position d’un gène au sein d’un chromosome. Reste la fonction
sélective, qui permet d’associer une valeur à chaque individu de la population. Cette fonction est
souvent une transformation de la fonction objective à optimiser (appelée fonction de fitness).
Par ailleurs, il existe trois principaux types de codage : binaire, gray ou réel. Le
fonctionnement d’un algorithme génétique se base sur les phases suivantes (Cordon et al, 2004) :
- Initialisation : il s’agit de générer aléatoirement une population d’individus de taille
donnée ;
- Evaluation : chaque chromosome est décodé puis évalué ;
- Sélection : utilisation d’une technique de sélection appropriée afin de créer une nouvelle
population de N chromosomes ;
- Reproduction : il s’agit, en fait, de recombiner deux individus appariés (lors de la phase
précédente) pour créer deux nouveaux individus. Il y a donc possibilité de mutation ou de
croisement au sein de la nouvelle population.
-Retour : à la phase de décodage et d’évaluation des chromosomes, jusqu’à l’arrêt du
processus.
III-3-2. Opérations génétiques classiques
Ces opérations jouent un rôle déterminant dans la réussite d’un AG. Les principaux
opérateurs sont en nombre de trois :
Opérateur de Sélection : la sélection est la première étape du fonctionnement d’un
algorithme génétique. L’objectif est de sélectionner des chromosomes en fonction de leur
valeur sélective. Les individus qui disposent d’une meilleure valeur sélective seront choisis.
Pour ce faire, il existe plusieurs méthodes pour la sélection. La roue de loterie biaisée
(Roulette Wheel) de Goldberg en est la plus connue et utilisée.
Opérateur de Croisement : la recombinaison se fait en deux étapes essentielles :
- L’appariement : consiste à choisir deux individus parmi ceux qui ont été sélectionnés pour
en créer d’autres (Cordon et al, 2004). Il y’a diverses méthodes pour ça, parmi lesquelles :
l’appariement aléatoire, la consanguinité et le croisement entre lignées ou inter fécondations
(la lignée résulte de l’appariement de deux individus proches au sens de la distance de
Hamming).
11
- Le croisement : cet opérateur combine deux individus appariés avec une probabilité Pc, qui
est classiquement, comprise entre 0.5 et 0.9 .Plus cette probabilité est élevée et plus la population
subira un changement.
Opérateur de Mutation : lors d’un processus de sélection, certaines informations
peuvent disparaître de la population. Afin d’éviter l’établissement de populations uniformes
incapables d’évoluer, l’opérateur de mutation permettra de modifier aléatoirement, avec une
probabilité donnée Pm, la valeur d’un composant de l’individu, mais il ne crée, généralement, pas
de meilleurs individus. Le choix de cette probabilité est d’une importance cruciale. En effet, Pm
dépend de la taille N de la population, et de la longueur des individus (chromosomes). Elle est
inversement proportionnelle à la probabilité de croisement ; plus elle est élevée et plus la
performance de l’AG décroît.
Actuellement, les chercheurs visent une réduction du temps de convergence de l’AG, et
l’amélioration de la qualité de la population finale.
III-3-3. Utilisation des Algorithmes Génétiques
Les AGs font l’objet de plusieurs applications dans plusieurs domaines. En finance
particulièrement, les recherches portent sur la prévision (séries temporelles, économétrie, etc.),
l’optimisation et sur la prise de décision financière en général.
En assurance, les recherches sont orientées vers la résolution des problèmes liés à la
classification (segmentation, évaluation), à l’optimisation des stratégies commerciales et de la
gestion du portefeuille et,
enfin, à la compétitivité d’un produit financer ou d’assurance
(Shapiro, 2000). Sur le plan logiciel, le module « Genetic Algorithm & Direct Search » dans sa
première version, fonctionnant sous MATLAB 7 ( The Mathworks, 2004) constitue l’un des
meilleurs instruments conviviaux , développé à des fins de résolution et d’analyse de problèmes
liés essentiellement aux algorithmes génétiques.
III-4. La théorie des ensembles approximatifs
En 1982, dans un article fondateur de la revue « International Journal of Computer and
Information Sciences », Pawlak a introduit la théorie des ensembles approximatifs (TEA). Cette
théorie vise l’analyse et la classification des données compte tenu de leur imprécision. Elle
présente l’avantage d’être indépendante de la distribution des données. Plusieurs domaines ont
réussi l’application de la TEA. Parmi eux, le domaine médical, la finance, le marketing, etc. La
TEA pourrait constitue une méthode adéquate pour la classification en assurance du fait de la
nature non paramétrique des données collectées ainsi que leur imprécision.
12
Sur le plan informatique, il existe aujourd’hui deux logiciels très conviviaux, téléchargeables sur
Internet, qui permettent, en fait, l’application de la TEA. Il s’agit des logiciels ROSE2 et
ROSETTA (Ohrn, 2001).
III-4-1. Terminologie de la TEA
La TEA présente les avantages suivants :
- le raisonnement à partir des données imprécise ou ambiguë ;
- l’utilité pour l’apprentissage automatique et l’extraction de connaissances ;
- la réduction du degré de précision en vue de définir le concept afin de mettre en relief des
relations.
Cette théorie vise à prévoir l’affectation des individus ou des objets à plusieurs ensembles afin de
gérer l’indiscernabilité.
Pour ce faire, les données collectées se présentent sous la forme d’une table d’information qui est
une matrice à deux dimensions divisées en trois sections dont chaque ligne décrit une entité. Ces
sections sont :
- Les éléments de l’univers : les individus ou les objets concernés ;
- Les conditions : reflètent les caractéristiques des éléments de l’univers à étudier ;
- Les décisions : représentent les caractéristiques que l’on cherche à expliquer, à prédire ou à
classer.
L’application de la TEA passe par plusieurs phases : discrétisation, formation des atomes,
recherche des redondances, génération des règles, classification et validation.
III-4-2. Discrétisation des données
L’application des principes des ensembles approximatifs exige que toutes les données (appelées
aussi attributs) soient sous forme discrète. Donc les données continues doivent être discrétisées
avant de commencer l’opération de génération de règles.
La discrétisation granule le domaine continu des attributs, ce qui facilite l’induction de règles
courtes et fortes. Il existe plusieurs manières de discrétiser des données continues. La première
consiste en la création des classes sur la base des connaissances de la personne. Cependant, il
n’est pas toujours facile d’établir un tel classement. La deuxième se traduit par le recours à un
certains algorithmes permettant la transformation des données continues en données discrètes.
On pourrait citer, à titre d’exemple, le logiciel ROSE2 qui dispose de trois types de
discrétisation :
13
-
locale
-
locale supervisée
-
globale
III-4-3. Formation des atomes
La TEA repose sur un concept fondamental qui est la relation d’indiscernabilité, normalement
associée à un ensemble d’attributs. Or, les ensembles indiscernables sont appelés ensembles
élémentaires. Lorsque tous les attributs sont pris en compte, les ensembles élémentaires cités ci –
dessus formés par les objets sont appelés atomes. De plus, les attributs décisionnels peuvent être
exprimés de la même façon. Ils sont appelés donc concepts.
Sur la base des atomes, on peut évaluer comment les différents individus ou objets se placent par
rapport aux concepts.
En ce qui concerne la performance de l’application, deux mesures sont connues : l’exactitude et
la fiabilité.
L’exactitude est une mesure de l’inconsistance des données. Elle est donnée par l’exactitude de
l’approximation calculée comme l’approximation inférieure sur l’approximation supérieure d’un
concept.
La deuxième mesure, qui est la fiabilité permet d’apprécier la qualité de
l’approximation des données. Cette qualité est définie comme la somme des individus ou objets
des approximations inférieures pour tous les concepts sur le nombre d’individus ou objets totaux.
III-4-4. Recherche des redondances
Il est aisé de définir les attributs redondants par le concept d’indiscernabilité. En effet, si un
ensemble d’attributs et un sous – ensemble d’attributs définissent la même relation
d’indiscernabilité, alors chaque attribut appartenant au sous –ensemble est redondant.
III-4-5. Génération de règles
Les règles générées sont de type « Si –Alors » sur la base des atomes et concepts formés
précédemment. Il y a des règles certaines (induites par l’approximation inférieures) et des règles
possibles (induites par l’approximation supérieure du concept).
III-4-6. Classification
Une fois les règles formulées, la classification pourra s’effectuer. Si la méthode discrimine bien
entre les segments, la classification sera bonne et vice – versa. Dans la pratique, il existe deux
types de classification : a priori et post –hoc.
14
VI – LES APPORTS DU DATA MINING AUX PROBLEMES DE L’ASSURANCE
Depuis le début de la décennie, 1990, les applications de l’intelligence artificielle en finance
se sont multipliées. Elle concernent trois principaux domaines : la prévision, l’optimisation et la
classification. La finalité d’utilisation de ces nouvelles et de fournir une information fiable au
moment opportun et au moindre coût. En effet, la valeur d’une information est déterminé par
son utilisation, c’est-à-dire est fonction du résultat de la décision dans laquelle elle est utilisée.
De plus, certains chercheurs et praticiens insistent sur le fait que la valeur de l’information
s’accroît avec son actualité, son exhaustivité, son exactitude et sa fiabilité. Or, ce type de
méthodes pourrait parfaitement satisfaire ces conditions.
VI – 1. Prédiction
La revue de la littérature fait ressortir différentes finalités d’utilisation
de techniques
modernes par opposition aux méthodes statistiques traditionnelles. Les outils intelligents
représentent une source importante de solutions pour des problèmes variés, qui touchent
essentiellement à des aspects stratégiques de la vie de l’organisation.
Les réseaux de neurones ont été utilisés à des fins de prévision en exploitants le passé d’une
variable en vue d’extraire des relations permettant de prédire sa valeur future. En outre, les
réseaux de neurones sont capables de découvrir la forme de ces relations (linéaire, non linéaire).
Ainsi, les réseaux de neurones ont été utilisés pour prévoir la volatilité des indices boursiers, le
taux de change, le taux d’inflation dans une économie donnée (Paquet, 1997).
En assurance, le réseau de neurones peut être appliqué pour détecter les mauvais risques. Ces
derniers vont être transférés (cédés) par la suite au(x) réassureur(s), ou à un plan de répartition
des risques (PRR). Pour ce faire, l’assureur peut construire un réseau neuronal afin d’évaluer la
prime pure qui correspond, en réalité, à l’espérance mathématique des indemnités associées à un
risque particulier. En cas de cession, la différence entre cette prime (issue de réseau neuronal) et
la prime cédée à la réassurance constitue un profit projeté pour l’assureur. De plus, pour chaque
risque cédé le profit effectivement réalisé représente la différence entre les indemnités payées et
le volume des primes transférés au réassureur. Or, les expériences étrangères montrent que cette
opération génère des gains considérables permettant à l’assureur d’améliorer son niveau de
solvabilité à travers le transfert des risques indésirables.
Concernant, le rating des compagnies d’assurances, la prédiction de la solvabilité est
importante pour l’autorité de contrôle et / ou de régulation du marché. Le but étant d’assurer une
meilleure protection pour les assurés. A ce sujet, les réseaux neuronaux ont pris un essor
15
extraordinaire dans ce domaine contrairement aux méthodes statistiques traditionnelles (analyse
discriminante, régression logistique et arbre de décision style ID3 ou CART) car ils sont
évolutifs et muables. Comme ils concernent les branches de l’assurance : non vie et vie.
Par exemple, un réseau neuronal utilisant la rétro- propagation a été construit dans le but de
mettre en place un système d’alerte (warning system) pour prévoir l’insolvabilité des assureurs
deux ans avant la ruine. Les résultats de ce réseau démontrent qu’il est plus performant que
l’analyse discriminante. Celle –ci est utilisée par un organisme privé de natation des assureurs, et
l’autorité de régulation du marché aux Etats Unis.
Des chercheurs se sont penchés sur l’optimisation des paramètres du réseau neuronal en
introduisant un algorithme génétique dedans. Les résultats étaient encore une fois plus
performants que celles produits par les méthodes classiques telles que les K- plus proches ainsi
que la régression logistique. Notons que les données statistiques ont été fournies par l’autorité de
régulation des systèmes d’information des assureurs en Corée du Sud (Graham & Huang, 1996).
Quant à l’assurance vie, les assureurs s’intéressent aux taux de mortalité et de morbidité. Le
réseau neuronal a été également exploité pour traiter les statistiques liées à la cure intensive, aux
caries dentaires et aux complications hospitalières (Shapiro, 2000).
Quant aux algorithmes génétiques, ce domaine (la prévision) constitue une voie de recherche
à grand potentiel. Les AGs peuvent rechercher une forme fonctionnelle, des valeurs des
coefficients de régression etc. La prévision du taux de change en est l’exemple.
Selon (Cordon et al, 2004), les AGs ont été adaptés aux problèmes de séries temporelles
(type de modélisation, valeur des coefficients etc.). On peut rajouter une piste de recherche, qui
est proche du Data mining. Celle-ci consiste à prévoir des événements rares. La prévision de tels
événements est très importante pour certaines activités de banque et d’assurance, par exemple :
carte de crédit en utilisant un historique d’achats, comportements inhabituels sur un marché
financier, les comportements frauduleux en assurance etc.).
Enfin, la logique floue a permis la prévision de différents phénomènes à travers ce qu’on
appelle variable linguistique. Elle reste l’instrument privilégié quand il s’agira de données
imprécises ou incomplètes.
Selon (Shapiro, 2000), la logique floue répond aux besoins de la modélisation, par les
spécialistes de la finance, dans les domaines suivants : l’évaluation des taux, le calcul actuariel,
la souscription et l’élaboration de stratégies d’investissements. Combiner plusieurs approches est
16
très bénéfique et recommandé et peut aboutir à des résultats satisfaisants ou meilleurs (Von
Altrock, 2002).
Concrètement, Young (1997) montre comment peut- on utiliser la logique floue pour prendre
des décisions concernant
l’évaluation d’actifs dans un groupe d’assurance maladie en
introduisant des données dites auxiliaires telles que les donnés marketing ou celles des
concurrents en plus de l’expérience statistique du groupe. L’analyse débauche sur un modèle
compétitif du changement de taux. Ce modèle emploie des contraintes floues en vue d’ajuster
les taux existants. Trois règles de type linguistique ont été générées comme suit :
•
SI (Sinistres / Primes) élevé ET volume d’affaires est gros ALORS « Augmenter les taux » ;
•
SI (Sinistres / Primes) modéré ET volume d’affaires est modéré ALORS « ne pas changer les
taux » ;
•
SI (Sinistres / Primes) faible ET volume d’affaires est petit ALORS « diminuer les taux » ;
Les systèmes hybrides quant à eux, connaissent une évolution à mesure que la performance de
l’apprentissage automatique a augmenté.
VI – 2. Optimisation
Les AGs sont, généralement, connus pour leur puissance en matière d’optimisation. Ils ont
été exploités pour identifier les réseaux de neurones qui présentent une meilleure performance.
Cela consiste à évaluer le nombre de neurones que comprend la couche cachée d’un réseau
neuronal jugé performant. Plusieurs études ont traité cette question (Montagno et al, 2002).
Cordon et al. (2004) citent trois principaux succès des AGs dans le domaine de
l’optimisation :
•
Dans le cadre du management passif, les AGs contribuent largement à l’identification de
meilleurs portefeuilles (composés d’actions, d’obligations etc.), ou à choisir un
portefeuille optimal.
•
Les AGs cherchent des règles optimales de prévision (sous forme : Si - Alors), afin de
prévoir les performances futures d’un portefeuille donné. Autrement dit, l’algorithme
génétique, à partir de l’évolution passée d’une valeur mobilière, pourrait prédire
l’évolution future de son cours. En outre, les chercheurs recommandent l’utilisation de
modèles mixtes qui améliorent nettement l’ensemble des résultats (utilisation d’un réseau
de neurones avec un algorithme génétique d’optimisation, ou un système neuro-flou).
17
•
Enfin, la découverte de règles optimale d’échanges (Trading Rules), peut être réalisée par
les AGs, sur les marchés d’actions et des changes (Pavlidis et al, 2002). Selon ces
auteurs, les AGs ont donné des résultats prometteurs. En conséquence, les stratégies
d’échanges élaborées ont généré un gain satisfaisant.
A titre d’exemple, on pourrait implanter un algorithme génétique afin de bâtir la frontière
efficiente d’un portefeuille (ensemble de portefeuilles avec des combinaisons optimales de risque
et de rentabilité). Les données sous-jacentes consistent en 250 scénarii de rentabilité pour 8
classes d’actifs. Cet algorithme a donné de bons résultats (après 50 itérations) par rapport à un
optimizer non linéaire sophistiqué.
Par ailleurs, un autre AG a été conçu dans le cadre d’une simulation de type Monte Carlo pour
évaluer le triplet : profitabilité – risque – compétitivité des produits d’assurances (Shapiro,
2000). Son exécution visait la recherche d’une allocation optimale permettant de tenir compte de
ces trois variables. L’objectif serait de mieux positionner ces produits- là.
VI – 3. Segmentation
La segmentation représente un des plus importants domaines d’application de l’intelligence
artificielle en finance. Elle concerne les risques, la clientèle, les entreprises etc.
L’objectif est d’évaluer, élaborer un tarif ou encore segmenter une clientèle ou un marché
donné. Les réseaux de neurones ont répondu à ce besoin naissant. Les banques, assurances et
différents établissements financiers les ont utilisé pour élaborer des politiques et tracer des plans
d’actions. Parmi les domaines concernés : la souscription des contrats d’assurances, évaluation
du risque crédit particulier et crédit entreprises, la valorisation des placements financiers et la
détection de comportements frauduleux à propos des déclarations des risques et des sinistres. La
finance comportementale, quant à elle, a bénéficié de ces avancées. La confrontation des
résultats des modèles d’évaluation d’actifs avec ceux générés par des réseaux neuronaux a
permis de tirer des remarques concluantes (Paquet, 1997).
Les données utilisées sont généralement, des batteries de ratios financiers, ou des
caractéristiques descriptives d’un échantillon (ou population) donné.
Dans le but d’éviter ou de minimiser les risques d’insolvabilité, les réseaux neuronaux
améliorent nettement le classement des entreprises par rapport aux techniques statistiques
traditionnelles. A leur tour, les AGs ont donné des résultats très remarquables dans ce domaine.
Une étude qui a porté sur les risques de banqueroute, élaborée par Varreto (1998), illustre
18
clairement l’efficacité des AGs par rapport à l’analyse discriminante linéaire. Bien que concluant
sur une relative supériorité de la méthode traditionnelle, l’auteur rappelle le caractère rapide et
moins contraignant que revêtent les AGs dans l’obtention des résultats.
Enfin, la classification offre un terrain d’expérimentation très intéressant au concept des
ensembles flous. La classification floue est née essentiellement suite aux différents problèmes
rencontrés au sujet de la segmentation. Les méthodes traditionnelles ont prouvé leurs limites. Ces
limites sont au nombre de deux :
•
La nature des données recueillies en fonction de la complexité du comportement du
consommateur (préférences, attitudes etc.).
•
La structure du marché, puisque il n’est pas simple de cerner avec clarté les frontières des
classes d’individus.
L’approche par la logique floue avance le concept du degré d’appartenance, qui détermine
la force avec laquelle un individu appartient aux différentes classes. En ce cas, ces classes
peuvent être considérées comme des sous-ensembles flous.
Les techniques floues fournissent une matrice des degrés d’appartenance de chaque individu
à chaque classe. Parmi ces techniques, l’algorithme C- Moyennes floues, K- plus proches voisins
flous. Ces techniques aident le manager à segmenter un marché, une clientèle donnée selon ses
caractéristiques socio- démographiques, un ensemble de prestations de services, produits etc.
Dans ce contexte, le data mining peut faire apparaître des opportunités inexploitées sur le
marché des assurances. Une compagnie d’assurances irlandaise a découvert un segment étonnant
de ses clients : les hommes jeunes disposant de voitures très chères, mais présentant un risque
minimal. La clef du mystère : des propriétaires de voitures de collection, qui sortent rarement et
les réparent eux- mêmes. La compagnie a créé un contrat spécial, qui a généré 70% de retour sur
investissement en 6 mois.
Enfin, les ensembles approximatifs enregistrent des performances incomparables en matière
de détection de mauvais risques, de clients douteux et surtout de défaillance d’entreprise. Ceci
dit, cette technique est déjà largement utilisée pour augmenter les compétences de diagnostic et
de conseil des collaborateurs en relation avec la clientèle, ainsi que pour tenir compte de la
nature non structurée de la décision, de l’incomplétude des données et leur imprécision.
19
V- CONCLUSION
Au vu de cette communication, il apparaît que le data mining s’appuie sur le constat qu’il
existe des connaissances latentes dans les gisements d’informations au sein des entreprises
d’assurances. Il donne reflète ce que les américains appellent la « million dollars décision ». En
d’autres termes, la décision que prendra un manager grâce à une information cachée parmi des
millions de données que possède la compagnie d’assurances. Ainsi, le data mining offre des
perspectives nouvelles pour la statistique assurancielle. Les outils intelligents (réseaux
neuronaux, la logique floue, algorithmes génétiques et ensembles approximatifs), revêtent de
plus en plus, une importance cruciale en finance et en assurance en particulier.
L’apport considérable de ces techniques est varié. Il touche essentiellement à la prévision, à
l’optimisation ou encore à la classification.
Ainsi, la mise en place et en œuvre de systèmes intelligents permet d’instaurer une volonté
continue d’actualiser les données économiques et financières, d’inciter les opérateurs à collecter
mieux les informations et les bien classer. Ce processus de traitement de l’information disponible
sur différents supports est déterminant pour une prise de décision correcte et adéquate.
Ainsi, les administrations (ex : autorité de contrôle) comme les compagnies d’assurances
sont appelées, de plus en plus, à adopter des techniques en vue d’améliorer la performance de
leurs systèmes d’information. Ceci pourrait conduire à réduire l’incertitude, à maîtriser les
risques et à la bonne exécution des stratégies.
Enfin, parmi les pistes de recherche actuelles et futures, on peut citer l’utilisation des
ensembles approximatifs basés sur la relation de dominance, les systèmes d’induction de type
« machine learning » (Kasabov et al, 2003) et les algorithmes génétiques (évolutionnistes) multiobjectifs (Bonissone, 2005).
20
BIBLIOGRAPHIE
BOLGOT S., MEYFREDI J. C. (1999). Réseaux de neurones, lissage de la fonction d’actualisation et prévision des
OAT démembrées : une étude empirique, document GREQAM, Université de la Méditerranée, France.
BONISONNE P. (2005). Developpment and maintenance of fuzzy models in financial applications. “ Téléchargé”.
COLLINS J. M., CLARK M. R.(1993). An application of the theory of neural computation to the prediction of
workplace behaviour : an illustration and assessment of network analysis, Personnel Psychology, 46 : 503- 524.
CORDON O., GOMIDE F., HERRERA F., HOFFMAN and MAGDALENA L. 2004. Ten Years of Genetic Fuzzy
Systems: Current framework and News Trends. Fuzzy Sets and Systems, 141: 5-31.
DEMUTH H., BEALE M. (2001). Neural Network Toolbox : for use with MATLAB, version 4, The Mathworks.
GRAHAM J. W., HUANG Z.(1996). A case study in knowledge acquisition for insurance risk assessment using a
KDD methodology. PKAW96. The Pacific Rim Knowledge Acquisition workshop. Sydney, Australia, october.
KASABOV N., DENG D., ERZEGOVEZI L., FEDRIZZI M., BEBER A. (2003). Hybrid Intelligent Decision
Support Systems for Risk Analysis and Prediction of Evolving Economic Clusters in Europe, working paper,
University of Otago, New Zealand.
LEMAIRE J. (1990). Fuzzy Insurance, ASTIN Bulletin, vol. 20, N° 1. pp. 33-55.
LESAGE C. (2001). Evaluation du Risque d’Audit : proposition d’un modèle linguistique, Cahier de Recherche
CEREG , N° 9713, Université Dauphine.
MANFRED M. (1995). L’Organisation Apprenante Comme Système de Transformation de la Connaissance en
Valeur. Revue Française de Gestion. Sep.- Oct. N°105 : 43- 49.
MONTAGNO R., SEXTON R. S., SMITH B. N. (2002). Using neural networks for identifying organizational
improvment strategies, www. faculty.smsu.edu /r /rss000f.
NGUYEN PHUONG T.(2001). Segmentation des Marchés et Approche Neuro-Floue. Workshop Marketing &
Gestion, mars 8th, CREREG, university of Rennes I, France.
OHRN A. and KOMOROWSKI J. (2001). ROSETTA: A Rough Set Toolkit for Analysis of Data,
http://www.idi.ntnu.no/~aleks/rosetta/
PAQUET P. (1997). L’utilisation des réseaux de neurones artificiels en finance, document de recherche N° 1-1997.
Laboratoire Orléanais de Gestion.
PAVLIDIS N. G., TASOULIS D. K., VRAHATIS M. N. (2002). Financial forecasting through unsupervised
clustering and evolutionary trained neural networks, working paper, Department of Mathematics, University of
Patras, Greece.
PAWLAK Z. (1982). Rough Sets. International Journal of Computer and Information Sciences. Vol 11. pp. 341356.
SHAPIRO A. F. (2000). Self Computing Applications in Actuarial Science, working paper, Penn State University.
The Mathworks, (2001). Fuzzy Logic Toolbox: for Use with MATLAB, User’s Guide.
VARETTO F. (1998). Genetic algorithms applications in the analysis of insolvency risk. Journal of Banking and
Finance, 22: 1421-1439.
VON ALTROCK C., (2002), Applying Fuzzy Logic to Business and Finance, OPTIMUS. N° 2 : 38-39.
YOUNG V. R. (1997). Ajusting indicated insurance rates: fuzzy rules that consider both experience and auxiliary
data. Proceedings of Casualty Actuarial Society, 84, 734- 765.
21

Documents pareils