RAPPORT DE PROJET DATA MINING

Transcription

RAPPORT DE PROJET DATA MINING
DEA 127 : INFORMATIQUE
SYSTEMES INTELLIGENTS
RAPPORT DE PROJET
DATA MINING
« Analyse des endettements par niveau de
développement des pays »
Réalisé par :
Sous la direction de :
BELEM MAHAMADOU
M. EDWIN DIDAY
TABLE DES MATIERES
INTRODUCTION ............................................................................................................................... 3
II ETAT DE L’ART DU DATA MINING ............................................................................... 4
II.1
II.2
II.3
II.4
LES ENJEUX DE DATA MINING .................................................................................... 4
DOMAINES D’APPLICATION ........................................................................................... 4
LES LOGICIELS DE DATA MINING .............................................................................. 5
LE LOGICIEL SODAS ........................................................................................................... 5
II ETUDE CONCEPTUELLE ................................................................................................... 6
III.1 LES INDIVIDUS ET LES CONCEPTS.............................................................................. 6
III.2
LES VARIABLES .................................................................................................................... 6
III.3 LA STRUCTURE DE LA BASE DE DONNEES ............................................................ 7
III.4 LES REQUETES ...................................................................................................................... 9
II.5
IMPORTATION DES DONNEES .................................................................................... 11
IV
APPLICATION DES METHODES DE SODAS ................................................. 14
IV.1 LA METHODE SOE ............................................................................................................. 14
IV.2
LA METHODE PCM ........................................................................................................... 19
IV.3
LA METHODE PYR ............................................................................................................ 21
IV.4 LA METHODE DIV ............................................................................................................. 23
IV.5 LA METHODE TREE .......................................................................................................... 25
IV.6 LA METHODE STAT ........................................................................................................... 27
IV.7 LA METHODE SCLUST ...................................................................................................... 29
CONCLUSION……………………………………………………………………………….30
Projet Data Minin-2004/2005-DEA127
2
INTRODUCTION
De no jours, le monde de l’entreprise est caractérisé par une concurrence de plus en plus accrue.
Cette intensification de la concurrence oblige les entreprises à renforcer leur marketing à travers
une analyse détaillée des besoins des clients pour aboutir à de nouvelles connaissances. Ce qui
dénote quelque part la conservation des masses de données importantes sur les profils et les
achats des clients.
Ainsi, des systèmes opérationnels qui ont permis l’automatisation des traitements de masse, les
entreprises se tournent de plus en plus vers des systèmes décisionnels qui ont une valeur ajoutée
concurrentielle réelle. C’est face à ce besoin croissant que le data mining fit son apparition.
Ce présent projet a pour objectif de nous faire mieux connaître le data mining et son utilité à
travers une application sur le logiciel SODAS.
Dans notre document, nous parlerons premièrement de l’état de l’art du data mining, en seconde
partie nous présenterons notre sujet d’étude et en troisième partie, nous présenterons les
différentes méthodes de SODAS appliquées sur notre base, les résultats obtenus et leurs
interprétations.
Projet Data Minin-2004/2005-DEA127
3
II ETAT DE L’ART DU DATA MINING
II.1
LES ENJEUX DE DATA MINING
De nos jours, le monde des entreprises drainent des quantités énormes d’informations pouvant
atteindre des milliards d’informations par jour. Plus la quantité d’informations collectées devient
importante, leur exploitation devient très complexe. Si l’esprit humain est disposé à analyser des
donner de petites quantités et d’en tirer des connaissances, il lui par contre impossible d’analyser
simultanément des plusieurs millions de données produites par des systèmes opérationnels qui ne
permettent aucune décision stratégique. Pourtant les entreprises ont besoin d’exploiter ces
données pour mener à bien leurs activités.
Avec la concurrence grandissante, les entreprises savent que la maîtrise de l’information est un
élément incontournable pour face à cette nouvelle donne. Ce qui nécessite des outils performants
ayant une valeur ajoutée concurrentielle et permettant une exploitation stratégique des données.
C’est face à ses différentes exigences du monde de l’entreprise que les outils comme le data
mining ont fait apparition. Et furent rapidement adoptés car répondant au mieux aux attentes des
décideurs. Il s’agît à partir des données détaillées, d’effectuer un résumé, à l’aide des concepts
sous-jacents afin de mieux les appréhender.
II.2
DOMAINES D’APPLICATION
Les domaines d’application de Data Mining sont très variés. Parmi ces domaines d’application,
nous avons :
1.
2.
3.
4.
5.
6.
7.
8.
9.
Le laboratoires pharmaceutiques
Les banques
L’assurance
L’aéronautique, automobile et industries
transport
Télécommunication
Gestion d’eau
Energie
etc
Projet Data Minin-2004/2005-DEA127
4
II.3
LES LOGICIELS DE DATA MINING
Il existe de nous jours plusieurs logiciels de data mining dont :
1. Intelligent Miner d’IBM permettant de faire la segmentation, la discrimination, la
prédiction, les associations et les séries chronologiques.
2. Clementine de SPSS
3. SAS entrepise Miner de SAS
4. TeraMiner de NCR pour la prédiction, la discrimination, la factorisation, la typologie.
5. KXEN components de KXEN
6. SPAD, du CISIA
7. Smart Miner, de Grimmer Soft, etc.
II.4
LE LOGICIEL SODAS
Le logiciel SODAS est un logiciel lire issu du projet EUROSTAT et destiné à l’analyse des
données symboliques.
Son idée générale est la suivante : à partir d’une base de données, construire un tableau de
données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des
concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des
connaissances par des méthodes d’analyse de données symboliques.
Une analyse de données dans SODAS se réalise selon les étapes suivantes :
1. Partir d’une base de données relationnelle ;
2. Définir un contexte par des unités statistiques de premier niveau liées à un concept et des
variables décrivant ces unités. Ce contexte est ainsi défini par une requête à la base ;
3. on construit un tableau de données symboliques dont les nouvelles unités sont des
concepts décrits par généralisation des propriétés des unités statistiques de premier niveau
qui leur sont associés.
4. un fichier d’objets symboliques est créé sur lequel on peut appliquer les différentes
méthodes d’analyse de données symboliques.
Projet Data Minin-2004/2005-DEA127
5
II
ETUDE CONCEPTUELLE
Le but de notre étude est d’analyser les endettements des pays liés à leur niveau de
développement. Ainsi cette analyse permettra de comparer le niveau d’endettement des pays
ayant le même niveau de développement et d’observer les caractéristiques liées à chaque groupe.
III.1
LES INDIVIDUS ET LES CONCEPTS
La base de données de notre projet comporte des données sur 156 pays, extraites à partir des
indicateurs de la Banque Mondiale et les rapports des Nations Unies, pour l’année 2001. Il faut
noter que notre base de données a déjà fait l’objet d’une étude qui s’est intéressée aux niveaux de
richesse des pays recensés. Contrairement à cette étude, notre analyse portera sur les
endettements des pays liés à leur niveau de développement.
Ainsi, à travers notre base de données nous avons dégagé 12 concepts qui sont les suivants :
1. Pays développé endettement Elevé
2. Pays développé endettement faible
3. Pays développé endettement hors classement
4. Pays développé endettement modéré
5. Pays émergent endettement élevé
6. Pays émergent endettement faible
7. Pays émergent endettement hors classement
8. Pays émergent endettement modéré
9. Pays émergent endettement élevé
10. Pays en voie de développement endettement faible
11. Pays en voie de développement endettement hors classement
12. Pays en voie de développement endettement modéré
13. Pays en voie de développement endettement élevé
Comme individus, nous avons les 156 pays de notre base de données.
III.2
LES VARIABLES
Elles sont de deux sortes :
1. les variables qualitatives

le niveau de richesse économique
Projet Data Minin-2004/2005-DEA127
6

le niveau de développement associé au niveau d’endettement

le continent

le niveau d’alphabétisation
2. les variables quantitatives
III.3

le produit national brut par habitant (PNB /habitant, en USD)

le taux d’inflation (en pourcentage)

le taux de croissance de la population (en pourcentage)

le montant des investissements directs étrangers (en pourcentage)

le taux d’exportation par rapport par rapport au PNB (en pourcentage)

le taux d’importation par rapport par rapport au PNB (en pourcentage)
LA STRUCTURE DE LA BASE DE DONNEES
La base de données est constituée des tables suivantes :
1. Pays : La table décrit les différents pays de notre étude. Elle comporte des données aussi
bien qualitatives que quantitatives concernant chacun de ses pays
2. Richesse : décrit les différents niveaux de richesse
3. Développement : décrit les différents niveaux de développement
4. Endettement : décrit les différents niveaux d’endettement
5. Continent : liste des différents continents
6. Analphabétisme : liste des niveaux d’analphabétisme.
Pour donner une meilleure présentation de notre base de données nous allons décrire les attributs
des différentes tables.
Table Pays
Désignation
Description
Type
Id_Pays
Identifiant du pays
Texte
pays
Le nom du pays
Texte
Id_richesse
L’identifiant du niveau d’endettement
Texte
Id_developpement
Le niveau de développement
Texte
Id_endettement
Le niveau d’endettement
Texte
Id_continent
Le continent
Texte
PNB/Habitant
Le produit national brut par habitant
Réel
Projet Data Minin-2004/2005-DEA127
7
Exportation
Les exportations
Réel
Importation
Les importations réalisées par le pays
Réel
Investissements directs étrangers
Les investissements directs étrangers
Réel
inflation
Le taux d’inflation
Réel
Croissance population
Le taux de croissance
Réel
Tableau 1 : description de la table Pays
Table Richesse
Désignation
Description
Id_Richesse
Type
Identifiant du niveau de richesse
Texte
Niveau de richesse économique Niveau de richesse économique
Texte
Tableau 2 : Description de la table richesse
Table développement
Désignation
Description
Type
Id_Developpement
L’identifiant du niveau de développement Texte
Niveau de développement
Le niveau de développement
Texte
Tableau 3 : description de la table développement
Table Endettement
Désignation
Description
Type
Id_Endettement
Identifiant du niveau d’endettement
Texte
Niveau d’endettement
Description du niveau d’endettement
Texte
Tableau 4 : Description de la table Endettement
Table continent
Projet Data Minin-2004/2005-DEA127
8
Désignation
Description
Type
Id_Continent
L’identifiant du continent
Texte
Continent
Le nom du continent
Texte
Tableau 5 : description de la table continent
Table Analphabétisme
Désignation
Description
Type
Id_Analphabétisme
Identifiant du niveau d’analphabétisme
Texte
Niveau d’analphabétisme
Le niveau d’analphabétisme
Texte
Tableau 6 : Description de la table Analphabétisme
Le schéma relationnel de notre base de données se présente ainsi :
Figure 1 : Schéma de la base de données
III.4
LES REQUETES
DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un ensemble
d’assertions à partir de données stockées dans une base de données relationnelle. Il est supposé
Projet Data Minin-2004/2005-DEA127
9
qu’un ensemble d’individus est stocké dans une base de données et que ces individus sont
distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe
d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de
variables peuvent aussi être associées à des assertions générées.
Pour que SODAS puisse exploiter les données de notre base, il convient de préparer la structure
des tables en fonctions de convention propres aux données symboliques. Pour ce faire, nous
avons crée les requêtes suivantes :
1. Requete_Pays_Endettement
Cette première requête renvoie les individus du premier ordre et leur description. Elle permet
ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus.
Figure 2 : Construction de la requête Requete_Pays_Endettement
2. Requete_Taxo
Cette requête permettra de déterminer la taxonomie de notre base. Cette taxonomie sera
utilisée pour établir des lien entre les pays et leur continent.
Projet Data Minin-2004/2005-DEA127
10
Figure 3 : construction de la requête_taxo
3. Requête AddSingle
Comme variables de classe, nous avons choisi le niveau d’endettement.
II.5
IMPORTATION DES DONNEES
Ces requêtes nous ont donc permis de disposer les données de manières exploitables pour
DB2SO, et par de même SODAS.
Le module DB2SO est accessible via le menu SODAS file > import... > importation (DB2SO) :
Dans la fenêtre SodasDB, cliquer sur File > New puis sur Nouveau pour indiquer le type de
driver :
Projet Data Minin-2004/2005-DEA127
11
Après avoir sélectionné le driver Microsoft Access, il faut maintenant sélectionner la source de
données ODBC de votre base de données.
Une fois la source de données ODBC créée, il faut la lier à la base de données sur laquelle l’étude
s’effectuera.
Projet Data Minin-2004/2005-DEA127
12
Après avoir spécifié la base de données, on spécifie la requête d’extraction des individus.
La figure suivante vient confirmer l’extraction des individus à travers la requête spécifiée.
Ensuite, on crée la taxonomie sur la variable continent.
Projet Data Minin-2004/2005-DEA127
13
Toutes les données nécessaires étant maintenant introduites, il ne reste plus qu’à les exporter vers
SODAS pour pouvoir les exploiter.
IV
APPLICATION DES METHODES DE SODAS
IV.1
LA METHODE SOE
Notre analyse se fera en deux parties qui concerneront les pays en voie de développement et les
pays émergents. Le troisième groupe c’est à dire les pays développés ne fournit pas assez
d’informations.
1. les pays en voie de développement
On constate que les pays très endettés sont majoritairement africains (57%), américains
(19%), asiatiques (17%) et très peu de pays européens (0.02%). Par contre le nombre de pays
européens augmente considérablement parmi les pays en voie de développement faiblement
endetté (20%) avec une majorité des pays africains (38%), américains et asiatiques (24%)
On remarque que les importations sont plus élevées dans les pays en voie de développement très
endetté par contre les exportations sont moins importantes que dans les autres pays en voie de
développement.
Projet Data Minin-2004/2005-DEA127
14
L’inflation se situe entre –5,2 et 408 dans les pays en voie de développement très endettés, entre
5,1 et 185 dans les pays en voie de développement faiblement endettés et –5.0 et 59 dans les pays
en voie de développement modérément endettés.
Quant au PNB/habitant, il est entre [100, 7480] dans les pays très endettés, [20, 9250] dans les
pays faiblement endettés et [220, 3830] dans les pays ayant un endettement modéré.
Les figures suivantes appuient nos différents commentaires.
Projet Data Minin-2004/2005-DEA127
15
2. Les pays émergents
Les pays émergents très endettés sont des pays américains (100%) ayant un niveau de richesse
économique moyennement élevé. Le niveau d’importation dans ces pays reste faible (entre 2,4%
et 20,7%) par rapport aux pays émergents faiblement endettés (entre 16,3% et 75,2%). Aussi
l’exportation reste faible dans ces pays que dans les pays faiblement (entre 25,9% et 71,5%) et
modérément (entre 125,9 et 240,5%) endettés .
Les pays émergents faiblement endettés sont en majorité américains (50%), européens (25%), et
asiatiques (25%). Par contre, les pays européens (63%) sont majoritaires parmi les pays
Projet Data Minin-2004/2005-DEA127
16
modérément endettés alors que les pays asiatiques et américains représentent respectivement 25%
et 13% de ces pays.
Les figures suivantes confirment les interprétations faites.
Projet Data Minin-2004/2005-DEA127
17
A travers ces deux analyses, nous constatons que les pays européens se situent plutôt parmi les
pays faiblement endettés. Ce qui s’explique par le fait que d’une part que ces pays ont une
meilleure gestion de leur ressource et d’autre part, ils bénéficient du niveau de croissance
économique du continent européen. La grande présence des pays africains parmi les pays en voie
développement montre le retard du continent africain par rapport aux autres continents.
Projet Data Minin-2004/2005-DEA127
18
IV.2
LA METHODE PCM
La méthode PCM donne les résultats suivants :
Correlations Matrix,
initiales Variables/principals components PC1...PC4
PNB/habitant_($)
Exportations_(%_PNB)
Importations_(%_PNB)
Investissements_Directs_Etrangers_($)
Inflation
Croissance_population_(%)
0.781
0.585
0.489
0.645
-0.325
-0.019
-0.306
0.415
0.617
-0.382
0.213
-0.531
0.102
0.267
0.175
-0.161
0.629
0.721
0.067
-0.224
-0.064
0.493
0.662
-0.378
Nous constatons que le PNB, les exportations et les investissements directs étrangers sont
fortement corrélés avec l’axe PC1. L’axe PC2 explique mieux les importations et la croissance de
la population. L’axe PC3 explique mieux les investissements directs étrangers. L’inflation est
fortement corrélées à L’axe PC4.
Ainsi, nous avons choisi l’axe PC1 et l’axe PC2 pour la représentation graphique de nos résultats.
Pour faciliter la lecture des résultats, nous avons répartis les graphiques en trois parties :
1. Les pays en voie de développement
2. Les pays émergents
Projet Data Minin-2004/2005-DEA127
19
3. Les pays développés
A travers ces graphiques, nous remarquons d’une part que les groupes qui sont situés le plus à
droite sont ceux dont le PNB, le taux d’exportation et le niveau des investissements directs
étrangers sont les plus importants et d’autre part les groupes qui sont situés le plus en haut sont
ceux dont le taux d’importation et le taux de croissance de la population sont les plus élevés.
Ainsi, nous pouvons dire plus on avance vers la droite de l’axe PC1, le PNB, le taux d’exportation
et les investissement directs étrangers augmentent et inversement. Mais lorsqu’on se déplace vers
Projet Data Minin-2004/2005-DEA127
20
le haut de l’axe PC2, le taux d’importation et le taux de croissance de la population augmentent et
inversement.
IV.3
LA METHODE PYR
Le modèle d’échantillonnage pyramidal généralise les hiérarchies en permettant les classes nondisjointes à un niveau donné au lieu d’une partition. De plus, les échantillons de la pyramide sont
des intervalles. La méthode proposée permet d’échantillonner des données plus complexes que
les modèles tabulaires peuvent traiter, en considérant la variation des valeurs prises par les
variables.
Les données en entrée pour PYR sont une matrice de données symboliques ou une matrice ou
une matrice de distance. S’il s’agît de matrice de données symboliques, le résultat sera une
pyramide symbolique, dans ce cas, le critère d’agrégation sera le « degré de généralité ». S’il s’agit
de matrice de distance, le résultat sera une pyramide numérique (classique) et le critère
d’agrégation, le « Maximum ».
Dans notre cas, nous avons construit deux pyramides. La première pyramide est réalisée en
fonction des variables taux d’importation et taux d’exportation et la seconde en tenant de toutes
les variables.
Ainsi, nous constatons au niveau de la première pyramide que les pays ayant un niveau
d’endettement hors classement sont regroupés. Cela peut s’expliquer peut être par la similitude de
leur politique d’importation et d’exportation.
Nous constatons aussi que les pays ayant un endettement modéré, faible ou très élevés sont
regroupés à partir de la pyramide P39. Dans ce second groupe les pays en voie de développement
ayant un endettement faible ou modéré sont proches. De même, les pays ayant un endettement
modéré ou faible ou tendance à se regrouper. Un autre constat important, est le regroupement
des pays émergeants faiblement endettés et les pays développés moins endettés. Cela peut
s’expliquer par le fait que les pays émergents ont une politique d’exportation et d’importation un
peu similaire.
Projet Data Minin-2004/2005-DEA127
21
Projet Data Minin-2004/2005-DEA127
22
IV.4
LA METHODE DIV
La méthode d’échantillonnage DIV est une méthode d’échantillonnage hiérarchique qui regroupe
tous les objets en seul échantillon et procède par division successive de chaque échantillon formé.
A chaque étape, un échantillon est divisé en deux selon une question binaire. Cette question
binaire induit la meilleure partition en deux selon l’extension du critère d’inertie : maximiser la
variance interclasse et minimiser la variance interclasse.
L’algorithme s’arrête après k-1 divisions où K est le nombre d’échantillons donné par l’utilisateur.
Les données en entrée pour DIV sont une matrice de données classique ou une matrice de
données symboliques.
Nous avons appliqué cette méthode aux paramètres suivants : l PNB/Habitant, le niveau de
richesse et le niveau d’endettement
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=2)
!
!----4- [PNB/habitant_($) <= 3417.500000]
!
!
!
+---- Classe 5 (Nd=4)
!
!----2- [PNB/habitant_($) <= 6977.500000]
!
!
!
!
+---- Classe 3 (Ng=2)
!
!
!
!
!----3- [PNB/habitant_($) <= 11955.000000]
!
!
!
+---- Classe 4 (Nd=1)
!
!----1- [PNB/habitant_($) <= 19512.500000]
!
+---- Classe 2 (Nd=1)
L’échantillon est divisé en deux parties selon que lePNB/Habitant est supérieur à 19512 (classe
2 : il s’agît des pays les "Pays développés Endettement Hors classement") ou inférieur ou égal à
19512.
La classe ayant un PNB/habitant inférieur ou égal à 19512 se divise en deux en fonction que le
PNB/habitant est inférieur ou égal à 6977,500 ou pas.
Projet Data Minin-2004/2005-DEA127
23
Les deux nouvelles classes vont à leur tour se diviser en deux. Ainsi, l’échantillon ayant un
PNB/habitant supérieur à 6977,500 se divise en deux selon que le PNB/Habitant est supérieur à
11955 (classe 4 : les pays "Pays en voie de développement Endettement Hors classement" ) ou
inférieur ou égal à 11955 (il s’agît de la classe 3 comportant les "Pays émergent Endettement
Hors classement", les "Pays émergent Endettement
les
"Pays
développés
développés Endettement
Endettement
Hors classement",
Faible"
et
les
"Pays
Hors classement" ).
Quant au dernier échantillon, c’est à dire ceux qui ont un PNB/Habitant inférieur ou égal à
6977,500 se divise en deux selon que le PNB/habitant est supérieur à 3417,500 (classe 5 ) ou
inférieur ou égal à 3417,500 (classe 1 comportant les "Pays en voie de développement
Endettement Modéré" "Pays émergent Endettement Faible" ).
On constate que les pays développés ayant un niveau d’endettement hors classement, ont le
PNB/Habitant le plus important
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=3)
!
!----2- [Niveau_d'endettement <= Faible]
!
!
!
!
+---- Classe 3 (Ng=2)
!
!
!
!
!----3- [Niveau_d'endettement <= Elevé]
!
!
!
+---- Classe 4 (Nd=2)
!
!----1- [Niveau_de_Richesse_économique <= Moyennement élevée]
!
!
+---- Classe 2 (Ng=2)
!
!
!----4- [Niveau_de_Richesse_économique <= Elevé - Membres de l'OCDE]
!
+---- Classe 5 (Nd=1)
Projet Data Minin-2004/2005-DEA127
24
IV.5
LA METHODE TREE
Pour la réalisation de cette méthode, nous avons choisi comme variable de classe le niveau
d’endettement et comme variables prédictives, le PN/Habitant, le taux d’inflation, le taux de
croissance et l’importation.
Le listing suivant représente le résultat de la méthode :
==================================
| EDITION OF DECISION TREE
|
==================================
PARAMETERS :
Learning Set
:
10
Number of variables :
4
Max. number of nodes:
7
Soft Assign
: ( 1 ) FUZZY
Criterion coding
: ( 3 ) LOG-LIKELIHOOD
Min. number of object by node
:
5
Min. size of no-majority classes :
2
Min. size of descendant nodes
:
1.00
Frequency of test set
:
0.00
+ --- IF ASSERTION IS TRUE (up)
!
--- x [ ASSERTION ]
!
+ --- IF ASSERTION IS FALSE (down)
+----
[ 8 ]Modéré
(
1.28
0.00
1.07
2.00 )
!
!----4[ PNB/habitant_($) <= 4710.000000]
!
!
!
+---- [ 9 ]Elevé (
0.51
0.00
0.93
0.00
)
!
!----2[ PNB/habitant_($) <= 7480.000000]
!
!
!
+---- [ 5 ]Faible (
1.19
0.14
!
!----1[ PNB/habitant_($) <= 9120.000000]
!
+---- [ 3 ]Hors classement (
0.01
2.86
0.00
0.00
0.00 )
0.00
)
A travers l’analyse des résultats obtenus, il s’en sort que le PNB/Habitant est la variable la plus
explicative.
Projet Data Minin-2004/2005-DEA127
25
On constate aussi que les pays ayant un PNB/Habitant supérieur à 9120 ont un niveau
d’endettement hors classement. Les pays ayant un PNB/Habitant inférieur ou égal à 9120, se
divisent premièrement en deux groupes :
1. Ceux dont le PNB/Habitant est supérieur à 7480, ont un niveau d’endettement faible ;
2. Ceux dont le PNB/Habitant est inférieur ou égal à 7480, on constate à ce niveau deux
autres groupes : les pays ayant un PNB/Habitant supérieur à 4710, ont un endettement
élevé et les autres ont un endettement modéré
Projet Data Minin-2004/2005-DEA127
26
IV.6
LA METHODE STAT
La méthode STAT de SODAS nous permet d’utiliser des statistiques classiques étendues aux
variables symboliques. STAT est donc un ensemble de méthodes permettant de voir sous forme
de document texte ou de graphe les statistiques élémentaires relatives à nos données symboliques.
Nous avons appliqué la méthode STAT sur les variables exportation et importation.
.
Projet Data Minin-2004/2005-DEA127
27
Biplots pour les variables d’intervalles :
On constate que les plus gros importateurs et exportateurs sont des pays développés à
endettement hors classement. Les pays développés faiblement endettés viennent en seconde
position sur le plan exportation mais importent moins que la plus part des pays en voie de
développement et émergeants. Les plus petits exportateurs et importateurs sont des pays
émergeants très endettés.
Projet Data Minin-2004/2005-DEA127
28
On constate également que les pays en voie de développement en tendance à se regrouper ainsi
que les pays émergeants.
Les pays développés en endettement hors classement importent entre 8,44 et 161,145. les plus
grands importateurs sont parmi ces pays. Par contre les pays émergeants ayant un endettement
élevé importent entre 12,42 et 20,71 et constituent par conséquent des faibles importateurs
IV.7
LA METHODE SCLUST
On constate à partir de graphique que la classe Prototyp5 comporte uniquement les pays avec un
niveau endettement hors classement et un niveau de richesse OCDE. Par contre la classe
Prototype 1 comportement essentiellement les pays en voie de développement faiblement ou très
endettés.
Projet Data Minin-2004/2005-DEA127
29
CONCLUSION
A travers ce projet, nous avons pu en effet consolider les connaissances acquises et d’enrichir
notre expérience en matière d’analyse. A travers le sujet choisi « développement des pays », on
constate que le date mining peut être appliqué dans tous les domaines et s’avère utile pour tous
les décideurs.
Néanmoins, cet projet ne s’est pas terminé sans difficulté. La base de donnée ayant fait l’objet
d’autre projet, malgré notre volonté de faire une étude totalement différente de la première, la
limitation des données nous faisait énormément dans le choix des variables lors de l’application
des méthodes. Ce qui a entraîné un certain retard dans la réalisation de ce projet.
Projet Data Minin-2004/2005-DEA127
30