sujet

Transcription

sujet
Projet tutoré
STID 1
Données socio-économiques des nations
(fichier World Development Indicators)
A rendre : un document de reporting (.pdf) contenant les commentaires, résultats demandés, ainsi que
le(s) script(s) R et les fichiers de données (.txt) qu'il utilise.
On a récupéré des fichiers diffusés par la World Bank (http://data.worldbank.org/data-catalog/worlddevelopment-indicators), contenant les valeurs d'un certain nombre d'indicateurs socio-économiques de
nations, sur un grand nombre d'années (1960 à 2007).
Remarque : ces données ne sont pas en accès libre.
WDI.zip
Contient l'ensemble des données récupérées, au format tableur Excel (.xls).
Mission 1 : traitement des données : la création du cube de données
Note : cette mission sera notée sur 10 points. Lorsque le résultat sera livré, la suite vous sera transmise.
Le total de l'ensemble des missions sera de 20 points.
 L’objectif est de créer un fichier dont le format permette l'exploitation rapide et multi-critères de ces
données sur un logiciel spécialisé (pour nous, le logiciel R).
Le format final sera celui dit de "cube" ou "hypercube" de données. Ce fichier aura l'allure suivante :
étant donné un des fichiers fournis au format tableur (par exemple "migration et reversements.xls"), le
cube obtenu sera nommé "migration et reversements.txt" et aura la structure suivante :
Afghanistan
Afghanistan
Afghanistan
Exports of goods and services (% of GDP)
Exports of goods and services (% of GDP)
Exports of goods and services (% of GDP)
1960
1961
1962
4.13223314285278
4.45344352722168
4.87805080413818
...
Afghanistan
Imports of goods and services (% of GDP)
Afghanistan
Imports of goods and services (% of GDP)
Albania Exports of goods and services (% of GDP)
1980
Albania Exports of goods and services (% of GDP)
1981
2004
55.7109909057617
2005
55.6565818786621
23.1155872344971
22.9826431274414
...
Finland
Finland
France
France
Imports of goods and services (% of GDP)
Imports of goods and services (% of GDP)
Exports of goods and services (% of GDP)
Exports of goods and services (% of GDP)
2006
2007
1960
1961
40.2266502380371
40.1456718444824
14.3962821960449
13.9191856384277
... etc ...
où les espaces correspondent chaque fois à une tabulation.
Lez format de chaque ligne est donc à 4 colonnes :
Pays
Variable
séparées par des tabulations
Annee
Valeur
Ce format permet l'extraction de strates suivant tous critères (nation, variable, année)
Comment procéder ? Par un script R :
 Installez le package gdata de R. Celui-ci permet de lire directement des fichiers tableur Excel.
 Utilisez alors l'instruction read.xls qui permet de lire un fichier .xls.
Rem. : ajoutez aux options de read.xls ..., as.is=TRUE)
 Ecrivez une boucle qui permette de stocker dans un tableau les valeurs au format précédent, ce
seulement si la valeur est indiquée (i.e. n'est pas égale à "..")
 Enregistrez le tableau résultat au format demandé, par la fonction write.table(...).
Vous procéderez ainsi pour chacun des fichiers .xls fournis.


Documents pareils