sujet
Transcription
sujet
Projet tutoré STID 1 Données socio-économiques des nations (fichier World Development Indicators) A rendre : un document de reporting (.pdf) contenant les commentaires, résultats demandés, ainsi que le(s) script(s) R et les fichiers de données (.txt) qu'il utilise. On a récupéré des fichiers diffusés par la World Bank (http://data.worldbank.org/data-catalog/worlddevelopment-indicators), contenant les valeurs d'un certain nombre d'indicateurs socio-économiques de nations, sur un grand nombre d'années (1960 à 2007). Remarque : ces données ne sont pas en accès libre. WDI.zip Contient l'ensemble des données récupérées, au format tableur Excel (.xls). Mission 1 : traitement des données : la création du cube de données Note : cette mission sera notée sur 10 points. Lorsque le résultat sera livré, la suite vous sera transmise. Le total de l'ensemble des missions sera de 20 points. L’objectif est de créer un fichier dont le format permette l'exploitation rapide et multi-critères de ces données sur un logiciel spécialisé (pour nous, le logiciel R). Le format final sera celui dit de "cube" ou "hypercube" de données. Ce fichier aura l'allure suivante : étant donné un des fichiers fournis au format tableur (par exemple "migration et reversements.xls"), le cube obtenu sera nommé "migration et reversements.txt" et aura la structure suivante : Afghanistan Afghanistan Afghanistan Exports of goods and services (% of GDP) Exports of goods and services (% of GDP) Exports of goods and services (% of GDP) 1960 1961 1962 4.13223314285278 4.45344352722168 4.87805080413818 ... Afghanistan Imports of goods and services (% of GDP) Afghanistan Imports of goods and services (% of GDP) Albania Exports of goods and services (% of GDP) 1980 Albania Exports of goods and services (% of GDP) 1981 2004 55.7109909057617 2005 55.6565818786621 23.1155872344971 22.9826431274414 ... Finland Finland France France Imports of goods and services (% of GDP) Imports of goods and services (% of GDP) Exports of goods and services (% of GDP) Exports of goods and services (% of GDP) 2006 2007 1960 1961 40.2266502380371 40.1456718444824 14.3962821960449 13.9191856384277 ... etc ... où les espaces correspondent chaque fois à une tabulation. Lez format de chaque ligne est donc à 4 colonnes : Pays Variable séparées par des tabulations Annee Valeur Ce format permet l'extraction de strates suivant tous critères (nation, variable, année) Comment procéder ? Par un script R : Installez le package gdata de R. Celui-ci permet de lire directement des fichiers tableur Excel. Utilisez alors l'instruction read.xls qui permet de lire un fichier .xls. Rem. : ajoutez aux options de read.xls ..., as.is=TRUE) Ecrivez une boucle qui permette de stocker dans un tableau les valeurs au format précédent, ce seulement si la valeur est indiquée (i.e. n'est pas égale à "..") Enregistrez le tableau résultat au format demandé, par la fonction write.table(...). Vous procéderez ainsi pour chacun des fichiers .xls fournis.