Modèle de données : variables, unités statistiques, relations
Transcription
Modèle de données : variables, unités statistiques, relations
Projet Obe Maghreb Ecole thé thématique gestion et analyse de donné données 20 au 29 avril 2010 Gestion et analyse de données d’enquêtes épidémiologiques Modèle de données Variables,unités statistiques, relations. Pierre Traissac Institut de recherche pour le développement UMR 204 « Pré Prévention des malnutritions et pathologies associé associées » IRD, Montpellier, France 1 Modèle de données Monde réel Codage Base de sondage Saisie des données Plan de sondage Gestion de données Absences, refus Questionnaires Enquêteurs Transcription papier Analyse Présentation résultats Ce qu’on perçoit 2 Modèle de données Tout le processus (même avant collecte des donné données) - échantillonnage (thé (théorique, pratique) - conception du questionnaire - mise en pratique sur le terrain - organisation de la saisie - organisation de la base de donné données (interrogations possibles) - analyses Elé Eléments structurants communs - variable (attribut, caractè caractère) - unité unité statistique (observation, entité entité) - modè modèle entité entités-relation (modè (modèle de donné données) - vocabulaires épidémiologique/statistique v.s. informatique (base de données relationnelle) 3 Modèle de données Représentation schématique monde réel Région Monde réel (très complexe) Entité (u.s.) Ménage Adulte Prescolaire Question Aliment Relation (lien) (e.g. de nutrition) 4 Modèle de données Variable (attribut, caractère) é) é statistique (observation, entit Unit entité Unité ées) èle de donn és-relation (mod èle entit Mod donné (modè entité Modè Conception du questionnaire 5 Variables Variables (attributs, caractè caractères) - caracté tude (modè caractéristiques d’ d’inté intérêt pour l’é l’étude (modèle causal, …) - poids, taille, taille, âge, âge, sexe, sexe, nombre de personnes du mé ménage, type d’ d’habitat, CSP, dépense alimentaire mensuelle, mensuelle, distance du village au centre de santé santé, nombre de mé médecins /1000 h, h, date de naissance, naissance, ré région, nombre de supé supérettes, rettes, dépense énergé nergétique journaliè journalière, attitude visvis-à-vis de l’ l’obé obésité sité fumeur (O/N),… (O/N),… - variables initiales : mesuré mesurées / observé observées / par interrogation items du questionnaire d’ d’enquête e.g. sexe, poids, type d’ d’habitation, revenus mensuels - variables dé dérivé rivées : résultant d’ d’un calcul ulté ultérieur (indices, scores): e.g. IMC, dé dépense énergé nergétique, attitude vis à vis obé obésité sité, indice tailletaille-âge, score de niveau économique, qualité qualité de vie 6 Variables Différents types statistiques de variables - Quantitative . continue (taille en cm : 175,6 ; ingé ingéré : 2456 kcal) kcal) . discrête ( nombre de personne dans mé ménage : 12) Valeurs dans domaine (intervalle) - Qualitative . ordonné ordonnée (é (état habitat : bon , moyen, mauvais) . quelconque (statut matrimonial : cé célibataire, marié marié, veuf, divorcé divorcé, autre) . dichotomique (sexe : F/M, fumeur : oui/non) Modalité (catégorie « autre ») Modalités exclusives, exhaustives (caté Modalité Modalités dans domaine (liste de modalité modalités) 7 Variables Différents types informatiques, dont : - numé numériques . entiers : 0, 1, 15, 345 . ré réels : 3.56, 100, -2.5 . longueur, dé décimales . opé opérations algé algébriques : +, x, -, /, log, … . comparaisons : < >, <=, =, <> - caractè caractère . contenu : obè obèse, oui, non, c2, 145, 4.5, … . longueur . pas d’ d’opé opérations algé algébriques . fonctions spé spécifiques (sous chaî chaînes, …) 8 Variables Notion de codage (ce qu’on va saisir) - variable quantitative : unité unités taille : 1.756 m, 175.6 cm, 1756 mm - variable qualitative : codes (beaucoup de choix possibles) Satut matrimonial : Valeurs Célibataire Marié Marié(e) Veuf(ve) Divorcé Divorcé(e) --------------- Diffé Différents codages possibles --------------Célibataire CEL C 1 5 4 Marié MAR M 2 4 5 Marié Veuf VEU V 3 3 6 Divorcé DIV D 4 2 7 Divorcé Autre Autre AUT A 5 1 8 - !!! codes ≠ valeurs de la variable (cf. analyse) !!! - documentation : unité unités, codes (variables de base ET calculé calculées) 9 Modèle de données ère) Variable (attribut, caract caractè Unité statistique (observation, entité) ées) èle de donn és-relation (mod èle entit Mod donné (modè entité Modè Conception du questionnaire 10 Unités statistiques Unité Unité statistique (u.s.) (entité (entité, observation, individu, enregistrement) - La plus petite entité entité sur laquelle la valeur de la variable est dé définie (mesuré (mesurée / observé observée / obtenue par interrogation / calculé calculée) - Dépend des variables . Revenu, type habitat, nbre de personnes : u.s. = un mé ménage . poids, taille, sexe : u.s. = une personne . nbre de mé médecins / 1000 h, PNB : u.s. = un pays . pré présence d’ d’un centre de santé santé, nb épiceries : u.s. = une commune . énergie, lipides, glucides, proté protéines : u.s. = un aliment - !!! Dé Définition pré précises des u.s. (e.g. mé ménage) !!! 11 Unités statistiques Représentation schématique monde réel Région Monde réel (très complexe) Entité (u.s.) Ménage Adulte Prescolaire Question Aliment (e.g. de nutrition) 12 Unités statistiques enquêtées Tableau u.s. x variables (n=250 x p=10) : adultes nusaiad idadu idmen numad datenq sexe age statmat gross tailled 1 100010203 1000102 3 12/04/2000 1 45 2 2 165,4 2 100010206 1000102 6 12/04/2000 2 36 2 1 145,6 3 100020702 1000207 2 19/04/2000 1 34 1 2 170,2 4 100020703 1000207 3 19/04/2000 1 52 5 100020704 1000207 4 20/04/2000 2 65 3 1 159,8 6 100031706 1000317 6 04/04/2000 2 38 4 2 7 100031803 1000318 3 05/04/2000 2 37 2 2 174,6 8 100031806 1000318 6 05/04/2000 1 44 1 2 169,0 … … … … … … … … … 13 Unités statistiques Chaque niveau d’u.s. => table u.s. x variables region Région Ménage adulte menage Adulte Prescolaire alim Aliment presco 14 Unités statistiques Différentes tables pour même type d’u.s. Ménage) Différents modules du questionnaire adulte QFCA QFAP Socio-éco individuel Socio-éco ménage Echelles attitude Adulte 15 Unités statistiques Notation adultes(nusaiad,idadu adultes(nusaiad,idadu,, idmen, idmen, numad, datenq, sexe, age, statmat, gross, tailled) Informatique (EpiInfo, EpiData, SAS, Stata,… Stata,…) - tableau de donné données => fichier (exception : MS Access) - format interne / nom : dé dépend du logiciel EpiInfo/EpiData : extension .rec (adultes.rec) SAS : extension .ssd (adultes.ssd) SPSS : extension .sav (adultes.sav) - nom du fichier / des colonnes : contraintes particuliè particulières suivant logiciel Documentation : dictionnaire de variables 16 Dictionnaire de variables Ordre dans le fichier nom Contenu format Unité Unités / codes n Pgm de cré création 1 nusaiad Numé Numéro sé séquentiel de saisie adulte Numé Numérique 4. Sans objet 250 adultes.qes 2 idadu Identifiant unique d’adulte Numé Numérique 4. Sans objet 250 adultes.qes adultes.chk 3 idmen Identifiant de mé ménage Numé Numérique 4. Sans objet 250 adultes.qes adultes.chk 4 numad Numé Numéro adulte dans ménage Numé Numérique 2. Sans objet 250 adultes.qes 5 datenq Date d’ d’enquête Date (dmy 10) jj/mm/aaaa 250 adultes.qes 6 sexe Sexe de la personne Numé Numérique 1. 1: masculin 2: fé féminin 250 adultes.qes 7 age Age de la personne Numé Numérique 3. anné années révolues 245 adultes.qes 8 statmat Statut matrimonial Numé Numérique 1. 1: cé célibataire 2: marié marié 3: ….. 240 adultes.qes 9 gross Grossesse visible Numé Numérique 1. 1:oui 2:non 145 adultes.qes 10 tailled Taille debout Numé Numérique 5.1 cm 238 adultes.qes 17 Unités statistiques enquêtées Tableau u.s. x variables (n=250 x p=10) : adultes nusaiad idadu idmen numad datenq sexe age statmat gross tailled 1 100010203 1000102 3 12/04/2000 1 45 2 2 165,4 2 100010206 1000102 6 12/04/2000 2 36 2 1 145,6 3 100020702 1000207 2 19/04/2000 1 34 1 2 170,2 4 100020703 1000207 3 19/04/2000 1 52 5 100020704 1000207 4 20/04/2000 2 65 3 1 159,8 6 100031706 1000317 6 04/04/2000 2 38 4 2 7 100031803 1000318 3 05/04/2000 2 37 2 2 174,6 8 100031806 1000318 6 05/04/2000 1 44 1 2 169,0 … … … … … … … … … 18 Unités statistiques enquêtées Tableau u.s. x variables (n=250 x p=10) : adultes nusaiad idadu idmen numad datenq sexe age statmat gross tailled 1 100010203 1000102 3 12/04/2000 1 45 2 2 165,4 2 100010206 1000102 6 12/04/2000 2 36 2 1 145,6 3 100020702 1000207 2 19/04/2000 1 34 1 2 170,2 4 100020703 1000207 3 19/04/2000 1 52 5 100020704 1000207 4 20/04/2000 2 65 3 1 159,8 6 100031706 1000317 6 04/04/2000 2 38 4 2 7 100031803 1000318 3 05/04/2000 2 37 2 2 174,6 8 100031806 1000318 6 05/04/2000 1 44 1 2 169,0 … … … … … … … … … 19 Unités statistiques Identifiant (clé primaire, key) - variable ayant une valeur distincte pour chaque u.s. du tableau - parfois simple numé numéro (1 à n) - souvent combinaison de plusieurs variables – e.g. Tunisie région, gouvernorat, district, commune, mé ménage, personne 02 15 10 09 267 05 => valeur de l’ l’identifiant 0215100926705 - Notation symbolique « souligné souligné » : idadu - !!! existence et unicité unicité de la clé clé dans chaque tableau !!! (inté (intégrité grité d’entité entité) 20 Unités statistiques enquêtées Tableau u.s. x variables (n=250 x p=10) : adultes nusaiad idadu idmen numad datenq sexe age statmat gross tailled 1 100010203 1000102 3 12/04/2000 1 45 2 2 165,4 2 100010206 1000102 6 12/04/2000 2 36 2 1 145,6 3 100020702 1000207 2 19/04/2000 1 34 1 2 170,2 4 100020703 1000207 3 19/04/2000 1 52 5 100020704 1000207 4 20/04/2000 2 65 3 1 159,8 6 100031706 1000317 6 04/04/2000 2 38 4 2 7 100031803 1000318 3 05/04/2000 2 37 2 2 174,6 8 100031806 1000318 6 05/04/2000 1 44 1 2 169,0 … … … … … … … … … 21 Unités statistiques Existence et unicité de la clé - Conception du questionnaire pré prévoir et documenter la construction des identifiants - Conception des utilitaires de saisie . attention spé spécifique aux identifiants . sé sécurité curité : numé numéro de saisie - Validation, apurement : vé vérifier existence et unicité unicité - Gestion de donné données : ne pas oublier identifiant(s) « en route » 22 Modèle de données ère) Variable (attribut, caract caractè é) é statistique (observation, entit Unit entité Unité Modèle entités-relation (modèle de données) Conception du questionnaire 23 Modèle entités-relations Unité Unité statistique (u.s.) - Dépend des variables . Revenu, type habitat, nbre de personnes : u.s. = un mé ménage . poids, taille, sexe : u.s. = une personne . nbre de mé médecins / 1000 h, PNB : u.s. = un pays . pré présence d’ d’un cente de santé santé, nb épicé picéries : u.s. = une commune . énergie, lipides, glucides, proté protéines : u.s. = un aliment Dans une étude : - plusieurs types d’ d’u.s. : e.g. mé ménage, adulte, prescolaire, aliment - relations entre les u.s. : . adulte est dans mé ménage . prescolaire est dans mé ménage . prescolaire est enfant de adulte . adulte a consommé consommé aliment u.s. et relations : modè modèle entité entités-relations Modè Modèle relationnel, bases de donné données relationnelles 24 Modèle entités-relations Représentation schématique monde réel Entité (u.s.) Région Ménage Monde réel (très complexe) Adulte Prescolaire Aliment Question (e.g. de nutrition) 25 Modèle entités-relations Chaque niveau d’u.s. => table u.s. x variables region Région Ménage adulte menage Adulte Prescolaire alim Aliment presco 26 Modèle entités-relations Représentation schématique monde réel Relation (lien) Entité (u.s.) Région Ménage Monde réel (très complexe) Adulte Prescolaire Aliment Question (e.g. de nutrition) 27 Modèle entités-relations Lien « adulte appartient à ménage » Idmen : clé primaire (unicité) Ménage tableau u.s. x var. ménages Idadu : clé primaire (unicité) Idmen : clé secondaire code le lien Lien ménage – adulte par idmen Adulte Tableau u.s. x var. adultes 28 Modèle entités-relations Relation Exemple : «adulte appartient à ménage» nage» - adulte (idadu (idadu,, idmen, idmen, datenq, sexe, age, statmat, gross, tailled) idadu idmen 100010203 1000102 100010206 1000102 100031706 1000317 100031803 1000318 datenq sexe age statmat … - idadu : identifiant / clé clé primaire (unicité (unicité dans adulte) - idmen : identifiant / clé clé secondaire (non unicité unicité dans adulte, unicité unicité dans menage) 29 Unités statistiques Tableau u.s. x variables (n=250 x p=10) : adultes nusaiad idadu idmen numad datenq sexe age statmat gross tailled 1 100010203 1000102 3 12/04/2000 1 45 2 2 165,4 2 100010206 1000102 6 12/04/2000 2 36 2 1 145,6 3 100020702 1000207 2 19/04/2000 1 34 1 2 170,2 4 100020703 1000207 3 19/04/2000 1 52 5 100020704 1000207 4 20/04/2000 2 65 3 1 159,8 6 100031706 1000317 6 04/04/2000 2 38 4 2 7 100031803 1000318 3 05/04/2000 2 37 2 2 174,6 8 100031806 1000318 6 05/04/2000 1 44 1 2 169,0 … … … … … … … … … 30 Modèle entités-relations Explicitation des liens region Région idreg idmen adulte Ménage Adulte menage idmen idadu Prescolaire idalim alim Aliment idalim prescos 31 Modèle entités-relations u.s. et liens - adulte (idadu (idadu,, idmen, idmen, datenq, agea, sexea, …) ou adulte (idadu (idadu,, idmen, idmen, idreg, idreg, datenq, agea, sexea, …) - presco (idenf (idenf,, idadu, idadu, datenq, datnai, …) ou presco (idenf (idenf,, idmen, idmen, idreg, idreg, idadu, idadu, datenq, datnai, …) Cas fré fréquent - idmen contient idreg - idadu contient idreg, idmen - idenf contient idreg, idmen, idadu : 1000102 1000102 : 1000102 06 100010206 : 1000102 0602 02 100010206 32 Modèle entités-relations Sous-jacent à : Sché Schéma Région Entité (us.) Ménage Adulte - la conception du questionnaire (diffé (différents modules) - l’échantillonnage ’échantillonnage - les activité activités de terrain - l’organisation de la saisie - l’organisation de la base de donné données (interrogations possibles) - analyses - pré présentation des ré résultats Prescolaire !!! Identifiants !!! Aliment Relation (lien) 33 Modèle de données ère) Variable (attribut, caract caractè é) é statistique (observation, entit Unit entité Unité ées) èle de donn és-relation (mod èle entit Mod donné (modè entité Modè Conception du questionnaire 34 Conception du questionnaire Unités statistiques Chaque type d’ d’unité unité statistique : partie spé spécifique du questionnaire (« fiche », « module ») Ménage Questionnaire Adulte Adulte Questionnaire Prescolaire Questionnaire Ménage Prescolaire 35 Conception du questionnaire Relations Identifiants principaux et secondaires Ménage idmen Idadu □ □ □ □ □ Idmen □ □ □ Adulte idmen Idmen □□□ idadu Prescolaire Questionnaire Adulte Idenf □ □ □ □ □ □ □ □ Idadu □ □ □ □ □ Idmen □ □ □ Questionnaire Prescolaire Questionnaire Ménage 36 Conception du questionnaire Relations Idadu 15501 Idmen 155 Idmen 155 Questionnaire Ménage Idenf 1550101 Idadu 15501 Idmen 155 Questionnaire Prescolaire Questionnaire Adulte Idadu 15502 Idmen 155 Questionnaire Adulte Idadu 15503 Idmen 155 Questionnaire Adulte Idenf 1550301 Idadu 15503 Idmen 155 Questionnaire Prescolaire Idenf 1550302 Idadu 15503 Idmen 155 Questionnaire Prescolaire 37 Conception du questionnaire Relations Différentes tables pour même type d’u.s. Ménage (idmen) idmen Différents modules du questionnaire adulte QFCA QFAP Socio-éco individuel Socio-éco ménage Echelles attitude Adulte (idpers) 38 Conception du questionnaire Variables Choix des variables d’intérêt - objectifs de l’ l’enquête . demande d’ d’information . modè modèle causal / conceptuel . bibliographie - type d’ d’unité unité statistique - plan d’ d’analyse Distinguer variables initiales / dérivées Choix des modalités et codages - variable quantitatives : unité unités - variables qualitatives : modalité modalités, codages - questions ouvertes / fermé fermées - codage des donné données manquantes 39 Conception du questionnaire Variables Démarche « ingénierie inverse » 1. information souhaité souhaitée / question posé posée ? 2. tableau, analyse, graphique né nécessaire ? 3. variables dé dérivé rivées né nécessaires ? 4. variables à recueillir / mesurer ? items du questionnaire 5. codages ? Exemple 40 Conception du questionnaire Variables 1- Information souhaitée ? « Effet du niveau économique du mé ménage sur le retard de croissance en taille des enfants prescolaires » (e.g. Maroc milieu urbain) 41 Conception du questionnaire Variables 2. Analyse, type de tableau à construire ? Retard de taille prescolaires Terciles de niveau économique ménage bas (n=900) Pré Prévalence T.A. <<-2 Z 30% (e.g.) moyen (n=900) 20% (e.g.) élevé levé (n=900) 5% (e.g.) 42 Conception du questionnaire Variables 3- Variables dérivées nécessaires ? - retard de taille : indice taille pour âge <<-2 => indice taille pour âge à calculer - niveau économique bas /moyen/é /moyen/élevé levé : terciles d’ d’un indice de niveau économique du mé ménage => cet indice à construire : réflé fléchir comment caracté caractériser le niveau économique du mé ménage en fonction du contexte (e.g. nombre de biens possé possédés) 43 Conception du questionnaire Variables 4- Variables à recueillir par questionnaire ? - fiche enfant prescolaire sexe, taille, date de naissance, date d’ d’enquête (âge) - fiche mé ménage lave linge, ré réfrigé frigérateur, TV, parabole, ordinateur, voiture… voiture…. ! contexte 44 Conception du questionnaire Variables 5- Codages ? - fiche enfant prescolaire sexe (1:masculin, 2:fé 2:féminin) taille (en cm) date de naissance (jjmmaaaa) date d’ d’enquête (jjmmaaaa) /_/ /_/ /_/ /_/ . /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ /_/ - fiche mé ménage lave(1:oui/2:non,9:nsp) lave-linge réfrigé frigérateur (1:oui/2:non,9:nsp) TV (1:oui/2:non,9:nsp) parabole (1:oui/2:non,9:nsp) … /_/ /_/ /_/ /_/ 45 Conception du questionnaire Relations Identifiants principaux et secondaires Ménage idmen Idadu □ □ □ □ □ Idmen □ □ □ Adulte idmen Idmen □□□ idadu Prescolaire Questionnaire Adulte Idenf □ □ □ □ □ □ □ □ Idadu □ □ □ □ □ Idmen □ □ □ Questionnaire Prescolaire Questionnaire Ménage 46 Modèle de données Sous-jacent à : Sché Schéma Région Entité (us.) Ménage Adulte - la conception du questionnaire (diffé (différents modules) - l’échantillonnage ’échantillonnage - les activité activités de terrain - l’organisation de la saisie - l’organisation de la base de donné données (interrogations possibles) - analyses - pré présentation des ré résultats Prescolaire !!! Identifiants !!! Aliment Relation (lien) 47 Modèle de données Indispensable d’expliciter le modèle dès le début de l’étude (protocole) - Identification pré précise des u.s. (e.g. mé ménage) et variables - Relations né é cessaires pour l’é ’étude tude n l Identifiants Documentation de la base - définition pré précise des u.s. (entité (entités) - sché schéma du modè modèle de donné données (tables, relations) - dictionnaires de variables (nom, contenu, type, codes, …) 48 Modèle de données Base de données relationelle region Région idreg idmen adulte Ménage Adulte menage idmen idadu Prescolaire idalim alim Aliment idalim prescos 49 Modèle de données Règles d’intégrité 1. Inté Intégrité grité d’entité entité : existence et unicité unicité de la clé clé (identifiant) 2. Inté Intégrité grité de domaine : valeurs des variables dans domaines 3. Inté Intégrité grité de ré référence : adulte(idadu idmen, sexe, age, …) adulte(idadu,, idmen, ,nbpers, habitat, …) menage(idmen menage(idmen,nbpers, Problè Problème de ré référence si : . pré valeur de idmen présente dans adulte . absente dans menage Maintenir cohé cohérence (suppression) 50 Modèle de données Utilisation pratique de la base de donné données Pré Préparation des donné données avant analyse - sélections (invidus, variables) - mise en relation, fusion de fichiers - calcul de nouvelles variables - recodages - documentation Langage de manipulation /gestion de donné données Outil logiciel (seulement un outil vs concepts !) - SGBD (e.g. MSMS- Access, Oracle, …) - gestion de donné données dans logiciels statistiques (SAS, Stata, SPSS) ou gé généralistes (EpiDataAnalysis) (EpiDataAnalysis) 51 Modèle de données Conception du questionnaire Organisation sur le terrain Modèle de données Organisation de la saisie Organisation de la base 52 Modèle de données Conception du questionnaire Organisation sur le terrain Organisation de la base Organisation de la saisie 53 Modèle de données Fin 54