GenStat Edition Discovery pour usage quotidien
Transcription
GenStat Edition Discovery pour usage quotidien
GENSTAT EDITION DISCOVERY POUR USAGE QUOTIDIEN Association flamande de Coopération au Développement et d’Assistance Technique (VVOB) World Agroforestry Centre (ICRAF) Unité de Support en matière de Recherche Université de Reading Centre des Services Statistiques Institut des Sciences Agronomiques du Rwanda ( ISAR ) GenStat Édition Discovery pour Usage Quotidien Wim Buysse, Roger Stern et Ric Coe Traduit par Amini Mutaganda Référence correcte : Wim Buysse, Roger Stern et Ric Coe, 2004. GenStat Édition Discovery pour Usage Quotidien . Traduit par Amini Mutaganda. ICRAF Nairobi, Kenya. 122 pp. ISBN: 92 9059 161 7 Copyright © 2004 World Agroforestry Centre. Cette publication est une propriété scientifique de l’Université de Reading et du Centre International de Recherche en Agroforesterie. Si l’utilisation de l’information qu’elle contient est somme tout encourageante, néanmoins son contenu ne devrait être reproduit sous quelque forme que ce soit, sans en avoir préalablement l’autorisation des éditeurs. Les auteurs et les éditeurs n’ont pas de représentants, ni officiels ni officieux de peur de ne pas perdre l’originalité de l’information contenue dans cet ouvrage. De ce fait, ils ne peuvent endosser aucune responsabilité pour les erreurs ou omissions qui pourraient être occasionnées par des manipulations non autorisées. Dans ce manuel, tous les termes considérés comme marques ou services commerciaux ont été écrits en majuscules. Les auteurs et éditeurs ne disposent pas de suffisamment de données précises les concernant. Ainsi, l’usage de l’un ou l’autre de ces termes dans ce livre ne porte préjudice à la validité de ces marques déposées. The University of Reading Whiteknights PO Box 217 Reading Berkshire RG6 6AH United Kingdom http://www.reading.ac.uk The World Agroforestry Centre ICRAF PO Box 30677 00100 Nairobi Kenya http://www.worldagroforestrycentre.org/rsu Table de matières 1 2 3 4 5 6 GenStat Édition Discovery ............................................................................................1 1.1 En quoi consiste ce guide?.....................................................................................1 1.2 Les origines de l’Edition Discovery. .....................................................................2 1.3 Configuration. ........................................................................................................3 1.4 Remerciements.......................................................................................................3 Notions fondamentales en GenStat................................................................................5 2.1 Lancement de GenStat Édition Discovery.............................................................5 2.2 Saisie des données .................................................................................................6 2.2.1 Saisie des données en utilisant le menu Spread.............................................6 2.2.1.1 Attribution d’un nom à la colonne.............................................................8 2.2.1.2 Ajout d’une description complémentaire...................................................9 2.2.1.3 Attribution d’un nom aux feuilles des données .......................................10 2.2.2 Entrée des données en Excel........................................................................11 2.2.3 Méthode avancée de saisie des données. .....................................................15 2.2.4 Sortir du GenStat. ........................................................................................15 2.3 Quelques manipulations de base de données.......................................................16 2.3.1 Statistiques sommaires.................................................................................16 2.3.2 Calcul et mise en forme des colonnes..........................................................18 2.3.3 Colonnes contenant des facteurs..................................................................23 2.3.4 Enregistrement des données GenStat en Excel............................................28 2.3.5 Importation des facteurs à partir d’Excel.....................................................29 2.3.6 Suppression des données quelconques. .......................................................29 2.4 Compréhension du fonctionnement de GenStat ..................................................30 2.4.1 Variables disponibles...................................................................................30 2.4.2 Une première introduction au langage de commande de GenStat...............31 2.4.3 Détails concernant le serveur.......................................................................36 Quelques notions simples en statistique ......................................................................37 3.1 Autres manipulations de données : cas de mise en commun de deux feuilles.....37 3.2 Exploration visuelle des données.........................................................................40 3.2.1 Les diagrammes en boîtes ‘boxplots’...........................................................40 3.2.2 La médiane et les quartiles...........................................................................41 3.2.3 Utilisation des diagrammes en boîtes ‘boxplots’.........................................45 3.3 Les tests d’hypothèses. ........................................................................................47 3.3.1 Test de l’hypothèse sur la moyenne d’une population. ...............................47 3.3.2 La comparaison d’échantillons. ...................................................................49 3.3.3 Le test t des données associées par paires....................................................52 3.3.4 Exemple d’une méthode non paramétrique. ................................................55 3.4 Cas d’une simple régression. ...............................................................................57 Révision des chapitres 2–3. .........................................................................................61 Défi nº 1 .......................................................................................................................63 Avant d’effecteur l’Analyse de la Variance ................................................................65 6.1 Organisation des facteurs et des données ............................................................65 6.1.1 Au niveau d’une feuille GenStat..................................................................65 6.1.1.1 Rendement du melon. ..............................................................................66 i 6.1.1.2 Les poules pondeuses et modes d’éclairage.............................................68 6.1.2 A partir d’une feuille Excel..........................................................................69 6.1.2.1 La survie de Salmonella typhimurium. ....................................................69 6.2 L’analyse exploratoire..........................................................................................72 6.2.1 Rendement du melon ...................................................................................72 6.2.2 Poules pondeuses et modes d’éclairage. ......................................................75 6.2.3 La survie de Salmonella typhimurium. ........................................................75 6.3 Exemple pratique. ................................................................................................79 7 Défi nº 2 .......................................................................................................................87 8 Analyse de la variance. ................................................................................................89 8.1 Deux cas simples d’Anova...................................................................................89 8.2 Utilisation optimale de l’Output ..........................................................................91 8.3 Définition de la structure du traitement ...............................................................95 8.3.1 Structure factorielle du traitement................................................................95 8.3.2 Structure hiérarchisée des blocs.................................................................103 8.3.3 Vérification des valeurs aberrantes ‘outliers’ ............................................107 8.3.4 Randomisation des dispositifs expérimentaux...........................................110 9 Défi nº3 ......................................................................................................................115 10 Lecture additionnelle..............................................................................................117 10.1 Autre documentation gratuite.............................................................................117 10.2 Le menu Help de GenStat ..................................................................................117 10.3 Notes explicatives “cachés” ...............................................................................119 10.4 Francophones et hispanophones.........................................................................121 10.5 La communauté des utilisateurs de GenStat ......................................................121 ii 1 GenStat Édition Discovery 1.1 En quoi consiste ce guide? Ce guide est une traduction du document ‘GenStat Discovery Edition for everyday use’1. Il est avant tout destiné aux chercheurs désireux de se servir du logiciel GenStat comme outil d’analyse des données de recherche. Bon nombre des exemples utilisés ont été tirés du livre ‘Statistical Methods in Agriculture and Experimental Biology’ écrit par Mead, Curnow and Hasted2, et certains autres proviennent des documents de formation développés conjointement par l’ICRAF et l’Université de Reading. L’objectif principal visé est la formation sur l’utilisation de GenStat en tant qu’outil d’analyse statistique plutôt que d’apprendre les Statistiques proprement dites. Quoi qu’il en soit, certains chapitres de ce document ont été consacrés à la révision de quelques statistiques de base montrant notamment l’application de GenStat dans l’enseignement des Statistiques, ne serait-ce que les éléments de base. Néanmoins, il va sans dire que dans ce document, nous avons fourni peu d’information en rapport avec les données de recherche ainsi que l’interprétation des résultats. Le second chapitre de ce guide introduit les notions fondamentales de GenStat et est élaboré sous forme de cours de formation. Le contenu se rapporte aux sujets concernant la saisie, le calcul et la manipulation des données, quelques statistiques descriptives ainsi qu’une introduction au langage de commande. Le troisième chapitre aborde l’aspect de l’application en GenStat de quelques notions simples de Statistique notamment le test t et la simple régression. En ce qui concerne le sixième chapitre, les éléments développés s’articulent sur l’organisation et l’exploration des données, alors que le huitième s’étend sur l’analyse de la variance en GenStat. L’explication de ces différents sujets a été appuyée par les exemples qui concernent plus particulièrement le dispositif de blocs randomisés, la structure de traitements factoriels et le dispositif en split plot. D’autres chapitres enfin ont été consacrés aux exercices de révision ou aux ‘défis’ à relever. En préparant ce manuel, notre but principal était de fournir un texte de base pour les chercheurs en atelier de formation sur les statistiques. Bien plus, ce guide est conçu pour l’utilisateur s’appliquant de lui-même ou bénéficiant d’un certain encadrement, mais aussi peuvent bien s’en servir les utilisateurs maîtrisant d’autres logiciels statistiques. C’est autant dire que le document ne s’adresse pas aux débutants sans encadrement en GenStat. Pour les participants maîtrisant d’autres logiciels statistiques, nous estimons qu’une session d’une journée de formation peut suffire pour couvrir tout le contenu de ce guide. La session comprendrait éventuellement l’introduction des notions fondamentales en GenStat débouchant à la fin de la journée, à l’échange des impressions des uns et des autres sur le logiciel. Au cas où les participants n’auraient pas d’expérience sur l’utilisation d’aucun logiciel statistique, il faudra quatre jours au 1 Wim Buysse, Roger Stern and Ric Coe, 2004. GenStat Discovery Edition for everyday use. ICRAF Nairobi, Kenya. 108 pp. ISBN 92 9059 158 7 2 Roger Mead, Robert N. Curnow, Anne M. Hasted, 2003. Statistical Methods in Agriculture and Experimental Biology. Third Edition. Chapman & Hall/CRC. 472 pages ISBN 1-58488-187-9 GenStat Édition Discovery pour Usage Quotidien moins pour pouvoir parcourir tout le manuel. Cette formation comporterait beaucoup d’autres exercices provenant des données d’autres essais. Signalons que durant la tenue de ces formations, les données en rapport à l’analyse des essais en agroforesterie sont obtenues en visitant le site : http://www.worldagroforestrycentre.org/sites/RSU/dataanalysis/index.html En outre, toutes les données utilisées aussi bien dans les exemples que durant les exercices pratiques se trouvent sur le ‘CD-ROM’. La lecture de ce manuel sur le papier imprimé nécessitera à télécharger les fichiers de données à partir du site web de l’Unité de Support en matière de Recherche de l’ICRAF : (http://www.worldagroforestrycentre.org/rsu). 1.2 Les origines de l’Edition Discovery. L’édition de GenStat décrite ici concerne le logiciel GenStat Edition Discovery pour Windows. Elle est basée sur la 5ème Edition, ‘Service Pack 2’ et comporte l’ancienne édition graphique ‘release 4.1’. En réalité, l’Edition Discovery résulte d’un partenariat tout à fait particulier établi entre une société spécialisée dans le développement des logiciels statistiques d’une part et les institutions de recherche ainsi qu’une association de coopération dans le domaine de développement d’autre part. Il est bien connu par tous les chercheurs que l’analyse statistique efficace constitue un élément non négligeable dans la recherche et de ce fait, nécessite un logiciel bien approprié. Par ailleurs, l’obtention d’un tel logiciel est devenue un problème majeur particulièrement dans les pays en développement du fait de l’insuffisance de ressources nécessaires. Partant de ce constat, des participants d’une réunion pendant une conférence sur l’usage de GenStat tenue à Oxford en Septembre 2001 avaient demandé au VSN International, d’étudier la possibilité de mettre gratuitement le logiciel GenStat à la disposition des chercheurs des pays en développement. Au départ, VSN s’est réservé de s’engager dans une aventure aussi risquée. Mais au fil du temps, les idées se sont changées et le 17 Octobre 2003, GenStat Edition Discovery a été officiellement lancée. Pendant la période pilote d’une année, le logiciel accompagné de toute une documentation technique disponible à l’internet, sera distribué gratuitement aux utilisateurs sans buts lucratifs à travers toute l’Afrique. Tel est résumé le plan de travail initialement prévu pour une année mais qui, nous l’espérons, pourrait éventuellement se prolonger. L’édition de GenStat Edition Discovery est techniquement supportée par les institutions et centres suivants : Statistical Services Centre de l’Université de Reading (UK), World Agroforestry Centre (ICRAF, Kenya), International Livestock Research Institute (ILRI, Kenya) et BUCS (Université de Nairobi, Kenya). Ils assurent la livraison des licences ainsi que le développement du matériel de formation. Dans ce contexte, le projet “Capacity strengthening in research methods“ au service des institutions partenaires de l’ICRAF en Afrique de l’Est et du Centre, s’est fixé comme un de ces objectifs l’assistance en matériel informatique et logiciels dans les pays de cette région d’Afrique. Le projet est financé par VVOB, l’Association flamande de Coopération au Développement et d’Assistance technique. Il est bon de signaler que la distribution gratuite d’un logiciel performant accompagné du matériel technique pour la formation destinée aux utilisateurs sans buts lucratifs à travers l’Afrique, coïncide parfaitement avec les objectifs du projet susmentionné. Jusqu’à aujourd’hui, VVOB a assuré le financement de la mise au point d’un site Internet, a participé à la production de ce guide et à la distribution des CD d’installation du logiciel ainsi que du matériel technique de formation. 2 1 - GenStat Édition Discovery Les informations récentes en rapport avec cette offre de GenStat peuvent être obtenues en visitant le site : http://www.worldagroforestrycentre.org/GenStatforafrica 1.3 Configuration. Pour installer le logiciel GenStat sous Windows 98, la configuration minimum recommandée est un ordinateur pentium ou à processeur compatible (PC) avec 32 Mo de mémoire vive. Par ailleurs, il faut noter que GenStat est développé par le Comité GenStat du Département des Statistiques, IACR-Rothamsted, Harpenden, Hertfordshire AL5 2JQ, UK. Sa publication aussi bien que sa distribution sont officiellement assurées par VSN International Ltd, Wilkinson House, Jordan Hill Road, Oxford OX2 8DR, UK (Tél: +44 (0)1865 511245 – Fax: +44 (0)870 1215653 – http://www.vsn-intl.com - E-mail: [email protected]). De même, le logiciel GenStat est enregistré comme marque déposée de ‘Lawes Agricultural Trust’. 1.4 Remerciements Comme nous venons de le souligner, ce manuel a été adapté et développé à partir du document initial “Using GenStat for Windows, 5th Edition, in Agriculture and Experimental Biology”. A son tour, celui-ci avait été conjointement préparé par le personnel de SSC, Reading et de l’ICRAF, Nairobi en se servant des notes techniques de Gillian Arnold and Ruth Butler développées pour la formation en Maîtrise au Département des Sciences Agronomiques de l’Université de Bristol. En terminant la rédaction de ce guide, nous sommes très reconnaissants envers toutes ces personnes qui ont contribué à la production des anciennes versions. En outre, la version française de ce document est une production d’Amini Mutaganda de l’Institut des Sciences Agronomiques du Rwanda. Nous adressons nos vifs remerciements ainsi qu’aux autorités de l’ISAR qui ont bien voulu le disponibiliser pour ce travail et à VVOB pour le financement de la traduction. Enfin et surtout, nous voulons exprimer notre profonde gratitude envers l’équipe de GenStat pour avoir permis la distribution gratuite d’un logiciel statistique d’aussi bonne qualité à l’intention des utilisateurs qui en ont vraiment besoin. 3 GenStat Édition Discovery pour Usage Quotidien 4 2 Notions fondamentales en GenStat Ce chapitre introductif a essentiellement pour objet d’amener l’utilisateur à se familiariser avec les éléments de base du fonctionnement de GenStat. Dans ce guide, nous supposons parfois que l’utilisateur possède déjà une certaine expérience en Excel et que certains autres auraient même organisé leurs données dans un tableur notamment celui d’Excel qui est actuellement le plus communément utilisé. Nous allons montrer non seulement la façon dont les données saisies en Excel peuvent être analysées en GenStat mais aussi comment celles qui se trouveraient déjà en GenStat peuvent être enregistrées en tant que fichier Excel. Quoi qu’il en soit, la maîtrise du tableur Excel ne constitue pas une condition sine qua non pour pouvoir travailler avec GenStat. 2.1 Lancement de GenStat Édition Discovery Après l’installation de GenStat Edition Discovery et après avoir obtenu la licence gratuite, vous pouvez à présent l’ouvrir en cliquant sur l’icône portant GenStat qui se trouve à l’écran d’ouverture de l’ordinateur ou sur la barre d’outil ou alors en sélectionnant GenStat executable à partir du menu des programmes. Au cas où l’icône GenStat ne se trouverait pas sur votre ordinateur, vous pouvez facilement la créer vous-même1. figure 2.1 Présentation de quelques fenêtres et barres d’outils de GenStat à son ouverture 1 Par défaut, GenStat Édition Discovery est installé dans la répertoire C:\Program files\GenDisc. Ouvrez Explorateur Windows et dans le sous répertoire C:\Program files\GenDisc\bin\ vous verrez un fichier «Genwin42.exe». Sélectionnez ce fichier et cliquez avec le bouton droit de la souris. Maintenant cliquez sur l’option pour créer un raccourci (Create Shortcut). Maintenant, le raccourci peut être coupé et collé sur le desktop, où tu peux changer le nom sous l’icône en par exemple «GenStat Discovery Edition». GenStat Édition Discovery pour Usage Quotidien Ayant lancé le logiciel GenStat, vous voyez aussitôt apparaître l’interface Windows standard (figure 2.1 ) qui comprend successivement la barre de titre, la barre de menus, la barre d’outils, la barre d’état et d’autres fenêtres communes au logiciel (figure 2.2). La fenêtre des résultats (Output window) contiendra toutes les opérations effectuées, alors que celle des entrées (Input window) gardera toutes les opérations imposées à GenStat. Il y a lieu de noter que beaucoup de menus présentés sont typiques aux applications courantes de Windows, à l’exception de Run, Data, Spread, Graphics et Stats qui sont spécifiques à GenStat. Nous présentons ci-dessous un exemple d’une interface GenStat pour Windows une fois que la feuille de calcul est ouverte figure 2.2 Présentation des fenêtres de GenStat après introduction des données 2.2 Saisie des données 2.2.1 Saisie des données en utilisant le menu Spread. Nous allons montrer deux possibilités d’entrer les données en GenStat. La première consiste à l’utilisation de GenStat même. En effet, dans la barre de menus, on choisit Spread ⇒ New ⇒ Blank. 6 2 - Notions fondamentales en GenStat figure 2.3 Création de la nouvelle feuille des données figure 2.4 La taille initiale de la feuille En choisissant Blank, nous obtenons une boîte qui permet de spécifier le nombre de colonnes et le nombre de lignes nécessaires. Complétons ensuite la boîte ainsi créée en vue de la transformer en une feuille de calcul de GenStat comprenant 2 colonnes et 14 lignes comme montrées en figure 2.4. Différents types de feuilles de calcul peuvent être créés mais Vector, est celui qui est généré par défaut (créé par GenStat en l’absence d’aucune autre information). Pour ce qui nous concerne, c’est justement ce genre de feuille dont nous avons besoin. En validant par [OK], nous allons voir apparaître une feuille vide dans laquelle il est possible d’introduire les données en cliquant dans la cellule de la feuille de calcul. Inscrivons le premier nombre et appuyons sur la touche [OK] pour valider. Nous procéderons de la même façon pour entrer les nombres suivants dans la première colonne: 30.7 36.4 35.1 20.6 31.7 31.7 37.1 34.8 25.9 27.3 28 30.6 22.3 14.4 La saisie du dernier chiffre suivie par l’application de la touche [Enter] fera que le curseur se déplacera automatiquement au début de la colonne suivante. En suivant la démarche précédente, nous pouvons introduire les nombres ci-après dans la 2ème colonne: 66 147 126 56 93 99 104 103 32 44 67 56 35 26 Il faut s’assurer que la touche [Enter] a été appuyée après que l’on ait terminé à saisir le dernier chiffre, autrement le contenu de la dernière cellule ne sera pas envoyé dans le serveur de GenStat. Si, pour une raison ou une autre, une erreur quelconque avait été commise lors de l’entrée des données, sa correction peut facilement se faire. Utilisez les touches en flèches pour atteindre la cellule concernée et introduisez ainsi la valeur correcte. Pour chaque ligne, la valeur dans la 1ère colonne consiste en la hauteur des arbres de Prunus africana dans un peuplement forestier en Uganda. Les données ont été prises dans le cadre d’un projet de recherche de l’ICRAF basé à Kabale. A la 2ème colonne 7 GenStat Édition Discovery pour Usage Quotidien se trouve exprimée la valeur du diamètre du même arbre. Ainsi le premier arbre de 30,7m de haut a un diamètre à hauteur de poitrine (dhp) égal à 66cm. On considère qu’une méthode de gestion des données est efficace si elle fournit la description suffisamment détaillée. Ceci est d’autant plus important qu’en sauvegardant la feuille ainsi créée portant les colonnes dénommées C1 et C2. Il est évident qu’au bout de quelques jours, il sera difficile de se rappeler de quoi il s’agissait exactement. Bien plus, aucuns des autres collègues désireux accéder au fichier ne pourra être à mesure de comprendre la signification des données laissées sous cette forme. C’est pour cette raison qu’il est prudent et important d’attribuer une description aussi détaillée que possible aux données de recherche. En GenStat particulièrement, cette description détaillée peut se faire selon diverses possibilités, notamment : - en donnant une signification à la colonne (nom) - en ajoutant une explication complémentaire à la colonne - en attribuant un nom significatif à la feuille de calcul. 2.2.1.1 Attribution d’un nom à la colonne Pour changer les noms donnés par défaut C1 et C2 par des noms significatifs des colonnes, on positionne le curseur suivant l’illustration de la figure 2.5. Vous pouvez remarquer qu’à la place d’une main, le curseur prend la forme d’un crayon. Si l’on exécute un clic par la souris, on obtient un tout petit écran où l’on peut taper le nom de la colonne, comme le montre la figure 2.6. Appuyez [OK] pour valider. figure 2.5 Première étape de l’attribution d’un nom à la colonne figure 2.6 Attribution d’un nouveau nom Après avoir attribué le nom de «Height» à la colonne C1, on peut répéter la même procédure avec C2 en utilisant le nom de «DBH» («Diameter at Breast Height»). À 8 2 - Notions fondamentales en GenStat peine ces opérations terminées, ces nouveaux noms apparaissent déjà sur les en-têtes des colonnes de la feuille de calcul. 2.2.1.2 Ajout d’une description complémentaire Une autre possibilité de modifier le nom de la colonne consiste soit à appliquer la commande Spread ⇒ Column ⇒ Attributes/Format de la barre de menus comme la figure 2.7 le montre ou à cliquer dans la colonne et appuyer sur [F9] ou enfin, le curseur se trouvant dans la colonne, à cliquer droite et choisir l’option Column attributes comme montré dans la figure 2.8. figure 2.7 Commande de mise en forme de la colonne figure 2.8 Le cliquage à droite pour d’autres mises en forme Dans tous ces trois cas, le résultat sera une fenêtre qui donne toute sorte d’informations relatives à la description de la colonne et la façon dont celle-ci avait été formatée. Compte tenu du fait que quelques nombres comportent un décimal, on complètera la boîte de Decimals par le chiffre 1. A présent, il est possible de changer le nom de la colonne en introduisant surtout dans la boîte Description, toute information complémentaire jugée utile. Cependant, la longueur de la description ne peut dépasser 39 caractères. 9 GenStat Édition Discovery pour Usage Quotidien figure 2.9 Mise en forme de la colonne L’exemple ci-dessus met en évidence un point important selon lequel en GenStat, il existe plus d’une possibilité d’accéder à un quelconque dialogue. La voie la plus rapide consiste très souvent à un cliquage à droite qui, cependant, ne donne que des boîtes de dialogue d’ordre général. 2.2.1.3 Attribution d’un nom aux feuilles des données Pour enregistrer le ficher, on utilisera la commande File ⇒ Save As. Par défaut, le fichier s’appellera sheet1.gsh et sera localisé dans le répertoire C:\GenDisc\bin. Sauvegardé comme tel, sera-t-on en mesure de retrouver le contenu de ce fichier quelque temps après? Autrement dit, pourra-t-on le différencier d’avec un autre fichier par exemple sheet453.gsh? Rien n’est moins sûr! Voilà pourquoi il est indiqué de toujours attribuer au fichier un nom qui a une certaine signification, par exemple “Hauteur et dhp de Prunus africana Mabira Uganda.gsh”. Toutefois, le nom du fichier devra être compatible avec le système de l’ordinateur. Assistance Windows 2000 précise en substance: Le nom du fichier peut avoir au maximum 215 caractères, y compris des espaces. Cependant, il n’est pas recommandé de créer les fichiers dont les noms sont d’une certaine longueur. En effet, la plupart des programmes ne parviennent pas à bien interpréter les noms des fichiers aussi longs. En outre, les noms des fichiers ne devront pas comporter les caractères suivants : \ / : * ? " < > | En conclusion, pour nommer les fichiers il faut utiliser les noms aussi détaillés que descriptifs mais sans trop exagérer tout de même. Par ailleurs, il est recommandé de changer le répertoire de travail (figure 2.11). En fait, GenStat enregistre automatiquement les feuilles de travail et autres fichiers similaires dans un répertoire par défaut. Le répertoire C:/Program files/GenDisc/bin est utilisé pour les fichiers comme ceux avec extension exe ou dll et il n’est pas souhaitable de l’encombrer par d’autres fichiers de travail. Il faudra créer, en passant par Explorateur Windows, un autre répertoire qui pourra servir à stocker les fichiers des données. Ainsi par exemple, chaque projet de recherche peut y avoir son répertoire propre 10 2 - Notions fondamentales en GenStat comprenant chacun plusieurs sous répertoires. Si l’ordinateur comporte un lecteur D, c’est mieux d’y créer ce répertoire. figure 2.10 Nom et répertoire provisoires figure 2.11 Enregistrement dans un répertoire d’une feuille GenStat portant un nom significatif choisi Pour effacer de la mémoire de l’ordinateur tout ce qui vient d’être fait, on procédera par Run => Restart Session. Puis en minimisant GenStat, on ouvre la feuille de MS Excel, ce qui permet de passer à une autre section. 2.2.2 Entrée des données en Excel. Vous avez probablement déjà saisi vos données dans une feuille de calcul en l’occurrence celle d’Excel. De toute manière, il est relativement facile d’importer en GenStat les données se trouvant dans une feuille MS Excel. Si les données ont été saisies en utilisant un logiciel autre que l’Excel, il y a lieu de suivre aussi cette section tant il est vrai que la plupart des procédures seront pratiquement similaires. Mais pour ceux qui ne sont pas familiers avec Excel, cette section peut être sautée. GenStat peut importer certains types de feuilles de calcul. Pour les connaître, on choisit Help => Contents and Index en tapant “spreadsheet” dans la boîte de l’option Index (figure 2.12). figure 2.12 Option de recherche des formats compatibles figure 2.13 Option d’aide concernant l’importation des fichiers 11 GenStat Édition Discovery pour Usage Quotidien Admettons que vous vous trouvez en Excel où vous pouvez créer une nouvelle feuille vous permettant d’entrer les données utilisées précédemment à la figure 2.5. Sur cette feuille des données en Excel, il est possible d’ajouter bon nombre d’informations dans les cellules qui précèdent les données, comme est montré dans la figure 2.14: - sur la ligne précédente des données, on peut écrire un nom court de la colonne, une ligne plus haute encore, on peut y inscrire le nom complet de cette colonne tout en exprimant les unités de mesure des données plus haut encore, d’autres informations jugées nécessaires pour l’essai peuvent y être insérées figure 2.14 Données et informations descriptives saisies sur une feuille Excel Les informations complémentaires sont parfois appelées ‘meta-data’ et permettent de donner un sens aux données. Il faudrait savoir ici que l’importation des données en GenStat requiert avant tout la définition du champ nommé en Excel. C’est pour cette raison qu’avant de quitter Excel, on sélectionnera le champ nommé des données ainsi que de la ligne d’en-tête qui contient les noms des colonnes. Au champ nommé on donnera un nom en utilisant la commande Insert => Name => Define. Un tel fichier Excel peut être nommé par exemple Prunusdata. Une fois encore, il faudra sauvegarder tout le document Excel (worksheet) sous le nom significatif en l’occurrence «Prunus africana height and dbh Mabira Uganda.xls». Il en est de même de la feuille contenant les données Excel (worksheet) qui peut être renommée «Prunus africana» en cliquant droite dans l’onglet de “sheet1”. Nous venons de clôturer momentanément la session Excel et nous pouvons dès lors le minimiser et retourner à GenStat. 12 2 - Notions fondamentales en GenStat figure 2.15 Définition d’un champ nommé en Excel figure 2.16 Attribution d’un nom significatif au champ nommé figure 2.17 Attribution du nom du champ nommé sur la feuille Excel Retrouvons la barre de menus et choisissons File => Open d’abord (figure 2.18), puis sélectionnons le fichier en complétant la boîte de dialogue qui s’est affiché. Dans l’option Files of types il faut indiquer que le fichier à importer est du type de Other Spreadsheet. figure 2.18 Ouverture d’un fichier Excel en GenStat figure 2.19 Choisir d’ouvrir le champ nommé créé en Excel, voyez figure 2.16 Dans la fenêtre suivante telle qu’illustrée à la figure 2.19, nous pouvons sélectionner le champ nommé appelé “Prunusdata”. La partie droite de cette fenêtre comporte plusieurs options qui nous permettent de définir la façon dont les données seront importées. En cliquant sur [OK], les données sont immédiatement importées sur une feuille de calcul GenStat comme la montre la figure 2.20. 13 GenStat Édition Discovery pour Usage Quotidien figure 2.20 Données importées dans une feuille GenStat Il se pourrait que l’on commette l’erreur d’importer toute la feuille de travail Excel à la place du champ nommé uniquement. Il en résulte une feuille de calcul GenStat qui ne peut être utilisée comme le montre l’exemple qui suit. Si tel est le cas, il faudra reprendre la session GenStat par Run ⇒ Restart Session et cliquer sur [Yes] pour pouvoir effacer aussi bien les fenêtres que les boîtes de dialogue et la feuille active de calcul. Choisir de nouveau File => Open et sélectionnez le fichier de données “ Prunus africana height and dbh Mabira Uganda.xls ”. Mais cette fois-ci, il faut sélectionner la feuille de travail (worksheet) “Prunus africana” comme le montre la figure 2.21. On obtient, en guise du résultat, une feuille de calcul GenStat qui comporte 2 colonnes de texte (voir figure 2.22). En fait, GenStat a pris, par défaut, le contenu des cellules en Excel sur la 1ère ligne comme les en-têtes des colonnes. Etant donné que les cellules de la 2nde ligne contiennent aussi du texte, GenStat a dû comprendre que toute la colonne est constituée du texte, d’où le symbole T vert à l’en-tête de la colonne. figure 2.21 Importation par erreur d’une feuille entière d’Excel en GenStat figure 2.22 Le résultat est que les noms des colonnes sont importées comme données Par ailleurs, il est également possible d’importer en GenStat un tableur contenant des données par la procédure de collage en GenStat du champ nommé copié en Excel. Toutefois, même si cette façon semble a priori être rapide et efficace durant l’analyse préliminaire, elle n’est cependant pas une méthode efficace recommandée dans le cadre de la gestion des données. 14 2 - Notions fondamentales en GenStat Choisissons à présent Run => Restart Session pour effacer toutes les données de GenStat et retournons en Excel. Sélectionnons ensuite le champ nommé contenant les données ainsi que les en-têtes des colonnes et cliquons droite à l’aide de la souris en appliquant l’option Copy ou alternativement, choisissons simplement le menu Edit => Copy sur la barre de menus. Dans les deux cas, les données sont envoyées dans la mémoire de Windows. Retournons à GenStat et appliquons Spread => New => from Clipboard (voir figure 2.23). Le contenu sera aussitôt intégré dans une feuille de calcul GenStat. figure 2.23 Copie des données en GenStat à partir du ‘clipboard’ 2.2.3 Méthode avancée de saisie des données. Si l’on doit faire des transferts des donnés avec un même fichier externe, Il est également possible de créer des liens avec ce fichier. Les informations y relatives peuvent être consultées notamment dans la note technique nº 2 produite par l’Unité de Support à la Recherche de l’ICRAF et qui est disponible à l’adresse suivante : http://www.wordagroforestrycentre.org/sites/RSU/datamanagement/Documents/dupeof duplication.pdf 2.2.4 Sortir du GenStat. Pour fermer la session de GenStat, on choisit naturellement File ⇒ Exit. A la question de savoir si l’on veut enregistrer chacune de fenêtres ou feuilles de calcul ouvertes, nous allons éventuellement répondre par [No] et cliquer sur [Exit] pour quitter GenStat. Les détails sur l’enregistrement des données dans les différents formats peuvent être trouvés plus loin dans le paragraphe 2.3.4. Tout en montrant comment saisir les données en GenStat, on s’est rendu compte à quel point il était facile de les transférer à partir d’un autre logiciel, Excel en l’occurrence. De cette manière, si l’on est déjà familier à ce dernier ou à tout autre logiciel statistique, l’utilisation de GenStat constituera un outil complémentaire. D’autre part, signalons que dans ce manuel, nous fournirons pas mal d’exemples des données saisies sur des feuilles de calcul en Excel. 15 GenStat Édition Discovery pour Usage Quotidien 2.3 Quelques manipulations de base de données. 2.3.1 Statistiques sommaires Recommençons la session et ouvrons de nouveau le fichier “Hauteur et dhp de Prunus africana Mabira Uganda.xls”. Aussitôt qu’on clique n’importe où en dehors de la feuille de calcul, les données qui s’y trouvent passent automatiquement dans le serveur de GenStat. Quelques informations sommaires concernant les deux colonnes Hauteur et DHP apparaissent ainsi dans la fenêtre des résultats (Output window) montrant entre autres les valeurs minimum, moyenne et maximum, le nombre total des valeurs et le nombre de valeurs manquantes. Pour d’autres éléments statistiques, on peut utiliser le menu Stats, comme montré cidessous. Nous aurons d’abord à choisir Stats ⇒ Summary Statistics ⇒ Summarise Contents of Variates, puis sélectionner les variables dont on cherche les statistiques sommaires comme le montre la figure 2.25 et cliquer [OK]. figure 2.24 Menu descriptif des statistiques en GenStat figure 2.25 Dialogue montrant les statistiques sommaires Nous pouvons rechercher les résultats obtenus dans la fenêtre Output. Si l’on ne parvient pas à visualiser cette fenêtre, on essayera de cliquer successivement les ou se trouvant dans la barre d’outils jusqu’à ce qu’elle apparaisse. boutons Certains des résultats obtenus sont montrés dans la figure 2.26. 16 2 - Notions fondamentales en GenStat figure 2.26 Les statistiques sommaires standards dans la fenêtre Output Il existe d’autres statistiques qui peuvent être effectuées à l’aide de certaines options de la boîte de dialogue de la figure 2.25. Retrouvons de nouveau la boîte de dialogue et cliquons sur le bouton [Clear] pour effacer tous les calculs statistiques affichés. Sélectionnons de nouveau les mêmes variables que précédemment, et choisissons cette fois ”Arithmetic Mean, Standard Deviation et Standard Error of Mean” et cliquons [OK]. Dans la même boîte de la figure 2.25, nous aurions pu avoir choisi d’obtenir soit l’histogramme, le boxplot ou le diagramme appelé ”stem and leaf”. Une autre gamme de graphiques peut être obtenue en utilisant le menu de graphiques. Voyons par exemple s’il existe une relation entre la hauteur et le diamètre dans notre exemple. Utilisons le menu Graphics ⇒ Point Plot (voir figure 2.27) et complétons la boîte de dialogue affichée comme illustré à la figure 2.28 ci-dessous: figure 2.27 Menu des graphiques en GenStat figure 2.28 Boîte de dialogue du graphique du type XY 17 GenStat Édition Discovery pour Usage Quotidien figure 2.29 Graphique obtenu dans une nouvelle fenêtre 2.3.2 Calcul et mise en forme des colonnes Il est facile de calculer les nouvelles variables à partir de celles déjà introduites au cours d’une session GenStat. Il suffira de choisir Spread => Calculate => Column (figure 2.30) et de préciser le type de calcul dont on a besoin ainsi que le nom sous lequel la nouvelle variable pourra être enregistrée. figure 2.30 Menu de la calculatrice en GenStat L’exemple qui suit semble être plus difficile mais assez pratique et montre la facilité avec laquelle les calculs peuvent être effectués. Lorsque nous effectuons des mensurations sur les arbres, nous visons généralement le calcul du volume. Le volume d’un paraboloïde quadratique est généralement utilisé pour estimer le volume de toute la tige de l’arbre. La formule générale sera : V= 0.5*g*h avec g comme superficie de base et h la hauteur de l’arbre. Premièrement recherchons notre fichier “ Prunus africana height and dbh Mabira Uganda.xls ”. Pour y arriver, il suffira de cliquer sur ce fichier même (si on parvient à le localiser), ou d’utiliser le bouton en flèches sur la barre d’outils ou alors de recourir au menu Window (figure 2.31). 18 2 - Notions fondamentales en GenStat figure 2.31 Un moyen de récupérer la feuille des données Le calcul de la nouvelle colonne à insérer se fait en choisissant “Spread ⇒ Calculate ⇒ Column” comme illustré plus bas. D’abord nous calculons la colonne qui contiendra la superficie de base de chaque arbre donnée par la formule : 3.1416 * DBH/2 * DBH/2. Avant de taper cette formule, il faut que le curseur soit positionné dans la longue boîte se trouvant juste au début de la boîte de dialogue ainsi ouverte. Pour insérer les noms des variables dans la formule, on peut soit les taper ou faire le double-clic sur chacun d’eux dans la liste des donnés disponibles. Il ne faudra pas oublier de taper aussi le nom du titre de la nouvelle colonne dans la boîte de Save Result In comme le montre la figure 2.32. figure 2.32 Le dialogue de calcul figure 2.33 La colonne de données obtenue Comme on peut le voir ci-dessus, il s’est ajouté à la feuille de données une nouvelle variable du nom de basalarea (voir figure 2.33) et qui comporte 14 valeurs constituant la superficie de base de chaque arbre. On remarque que le nom est partiellement ombré (coloré en jaune pour les écrans de couleur), ce qui indique simplement que la colonne basalarea est une colonne calculée. Pour illustrer la différence entre la colonne ordinaire et la colonne calculée, essayons de changer une quelconque valeur 19 GenStat Édition Discovery pour Usage Quotidien dans la colonne basalarea. GenStat donne un avertissement tel qu’illustré dans la figure 2.34: figure 2.34 Avertissement donné pour toute tentative de changer une valeur dans une colonne calculée Si vous êtes toujours dans la colonne basalarea, cliquez droite et choisissez l’option Column Attributes. Du coup, une boîte de dialogue sur la définition de la colonne va s’afficher, ce qui permettra d’avoir tous les détails de la colonne basalarea comprenant même divers calculs effectués. Ainsi, une feuille de travail de GenStat est une feuille ordinaire où sont enregistrés tous les calculs effectués, plutôt que d’enregistrer les résultats des différentes transformations. Si l’on change une valeur dans la colonne originale, la valeur dérivée ne changera pas automatiquement. Il faudra utiliser Spread ⇒ Calculate ⇒ Recalculate pour actualiser les valeurs dérivées. Essayons de le faire pour notre cas, en admettant que nos calculs contiennent une erreur. Le diamètre des arbres a été mesuré en cm, alors que généralement, la superficie de base est exprimée en m2. Nous devons par conséquent diviser chaque diamètre par 200 pour avoir le rayon en mètres. Entre temps, nous pouvons améliorer notre calcul en utilisant l’opérateur ** comme exposant. Et au lieu d’arrondir la valeur Pi à 3.1416, nous allons utiliser la commande de GenStat pour avoir la constante pi : CONSTANTS(‘pi’). La formule complète est développée dans la figure 2.35. figure 2.35 Correction du calcul 20 figure 2.36 Le colon recalculé 2 - Notions fondamentales en GenStat A présent nous avons bien la superficie de la base, mais il reste encore quelques informations à ajouter ainsi qu’à faire le nettoyage. La boîte de dialogue qui fournit toutes les informations sur la colonne peut être obtenue de trois manières: En cliquant droite dans la colonne de basalarea et en choisissant l’option Column Attributes - En passant par Spread => Column => Attributes/Format - En appliquant la touche [F9] Après l’avoir obtenue, on y définit toute la description nécessaire en fixant notamment à 2 le nombre de chiffres après la virgule, comme montré en figure - figure 2.37 Ajouter la description et fixer les chiffres après la virgule Nous pouvons maintenant calculer le volume de chaque arbre. Appliquons de nouveau le menu Spread => Calculate => Column ou alternativement, passons par Window pour autant que la boîte n’ait pas été fermée et sélectionnons Calculate dans les dossiers disponibles (voir figure 2.38) ou cliquons enfin sur le bouton de Window list dans la barre d’outils comme illustré dans la figure 2.39. Dans les trois cas, la même boîte comportant le calcul antérieurement effectué sera affichée. figure 2.38 Récupération de la boîte du dialogue de calcul figure 2.39 Une autre manière de rétablir la boîte de dialogue 21 GenStat Édition Discovery pour Usage Quotidien Beaucoup de boîtes de dialogue en GenStat restent toujours ouvertes lorsqu’on clique sur [OK] et ne sont effectivement fermées que lorsqu’on applique l’option [Cancel]. Le fait qu’elles restent actives est très important dans la mesure où il devient facile de recourir aux données qui s’y trouvent ou répéter la même opération chaque fois que de besoin sans que l’on soit obligé de passer par les menus. Toutefois, même s’il est facile d’avoir un grand nombre de fenêtres et de boîtes de dialogues ouvertes en même temps, il peut devenir relativement difficile à retrouver celle dont on a réellement besoin. C’est pour cela qu’il faut fermer chaque fois par [Cancel], toute boîte dont on n’a pas besoin en ce moment Nous pouvons dès lors calculer du volume et faire la mise en forme de la colonne comme le montrent figure 2.40 et figure 2.41 ci-dessous : figure 2.40 Le calcul du volume figure 2.41 La mise en forme du volume Rappelons que les valeurs des données de notre exemple proviennent de 14 arbres numérotés. Il aurait été utile d’incorporer cette information relative à la numérotation également. Pour y parvenir, nous pouvons cliquer dans la première colonne (Hauteur) de la feuille de données et choisir Spread ⇒ Insert ⇒ Column before Current Column. Nous obtenons une boîte de dialogue appelée Create a new column telle que présentée par la figure 2.42 ci-dessous: figure 2.42 Option d’insertion d’une colonne figure 2.43 Création d’une colonne avec les séquences régulières Par la suite, il faudra taper “treeno” dans l’option Name de la boîte et cliquer [OK]. Une nouvelle colonne comportant des valeurs manquantes (marquées par *) apparaît dans la feuille. On peut compléter cette colonne en tapant directement les chiffres de 1 à 14, 22 2 - Notions fondamentales en GenStat mais il existe un autre moyen relativement plus rapide de le faire selon des séquences régulières. En effet, cliquons droite dans la feuille et choisissons l’option Fill dans le menu de la petite boîte (ou « popup menu ») qui s’affiche comme illustré dans la figure 2.42 cidessus ou bien passons par la barre de menus Spread ⇒ Calculate ⇒ Fill. En cliquant [OK], les chiffres de 1 à 14 seront automatiquement complétés dans la colonne treeno. La boîte de dialogue Fill illustrée dans la figure 2.43, où l’on doit inscrire treeno juste au début du dialogue, sert également à définir la catégorie de séquences modelées (« patterned sequences »). L’explication détaillée peut être obtenue en cliquant dans l’option [Help] de cette boîte de dialogue. 2.3.3 Colonnes contenant des facteurs. Sachons que toute l'information introduite en GenStat a été jusqu'ici du type numérique. Et pourtant, il est fort possible d’y introduire aussi bien l'information sous forme de texte. Une structure qui peut accepter ce genre d'information s’appelle facteur. Il s’agit d’une colonne employée pour spécifier les données sous forme de divers groupes (on verra plus loin dans ce manuel des explications détaillées à ce sujet). Les sept premiers arbres dans cette série des données ont été mesurés au milieu de la forêt, à l’intérieur, alors que les sept derniers ont grandi à la bordure de cette forêt. Par conséquent, le facteur aura deux groupes ou niveaux (levels) qui sont appelés dans ce cas précis, intérieur (Interior) et bordure (Edge). Cliquons dans la 1ère colonne de notre feuille (treeno) et choisissons Spread ⇒ Insert ⇒ Column after Current Column. Et dans la boîte qui apparaît nous pouvons taper ‘Position’ devant l’option Name et, sous Column Type, nous cliquerons Factor pour en activer le nombre de niveaux. La nouvelle boîte de dialogue se présentera de la manière suivante telle qu’illustrée dans la figure 2.44. figure 2.44 Création d’une colonne de facteur Le nombre de niveaux sera spécifié comme étant égal à 2 dans l’option ‘Number of levels’. Puis, en cliquant sur l’option [Labels], une autre boîte apparaît et permettra à mettre en forme la colonne. En effet, pour le niveau 1, il faut taper ‘interior’ et appuyer sur la touche [Enter] du clavier. Automatiquement le niveau qui suit (niveau numéro 2) est sélectionné et on tapera ‘Edge’ avant d’appuyer sur [Enter]. Finalement, il faudra cliquer [OK] pour valider toutes ces entrées effectuées. Dans la boîte de dialogue Create a new column qui est toujours affichée, cliquons [OK] pour créer la nouvelle colonne contenant des cellules vides comme le montre la figure 2.46. 23 GenStat Édition Discovery pour Usage Quotidien figure 2.45 Attribution des légendes aux niveaux des facteurs figure 2.46 Présentation de la feuille obtenue Nous avons deux possibilités d’entrer la position : on peut utiliser soit les nombres ordinaux, soit la légende. Complétons par exemple les 5 premiers arbres par les nombres ordinaux, sous forme desquelles les valeurs des facteurs ont été gardées. Ce sera les nombres entiers compris entre 1 et le nombre de niveaux du facteur. Dans notre cas, comme il n’y a que deux niveaux de facteur, ces nombres seront 1,1,1,1,1,1,1,2,2,2,2,2,2,2. Cliquons droite dans la colonne vide de ‘Position’ et choisissons Column Attributes pour indiquer que le facteur sera présenté sous forme de nombres ordinaux (voir figure 2.47). Dans la colonne, complétons par 1 les 5 premiers arbres (figure 2.48). figure 2.47 Option de présentation d’un facteur sous forme des nombres ordinaux 24 figure 2.48 Introduction du premier niveau de facteur 2 - Notions fondamentales en GenStat En essayant de taper 3 comme position de l’arbre numéro 6, GenStat avertit que seuls 1 ou 2 sont les deux seules positions possibles et acceptables (voir figure 2.49). Pour effacer cette erreur volontairement introduite, il faut cliquer [OK] dans la boîte d’avertissement et appuyer sur la touche [ECHAP] ou [ESC]. Cliquons droite encore dans la colonne de ‘position’ et choisissons l’option Column Attributes en vue d’obtenir le dialogue montré dans la figure 2.47. Mais cette fois-ci le facteur sera présenté sous forme de légende (labels). Comme les noms de la légende du facteur ont déjà été saisis, il suffira de cliquer [OK] pour voir la position des 5 premiers arbres se transformer en ‘interior’. On peut maintenant compléter les autres valeurs. Sans que l’on soit obligé d’écrire la légende ‘interior’ en entier, simplement la lettre initiale suffit et GenStat fera le reste. Complétons par ‘e’ les arbres nº 8 à 14 comme le présente la figure 2.50. figure 2.49 Tentative d’écrire une valeur illégale dans une colonne de facteur figure 2.50 Entrée des données sous forme de légende dans une colonne de facteur Aussi longtemps que la lettre initiale de la légende est correctement écrite, GenStat va reproduire textuellement la légende telle qu’elle est. Mais au cas où cette lettre ne serait pas la bonne, GenStat donne un message qui demande de corriger. En cliquant double dans la fausse lettre, une petite fenêtre de menus (ou popup menu) contenant la liste des niveaux possibles va s’afficher (voir figure 2.51). 25 GenStat Édition Discovery pour Usage Quotidien figure 2.51 Fenêtre contenant la liste des légendes acceptables La colonne de position ainsi créée peut être utilisée notamment pour générer un graphique. Il suffira de sélectionner Graphics ⇒ Point Plot => Single XY type, et de compléter les différentes boîtes comme montré ci-dessous, et de cliquer [Finish]. Mais avant d’en arriver là, il y a lieu de cliquer [Next] (voir figure 2.52) pour ajouter entre autres les titres du graphique et des axes. figure 2.52 Option du choix du graphique figure 2.53 Graphique en couleurs selon les différents niveaux De ce graphique, nous pouvons relever que les points des deux groupes, tout en étant de couleurs différentes, sont néanmoins tous présentés sous la même forme de X. Cette version de GenStat (Édition Discovery qui est basée sur GenStat sous Windows 5) comporte uniquement l’ancienne version d’éditeur graphique (GenStat 4.1. graphics) où l’on peut juste ajouter le titre du graphique et des axes X et Y, mettre les flèches sur les axes et à la limite, modifier les ‘tick marks’. Et c’est pratiquement tout pour cette 26 2 - Notions fondamentales en GenStat version. En revanche, GenStat sous Windows de la version 5 SP2 comprend un autre éditeur graphiques (version 4.2) qui fournit beaucoup d’autres possibilités dont la modification du graphique existant, symboles et couleurs différents, possibilité d’agrandissement et de réduction (zooming) et de rotation et beaucoup d’autres options de mise en forme. Nous verrons plus loin dans la section 7.2.3 quelques procédures dont nous nous serviront pour pouvoir améliorer les graphiques de l’éditeur graphiques version 4.1. Pour cette version gratuite de GenStat, les graphiques sont normalement enregistrés sous trois formats différents en passant par File => Save as : *.gmf – GenStat Meta File. Ici les graphiques sont enregistrés dans le format standard de GenStat. Il est possible d’ouvrir de nouveau un fichier *.gmf en GenStat et de l’envoyer aux autres utilisateurs GenStat. Par contre, on ne peut pas insérer en Word un fichier gmf comme image. - *.bmp – Bitmap File. Dans ce format, les graphiques sont stockés en tant que pixels. Ils sont facilement utilisables dans tout l’environnement Windows et produisent notamment une bonne qualité de couleur. Un fichier en format bmp ne peut pas être comprimé, ce qui fait que d’une façon générale, ce sont des fichiers assez grands. - *.emf – Enhanced Meta File. C’est un autre format des graphiques dans l’environnement Windows, qui a succédé à l’ancien format wmf (Windows Meta File). Les graphiques se trouvant dans ce format peuvent être enregistrés à la fois comme bitmap (pixels) ou comme format vecteur. Le format emf est uniquement supporté par Windows 95 et les versions suivantes. En même temps, tous les logiciels ne supportent pas ce format mais MS Word 97 et d’autre plus récents peuvent l’importer. Si l’on veut créer un graphique temporaire qui ne sera utilisé qu’en GenStat, il est recommandé d’utiliser le format *.gmf. Mais si on souhaite l’insérer comme image dans un document Word, il sera mieux de choisir le format *.emf. Pour d’autres utilisations, le format *.bmp sera mieux indiqué. Dans l’option éditeur graphiques, il y a toujours moyen de modifier la grandeur du graphique (pixel size), en passant par (Options => Change Bitmap Size). Mais si l’on veut produire des graphiques vraiment attrayants/impressionnants, il faudra plutôt voir la version 7 de GenStat ou autres logiciels appropriés. - figure 2.54 Enregistrement d’un graphique sous forme de fichier ‘bitmap’ Fermons à présent cette fenêtre des graphiques GenStat par File ⇒ Exit de la barre de menus. 27 GenStat Édition Discovery pour Usage Quotidien Pour mémoire, nous nous sommes servis plus loin du menu Stats ⇒ Summary Statistics ⇒ Summarise Contents of Variates pour effecteur une analyse préliminaire des données. Nous allons à présent faire de même pour les deux groupes de données, mais en faisant cette fois-ci la synthèse de chaque groupe séparément. La boîte de dialogue de la figure 2.25 peut être utilisée en incluant une alternative plus générale pour devenir :Stats ⇒ Summary Statistics ⇒ Summaries of Groups (Tabulation) tel qu’illustré dans la figure 2.55. figure 2.55 Le dialogue de tabulation figure 2.56 Statistiques sommaires de chaque niveau de facteur Il suffira de compléter la boîte de dialogue comme montrée ci-dessus en validant par [OK]. Les résultats vont apparaître dans la fenêtre des résultats (Output window ; figure 2.56). Il ne reste qu’à enregistrer la feuille de travail ainsi créée. 2.3.4 Enregistrement des données GenStat en Excel. Nous avons déjà vu dans () comment enregistrer une feuille de données en GenStat. Normalement il s’affichera une fenêtre dans laquelle nous devrions préciser si les données peuvent être sauvegardées provisoirement comme fichier GenStat spreadsheet (*.gsh). Ceci est particulièrement important dans la mesure où il sera facile de faire la compatibilité avec les anciennes versions de GenStat. Mais encore un fois, il existe un grand choix pour d’autres types de fichiers dont on peut se servir pour enregistrer. Le nous a montrés comment les données pouvaient être importées à partir d’Excel. Et c’est de cette manière que le fichier “Prunus africana height and dbh Mabira Uganda.xls” a été importé. Nous allons ouvrir de nouveau ce fichier et refaire le calcul de la surface de la base. Comme les calculs effectués antérieurement ont été faits sur une feuille GenStat, il va de soi que le tableur Excel de ces données conserve toujours les deux types de colonnes Height and DBH. Ainsi, nous allons d’abord effacer toutes les données de la mémoire de GenStat en utilisant le menu Run => Restart Session, puis en répondant [Yes] à la question affichée. Par la suite, nous allons ouvrir le fichier Excel et calculer la surface de la base en nous référant, au besoin, au . Pour l’instant, nous avons besoin d’enregistrer cette feuille comme fichier Excel et, par conséquent, nous appliquons le menu File => Save. 28 2 - Notions fondamentales en GenStat figure 2.57 Ajouter la feuille au fichier Excel figure 2.58 Une nouvelle feuille Excel est ajouté Le résultat qui s’affiche est un message d’avertissement tel qu’illustré dans la figure 2.57. Si on clique sur [Overwrite], toutes les feuilles du classeur “Prunus africana height and dbh Mabira Uganda.xls” seront éventuellement effacées et remplacées par les données de la feuille que nous venons de calculer en portant le nom de GenStat Data. Par contre, si nous cliquons sur [Add], les feuilles existantes seront gardées intactes et une nouvelle feuille du nom de GenStat Data sera ajoutée au classeur d’Excel (voir figure 2.58). En répétant cette opération, on constatera que d’autres feuilles seront successivement ajoutées au classeur en prenant les noms de: GenStat Data, GenStat Datb, GenStat Datc, … 2.3.5 Importation des facteurs à partir d’Excel. Si les données importées d’Excel comportent des facteurs, GenStat les traitera de manière quelque peu particulière. Dans notre exemple, Interior était le premier niveau de facteur et Edge, le second. Si vous deviez importer une colonne qui contient les facteurs “Interior” et “Edge” à partir d’Excel, Edge devrait avoir un nombre ordinal 1 (facteur nº1) et Interior, le nombre 2. En fait, ceci est dû par le fait qu’Excel lit en ordre alphabétique, les facteurs provenant de ses propres fichiers. 2.3.6 Suppression des données quelconques. En guise d’exemple, nous allons nous servir de la colonne appelée treeno. Il sera question de montrer la différence qui existe si l’on efface la colonne entière ou son contenu uniquement. Sélectionnons d’abord la colonne concernée. Pour le faire, nous pouvons soit cliquer dans la zone du nom, soit cliquer dans la colonne et appuyer [Alt]+[Ctrl]+C ou soit enfin, utiliser le menu Spread ⇒ Select ⇒ Current Column. En cliquant de nouveau, la colonne sera sélectionnée et, comme telle, l’application de la touche [Delete] devrait l’effacer complètement. Curieusement, en appuyant sur cette touche, seules les donnés disparaissent mais la colonne reste. Pour pouvoir les restituer, nous passerons par le menu Edit ⇒ Undo Del Cells ou par les touches [Ctrl] + Z (voir figure 2.59). 29 GenStat Édition Discovery pour Usage Quotidien Et maintenant, le curseur placé dans la colonne, choisissons le menu Spread ⇒ Delete ⇒ Current Column. Cette fois la colonne sera complètement effacée. Mais vous pouvez encore la retrouver soit par le menu Edit ⇒ Undo Del Col ou soit en appuyant [Ctrl] + Z (voir figure 2.60) De la même manière, peuvent être sélectionnées et effacées une ou plusieurs lignes. figure 2.59 Annulation de la suppression des cellules figure 2.60 Annulation de la suppression des colonnes 2.4 Compréhension du fonctionnement de GenStat 2.4.1 Variables disponibles. Fermons la feuille qui contient les données de Prunus africana soit en sélectionnant le menu File => Close, soit en appuyant [Ctrl]+[F4] ou enfin en cliquant sur le petit bouton en X au coin supérieur droit de la feuille. Une fois cette dernière fermée, pensez-vous que les données se trouvent encore quelque part en GenStat ? figure 2.61 Option de fermeture de la feuille GenStat La réponse est positive étant donné que GenStat visible à l’écran n’est qu’une interface Windows qui envoie les commandes à un programme fonctionnant à l’arrière-plan appelé Serveur de GenStat. Quand ces commandes sont appliquées, la barre d’état de GenStat affiche un message qui annonce ce qui est en train de se passer. Sur la barre des tâches de Windows, l’icône de GenStat change de couleur verte (figure 2.62) en rouge (figure 2.63). Cette procédure se fait tellement vite que nous ne parvenons pas à l’observer surtout quand les données introduites sont de petite taille. 30 2 - Notions fondamentales en GenStat figure 2.62 La barre d’outils montrant le serveur de GenStat en attente figure 2.63 L’icône du serveur de GenStat devenant rouge quand le serveur entre en activité Ainsi, même si visiblement, nous n’observons rien à l’écran, il peut y avoir néanmoins pas mal de formes de données quelque part dans le serveur de GenStat. Nous pouvons vérifier les variables qui y sont disponibles en utilisant soit le menu Data ⇒ Display ou en appuyant sur la touche [F5]. Dans la boîte de dialogue présentée à la figure 2.64, il faudra cliquer dans All data. figure 2.64 Liste des variables disponibles dans le serveur de GenStat Cette boîte affiche les noms des structures disponibles ainsi que leurs catégories correspondantes (types) comme le montre la figure 2.64. Toutes les structures utilisées jusqu’ici sont les variables (Height, DBH, basalarea, volume, treeno) et les facteurs (Position), mais plus tard, nous aurons également besoin d’autres types de colonnes. En outre, cette boîte de dialogue est utile car, à partir d’elle, il est possible d’éliminer certaines colonnes dont on n’aura plus besoin. Pour fermer cette boîte de dialogue qui permet l’affichage des données (Data Display), il suffit de cliquer sur [Close]. L’information relative à la suppression de toutes les données du serveur de GenStat est détaillée dans le . 2.4.2 Une première introduction au langage de commande de GenStat. GenStat est fondamentalement une application standard de Windows fonctionnant dans le serveur de GenStat. Comme ce logiciel existait bien longtemps avant que Windows ne soit mis au point, il va de soi que son utilisation exigeait, à l’époque, la maîtrise du langage. Celui-ci consistait à simplement taper les commandes qui, par ce fait, étaient directement envoyées à GenStat. Dans cette version de GenStat Discovery, les menus sont basés sur un langage de commande fondamental appelé ‘GenStat release 4.2’ (voir la figure 2.65). L’appellation ‘Release 4.2’ signifie que cette version est basée sur la 4ème grande révision du serveur de GenStat qui a reçu deux révisions mineures. L’édition Discovery est à son tour basée sur la 5ème édition de GenStat sous Windows légèrement modifié. 31 GenStat Édition Discovery pour Usage Quotidien Actuellement il est encore possible d’utiliser GenStat en tapant les commandes dans la fenêtre des entrées (Input) comme illustré dans la figure 2.65 ci-dessous. En même temps, nous présentons la façon dont GenStat est utilisé comme calculatrice. figure 2.65 Détails concernant GenStat Ouvrons de nouveau GenStat en utilisant le menu File ⇒ New ⇒ Text Window (voir figure 2.66). Nous obtenons un Input Window dans lequel nous pouvons taper Print 3+4 comme illustré dans la figure 2.67 ci-dessous. figure 2.66 Menu d’accès à la fenêtre du texte figure 2.67 Introduction d’une commande GenStat Sélectionnons à présent le menu Run (voir figure 2.68) et appliquons soit Submit Line (pour autant que le curseur se trouve encore dans la ligne précédemment tapée) soit Submit Window. 32 2 - Notions fondamentales en GenStat figure 2.68 Envoie des commandes de tâche à GenStat figure 2.69 Résultats présentés à l’Output Par cette action notre "programme" de commandes vient d’être soumis au serveur de GenStat. Les résultats sont présentés dans la fenêtre des résultats (Output Window). En ouvrant cette fenêtre (Output) par un des moyens vus, par exemple à travers le menu Windows, nous remarquons que GenStat a exactement repris la même commande et le résultat affiché est 3+4=7. La version Windows de GenStat nous donne plusieurs façons de soumettre les calculs au serveur de GenStat. Une autre alternative consiste à passer par le menu: Data ⇒ Calculations comme le montre la figure 2.70. figure 2.70 Menu de calcul des données figure 2.71 Utilisation du dialogue du calcul Nous allons taper 3 + 4 comme fonction et cliquer sur Print in Output en appliquant [OK] pour valider. En regardant dans l’Output, on a pratiquement le même résultat 3 + 4 toujours égal à 7 (voir figure 2.72). 33 GenStat Édition Discovery pour Usage Quotidien figure 2.72 Et oui ! 3 + 4 est toujours 7 figure 2.73 ‘Input log’ La fenêtre des entrées Input Log Window jour un rôle très important d’autant qu’elle conserve toutes les opérations effectuées lors de la définition des commandes (voir figure 2.73). Elle peut s’ouvrir notamment par Window ⇒ Input Log. Il est intéressant de constater que le menu Calculation a certes été exécuté par GenStat en termes de commandes PRINT 3+4 envoyées dans le serveur de GenStat. C’est, en définitive, de cette façon que fonctionne GenStat. Il s’agit simplement de définir les commandes qui sont envoyées au serveur de GenStat. Concernant la préparation de ces commandes, cette version de Windows a proposé plusieurs options de le faire. Nous avons vu que GenStat ne fait qu’obéir à l’instruction qu’il reçoit et déponibilise les résultats dans la fenêtre des résultats Output Window. Il conservera toutes les opérations des commandes effectuées dans la fenêtre des entrées Input Window. Si la commande envoyée s’applique à la production des graphiques, GenStat l’orientera ipso facto dans la fenêtre des graphiques Graphics Window. En cas d’une quelconque faute intervenue durant la préparation des commandes, GenStat écrit un message concernant cette erreur et le place dans la fenêtre des fautes Fault Window et éventuellement dans la fenêtre des résultats Output Window. L’exemple ci-dessous (3+4=7) fait croire que GenStat pourrait servir de calculatrice. Précisons que l’utilisation du logiciel comme calculatrice n’est pas une bonne pratique et il serait souhaitable de d’en disposer une de poche devant parfois servir durant la transformation des données. Par ailleurs, nous savons qu’il est parfois nécessaire de transformer les données. A titre d’exemple, admettons qu’on veuille calculer la différence entre 4.35 et 2.37 et le résultat pouvant être exprimé en pourcentage de 4.35. Nous allons ouvrir la calculatrice dans le menu Data ⇒ Calculations, puis vérifier si l’option Print in Output est encore sélectionnée (par √) et taper alors le calcul suivant dans la longue case se trouvant juste au début de la boîte : 100 * (4.35 -2.37) / 4.35 Nous allons cliquer enfin [OK] pour valider. La vérification de l’Output Window montre que l’opération a finalement abouti au résultat suivant: (100* (4.35- 2.37))/ 4.35 45.52 Donc, la différence est 45.52 % de 4.35. Il est important de souligner que les parenthèses doivent être placées correctement, autrement la réponse sera complètement différente. 34 2 - Notions fondamentales en GenStat Nous pouvons essayer d’autres calculs pour bien comprendre comment GenStat fonctionne en utilisant à la fois Input window et la boîte de dialogue Data ⇒ Calculations. Les symboles +, -, *, / sont utilisés respectivement pour les opérations d’addition, soustraction, multiplication et de division, alors que ** est employé pour les puissances. Il existe également d’autres fonctions mathématiques telle que SQRT() qui sert à calculer la racine carrée d’un nombre quelconque. Le nombre en question est écrit entre parenthèses, par exemple SQRT(12.37). Le tableau ci-après donne une vue d’ensemble de quelques calculs en utilisant Input Window. L’explication détaillée se trouve dans le fichier Help de GenStat en-dessous de ‘List of functions for expressions’. Quelques calculs élémentaires obtenus en utilisant Input Window Symbole Opération Exemple Résultat + addition PRINT 3+4 7.000 - soustraction PRINT 3-4 - 1.000 * produit PRINT 3*4 12.00 / division PRINT 3/4 0.7500 ** élévation à une puissance PRINT 3**4 81.00 Fonction Opération Exemple Résultat SQRT(x) Racine carrée PRINT SQRT(4) 2.00 EXP(x) Fonction exponentielle PRINT EXP(1) 2.718 LOG(x) Logarithme naturel de x PRINT LOG(2.718) pour x > 0 0.9999 LOG10(x) Logarithme à base 10 de PRINT LOG10(10) x pour x > 0. 1.000 ROUND(x) Valeurs arrondies de x au PRINT nombre entier le plus ROUND(1.2345678) proche. 1.000 Autres exemples PRINT (1/2) 0.5000 PRINT (100*(4.35 -2.37))/4.35 45.52 PRINT CONSTANTS(‘pi’) 3.142 PRINT CONSTANTS(‘e’) 2.718 Par défaut, GenStat ne montrera que 3 décimaux dans l’Output Window lorsqu’on utilise la commande PRINT ou PRINT directive (dans la terminologie de GenStat on utilise plutôt le nom directive au lieu de commande). Pour modifier ce nombre, on ajoute un paramètre à cette directive. Ainsi par exemple, PRINT CONSTANTS (‘pi’) ; DECIMALS=10 donnera 3.141592852 dans la fenêtre des résultats (Output). 35 GenStat Édition Discovery pour Usage Quotidien Très souvent il sera nécessaire de faire les calculs dans la feuille de GenStat comme vu précédemment à la section 2.3.2. Mais à mesure que vous vous habituerez à travailler en GenStat, vous serez plus à l’aise à faire les calculs dans le serveur de GenStat en utilisant le menu plutôt que par Spread ⇒ Calculate ⇒ Column utilisé cidessus. Au niveau du serveur GenStat, le résultat est le même dans les deux cas, à cette seule différence que pour le premier cas Data ⇒ Calculations, on ne voit pas automatiquement la colonne calculée dans la feuille. 2.4.3 Détails concernant le serveur. Après avoir effectué plusieurs calculs, il est évident que les fenêtres des entrées (Input) et des résultats (Output) seraient pleins d’écrits en désordre. Ceux-ci sont généralement nettoyés du serveur de GenStat par le menu Data ⇒ Clear All Data ou Run ⇒ Restart Session. Plus facilement encore, on peut supprimer les donnés de l’Output en cliquant le bouton ‘Clear Output’ ( ) se trouvant dans la barre d’outils. D’autre part, les deux fenêtres d’entrées et des résultats peuvent être enregistrées (activer d’abord la fenêtre en cliquant dedans puis utiliser le menu File => Save As). Les données de la fenêtre Input sont sauvegardées en tant que fichier normal de texte ou comme fichier GenStat (*.gsh). De la sorte, il est possible de refaire les mêmes commandes dans la fenêtre des entrées (Input) pour une nouvelle analyse similaire. De même, la fenêtre des résultats (Output) peut être sauvegardée comme fichier texte ou simplement comme ‘fichier output’ (*.out). Il est important de toujours sauvegarder les résultats d’une analyse effectuée en vue d’une éventuelle comparaison avec les autres résultats obtenus précédemment ou pour les insérer dans des rapports ou autres documents. En plus, l’enregistrement des données se trouvant aussi bien dans l’Output que dans l’Input contribue à faire un feed-back de ses propres réalisations concernant les différents travaux d’analyses. 36 3 Quelques notions simples en statistique Le chapitre précédent vient de présenter le fonctionnement de GenStat en général tout en initiant l’utilisateur aux diverses commandes de ce logiciel. Les deux chapitres suivants vont aborder dans le même sens en se focalisant plus particulièment sur différents aspects d’utilisation de GenStat Edition Discovery ainsi qu’à la revue de quelques éléments statistiques de base. En même temps, nous verrons comment le logiciel peut faciliter la compréhension de la statistique. La plupart des exemples développés dans ce chapitre ont été tirés du livre de Mead, Curnow and Hasted1. Nous renvoyons le lecteur désireux d’obtenir davantage d’information concernant l’aspect statistique de ces exemples à la section appropriée du document susmentionné ou à un autre manuel similaire. 3.1 Autres manipulations de données : cas de mise en commun de deux feuilles En ce qui concerne l’analyse, il est bon de noter que nous avons considéré la statistique descriptive. Dans ce contexte, les données étaient présentées sous forme numérique suivies de la production des graphiques. Dans les chapitres qui suivent, nous nous proposons de présenter quelques autres manipulations des données avant d’introduire les éléments concernant la simple inférence statistique. Mais avant d’en arriver là, il nous paraît nécessaire d’aborder avant tout d’autres manipulations des données. Dans l’exemple ci-dessous tiré du livre de Mead, Curnow and Hasted, pages 36 et 42, nous comparons 6 observations d’une variété nouvelle de Blé ‘new’ ayant fourni les rendements suivants, en tonnes/ha: variété nouvelle ‘new’: 2.5 2.1 2.4 2.0 2.6 2.3 avec 10 observations de la variété standard ‘standard’: variété standard ‘standard’: 2.2 1.9 1.8 2.1 2.1 1.7 2.3 2.0 1.7 2.2 Comme ces colonnes sont de différentes tailles, les données vont être saisies sur deux feuilles séparées. Pour la première série de données, procédez comme suit: Spread ⇒ New ⇒ Blank tel que montré plus haut dans le chapitre 2.2.1, à la page 6. Vous pouvez par la suite l’arranger de manière à avoir une colonne de 6 lignes dans laquelle les données peuvent être introduites selon la procédure présentée ci-dessus et à la fin, il faudra attribuer à la colonne le nom de “new” Enregistrez maintenant la feuille de données ainsi créée, en lui donnant un nom significatif tel que vu dans le chapitre 2.2.1.3 à la page 10, par exemple “Wheat variety 1 Roger Mead, Robert N. Curnow, Anne M. Hasted, 2003. Statistical Methods in Agriculture and Experimental Biology. Third Edition. Chapman & Hall/CRC. 472 pages ISBN 1-58488-187-9 GenStat Édition Discovery pour Usage Quotidien new.gsh”. Puis utilisez Spread⇒New ⇒Blank de nouveau mais en changeant le nombre de lignes à 10 et entrez la seconde série de données dans cette autre feuille, et renommez la colonne ainsi créée de standard. Sauvegardez cette feuille sous un autre nom de “Whear variety standard.gsh” par exemple (figure 3.2). figure 3.1 Feuilles des données de rendements ‘Wheat yields’ figure 3.2 Attribution d’un nom à la feuille des données Souvent les données nécessitent d’être réorganisées avant l’analyse. Nous montrons ici l’étape qui consiste à la mise en commun de deux séries de données différentes. Il s’agira de mettre ensemble les données de deux colonnes et d’insérer une nouvelle colonne qui spécifie de quelle série de données provient chaque observation. Si les feuilles se trouvent encore en GenStat, elles peuvent alors être ouvertes. Rappelons qu’elles avaient été sauvegardées sous le nom de ‘Wheat variety new.gsh’ et de ‘Wheat variety standard.gsh’ (voir figure 3.1). figure 3.3 Feuille des données de 'Wheat variety standard.gsh' en tant que fenêtre active. figure 3.4 Présentation de la boîte de dialogue ‘Append Data’ Cliquez dans la feuille ‘Wheat variety standard.gsh’, pour qu’elle devienne une fenêtre active (voir figure 3.3). Utilisez Spread ⇒ Manipulate ⇒ Append et complétez le dialogue comme le montre la figure 3.4, c’est à dire en joignant les données de ‘Wheat 38 3 - Quelques notions simples en statistique variety new.gsh’ aux données se trouvant dans ‘Wheat variety standard.gsh’. En même temps nous spécifions que la colonne de facteur comportant le nom de Variety sera utilisée pour distinguer les deux séries de données et que le deuxième niveau sera nommé ‘new’. À la fin, vous pressez [OK] pour valider. figure 3.5 Feuille des données obtenue après l’opération de mise en commun figure 3.6 Présentation de la feuille finale obtenue Après la mise en commun de deux séries de données, on obtient une feuille présentée à la figure 3.5. C’est sous cette forme que nous présenterons assez souvent les données pour la suite de ce document. Il ne reste plus qu’à faire le nettoyage devant aboutir à la feuille des données illustrée à la figure 3.6. Ce nettoyage consistera à : - Changer l’appellation du premier niveau de facteur d’original à standard. (voir chapitre 2.3.3) Renommer la colonne par des variables de standard à rendement. (voir chapitre 2.2.1.1) Sauvegarder la feuille sous le nom de ‘wheat yield.gsh’ (voir chapitre 2.2.1.3) Donc, il y a trois feuilles visible (voir figure 3.7). Les données dans le serveur de GenStat se présenteront selon l’illustration de la figure 3.8. 39 GenStat Édition Discovery pour Usage Quotidien figure 3.7 Les feuilles visibles des données 3.2 figure 3.8 Affichage des données disponibles dans le serveur de GenStat Exploration visuelle des données. 3.2.1 Les diagrammes en boîtes ‘boxplots’. Une approche servant à la présentation des données est l’utilisation des diagrammes en boîtes ‘boxplot’. Il est toujours important d’explorer visuellement les données avant d’entreprendre une quelconque analyse statistique. De cette façon nous avons une certaine idée de la tendance des données et nous pouvons ainsi découvrir des anomalies éventuelles. Appliquons le menu Graphics => Boxplot. Lorsque nous avons les données se trouvant sur deux feuilles différentes (comme pour le cas des fichiers “Wheat variety new.gsh” et “Wheat variety standard.gsh”), nous compléterons la boîte de dialogue selon ce qui est montré à la figure 3.9 en validant par [Finish]. Mais quand ces données seront organisées sur une feuille des données en tant que variable unique comportant plusieurs groupes (comme le cas du fichier ‘Wheat yield.gsh’), alors nous compléteront le dialogue comme montré à la figure 3.10. Il en résulte les graphiques correspondants tels qu’illustrés par la figure 3.11. 40 3 - Quelques notions simples en statistique figure 3.9 Dialogue d’un diagramme en boîtes quand les données sont sur des feuilles différentes figure 3.10 Dialogue d’un diagramme en boîtes quand les données sont organisées en une seule variable de plusieurs groupes figure 3.11 Les diagrammes en boîtes obtenus De ces diagrammes, nous avons l’impression que le rendement de la nouvelle variété ‘new’ est supérieur comparé à celui de la variété standard ‘standard’ bien qu’apparemment il y ait quelques points de recouvrement. L’analyse statistique formelle pourra confirmer ultérieurement ces résultats mais, en attendant, voyons en peu en profondeur cette notion de boxplots. 3.2.2 La médiane et les quartiles. On appelle diagramme en boîtes ‘boxplot’, une représentation graphique d’un ensemble de 5 valeurs d’une série des données : minimum, q1, médiane, q3, maximum. La valeur centrale des données rangées par ordre croissant est appelée médiane. Quand il y a un nombre pair d’observations, on comprend aisément que la médiane sera la moyenne de deux valeurs centrales. La moitié de toutes les observations est 41 GenStat Édition Discovery pour Usage Quotidien constituée des valeurs inférieures à la médiane pendant que celles de l’autre moitié seront supérieures. ~ - x=x ( n +1) / 2 ~ - x = (x ( n / 2) (n = pair) + x( n / 2+1) ) / 2 (n=impair) La médiane du rendement de la variété standard est (2.0 + 2.1)/2 = 2.05. rendement ‘yield’ classement ‘rank’ 1.7 1 1.7 2 1.8 3 1.9 4 2.0 5 2.1 6 2.1 7 2.2 8 2.2 9 2.3 10 La valeur de la médiane n’est pas influencée par des valeurs extrêmes ni ne change avec le mode de distribution des données qu’il soit symétrique, dissymétrique ou bimodal. Les quartiles divisent les données en plusieurs groupes : 1er quartile = q1 = 25 % des observations sont plus petits, 75 % sont plus grands - 2ème quartile = q2 = médiane - 3ème quartile = q3 = 75 % des observations sont plus grands, 25 % sont plus petits Le calcul des quartiles2: - q1 = la médiane du groupe d’observations en dessous de la médiane. q1 du rendement de blé standard = 1.8 - q3 = la médiane du groupe d’observations au-dessus de la médiane. q3 du rendement de blé standard = 2.2 La différence entre q3 et q1 est appelée l’interquartile ou écart interquartile (q3-q2). C’est une mesure d’extension d’une distribution. Elle n’est pas influencée par les valeurs extrêmes. (q3-q2) du rendement du blé standard est égal à 0.4. - Nous pouvons dire que la médiane et le quartile constituent des cas particuliers des percentiles. D’une manière générale, le nème pourcentile est une valeur par laquelle le pourcentage p est inférieur à la valeur des observations alors que (100 – p) est supérieur à cette valeur. Les percentiles sont appelés quantiles en GenStat Edition Discovery. Il existe plusieurs possibilités de calculer la médiane, les quartiles ainsi que les quantiles. La première méthode consiste à utiliser le menu Stats => Summary Statistics => Summarize Contents of Variates. La figure 3.12 présente les boîtes de dialogue utilisées quand le groupe de 5 nombres proviennent de deux variables alors que la figure 3.13 montre celles qui sont appliquées lorsqu’il s’agit d’une variable comportant plusieurs groupes. Les résultats obtenus peuvent être observés dans la fenêtre d’Output. 2 Au cas où toute la série de données aurait un nombre impair d’observations, il faut noter qu’il existe deux moyens de calculer les quartiles. GenStat exclut la médiane pour calculer q1 et q2 alors que certains autres auteurs préfèrent de l’inclure. 42 3 - Quelques notions simples en statistique figure 3.13 Calcul de l’ensemble de 5 figure 3.12 Calcul de l’ensemble de 5 nombres nombres pour les données ayant une pour les données ayant deux variables. variable comportant plusieurs groupes. Pour les variables comportant plusieurs groupes, nous pouvons utiliser aussi le menu Stats => Summary Statistics => Summaries of Groups (Tabulation). Mais ici nous devrons définir nous mêmes la valeur de l’option ‘quantile percentage points’ dans la boîte de dialogue correspondante. En effet, dans la figure 3.14, cette valeur est de 25, 50 et 75 pour le quartile inférieur ‘lower quartile’, la médiane ‘median’ et le quartile supérieur ‘upper quartile’ respectivement. Cliquons sur [OK] pour que ces résultats puissent être présentés dans la fenêtre Output. Autrement nous pouvons cliquer sur l’option [Save] qui nous donne la fenêtre obtenue et affichée à la figure 3.15. Cette fenêtre comporte différentes possibilités nous permettant d’enregistrer les statistiques sommaires en plusieurs tableaux tels que présentés à la figure 3.16. figure 3.14 Présentation de la boîte de dialogue sur le calcul des quartiles figure 3.15 Boîte de dialogue permettant d’enregistrer les statistiques sommaires sous plusieurs types de tableaux 43 GenStat Édition Discovery pour Usage Quotidien figure 3.16 Tableaux obtenus pour l’ensemble des 5 nombres par niveau de facteur. Enfin, il faut signaler qu’il est également possible d’utiliser le langage des commandes tel que nous l’avons vu à la chapitre 2.4.2 (page 31). À titre d’exemple, l’exécution de la ligne suivante : QUANTILE standard,new Donnera, à l’Output, l’ensemble des valeurs de 5 nombres pour les variables ‘new’ et ‘standard’, comme le montre la figure 3.17. figure 3.17 Résultats obtenus en exécutant la commande QUANTILE 44 3 - Quelques notions simples en statistique 3.2.3 Utilisation des diagrammes en boîtes ‘boxplots’. Comparaison des groupes Les diagrammes en boîtes ‘boxplots’ constituent un outil facile permettant de comparer les groupes de données. Dans la figure 3.11 notamment, il apparaît comme si le rendement de la nouvelle variété était plus grand que celui de la variété standard. Quoi qu’il en soit, Il y a beaucoup de divergences à ce sujet et rappelez-vous à quelle échelle nous sommes en train de travailler (valeur minimum est 1,7 ; valeur maximum 2,5). Ceci doit être confirmé par un test statistique formel. Dans le cas où ce test montrerait des résultats différents comparés à ceux présentés par le graphique exploratoire, nous en déduisons l’existence d’une certaine anomalie. Valeurs aberrantes Une autre application de diagrammes en boîtes consiste à montrer les valeurs aberrantes. Retournez aux données de départ en modifiant par exemple la 8ème valeur à 2,9 au lieu de 2,0 dans le groupe Standard. N’oubliez surtout pas d’appuyer sur la touche [Enter] après avoir changé cette valeur, autrement les données du serveur en GenStat ne seront pas mises à jour. L’allure générale reste la même, à part que la valeur impaire aura besoin d’être profondément vérifiée. Il y a maintenant deux moyens de présenter le diagramme en boîtes. Au lieu d’utiliser Graphics ⇒ Boxplot et de cliquer immédiatement sur [Finish], vous pouvez cliquer plutôt sur [Next]. Cette opération va vous mettre devant le choix entre deux types de diagrammes: Box and Whisker et Schematic. Mais nous savons en substance que l’avantage de ce dernier est qu’il permet de découvrir facilement les valeurs aberrantes. figure 3.18 Le graphique de type Box and Whisker figure 3.19 Le diagramme en boîte de type Schematic montrant les valeurs aberrantes Dans un diagramme en boîtes du type Box and Whisker, les extrémités des ‘moustaches’ marquent les valeurs minimum et maximum de la série des données ; dans un boxplot du type Schematic, elles marquent une sorte de ‘limite intérieure inférieure et supérieure’. Cette dernière est définie comme la valeur de donnée maximum qui est encore plus petite que le quartile supérieur à laquelle on ajoute 1.5 fois la valeur (q3-q2) ; ou encore elle peut se définir comme étant la valeur maximum si celle-ci est plus petite que le quartile supérieur plus la valeur (q3-q2). La limite intérieure inférieure se définit aussi de façon similaire. Les valeurs extrêmes entre 1,5 et 3 fois (q3-q2), auxquelles on ajoute le quartile supérieur ou desquelles on soustrait le quartile inférieur, sont, par défaut, présentées sous forme de croix vertes. Plusieurs 45 GenStat Édition Discovery pour Usage Quotidien valeurs extrêmes (plus de 3 fois l’intervalle donné plus haut) sont marquées de croix rouges. Allure de distribution Finalement un boxplot permet d’avoir une idée sur l’allure de la distribution, bien que vous pouvez aussi obtenir cette information à partir d’autres graphiques (histogrammes et QQ-plot). La figure 3.20 présente le diagramme en boîtes des données provenant d’une distribution normale symétrique autour de 0 dans laquelle on trouve une observation pouvant être considérée comme valeur aberrante. Les mêmes données sont représentées par un histogramme à la figure 3.21. figure 3.20 Diagramme en boîtes des données figure 3.21 Histogramme correspondant aux normalement distribuées (avec une valeur données précédentes aberrante) La figure 3.22 nous présente l’exemple d’une distribution dissymétrique comportant une longue queue constituée par des valeurs aberrantes. Notons ici que 50 % des observations ont une valeur comprise entre 1 et 3 sachant que la plus grande est égale à 100. figure 3.22 Disgramme en boîtes des données figure 3.23 Histogramme correspondant d’une distribution dissymétrique 46 3 - Quelques notions simples en statistique Avant de continuer, nous pouvons remettre la valeur 2.0 modifiée précédemment dans les données de la variété standard de blé ‘standard’ pour besoin d’illustration. 3.3 Les tests d’hypothèses. Certains des exemples dont nous nous sommes servis dans cette section ont été tirés du document “Confidence and Significance: Key Concepts of Inferential Statistics” édité par ‘Statistical Services Centre of The University of Reading’, et publié en 2001. Cet ouvrage, téléchargeable gratuitement à partir de : http://www.ssc.rdg.ac.uk/develop/dfid/booklets.html, contient pas mal d’informations qui touchent divers aspects statistiques. 3.3.1 Test de l’hypothèse sur la moyenne d’une population. L’exemple suivant est tiré de l’ouvrage mentionné ci-dessus. Il s’agit d’un essai en milieu paysan que conduit un chercheur dans le but d’étudier l’effet de l’engrais vert de Tephrosia vogelii sur la fertilité des sols. Il estime qu’en utilisant l’engrais vert de cette espèce, le rendement en production de gousses de pois cajan ‘pigeon pea’ devrait augmenter. Dans cet essai, le pois cajan a été planté chaque fois dans deux parcelles avec et sans engrais et installées chez 8 fermiers. Les données collectées concernent les différences en poids de gousses ‘pod weights’ entre deux parcelles (kg/plot). 3.0 3.6 5.4 -0.4 -0.8 4.2 4.8 3.2 Notre hypothèse nulle ici est qu’il n’y a pas de différence en poids de gousses. Cette hypothèse sera vérifiée en fonction d’une autre hypothèse alternative selon laquelle il existe une différence. Symboliquement, ces deux hypothèses s’écrivent: H 0 : µ = 0 kg plot H 1 : µ ≠ 0 kg plot Pour commencer, nous allons entrer les données de différences en poids de gousses dans une nouvelle feuille de données et l’enregistrer comme podweight.ghs (voir figure 3.24), en produisant en même temps les statistiques sommaires. En outre, nous savons que le test t, utilisé dans la comparaison des moyennes, est calculé en fonction de la moyenne (‘mean’) et l’erreur standard (‘standard error’) tels que présentés à la figure 3.25. 47 GenStat Édition Discovery pour Usage Quotidien figure 3.24 Présentation de la feuille des données des différences en poids ‘podweight’ figure 3.25 Quelques statistiques sommaires à l’Output La formule générale d’un tel test t d’un échantillon ‘one sample t-test’ se présente de la manière suivante: t = (valeur estimée ‘estimate’ – valeur d’hypothèse ‘hypothesised value’) / erreur standard de la valeur estimée ‘standard error of the estimate’ ce qui devient, dans le cas de notre exemple: t = (2.875 – 0)/0.81 = 3.55 et cette valeur est à comparer avec la distribution t à 7 degrés de liberté. Pour le faire en GenStat, nous choisissons le menu Stats => Statistical Tests => TTest en complétant la boîte de dialogue obtenu comme le montre la figure 3.26. figure 3.26 La boîte de dialogue du test t figure 3.27 Résultats du test t à l’Output Les résultats du test t peuvent être vérifiés dans la fenêtre de l’Output (voir figure 3.27). Comme la valeur est égale à 0.009, cela signifie que si l’hypothèse nulle est vraie (c’est à dire qu’il n’existe pas de différence en poids de gousses ‘podweight’), alors nous aurons moins d’1% de chance d’obtenir l’échantillon. Et cela n’est pas impossible. Quoi qu’il en soit, il est peu probable que nous pouvions déclarer maintenant que le résultat est statistiquement significatif et de rejeter ainsi l’hypothèse nulle. Dans la même fenêtre d’Output, nous trouvons l’intervalle de confiance de la moyenne, au degré de confiance de 95 %. Ce faisant, il est fort probable (95 % de 48 3 - Quelques notions simples en statistique chances) que nous trouvions dans cet intervalle la vraie moyenne de la population. Ainsi, sur la base de notre échantillon, il sera très probable que la moyenne de la différence en poids de gousses ‘pod weight’ entre le pois cajan avec engrais et le pois cajan sans engrais se trouvent quelque part entre 0.96 kg/parcelle et 4.79 kg/parcelle. La formule générale de l’intervalle de confiance de 95 % de la moyenne s’écrit: () x ± t d . f . × s.e. x 3.3.2 La comparaison d’échantillons. Dans cette section, reprenons l’exemple du rendement du Blé ‘Wheat yield’ que nous avons vu précédemment. Pour cela, nous allons choisir Run => Restart Session pour effacer les données du serveur de GenStat et ouvrir la feuille de données du fichier ‘Wheat yield.gsh’. Le diagramme en boîtes construit à la figure 3.11 nous aurions montré que le rendement de la variété ‘new’ est supérieur par rapport à celui de la variété ‘standard’. Et nous avions des raisons d’admettre cela dans la mesure où la nouvelle variété a été justement introduite dans le but de produire les rendements supérieurs. Notre hypothèse est que le rendement moyen de la nouvelle variété est supérieur par rapport à celui de la variété normale du blé. Nous pouvons vérifier ces données par une analyse statistique formelle et, dans ce cas, le test t sera utilisé en considérant le cas de deux échantillons indépendants. En reformulant notre hypothèse en tant qu’un ensemble des hypothèses nulle et alternative, nous obtenons: H :µ H :µ 0 1 s tan dard s tan dard −µ −µ new pooled =0 ≠0 Et, dans ce cas, la formule générale du test t est: t = (moyenne estimée du 1er échantillon – moyenne estimée du 2nd échantillon)/(erreur standard de la différence des moyennes standard) Les calculs nécessaires permettant de trouver le test dépendent de deux hypothèses ainsi formulées: les deux échantillons proviennent des populations normalement distribuées - les deux échantillons ont la même variance Compte tenu de cette dernière hypothèse, les variances des deux échantillons peuvent alors être combinées en vue de donner une meilleure estimation de la variance de deux populations. Cette variance mise en commun ‘pooled variance’ se calcule donc de la manière suivante: - s 2 pooled ( n1 − 1)s12 + (n2 − 1)s 22 = (n1 + n2 − 2 ) D’où, l’erreur standard des différences des moyennes ‘s.e.d.’ devient: s.e.d . = s 2pooled n1 + s 2pooled n2 49 GenStat Édition Discovery pour Usage Quotidien Il est possible d’obtenir les statistiques sommaires nécessaires (voir figure 3.28) et de calculer aussi l’estimateur de la variance commune de la population ‘pooled variance’ égale à 0.0502143 (voir figure 3.29). De la même façon, on peut se servir de cette dernière valeur pour le calcul de la valeur t qui est égale à -2.59253 (le calcul n’est pas montré ici). Cette valeur de test t est celle qui est comparée avec la distribution t à 14 degrés de liberté (n1 + n2 – 2 = 6 + 10 – 2) donnée généralement dans la plupart des livres de Statistique. figure 3.28 Boîte de dialogue obtenue pour les figure 3.29 Boîte de calcul de la variance statistiques sommaires essentielles mise en commun Nous venons de présenter ici un moyen quelque peu classique mais fastidieux utilisé dans l’enseignement de la statistique; il serait sans doute plus aisé de laisser l’ordinateur faire le travail. Nous pouvons donc choisir le menu Stats => Statistical Test => T-test, sélectionner ensuite le type de test ‘Two-sample (unpaired)’ en précisant toutefois que les données proviennent d’une seule série comportant plusieurs groupes comme le montre la figure 3.30. Si nous préférons travailler avec les deux variables en même temps dans la même boîte “Wheat variety new.gsh” et “Wheat variety standard.gsh”, nous pouvons procéder suivant la figure 3.31. 50 3 - Quelques notions simples en statistique figure 3.30 Comparaison de deux échantillons d’une seule variable comportant deux groupes figure 3.31 Comparaison de deux échantillons de deux variables Les résultats du test t peuvent être observés dans la fenêtre Output. ***** Two-sample T-test ***** Sample standard new Size 10 6 Mean 2.000 2.300 Variance 0.04667 0.05600 *** Test for equality of sample variances *** Test statistic F = 1.20 on 5 and 9 d.f. Probability level (under null hypothesis of equal variances) = 0.76 *** Test for evidence that mean of yield with Variety = standard is unequal to mean with Variety = new *** Test statistic t = -2.60 on 14 d.f. Probability level (under null hypothesis) p = 0.021 95% Confidence Interval for difference in means: (-0.5477, 0.05234) Au cas où l’hypothèse nulle est vraie (c’est à dire les deux moyennes de population sont égales), alors nous avons seulement une chance d’environ 2 % d’obtenir les échantillons trouvés (la valeur p est égale à 0.021). C’est pour cela que nous pouvons rejeter l’hypothèse nulle et considérer qu’il existe une différence statistiquement significative entre les deux moyennes d’échantillon. Qu’y a-t-il de plus à l’Output? Nous y avons d’abord observé les statistiques sommaires, puis les résultats du test F et du test t et enfin, l’intervalle de confiance de la différence des moyennes, au degré de confiance de 95 %. Il faut souligner ici que GenStat a fourni, par défaut, la valeur du test F valable pour le cas d’échantillons ayant les variances égales, étant entendu que c’est justement l’une des hypothèses émises pour le calcul du test t de deux échantillons indépendants. On notera aussi que cette valeur du test F fonctionne bien lorsque la distribution de la population s’approche d’une distribution normale. En outre, nous avons vu que la formule générale de l’intervalle de confiance des moyennes, pour un degré de confiance de 95 % était de: 51 GenStat Édition Discovery pour Usage Quotidien x1 − x 2 ± t n1 + n2 −2 × s.e.d . Ainsi, en considérant nos échantillons, il est fort probable que la variété standard de blé produira en moyenne 0.005 à 0.55 tonnes /ha de moins que la nouvelle variété. D’autre part, nous pouvons éliminer quelques résultats de l’Output (notamment le test F) en modifiant quelques options dans la boîte de dialogue de test. Après avoir choisi le menu Stats=>Statistical Tests=>T-test il faudra cliquer sur [Options] pour obtenir la boîte montrée à la figure 3.32. figure 3.32 Comparaison de deux échantillons pour une variable comportant deux groupes 3.3.3 Le test t des données associées par paires. Dans l’exemple ci-dessus, nous venons de comparer les moyennes des données de deux groupes indépendants. Pour l’exemple suivant, nous allons calculer le test t pour le cas des données associées par paires. L’exemple utilisé est tiré du document ‘Confidence and Significance: Key Concepts of Inferential Statistics’, Statistical Services Centre, University of Reading, 2001 (les données de l’exemple se trouvent sur la page 14). Dans le tableau des données ci-après, les valeurs x et y représentent la force de tension exercée par les échantillons de caoutchouc prélevés dix fois dans deux plantations (X et Y). Le but poursuivi dans cette expérimentation était d’évaluer la performance des caoutchoucs provenant de deux plantations. Occasion 1 2 3 4 5 6 7 8 9 10 52 X 174 191 186 199 190 172 182 184 200 177 Y 171 189 183 198 187 172 179 183 199 176 3 - Quelques notions simples en statistique Concrètement, nous pouvons dire que la réalisation d’un test t des données associées par paires de notre exemple, signifie que la variabilité entre les deux plantations est ignorée dans l’analyse, ce qui fait qu’à chaque mesure, on s’est plutôt intéressé aux différences en force de tension produite par les données associées. Pour commencer nous allons appliquer le menu Run => Restart Session avant de ramener ces données en GenStat. Premièrement, il va falloir créer la nouvelle feuille de calcul en vue de saisir les données du tableau ci-dessus. Ensuite, il sera question d’insérer la colonne pour la nouvelle variable “Difference” constituée des données de la différence en force de tension entre la plantation X et Y à chaque période de mesure. Enfin, le fichier sera enregistré sous le nom de ‘tensile strength paired data.gsh’ comme l’indique la figure 3.33. figure 3.33 Feuille des données associées par paires de la force de tension Il existe deux possibilités d’obtenir le test t en GenStat. La première consiste à sélectionner dans la boîte de dialogue, l’option ‘two-sample (paired test)’ en comparant X et Y (voir figure 3.34). Quant à la deuxième possibilité, on choisira l’option ‘onesample test’ en précisant toutefois que la comparaison est faite avec la moyenne zéro comme le montre la figure 3.35. figure 3.34 Boîte de dialogue de test t obtenue figure 3.35 Boîte de dialogue de test t obtenue pour les données associées par paire en pour les données associées par paire en utilisant l’option ‘two-sample’ utilisant l’approche ‘one-sample’ 53 GenStat Édition Discovery pour Usage Quotidien figure 3.36 Résultats du test t obtenus à l’Output pour les données associées par paire en utilisant l’option ‘two-sample’ figure 3.37 Résultats du test t obtenus à l’Output pour les données associées par paire en utilisant l’option ‘two-sample’ Les résultats à l’Output sont exactement les mêmes dans les deux cas tel que nous pouvons le constater à la figure 3.36 et figure 3.37. Rien d’étonnant en effet, puisqu’en choisissant l’option de test t pour les données associées par paires ‘paired t-test’, nous avons indiqué que nous voulons ignorer la variabilité au niveau de plantation à plantation. Et, dans les deux cas, il s’agissait aussi de vérifier que la moyenne des différences par paires était égale à zéro. À la , nous avons calculé le test t par la différence des moyennes et l’erreur standard de la valeur estimée. En nous basant sur les résultats à l’Output, nous avons: t = (1.8) / 1.289 10 = 5.013 Il faut dire que la comparaison des données associées par paires a permis d’améliorer la précision de l’analyse. En effet, supposons que nous ayons choisi d’analyser le test t de deux échantillons indépendants. Il est clair que nous n’aurions pas pu détecter les tout petites mais systématiques différences entre les données associées par paires, Et de cette façon, nous devrions calculer l’estimateur de la variance commune ‘pooled variance’ à partir des variances relativement grandes de X et Y. Cette procédure aurait conduit à obtenir une valeur non significative de t égale à 0.41 (voir figure 3.38), ce qui aurait comme conséquence le fait de donner une fausse conclusion selon laquelle il n’existe aucune différence en force de tension entre les deux plantations. figure 3.38 Présentation de faux résultats obtenus à partir de l’utilisation d’une mauvaise approche. 54 3 - Quelques notions simples en statistique La notion de structure des données associées par paires peut être comparée au concept de bloc pour les expérimentations et de stratification en ce qui concerne les enquêtes. 3.3.4 Exemple d’une méthode non paramétrique. Tous les tests t ainsi que beaucoup d’autres analyses statistiques en général sont fondées sur l’hypothèse selon laquelle toutes les données proviennent d’une distribution normale. Mais quelque fois tel n’est pas le cas, notamment lorsqu’il s’agit: d’une distribution très dissymétrique du fait qu’une ou plusieurs observations sont suffisamment grandes par rapport à l’intervalle normale des données sans que cela provienne d’une erreur quelconque de mesure. - des mesures ne se trouvant pas sur une échelle de rapports mais plutôt sur une échelle ordinale. C’est par exemple le cas des fermiers attribuant les points entre 0 et 10 au sujet de leurs préférences sur l’utilisation des différentes espèces d’arbres dans leurs champs. Certains d’entre eux pourraient éventuellement donner les cotes extrêmes. Dans de telles circonstances, il sera raisonnable d’utiliser les méthodes non paramétriques. De toute façon, les problèmes de données peuvent parfois provenir de la mauvaise planification de collecte des observations ou même du fait que certaines parties des observations n’ont pas été prises en considération. - Imaginons que les différences de la force de tension comportent ce type de difficultés au niveau des données. Pour remédier à ce genre de question, une éventuelle approche consisterait à utiliser le test des signes ‘sign test’. Avec l’hypothèse nulle selon laquelle il n’y a pas de différence entre les deux échantillons, il s’est avéré que près de la moitié des différences était positive et près de l’autre moitié négative, ce qui fait que la médiane soit égale à 0. Or, dans l’exemple, 9 différences sont positives, une est égale à 0 et 0 différence est négative. Sans aller plus loin dans les détails concernant ces calculs, nous allons néanmoins montrer comment on peut produire un test en GenStat. Choisissons Stats => Statistical Tests => One-sample nonparametric tests en considérant que la variable à tester est “Difference” que GenStat va tester par défaut contre la valeur de la médiane égale à zéro. figure 3.39 Dialogue obtenu avec l’option ‘sign test’ 55 GenStat Édition Discovery pour Usage Quotidien ***** One-sample Sign Test ***** Variate Difference Size 9 Median 1.500 Test if median equals 0 Test statistic: Effective sample size: Two-sided probability level: 9 9 0.004 Dans cet exemple, il est bien clair que GenStat rejète l’hypothèse nulle (aucune différence). (p=0.04). 56 3 - Quelques notions simples en statistique 3.4 Cas d’une simple régression. A présent nous allons introduire quelques éléments principaux d’analyse de données en GenStat en utilisant les moyennes d’une simple régression. Il s’agira en fait de montrer comment obtenir une progression linéaire en GenStat ainsi que des options disponibles utilisées. Mais plus tard dans ce même manuel, d’autres formes de régression seront également développées. Pour illustrer ce sujet nous nous servirons de l’exemple se trouvant à partir de la page 193 de livre de ‘Mead, Curnow and Hasted’. Commençons une nouvelle session de GenStat (voir chapter 2.4.3) et créons ensuite une feuille de calcul comportant deux colonnes (conc et uptake) de 17 lignes dans lesquelles nous entrons les données de la figure 3.40. A ces deux colonnes, ajoutons une description complémentaire: ‘conc’ signifiant les diverses concentrations de CO2 ayant traversé les feuilles de Blé à la température de 35ºC et ‘uptake’, la quantité de CO2 retenues par ces feuilles. La colonne ‘uptake’ sera formatée de manière à avoir deux décimaux. A l’issue de toutes ces opérations, nous devons naturellement enregistrer la feuille par exemple sous le nom de ‘CO2 uptake wheat leaves.gsh’. Pour toute assistance à l’un ou l’autre de ces différents aspects, il faudrait se référer à la chapitre 2.2. figure 3.40 Les données d’une simple régression 75 100 100 100 120 130 130 160 160 160 190 200 200 200 200 240 Uptake (cm3/dm2/hour) uptake 0.00 0.65 0.50 0.40 1.00 0.95 1.30 1.80 1.80 2.10 2.80 2.50 2.90 2.45 3.05 4.30 250 4.50 CO2 concentration conc figure 3.41 Les mêmes données dans une feuille de calcul GenStat A présent il nous faut examiner les données sous forme exploratoire avant de faire l’analyse formelle. Pour cela, il est nécessaire de faire la vérification des statistiques sommaires trouvées pour les deux colonnes (voir chapitre 2.3.1) et faire le graphique du type ‘point plot’, comme montré à la figure 3.42, en vue de voir s’il existe réellement une relation linéaire entre ces deux paramètres. 57 GenStat Édition Discovery pour Usage Quotidien figure 3.42 Le graphique du type ‘point plot’ des données de la régression Choisissons Stats ⇒ Summary Statistics ⇒ Correlations et complétons le dialogue obtenu comme montré à la figure 3.43, en vue d’avoir la corrélation entre uptake et conc. Dans la boîte de dialogue, nous devons préciser que nous souhaitons avoir les résultats des corrélations sur une feuille de calcul. figure 3.43 Correlations dialogue figure 3.44 Results in a new spreadsheet Il y a lieu de constater ici l’existence d’une modèle linaire ainsi qu’une grande corrélation positive entre la concentration en CO2 et le CO2 retenu. Nous avons dû finalement adapter les données au modèle d’une ligne droite. De ce fait, nous pouvons choisir le menu Stats ⇒ Regression Analysis ⇒ Linear, puis l’option ‘Simple Linear Regression’ ou ‘General Linear Regression’ dans la boîte de régression obtenue et enfin valider par [OK]. Une fois ces opérations validées, les résultats de la régression 58 3 - Quelques notions simples en statistique peuvent déjà être observés dans l’Output. En outre, les boutons du menu de régression qui étaient jusque-là d’une visibilité floue et donc inactifs comme en figure 3.45, deviennent automatiquement activés. figure 3.45 La boîte de dialogue d’une régression linéaire Juste vers la fin de l’Output, à la dernière ligne, nous observons l’estimation des paramètres utilisées dans l’équation ajustée.: uptake = -2.043 + 0.02494 * conc Cliquons sur l’option [Further Output] dans la boîte de la figure 3.45, puis sur [Fitted Model] et enfin complétons l’option de ‘Explanatory variable’ telle que présentée dans la figure 3.46 en vue de pouvoir produire un graphique des observations initiales avec la ligne de régression ajustée. figure 3.46 D’autres résultats provenant du modèle de régression figure 3.47 Le graphique obtenu Cet exemple montre en particulier combien il est facile de ‘faire la statistique’ au fur et à mesure qu’on se familiarise à l’usage des dialogues de GenStat. 59 GenStat Édition Discovery pour Usage Quotidien 60 4 Révision des chapitres 2–3. Procédons à la révision de certaines questions abordées au cours des chapitres précédents. Pouvez-vous? Question Conseil Ouvrir une série de données saisies antérieurement en Excel, Voir page 13 notamment le fichier “Prunus africana height and dbh Mabira Uganda.xls”? Saisir une nouvelle série de données comportant 3 colonnes et 6 Voir page 6 lignes Importer un champ nommé à partir d’une feuille Excel. Voir page 13 Créer une nouvelle colonne dont les données sont les carrés des Voir page 18 valeurs de la colonne existante ? Mettre en commun (Append) les données de deux feuilles GenStat ? Voir page 38 Effectuer un test t de deux échantillons non appariées (two-sample Voir page 49 unpaired t-test) ? Retrouver les noms ainsi que la taille de toutes les colonnes des Voir page 30 données quelconques. Expliquer pourquoi un diagramme en boîtes (boxplot) constitue un Voir page 45, outil important dans l’exploration sommaire d’une série de données Consulter le livre de mais aussi dans la comparaison de deux groupes d’observations ? Statistiques ou s’informer Produire un graphique sous forme de ligne (du type line plot) ? Voir la 2ème option de la boîte de dialogue présentée à la figure figure 2.27, page 17 Effectuer une simple régression linéaire? Voir page 57 GenStat Édition Discovery pour Usage Quotidien Question Conseil Totaliser les données dans une colonne ? Voir page 16 et page 28 Expliquer comment GenStat “fonctionne?” Voir section 2.4 à la page 30 Expliquer ce que signifie une colonne de facteur? Voir page 23 Sortir du GenStat ? (Sinon vous pouvez continuer à vous exercer!) 62 5 Défi nº 1 “Fallow species trial.xls” est le nom du fichier dont les données proviennent d’un essai en champ dans lequel les nitrates du sol ont été mesurées en début de saison dans les différentes parcelles définies par le type de jachère appliquée (le codage étant TRT). Dans chaque parcelle, le rendement du maïs était évalué à la fin de chaque saison en même temps que le niveau de l’infestation de Striga (une herbe parasite). Trouvez le rendement moyen en grain de maïs pour chaque type de jachère appliquée. Produisez ensuite le graphique qui établit le rapport entre le rendement de maïs et les nitrates du sol d’arrière-saison pour chaque type de jachère. Vérifiez s’il existe un rapport évident entre le rendement de maïs et la quantité de Striga et aussi si le graphique devient plus net en appliquant la racine carrée. GenStat Édition Discovery pour Usage Quotidien 64 6 Avant d’effecteur l’Analyse de la Variance GenStat dispose des outils vastes pour l’analyse des essais. Dans cette chapitre nous regardons comment les données devaient être organisées pour une telle analyse. Ca élargira la question au sujet des facteurs introduits précédemment. Ainsi allons-nous examiner le cas des essais dont le dispositif est en blocs aléatoires complets d’une part, et d’autres en ‘parcelles divisées’ ou split plot, d’autre part. Nous regarderons enfin le concept de la structure factorielle de traitement dans une expérimentation. 6.1 Organisation des facteurs et des données 6.1.1 Au niveau d’une feuille GenStat. Considérons un ensemble des données du rendement des 4 variétés de melon tel que présenté dans la figure 6.1 (voir Mead, Curnow and Hasted, 2003. p. 58): figure 6.1 Disposition des données qu’on trouve normalement dans les publications Variety Yields A 25.12 17.25 26.42 16.08 22.15 15.92 B 40.25 35.25 31.98 36.52 43.32 37.10 C 18.30 22.60 25.90 15.05 11.42 23.68 D 28.55 28.05 33.20 31.68 30.32 27.58 Une telle disposition tabulaire n’est malheureusement pas d’un format compatible à la plupart des logiciels statistiques. En observant ces données à la figure 6.2, force est de constater qu’elles ont été introduites dans les colonnes dont la longueur est égale au nombre total des unités. En même temps que ces données, d’autres colonnes décrivant entre autres les traitements de l’essai ont été complétées. Il s’agit des facteurs que nous avons abordés plus haut (voir section 2.3.3). Dans la plupart des cas, il s’agira soit du nombre d’unités, du bloc d’où vient l’unité ou de la quantité d’engrais appliquée dans une parcelle donnée. Quoi qu’il en soit, il y a souvent plus d’un paramètre à mesurer. Par conséquent, le moyen de saisir les données de chaque paramètre dans une seule et même colonne est préférable dans de pareils cas. L’exemple en est illustré dans la figure 6.2: GenStat Édition Discovery pour Usage Quotidien figure 6.2 Forme de disposition de données compatible aux logiciels de statistique Notez que dans cet exemple, les noms des colonnes ‘Variety’ et ‘dbclass’ sont écrits en italique. Un nom de colonne écrit en italique et précédé d’un point d’exclamation signifie, en GenStat, que la colonne est un facteur. Nous allons créer quelques feuilles GenStat qui seront utilisées plus loin dans le chapitre 8. 6.1.1.1 Rendement du melon. Créons d’abord une feuille ayant 2 colonnes et 24 lignes. La 1ère colonne dénommée Variety est un facteur ayant 4 niveaux (“A”, “B”, “C” et “D”). La 2nde colonne est une variable. Introduisons dans cette colonne les données de la figure 6.1 de manière à obtenir la feuille des données présentée à la figure 6.2. Préparons la colonne Yield de façon qu’elle ait deux décimaux. Enregistrons la feuille ainsi obtenue sous le nom de “Melon yield.gsh” et nettoyons enfin toutes les données de la mémoire de GenStat en utilisant Run => Restart Session. Normalement la saisie des données se fait en suivant l’ordre donné par la randomisation qui est par ailleurs le même que dans la fiche d’observations. Une colonne s’y ajoute donc pour indiquer justement le numéro de la parcelle. Dans cet exemple rappelez-vous, nous avons saisi les données en suivant l’ordre trouvé dans le document. Nous avons déjà vu dans la section 2.3.3 comment entrer les données lorsqu’elles sont constituées de nombres ordinaux ou sont sous forme de texte (légende). Toutefois, on notera que pour créer une feuille, il existe d’autres alternatives parmi lesquelles certaines sont préférables selon qu’il s’agit des nombres ordinaux et d’autres lorsqu’il est question des légendes. Nous en présentons trois: L’option Fill Option indiquée lorsqu’il s’agit d’entrer les données sous forme de nombres ordinaux. Pour le cas de notre exemple, nous devrions remplir la colonne de variable de manière à avoir le chiffre 1 six fois, 2 six fois et ainsi de suite jusqu’à 4. Pour le faire beaucoup plus facilement, nous choisissons Spread => Calculate => Fill en précisant à l’option appropriée que nous souhaitons avoir 6 répétitions. Dans la fenêtre de ‘preview’, nous pouvons y observer la façon dont la colonne se présentera. Ensuite la commande Spread => Column => Convert va nous servir à convertir la colonne en types de 66 6 - Avant d’effecteur l’Analyse de la Variance facteurs puis, avec l’option Spread => Factor => Edit labels, nous sommes en mesure de changer les 4 chiffres en lettres. A la fin de chaque légende introduite, on appuyera chaque fois sur la touche [Enter] pour valider. figure 6.3 Boîte de dialogue indiquant le nombre de séquences figure 6.4 Modification des légendes d’un facteur Notez que si la colonne est déjà transformée en facteur et que l’on veuille lui donner des légendes ou modifier celles qui existent, on cliquera n’importe où dans la colonne avant de sélectionner Spread ⇒ Factor ⇒ Edit Labels. L’option List fill. Cette option est relativement plus compliquée que la précédente mais serait tout de même intéressante lorsqu’il s’agira de se familiariser avec le langage de commande de GenStat. Le menu Spread => Calculate => List Fill nous présente une petite boîte de dialogue dans laquelle nous aurons à introduire une formule. - - - 1…24 est appelée progression; c’est une liste des nombres qui s’accroît avec la même valeur de progression ou diminuent avec la même valeur de régression. La progression 1…24 équivaut à 1, 2, 3, 4, 5 jusqu’à 24. Le second nombre séparé du premier par une virgule, donnera à la progression, la valeur de progression ou de régression. C’est ainsi que 1,2…24 équivaut 1, 3, 5, 7 et ainsi de suite jusqu’au dernier (étant entendu que 24 ne sera pas inclus). Les pré-multiplicateurs font que chaque nombre d’une progression ou d’une suite de nombres entre parenthèses soit répété. L’expression 6(1…4) équivaut à 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4 Les post-multiplicateurs font que la suite des nombres soit répétée. (1…4)6 équivaut à 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4 67 GenStat Édition Discovery pour Usage Quotidien figure 6.5 Présentation de la boîte de dialogue de l’option ‘List Fill’ De nouveau, il faudra convertir la colonne en facteur avant de procéder à la modification des légendes. L’option de conversion des colonnes-textes C’est une option très utile quand nous devons notamment importer les données d’enquête à partir des autres applications ou logiciels. Dans une colonne du texte, en cliquant droite pour sélectionner l’option Convert to Factor, nous obtenons en GenStat une colonne sous forme de texte de légende. 6.1.1.2 Les poules pondeuses et modes d’éclairage. C’est un essai sur l’effet de l’éclairage sur la production des œufs des poulets (Mead, Curnow and Hasted page 69). Pour créer une feuille des données de cette expérience, nous allons devoir utiliser une des méthodes mentionnées dans chapitre 2.3.3 et chapitre 6.1.1.1. Les chiffres représentent le nombre des œufs pondus dans une cage de 6 poules durant la période du 1 décembre 1950 au 22 février 1951. Blocks Treatments O E F Block totals 1 2 3 4 330 372 359 1061 288 340 337 965 295 343 373 1011 313 341 302 956 Treatment totals 1226 1396 1371 3993 Si vous optez pour l’option List fill, il faut noter que la formule d’entrer les blocs sera (1…4)3 alors que celle des traitements sera 4(1…3). Par contre, en passant par le menu Spread => Calculate => Fill on obtiendra les boîtes de dialogue représentées dans figure 6.6 et figure 6.7 qui finalement aboutiront à la même feuille GenStat. 68 6 - Avant d’effecteur l’Analyse de la Variance figure 6.6 Boîte de dialogue de l’option ‘Fill’ pour entrer les blocs figure 6.7 Boîte de dialogue de l’option ‘Fill’ pour les traitements Les informations suivantes pourront servir au moment de faire la description colonnes dans ‘Column attributes’. des Traitement O: témoin (éclairage naturel du jour uniquement) Traitement E: prolongement du jour (longueur totale allant jusqu’à 14 h) Traitement F: Éclats de lumière (éclairage naturel du jour auquel on ajoute deux fois l’éclat de lumière de 20 secondes par nuit La feuille GenStat qui en résulte se présentera sous la forme que présente la figure 6.8. - figure 6.8 Présentation de la feuille obtenue Enregistrez le fichier sous le nom de “Egg production.gsh”. 6.1.2 A partir d’une feuille Excel. 6.1.2.1 La survie de Salmonella typhimurium. La disposition des données où chaque facteur ou mesure est saisi dans une même colonne comme vu précédemment dans le serait le meilleur format qui permettrait de travailler dans n’importe quel logiciel statistique. Quoi qu’il en soit, du moment que nous avons à faire avec plusieurs facteurs ou mesures, il devient pratiquement difficile de pouvoir comprendre le contenu de la colonne. C’est pour cela qu’un des moyens 69 GenStat Édition Discovery pour Usage Quotidien adoptés au sujet de la documentation des données en GenStat, consiste à une description complémentaire des colonnes telle que nous l’avons vue au chapitre 2.2.1. Un autre moyen approprié est, de toute évidence, l’utilisation d’une feuille Excel, comme présentée dans l’exemple ci-dessous. Cette application permettait d’ajouter une description des facteurs et des mesures ainsi qu’une méta-description complémentaire concernant l’ensemble de données. De la figure 6.9, il en découle une disposition des données suivant l’ordre présenté dans le livre de référence, alors que celle illustrée à la figure 6.10 se rapporte aux données saisies des données du fichier Excel “Salmonella typhirum survival.xls”. Ces données se trouvent dans le document de Mead, Curnow and Hasted, 2003, page 113. figure 6.9 Disposition des données tirées du livre figure 6.10 Disposition de la métadocumentation des données en Excel Rappelons qu’en Excel, il y a une possibilité de définir un champ nommé tel que vu au chapitre 2.2.2, et qui ne contiendra que les données sélectionnées ainsi que la ligne d’en-tête. Ce champ nommé peut être importé en GenStat. Une vue partielle d’une feuille GenStat issue du champ nommé Excel est montrée dans la figure 6.11. figure 6.11 Vue partielle d’une feuille Excel importée Voici quelques symboles qui facilitent l’importation du champ nommé d’Excel en GenStat : Un point d’exclamation (!) qui suit directement l’en-tête de colonne en Excel (par exemple “Sorbic!”) convertit automatiquement les données de la colonne Excel en question en une structure de données sous forme de facteur en GenStat. On obtient une feuille GenStat dont le nom de colonne est écrit en italique et précédé d’un point d’exclamation. 70 6 - Avant d’effecteur l’Analyse de la Variance Un symbole de dollar ($) qui suit l’en-tête de colonne convertit automatiquement la colonne en texte. La feuille de GenStat qui en résulte aura le nom de colonne précédé par la lettre T en couleur verte. Un double point (:) suivi d’un nombre quelconque après l’en-tête de colonne transforme automatiquement la variable de manière à avoir le nombre équivalent de décimaux. Ainsi l’importation de la colonne ‘Density : 2’ d’Excel en GenStat donnera la variable comportant 2 décimaux. Un en-tête des colonnes (appelées identifiers en GenStat) peuvent avoir 32 caractères maximum (chiffres ou lettres) et la lettre initiale jouit d’un caractère déterminant. Les espaces sont convertis en symbole de soulignement. Toutefois on évitera d’utiliser des noms assez longs ou des caractères spéciaux comme (@, #, /, …) dans la mesure où ils sont susceptibles de causer quelques problèmes au moment d’importation des données vers d’autres logiciels. Par ailleurs une description de colonne peut être ajoutée dans la ligne qui précède le nom de cette colonne. Pour le cas des valeurs manquantes, elles sont présentées par le symbole ‘astérisque (*). Les cellules vides des données en Excel sont automatiquement converties en astérisque au moment de leur importation en GenStat. Il faut noter que les cellules vides et les astérisques peuvent créer une certaine confusion lors de l’exportation des données vers d’autres applications ou logiciels. C’est pour cette raison qu’il est important de bien différencier les cellules vides de celles qui ont une valeur égale à 0. 71 GenStat Édition Discovery pour Usage Quotidien 6.2 L’analyse exploratoire Avant de procéder à l’analyse de la variance proprement dite, il est important d’examiner les données de façon critique, en vue de dépister les erreurs éventuelles qui se seraient glissées et de voir si l’on peut découvrir les ‘patrons’ au sein de l’ensemble des données. C’est justement cela que nous allons tenter de faire pour les trois feuilles que nous venons de créer. 6.2.1 Rendement du melon Nous avons déjà vu dans chapter 2.3.1 le moyen d’obtenir les statistiques sommaires, sachant qu’il en existe d’autres. Nous devons d’abord effacer les données de la mémoire de GenStat (Run => Restart Session), puis ouvrir le fichier “Melon yields.gsh” et sélectionner le menu Stats => Summary Statistics => Summaries of Groups (Tabulation) et compléter enfin la boîte de dialogue qui en résulte suivant l’illustration de la figure 6.12. figure 6.12 La boîte de dialogue de l’option ‘tabulation’ figure 6.13 Tableau obtenu dans l’Output Les résultats obtenus apparaissent déjà dans la fenêtre des résultats (voir figure 6.13). Généralement les statistiques sommaires obtenues sont nécessaires dans certains rapports de recherche. Pour pouvoir les extraire de GenStat, il y a intérêt à suivre les démarches ci-après. Sélectionnez le tableau des résultats obtenu à l’Output, puis choisissez le menu Edit => Copy Special => RTF Table. Deux boîtes de dialogue s’affichent. La première se rapporte aux normes de subdivision des colonnes (figure 6.14) et la deuxième permet de faire les modifications appropriées en vue d’avoir la forme voulue du tableau final en Word (figure 6.15). Appliquez les modifications nécessaires des options en vue d’obtenir le style du tableau qui convient à votre rapport et cliquez [OK] pour valider. 72 6 - Avant d’effecteur l’Analyse de la Variance figure 6.14 Subdivision des colonnes suivant l’option d’un ou plusieurs espaces figure 6.15 Boîte de dialogue pour la création d’un tableau RTF Ci-après le tableau que nous obtenons en appliquant en Word la commande du menu Edit => Paste Cells. Variety A B C D Mean Minimum Maximum Median 20.49 37.40 19.49 29.90 15.92 31.98 11.42 27.58 26.42 43.32 25.90 33.20 19.70 36.81 20.45 29.44 Nous pouvons maintenant effectuer les modifications courantes des tableaux en Word. Le tableau ci-dessous est à peu près le même que le précédent où certaines colonnes ont été effacées, quelques modifications apportées dans la forme ainsi que les informations complémentaires ajoutées. Melon variety A B C D Average yield (kg) 20.49 37.40 19.49 29.90 Données tirées du livre de Mead, Curnow and Hasted, 2003. p. 58 Une autre alternative aurait consisté à enregistrer les statistiques élémentaires dans un tableau GenStat. Cela se fait en cliquant dans l’option [Save] de la boîte de dialogue de ‘Summary by Groups’. Sachant que les résultats obtenus sont des moyennes, il va falloir dénommer notre fichier ‘Average yield’. Dans la boîte de dialogue, nous devons indiquer que le tableau final sera présenté sur la feuille (figure 6.16). En validant par [OK], le nouveau tableau des statistiques sommaires souhaitées apparaît (figure 6.17) et les transformations nécessaires peuvent être opérées en vue d’avoir une colonne comportant deux décimaux (voir chapitre 2.3.2). 73 GenStat Édition Discovery pour Usage Quotidien figure 6.16 Enregistrer le tableau figure 6.17 Le tableau GenStat résultant En sélectionnant ce tableau de moyennes, nous pouvons de nouveau appliquer le menu Edit => Copy Special => RTF Table. Nous obtenons la même boîte de dialogue comme celle présentée à la figure 6.15 qui nous permet de changer la forme du tableau final en Word. Il ne restera plus qu’à coller le tableau en Word et à apporter les modifications utiles. De ce tableau, nous voyons clairement que le rendement moyen de la variété B est supérieur par rapport aux autres. Les variétés A et C ont les rendements inférieurs et ne sont probablement pas très différents l’un à l’autre. Ici nous ne saurons pas apprécier si ces différences entre les variétés sont dues au petit nombre d’observations ou si les moyennes obtenues reflètent une image claire de la situation présentée. C’est pour cela que dans de tels cas, la réponse est donnée par la construction des diagrammes en boîtes ‘boxplots’ comme ceux illustrés à la figure 6.18 et dont on peut se référer à la section 3.1.1. figure 6.18 Diagramme en boîtes du rendement des variétés de melon L’analyse exploratoire nous donne déjà une idée sur les variétés de melon ayant un rendement supérieur et celles dont les rendements sont relativement similaires. Mais 74 6 - Avant d’effecteur l’Analyse de la Variance les différences réelles seront dégagées plus loin durant les analyses statistiques formelles. 6.2.2 Poules pondeuses et modes d’éclairage. En suivant toutes les étapes telles qu’elles viennent d’être décrites dans la section précédente concernant le fichier “Egg production.gsh”, on devrait naturellement aux résultats repris dans la figure 6.19 et figure 6.20. figure 6.19 Tableau GenStat comportant la production moyenne des œufs par traitement figure 6.20 Diagramme en boîte obtenu La moyenne totale ou “Margin” est obtenue en sélectionnant Set Margin dans la boîte de dialogue de ‘Summary by Groups’ comme le montre la figure 6.21. figure 6.21 Boîte de dialogue de l’option ‘Set Margin’ 6.2.3 La survie de Salmonella typhimurium. Ouvrons le fichier “Salmonella typhirum survival.xls” et essayons d’effecteur quelques analyses exploratoires. Dans certains cas, le type de graphique appelé ‘scatter plot’ ou ‘point plot’ est mieux apprécié pour la présentation des conclusions. En fait dans cet exemple, nous nous posons la question de savoir si la densité de Salmonella varie en 75 GenStat Édition Discovery pour Usage Quotidien fonction de l’augmentation de le l’acidité de l’eau pour les différents niveaux de l’acide sorbique. Choisissons le menu Graphics ⇒ Point plot et complétons le dialogue selon la figure 6.22. figure 6.22 Boîte de dialogue du graphique ‘scatter plot’ figure 6.23 Le type du graphique obtenu La figure 6.23 ci-dessus montre un patron d’une augmentation de la densité de Salmonella en fonction de l’activité de l’eau. Néanmoins, cette version de GenStat Discovery ne dispose pas de type de graphique qui puisse nous permettre de constater les différents niveaux d’acide sorbique. A la limite, nous pouvons remarquer qu’ils sont de différentes couleurs mais cela ne nous explique pas grand chose au sujet de la légende. Signalons que la nouvelle version dispose des possibilités de modifier légendes, titres et axes d’un graphique déjà construit. Ceci dit, nous allons devoir contourner ce problème en passant par les moyennes des groupes. Pour ce faire, choisissons le menu Stats => Summary Statistics => Summaries of Groups (Tabulation) et calculons les moyennes de ‘Density’ en fonction de ‘Water activity’ et de ‘Sorbic acid level’ (figure 6.24). Du tableau qui en résulte, il est intéressant de remarquer que les niveaux du facteur placé en bas dans la zone ‘Groups’ du dialogue dans cette figure 6.24 se rangent sous forme de colonnes, pendant que les autres apparaissent comme des lignes (et vice versa). Cliquez dans [Save] pour enregistrer les moyennes dans un tableau (figure 6.25). 76 6 - Avant d’effecteur l’Analyse de la Variance figure 6.24 La définition des options dans la boîte de dialogue pour la création d’un tableau figure 6.25 Options du tableau dialogue pour la création d’un tableau final La feuille qu’on vient d’obtenir est sous forme de tableau (figure 6.26). En effet, il s’agit d’une autre structure de données en GenStat qui n’est pas la forme de feuille à laquelle nous étions habitués. Il ne nous est pas possible de faire un graphique à partir des données qui se trouvent dans une structure de tableau. Par conséquent, il nous faudra, au préalable, les convertir dans une structure de feuille normale qui est du type “Vector”. Dans ce cas, nous allons cliquer dans le tableau et choisir le menu Spread => Manipulate => Convert, tout en indiquant le type de feuille “Vector” et valider les entrées par [OK] (voir figure 6.27). Enfin, il nous faudra fixer à 2, le nombre de décimaux applicables à toutes les colonnes. figure 6.26 Tableau GenStat figure 6.27 Conversion du tableau en type de feuille ‘Vector’ En vérifiant les données disponibles dans la mémoire de GenStat telles que présentées à la figure 6.28 (se référer au chapitre 2.4.1), nous y trouvons trois nouvelles variables et un nouveau facteur ayant chacun 6 valeurs. En fait, GenStat a converti les en-têtes des colonnes du tableau en variables et facteur si bien qu’à un certain moment, il a dû même changer leurs noms (Water_1, %0_ppm, %100_ppm, %200_ppm). Nous n’allons pas entrer en détail au sujet de ce changement de noms. A présent nous pouvons utiliser cette nouvelle feuille pour la création du graphique ‘point plot’. Comme dans un tel graphique, les valeurs de l’axe des ordonnées Y sont 77 GenStat Édition Discovery pour Usage Quotidien réparties sur les trois variables, nous adopterons le type de graphique ‘scatter point’ ayant Y multiple. figure 6.28 Vérification des structures des données disponibles figure 6.29 Création d’une graphique ‘multiple Y scatter plot’ Le graphique du type ‘scatter plot’ ainsi obtenu pour les moyennes de groupes nous donne cette fois-ci une image claire sur la tendance de l’ensemble des données, et il nous permet de distinguer les différents niveaux d’acide sorbique dans la légende du graphique obtenu précédemment. figure 6.30 Graphique ‘scatter plot’ obtenu comportant la légende bien définie Maintenant il y a lieu de conclure que la densité Salmonella augmente en fonction de l’accroissement de l’activité de l’eau et que la densité diminue avec l’augmentation de l’acide sorbique. Mais la question qui reste est de savoir si ces différences sont significatives. La réponse sera trouvée par l’analyse statistique formelle. 78 6 - Avant d’effecteur l’Analyse de la Variance 6.3 Exemple pratique. En nous servant des exemples trouvés dans des livres, il ne nous est pas facile de démontrer l’importance de l’exploration des données. Ainsi avonsnous choisi un exemple réel pour pouvoir illustrer d’avantage les méthodes d’exploration. Il s’agit d’un essai mené en milieu réel au Kenya chez 16 fermiers dans un district et chez 12 dans l’autre. Chaque fermier possède trois parcelles parmi lesquelles deux ont reçu l’application de la biomasse et la troisième ayant servi comme parcelle-témoin. Dans les données de ce fichier dont une vue partielle est montrée ci-dessous, la variable principale qui nous intéresse est le rendement en grains de maïs (grain yield). Cela étant, l’objectif principal de l’essai était de voir si l’on pouvait trouver dans les champs des fermiers, de bons résultats obtenus en station avec les biomasses de Tithonia diversifolia et de Lantana camara. A partir du fichier Excel “Onfarm tithonia and lantana mulches.xls”, importez le champ nommé “data”. Il faut noter qu’une des questions ayant conduit à faire cette étude était de savoir si tous les fermiers du district West tiraient profit de l’utilisation des biomasses. Pendant l’exploration des données, la commande ‘Restrict’ du menu Spread sera le plus souvent utilisé. Choisissez la commande Spread => Restrict/Filter qui vous présente plusieurs possibilités. Pour notre cas, en effet, nous avons besoin des fermiers du district West uniquement et West étant un des deux niveaux du facteur ‘location’. Ainsi, nous allons restreindre les données de façon à n’inclure que le niveau ‘West’ du facteur ‘location’ comme illustré dans la figure 6.32. figure 6.31 Menu de restriction à un niveau quelconque de facteur figure 6.32 Définition d’un seul niveau (ici West) De cette restriction, il en résulte que toutes les données de district ‘Central’ ne sont pas utilisées dans les calculs, même si en réalité elles sont toujours là. La barre d’état, telle qu’elle apparaît à la figure 6.33, montre en l’occurrence que seules 36 des 84 lignes sont incluses, et donc actives pour le moment. 79 GenStat Édition Discovery pour Usage Quotidien figure 6.33 La barre d’étant montrant le nombre des lignes non restreintes Si l’on clique sur le bouton de restriction ‘restrict switch’ en forme de croix (+) se trouvant juste au-dessus de la barre de défilement de la feuille (voir figure 6.34), on verra les lignes exclues par la restriction apparaître en rouge comme à la figure 6.35. figure 6.34 Bouton de restriction figure 6.35 Lignes restreintes présentées en rouge Pour voir si les fermiers du district West ayant appliqué la biomasse ont obtenu un rendement supérieur de maïs, il va falloir construire un graphique de type ‘line plot’. En effet, en choisissant le menu Graphics => Line plot nous allons compléter les différentes options de manière à obtenir un graphique du rendement de maïs ‘maize yield’ (variable ‘grain’) en fonction des fermiers ‘farmer’ groupés par type de biomasse (variable ‘treat’). figure 6.36 Création du graphique type ‘Line plot’ figure 6.37 Le graphique ‘Line plot’ obtenu Même si ce graphique obtenu à la figure 6.37 nous aide d’une certaine manière, néanmoins il n’est pas encore satisfaisant. D’abord vu que nous sommes en train de travailler avec l’ancienne version de Graphiques GenStat, la légende montre ici trois fois ‘grain versus farmer’ mais dans des couleurs différentes. Jusqu’ici, nous ne parvenons pas à distinguer le type de biomasse qui donne le meilleur rendement. Le second problème est que les données en axe des X sont organisées selon le nombre 80 6 - Avant d’effecteur l’Analyse de la Variance croissant des fermiers. Il aurait été intéressant si elles étaient plutôt organisées suivant l’accroissement du rendement moyen en grains ‘average grain yield’. Pour le premier problème, la solution serait soit d’utiliser la version récente de GenStat ou alors de faire toutes sortes de détours en GenStat Discovery et en MS Word. En observant le graphique de la figure 6.37, il apparaît évident que le plus grand rendement du fermier 12 a été obtenu par le traitement symbolisé par la ligne verte, suivi par celui qui est représenté par la ligne rouge et enfin le rendement le plus faible a été exprimé par la ligne noire. Pour parvenir à reconnaître les types de biomasse que représentent les différentes couleurs, nous allons faire une autre restriction à partir des données restreintes, mais cette fois en travaillant avec l’option ‘To Groups (factor levels)‘ appliquée au ‘farmer’ du niveau 12. Il faudrait s’assurer que l’on travaille avec les données qui ont été restreintes précédemment. figure 6.38 La feuille obtenue après la seconde restriction La feuille obtenue présentée à la figure 6.38 montre clairement que le meilleur rendement de maïs a été fourni par la biomasse de Tithonia, et le plus faible par la parcelle témoin. La ligne verte symbolise donc la biomasse de Tithonia, la rouge celle de Lantana et la ligne noire représente la parcelle sans biomasse (témoin). Pour que le graphique puisse être mis dans un rapport quelconque, il sera nécessaire de l’enregistrer comme fichier Bitmap. En effet, dans le menu du GenStat 4.1 Graphics, nous allons choisir File => Save as, en indiquant que le fichier sera sauvegardé dans le format bitmap et par conséquent, lui attribuer un nom comme ‘mulch.bmp’. Dirigeons-nous maintenant vers MS Word, où nous allons sélectionner le menu Insert => Picture => From File pour pouvoir insérer le fichier ‘mulch.bmp’. Puis, il va falloir activer la barre d’outils de dessins (si elle ne l’est pas) en sélectionnant le menu (View => Toolbars => Drawing) et cliquer sur le bouton ‘text box’ (figure 6.39). Dans la boîte ainsi créée, tapons le texte ‘Control’ qui, à l’aide de la souris, sera déplacé jusqu’à pouvoir couvrir le texte écrit devant la ligne noire dans la légende (figure 6.40). figure 6.39 Création d’une boîte de texte en Word figure 6.40 Modification de la légende des couleurs en utilisant ‘text box’ 81 GenStat Édition Discovery pour Usage Quotidien Il sera évidemment nécessaire de faire la mise en forme de ce texte. En y cliquant droite, choisissons Format Text Box. Ceci nous permettra probablement de : Pouvoir modifier couleurs et lignes à travers l’option Colors and Lines: La couleur blanche de remplissage (‘fill colour’) sera choisie et la bordure sera sans lignes notamment. - Sélectionner la disposition du ‘text box’. Ainsi par exemple, on devra s’assurer que l’on a sélectionné la disposition “In front of text” obtenu en exploitant l’option Wrapping style qui se trouve sous le menu ‘Layout’. - Fixer les marges internes. Elles sont fixées, si elles ne le sont pas par défaut, à 0 ou 0.05 cm en passant par l’option Internal margins que l’on trouve sous le menu Text box. - On devra s’assurer enfin que la taille de police du texte n’est pas trop grande. Times New Roman avec 9 points de taille seraient par exemple indiqués. En suivant ces quelques étapes, vous pouvez faire de même pour ‘Tithonia’ et ‘Lantana’ desquels vous aurez à modifier les couleurs du texte en fonction des couleurs des lignes correspondantes. A l’issue de cette opération, vous devriez avoir le graphique dont la forme est présentée à la figure 6.41. - figure 6.41 Graphique ‘Line plot’ avec légende bien définie Notons que les opérations effectuées en Word pouvaient l’être directement en GenStat en utilisant le langage de commandes. En examinant la fenêtre Input, après la création de graphique de la figure 6.37, nous constatons que pour cette action, GenStat a dû utiliser tout un tas de commandes pour les paramètres et options variés comme présenté ci-dessous : 82 6 - Avant d’effecteur l’Analyse de la Variance XAXIS [RESET=yes] WINDOW=1; TITLE='farmer'; TPOSITION=middle;\ TDIRECTION=parallel;LPOSITION=outside; LDIRECTION=parallel;\ MPOSITION=outside; ARROWHEAD=omit; ACTION=display YAXIS [RESET=yes] WINDOW=1; TITLE='grain';\ TPOSITION=middle;TDIRECTION=parallel; LPOSITION=outside;\ LDIRECTION=perpendicular; MPOSITION=outside; ARROWHEAD=omit;\ ACTION=display CALC _nlevs=NLEVELS( treat) PEN [RESET=yes] 1..._nlevs; METHOD=line; JOIN=ascending;\ SYMBOL=0; LINESTYLE=1 DGRAPH [WINDOW=1; TITLE='Maize yield in West District'] Y=grain;\ X=farmer; PEN=NEWLEVELS( treat;!(1..._nlevs)) PEN [RESET=yes] 1..._nlevs Une autre alternative de créer un graphique comportant les légendes qui ne prêteraient pas la confusion consisterait à simplement modifier quelques paramètres et options dans l’Input et de relancer les commandes. Cependant cette option demande assez de manipulations des commandes dans l’Input, si bien qu’elle n’aboutit pas à la réponse directement. Pour son utilisation, il serait avantageux de vérifier dans ‘GenStat Help’ l’emploi des commandes XAXIS, YAXIS, PEN et DGRAPH. En observant le graphique de la figure 6.41, nous constatons que les données sur l’axe des abscisses sont ordonnées suivant le numéro des fermiers. Il aurait été utile de les ordonner en tenant compte de l’augmentation du rendement moyen du maïs ‘average maize yield’. Nous allons tenter d’y arriver, en considérant la colonne ‘grain’ comme une entité entière ou ‘stack’ de données du rendement de maïs. Cette entité est obtenue quand il n’y a pas application de biomasse, quand la biomasse de Lantana est appliquée et quand c’est celle de Tithonia qui est utilisée. A l’aide de la commande du menu Spread => Manipulate => Unstack (voir figure 6.42), nous allons subdiviser cette entité complète de données en trois petites entités. Autrement dit pour notre cas, elle sera subdivisée en une entité par type de biomasse appliquée. A travers ce menu, dissocions ainsi l’entité maïs (mettre grain dans la boîte de Unstack Columns) en suivant le traitement appliqué (treat sera mis dans la boîte de Unstacking Factor box) et en même temps nous devons conserver dans la nouvelle feuille de calcul, quelques autres facteurs comme ‘location’ et ‘farmer’ pour qu’ils puissent nous permettre d’identifier les valeurs des données (mettre ces facteurs dans la boîte de ID Factors). Les résultats obtenus sont tels que présentés dans la figure 6.43. figure 6.42 Boîte de dialogue de l’option ‘Unstack Column’ figure 6.43 La feuille obtenue après avoir appliqué l’option ‘Unstack’ 83 GenStat Édition Discovery pour Usage Quotidien Du tableau précédent, nous pouvons dénommer les colonnes grain_1, grain_2 et grain_3 suivant les traitements correspondants (se référer au besoin, au chapitre 2.2.1.1) et calculer ainsi le rendement moyen en grains dans une nouvelle colonne (voir le chapitre 2.3.2). Maintenant nous allons devoir marquer dans le tableau les valeurs minimum et maximum de chaque variable (figure 6.44) en appliquant le menu Search => Bookmark => By value. En cliquant droite dans la colonne ‘Average’, il s’affichera un menu qui permet de classer les moyennes en ordre croissant (figure 6.45). figure 6.44 Marquage des valeurs extrêmes figure 6.45 Arrangement des moyennes selon un ordre préférentiel Au cas où toutes les étapes décrites ci–haut auraient été bien suivies, on devrait naturellement aboutir à une feuille de calcul comme celle présentée à la figure 6.46. figure 6.46 La feuille obtenue par l’arrangement des moyennes selon l’ordre croissant De même, en suivant les étapes précédentes (tout en se référant au sur quant au choix du type de graphique), nous devrions obtenir un graphique semblable à celui de la figure 6.47. 84 6 - Avant d’effecteur l’Analyse de la Variance figure 6.47 Graphique final obtenu Maintenant revenons à l’exploitation des données précédentes en nous servant soit du tableau ou du graphique ci-dessus, et essayons de répondre aux questions suivantes: Parmi les 12 fermiers, combien ont-ils obtenu un rendement supérieur provenant de la biomasse de Tithonia comparé au témoin ? - Et combien sont-ils pour la biomasse de Lantana toujours en comparaison avec la parcelle témoin ? En revenant sur la feuille de calcul originale, nous allons appliquer de nouveau le menu Spread ⇒ Restrict/Filter ⇒ Using Factor levels, puis sélectionner uniquement le district Central et enfin cliquer sur [Replace with New], autrement, il ne restera aucune donnée ! Ensuite, le menu Graphics ⇒ Line Plot avec cette fois la spécification des données du district ‘Central’ donnera un graphique correspondant. Essayez à présent de répondre aux même questions que précédemment pour le cas du district ‘Central’ cette fois. En considérant les deux graphiques, pensez-vous que les fermiers des deux districts bénéficient équitablement de l’utilisation des biomasses ? - Retenons que si l’on désire retourner aux données entières, le menu à appliquer sera Spread ⇒ Restrict/Filter ⇒ Remove All. Ensuite, tous les calculs à faire dans le menu Stats seront uniquement effectués sur les données restreintes ‘restricted data set’. L’option Bookmarks est appliquée enfin, sur les données entières. 85 GenStat Édition Discovery pour Usage Quotidien 86 7 Défi nº 2 Dans le graphique présenté à la figure 6.47 page 85, les données se trouvent le long de l’axe des X sont ordonnées en fonction de l’augmentation du rendement moyen de maïs. Nous estimons que vous êtes maintenant familier à l’utilisation des options ‘stack’ et ‘unstack’ des données en GenStat. Il existe cependant une autre possibilité de produire le graphique de la figure 6.47. C’est laquelle ? (Comme conseil, appliquez d’abord l’option ‘tabulation’, puis celle de ‘set margin’.) GenStat Édition Discovery pour Usage Quotidien 88 8 Analyse de la variance. 8.1 Deux cas simples d’Anova Commençons une nouvelle session de GenStat et ouvrons le fichier “Melon yield.gsh” vu au chapitre 6.1.1.1. Le dispositif de cette expérimentation est en blocs aléatoires randomisés. A titre de rappel, nous avions suspecté, durant l’analyse exploratoire au chapitre 6.2.1, qu’il pouvait y avoir des différences de rendement entre les différentes variétés de melon. Ce résultat va être confirmé maintenant par une analyse statistique formelle. Pour produire une analyse de la variance, nous allons nous servir de la commande Stats ⇒ Analysis of Variance. Puis, dans le menu de l’Anova qui s’affichera, le type de dispositif Completely Randomized Design ou One-Way ANOVA (no Blocking) sera choisi tout en complétant de manière appropriée les options relatives à la variété et au traitement (voir figure 8.1). Toutes ces entrées seront validées en cliquant sur [OK]. figure 8.1 Boîte de dialogue du calcul d’Anova Ci-après les résultats d’ANOVA tels que présentés dans la fenêtre des résultats. ***** Analysis of variance ***** Variate: Yield Source of variation Variety Residual Total d.f. 3 20 23 s.s. 1291.48 367.65 1659.13 m.s. 430.49 18.38 v.r. 23.42 F pr. <.001 De ces résultats, nous pouvons conclure qu’il existe des différences significatives pour les rendements produits par les différentes variétés de melon. D’autre part, si on préfère utiliser le langage des commandes tel que vu au chapitre 2.4.2, voici présentés dans la fenêtre des entrées (Input window), celles qui viennent d’être utilisées. "Completely Randomized Design." BLOCK "No Blocking" TREATMENTS Variety COVARIATE "No Covariate" GenStat Édition Discovery pour Usage Quotidien ANOVA [PRINT=aovtable,information,means; FACT=32; FPROB=yes; PSE=diff] Yield Nous allons reprendre la session et ouvrir le fichier “Egg production.gsh” vu au chapitre 6.1.1.2 (page 68). Cette fois nous avons non seulement un facteur décrivant les traitements mais aussi un autre facteur – Block – qui indique la disposition ou le dispositif de l’essai. L’analyse d’un tel essai s’apprête au schéma normal du menu Stats ⇒ Analysis of Variance, tout en indiquant One-way ANOVA (in Randomised Blocks) dans la liste des dispositifs contenus dans l’option Design comme le montre la figure 8.2. La différence de cette boîte de dialogue obtenue comparée à celle qu’on a eu précédemment avec ‘One-way ANOVA’ réside en ce que cette fois, il existe une option supplémentaire [Blocks] devant servir de facteur ‘Bloc’. Ceci permettra finalement que les données relatives au dispositif de l’essai soient intégrées en GenStat. figure 8.2 Boîte de dialogue d’Anova pour les blocs randomisés (cas d’un seul critère de classification) Ci-après les résultats obtenus à l’Output. Ils nous permettent de conclure qu’il existe des différences dans la production des œufs entre les différents traitements ***** Analysis of variance ***** Variate: Eggs Source of variation d.f. s.s. m.s. v.r. Block stratum 3 2330.3 776.8 2.01 Block.*Units* stratum Treatment Residual 2 6 4212.5 2321.5 2106.3 386.9 5.44 11 8864.2 Total 90 F pr. 0.045 8 - Analyse de la variance. 8.2 Utilisation optimale de l’Output La conclusion selon laquelle il existe des différences significatives entre les différents traitements est plutôt une évidence. Pour essayer d’aller en profondeur, considérons d’autres informations contenues dans la fenêtre des résultats. En menant cet essai, nous nous attendions à ce que les différents traitements augmentent la production des œufs. Et cette augmentation peut être calculée à partir des tables des moyennes. Ainsi le traitement F (éclats de lumière) augmente à 36.3 le nombre des œufs de 6 poules (342.8 – 306.5) en trois mois soit 36.3/6 = 6.05 œufs par poule. De même, le prolongement de l’éclairage du jour accroît la production à 42.5 œufs (349 – 306.5) soit 7.1 œufs par poule. ***** Tables of means ***** Variate: Eggs Grand mean 332.8 Treatment O 306.5 E 349.0 F 342.8 Un peu plus loin dans la fenêtre des résultats, nous pouvons trouver également les valeurs de l’erreur standard des différences des moyennes. *** Standard errors of differences of means *** Table Treatment rep. 4 d.f. 6 s.e.d. 13.91 Nous savons que le produit de l’erreur standard avec la valeur t basée ici sur 6 degrés de liberté (les degrés de liberté résiduels de l’ANOVA – montré avec les erreurs standard) est appelée LSD (ou PPDS - la plus petite différence significative). En GenStat, cette valeur sera obtenue dès qu’on l’aura spécifiée à la case correspondante de la fenêtre des options d’ANOVA (voir figure 8.3). Cette fenêtre s’ouvre en cliquant sur [Options…] dans la menu général d’Analyse de la variance. figure 8.3 Définition des options en vue des résultats à obtenir à l’Output 91 GenStat Édition Discovery pour Usage Quotidien *** Least significant differences of means (5% level) *** Table rep. d.f. l.s.d. Treatment 4 6 34.03 Ceci dit, nous sommes relativement sûrs que chacun de ces deux traitements pourra augmenter la production des œufs. Mais maintenant toute la question sera de savoir lequel des deux serait meilleur. La différence de 6.2 œufs par enclos de 6 poules (environ 1 œuf par poule) est insignifiante par rapport à 34.03. Une différence éventuelle entre l’éclairage naturel (E) et l’application de deux éclats de lumière de 20 secondes chacun durant la nuit (F) est trop petite pour être détecté. Pour la comparaison des traitements, nous venons de nous servir des résultats d’analyse standards présentés dans la fenêtre des résultats. Il est vrai que cet exemple comporte un petit nombre de traitements et que les comparaisons étaient faites en vue de répondre à une question de recherche suivante : La lumière supplémentaire améliore-t-elle la production des œufs et, si oui, quelle serait la meilleure méthode à appliquer ? Nous avons répondu à ces questions en fixant toutefois quelques mesures de précision. Une approche pour assurer que l’analyse corresponds avec des objectifs de recherche bien précisés est de se servir de l’option des Contrastes dont nous illustrons l’utilisation par le même exemple. figure 8.4 L’option de ‘Constrasts’ dans le dialogue de l’Anova figure 8.5 Définition des contrastes dans l’Anova le dialogue de l’Anova Retournons sur la fenêtre de dialogue d’Anova (figure 8.4) et cliquons dans le bouton [Contrasts]. Une fenêtre de dialogue s’ouvre et certaines informations peuvent y être complétées. Dans cette fenêtre, Contrast Factor sera Treatment sachant que nous avons besoin de comparer certains traitements, et nous indiquerons aussi que le type de contraste souhaité est Comparisons (figure 8.5). En fait, il s’agit de faire ici deux types de comparaison à savoir les traitements relatifs aux différents modes d’éclairage contre le témoin d’une part, et le prolongement de l’éclairage naturel contre l’application des éclats de lumière, d’autre part. Ainsi, le nombre des contrastes est égal à 2. En cliquant [OK], on obtient une matrice présentée à la figure 8.6 et dont le nom par défaut est ‘Cont’ mais qu ‘on aurait dû changer dans la fenêtre de dialogue des contrastes. En outre, cette matrice comporte deux lignes puisque nous avons spécifié que nous souhaitons établir deux comparaisons. Elle est constituée de trois colonnes étant donné que le traitement est structuré en trois niveaux. 92 8 - Analyse de la variance. figure 8.6 Changement de nom des contrastes figure 8.7 Remplissage de la matrice par des combinaisons linaires Par défaut, les lignes sont appelées “Contrast 1” et “Contrast 2” mais on peut les changer simplement en cliquant dans la cellule. Rappelons que les deux comparaisons qui nous intéressent sont : “O vs E and F” et “E vs F” ; voir figure 8.7. Pour chaque niveau de facteur à comparer, il faut définir un coefficient. Ainsi, en mettant E et F en comparaison, on fait par-là une soustraction d’un effet chez l’autre. Et en faisant la comparaison du témoin (O) avec les deux autres, on soustrait l’effet de O de la moyenne des effets des deux traitements. GenStat se sert de ces coefficients pour fractionner les sommes des carrés des traitements. Techniquement, il faudra remplir la matrice de telle sorte que la somme des coefficients par chaque comparaison soit égale à 0. Pour les deux comparaisons de l’exemple, nous avons : (-1) + 0.5 + 0.5 = 0 et –1 + 1 = 0. De même, la somme par paire des produits des coefficients étant égale à 0, nous aurons: (-1)*0+0.5*(-1)+0.5*1 =0. Telle est la définition des contrastes orthogonaux dont l’interprétation peut être faite séparément car les erreurs utilisées durant l’estimation de chaque paire étaient indépendantes les unes des autres. L’interprétation des contrastes non-orthogonaux requiert beaucoup plus de précaution. figure 8.8 Incorporation des contrastes dans la structure du traitement Une fois que la matrice est bien complétée, on peut déjà observer dans la fenêtre de dialogue de l’Anova, un changement au niveau de la structure des traitements. En cliquant [OK], les sommes des carrés des traitements sont directement fractionnées comme on peut le voir dans la table d’Anova à l’Output. On peut déjà constater que l’effet du traitement explique à près de la moitié (4212.5) la variation totale (8864.2). En fait presque tous les effets dus au facteur traitement sont expliqués par la différence entre le témoin et les deux types d’éclairage (4134.4 sur le total de 4212.5), alors que la différence entre le prolongement de l’éclairage et l’application des éclats de lumière n’explique presque rien l’effet de la variation (78.1 sur 4212.5). Ainsi la différence significative entre les traitements au seuil de 5% est due à la différence entre les traitements O et E d’une part et O et F d’autre part (p=0.017). Il n y a donc aucune 93 GenStat Édition Discovery pour Usage Quotidien différence entre les traitements E et F, et il existe au moins 66.9% de chances pour qu’ils ne soient pas différents. ***** Analysis of variance ***** Variate: Eggs Source of variation d.f. s.s. m.s. v.r. Block stratum 3 2330.3 776.8 2.01 Block.*Units* stratum Treatment O vs E and F E vs F Residual 2 1 1 6 4212.5 4134.4 78.1 2321.5 2106.3 4134.4 78.1 386.9 5.44 10.69 0.20 11 8864.2 Total F pr. 0.045 0.017 0.669 Quoi des comparaisons multiples ? Dans beaucoup d’autres logiciels statistiques c’est possible d’utiliser des tests de comparaison multiples pour comparer les traitements, au lieu de la méthode des contrastes que nous venons de voir. Ce sont des tests comme le test de Newman-Keuls, Tukey, Duncan, … Nous sommes heureux d’annoncer que les tests de comparaisons multiples ne sont pas inclus dans les menus de l’Édition Discovery de GenStat. Les producteurs de GenStat ne sont pas convaincus que ces tests contribuent aux analyses statistiques appropriées des données d’expériences. Ils ont introduit ces tests dans la dernière version de GenStat pour être capable de démontrer qu’ils ne contribuent rien ! Donc, vous devez acheter la dernière version de GenStat si vous voulez effectuer ces tests. Aussi dans les guides de SSC Reading c’est expliqué pourquoi nous trouvons que ces tests sont inutiles. 94 8 - Analyse de la variance. 8.3 Définition de la structure du traitement Jusqu’ici nous avons effectué des analyses portant sur deux types de dispositifs en GenStat : Un dispositif complètement randomisé appelé ‘a one-way ANOVA’ sans blocs et l’autre ‘a one-way ANOVA’ dans les blocs randomisés. On trouve toute la liste des autres dispositifs qui peuvent être analysés en cliquant dans la petite flèche de la boîte des dispositifs. Dispositifs disponibles dans le menu d’Anova : ANOVA à un critère de classification (sans blocs) (One-way ANOVA (no Blocking)) ANOVA à un critère de classification (en blocs randomisés) (One-way ANOVA (in Randomized Blocks)) ANOVA à deux critères de classification (sans blocs) (Two-way ANOVA (no Blocking)) ANOVA à deux critères de classification (en blocs randomisés) (Two-way ANOVA (in Randomized Blocks)) Le dispositif complètement randomisé (Completely Randomized Design) Le dispositif en split plot (Split-Plot Design) Le dispositif en split split plot (Split-split Plot Design) Le carré latin (Latin square) Le carré gréco-latin (Graeco-latin square) Le dispositif en treillis (Lattice Design) A part ces différents dispositifs spécifiques, on peut aussi choisir General Analysis of Variance dont l’utilisation aussi fréquente que possible est plutôt recommandée. Une fois vous comprenez quelques notions de base, vous serez capable de spécifier une analyse correcte pour des dispositifs expérimentaux plus compliqués. La flexibilité de cette option générale est due au fait qu’elle permet d’intégrer la structure du traitement en utilisant la formule comprenant les opérateurs ci-après: + addition ex. A+B+C est l’effet principal de A, B, et C . interaction ex. A.B est l’interaction de A et B * produit croisé A*B est équivalent à A+B+A.B / hiérarchisation A/B est équivalent à A+A.B Nous allons utiliser ces opérateurs dans les structures factorielles d’abord et hiérarchiques ensuite du traitement. 8.3.1 Structure factorielle du traitement Les expérimentations ayant une structure factorielle sont étudiées lorsque les effets de plusieurs traitements ainsi que leurs interactions (ou effets croisés) sont examinées simultanément. La structure factorielle du traitement a pour avantage : 95 GenStat Édition Discovery pour Usage Quotidien s’il n’y a pas d’interactions, il y a des avantages d’une réplication ‘cachée’ - s’il y a des interactions, l’expérimentation les peut investiguer Commençons par l’exemple théorique d’un essai sur l’évaluation de l’application d’un insecticide et d’un fongicide ainsi que de l’influence de la variété sur le rendement du maïs. Nous allons regarder quelques approches possibles. - Traitement A B C D Description Variété 1, pas d’insecticide, pas de fongicide Variété 2, pas d’insecticide, pas de fongicide Variété 1, insecticide, pas de fongicide Variété 2, pas d’insecticide, fongicide Si le dispositif était conçu comme dans cet exemple, ce ne serait pas possible de faire une analyse appropriée. Quand nous comparons les traitements en utilisant un ANOVA à un critère de classification, seulement les différences entre A et B seront causés par l’effet de la variété. Les différences entre C et D pourraient être causé par la variété, l’insecticide ou le fongicide. En outre, l’effet de la variété est seulement mesuré quand il n’y a pas d’insecticide ou fongicide appliqué. Un dispositif alternatif, avec 8 traitements, est comme le suivant : Traitement A B C D E F G H Description Variété 1, pas d’insecticide, pas de fongicide Variété 2, pas d’insecticide, pas de fongicide Variété 1, insecticide, pas de fongicide Variété 2, insecticide, pas de fongicide Variété 1, insecticide, fongicide Variété 2, insecticide, fongicide Variété 1, pas d’insecticide, fongicide Variété 2, pas d’insecticide, fongicide L’analyse de ces données peut s’effectuer dans le modèle de l’ANOVA à un critère de classification ‘one-way ANOVA’ en vue de calculer les intervalles de confiance comme montré ci-dessus. Cela nous permettrait de déterminer l’effet de la variété en examinant la différence entre les traitements A et C et E et G avec B et D et F et H. Les résultats d’ANOVA sont tout à fait valides mais seulement si nous admettons que l’effet de chaque facteur est le même quel que soit le niveau où il se trouve dans les autres facteurs : les rendements de maïs par les différentes variétés sont les mêmes avec ou sans insecticide et avec ou sans fongicide ET les rendements de maïs obtenus en appliquant un insecticide sont les mêmes pour les deux variétés et avec ou sans fongicide ET les rendements de maïs obtenus en appliquant un fongicide sont les mêmes pour les deux variétés et avec ou sans insecticide. En réalité, cette analyse de la variance ne sera valide que sous l’hypothèse additionnelle des effets du traitement (notez le mot additif “et” ci-dessus utilisé maintes fois). Nous ne sommes pas en mesure de prouver la véracité ou la fausseté de cette hypothèse pour le moment, seuls le peuvent les résultats d’Anova obtenus en validant notamment chaque ensemble de niveaux ayant fait l’objet de la comparaison. Ainsi par exemple, l’effet de la variété pourrait être valide seulement si aucune insecticide ou fongicide n’est appliqué. Bien qu’il y ait des situations où il n’y a aucun sens pour investiguer les interactions, la plupart du temps une structure factorielle du traitement fournit beaucoup plus d’information pour ce genre d’analyses. 96 8 - Analyse de la variance. En fait, le dispositif de cet exemple théorique pourrait être reformulé comme un dispositif ayant trois facteurs dans lesquels tous les niveaux de chacun sont combinés les uns les autres. Finalement cette structure factorielle de traitement s’écrirait de la manière suivante : (Numéro du triatement) Variety V1 1 V2 2 V1 3 V2 4 V1 5 V2 6 V1 7 V2 8 Insecticide Non Non Oui Oui Non Non Oui Oui Fungicide Non Non Non Non Oui Oui Oui Oui En examinant les différences ci-dessous, nous pouvons trouver les effets principaux de chaque facteur ainsi que le changement moyen des différents niveaux pour les autres facteurs. - Effet principal de la variété = traitements 1, 3, 5, 7 contre 2, 4, 6, 8 Effet principal de l’insecticide = traitements 1, 2, 5, 6 contre 3, 4, 7, 8 Effet principal du fongicide = traitements 1, 2, 3, 4 contre 5, 6, 7, 8 Ainsi, l’on pourrait investiguer des interactions. Si on se pose la question de savoir si l’application de l’insecticide produit le même effet pour les deux variétés, pour examiner cette question, nous pouvons considérer 1 et 5 contre 2 et 6 (effet de la variété sans application de l’insecticide) et aussi traitements 3 et 7 contre 4 et 8 (effet de la variété avec application de l’insecticide). Comme GenStat n’est pas doté d’une option d’Anova à trois critères de classification ‘three-way Anova’, nous utilisons, à la place, l’option de dispositif d’Analyse de la variance en général ‘General Analysis of variance’. Les opérateurs définis plus haut vont nous servir à produire la formule appropriée dans la boîte de la structure du traitement ‘Treatment structure’. En nous basant sur notre exemple, cette formule s’inscrit de la manière suivante (voir figure 8.9): Variety*Insecticide*Fungicide Ce qui donne, après développement de la formule : Variety+Insecticide+Fungicide+Variety.Insecticide+Variety.Fungicide+ Insecticide.Fungicide+Variety.Insecticide.Fungicide 97 GenStat Édition Discovery pour Usage Quotidien Nous obtenons finalement la somme de l’effet principal de chaque facteur ainsi que les interactions du 1er et du 2nd degré. figure 8.9 Exemple d’une structure de traitements factoriels Et maintenant pour l’analyse des données réelles, nous allons ouvrir de nouveau le fichier “Salmonella typhirum survival.xls”. L’analyse portera sur la variable Density, sachant que le dispositif est d’une structure factorielle comportant deux facteurs Water et Sorbic, les unités expérimentales étant groupées dans les blocs randomisés. En complétant ces informations dans le dialogue d’analyse de la variance comme le montre la figure 8.10, nous devrons préciser aussi dans la fenêtre des options d’Anova ‘Anova Options’ que nous souhaitons obtenir les valeurs de ‘LSD’ affichées dans la fenêtre Output comme indiquées dans les figures ci-dessous. figure 8.10 Anova d’une structure de traitement factoriels figure 8.11 Options de définition des résultats du LSD Du tableau produit à l’Output, on remarque que le tableau d’Anova contient les sommes des carrés de chaque facteur ainsi que de leur interaction. Il faut signaler que dans les résultats affichés à l’Output, nous avons trois tableaux des moyennes dont deux montrant les sommes totales des effets principaux de Sorbic et Water, et l’autre présentant l’interaction au niveau de l’ensemble des traitements (tableau d’interaction). En outre, il y a lieu de noter que les tableaux des valeurs de l’erreur standard des différences des moyennes (s.e.d.) et de la plus petite différence significative (LSD) comportent tous trois colonnes correspondant aux trois tablaux des moyennes. Ainsi par exemple la valeur 0.136 indiquée sous ‘Sorbic’ dans le tableau de LSD est la valeur lsd basée sur 34 degrés de liberté (Residual d.f.) ; elle sert ici à établir les comparaisons des moyennes totales de Sorbic qui proviennent de 18 valeurs de données (rep). 98 8 - Analyse de la variance. ***** Analysis of variance ***** Variate: Density Source of variation d.f. s.s. m.s. v.r. 2 0.01385 0.00692 0.17 Block.*Units* stratum Water Sorbic Water.Sorbic Residual 5 2 10 34 81.56910 2.75936 1.31626 1.37389 16.31382 1.37968 0.13163 0.04041 403.72 34.14 3.26 Total 53 87.03245 Block stratum F pr. <.001 <.001 0.005 * MESSAGE: the following units have large residuals. Block 3 *units* 9 0.41 s.e. 0.16 Block 3 *units* 10 -0.42 s.e. 0.16 ***** Tables of means ***** Variate: Density Grand mean 5.50 Water 0.78 4.19 0.82 4.39 0.86 4.79 Sorbic 0 ppm 5.80 100 ppm 5.44 200 ppm 5.26 Water 0.78 0.82 0.86 0.90 0.94 0.98 Sorbic 0 ppm 4.28 4.56 5.14 6.00 6.53 8.30 100 ppm 4.23 4.30 4.70 5.36 6.41 7.67 0.90 5.53 0.94 6.42 0.98 7.68 200 ppm 4.07 4.30 4.53 5.24 6.31 7.08 *** Standard errors of differences of means *** Table Water Sorbic rep. d.f. s.e.d. 9 34 0.095 18 34 0.067 Water Sorbic 3 34 0.164 *** Least significant differences of means (5% level) *** Table Water Sorbic rep. d.f. l.s.d. 9 34 0.193 18 34 0.136 Water Sorbic 3 34 0.334 99 GenStat Édition Discovery pour Usage Quotidien En ouvrant la fenêtre de notation des entrées ‘Input log window’ par le menu Window ⇒ Input log, nous découvrons les commandes GenStat utilisées pour réaliser l’analyse préc "General Analysis of Variance." BLOCK Block TREATMENTS Water*Sorbic COVARIATE "No Covariate" ANOVA [PRINT=aovtable,information,means; FACT=32; FPROB=yes; PSE=diff,lsd; LSDLEVEL=5]\ Density Pendant l’interprétation des résultats d’une analyse de la variance factorielle ayant une interaction statistiquement significative, il est souvent utile d’avoir une représentation graphique de la table des moyennes à deux directions. Le moyen de le faire en GenStat consiste à sélectionner l’option [Further Output] dans la boîte de dialogue d’Analyse de la Variance, et cliquer sur [Means Plots]. Ce graphique permet de produire le tableau des moyennes en fonction de l’un des facteurs. Comme l’Anova a été effectué avec deux traitements factoriels en tenant compte de la combinaison factorielle, ainsi l’un des facteurs a-t-elle été choisi sur l’axe des abscisses ‘Factor for X-axis‘. Les moyennes seront rapportées sur le graphique en fonction de ce facteur. De cette façon, l’autre facteur va définir les groupes ‘Groups’. Les moyennes de chaque niveau du facteur Groups seront différenciés par les couleurs et symboles divers. Par défaut, c’est justement par l’option des moyennes ‘means’ que le graphique est tracé en lignes pour autant que l’option des lignes ‘Lines’ placée en dessous de ‘Method ait été sélectionnée. En revenant à notre table d’Anova, nous constatons qu’il existe une interaction significative (p=0.005) entre les deux facteurs sorbic et water, et de ce fait, l’application de ce graphique bi-directionnel serait convenable. Pour le produire, nous allons devoir choisir water comme facteur dont les niveaux se placeront sur l’axe des X et sorbic comme facteur des groupes (figure 8.12). Le type de tracé à faire est obtenu en se servant de l’option ‘Lines’. Le graphique est montré dans la figure 8.13. 100 8 - Analyse de la variance. figure 8.12 Option de sélection du facteur de l’axe des abscisses et celui des groupes figure 8.13 Le graphique obtenu On obtient ci-dessus le graphique des moyennes qui comprend en même temps une petite barre de SED centrée aux environs de la moyenne générale ‘grand mean’. Mais il est quelquefois nécessaire de produire également la barre LSD. Jusqu’ici nous ne pouvons pas l’obtenir au moyen du menu, mais plutôt en modifiant la commande produite par ce dernier. Par conséquent, la ligne modifiée peut être réalisée par l’option Run ⇒ Line. Entre temps, LSDs a été sélectionné en passant par le menu [Options] dans la boîte de dialogue d’Anova, d’où sa valeur a déjà été calculée (0.334). En utilisant le dialogue ci-dessus dans lequel l’option ‘lines’ a été définie, nous constatons, au niveau de la fenêtre de la notation des entrées ‘Input log’, que la commande AGRAPH [method=lines] Water;Sorbic a été envoyée dans le serveur de GenStat en vue de produire le tracé d’une ligne simple. Au fur et à mesure que vous deviendrez familier avec GenStat, vous adopterez le plus souvent l’écriture des commandes directement, alternative qui est relativement assez rapide. Il est préférable d’inscrire ces commandes dans une nouvelle fenêtre des entrées ‘Input’, étant entendu qu’il est également faisable de modifier celles qui se trouvent déjà au niveau de la fenêtre de notation des entrées ‘Input log’. Ainsi par exemple, à la fin de la ligne de commande de cette dernière fenêtre, nous ajoutons “ ;bar=0.334“ comme suit : AGRAPH [method=lines] Water;Sorbic;bar=0.334 Après cette écriture, et juste aussitôt la commande Run ⇒ Submit Line effectuée, le nouveau graphique est automatiquement affiché (figure 8.14). Essayons d’ajouter cette commande d’écriture aux lignes précédemment obtenues dans ‘Input log’ (voir page 100) en soumettant chaque fois les données au serveur de 101 GenStat Édition Discovery pour Usage Quotidien GenStat. Nous obtenons instantanément pour chaque cas, non seulement le tableau d’Anova, mais aussi le graphique correspondant. L’étude détaillée de l’utilisation des commandes en GenStat sera vue ultérieurement. figure 8.14 Le même graphique comprenant la barre des valeurs LSD La modification des légendes du graphique a été obtenue au moyen de ‘textbox’ tel que vue au chapitre 6.3. A la fin de cette session, nous effaçons toutes les données naturellement par le menu Run ⇒ Restart Session. 102 8 - Analyse de la variance. 8.3.2 Structure hiérarchisée des blocs Dans certaines expériences factorielles, il est parfois nécessaire d’avoir les unités expérimentales plus larges pour certains facteurs que pour d’autres. De tels dispositifs sont particulièrement appelés des ‘Split plot’. En effet, pour un essai en split plot dont les grandes parcelles sont dans un dispositif complètement randomisé, on aura besoin d’un facteur bloc ou block, d’un autre pour les grandes parcelles à l’intérieur des blocs (grande parcelle ou mainplot auquel s’appliquent les niveaux du traitement factor1) et enfin d’un autre pour les sous-parcelles à l’intérieur des grandes parcelles (sousparcelle ou subplot auquel s’appliquent les niveaux du traitement factor2). Les formules générales suivantes décrivent le schéma ainsi que les traitements factoriels dans un dispositif en split plot: Layout : block/mainplot/subplot Treatment factors : factor1*factor2 Dans ces formules, le symbole “/” est un opérateur de hiérarchisation. Par exemple, la formule A/B peut être développée à A+A.B Nous allons maintenant compléter la boîte de dialogue de ‘General Analysis of Variance’ en utilisant cette formule ou, alternativement, dans la liste des dispositifs disponibles présentés, nous sélectionnons ‘Split-plot’. Dans les boîtes des Blocks, Whole Plots, et Sub-plots, nous aurons besoin d’introduire seulement les trois facteurs du ‘layout’ correspondants. Les deux dialogues précédents vont produire les mêmes commandes GenStat suivants : BLOCK block/mainplot/subplot TREATMENTS factor1*factor2 Le sens de la structure de ‘BLOC’ ici peut être entendu en tant que sous-parcelles hiérarchisées à l’intérieur des grandes parcelles elles-mêmes hiérarchisées dans les blocs. GenStat effectue assez facilement les analyses d’aussi grande complexité. Il faudrait néanmoins qu’on ait fourni toute l’information requise définissant le schéma ‘layout’ de l’essai (Blocks, Whole Plots, etc.) et la structure du traitement Treatment Structure. Ceci peut être obtenu soit en introduisant les formules appropriées dans les boîtes correspondantes, soit en utilisant les commandes équivalentes BLOCK et TREATMENTS. Les résultats présentés dans l’Output sont suffisamment détaillés et complets si bien qu’on y trouve calculées même toutes les erreurs standard des moyennes ainsi que les tableaux de chacun des traitements avec leurs degrés de liberté correspondants. 103 GenStat Édition Discovery pour Usage Quotidien L’exemple qui suit se trouve dans le livre de Mead, Curnow and Hasted, pages 151155 (Exemple 7.4). Il s’agit de six variétés de laitue développées dans des caisses qui sont découvertes à de différentes dates. L’essai comporte 4 blocs (1, 2, 3, 4) ayan chacun 3 grandes parcelles qui correspondent à des dates de mise à découvert (x,y,z). A l’intérieur de chaque grande parcelle se trouvent six sous-parcelles correspondant aux 6 variétés (A, B, C, D, E, F). A l’origine, les données du rendement de laitue avaient été saisies selon un ordre systématique, mais ici nous préférons les présenter sous forme de tableau de manière à nous permettre de mieux illustrer les facteurs en GenStat. Block 1 111 1 1 F 9.9 211 E 11.1 311 F 4.8 411 E 16.2 222 2 D 11.3 312 2 D 10.3 412 2 A 6.3 113 3 C 9.2 223 3 F 14.3 313 3 C 11.4 413 3 F 12.2 114 4 A 11.8 224 4 A 8.8 314 4 B 11.8 414 4 B 8.8 115 5 D 15.6 225 5 B 12.9 315 5 A 9.7 415 5 C 2.6 B 8.3 226 C 15.7 316 E 14.0 416 E 14.1 D 12.6 221 F 11.6 321 B 11.2 421 6 1 2 1 z 2 1 1 Y 6 2 2 1 Z 3 1 1 Block 4 2 121 x Block 3 112 116 1 Block 2 x 6 3 2 1 y 4 1 1 z 5 4 2 1 x D 11.3 F 9.8 C 3.3 222 2 B 8.4 322 2 D 11.0 422 2 B 8.5 123 3 A 7.0 223 3 A 9.1 323 3 F 15.9 423 3 C 7.2 124 4 E 12.6 224 4 E 12.3 324 4 C 7.6 424 4 D 14.7 125 5 B 5.7 225 5 C 6.9 325 5 E 10.8 425 5 A 6.4 126 6 F 10.2 226 6 D 15.4 326 6 A 12.5 426 6 E 11.5 4 3 2 1 y F 7.5 133 3 B 5.4 233 3 A 7.5 333 3 C 1.0 433 3 C 9.4 134 4 C 12.1 234 4 F 10.8 334 4 D 14.2 434 4 A 9.4 135 5 F 12.5 235 5 D 10.8 335 5 F 10.4 435 5 B 7.8 136 6 A 9.7 236 6 E 11.2 336 6 B 6.1 436 6 D 10.7 Il découle du tableau ci-dessus que les premières quatre entrées de chaque parcelle sont des numéros des unités, blocs, parcelles principales et sous-parcelles (facteurs de bloc). Ces facteurs décrivent en quelque sorte le schéma expérimental dans lequel ils sont systématiquement bien ordonnés. Ils sont suivis par les noms des facteurs ‘date’ et ‘variety’ en même temps que le rendement ‘yield’ qui seront analysés. En suivant l’ordre systématique, nous allons saisir ces donnés dans une feuille de calcul (par exemple colonne par colonne) de trois facteurs (block, mainplot et subplot) qui définissent le schéma expérimental. Deux autres facteurs date et variety ont été créés pour indiquer les facteurs traitements. Après la saisie, les données seront enregistrées sous le nom de “Lettuce uncovered.gsh”. 104 Yield 432 Variety 7.1 Date 8.5 A Sub-plot z Main Plot 1 Block E 2 Variety 3 Date 3 Sub-plot 431 332 Block 14.4 8.4 Main Plot E B Unit X Yield 1 Date 331 2 Variety 3 Sub-plot 2 Main Plot 10.6 232 Block C 13.2 Unit 231 D Yield y Variety 1 Date 3 Sub-plot 16.5 2 Block 1 Main Plot 131 Unit E 132 Unit 2 Yield 122 8 - Analyse de la variance. figure 8.15 La feuille de données de laitue figure 8.16 Anova d’une structure de traitement factoriel et de blocs hiérarchisés Nous allons ouvrir la boîte de dialogue d’Anova et choisir dans les listes des dispositifs le ‘General Analysis of Variance’ en complétant les différentes options de la boîte comme le montre la figure 8.16. Il faut noter que les deux valeurs de SED nécessaires pour le tableau des moyennes de variety en fonction de date sont présentées dans la colonne droite du tableau des valeurs des erreurs standard. La première valeur SED (1.65) permet de comparer deux moyennes obtenues à de différentes dates, alors que la seconde (se trouvant en-dessous de la section ‘Except when comparing means with the same levels of’) sert à comparer deux moyennes à la même date (1.59). A chaque fois, les degrés de liberté correspondants sont présentés en dessous de chaque SED. A la fin de cet exercice, nous nous servirons évidemment du Run ⇒ Restart Session pour effacer toutes les données. 105 GenStat Édition Discovery pour Usage Quotidien ***** Analysis of variance ***** Variate: Lettuce Source of variation d.f. s.s. m.s. v.r. Block stratum 3 29.343 9.781 1.35 Block.Mainplot stratum Date Residual 2 6 38.003 43.566 19.002 7.261 2.62 1.44 0.152 Block.Mainplot.Subplot stratum Variety 5 Variety.Date 10 Residual 45 260.508 163.698 227.277 52.102 16.370 5.051 10.32 3.24 <.001 0.003 Total 762.395 71 * MESSAGE: the following units have large residuals. Block 1 Mainplot 3 Subplot 1 4.3 Block 1 Mainplot 3 Subplot 3 -4.4 F pr. s.e. 1.8 s.e. 1.8 ***** Tables of means ***** Variate: Lettuce Grand mean 10.3 Variety A 8.8 B 8.6 C 8.1 Date x 10.4 y 11.1 z 9.3 Variety A B C D E F Date x 8.9 9.3 9.6 12.8 13.2 8.8 y 10.1 9.3 11.2 11.5 11.7 12.6 D 12.6 E 12.8 z 7.4 7.2 3.4 13.4 13.3 11.1 *** Standard errors of differences of means *** Table Variety Date Variety Date rep. 12 24 4 s.e.d. 0.92 0.78 1.65 d.f. 45 6 46.05 Except when comparing means with the same level(s) of Date 1.59 d.f. 45 106 F 10.8 8 - Analyse de la variance. 8.3.3 Vérification des valeurs aberrantes ‘outliers’ L’approche de hiérarchisation peut être employée pour avoir plus d’information dans la fenêtre des résultats (Output). Considérons l’exemple concernant la production d’œufs et ouvrons de nouveau le fichier “Egg production.gsh”. Chaque unité est un enclos ‘pen’ renfermant 6 poules et de ce fait, elle constitue le niveau de facteur “Pen”. Pour cela, nous allons insérer une autre colonne ‘pen’ juste avant celle de “Block” comme illustré à la figure 8.17. Nous pouvons dès lors introduire dans nos données une erreur volontaire pour concrétiser la notion de valeur aberrante. Remplaçons par exemple le nombre d’œufs de l’enclos 3 (Block 3, Treatment O) de 295 par 195. figure 8.17 Ajout d’un identificateur propre à chaque unité et changement d’une observation ***** Analysis of variance ***** Variate: Eggs Source of variation d.f. s.s. m.s. v.r. Block stratum 3 3980. 1327. 0.76 Block.*Units* stratum Treatment Residual 2 6 11129. 10472. 5565. 1745. 3.19 11 25581. Total F pr. 0.114 * MESSAGE: the following units have large residuals. Block 3 *units* 1 -66. s.e. 30. 107 GenStat Édition Discovery pour Usage Quotidien En produisant l’Anova, nous obtenons un message nous informant la présence d’une observation qui possède une grande valeur résiduelle ‘large residual’. Vous devriez normalement parcourir toutes les données pour retrouver l’observation en question, mais ici le message indique clairement qu’il s’agit de la 1ère unité du Bloc 3 (figure 8.18). Cependant, une telle facilité n’est pas réalisable lorsqu’il s’agit d’un grand ensemble des données complexes. En outre, le message sera différent selon que l’on change l’ordre des données. figure 8.18 Comptage visant l’identification des observations aux grandes valeurs des résidus Pour cela, si on effectue la même Anova pour les mêmes données mais ordonnées cette fois en tenant compte du nombre décroissant des œufs, on reçoit le message suivant (à la fin de ce tableau): ***** Analysis of variance ***** Variate: Eggs Source of variation d.f. s.s. m.s. v.r. Block stratum 3 3980. 1327. 0.76 Block.*Units* stratum Treatment Residual 2 6 11129. 10472. 5565. 1745. 3.19 11 25581. Total F pr. 0.114 * MESSAGE: the following units have large residuals. Block 3 *units* 3 -66. s.e. 30. Cela nous fait constater que le numéro d’unités (enclos), peut être considéré dans le schéma expérimental, comme un facteur hiérarchisé à l’intérieur des blocs. C’est pour 108 8 - Analyse de la variance. cette raison qu’il est également possible de produire l’Anova de la façon présentée dans la figure 8.19: figure 8.19 Incorporation des unités dans la structure des blocs Le message d’erreur affiché fournit cette fois-ci une information très catégorique et suffisamment précise en rapport avec l’ordre des données. Dans notre exemple, l’observation ayant été détectée de posséder la grande valeur résiduelle correspond à Pen 4 du Block 3. ***** Analysis of variance ***** Variate: Eggs Source of variation d.f. s.s. m.s. v.r. Block stratum 3 3980. 1327. 0.76 Block.Pen stratum Treatment Residual 2 6 11129. 10472. 5565. 1745. 3.19 11 25581. Total F pr. 0.114 * MESSAGE: the following units have large residuals. Block 3 Pen 4 -66. s.e. 30. 109 GenStat Édition Discovery pour Usage Quotidien 8.3.4 Randomisation des dispositifs expérimentaux GenStat dispose des menus qui permettent de générer la randomisation d’un bon nombre de dispositifs expérimentaux. Pour ceux utilisés dans ce guide, la procédure générale consistera à utiliser le menu Stats ⇒ Design ⇒ Generate a Standard Design. Nous allons d’abord commencer par le cas d’un dispositif en blocs randomisés structuré en 4 blocs et 3 traitements, juste comme celui de l’exemple précédent. Dans la boîte de dialogue affichée, nous choisissons One-way Design (in Randomized blocks) et indiquons les informations appropriées concernant les traitements et les blocs. Le dialogue obtenu est présenté à la figure 8.20. En laissant telles qu’elles les autres informations données par défaut, nous cliquons sur [OK] pour valider les changements apportés. La figure 8.21 ci-dessous présente la feuille des résultats ainsi obtenus : figure 8.20 Boîte de dialogue du schéma d’un dispositif standard figure 8.21 La feuille de données obtenue Il est important de noter ici que GenStat a ajouté une colonne supplémentaire devant servir de numéro de la parcelle ‘Plotno’ ainsi qu’une autre appelée ‘Plots’ réservée au numéro de la parcelle à l’intérieur de chaque bloc. Il est possible qu’en suivant la même procédure, les valeurs que vous trouvez dans la colonne ‘Treat’ soient totalement différentes de celles indiquées ci-dessus. Cela est dû au fait que le nombre utilisé de ‘Seeds’ se trouvant en bas de la boîte de dialogue, était probablement différent. C’est en fait ce nombre ‘Randomization Seed’ dont GenStat se sert pour générer les chiffres aléatoires. Ces résultats obtenus concernant le schéma expérimental sont présentés dans une feuille de calcul, mais elles peuvent être enregistrées comme fichier GenStat si c’est là qu’on souhaitera saisir les données plus tard. Autrement elles peuvent être sauvegardées dans une feuille de format standard, notamment en Excel, car dans ce cas, on pourrait s’en servir pour concevoir la fiche de collecte des données et même celle de la saisie. 110 8 - Analyse de la variance. L’exemple suivant consiste à une expérimentation de traitements factoriels. Effacons d’abord les données précédentes par Run ⇒ Restart Session et appliquons de nouveau le menu Stats ⇒ Design ⇒ Generate a Standard Design. Considérons l’exemple d’un essai en blocs randomisés comprenant 5 blocs de 12 combinaisons de traitements factoriels réparties en deux facteurs de trois niveaux (fact1) et quatre niveaux (fact2). En complétant le menu comme illustré à la figure 8.22, nous obtenons le plan d’expérimentation présenté dans une feuille de calcul à la figure 8.23 ainsi que le tableau indicateur d’ANOVA ‘dummy ANOVA’ dans l’Output. figure 8.22 Conception d’un dispositif de blocs randomisés comprenant deux critères de classification figure 8.23 La feuille de randomisation obtenue ***** Analysis of variance ***** Source of variation d.f. Block stratum 4 Block.Plot stratum fact1 fact2 fact1.fact2 Residual 2 3 6 44 Total 59 Le dernier exemple nous montre comment la même boîte de dialogue utilisé pour le dispositif en blocs randomisés peut servir également lorsqu’il s’agit d’un dispositif en split plot, en l’occurrence celui analysé précédemment dans le . En complétant le dialogue, vous aurez sans doute remarqué une autre option qui demande un autre type d’Anova ‘Trial Anova’ (en bas du dialogue). Ci-dessous la forme sous laquelle les résultats obtenus pourraient se présenter : 111 GenStat Édition Discovery pour Usage Quotidien figure 8.24 Conception d’un dispositif en split plot 112 figure 8.25 La feuille obtenue après la randomisation 8 - Analyse de la variance. ***** Analysis of variance ***** Variate: _Rand_ Source of variation d.f. s.s. m.s. v.r. Block stratum 3 215.770 71.923 13.15 Block.Mainplot stratum Date Residual 2 6 0.865 32.807 0.433 5.468 0.08 5.47 0.925 1.981 5.563 45.000 0.396 0.556 1.000 0.40 0.56 0.849 0.840 Block.Mainplot.Subplot stratum Variety 5 Date.Variety 10 Residual 45 Total 71 F pr. 301.987 ***** Tables of means ***** Variate: _Rand_ Grand mean 13.28 Date 1 13.43 2 13.20 3 13.21 Variety 1 12.95 2 13.36 3 13.29 Date 1 2 3 Variety 1 13.58 12.88 12.39 2 13.27 13.43 13.37 3 13.11 12.86 13.92 4 13.42 4 13.47 13.55 13.25 5 13.21 5 13.43 13.16 13.04 6 13.44 6 13.74 13.32 13.26 *** Standard errors of means *** Table Date Variety Date Variety rep. 24 12 4 e.s.e. 0.477 0.289 0.660 d.f. 6 45 19.78 Except when comparing means with the same level(s) of Date 0.500 d.f. 45 *** Least significant differences of means (5% level) *** Table Date Variety Date Variety rep. 24 12 4 l.s.d. 1.652 0.822 1.950 d.f. 6 45 19.78 Except when comparing means with the same level(s) of Date 1.424 d.f. 45 ***** Stratum standard errors and coefficients of variation ***** Variate: _Rand_ Stratum Block Block.Mainplot Block.Mainplot.Subplot d.f. s.e. cv% 3 6 45 1.999 0.955 1.000 15.1 7.2 7.5 113 GenStat Édition Discovery pour Usage Quotidien 114 9 Défi nº3 Dans le défi nº 1 (chapitre 5, page 63), le dispositif de l’essai était en blocs randomisés ‘randomised block design’ où les blocs étaient désignés dans la colonne de REP. Par l’analyse de la variance, trouvez l’erreur standard de la différence (s.e.d) entre Sesbania (codé SES) et les jachères naturelles (codées NAT) pour (a) le rendement moyen de maïs et (b) les nitrates du sol. GenStat Édition Discovery pour Usage Quotidien 116 10 Lecture additionnelle 10.1 Autre documentation gratuite Une deuxième partie de ce guide, intitulé “Further regression and ANOVA using GenStat Discovery Edition”, est en train d’être produit. Ce guide inclura plus d’information sur la regression et l’analyse de variance. Le guide sera distribué sur des nouvelles versions du CD-ROM avec le logiciel GenStat Édition Discovery et sera également distribué à travers le site www.worldagroforestrycentre.org/genstatforafrica ICRAF, ‘the World Agroforestry Centre’, a publié une série de documents sur l’analyse des données des expériences. Dans ces documents, les analyses sont faites en utilisant GenStat et des données modèles sont incluses. Tous ces documents se trouvent sur le CD-ROM de GenStat Édition Discovery et sont aussi disponibles du site Internet de l’Unité de Support en Matière de Recherche de l’ICRAF : www.worldagroforestrycentre.org/rsu (regardez sous le menu de ‘Data Analysis’). Sur le même site il y a aussi des différentes notes techniques, quelques d’eux contiennent plus d’information technique sur l’usage de GenStat. Le Centre des Services Statistiques (‘Statistical Services Centre’) de l’Université de Reading (http://www.rdg.ac.uk/ssc/), a produit une série de guides avec des bonnes pratiques statistiques. Ils sont disponibles sur le CD-ROM de GenStat Édition Discovery et sur le site Internet du SSC: http://www.rdg.ac.uk/ssc/develop/dfid/booklets.html Une de ces guides est écrit spécialement pour des utilisateurs de MSTAT qui veulent commencer à utiliser GenStat. L’unité de biométrie (‘The Biometry Unit Consultancy Services – BUCS’) de l’Université de Nairobi, en collaboration avec des statisticiens de Malawi et Zimbabwe, a produit une guide sur le stratégie d’usage des logiciels pour l’analyse statistique dans leur facultés d’agriculture. Ils proposent d’utiliser GenStat pour la formation des étudiants postuniversitaires et pour faire la recherche. Pour des étudiants universitaires ils proposent l’usage de SSC-Stat (un supplément de MS Excel) et Instat+ (un logiciel pour faire des analyses statistiques simples). Les deux logiciels, SSC-Stat et Instat+, et le site Internet de BUCS se trouvent également sur le CD-ROM avec GenStat Édition Discovery. Les versions les plus récentes de ces logiciels peuvent être téléchargé du site Internet du SSC. Quelques présentations des stratégies de BUCS peuvent être téléchargé du site http://www.uonbi.ac.ke/acad_depts/bucs/presentation.htm 10.2 Le menu Help de GenStat Dans le chapitre 2.2.2 (page 11) c’était montré comment trouver plus d’information sur un sujet spécifique en utilisant le menu ‘Help’ de GenStat. L’exemple montrait comment savoir plus sur les formats des fichiers des différents tableurs qui peuvent être importés en GenStat. Le fonctionnement du menu ‘Help’ de GenStat a une grande ressemblance de beaucoup d’autres logiciels Windows, mais si en doute comment l’utiliser regardez d’abord sous le menu “how to use help”. Choisissez Help => How to use help et sélectionnez par exemple “To find a topic in Help”. Cliquez sur le bouton [Display] comme montré dans la figure 10.1 une fenêtre d’aide s’ouvrira avec l’information sur ce sujet (figure 10.2). GenStat Édition Discovery pour Usage Quotidien figure 10.1 Apprendre comment trouver l’information dans le GenStat Help figure 10.2 La fenêtre contenant l’information sur le sujet sélectionné Le ‘GenStat tutorial’ est un manuel interactif qui couvre des sujets similaires que dans ce guide. Choisissez Help=> GenStat Tutorial pour voir du texte, des vidéos et des fenêtres interactives. Cliquez le bouton [Main Menu] pour démarrer le ‘GenStat tutorial’ comme le montre la figure 10.3. figure 10.3 Démarrer le ‘GenStat Tutorial’ 118 10 - Titre du chapitre C’est possible de manœuvrer à travers le ‘GenStat tutorial’ en utilisant des différentes types de boutons (figure 10.4). figure 10.4 La signification des différents types de boutons dans le GenStat Tutorial allez vers une section spécifique démarrez une vidéo sur le sujet ouvrez une page interactive sur le sujet Si vous mettez le curseur dessus les points rouges sur telle page interactive, une fenêtre ouvrira contenant plus d’information. Dans l’exemple il s’agit de plus d’information sur les différentes options dans le menu Help. Sortez du ‘GenStat tutorial’ en cliquant sur la bouton [Quit], ou cliquez d’abord sur la bouton [Back] jusqu’au moment que vous voyez une bouton [Quit]. Confirmez que vous voulez vraiment sortir en cliquant sur [Yes]. 10.3 Notes explicatives “cachés” Et il y a plus ! Après l’installation de GenStat Édition Discovery, plus de 3,000 pages des notes explicatives en format pdf se trouvent quelque part sur votre ordinateur. Le format pdf signifie ‘portable data format’. C’est un format des fichiers qu’on peut lire avec ‘Adobe Acrobat Reader’. Ceci est un logiciel gratuit. Probablement ça se trouve déjà sur votre ordinateur mais sinon ou bien il se trouve une copie sur le CD-ROM de GenStat Édition Discovery, ou bien vous pouvez télécharger la dernière version de www.adobe.com Toutes ces notes explicatives ne sont pas directement visibles parce qu’il s’agit des guides qui sont inclus dans le menu d’aide de GenStat version 6. VSN International, les producteurs de GenStat, ont décidé juste avant le lancement du GenStat Édition Discovery d’aussi mettre ces guides disponibles pour les utilisateurs de l’Édition Discovery, mais il n’était plus de temps pour modifier les menus. Bien que les guides ont la version 6 pour but, la plupart de l’information est encore utile pour l’Édition Discovery (ce qui est à son tour semblable que la version 5). Seulement les chapitres sur les graphiques diffèront. Si vous avez suivi une installation standard de l’Édition Discovery, les fichiers pdf avec la documentation se trouvent dans la sous-répertoire: C:\Program Files\GenDisc\doc (figure 10.5). 119 GenStat Édition Discovery pour Usage Quotidien figure 10.5 The folder containing additional information Le table suivant donne les références des documents différents. Introguide.pdf Roger Payne, Darren Murray, Simon Harding, David Baird, Duncan Soutar & Peter Lane. 2002. GenStat® for WindowsTM (6th Edition) Introduction. VSN International, Oxford, UK. 276 pp. ISBN-1-904375-06-5 NewFeatures.pdf Roger Payne (Ed.) 2002. New features in GenStat® Release 6.1 VSN International, Oxford, UK. 95 pp. ISBN 1-904375-02-2 SyntaxGuide.pdf Roger Payne (Ed.). 2002. The Guide to GenStat® Release 6.1 Part 1: Syntax and Data Management. VSN International, Oxford, UK. 492 pp. ISBN 1-904375-00-6 StatsGuide.pdf Roger Payne (Ed.). 2002. The Guide to GenStat® Release 6.1 Part 2: Statistics VSN International, Oxford, UK. 856 pp. ISBN 1-904375-01-4 Refman1.pdf Roger Payne et al. 2002. GenStat® Release 6.1 Reference Manual Part 1: Summary. VSN International, Oxford, UK. 254 pp. ISBN 1-904375-03-0 Refman2.pdf Roger Payne et al. 2002. GenStat® Release 6.1 Reference Manual Part 2: Directives VSN International, Oxford, UK. 396 pp. ISBN 1-904375-04-9 Refman3.pdf Roger Payne and Gillian Arnold (Eds.) 2002. GenStat® Release 6.1 Reference Manual Part 3: Procedure Library PL14 VSN International, Oxford, UK. 454 pp. ISBN 1-904375-05-7 120 10 - Titre du chapitre 10.4 Francophones et hispanophones Toute la documentation mentionnée ci-dessus est en Anglais. Mais dans le même répertoire ou se trouvent des autres notes explicatives il y a deux guides introductives sur GenStat pour Windows version 5, une en Français et une en Espagnol. GenStat Édition Discovery est exactement la même chose comme GenStat version 5, sauf pour les graphiques. IntroFrench5ed.pdf Simon Harding, Peter Lane, Darren Murray et Roger Payne. Traduit par Gaston Kokodé. 2000. Genstat pour Windows (5éme Edition) Introduction VSN International sarl, Oxford, UK. 216 pp. ISBN 1-85206-183-9 IntroSpanish5ed.pdf Simon Harding, Peter Lane, Darren Murray y Roger Payne. Traducido al español por Guillermo Hough y Freddy Ledezma. 2000. Genstat para Windows (5ta. Edición) Introducción VSN Internacional Ltda., Oxford, UK. 216 pp. ISBN 1-85206-183-9 10.5 La communauté des utilisateurs de GenStat Finalement, il existe une communauté informelle des utilisateurs de GenStat qui sont actifs à travers le courrier électronique. Lisez les règles de ce courrier électronique, regardez des anciens messages et joignez sur l’adresse http://www.bioss.sari.ac.uk/genstat/ 121 GenStat Édition Discovery pour Usage Quotidien 122