GenStat Edition Discovery pour usage quotidien

Transcription

GENSTAT
EDITION
DISCOVERY
POUR USAGE QUOTIDIEN
Association flamande de Coopération
au Développement et d’Assistance
Technique (VVOB)
World Agroforestry Centre (ICRAF)
Unité de Support en matière de
Recherche
Université de Reading
Centre des Services Statistiques
Institut des Sciences Agronomiques
du Rwanda ( ISAR )
GenStat Édition Discovery
pour Usage Quotidien
Wim Buysse, Roger Stern et Ric Coe
Traduit par Amini Mutaganda
Référence correcte : Wim Buysse, Roger Stern et Ric Coe, 2004. GenStat Édition Discovery pour
Usage Quotidien . Traduit par Amini Mutaganda. ICRAF Nairobi, Kenya. 122 pp.
ISBN: 92 9059 161 7
Copyright © 2004 World Agroforestry Centre.
Cette publication est une propriété scientifique de l’Université de Reading et du Centre
International de Recherche en Agroforesterie. Si l’utilisation de l’information qu’elle contient est
somme tout encourageante, néanmoins son contenu ne devrait être reproduit sous quelque forme
que ce soit, sans en avoir préalablement l’autorisation des éditeurs.
Les auteurs et les éditeurs n’ont pas de représentants, ni officiels ni officieux de peur de ne pas
perdre l’originalité de l’information contenue dans cet ouvrage. De ce fait, ils ne peuvent endosser
aucune responsabilité pour les erreurs ou omissions qui pourraient être occasionnées par des
manipulations non autorisées.
Dans ce manuel, tous les termes considérés comme marques ou services commerciaux ont été
écrits en majuscules. Les auteurs et éditeurs ne disposent pas de suffisamment de données
précises les concernant. Ainsi, l’usage de l’un ou l’autre de ces termes dans ce livre ne porte
préjudice à la validité de ces marques déposées.
The University of Reading
Whiteknights
PO Box 217
Reading
Berkshire RG6 6AH
United Kingdom
http://www.reading.ac.uk
The World Agroforestry Centre
ICRAF
PO Box 30677
00100 Nairobi
Kenya
http://www.worldagroforestrycentre.org/rsu
Table de matières
1
2
3
4
5
6
GenStat Édition Discovery ............................................................................................1
1.1
En quoi consiste ce guide?.....................................................................................1
1.2
Les origines de l’Edition Discovery. .....................................................................2
1.3
Configuration. ........................................................................................................3
1.4
Remerciements.......................................................................................................3
Notions fondamentales en GenStat................................................................................5
2.1
Lancement de GenStat Édition Discovery.............................................................5
2.2
Saisie des données .................................................................................................6
2.2.1
Saisie des données en utilisant le menu Spread.............................................6
2.2.1.1 Attribution d’un nom à la colonne.............................................................8
2.2.1.2 Ajout d’une description complémentaire...................................................9
2.2.1.3 Attribution d’un nom aux feuilles des données .......................................10
2.2.2
Entrée des données en Excel........................................................................11
2.2.3
Méthode avancée de saisie des données. .....................................................15
2.2.4
Sortir du GenStat. ........................................................................................15
2.3
Quelques manipulations de base de données.......................................................16
2.3.1
Statistiques sommaires.................................................................................16
2.3.2
Calcul et mise en forme des colonnes..........................................................18
2.3.3
Colonnes contenant des facteurs..................................................................23
2.3.4
Enregistrement des données GenStat en Excel............................................28
2.3.5
Importation des facteurs à partir d’Excel.....................................................29
2.3.6
Suppression des données quelconques. .......................................................29
2.4
Compréhension du fonctionnement de GenStat ..................................................30
2.4.1
Variables disponibles...................................................................................30
2.4.2
Une première introduction au langage de commande de GenStat...............31
2.4.3
Détails concernant le serveur.......................................................................36
Quelques notions simples en statistique ......................................................................37
3.1
Autres manipulations de données : cas de mise en commun de deux feuilles.....37
3.2
Exploration visuelle des données.........................................................................40
3.2.1
Les diagrammes en boîtes ‘boxplots’...........................................................40
3.2.2
La médiane et les quartiles...........................................................................41
3.2.3
Utilisation des diagrammes en boîtes ‘boxplots’.........................................45
3.3
Les tests d’hypothèses. ........................................................................................47
3.3.1
Test de l’hypothèse sur la moyenne d’une population. ...............................47
3.3.2
La comparaison d’échantillons. ...................................................................49
3.3.3
Le test t des données associées par paires....................................................52
3.3.4
Exemple d’une méthode non paramétrique. ................................................55
3.4
Cas d’une simple régression. ...............................................................................57
Révision des chapitres 2–3. .........................................................................................61
Défi nº 1 .......................................................................................................................63
Avant d’effecteur l’Analyse de la Variance ................................................................65
6.1
Organisation des facteurs et des données ............................................................65
6.1.1
Au niveau d’une feuille GenStat..................................................................65
6.1.1.1 Rendement du melon. ..............................................................................66
i
6.1.1.2 Les poules pondeuses et modes d’éclairage.............................................68
6.1.2
A partir d’une feuille Excel..........................................................................69
6.1.2.1 La survie de Salmonella typhimurium. ....................................................69
6.2
L’analyse exploratoire..........................................................................................72
6.2.1
Rendement du melon ...................................................................................72
6.2.2
Poules pondeuses et modes d’éclairage. ......................................................75
6.2.3
La survie de Salmonella typhimurium. ........................................................75
6.3
Exemple pratique. ................................................................................................79
7
Défi nº 2 .......................................................................................................................87
8
Analyse de la variance. ................................................................................................89
8.1
Deux cas simples d’Anova...................................................................................89
8.2
Utilisation optimale de l’Output ..........................................................................91
8.3
Définition de la structure du traitement ...............................................................95
8.3.1
Structure factorielle du traitement................................................................95
8.3.2
Structure hiérarchisée des blocs.................................................................103
8.3.3
Vérification des valeurs aberrantes ‘outliers’ ............................................107
8.3.4
Randomisation des dispositifs expérimentaux...........................................110
9
Défi nº3 ......................................................................................................................115
10
Lecture additionnelle..............................................................................................117
10.1 Autre documentation gratuite.............................................................................117
10.2 Le menu Help de GenStat ..................................................................................117
10.3 Notes explicatives “cachés” ...............................................................................119
10.4 Francophones et hispanophones.........................................................................121
10.5 La communauté des utilisateurs de GenStat ......................................................121
ii
1 GenStat Édition Discovery
1.1 En quoi consiste ce guide?
Ce guide est une traduction du document ‘GenStat Discovery Edition for
everyday use’1. Il est avant tout destiné aux chercheurs désireux de se
servir du logiciel GenStat comme outil d’analyse des données de
recherche. Bon nombre des exemples utilisés ont été tirés du livre
‘Statistical Methods in Agriculture and Experimental Biology’ écrit par
Mead, Curnow and Hasted2, et certains autres proviennent des documents
de formation développés conjointement par l’ICRAF et l’Université de
Reading. L’objectif principal visé est la formation sur l’utilisation de GenStat
en tant qu’outil d’analyse statistique plutôt que d’apprendre les Statistiques
proprement dites. Quoi qu’il en soit, certains chapitres de ce document ont
été consacrés à la révision de quelques statistiques de base montrant
notamment l’application de GenStat dans l’enseignement des Statistiques,
ne serait-ce que les éléments de base. Néanmoins, il va sans dire que
dans ce document, nous avons fourni peu d’information en rapport avec les
données de recherche ainsi que l’interprétation des résultats.
Le second chapitre de ce guide introduit les notions fondamentales de GenStat et est
élaboré sous forme de cours de formation. Le contenu se rapporte aux sujets
concernant la saisie, le calcul et la manipulation des données, quelques statistiques
descriptives ainsi qu’une introduction au langage de commande. Le troisième chapitre
aborde l’aspect de l’application en GenStat de quelques notions simples de Statistique
notamment le test t et la simple régression. En ce qui concerne le sixième chapitre, les
éléments développés s’articulent sur l’organisation et l’exploration des données, alors
que le huitième s’étend sur l’analyse de la variance en GenStat. L’explication de ces
différents sujets a été appuyée par les exemples qui concernent plus particulièrement
le dispositif de blocs randomisés, la structure de traitements factoriels et le dispositif en
split plot. D’autres chapitres enfin ont été consacrés aux exercices de révision ou aux
‘défis’ à relever.
En préparant ce manuel, notre but principal était de fournir un texte de base pour les
chercheurs en atelier de formation sur les statistiques. Bien plus, ce guide est conçu
pour l’utilisateur s’appliquant de lui-même ou bénéficiant d’un certain encadrement,
mais aussi peuvent bien s’en servir les utilisateurs maîtrisant d’autres logiciels
statistiques. C’est autant dire que le document ne s’adresse pas aux débutants sans
encadrement en GenStat.
Pour les participants maîtrisant d’autres logiciels statistiques, nous estimons qu’une
session d’une journée de formation peut suffire pour couvrir tout le contenu de ce
guide. La session comprendrait éventuellement l’introduction des notions
fondamentales en GenStat débouchant à la fin de la journée, à l’échange des
impressions des uns et des autres sur le logiciel. Au cas où les participants n’auraient
pas d’expérience sur l’utilisation d’aucun logiciel statistique, il faudra quatre jours au
1
Wim Buysse, Roger Stern and Ric Coe, 2004. GenStat Discovery Edition for everyday use. ICRAF
Nairobi, Kenya. 108 pp. ISBN 92 9059 158 7
2
Roger Mead, Robert N. Curnow, Anne M. Hasted, 2003. Statistical Methods in Agriculture and
Experimental Biology. Third Edition. Chapman & Hall/CRC. 472 pages ISBN 1-58488-187-9
GenStat Édition Discovery pour Usage Quotidien
moins pour pouvoir parcourir tout le manuel. Cette formation comporterait beaucoup
d’autres exercices provenant des données d’autres essais. Signalons que durant la
tenue de ces formations, les données en rapport à l’analyse des essais en
agroforesterie sont obtenues en visitant le site :
http://www.worldagroforestrycentre.org/sites/RSU/dataanalysis/index.html
En outre, toutes les données utilisées aussi bien dans les exemples que durant les
exercices pratiques se trouvent sur le ‘CD-ROM’. La lecture de ce manuel sur le papier
imprimé nécessitera à télécharger les fichiers de données à partir du site web de
l’Unité de Support en matière de Recherche de l’ICRAF :
(http://www.worldagroforestrycentre.org/rsu).
1.2 Les origines de l’Edition Discovery.
L’édition de GenStat décrite ici concerne le logiciel GenStat Edition Discovery pour
Windows. Elle est basée sur la 5ème Edition, ‘Service Pack 2’ et comporte l’ancienne
édition graphique ‘release 4.1’.
En réalité, l’Edition Discovery résulte d’un partenariat tout à fait particulier établi entre
une société spécialisée dans le développement des logiciels statistiques d’une part et
les institutions de recherche ainsi qu’une association de coopération dans le domaine
de développement d’autre part. Il est bien connu par tous les chercheurs que l’analyse
statistique efficace constitue un élément non négligeable dans la recherche et de ce
fait, nécessite un logiciel bien approprié. Par ailleurs, l’obtention d’un tel logiciel est
devenue un problème majeur particulièrement dans les pays en développement du fait
de l’insuffisance de ressources nécessaires. Partant de ce constat, des participants
d’une réunion pendant une conférence sur l’usage de GenStat tenue à Oxford en
Septembre 2001 avaient demandé au VSN International, d’étudier la possibilité de
mettre gratuitement le logiciel GenStat à la disposition des chercheurs des pays en
développement. Au départ, VSN s’est réservé de s’engager dans une aventure aussi
risquée. Mais au fil du temps, les idées se sont changées et le 17 Octobre 2003,
GenStat Edition Discovery a été officiellement lancée. Pendant la période pilote d’une
année, le logiciel accompagné de toute une documentation technique disponible à
l’internet, sera distribué gratuitement aux utilisateurs sans buts lucratifs à travers toute
l’Afrique. Tel est résumé le plan de travail initialement prévu pour une année mais qui,
nous l’espérons, pourrait éventuellement se prolonger. L’édition de GenStat Edition
Discovery est techniquement supportée par les institutions et centres suivants :
Statistical Services Centre de l’Université de Reading (UK), World Agroforestry Centre
(ICRAF, Kenya), International Livestock Research Institute (ILRI, Kenya) et BUCS
(Université de Nairobi, Kenya). Ils assurent la livraison des licences ainsi que le
développement du matériel de formation. Dans ce contexte, le projet “Capacity
strengthening in research methods“ au service des institutions partenaires de l’ICRAF
en Afrique de l’Est et du Centre, s’est fixé comme un de ces objectifs l’assistance en
matériel informatique et logiciels dans les pays de cette région d’Afrique. Le projet est
financé par VVOB, l’Association flamande de Coopération au Développement et
d’Assistance technique. Il est bon de signaler que la distribution gratuite d’un logiciel
performant accompagné du matériel technique pour la formation destinée aux
utilisateurs sans buts lucratifs à travers l’Afrique, coïncide parfaitement avec les
objectifs du projet susmentionné. Jusqu’à aujourd’hui, VVOB a assuré le financement
de la mise au point d’un site Internet, a participé à la production de ce guide et à la
distribution des CD d’installation du logiciel ainsi que du matériel technique de
formation.
2
1 - GenStat Édition Discovery
Les informations récentes en rapport avec cette offre de GenStat peuvent être
obtenues en visitant le site : http://www.worldagroforestrycentre.org/GenStatforafrica
1.3 Configuration.
Pour installer le logiciel GenStat sous Windows 98, la configuration minimum
recommandée est un ordinateur pentium ou à processeur compatible (PC) avec 32 Mo
de mémoire vive. Par ailleurs, il faut noter que GenStat est développé par le Comité
GenStat du Département des Statistiques, IACR-Rothamsted, Harpenden,
Hertfordshire AL5 2JQ, UK. Sa publication aussi bien que sa distribution sont
officiellement assurées par VSN International Ltd, Wilkinson House, Jordan Hill Road,
Oxford OX2 8DR, UK (Tél: +44 (0)1865 511245 – Fax: +44 (0)870 1215653 –
http://www.vsn-intl.com - E-mail: [email protected]). De même, le logiciel GenStat est
enregistré comme marque déposée de ‘Lawes Agricultural Trust’.
1.4 Remerciements
Comme nous venons de le souligner, ce manuel a été adapté et développé à partir du
document initial “Using GenStat for Windows, 5th Edition, in Agriculture and
Experimental Biology”. A son tour, celui-ci avait été conjointement préparé par le
personnel de SSC, Reading et de l’ICRAF, Nairobi en se servant des notes techniques
de Gillian Arnold and Ruth Butler développées pour la formation en Maîtrise au
Département des Sciences Agronomiques de l’Université de Bristol. En terminant la
rédaction de ce guide, nous sommes très reconnaissants envers toutes ces personnes
qui ont contribué à la production des anciennes versions.
En outre, la version française de ce document est une production d’Amini Mutaganda
de l’Institut des Sciences Agronomiques du Rwanda. Nous adressons nos vifs
remerciements ainsi qu’aux autorités de l’ISAR qui ont bien voulu le disponibiliser pour
ce travail et à VVOB pour le financement de la traduction.
Enfin et surtout, nous voulons exprimer notre profonde gratitude envers l’équipe de
GenStat pour avoir permis la distribution gratuite d’un logiciel statistique d’aussi bonne
qualité à l’intention des utilisateurs qui en ont vraiment besoin.
3
4
2 Notions fondamentales en GenStat
Ce chapitre introductif a essentiellement pour objet d’amener l’utilisateur à
se familiariser avec les éléments de base du fonctionnement de GenStat.
Dans ce guide, nous supposons parfois que l’utilisateur possède déjà une certaine
expérience en Excel et que certains autres auraient même organisé leurs données
dans un tableur notamment celui d’Excel qui est actuellement le plus communément
utilisé. Nous allons montrer non seulement la façon dont les données saisies en Excel
peuvent être analysées en GenStat mais aussi comment celles qui se trouveraient déjà
en GenStat peuvent être enregistrées en tant que fichier Excel. Quoi qu’il en soit, la
maîtrise du tableur Excel ne constitue pas une condition sine qua non pour pouvoir
travailler avec GenStat.
2.1
Lancement de GenStat Édition Discovery
Après l’installation de GenStat Edition Discovery et après avoir obtenu la licence
gratuite, vous pouvez à présent l’ouvrir en cliquant sur l’icône portant GenStat qui se
trouve à l’écran d’ouverture de l’ordinateur ou sur la barre d’outil ou alors en
sélectionnant GenStat executable à partir du menu des programmes. Au cas où
l’icône GenStat ne se trouverait pas sur votre ordinateur, vous pouvez facilement la
créer vous-même1.
figure 2.1 Présentation de quelques fenêtres et barres d’outils de GenStat à son ouverture
1
Par défaut, GenStat Édition Discovery est installé dans la répertoire C:\Program files\GenDisc. Ouvrez
Explorateur Windows et dans le sous répertoire C:\Program files\GenDisc\bin\ vous verrez un fichier
«Genwin42.exe». Sélectionnez ce fichier et cliquez avec le bouton droit de la souris. Maintenant cliquez
sur l’option pour créer un raccourci (Create Shortcut). Maintenant, le raccourci peut être coupé et collé
sur le desktop, où tu peux changer le nom sous l’icône en par exemple «GenStat Discovery Edition».
Ayant lancé le logiciel GenStat, vous voyez aussitôt apparaître l’interface Windows
standard (figure 2.1 ) qui comprend successivement la barre de titre, la barre de
menus, la barre d’outils, la barre d’état et d’autres fenêtres communes au logiciel
(figure 2.2). La fenêtre des résultats (Output window) contiendra toutes les opérations
effectuées, alors que celle des entrées (Input window) gardera toutes les opérations
imposées à GenStat. Il y a lieu de noter que beaucoup de menus présentés sont
typiques aux applications courantes de Windows, à l’exception de Run, Data, Spread,
Graphics et Stats qui sont spécifiques à GenStat.
Nous présentons ci-dessous un exemple d’une interface GenStat pour Windows une
fois que la feuille de calcul est ouverte
figure 2.2 Présentation des fenêtres de GenStat après introduction des données
2.2
Saisie des données
2.2.1
Saisie des données en utilisant le menu Spread.
Nous allons montrer deux possibilités d’entrer les données en GenStat. La première
consiste à l’utilisation de GenStat même. En effet, dans la barre de menus, on choisit
Spread ⇒ New ⇒ Blank.
6
2 - Notions fondamentales en GenStat
figure 2.3 Création de la nouvelle feuille des
données
figure 2.4 La taille initiale de la feuille
En choisissant Blank, nous obtenons une boîte qui permet de spécifier le nombre de
colonnes et le nombre de lignes nécessaires. Complétons ensuite la boîte ainsi créée
en vue de la transformer en une feuille de calcul de GenStat comprenant 2 colonnes et
14 lignes comme montrées en figure 2.4.
Différents types de feuilles de calcul peuvent être créés mais Vector, est celui qui est
généré par défaut (créé par GenStat en l’absence d’aucune autre information). Pour ce
qui nous concerne, c’est justement ce genre de feuille dont nous avons besoin. En
validant par [OK], nous allons voir apparaître une feuille vide dans laquelle il est
possible d’introduire les données en cliquant dans la cellule de la feuille de calcul.
Inscrivons le premier nombre et appuyons sur la touche [OK] pour valider. Nous
procéderons de la même façon pour entrer les nombres suivants dans la première
colonne:
30.7 36.4 35.1 20.6 31.7 31.7 37.1 34.8 25.9 27.3 28
30.6 22.3 14.4
La saisie du dernier chiffre suivie par l’application de la touche [Enter] fera que le
curseur se déplacera automatiquement au début de la colonne suivante. En suivant la
démarche précédente, nous pouvons introduire les nombres ci-après dans la 2ème
colonne:
66
147
126
56
93
99
104
103
32
44
67
56
35
26
Il faut s’assurer que la touche [Enter] a été appuyée après que l’on ait
terminé à saisir le dernier chiffre, autrement le contenu de la dernière
cellule ne sera pas envoyé dans le serveur de GenStat.
Si, pour une raison ou une autre, une erreur quelconque avait été commise lors de
l’entrée des données, sa correction peut facilement se faire. Utilisez les touches en
flèches pour atteindre la cellule concernée et introduisez ainsi la valeur correcte.
Pour chaque ligne, la valeur dans la 1ère colonne consiste en la hauteur des arbres de
Prunus africana dans un peuplement forestier en Uganda. Les données ont été prises
dans le cadre d’un projet de recherche de l’ICRAF basé à Kabale. A la 2ème colonne
7
se trouve exprimée la valeur du diamètre du même arbre. Ainsi le premier arbre de
30,7m de haut a un diamètre à hauteur de poitrine (dhp) égal à 66cm.
On considère qu’une méthode de gestion des données est efficace si elle
fournit la description suffisamment détaillée. Ceci est d’autant plus
important qu’en sauvegardant la feuille ainsi créée portant les colonnes
dénommées C1 et C2. Il est évident qu’au bout de quelques jours, il sera
difficile de se rappeler de quoi il s’agissait exactement. Bien plus, aucuns
des autres collègues désireux accéder au fichier ne pourra être à mesure
de comprendre la signification des données laissées sous cette forme.
C’est pour cette raison qu’il est prudent et important d’attribuer une
description aussi détaillée que possible aux données de recherche.
En GenStat particulièrement, cette description détaillée peut se faire selon
diverses possibilités, notamment :
- en donnant une signification à la colonne (nom)
- en ajoutant une explication complémentaire à la colonne
- en attribuant un nom significatif à la feuille de calcul.
2.2.1.1
Attribution d’un nom à la colonne
Pour changer les noms donnés par défaut C1 et C2 par des noms significatifs des
colonnes, on positionne le curseur suivant l’illustration de la figure 2.5. Vous pouvez
remarquer qu’à la place d’une main, le curseur prend la forme d’un crayon. Si l’on
exécute un clic par la souris, on obtient un tout petit écran où l’on peut taper le nom de
la colonne, comme le montre la figure 2.6. Appuyez [OK] pour valider.
figure 2.5 Première étape de l’attribution d’un
nom à la colonne
figure 2.6 Attribution d’un nouveau nom
Après avoir attribué le nom de «Height» à la colonne C1, on peut répéter la même
procédure avec C2 en utilisant le nom de «DBH» («Diameter at Breast Height»). À
8
peine ces opérations terminées, ces nouveaux noms apparaissent déjà sur les en-têtes
des colonnes de la feuille de calcul.
2.2.1.2
Ajout d’une description complémentaire
Une autre possibilité de modifier le nom de la colonne consiste soit à appliquer la
commande Spread ⇒ Column ⇒ Attributes/Format de la barre de menus comme la
figure 2.7 le montre ou à cliquer dans la colonne et appuyer sur [F9] ou enfin, le
curseur se trouvant dans la colonne, à cliquer droite et choisir l’option Column
attributes comme montré dans la figure 2.8.
figure 2.7 Commande de mise en forme de la
colonne
figure 2.8 Le cliquage à droite pour d’autres
mises en forme
Dans tous ces trois cas, le résultat sera une fenêtre qui donne toute sorte
d’informations relatives à la description de la colonne et la façon dont celle-ci avait été
formatée. Compte tenu du fait que quelques nombres comportent un décimal, on
complètera la boîte de Decimals par le chiffre 1. A présent, il est possible de changer
le nom de la colonne en introduisant surtout dans la boîte Description, toute
information complémentaire jugée utile. Cependant, la longueur de la description ne
peut dépasser 39 caractères.
9
figure 2.9 Mise en forme de la colonne
L’exemple ci-dessus met en évidence un point important selon lequel en
GenStat, il existe plus d’une possibilité d’accéder à un quelconque
dialogue. La voie la plus rapide consiste très souvent à un cliquage à droite
qui, cependant, ne donne que des boîtes de dialogue d’ordre général.
2.2.1.3
Attribution d’un nom aux feuilles des données
Pour enregistrer le ficher, on utilisera la commande File ⇒ Save As. Par défaut, le
fichier s’appellera sheet1.gsh et sera localisé dans le répertoire C:\GenDisc\bin.
Sauvegardé comme tel, sera-t-on en mesure de retrouver le contenu de ce fichier
quelque temps après? Autrement dit, pourra-t-on le différencier d’avec un autre fichier
par exemple sheet453.gsh? Rien n’est moins sûr!
Voilà pourquoi il est indiqué de toujours attribuer au fichier un nom qui a une certaine
signification, par exemple “Hauteur et dhp de Prunus africana Mabira Uganda.gsh”.
Toutefois, le nom du fichier devra être compatible avec le système de l’ordinateur.
Assistance Windows 2000 précise en substance:
Le nom du fichier peut avoir au maximum 215 caractères, y compris des
espaces. Cependant, il n’est pas recommandé de créer les fichiers dont les
noms sont d’une certaine longueur. En effet, la plupart des programmes ne
parviennent pas à bien interpréter les noms des fichiers aussi longs. En
outre, les noms des fichiers ne devront pas comporter les caractères
suivants : \ / : * ? " < > |
En conclusion, pour nommer les fichiers il faut utiliser les noms aussi détaillés que
descriptifs mais sans trop exagérer tout de même.
Par ailleurs, il est recommandé de changer le répertoire de travail (figure 2.11). En fait,
GenStat enregistre automatiquement les feuilles de travail et autres fichiers similaires
dans un répertoire par défaut. Le répertoire C:/Program files/GenDisc/bin est utilisé
pour les fichiers comme ceux avec extension exe ou dll et il n’est pas souhaitable de
l’encombrer par d’autres fichiers de travail. Il faudra créer, en passant par Explorateur
Windows, un autre répertoire qui pourra servir à stocker les fichiers des données. Ainsi
par exemple, chaque projet de recherche peut y avoir son répertoire propre
10
comprenant chacun plusieurs sous répertoires. Si l’ordinateur comporte un lecteur D,
c’est mieux d’y créer ce répertoire.
figure 2.10 Nom et répertoire provisoires
figure 2.11 Enregistrement dans un répertoire
d’une feuille GenStat portant un nom
significatif choisi
Pour effacer de la mémoire de l’ordinateur tout ce qui vient d’être fait, on procédera par
Run => Restart Session. Puis en minimisant GenStat, on ouvre la feuille de MS
Excel, ce qui permet de passer à une autre section.
2.2.2
Entrée des données en Excel.
Vous avez probablement déjà saisi vos données dans une feuille de calcul en
l’occurrence celle d’Excel. De toute manière, il est relativement facile d’importer en
GenStat les données se trouvant dans une feuille MS Excel.
Si les données ont été saisies en utilisant un logiciel autre que l’Excel, il y a
lieu de suivre aussi cette section tant il est vrai que la plupart des
procédures seront pratiquement similaires. Mais pour ceux qui ne sont pas
familiers avec Excel, cette section peut être sautée.
GenStat peut importer certains types de feuilles de calcul. Pour les connaître, on
choisit Help => Contents and Index en tapant “spreadsheet” dans la boîte de l’option
Index (figure 2.12).
figure 2.12 Option de recherche des formats
compatibles
figure 2.13 Option d’aide concernant
l’importation des fichiers
11
Admettons que vous vous trouvez en Excel où vous pouvez créer une nouvelle feuille
vous permettant d’entrer les données utilisées précédemment à la figure 2.5. Sur cette
feuille des données en Excel, il est possible d’ajouter bon nombre d’informations dans
les cellules qui précèdent les données, comme est montré dans la figure 2.14:
-
sur la ligne précédente des données, on peut écrire un nom court de la
colonne,
une ligne plus haute encore, on peut y inscrire le nom complet de cette
colonne tout en exprimant les unités de mesure des données
plus haut encore, d’autres informations jugées nécessaires pour l’essai
peuvent y être insérées
figure 2.14 Données et informations
descriptives saisies sur une feuille Excel
Les informations complémentaires sont parfois appelées ‘meta-data’ et permettent de
donner un sens aux données. Il faudrait savoir ici que l’importation des données en
GenStat requiert avant tout la définition du champ nommé en Excel. C’est pour cette
raison qu’avant de quitter Excel, on sélectionnera le champ nommé des données ainsi
que de la ligne d’en-tête qui contient les noms des colonnes. Au champ nommé on
donnera un nom en utilisant la commande Insert => Name => Define. Un tel fichier
Excel peut être nommé par exemple Prunusdata. Une fois encore, il faudra
sauvegarder tout le document Excel (worksheet) sous le nom significatif en
l’occurrence «Prunus africana height and dbh Mabira Uganda.xls». Il en est de même
de la feuille contenant les données Excel (worksheet) qui peut être renommée «Prunus
africana» en cliquant droite dans l’onglet de “sheet1”. Nous venons de clôturer
momentanément la session Excel et nous pouvons dès lors le minimiser et retourner à
GenStat.
12
figure 2.15 Définition d’un champ nommé en
Excel
figure 2.16 Attribution d’un nom significatif
au champ nommé
figure 2.17 Attribution du nom du champ
nommé sur la feuille Excel
Retrouvons la barre de menus et choisissons File => Open d’abord (figure 2.18), puis
sélectionnons le fichier en complétant la boîte de dialogue qui s’est affiché. Dans
l’option Files of types il faut indiquer que le fichier à importer est du type de Other
Spreadsheet.
figure 2.18 Ouverture d’un fichier Excel en
GenStat
figure 2.19 Choisir d’ouvrir le champ nommé
créé en Excel, voyez figure 2.16
Dans la fenêtre suivante telle qu’illustrée à la figure 2.19, nous pouvons sélectionner le
champ nommé appelé “Prunusdata”. La partie droite de cette fenêtre comporte
plusieurs options qui nous permettent de définir la façon dont les données seront
importées. En cliquant sur [OK], les données sont immédiatement importées sur une
feuille de calcul GenStat comme la montre la figure 2.20.
13
figure 2.20 Données importées dans une feuille GenStat
Il se pourrait que l’on commette l’erreur d’importer toute la feuille de travail Excel à la
place du champ nommé uniquement. Il en résulte une feuille de calcul GenStat qui ne
peut être utilisée comme le montre l’exemple qui suit. Si tel est le cas, il faudra
reprendre la session GenStat par Run ⇒ Restart Session et cliquer sur [Yes] pour
pouvoir effacer aussi bien les fenêtres que les boîtes de dialogue et la feuille active de
calcul. Choisir de nouveau File => Open et sélectionnez le fichier de données “ Prunus
africana height and dbh Mabira Uganda.xls ”. Mais cette fois-ci, il faut sélectionner la
feuille de travail (worksheet) “Prunus africana” comme le montre la figure 2.21. On
obtient, en guise du résultat, une feuille de calcul GenStat qui comporte 2 colonnes de
texte (voir figure 2.22). En fait, GenStat a pris, par défaut, le contenu des cellules en
Excel sur la 1ère ligne comme les en-têtes des colonnes. Etant donné que les cellules
de la 2nde ligne contiennent aussi du texte, GenStat a dû comprendre que toute la
colonne est constituée du texte, d’où le symbole T vert à l’en-tête de la colonne.
figure 2.21 Importation par erreur d’une
feuille entière d’Excel en GenStat
figure 2.22 Le résultat est que les noms des
colonnes sont importées comme données
Par ailleurs, il est également possible d’importer en GenStat un tableur contenant des
données par la procédure de collage en GenStat du champ nommé copié en Excel.
Toutefois, même si cette façon semble a priori être rapide et efficace durant l’analyse
préliminaire, elle n’est cependant pas une méthode efficace recommandée dans le
cadre de la gestion des données.
14
Choisissons à présent Run => Restart Session pour effacer toutes les données de
GenStat et retournons en Excel. Sélectionnons ensuite le champ nommé contenant les
données ainsi que les en-têtes des colonnes et cliquons droite à l’aide de la souris en
appliquant l’option Copy ou alternativement, choisissons simplement le menu Edit =>
Copy sur la barre de menus. Dans les deux cas, les données sont envoyées dans la
mémoire de Windows. Retournons à GenStat et appliquons Spread => New => from
Clipboard (voir figure 2.23). Le contenu sera aussitôt intégré dans une feuille de calcul
GenStat.
figure 2.23 Copie des données en GenStat à partir du
‘clipboard’
2.2.3
Méthode avancée de saisie des données.
Si l’on doit faire des transferts des donnés avec un même fichier externe, Il est
également possible de créer des liens avec ce fichier. Les informations y relatives
peuvent être consultées notamment dans la note technique nº 2 produite par l’Unité de
Support à la Recherche de l’ICRAF et qui est disponible à l’adresse suivante :
http://www.wordagroforestrycentre.org/sites/RSU/datamanagement/Documents/dupeof
duplication.pdf
2.2.4
Sortir du GenStat.
Pour fermer la session de GenStat, on choisit naturellement File ⇒ Exit. A la question
de savoir si l’on veut enregistrer chacune de fenêtres ou feuilles de calcul ouvertes,
nous allons éventuellement répondre par [No] et cliquer sur [Exit] pour quitter
GenStat. Les détails sur l’enregistrement des données dans les différents formats
peuvent être trouvés plus loin dans le paragraphe 2.3.4.
Tout en montrant comment saisir les données en GenStat, on s’est rendu
compte à quel point il était facile de les transférer à partir d’un autre logiciel,
Excel en l’occurrence. De cette manière, si l’on est déjà familier à ce
dernier ou à tout autre logiciel statistique, l’utilisation de GenStat
constituera un outil complémentaire. D’autre part, signalons que dans ce
manuel, nous fournirons pas mal d’exemples des données saisies sur des
feuilles de calcul en Excel.
15
2.3
Quelques manipulations de base de données.
2.3.1
Statistiques sommaires
Recommençons la session et ouvrons de nouveau le fichier “Hauteur et dhp de Prunus
africana Mabira Uganda.xls”. Aussitôt qu’on clique n’importe où en dehors de la feuille
de calcul, les données qui s’y trouvent passent automatiquement dans le serveur de
GenStat.
Quelques informations sommaires concernant les deux colonnes Hauteur et DHP
apparaissent ainsi dans la fenêtre des résultats (Output window) montrant entre autres
les valeurs minimum, moyenne et maximum, le nombre total des valeurs et le nombre
de valeurs manquantes.
Pour d’autres éléments statistiques, on peut utiliser le menu Stats, comme montré cidessous. Nous aurons d’abord à choisir Stats ⇒ Summary Statistics ⇒ Summarise
Contents of Variates, puis sélectionner les variables dont on cherche les statistiques
sommaires comme le montre la figure 2.25 et cliquer [OK].
figure 2.24 Menu descriptif des statistiques
en GenStat
figure 2.25 Dialogue montrant les statistiques
sommaires
Nous pouvons rechercher les résultats obtenus dans la fenêtre Output. Si l’on ne
parvient pas à visualiser cette fenêtre, on essayera de cliquer successivement les
ou
se trouvant dans la barre d’outils jusqu’à ce qu’elle apparaisse.
boutons
Certains des résultats obtenus sont montrés dans la figure 2.26.
16
figure 2.26 Les statistiques sommaires standards dans la
fenêtre Output
Il existe d’autres statistiques qui peuvent être effectuées à l’aide de certaines options
de la boîte de dialogue de la figure 2.25. Retrouvons de nouveau la boîte de dialogue
et cliquons sur le bouton [Clear] pour effacer tous les calculs statistiques affichés.
Sélectionnons de nouveau les mêmes variables que précédemment, et choisissons
cette fois ”Arithmetic Mean, Standard Deviation et Standard Error of Mean” et cliquons
[OK].
Dans la même boîte de la figure 2.25, nous aurions pu avoir choisi d’obtenir soit
l’histogramme, le boxplot ou le diagramme appelé ”stem and leaf”. Une autre gamme
de graphiques peut être obtenue en utilisant le menu de graphiques. Voyons par
exemple s’il existe une relation entre la hauteur et le diamètre dans notre exemple.
Utilisons le menu Graphics ⇒ Point Plot (voir figure 2.27) et complétons la boîte de
dialogue affichée comme illustré à la figure 2.28 ci-dessous:
figure 2.27 Menu des
graphiques en GenStat
figure 2.28 Boîte de dialogue du graphique du type XY
17
figure 2.29 Graphique obtenu dans une nouvelle fenêtre
2.3.2
Calcul et mise en forme des colonnes
Il est facile de calculer les nouvelles variables à partir de celles déjà introduites au
cours d’une session GenStat. Il suffira de choisir Spread => Calculate => Column
(figure 2.30) et de préciser le type de calcul dont on a besoin ainsi que le nom sous
lequel la nouvelle variable pourra être enregistrée.
figure 2.30 Menu de la calculatrice en GenStat
L’exemple qui suit semble être plus difficile mais assez pratique et montre la facilité
avec laquelle les calculs peuvent être effectués. Lorsque nous effectuons des
mensurations sur les arbres, nous visons généralement le calcul du volume. Le volume
d’un paraboloïde quadratique est généralement utilisé pour estimer le volume de toute
la tige de l’arbre. La formule générale sera : V= 0.5*g*h avec g comme superficie de
base et h la hauteur de l’arbre.
Premièrement recherchons notre fichier “ Prunus africana height and dbh Mabira
Uganda.xls ”. Pour y arriver, il suffira de cliquer sur ce fichier même (si on parvient à le
localiser), ou d’utiliser le bouton en flèches sur la barre d’outils ou alors de recourir au
menu Window (figure 2.31).
18
figure 2.31 Un moyen de récupérer la feuille des données
Le calcul de la nouvelle colonne à insérer se fait en choisissant “Spread ⇒ Calculate
⇒ Column” comme illustré plus bas. D’abord nous calculons la colonne qui contiendra
la superficie de base de chaque arbre donnée par la formule : 3.1416 * DBH/2 *
DBH/2. Avant de taper cette formule, il faut que le curseur soit positionné dans la
longue boîte se trouvant juste au début de la boîte de dialogue ainsi ouverte. Pour
insérer les noms des variables dans la formule, on peut soit les taper ou faire le
double-clic sur chacun d’eux dans la liste des donnés disponibles. Il ne faudra pas
oublier de taper aussi le nom du titre de la nouvelle colonne dans la boîte de Save
Result In comme le montre la figure 2.32.
figure 2.32 Le dialogue de calcul
figure 2.33 La colonne de
données obtenue
Comme on peut le voir ci-dessus, il s’est ajouté à la feuille de données une nouvelle
variable du nom de basalarea (voir figure 2.33) et qui comporte 14 valeurs constituant
la superficie de base de chaque arbre. On remarque que le nom est partiellement
ombré (coloré en jaune pour les écrans de couleur), ce qui indique simplement que la
colonne basalarea est une colonne calculée. Pour illustrer la différence entre la
colonne ordinaire et la colonne calculée, essayons de changer une quelconque valeur
19
dans la colonne basalarea. GenStat donne un avertissement tel qu’illustré dans la
figure 2.34:
figure 2.34 Avertissement donné pour toute tentative de
changer une valeur dans une colonne calculée
Si vous êtes toujours dans la colonne basalarea, cliquez droite et choisissez l’option
Column Attributes. Du coup, une boîte de dialogue sur la définition de la colonne va
s’afficher, ce qui permettra d’avoir tous les détails de la colonne basalarea comprenant
même divers calculs effectués.
Ainsi, une feuille de travail de GenStat est une feuille ordinaire où sont
enregistrés tous les calculs effectués, plutôt que d’enregistrer les résultats
des différentes transformations. Si l’on change une valeur dans la colonne
originale, la valeur dérivée ne changera pas automatiquement. Il faudra
utiliser Spread ⇒ Calculate ⇒ Recalculate pour actualiser les valeurs
dérivées.
Essayons de le faire pour notre cas, en admettant que nos calculs contiennent une
erreur. Le diamètre des arbres a été mesuré en cm, alors que généralement, la
superficie de base est exprimée en m2. Nous devons par conséquent diviser chaque
diamètre par 200 pour avoir le rayon en mètres. Entre temps, nous pouvons améliorer
notre calcul en utilisant l’opérateur ** comme exposant. Et au lieu d’arrondir la valeur Pi
à 3.1416, nous allons utiliser la commande de GenStat pour avoir la constante pi :
CONSTANTS(‘pi’). La formule complète est développée dans la figure 2.35.
figure 2.35 Correction du calcul
20
figure 2.36 Le colon recalculé
A présent nous avons bien la superficie de la base, mais il reste encore quelques
informations à ajouter ainsi qu’à faire le nettoyage. La boîte de dialogue qui fournit
toutes les informations sur la colonne peut être obtenue de trois manières:
En cliquant droite dans la colonne de basalarea et en choisissant
l’option Column Attributes
- En passant par Spread => Column => Attributes/Format
- En appliquant la touche [F9]
Après l’avoir obtenue, on y définit toute la description nécessaire en fixant notamment
à 2 le nombre de chiffres après la virgule, comme montré en figure
-
figure 2.37 Ajouter la description et fixer les chiffres après la
virgule
Nous pouvons maintenant calculer le volume de chaque arbre. Appliquons de nouveau
le menu Spread => Calculate => Column ou alternativement, passons par Window
pour autant que la boîte n’ait pas été fermée et sélectionnons Calculate dans les
dossiers disponibles (voir figure 2.38) ou cliquons enfin sur le bouton de Window list
dans la barre d’outils comme illustré dans la figure 2.39. Dans les trois cas, la même
boîte comportant le calcul antérieurement effectué sera affichée.
figure 2.38 Récupération de la boîte du
dialogue de calcul
figure 2.39 Une autre manière de rétablir la boîte
de dialogue
21
Beaucoup de boîtes de dialogue en GenStat restent toujours ouvertes
lorsqu’on clique sur [OK] et ne sont effectivement fermées que lorsqu’on
applique l’option [Cancel]. Le fait qu’elles restent actives est très important
dans la mesure où il devient facile de recourir aux données qui s’y trouvent
ou répéter la même opération chaque fois que de besoin sans que l’on soit
obligé de passer par les menus. Toutefois, même s’il est facile d’avoir un
grand nombre de fenêtres et de boîtes de dialogues ouvertes en même
temps, il peut devenir relativement difficile à retrouver celle dont on a
réellement besoin. C’est pour cela qu’il faut fermer chaque fois par
[Cancel], toute boîte dont on n’a pas besoin en ce moment
Nous pouvons dès lors calculer du volume et faire la mise en forme de la colonne
comme le montrent figure 2.40 et figure 2.41 ci-dessous :
figure 2.40 Le calcul du volume
figure 2.41 La mise en forme du volume
Rappelons que les valeurs des données de notre exemple proviennent de 14 arbres
numérotés. Il aurait été utile d’incorporer cette information relative à la numérotation
également. Pour y parvenir, nous pouvons cliquer dans la première colonne (Hauteur)
de la feuille de données et choisir Spread ⇒ Insert ⇒ Column before Current
Column. Nous obtenons une boîte de dialogue appelée Create a new column telle
que présentée par la figure 2.42 ci-dessous:
figure 2.42 Option d’insertion d’une colonne
figure 2.43 Création d’une colonne avec les
séquences régulières
Par la suite, il faudra taper “treeno” dans l’option Name de la boîte et cliquer [OK]. Une
nouvelle colonne comportant des valeurs manquantes (marquées par *) apparaît dans
la feuille. On peut compléter cette colonne en tapant directement les chiffres de 1 à 14,
22
mais il existe un autre moyen relativement plus rapide de le faire selon des séquences
régulières.
En effet, cliquons droite dans la feuille et choisissons l’option Fill dans le menu de la
petite boîte (ou « popup menu ») qui s’affiche comme illustré dans la figure 2.42 cidessus ou bien passons par la barre de menus Spread ⇒ Calculate ⇒ Fill.
En cliquant [OK], les chiffres de 1 à 14 seront automatiquement complétés dans la
colonne treeno. La boîte de dialogue Fill illustrée dans la figure 2.43, où l’on doit
inscrire treeno juste au début du dialogue, sert également à définir la catégorie de
séquences modelées (« patterned sequences »). L’explication détaillée peut être
obtenue en cliquant dans l’option [Help] de cette boîte de dialogue.
2.3.3
Colonnes contenant des facteurs.
Sachons que toute l'information introduite en GenStat a été jusqu'ici du type
numérique. Et pourtant, il est fort possible d’y introduire aussi bien l'information sous
forme de texte. Une structure qui peut accepter ce genre d'information s’appelle
facteur. Il s’agit d’une colonne employée pour spécifier les données sous forme de
divers groupes (on verra plus loin dans ce manuel des explications détaillées à ce
sujet).
Les sept premiers arbres dans cette série des données ont été mesurés au milieu de la
forêt, à l’intérieur, alors que les sept derniers ont grandi à la bordure de cette forêt. Par
conséquent, le facteur aura deux groupes ou niveaux (levels) qui sont appelés dans ce
cas précis, intérieur (Interior) et bordure (Edge).
Cliquons dans la 1ère colonne de notre feuille (treeno) et choisissons Spread ⇒ Insert
⇒ Column after Current Column. Et dans la boîte qui apparaît nous pouvons taper
‘Position’ devant l’option Name et, sous Column Type, nous cliquerons Factor pour
en activer le nombre de niveaux. La nouvelle boîte de dialogue se présentera de la
manière suivante telle qu’illustrée dans la figure 2.44.
figure 2.44 Création d’une colonne de facteur
Le nombre de niveaux sera spécifié comme étant égal à 2 dans l’option ‘Number of
levels’. Puis, en cliquant sur l’option [Labels], une autre boîte apparaît et permettra à
mettre en forme la colonne. En effet, pour le niveau 1, il faut taper ‘interior’ et appuyer
sur la touche [Enter] du clavier. Automatiquement le niveau qui suit (niveau numéro 2)
est sélectionné et on tapera ‘Edge’ avant d’appuyer sur [Enter]. Finalement, il faudra
cliquer [OK] pour valider toutes ces entrées effectuées.
Dans la boîte de dialogue Create a new column qui est toujours affichée, cliquons
[OK] pour créer la nouvelle colonne contenant des cellules vides comme le montre la
figure 2.46.
23
figure 2.45 Attribution des légendes aux
niveaux des facteurs
figure 2.46 Présentation de la feuille obtenue
Nous avons deux possibilités d’entrer la position : on peut utiliser soit les nombres
ordinaux, soit la légende. Complétons par exemple les 5 premiers arbres par les
nombres ordinaux, sous forme desquelles les valeurs des facteurs ont été gardées. Ce
sera les nombres entiers compris entre 1 et le nombre de niveaux du facteur. Dans
notre cas, comme il n’y a que deux niveaux de facteur, ces nombres seront
1,1,1,1,1,1,1,2,2,2,2,2,2,2.
Cliquons droite dans la colonne vide de ‘Position’ et choisissons Column Attributes
pour indiquer que le facteur sera présenté sous forme de nombres ordinaux (voir figure
2.47). Dans la colonne, complétons par 1 les 5 premiers arbres (figure 2.48).
figure 2.47 Option de présentation d’un
facteur sous forme des nombres ordinaux
24
figure 2.48 Introduction du premier niveau de
facteur
En essayant de taper 3 comme position de l’arbre numéro 6, GenStat avertit que seuls
1 ou 2 sont les deux seules positions possibles et acceptables (voir figure 2.49). Pour
effacer cette erreur volontairement introduite, il faut cliquer [OK] dans la boîte
d’avertissement et appuyer sur la touche [ECHAP] ou [ESC].
Cliquons droite encore dans la colonne de ‘position’ et choisissons l’option Column
Attributes en vue d’obtenir le dialogue montré dans la figure 2.47. Mais cette fois-ci le
facteur sera présenté sous forme de légende (labels). Comme les noms de la légende
du facteur ont déjà été saisis, il suffira de cliquer [OK] pour voir la position des 5
premiers arbres se transformer en ‘interior’. On peut maintenant compléter les autres
valeurs. Sans que l’on soit obligé d’écrire la légende ‘interior’ en entier, simplement la
lettre initiale suffit et GenStat fera le reste. Complétons par ‘e’ les arbres nº 8 à 14
comme le présente la figure 2.50.
figure 2.49 Tentative d’écrire une valeur
illégale dans une colonne de facteur
figure 2.50 Entrée des données sous forme
de légende dans une colonne de facteur
Aussi longtemps que la lettre initiale de la légende est correctement écrite,
GenStat va reproduire textuellement la légende telle qu’elle est. Mais au
cas où cette lettre ne serait pas la bonne, GenStat donne un message qui
demande de corriger. En cliquant double dans la fausse lettre, une petite
fenêtre de menus (ou popup menu) contenant la liste des niveaux
possibles va s’afficher (voir figure 2.51).
25
figure 2.51 Fenêtre contenant la liste des
légendes acceptables
La colonne de position ainsi créée peut être utilisée notamment pour générer un
graphique. Il suffira de sélectionner Graphics ⇒ Point Plot => Single XY type, et de
compléter les différentes boîtes comme montré ci-dessous, et de cliquer [Finish]. Mais
avant d’en arriver là, il y a lieu de cliquer [Next] (voir figure 2.52) pour ajouter entre
autres les titres du graphique et des axes.
figure 2.52 Option du choix du graphique
figure 2.53 Graphique en couleurs selon les
différents niveaux
De ce graphique, nous pouvons relever que les points des deux groupes, tout en étant
de couleurs différentes, sont néanmoins tous présentés sous la même forme de X.
Cette version de GenStat (Édition Discovery qui est basée sur GenStat sous Windows
5) comporte uniquement l’ancienne version d’éditeur graphique (GenStat 4.1. graphics)
où l’on peut juste ajouter le titre du graphique et des axes X et Y, mettre les flèches sur
les axes et à la limite, modifier les ‘tick marks’. Et c’est pratiquement tout pour cette
26
version. En revanche, GenStat sous Windows de la version 5 SP2 comprend un autre
éditeur graphiques (version 4.2) qui fournit beaucoup d’autres possibilités dont la
modification du graphique existant, symboles et couleurs différents, possibilité
d’agrandissement et de réduction (zooming) et de rotation et beaucoup d’autres
options de mise en forme. Nous verrons plus loin dans la section 7.2.3 quelques
procédures dont nous nous serviront pour pouvoir améliorer les graphiques de l’éditeur
graphiques version 4.1.
Pour cette version gratuite de GenStat, les graphiques sont normalement enregistrés
sous trois formats différents en passant par File => Save as :
*.gmf – GenStat Meta File. Ici les graphiques sont enregistrés dans le
format standard de GenStat. Il est possible d’ouvrir de nouveau un
fichier *.gmf en GenStat et de l’envoyer aux autres utilisateurs GenStat.
Par contre, on ne peut pas insérer en Word un fichier gmf comme
image.
- *.bmp – Bitmap File. Dans ce format, les graphiques sont stockés en
tant que pixels. Ils sont facilement utilisables dans tout l’environnement
Windows et produisent notamment une bonne qualité de couleur. Un
fichier en format bmp ne peut pas être comprimé, ce qui fait que d’une
façon générale, ce sont des fichiers assez grands.
- *.emf – Enhanced Meta File. C’est un autre format des graphiques
dans l’environnement Windows, qui a succédé à l’ancien format wmf
(Windows Meta File). Les graphiques se trouvant dans ce format
peuvent être enregistrés à la fois comme bitmap (pixels) ou comme
format vecteur. Le format emf est uniquement supporté par Windows 95
et les versions suivantes. En même temps, tous les logiciels ne
supportent pas ce format mais MS Word 97 et d’autre plus récents
peuvent l’importer.
Si l’on veut créer un graphique temporaire qui ne sera utilisé qu’en GenStat, il est
recommandé d’utiliser le format *.gmf. Mais si on souhaite l’insérer comme image dans
un document Word, il sera mieux de choisir le format *.emf. Pour d’autres utilisations,
le format *.bmp sera mieux indiqué. Dans l’option éditeur graphiques, il y a toujours
moyen de modifier la grandeur du graphique (pixel size), en passant par (Options =>
Change Bitmap Size). Mais si l’on veut produire des graphiques vraiment
attrayants/impressionnants, il faudra plutôt voir la version 7 de GenStat ou autres
logiciels appropriés.
-
figure 2.54 Enregistrement d’un graphique sous
forme de fichier ‘bitmap’
Fermons à présent cette fenêtre des graphiques GenStat par File ⇒ Exit de la barre
de menus.
27
Pour mémoire, nous nous sommes servis plus loin du menu Stats ⇒ Summary
Statistics ⇒ Summarise Contents of Variates pour effecteur une analyse
préliminaire des données. Nous allons à présent faire de même pour les deux groupes
de données, mais en faisant cette fois-ci la synthèse de chaque groupe séparément.
La boîte de dialogue de la figure 2.25 peut être utilisée en incluant une alternative plus
générale pour devenir :Stats ⇒ Summary Statistics ⇒ Summaries of Groups
(Tabulation) tel qu’illustré dans la figure 2.55.
figure 2.55 Le dialogue de tabulation
figure 2.56 Statistiques sommaires de
chaque niveau de facteur
Il suffira de compléter la boîte de dialogue comme montrée ci-dessus en validant par
[OK]. Les résultats vont apparaître dans la fenêtre des résultats (Output window ;
figure 2.56). Il ne reste qu’à enregistrer la feuille de travail ainsi créée.
2.3.4
Enregistrement des données GenStat en Excel.
Nous avons déjà vu dans () comment enregistrer une feuille de données en GenStat.
Normalement il s’affichera une fenêtre dans laquelle nous devrions préciser si les
données peuvent être sauvegardées provisoirement comme fichier GenStat
spreadsheet (*.gsh). Ceci est particulièrement important dans la mesure où il sera
facile de faire la compatibilité avec les anciennes versions de GenStat. Mais encore un
fois, il existe un grand choix pour d’autres types de fichiers dont on peut se servir pour
enregistrer.
Le nous a montrés comment les données pouvaient être importées à partir d’Excel. Et
c’est de cette manière que le fichier “Prunus africana height and dbh Mabira
Uganda.xls” a été importé. Nous allons ouvrir de nouveau ce fichier et refaire le calcul
de la surface de la base. Comme les calculs effectués antérieurement ont été faits sur
une feuille GenStat, il va de soi que le tableur Excel de ces données conserve toujours
les deux types de colonnes Height and DBH. Ainsi, nous allons d’abord effacer toutes
les données de la mémoire de GenStat en utilisant le menu Run => Restart Session,
puis en répondant [Yes] à la question affichée. Par la suite, nous allons ouvrir le fichier
Excel et calculer la surface de la base en nous référant, au besoin, au .
Pour l’instant, nous avons besoin d’enregistrer cette feuille comme fichier Excel et, par
conséquent, nous appliquons le menu File => Save.
28
figure 2.57 Ajouter la feuille au fichier Excel
figure 2.58 Une nouvelle feuille Excel est
ajouté
Le résultat qui s’affiche est un message d’avertissement tel qu’illustré dans la figure
2.57. Si on clique sur [Overwrite], toutes les feuilles du classeur “Prunus africana
height and dbh Mabira Uganda.xls” seront éventuellement effacées et remplacées par
les données de la feuille que nous venons de calculer en portant le nom de GenStat
Data. Par contre, si nous cliquons sur [Add], les feuilles existantes seront gardées
intactes et une nouvelle feuille du nom de GenStat Data sera ajoutée au classeur
d’Excel (voir figure 2.58). En répétant cette opération, on constatera que d’autres
feuilles seront successivement ajoutées au classeur en prenant les noms de: GenStat
Data, GenStat Datb, GenStat Datc, …
2.3.5
Importation des facteurs à partir d’Excel.
Si les données importées d’Excel comportent des facteurs, GenStat les traitera de
manière quelque peu particulière. Dans notre exemple, Interior était le premier niveau
de facteur et Edge, le second. Si vous deviez importer une colonne qui contient les
facteurs “Interior” et “Edge” à partir d’Excel, Edge devrait avoir un nombre ordinal 1
(facteur nº1) et Interior, le nombre 2. En fait, ceci est dû par le fait qu’Excel lit en ordre
alphabétique, les facteurs provenant de ses propres fichiers.
2.3.6
Suppression des données quelconques.
En guise d’exemple, nous allons nous servir de la colonne appelée treeno. Il sera
question de montrer la différence qui existe si l’on efface la colonne entière ou son
contenu uniquement.
Sélectionnons d’abord la colonne concernée. Pour le faire, nous pouvons soit cliquer
dans la zone du nom, soit cliquer dans la colonne et appuyer [Alt]+[Ctrl]+C ou soit
enfin, utiliser le menu Spread ⇒ Select ⇒ Current Column. En cliquant de nouveau,
la colonne sera sélectionnée et, comme telle, l’application de la touche [Delete] devrait
l’effacer complètement. Curieusement, en appuyant sur cette touche, seules les
donnés disparaissent mais la colonne reste. Pour pouvoir les restituer, nous passerons
par le menu Edit ⇒ Undo Del Cells ou par les touches [Ctrl] + Z (voir figure 2.59).
29
Et maintenant, le curseur placé dans la colonne, choisissons le menu Spread ⇒
Delete ⇒ Current Column. Cette fois la colonne sera complètement effacée. Mais
vous pouvez encore la retrouver soit par le menu Edit ⇒ Undo Del Col ou soit en
appuyant [Ctrl] + Z (voir figure 2.60) De la même manière, peuvent être
sélectionnées et effacées une ou plusieurs lignes.
figure 2.59 Annulation de la
suppression des cellules
figure 2.60 Annulation de la
suppression des colonnes
2.4 Compréhension du fonctionnement de GenStat
2.4.1
Variables disponibles.
Fermons la feuille qui contient les données de Prunus africana soit en sélectionnant le
menu File => Close, soit en appuyant [Ctrl]+[F4] ou enfin en cliquant sur le petit
bouton en X au coin supérieur droit de la feuille. Une fois cette dernière fermée,
pensez-vous que les données se trouvent encore quelque part en GenStat ?
figure 2.61 Option de fermeture de
la feuille GenStat
La réponse est positive étant donné que GenStat visible à l’écran n’est qu’une interface
Windows qui envoie les commandes à un programme fonctionnant à l’arrière-plan
appelé Serveur de GenStat. Quand ces commandes sont appliquées, la barre d’état de
GenStat affiche un message qui annonce ce qui est en train de se passer. Sur la barre
des tâches de Windows, l’icône de GenStat change de couleur verte (figure 2.62) en
rouge (figure 2.63). Cette procédure se fait tellement vite que nous ne parvenons pas à
l’observer surtout quand les données introduites sont de petite taille.
30
figure 2.62 La barre d’outils montrant le
serveur de GenStat en attente
figure 2.63 L’icône du serveur de GenStat
devenant rouge quand le serveur entre en
activité
Ainsi, même si visiblement, nous n’observons rien à l’écran, il peut y avoir néanmoins
pas mal de formes de données quelque part dans le serveur de GenStat. Nous
pouvons vérifier les variables qui y sont disponibles en utilisant soit le menu Data ⇒
Display ou en appuyant sur la touche [F5]. Dans la boîte de dialogue présentée à la
figure 2.64, il faudra cliquer dans All data.
figure 2.64 Liste des variables disponibles dans le serveur de
GenStat
Cette boîte affiche les noms des structures disponibles ainsi que leurs
catégories correspondantes (types) comme le montre la figure 2.64.
Toutes les structures utilisées jusqu’ici sont les variables (Height, DBH,
basalarea, volume, treeno) et les facteurs (Position), mais plus tard, nous
aurons également besoin d’autres types de colonnes. En outre, cette boîte
de dialogue est utile car, à partir d’elle, il est possible d’éliminer certaines
colonnes dont on n’aura plus besoin.
Pour fermer cette boîte de dialogue qui permet l’affichage des données (Data
Display), il suffit de cliquer sur [Close]. L’information relative à la suppression de
toutes les données du serveur de GenStat est détaillée dans le .
2.4.2
Une première introduction au langage de commande de
GenStat.
GenStat est fondamentalement une application standard de Windows fonctionnant
dans le serveur de GenStat. Comme ce logiciel existait bien longtemps avant que
Windows ne soit mis au point, il va de soi que son utilisation exigeait, à l’époque, la
maîtrise du langage. Celui-ci consistait à simplement taper les commandes qui, par ce
fait, étaient directement envoyées à GenStat.
Dans cette version de GenStat Discovery, les menus sont basés sur un langage de
commande fondamental appelé ‘GenStat release 4.2’ (voir la figure 2.65). L’appellation
‘Release 4.2’ signifie que cette version est basée sur la 4ème grande révision du
serveur de GenStat qui a reçu deux révisions mineures. L’édition Discovery est à son
tour basée sur la 5ème édition de GenStat sous Windows légèrement modifié.
31
Actuellement il est encore possible d’utiliser GenStat en tapant les commandes dans
la fenêtre des entrées (Input) comme illustré dans la figure 2.65 ci-dessous. En même
temps, nous présentons la façon dont GenStat est utilisé comme calculatrice.
figure 2.65 Détails concernant GenStat
Ouvrons de nouveau GenStat en utilisant le menu File ⇒ New ⇒ Text Window (voir
figure 2.66). Nous obtenons un Input Window dans lequel nous pouvons taper Print
3+4 comme illustré dans la figure 2.67 ci-dessous.
figure 2.66 Menu d’accès à la fenêtre du
texte
figure 2.67 Introduction d’une commande
GenStat
Sélectionnons à présent le menu Run (voir figure 2.68) et appliquons soit Submit Line
(pour autant que le curseur se trouve encore dans la ligne précédemment tapée) soit
Submit Window.
32
figure 2.68 Envoie des commandes de tâche
à GenStat
figure 2.69 Résultats présentés à l’Output
Par cette action notre "programme" de commandes vient d’être soumis au serveur de
GenStat. Les résultats sont présentés dans la fenêtre des résultats (Output Window).
En ouvrant cette fenêtre (Output) par un des moyens vus, par exemple à travers le
menu Windows, nous remarquons que GenStat a exactement repris la même
commande et le résultat affiché est 3+4=7.
La version Windows de GenStat nous donne plusieurs façons de soumettre les calculs
au serveur de GenStat. Une autre alternative consiste à passer par le menu: Data ⇒
Calculations comme le montre la figure 2.70.
figure 2.70 Menu de calcul des données
figure 2.71 Utilisation du dialogue du calcul
Nous allons taper 3 + 4 comme fonction et cliquer sur Print in Output en appliquant
[OK] pour valider. En regardant dans l’Output, on a pratiquement le même résultat 3 +
4 toujours égal à 7 (voir figure 2.72).
33
figure 2.72 Et oui ! 3 + 4 est toujours 7
figure 2.73 ‘Input log’
La fenêtre des entrées Input Log Window jour un rôle très important d’autant qu’elle
conserve toutes les opérations effectuées lors de la définition des commandes (voir
figure 2.73). Elle peut s’ouvrir notamment par Window ⇒ Input Log. Il est intéressant
de constater que le menu Calculation a certes été exécuté par GenStat en termes de
commandes PRINT 3+4 envoyées dans le serveur de GenStat.
C’est, en définitive, de cette façon que fonctionne GenStat. Il s’agit simplement de
définir les commandes qui sont envoyées au serveur de GenStat. Concernant la
préparation de ces commandes, cette version de Windows a proposé plusieurs options
de le faire. Nous avons vu que GenStat ne fait qu’obéir à l’instruction qu’il reçoit et
déponibilise les résultats dans la fenêtre des résultats Output Window. Il conservera
toutes les opérations des commandes effectuées dans la fenêtre des entrées Input
Window.
Si la commande envoyée s’applique à la production des graphiques, GenStat
l’orientera ipso facto dans la fenêtre des graphiques Graphics Window. En cas d’une
quelconque faute intervenue durant la préparation des commandes, GenStat écrit un
message concernant cette erreur et le place dans la fenêtre des fautes Fault Window
et éventuellement dans la fenêtre des résultats Output Window.
L’exemple ci-dessous (3+4=7) fait croire que GenStat pourrait servir de calculatrice.
Précisons que l’utilisation du logiciel comme calculatrice n’est pas une bonne pratique
et il serait souhaitable de d’en disposer une de poche devant parfois servir durant la
transformation des données. Par ailleurs, nous savons qu’il est parfois nécessaire de
transformer les données. A titre d’exemple, admettons qu’on veuille calculer la
différence entre 4.35 et 2.37 et le résultat pouvant être exprimé en pourcentage de
4.35. Nous allons ouvrir la calculatrice dans le menu Data ⇒ Calculations, puis
vérifier si l’option Print in Output est encore sélectionnée (par √) et taper alors le
calcul suivant dans la longue case se trouvant juste au début de la boîte :
100 * (4.35 -2.37) / 4.35
Nous allons cliquer enfin [OK] pour valider.
La vérification de l’Output Window montre que l’opération a finalement abouti au
résultat suivant:
(100* (4.35- 2.37))/ 4.35
45.52
Donc, la différence est 45.52 % de 4.35. Il est important de souligner que les
parenthèses doivent être placées correctement, autrement la réponse sera
complètement différente.
34
Nous pouvons essayer d’autres calculs pour bien comprendre comment GenStat
fonctionne en utilisant à la fois Input window et la boîte de dialogue Data ⇒
Calculations.
Les symboles +, -, *, / sont utilisés respectivement pour les opérations d’addition,
soustraction, multiplication et de division, alors que ** est employé pour les puissances.
Il existe également d’autres fonctions mathématiques telle que SQRT() qui sert à
calculer la racine carrée d’un nombre quelconque. Le nombre en question est écrit
entre parenthèses, par exemple SQRT(12.37). Le tableau ci-après donne une vue
d’ensemble de quelques calculs en utilisant Input Window. L’explication détaillée se
trouve dans le fichier Help de GenStat en-dessous de ‘List of functions for
expressions’.
Quelques calculs élémentaires obtenus en utilisant Input Window
Symbole
Opération
Exemple
Résultat
+
addition
PRINT 3+4
7.000
-
soustraction
PRINT 3-4
- 1.000
*
produit
PRINT 3*4
12.00
/
division
PRINT 3/4
0.7500
**
élévation à une puissance
PRINT 3**4
81.00
Fonction
Opération
Exemple
Résultat
SQRT(x)
Racine carrée
PRINT SQRT(4)
2.00
EXP(x)
Fonction exponentielle
PRINT EXP(1)
2.718
LOG(x)
Logarithme naturel de x PRINT LOG(2.718)
pour x > 0
0.9999
LOG10(x)
Logarithme à base 10 de PRINT LOG10(10)
x pour x > 0.
1.000
ROUND(x)
Valeurs arrondies de x au PRINT
nombre entier le plus ROUND(1.2345678)
proche.
1.000
Autres exemples
PRINT (1/2)
0.5000
PRINT (100*(4.35 -2.37))/4.35
45.52
PRINT CONSTANTS(‘pi’)
3.142
PRINT CONSTANTS(‘e’)
2.718
Par défaut, GenStat ne montrera que 3 décimaux dans l’Output Window lorsqu’on
utilise la commande PRINT ou PRINT directive (dans la terminologie de GenStat on
utilise plutôt le nom directive au lieu de commande). Pour modifier ce nombre, on
ajoute un paramètre à cette directive.
Ainsi par exemple,
PRINT CONSTANTS (‘pi’) ; DECIMALS=10
donnera 3.141592852 dans la fenêtre des résultats (Output).
35
Très souvent il sera nécessaire de faire les calculs dans la feuille de GenStat comme
vu précédemment à la section 2.3.2. Mais à mesure que vous vous habituerez à
travailler en GenStat, vous serez plus à l’aise à faire les calculs dans le serveur de
GenStat en utilisant le menu plutôt que par Spread ⇒ Calculate ⇒ Column utilisé cidessus. Au niveau du serveur GenStat, le résultat est le même dans les deux cas, à
cette seule différence que pour le premier cas Data ⇒ Calculations, on ne voit pas
automatiquement la colonne calculée dans la feuille.
2.4.3
Détails concernant le serveur.
Après avoir effectué plusieurs calculs, il est évident que les fenêtres des entrées
(Input) et des résultats (Output) seraient pleins d’écrits en désordre. Ceux-ci sont
généralement nettoyés du serveur de GenStat par le menu Data ⇒ Clear All Data ou
Run ⇒ Restart Session. Plus facilement encore, on peut supprimer les donnés de
l’Output en cliquant le bouton ‘Clear Output’ ( ) se trouvant dans la barre d’outils.
D’autre part, les deux fenêtres d’entrées et des résultats peuvent être enregistrées
(activer d’abord la fenêtre en cliquant dedans puis utiliser le menu File => Save As).
Les données de la fenêtre Input sont sauvegardées en tant que fichier normal de texte
ou comme fichier GenStat (*.gsh). De la sorte, il est possible de refaire les mêmes
commandes dans la fenêtre des entrées (Input) pour une nouvelle analyse similaire.
De même, la fenêtre des résultats (Output) peut être sauvegardée comme fichier texte
ou simplement comme ‘fichier output’ (*.out). Il est important de toujours sauvegarder
les résultats d’une analyse effectuée en vue d’une éventuelle comparaison avec les
autres résultats obtenus précédemment ou pour les insérer dans des rapports ou
autres documents. En plus, l’enregistrement des données se trouvant aussi bien dans
l’Output que dans l’Input contribue à faire un feed-back de ses propres réalisations
concernant les différents travaux d’analyses.
36
3 Quelques notions simples en statistique
Le chapitre précédent vient de présenter le fonctionnement de GenStat en
général tout en initiant l’utilisateur aux diverses commandes de ce logiciel.
Les deux chapitres suivants vont aborder dans le même sens en se
focalisant plus particulièment sur différents aspects d’utilisation de GenStat
Edition Discovery ainsi qu’à la revue de quelques éléments statistiques de
base. En même temps, nous verrons comment le logiciel peut faciliter la
compréhension de la statistique. La plupart des exemples développés dans
ce chapitre ont été tirés du livre de Mead, Curnow and Hasted1. Nous
renvoyons le lecteur désireux d’obtenir davantage d’information concernant
l’aspect statistique de ces exemples à la section appropriée du document
susmentionné ou à un autre manuel similaire.
3.1
Autres manipulations de données : cas de mise en commun
de deux feuilles
En ce qui concerne l’analyse, il est bon de noter que nous avons considéré la
statistique descriptive. Dans ce contexte, les données étaient présentées sous
forme numérique suivies de la production des graphiques. Dans les chapitres qui
suivent, nous nous proposons de présenter quelques autres manipulations des
données avant d’introduire les éléments concernant la simple inférence
statistique. Mais avant d’en arriver là, il nous paraît nécessaire d’aborder avant
tout d’autres manipulations des données.
Dans l’exemple ci-dessous tiré du livre de Mead, Curnow and Hasted,
pages 36 et 42, nous comparons 6 observations d’une variété nouvelle de
Blé ‘new’ ayant fourni les rendements suivants, en tonnes/ha:
variété nouvelle ‘new’:
2.5 2.1 2.4 2.0 2.6 2.3
avec 10 observations de la variété standard ‘standard’:
variété standard ‘standard’: 2.2 1.9 1.8 2.1 2.1 1.7 2.3 2.0 1.7 2.2
Comme ces colonnes sont de différentes tailles, les données vont être saisies sur deux
feuilles séparées. Pour la première série de données, procédez comme suit: Spread
⇒ New ⇒ Blank tel que montré plus haut dans le chapitre 2.2.1, à la page 6. Vous
pouvez par la suite l’arranger de manière à avoir une colonne de 6 lignes dans laquelle
les données peuvent être introduites selon la procédure présentée ci-dessus et à la fin,
il faudra attribuer à la colonne le nom de “new”
Enregistrez maintenant la feuille de données ainsi créée, en lui donnant un nom
significatif tel que vu dans le chapitre 2.2.1.3 à la page 10, par exemple “Wheat variety
1
Roger Mead, Robert N. Curnow, Anne M. Hasted, 2003. Statistical Methods in Agriculture and
Experimental Biology. Third Edition. Chapman & Hall/CRC. 472 pages ISBN 1-58488-187-9
new.gsh”. Puis utilisez Spread⇒New ⇒Blank de nouveau mais en changeant le
nombre de lignes à 10 et entrez la seconde série de données dans cette autre feuille,
et renommez la colonne ainsi créée de standard. Sauvegardez cette feuille sous un
autre nom de “Whear variety standard.gsh” par exemple (figure 3.2).
figure 3.1 Feuilles des données de
rendements ‘Wheat yields’
figure 3.2 Attribution d’un nom à la feuille des
données
Souvent les données nécessitent d’être réorganisées avant l’analyse. Nous
montrons ici l’étape qui consiste à la mise en commun de deux séries de
données différentes. Il s’agira de mettre ensemble les données de deux
colonnes et d’insérer une nouvelle colonne qui spécifie de quelle série de
données provient chaque observation.
Si les feuilles se trouvent encore en GenStat, elles peuvent alors être ouvertes.
Rappelons qu’elles avaient été sauvegardées sous le nom de ‘Wheat variety new.gsh’
et de ‘Wheat variety standard.gsh’ (voir figure 3.1).
figure 3.3 Feuille des données de 'Wheat
variety standard.gsh' en tant que fenêtre
active.
figure 3.4 Présentation de la boîte de
dialogue ‘Append Data’
Cliquez dans la feuille ‘Wheat variety standard.gsh’, pour qu’elle devienne une fenêtre
active (voir figure 3.3). Utilisez Spread ⇒ Manipulate ⇒ Append et complétez le
dialogue comme le montre la figure 3.4, c’est à dire en joignant les données de ‘Wheat
38
3 - Quelques notions simples en statistique
variety new.gsh’ aux données se trouvant dans ‘Wheat variety standard.gsh’. En même
temps nous spécifions que la colonne de facteur comportant le nom de Variety sera
utilisée pour distinguer les deux séries de données et que le deuxième niveau sera
nommé ‘new’. À la fin, vous pressez [OK] pour valider.
figure 3.5 Feuille des données obtenue après
l’opération de mise en commun
figure 3.6 Présentation de la feuille finale
obtenue
Après la mise en commun de deux séries de données, on obtient une feuille présentée
à la figure 3.5. C’est sous cette forme que nous présenterons assez souvent les
données pour la suite de ce document.
Il ne reste plus qu’à faire le nettoyage devant aboutir à la feuille des données illustrée à
la figure 3.6. Ce nettoyage consistera à :
-
Changer l’appellation du premier niveau de facteur d’original à
standard. (voir chapitre 2.3.3)
Renommer la colonne par des variables de standard à rendement. (voir
chapitre 2.2.1.1)
Sauvegarder la feuille sous le nom de ‘wheat yield.gsh’ (voir chapitre
2.2.1.3)
Donc, il y a trois feuilles visible (voir figure 3.7). Les données dans le serveur de
GenStat se présenteront selon l’illustration de la figure 3.8.
39
figure 3.7 Les feuilles visibles des données
3.2
figure 3.8 Affichage des données
disponibles dans le serveur de
GenStat
Exploration visuelle des données.
3.2.1
Les diagrammes en boîtes ‘boxplots’.
Une approche servant à la présentation des données est l’utilisation des diagrammes
en boîtes ‘boxplot’. Il est toujours important d’explorer visuellement les données avant
d’entreprendre une quelconque analyse statistique. De cette façon nous avons une
certaine idée de la tendance des données et nous pouvons ainsi découvrir des
anomalies éventuelles. Appliquons le menu Graphics => Boxplot. Lorsque nous
avons les données se trouvant sur deux feuilles différentes (comme pour le cas des
fichiers “Wheat variety new.gsh” et “Wheat variety standard.gsh”), nous compléterons
la boîte de dialogue selon ce qui est montré à la figure 3.9 en validant par [Finish].
Mais quand ces données seront organisées sur une feuille des données en tant que
variable unique comportant plusieurs groupes (comme le cas du fichier ‘Wheat
yield.gsh’), alors nous compléteront le dialogue comme montré à la figure 3.10. Il en
résulte les graphiques correspondants tels qu’illustrés par la figure 3.11.
40
figure 3.9 Dialogue d’un diagramme en boîtes
quand les données sont sur des feuilles
différentes
figure 3.10 Dialogue d’un diagramme en
boîtes quand les données sont organisées en
une seule variable de plusieurs groupes
figure 3.11 Les diagrammes en boîtes obtenus
De ces diagrammes, nous avons l’impression que le rendement de la nouvelle variété
‘new’ est supérieur comparé à celui de la variété standard ‘standard’ bien
qu’apparemment il y ait quelques points de recouvrement. L’analyse statistique
formelle pourra confirmer ultérieurement ces résultats mais, en attendant, voyons en
peu en profondeur cette notion de boxplots.
3.2.2
La médiane et les quartiles.
On appelle diagramme en boîtes ‘boxplot’, une représentation graphique
d’un ensemble de 5 valeurs d’une série des données : minimum, q1,
médiane, q3, maximum.
La valeur centrale des données rangées par ordre croissant est appelée médiane.
Quand il y a un nombre pair d’observations, on comprend aisément que la médiane
sera la moyenne de deux valeurs centrales. La moitié de toutes les observations est
41
constituée des valeurs inférieures à la médiane pendant que celles de l’autre moitié
seront supérieures.
~
-
x=x
( n +1) / 2
~
-
x = (x
( n / 2)
(n = pair)
+ x( n / 2+1) ) / 2 (n=impair)
La médiane du rendement de la variété standard est (2.0 + 2.1)/2 = 2.05.
rendement ‘yield’
classement ‘rank’
1.7
1
1.7
2
1.8
3
1.9
4
2.0
5
2.1
6
2.1
7
2.2
8
2.2
9
2.3
10
La valeur de la médiane n’est pas influencée par des valeurs extrêmes ni ne change
avec le mode de distribution des données qu’il soit symétrique, dissymétrique ou
bimodal.
Les quartiles divisent les données en plusieurs groupes :
1er quartile = q1 = 25 % des observations sont plus petits, 75 % sont
plus grands
- 2ème quartile = q2 = médiane
- 3ème quartile = q3 = 75 % des observations sont plus grands, 25 % sont
plus petits
Le calcul des quartiles2:
-
q1 = la médiane du groupe d’observations en dessous de la médiane.
q1 du rendement de blé standard = 1.8
- q3 = la médiane du groupe d’observations au-dessus de la médiane. q3
du rendement de blé standard = 2.2
La différence entre q3 et q1 est appelée l’interquartile ou écart interquartile (q3-q2).
C’est une mesure d’extension d’une distribution. Elle n’est pas influencée par les
valeurs extrêmes. (q3-q2) du rendement du blé standard est égal à 0.4.
-
Nous pouvons dire que la médiane et le quartile constituent des cas particuliers des
percentiles. D’une manière générale, le nème pourcentile est une valeur par laquelle le
pourcentage p est inférieur à la valeur des observations alors que (100 – p) est
supérieur à cette valeur. Les percentiles sont appelés quantiles en GenStat Edition
Discovery.
Il existe plusieurs possibilités de calculer la médiane, les quartiles ainsi que les
quantiles. La première méthode consiste à utiliser le menu Stats => Summary
Statistics => Summarize Contents of Variates. La figure 3.12 présente les boîtes de
dialogue utilisées quand le groupe de 5 nombres proviennent de deux variables alors
que la figure 3.13 montre celles qui sont appliquées lorsqu’il s’agit d’une variable
comportant plusieurs groupes. Les résultats obtenus peuvent être observés dans la
fenêtre d’Output.
2
Au cas où toute la série de données aurait un nombre impair d’observations, il faut noter qu’il existe
deux moyens de calculer les quartiles. GenStat exclut la médiane pour calculer q1 et q2 alors que certains
autres auteurs préfèrent de l’inclure.
42
figure 3.13 Calcul de l’ensemble de 5
figure 3.12 Calcul de l’ensemble de 5 nombres
nombres pour les données ayant une
pour les données ayant deux variables.
variable comportant plusieurs groupes.
Pour les variables comportant plusieurs groupes, nous pouvons utiliser aussi le menu
Stats => Summary Statistics => Summaries of Groups (Tabulation). Mais ici nous
devrons définir nous mêmes la valeur de l’option ‘quantile percentage points’ dans la
boîte de dialogue correspondante. En effet, dans la figure 3.14, cette valeur est de 25,
50 et 75 pour le quartile inférieur ‘lower quartile’, la médiane ‘median’ et le quartile
supérieur ‘upper quartile’ respectivement. Cliquons sur [OK] pour que ces résultats
puissent être présentés dans la fenêtre Output. Autrement nous pouvons cliquer sur
l’option [Save] qui nous donne la fenêtre obtenue et affichée à la figure 3.15. Cette
fenêtre comporte différentes possibilités nous permettant d’enregistrer les statistiques
sommaires en plusieurs tableaux tels que présentés à la figure 3.16.
figure 3.14 Présentation de la boîte de
dialogue sur le calcul des quartiles
figure 3.15 Boîte de dialogue permettant
d’enregistrer les statistiques sommaires sous
plusieurs types de tableaux
43
figure 3.16 Tableaux obtenus pour l’ensemble des 5 nombres par niveau de facteur.
Enfin, il faut signaler qu’il est également possible d’utiliser le langage des commandes
tel que nous l’avons vu à la chapitre 2.4.2 (page 31). À titre d’exemple, l’exécution de
la ligne suivante :
QUANTILE
standard,new
Donnera, à l’Output, l’ensemble des valeurs de 5 nombres pour les variables ‘new’ et
‘standard’, comme le montre la figure 3.17.
figure 3.17 Résultats obtenus en exécutant la
commande QUANTILE
44
3.2.3
Utilisation des diagrammes en boîtes ‘boxplots’.
Comparaison des groupes
Les diagrammes en boîtes ‘boxplots’ constituent un outil facile permettant de
comparer les groupes de données. Dans la figure 3.11 notamment, il apparaît
comme si le rendement de la nouvelle variété était plus grand que celui de la variété
standard. Quoi qu’il en soit, Il y a beaucoup de divergences à ce sujet et rappelez-vous
à quelle échelle nous sommes en train de travailler (valeur minimum est 1,7 ; valeur
maximum 2,5). Ceci doit être confirmé par un test statistique formel. Dans le cas où ce
test montrerait des résultats différents comparés à ceux présentés par le graphique
exploratoire, nous en déduisons l’existence d’une certaine anomalie.
Valeurs aberrantes
Une autre application de diagrammes en boîtes consiste à montrer les valeurs
aberrantes. Retournez aux données de départ en modifiant par exemple la 8ème
valeur à 2,9 au lieu de 2,0 dans le groupe Standard. N’oubliez surtout pas d’appuyer
sur la touche [Enter] après avoir changé cette valeur, autrement les données du
serveur en GenStat ne seront pas mises à jour. L’allure générale reste la même, à part
que la valeur impaire aura besoin d’être profondément vérifiée. Il y a maintenant deux
moyens de présenter le diagramme en boîtes. Au lieu d’utiliser Graphics ⇒ Boxplot
et de cliquer immédiatement sur [Finish], vous pouvez cliquer plutôt sur [Next]. Cette
opération va vous mettre devant le choix entre deux types de diagrammes: Box and
Whisker et Schematic. Mais nous savons en substance que l’avantage de ce dernier
est qu’il permet de découvrir facilement les valeurs aberrantes.
figure 3.18 Le graphique de type Box and
Whisker
figure 3.19 Le diagramme en boîte de type
Schematic montrant les valeurs aberrantes
Dans un diagramme en boîtes du type Box and Whisker, les extrémités des
‘moustaches’ marquent les valeurs minimum et maximum de la série des données ;
dans un boxplot du type Schematic, elles marquent une sorte de ‘limite intérieure
inférieure et supérieure’. Cette dernière est définie comme la valeur de donnée
maximum qui est encore plus petite que le quartile supérieur à laquelle on ajoute 1.5
fois la valeur (q3-q2) ; ou encore elle peut se définir comme étant la valeur maximum
si celle-ci est plus petite que le quartile supérieur plus la valeur (q3-q2). La limite
intérieure inférieure se définit aussi de façon similaire. Les valeurs extrêmes entre 1,5
et 3 fois (q3-q2), auxquelles on ajoute le quartile supérieur ou desquelles on soustrait
le quartile inférieur, sont, par défaut, présentées sous forme de croix vertes. Plusieurs
45
valeurs extrêmes (plus de 3 fois l’intervalle donné plus haut) sont marquées de croix
rouges.
Allure de distribution
Finalement un boxplot permet d’avoir une idée sur l’allure de la distribution, bien que
vous pouvez aussi obtenir cette information à partir d’autres graphiques (histogrammes
et QQ-plot). La figure 3.20 présente le diagramme en boîtes des données provenant
d’une distribution normale symétrique autour de 0 dans laquelle on trouve une
observation pouvant être considérée comme valeur aberrante. Les mêmes données
sont représentées par un histogramme à la figure 3.21.
figure 3.20 Diagramme en boîtes des données figure 3.21 Histogramme correspondant aux
normalement distribuées (avec une valeur
données précédentes
aberrante)
La figure 3.22 nous présente l’exemple d’une distribution dissymétrique comportant
une longue queue constituée par des valeurs aberrantes. Notons ici que 50 % des
observations ont une valeur comprise entre 1 et 3 sachant que la plus grande est égale
à 100.
figure 3.22 Disgramme en boîtes des données figure 3.23 Histogramme correspondant
d’une distribution dissymétrique
46
Avant de continuer, nous pouvons remettre la valeur 2.0 modifiée précédemment dans
les données de la variété standard de blé ‘standard’ pour besoin d’illustration.
3.3
Les tests d’hypothèses.
Certains des exemples dont nous nous sommes servis dans cette section ont été tirés
du document “Confidence and Significance: Key Concepts of Inferential Statistics”
édité par ‘Statistical Services Centre of The University of Reading’, et publié en 2001.
Cet ouvrage, téléchargeable gratuitement à partir de :
http://www.ssc.rdg.ac.uk/develop/dfid/booklets.html, contient pas mal d’informations qui
touchent divers aspects statistiques.
3.3.1
Test de l’hypothèse sur la moyenne d’une population.
L’exemple suivant est tiré de l’ouvrage mentionné ci-dessus. Il s’agit d’un essai en
milieu paysan que conduit un chercheur dans le but d’étudier l’effet de l’engrais vert de
Tephrosia vogelii sur la fertilité des sols. Il estime qu’en utilisant l’engrais vert de cette
espèce, le rendement en production de gousses de pois cajan ‘pigeon pea’ devrait
augmenter. Dans cet essai, le pois cajan a été planté chaque fois dans deux parcelles
avec et sans engrais et installées chez 8 fermiers. Les données collectées concernent
les différences en poids de gousses ‘pod weights’ entre deux parcelles (kg/plot).
3.0
3.6
5.4
-0.4
-0.8
4.2
4.8
3.2
Notre hypothèse nulle ici est qu’il n’y a pas de différence en poids de gousses. Cette
hypothèse sera vérifiée en fonction d’une autre hypothèse alternative selon laquelle il
existe une différence. Symboliquement, ces deux hypothèses s’écrivent:
H
0
: µ = 0 kg
plot
H
1
: µ ≠ 0 kg
plot
Pour commencer, nous allons entrer les données de différences en poids de gousses
dans une nouvelle feuille de données et l’enregistrer comme podweight.ghs (voir figure
3.24), en produisant en même temps les statistiques sommaires. En outre, nous
savons que le test t, utilisé dans la comparaison des moyennes, est calculé en fonction
de la moyenne (‘mean’) et l’erreur standard (‘standard error’) tels que présentés à la
figure 3.25.
47
figure 3.24 Présentation de la feuille des
données des différences en poids ‘podweight’
figure 3.25 Quelques statistiques sommaires
à l’Output
La formule générale d’un tel test t d’un échantillon ‘one sample t-test’ se présente de la
manière suivante:
t = (valeur estimée ‘estimate’ – valeur d’hypothèse ‘hypothesised value’) / erreur
standard de la valeur estimée ‘standard error of the estimate’
ce qui devient, dans le cas de notre exemple:
t = (2.875 – 0)/0.81 = 3.55 et cette valeur est à comparer avec la distribution t à 7
degrés de liberté.
Pour le faire en GenStat, nous choisissons le menu Stats => Statistical Tests => TTest en complétant la boîte de dialogue obtenu comme le montre la figure 3.26.
figure 3.26 La boîte de dialogue du test
t
figure 3.27 Résultats du test t à l’Output
Les résultats du test t peuvent être vérifiés dans la fenêtre de l’Output (voir figure 3.27).
Comme la valeur est égale à 0.009, cela signifie que si l’hypothèse nulle est vraie
(c’est à dire qu’il n’existe pas de différence en poids de gousses ‘podweight’), alors
nous aurons moins d’1% de chance d’obtenir l’échantillon. Et cela n’est pas impossible.
Quoi qu’il en soit, il est peu probable que nous pouvions déclarer maintenant que le
résultat est statistiquement significatif et de rejeter ainsi l’hypothèse nulle.
Dans la même fenêtre d’Output, nous trouvons l’intervalle de confiance de la
moyenne, au degré de confiance de 95 %. Ce faisant, il est fort probable (95 % de
48
chances) que nous trouvions dans cet intervalle la vraie moyenne de la population.
Ainsi, sur la base de notre échantillon, il sera très probable que la moyenne de la
différence en poids de gousses ‘pod weight’ entre le pois cajan avec engrais et le pois
cajan sans engrais se trouvent quelque part entre 0.96 kg/parcelle et 4.79 kg/parcelle.
La formule générale de l’intervalle de confiance de 95 % de la moyenne s’écrit:
()
x ± t d . f . × s.e. x
3.3.2
La comparaison d’échantillons.
Dans cette section, reprenons l’exemple du rendement du Blé ‘Wheat yield’ que nous
avons vu précédemment. Pour cela, nous allons choisir Run => Restart Session pour
effacer les données du serveur de GenStat et ouvrir la feuille de données du fichier
‘Wheat yield.gsh’.
Le diagramme en boîtes construit à la figure 3.11 nous aurions montré que le
rendement de la variété ‘new’ est supérieur par rapport à celui de la variété ‘standard’.
Et nous avions des raisons d’admettre cela dans la mesure où la nouvelle variété a été
justement introduite dans le but de produire les rendements supérieurs. Notre
hypothèse est que le rendement moyen de la nouvelle variété est supérieur par rapport
à celui de la variété normale du blé. Nous pouvons vérifier ces données par une
analyse statistique formelle et, dans ce cas, le test t sera utilisé en considérant le cas
de deux échantillons indépendants.
En reformulant notre hypothèse en tant qu’un ensemble des hypothèses nulle et
alternative, nous obtenons:
H :µ
H :µ
0
1
s tan dard
s tan dard
−µ
−µ
new
pooled
=0
≠0
Et, dans ce cas, la formule générale du test t est:
t = (moyenne estimée du 1er échantillon – moyenne estimée du 2nd échantillon)/(erreur
standard de la différence des moyennes standard)
Les calculs nécessaires permettant de trouver le test dépendent de deux hypothèses
ainsi formulées:
les deux échantillons proviennent des populations normalement
distribuées
- les deux échantillons ont la même variance
Compte tenu de cette dernière hypothèse, les variances des deux échantillons peuvent
alors être combinées en vue de donner une meilleure estimation de la variance de
deux populations. Cette variance mise en commun ‘pooled variance’ se calcule donc
de la manière suivante:
-
s
2
pooled
(
n1 − 1)s12 + (n2 − 1)s 22
=
(n1 + n2 − 2 )
D’où, l’erreur standard des différences des moyennes ‘s.e.d.’ devient:
s.e.d . =
s 2pooled
n1
+
s 2pooled
n2
49
Il est possible d’obtenir les statistiques sommaires nécessaires (voir figure 3.28) et de
calculer aussi l’estimateur de la variance commune de la population ‘pooled variance’
égale à 0.0502143 (voir figure 3.29). De la même façon, on peut se servir de cette
dernière valeur pour le calcul de la valeur t qui est égale à -2.59253 (le calcul n’est pas
montré ici). Cette valeur de test t est celle qui est comparée avec la distribution t à 14
degrés de liberté (n1 + n2 – 2 = 6 + 10 – 2) donnée généralement dans la plupart des
livres de Statistique.
figure 3.28 Boîte de dialogue obtenue pour les figure 3.29 Boîte de calcul de la variance
statistiques sommaires essentielles
mise en commun
Nous venons de présenter ici un moyen quelque peu classique mais fastidieux utilisé
dans l’enseignement de la statistique; il serait sans doute plus aisé de laisser
l’ordinateur faire le travail. Nous pouvons donc choisir le menu Stats => Statistical
Test => T-test, sélectionner ensuite le type de test ‘Two-sample (unpaired)’ en
précisant toutefois que les données proviennent d’une seule série comportant plusieurs
groupes comme le montre la figure 3.30. Si nous préférons travailler avec les deux
variables en même temps dans la même boîte “Wheat variety new.gsh” et “Wheat
variety standard.gsh”, nous pouvons procéder suivant la figure 3.31.
50
figure 3.30 Comparaison de deux échantillons
d’une seule variable comportant deux groupes
figure 3.31 Comparaison de deux
échantillons de deux variables
Les résultats du test t peuvent être observés dans la fenêtre Output.
***** Two-sample T-test *****
Sample
standard
new
Size
10
6
Mean
2.000
2.300
Variance
0.04667
0.05600
*** Test for equality of sample variances ***
Test statistic F = 1.20 on 5 and 9 d.f.
Probability level (under null hypothesis of equal variances)
= 0.76
*** Test for evidence that mean of yield with Variety = standard
is unequal to mean with Variety = new ***
Test statistic t = -2.60 on 14 d.f.
Probability level (under null hypothesis) p = 0.021
95% Confidence Interval for difference in means: (-0.5477, 0.05234)
Au cas où l’hypothèse nulle est vraie (c’est à dire les deux moyennes de population
sont égales), alors nous avons seulement une chance d’environ 2 % d’obtenir les
échantillons trouvés (la valeur p est égale à 0.021). C’est pour cela que nous pouvons
rejeter l’hypothèse nulle et considérer qu’il existe une différence statistiquement
significative entre les deux moyennes d’échantillon.
Qu’y a-t-il de plus à l’Output? Nous y avons d’abord observé les statistiques
sommaires, puis les résultats du test F et du test t et enfin, l’intervalle de confiance de
la différence des moyennes, au degré de confiance de 95 %.
Il faut souligner ici que GenStat a fourni, par défaut, la valeur du test F valable pour le
cas d’échantillons ayant les variances égales, étant entendu que c’est justement l’une
des hypothèses émises pour le calcul du test t de deux échantillons indépendants. On
notera aussi que cette valeur du test F fonctionne bien lorsque la distribution de la
population s’approche d’une distribution normale.
En outre, nous avons vu que la formule générale de l’intervalle de confiance des
moyennes, pour un degré de confiance de 95 % était de:
51
x1 − x 2 ± t n1 + n2 −2 × s.e.d .
Ainsi, en considérant nos échantillons, il est fort probable que la variété standard de
blé produira en moyenne 0.005 à 0.55 tonnes /ha de moins que la nouvelle variété.
D’autre part, nous pouvons éliminer quelques résultats de l’Output (notamment le test
F) en modifiant quelques options dans la boîte de dialogue de test. Après avoir choisi
le menu Stats=>Statistical Tests=>T-test il faudra cliquer sur [Options] pour obtenir
la boîte montrée à la figure 3.32.
figure 3.32 Comparaison de deux échantillons
pour une variable comportant deux groupes
3.3.3
Le test t des données associées par paires.
Dans l’exemple ci-dessus, nous venons de comparer les moyennes des données de
deux groupes indépendants. Pour l’exemple suivant, nous allons calculer le test t pour
le cas des données associées par paires. L’exemple utilisé est tiré du document
‘Confidence and Significance: Key Concepts of Inferential Statistics’, Statistical
Services Centre, University of Reading, 2001 (les données de l’exemple se trouvent
sur la page 14). Dans le tableau des données ci-après, les valeurs x et y représentent
la force de tension exercée par les échantillons de caoutchouc prélevés dix fois dans
deux plantations (X et Y).
Le but poursuivi dans cette expérimentation était d’évaluer la performance des
caoutchoucs provenant de deux plantations.
Occasion
1
2
3
4
5
6
7
8
9
10
52
X
174
191
186
199
190
172
182
184
200
177
Y
171
189
183
198
187
172
179
183
199
176
Concrètement, nous pouvons dire que la réalisation d’un test t des données associées
par paires de notre exemple, signifie que la variabilité entre les deux plantations est
ignorée dans l’analyse, ce qui fait qu’à chaque mesure, on s’est plutôt intéressé aux
différences en force de tension produite par les données associées.
Pour commencer nous allons appliquer le menu Run => Restart Session avant de
ramener ces données en GenStat. Premièrement, il va falloir créer la nouvelle feuille
de calcul en vue de saisir les données du tableau ci-dessus. Ensuite, il sera question
d’insérer la colonne pour la nouvelle variable “Difference” constituée des données de la
différence en force de tension entre la plantation X et Y à chaque période de mesure.
Enfin, le fichier sera enregistré sous le nom de ‘tensile strength paired data.gsh’
comme l’indique la figure 3.33.
figure 3.33 Feuille des données associées par
paires de la force de tension
Il existe deux possibilités d’obtenir le test t en GenStat. La première consiste à
sélectionner dans la boîte de dialogue, l’option ‘two-sample (paired test)’ en comparant
X et Y (voir figure 3.34). Quant à la deuxième possibilité, on choisira l’option ‘onesample test’ en précisant toutefois que la comparaison est faite avec la moyenne zéro
comme le montre la figure 3.35.
figure 3.34 Boîte de dialogue de test t obtenue figure 3.35 Boîte de dialogue de test t obtenue
pour les données associées par paire en
pour les données associées par paire en
utilisant l’option ‘two-sample’
utilisant l’approche ‘one-sample’
53
figure 3.36 Résultats du test t obtenus à
l’Output pour les données associées par paire
en utilisant l’option ‘two-sample’
figure 3.37 Résultats du test t obtenus à
l’Output pour les données associées par paire
en utilisant l’option ‘two-sample’
Les résultats à l’Output sont exactement les mêmes dans les deux cas tel que nous
pouvons le constater à la figure 3.36 et figure 3.37. Rien d’étonnant en effet, puisqu’en
choisissant l’option de test t pour les données associées par paires ‘paired t-test’, nous
avons indiqué que nous voulons ignorer la variabilité au niveau de plantation à
plantation. Et, dans les deux cas, il s’agissait aussi de vérifier que la moyenne des
différences par paires était égale à zéro.
À la , nous avons calculé le test t par la différence des moyennes et l’erreur standard
de la valeur estimée. En nous basant sur les résultats à l’Output, nous avons:
t = (1.8) / 1.289
10
= 5.013
Il faut dire que la comparaison des données associées par paires a permis d’améliorer
la précision de l’analyse. En effet, supposons que nous ayons choisi d’analyser le test t
de deux échantillons indépendants. Il est clair que nous n’aurions pas pu détecter les
tout petites mais systématiques différences entre les données associées par paires, Et
de cette façon, nous devrions calculer l’estimateur de la variance commune ‘pooled
variance’ à partir des variances relativement grandes de X et Y. Cette procédure aurait
conduit à obtenir une valeur non significative de t égale à 0.41 (voir figure 3.38), ce qui
aurait comme conséquence le fait de donner une fausse conclusion selon laquelle il
n’existe aucune différence en force de tension entre les deux plantations.
figure 3.38 Présentation de faux résultats obtenus à partir de l’utilisation d’une mauvaise
approche.
54
La notion de structure des données associées par paires peut être comparée au
concept de bloc pour les expérimentations et de stratification en ce qui concerne les
enquêtes.
3.3.4
Exemple d’une méthode non paramétrique.
Tous les tests t ainsi que beaucoup d’autres analyses statistiques en général sont
fondées sur l’hypothèse selon laquelle toutes les données proviennent d’une
distribution normale. Mais quelque fois tel n’est pas le cas, notamment lorsqu’il s’agit:
d’une distribution très dissymétrique du fait qu’une ou plusieurs
observations sont suffisamment grandes par rapport à l’intervalle
normale des données sans que cela provienne d’une erreur quelconque
de mesure.
- des mesures ne se trouvant pas sur une échelle de rapports mais plutôt
sur une échelle ordinale. C’est par exemple le cas des fermiers
attribuant les points entre 0 et 10 au sujet de leurs préférences sur
l’utilisation des différentes espèces d’arbres dans leurs champs.
Certains d’entre eux pourraient éventuellement donner les cotes
extrêmes.
Dans de telles circonstances, il sera raisonnable d’utiliser les méthodes non
paramétriques. De toute façon, les problèmes de données peuvent parfois provenir de
la mauvaise planification de collecte des observations ou même du fait que certaines
parties des observations n’ont pas été prises en considération.
-
Imaginons que les différences de la force de tension comportent ce type de difficultés
au niveau des données. Pour remédier à ce genre de question, une éventuelle
approche consisterait à utiliser le test des signes ‘sign test’. Avec l’hypothèse nulle
selon laquelle il n’y a pas de différence entre les deux échantillons, il s’est avéré que
près de la moitié des différences était positive et près de l’autre moitié négative, ce qui
fait que la médiane soit égale à 0. Or, dans l’exemple, 9 différences sont positives, une
est égale à 0 et 0 différence est négative. Sans aller plus loin dans les détails
concernant ces calculs, nous allons néanmoins montrer comment on peut produire un
test en GenStat. Choisissons Stats => Statistical Tests => One-sample nonparametric tests en considérant que la variable à tester est “Difference” que GenStat
va tester par défaut contre la valeur de la médiane égale à zéro.
figure 3.39 Dialogue obtenu avec l’option ‘sign
test’
55
***** One-sample Sign Test *****
Variate
Difference
Size
9
Median
1.500
Test if median equals 0
Test statistic:
Effective sample size:
Two-sided probability level:
9
9
0.004
Dans cet exemple, il est bien clair que GenStat rejète l’hypothèse nulle (aucune
différence). (p=0.04).
56
3.4
Cas d’une simple régression.
A présent nous allons introduire quelques éléments principaux d’analyse de
données en GenStat en utilisant les moyennes d’une simple régression. Il
s’agira en fait de montrer comment obtenir une progression linéaire en
GenStat ainsi que des options disponibles utilisées. Mais plus tard dans ce
même manuel, d’autres formes de régression seront également
développées. Pour illustrer ce sujet nous nous servirons de l’exemple se
trouvant à partir de la page 193 de livre de ‘Mead, Curnow and Hasted’.
Commençons une nouvelle session de GenStat (voir chapter 2.4.3) et créons ensuite
une feuille de calcul comportant deux colonnes (conc et uptake) de 17 lignes dans
lesquelles nous entrons les données de la figure 3.40. A ces deux colonnes, ajoutons
une description complémentaire: ‘conc’ signifiant les diverses concentrations de CO2
ayant traversé les feuilles de Blé à la température de 35ºC et ‘uptake’, la quantité de
CO2 retenues par ces feuilles. La colonne ‘uptake’ sera formatée de manière à avoir
deux décimaux. A l’issue de toutes ces opérations, nous devons naturellement
enregistrer la feuille par exemple sous le nom de ‘CO2 uptake wheat leaves.gsh’. Pour
toute assistance à l’un ou l’autre de ces différents aspects, il faudrait se référer à la
chapitre 2.2.
figure 3.40 Les données d’une simple
régression
75
100
100
100
120
130
130
160
160
160
190
200
200
200
200
240
Uptake
(cm3/dm2/hour)
uptake
0.00
0.65
0.50
0.40
1.00
0.95
1.30
1.80
1.80
2.10
2.80
2.50
2.90
2.45
3.05
4.30
250
4.50
CO2 concentration
conc
figure 3.41 Les mêmes données dans une feuille
de calcul GenStat
A présent il nous faut examiner les données sous forme exploratoire avant de faire
l’analyse formelle. Pour cela, il est nécessaire de faire la vérification des statistiques
sommaires trouvées pour les deux colonnes (voir chapitre 2.3.1) et faire le graphique
du type ‘point plot’, comme montré à la figure 3.42, en vue de voir s’il existe réellement
une relation linéaire entre ces deux paramètres.
57
figure 3.42 Le graphique du type ‘point plot’ des données de la régression
Choisissons Stats ⇒ Summary Statistics ⇒ Correlations et complétons le dialogue
obtenu comme montré à la figure 3.43, en vue d’avoir la corrélation entre uptake et
conc. Dans la boîte de dialogue, nous devons préciser que nous souhaitons avoir les
résultats des corrélations sur une feuille de calcul.
figure 3.43 Correlations dialogue
figure 3.44 Results in a new spreadsheet
Il y a lieu de constater ici l’existence d’une modèle linaire ainsi qu’une grande
corrélation positive entre la concentration en CO2 et le CO2 retenu. Nous avons dû
finalement adapter les données au modèle d’une ligne droite. De ce fait, nous pouvons
choisir le menu Stats ⇒ Regression Analysis ⇒ Linear, puis l’option ‘Simple Linear
Regression’ ou ‘General Linear Regression’ dans la boîte de régression obtenue et
enfin valider par [OK]. Une fois ces opérations validées, les résultats de la régression
58
peuvent déjà être observés dans l’Output. En outre, les boutons du menu de
régression qui étaient jusque-là d’une visibilité floue et donc inactifs comme en figure
3.45, deviennent automatiquement activés.
figure 3.45 La boîte de dialogue d’une régression linéaire
Juste vers la fin de l’Output, à la dernière ligne, nous observons l’estimation des
paramètres utilisées dans l’équation ajustée.:
uptake = -2.043 + 0.02494 * conc
Cliquons sur l’option [Further Output] dans la boîte de la figure 3.45, puis sur [Fitted
Model] et enfin complétons l’option de ‘Explanatory variable’ telle que présentée dans
la figure 3.46 en vue de pouvoir produire un graphique des observations initiales avec
la ligne de régression ajustée.
figure 3.46 D’autres résultats provenant du
modèle de régression
figure 3.47 Le graphique obtenu
Cet exemple montre en particulier combien il est facile de ‘faire la statistique’ au fur et
à mesure qu’on se familiarise à l’usage des dialogues de GenStat.
59
60
4 Révision des chapitres 2–3.
Procédons à la révision de certaines questions abordées au cours des chapitres
précédents. Pouvez-vous?
Question
Conseil
Ouvrir une série de données saisies antérieurement en Excel, Voir page 13
notamment le fichier “Prunus africana height and dbh Mabira
Uganda.xls”?
Saisir une nouvelle série de données comportant 3 colonnes et 6 Voir page 6
lignes
Importer un champ nommé à partir d’une feuille Excel.
Voir page 13
Créer une nouvelle colonne dont les données sont les carrés des Voir page 18
valeurs de la colonne existante ?
Mettre en commun (Append) les données de deux feuilles GenStat ?
Voir page 38
Effectuer un test t de deux échantillons non appariées (two-sample Voir page 49
unpaired t-test) ?
Retrouver les noms ainsi que la taille de toutes les colonnes des Voir page 30
données quelconques.
Expliquer pourquoi un diagramme en boîtes (boxplot) constitue un Voir
page
45,
outil important dans l’exploration sommaire d’une série de données Consulter le livre de
mais aussi dans la comparaison de deux groupes d’observations ?
Statistiques
ou
s’informer
Produire un graphique sous forme de ligne (du type line plot) ?
Voir la 2ème option de
la boîte de dialogue
présentée à la figure
figure 2.27, page 17
Effectuer une simple régression linéaire?
Voir page 57
Question
Conseil
Totaliser les données dans une colonne ?
Voir page 16 et page
28
Expliquer comment GenStat “fonctionne?”
Voir section 2.4 à la
page 30
Expliquer ce que signifie une colonne de facteur?
Voir page 23
Sortir du GenStat ? (Sinon vous pouvez continuer à vous exercer!)
62
5 Défi nº 1
“Fallow species trial.xls” est le nom du fichier dont les données proviennent
d’un essai en champ dans lequel les nitrates du sol ont été mesurées en
début de saison dans les différentes parcelles définies par le type de
jachère appliquée (le codage étant TRT). Dans chaque parcelle, le
rendement du maïs était évalué à la fin de chaque saison en même temps
que le niveau de l’infestation de Striga (une herbe parasite). Trouvez le
rendement moyen en grain de maïs pour chaque type de jachère
appliquée. Produisez ensuite le graphique qui établit le rapport entre le
rendement de maïs et les nitrates du sol d’arrière-saison pour chaque type
de jachère. Vérifiez s’il existe un rapport évident entre le rendement de
maïs et la quantité de Striga et aussi si le graphique devient plus net en
appliquant la racine carrée.
64
6 Avant d’effecteur l’Analyse de la
Variance
GenStat dispose des outils vastes pour l’analyse des essais. Dans cette
chapitre nous regardons comment les données devaient être organisées
pour une telle analyse. Ca élargira la question au sujet des facteurs
introduits précédemment. Ainsi allons-nous examiner le cas des essais
dont le dispositif est en blocs aléatoires complets d’une part, et d’autres en
‘parcelles divisées’ ou split plot, d’autre part. Nous regarderons enfin le
concept de la structure factorielle de traitement dans une expérimentation.
6.1
Organisation des facteurs et des données
6.1.1
Au niveau d’une feuille GenStat.
Considérons un ensemble des données du rendement des 4 variétés de melon tel que
présenté dans la figure 6.1 (voir Mead, Curnow and Hasted, 2003. p. 58):
figure 6.1 Disposition des données qu’on trouve normalement dans les publications
Variety
Yields
A
25.12
17.25
26.42
16.08
22.15
15.92
B
40.25
35.25
31.98
36.52
43.32
37.10
C
18.30
22.60
25.90
15.05
11.42
23.68
D
28.55
28.05
33.20
31.68
30.32
27.58
Une telle disposition tabulaire n’est malheureusement pas d’un format compatible à la
plupart des logiciels statistiques. En observant ces données à la figure 6.2, force est de
constater qu’elles ont été introduites dans les colonnes dont la longueur est égale au
nombre total des unités. En même temps que ces données, d’autres colonnes
décrivant entre autres les traitements de l’essai ont été complétées. Il s’agit des
facteurs que nous avons abordés plus haut (voir section 2.3.3). Dans la plupart des
cas, il s’agira soit du nombre d’unités, du bloc d’où vient l’unité ou de la quantité
d’engrais appliquée dans une parcelle donnée. Quoi qu’il en soit, il y a souvent plus
d’un paramètre à mesurer. Par conséquent, le moyen de saisir les données de chaque
paramètre dans une seule et même colonne est préférable dans de pareils cas.
L’exemple en est illustré dans la figure 6.2:
figure 6.2 Forme de disposition de données compatible aux logiciels de statistique
Notez que dans cet exemple, les noms des colonnes ‘Variety’ et ‘dbclass’
sont écrits en italique. Un nom de colonne écrit en italique et précédé d’un
point d’exclamation signifie, en GenStat, que la colonne est un facteur.
Nous allons créer quelques feuilles GenStat qui seront utilisées plus loin dans le
chapitre 8.
6.1.1.1
Rendement du melon.
Créons d’abord une feuille ayant 2 colonnes et 24 lignes. La 1ère colonne dénommée
Variety est un facteur ayant 4 niveaux (“A”, “B”, “C” et “D”). La 2nde colonne est une
variable. Introduisons dans cette colonne les données de la figure 6.1 de manière à
obtenir la feuille des données présentée à la figure 6.2. Préparons la colonne Yield de
façon qu’elle ait deux décimaux. Enregistrons la feuille ainsi obtenue sous le nom de
“Melon yield.gsh” et nettoyons enfin toutes les données de la mémoire de GenStat en
utilisant Run => Restart Session.
Normalement la saisie des données se fait en suivant l’ordre donné par la
randomisation qui est par ailleurs le même que dans la fiche
d’observations. Une colonne s’y ajoute donc pour indiquer justement le
numéro de la parcelle. Dans cet exemple rappelez-vous, nous avons saisi
les données en suivant l’ordre trouvé dans le document.
Nous avons déjà vu dans la section 2.3.3 comment entrer les données lorsqu’elles sont
constituées de nombres ordinaux ou sont sous forme de texte (légende). Toutefois, on
notera que pour créer une feuille, il existe d’autres alternatives parmi lesquelles
certaines sont préférables selon qu’il s’agit des nombres ordinaux et d’autres lorsqu’il
est question des légendes. Nous en présentons trois:
L’option Fill
Option indiquée lorsqu’il s’agit d’entrer les données sous forme de nombres ordinaux.
Pour le cas de notre exemple, nous devrions remplir la colonne de variable de manière
à avoir le chiffre 1 six fois, 2 six fois et ainsi de suite jusqu’à 4. Pour le faire beaucoup
plus facilement, nous choisissons Spread => Calculate => Fill en précisant à l’option
appropriée que nous souhaitons avoir 6 répétitions. Dans la fenêtre de ‘preview’, nous
pouvons y observer la façon dont la colonne se présentera. Ensuite la commande
Spread => Column => Convert va nous servir à convertir la colonne en types de
66
6 - Avant d’effecteur l’Analyse de la Variance
facteurs puis, avec l’option Spread => Factor => Edit labels, nous sommes en
mesure de changer les 4 chiffres en lettres. A la fin de chaque légende introduite, on
appuyera chaque fois sur la touche [Enter] pour valider.
figure 6.3 Boîte de dialogue indiquant le
nombre de séquences
figure 6.4 Modification des légendes d’un
facteur
Notez que si la colonne est déjà transformée en facteur et que l’on veuille
lui donner des légendes ou modifier celles qui existent, on cliquera
n’importe où dans la colonne avant de sélectionner Spread ⇒ Factor ⇒
Edit Labels.
L’option List fill.
Cette option est relativement plus compliquée que la précédente mais serait tout de
même intéressante lorsqu’il s’agira de se familiariser avec le langage de commande de
GenStat. Le menu Spread => Calculate => List Fill nous présente une petite boîte de
dialogue dans laquelle nous aurons à introduire une formule.
-
-
-
1…24 est appelée progression; c’est une liste des nombres qui
s’accroît avec la même valeur de progression ou diminuent avec la
même valeur de régression. La progression 1…24 équivaut à 1, 2, 3, 4,
5 jusqu’à 24. Le second nombre séparé du premier par une virgule,
donnera à la progression, la valeur de progression ou de régression.
C’est ainsi que 1,2…24 équivaut 1, 3, 5, 7 et ainsi de suite jusqu’au
dernier (étant entendu que 24 ne sera pas inclus).
Les pré-multiplicateurs font que chaque nombre d’une progression ou
d’une suite de nombres entre parenthèses soit répété. L’expression
6(1…4) équivaut à 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4,
4, 4, 4
Les post-multiplicateurs font que la suite des nombres soit répétée.
(1…4)6 équivaut à 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1,
2, 3, 4
67
figure 6.5 Présentation de la boîte de dialogue de l’option
‘List Fill’
De nouveau, il faudra convertir la colonne en facteur avant de procéder à la
modification des légendes.
L’option de conversion des colonnes-textes
C’est une option très utile quand nous devons notamment importer les données
d’enquête à partir des autres applications ou logiciels. Dans une colonne du texte, en
cliquant droite pour sélectionner l’option Convert to Factor, nous obtenons en
GenStat une colonne sous forme de texte de légende.
6.1.1.2
Les poules pondeuses et modes d’éclairage.
C’est un essai sur l’effet de l’éclairage sur la production des œufs des poulets (Mead,
Curnow and Hasted page 69). Pour créer une feuille des données de cette expérience,
nous allons devoir utiliser une des méthodes mentionnées dans chapitre 2.3.3 et
chapitre 6.1.1.1. Les chiffres représentent le nombre des œufs pondus dans une cage
de 6 poules durant la période du 1 décembre 1950 au 22 février 1951.
Blocks
Treatments
O
E
F
Block totals
1
2
3
4
330
372
359
1061
288
340
337
965
295
343
373
1011
313
341
302
956
Treatment
totals
1226
1396
1371
3993
Si vous optez pour l’option List fill, il faut noter que la formule d’entrer les blocs sera
(1…4)3 alors que celle des traitements sera 4(1…3). Par contre, en passant par le
menu Spread => Calculate => Fill on obtiendra les boîtes de dialogue représentées
dans figure 6.6 et figure 6.7 qui finalement aboutiront à la même feuille GenStat.
68
figure 6.6 Boîte de dialogue de l’option ‘Fill’
pour entrer les blocs
figure 6.7 Boîte de dialogue de l’option ‘Fill’
pour les traitements
Les informations suivantes pourront servir au moment de faire la description
colonnes dans ‘Column attributes’.
des
Traitement O: témoin (éclairage naturel du jour uniquement)
Traitement E: prolongement du jour (longueur totale allant jusqu’à 14 h)
Traitement F: Éclats de lumière (éclairage naturel du jour auquel on
ajoute deux fois l’éclat de lumière de 20 secondes par nuit
La feuille GenStat qui en résulte se présentera sous la forme que présente la figure
6.8.
-
figure 6.8 Présentation de la feuille obtenue
Enregistrez le fichier sous le nom de “Egg production.gsh”.
6.1.2
A partir d’une feuille Excel.
6.1.2.1
La survie de Salmonella typhimurium.
La disposition des données où chaque facteur ou mesure est saisi dans une même
colonne comme vu précédemment dans le serait le meilleur format qui permettrait de
travailler dans n’importe quel logiciel statistique. Quoi qu’il en soit, du moment que
nous avons à faire avec plusieurs facteurs ou mesures, il devient pratiquement difficile
de pouvoir comprendre le contenu de la colonne. C’est pour cela qu’un des moyens
69
adoptés au sujet de la documentation des données en GenStat, consiste à une
description complémentaire des colonnes telle que nous l’avons vue au chapitre 2.2.1.
Un autre moyen approprié est, de toute évidence, l’utilisation d’une feuille Excel,
comme présentée dans l’exemple ci-dessous. Cette application permettait d’ajouter
une description des facteurs et des mesures ainsi qu’une méta-description
complémentaire concernant l’ensemble de données. De la figure 6.9, il en découle une
disposition des données suivant l’ordre présenté dans le livre de référence, alors que
celle illustrée à la figure 6.10 se rapporte aux données saisies des données du fichier
Excel “Salmonella typhirum survival.xls”. Ces données se trouvent dans le document
de Mead, Curnow and Hasted, 2003, page 113.
figure 6.9 Disposition des données tirées du
livre
figure 6.10 Disposition de la métadocumentation des données en Excel
Rappelons qu’en Excel, il y a une possibilité de définir un champ nommé tel que vu au
chapitre 2.2.2, et qui ne contiendra que les données sélectionnées ainsi que la ligne
d’en-tête. Ce champ nommé peut être importé en GenStat. Une vue partielle d’une
feuille GenStat issue du champ nommé Excel est montrée dans la figure 6.11.
figure 6.11 Vue partielle d’une feuille Excel importée
Voici quelques symboles qui facilitent l’importation du champ nommé d’Excel en
GenStat :
Un point d’exclamation (!) qui suit directement l’en-tête de colonne en
Excel (par exemple “Sorbic!”) convertit automatiquement les données de la
colonne Excel en question en une structure de données sous forme de
facteur en GenStat. On obtient une feuille GenStat dont le nom de colonne
est écrit en italique et précédé d’un point d’exclamation.
70
Un symbole de dollar ($) qui suit l’en-tête de colonne convertit
automatiquement la colonne en texte. La feuille de GenStat qui en résulte
aura le nom de colonne précédé par la lettre T en couleur verte.
Un double point (:) suivi d’un nombre quelconque après l’en-tête de
colonne transforme automatiquement la variable de manière à avoir le
nombre équivalent de décimaux.
Ainsi l’importation de la colonne ‘Density : 2’ d’Excel en GenStat donnera
la variable comportant 2 décimaux.
Un en-tête des colonnes (appelées identifiers en GenStat) peuvent avoir
32 caractères maximum (chiffres ou lettres) et la lettre initiale jouit d’un
caractère déterminant. Les espaces sont convertis en symbole de
soulignement. Toutefois on évitera d’utiliser des noms assez longs ou des
caractères spéciaux comme (@, #, /, …) dans la mesure où ils sont
susceptibles de causer quelques problèmes au moment d’importation des
données vers d’autres logiciels.
Par ailleurs une description de colonne peut être ajoutée dans la ligne qui
précède le nom de cette colonne.
Pour le cas des valeurs manquantes, elles sont présentées par le symbole
‘astérisque (*). Les cellules vides des données en Excel sont
automatiquement converties en astérisque au moment de leur importation
en GenStat.
Il faut noter que les cellules vides et les astérisques peuvent créer une
certaine confusion lors de l’exportation des données vers d’autres
applications ou logiciels. C’est pour cette raison qu’il est important de bien
différencier les cellules vides de celles qui ont une valeur égale à 0.
71
6.2
L’analyse exploratoire
Avant de procéder à l’analyse de la variance proprement dite, il est
important d’examiner les données de façon critique, en vue de dépister les
erreurs éventuelles qui se seraient glissées et de voir si l’on peut découvrir
les ‘patrons’ au sein de l’ensemble des données. C’est justement cela que
nous allons tenter de faire pour les trois feuilles que nous venons de créer.
6.2.1
Rendement du melon
Nous avons déjà vu dans chapter 2.3.1 le moyen d’obtenir les statistiques sommaires,
sachant qu’il en existe d’autres. Nous devons d’abord effacer les données de la
mémoire de GenStat (Run => Restart Session), puis ouvrir le fichier “Melon yields.gsh”
et sélectionner le menu Stats => Summary Statistics => Summaries of Groups
(Tabulation) et compléter enfin la boîte de dialogue qui en résulte suivant l’illustration
de la figure 6.12.
figure 6.12 La boîte de dialogue de l’option
‘tabulation’
figure 6.13 Tableau obtenu dans l’Output
Les résultats obtenus apparaissent déjà dans la fenêtre des résultats (voir figure 6.13).
Généralement les statistiques sommaires obtenues sont nécessaires dans certains
rapports de recherche. Pour pouvoir les extraire de GenStat, il y a intérêt à suivre les
démarches ci-après.
Sélectionnez le tableau des résultats obtenu à l’Output, puis choisissez le menu Edit
=> Copy Special => RTF Table. Deux boîtes de dialogue s’affichent. La première se
rapporte aux normes de subdivision des colonnes (figure 6.14) et la deuxième permet
de faire les modifications appropriées en vue d’avoir la forme voulue du tableau final en
Word (figure 6.15). Appliquez les modifications nécessaires des options en vue
d’obtenir le style du tableau qui convient à votre rapport et cliquez [OK] pour valider.
72
figure 6.14 Subdivision des colonnes suivant
l’option d’un ou plusieurs espaces
figure 6.15 Boîte de dialogue pour la création
d’un tableau RTF
Ci-après le tableau que nous obtenons en appliquant en Word la commande du menu
Edit => Paste Cells.
Variety
A
B
C
D
Mean
Minimum
Maximum
Median
20.49
37.40
19.49
29.90
15.92
31.98
11.42
27.58
26.42
43.32
25.90
33.20
19.70
36.81
20.45
29.44
Nous pouvons maintenant effectuer les modifications courantes des tableaux en Word.
Le tableau ci-dessous est à peu près le même que le précédent où certaines colonnes
ont été effacées, quelques modifications apportées dans la forme ainsi que les
informations complémentaires ajoutées.
Melon variety
A
B
C
D
Average yield
(kg)
20.49
37.40
19.49
29.90
Données tirées du livre de Mead,
Curnow and Hasted, 2003. p. 58
Une autre alternative aurait consisté à enregistrer les statistiques élémentaires dans un
tableau GenStat. Cela se fait en cliquant dans l’option [Save] de la boîte de dialogue
de ‘Summary by Groups’. Sachant que les résultats obtenus sont des moyennes, il va
falloir dénommer notre fichier ‘Average yield’. Dans la boîte de dialogue, nous devons
indiquer que le tableau final sera présenté sur la feuille (figure 6.16). En validant par
[OK], le nouveau tableau des statistiques sommaires souhaitées apparaît (figure 6.17)
et les transformations nécessaires peuvent être opérées en vue d’avoir une colonne
comportant deux décimaux (voir chapitre 2.3.2).
73
figure 6.16 Enregistrer le tableau
figure 6.17 Le tableau GenStat
résultant
En sélectionnant ce tableau de moyennes, nous pouvons de nouveau appliquer le
menu Edit => Copy Special => RTF Table. Nous obtenons la même boîte de dialogue
comme celle présentée à la figure 6.15 qui nous permet de changer la forme du
tableau final en Word. Il ne restera plus qu’à coller le tableau en Word et à apporter les
modifications utiles.
De ce tableau, nous voyons clairement que le rendement moyen de la variété B est
supérieur par rapport aux autres. Les variétés A et C ont les rendements inférieurs et
ne sont probablement pas très différents l’un à l’autre. Ici nous ne saurons pas
apprécier si ces différences entre les variétés sont dues au petit nombre d’observations
ou si les moyennes obtenues reflètent une image claire de la situation présentée. C’est
pour cela que dans de tels cas, la réponse est donnée par la construction des
diagrammes en boîtes ‘boxplots’ comme ceux illustrés à la figure 6.18 et dont on peut
se référer à la section 3.1.1.
figure 6.18 Diagramme en boîtes du rendement des variétés
de melon
L’analyse exploratoire nous donne déjà une idée sur les variétés de melon ayant un
rendement supérieur et celles dont les rendements sont relativement similaires. Mais
74
les différences réelles seront dégagées plus loin durant les analyses statistiques
formelles.
6.2.2
Poules pondeuses et modes d’éclairage.
En suivant toutes les étapes telles qu’elles viennent d’être décrites dans la section
précédente concernant le fichier “Egg production.gsh”, on devrait naturellement aux
résultats repris dans la figure 6.19 et figure 6.20.
figure 6.19 Tableau GenStat
comportant la production moyenne
des œufs par traitement
figure 6.20 Diagramme en boîte obtenu
La moyenne totale ou “Margin” est obtenue en sélectionnant Set Margin dans la boîte
de dialogue de ‘Summary by Groups’ comme le montre la figure 6.21.
figure 6.21 Boîte de dialogue de l’option ‘Set Margin’
6.2.3
La survie de Salmonella typhimurium.
Ouvrons le fichier “Salmonella typhirum survival.xls” et essayons d’effecteur quelques
analyses exploratoires. Dans certains cas, le type de graphique appelé ‘scatter plot’ ou
‘point plot’ est mieux apprécié pour la présentation des conclusions. En fait dans cet
exemple, nous nous posons la question de savoir si la densité de Salmonella varie en
75
fonction de l’augmentation de le l’acidité de l’eau pour les différents niveaux de l’acide
sorbique.
Choisissons le menu Graphics ⇒ Point plot et complétons le dialogue selon la figure
6.22.
figure 6.22 Boîte de dialogue du
graphique ‘scatter plot’
figure 6.23 Le type du graphique obtenu
La figure 6.23 ci-dessus montre un patron d’une augmentation de la densité de
Salmonella en fonction de l’activité de l’eau. Néanmoins, cette version de GenStat
Discovery ne dispose pas de type de graphique qui puisse nous permettre de constater
les différents niveaux d’acide sorbique. A la limite, nous pouvons remarquer qu’ils sont
de différentes couleurs mais cela ne nous explique pas grand chose au sujet de la
légende. Signalons que la nouvelle version dispose des possibilités de modifier
légendes, titres et axes d’un graphique déjà construit.
Ceci dit, nous allons devoir contourner ce problème en passant par les moyennes des
groupes. Pour ce faire, choisissons le menu Stats => Summary Statistics =>
Summaries of Groups (Tabulation) et calculons les moyennes de ‘Density’ en
fonction de ‘Water activity’ et de ‘Sorbic acid level’ (figure 6.24). Du tableau qui en
résulte, il est intéressant de remarquer que les niveaux du facteur placé en bas dans la
zone ‘Groups’ du dialogue dans cette figure 6.24 se rangent sous forme de colonnes,
pendant que les autres apparaissent comme des lignes (et vice versa). Cliquez dans
[Save] pour enregistrer les moyennes dans un tableau (figure 6.25).
76
figure 6.24 La définition des options dans la
boîte de dialogue pour la création d’un
tableau
figure 6.25 Options du tableau dialogue pour
la création d’un tableau final
La feuille qu’on vient d’obtenir est sous forme de tableau (figure 6.26). En effet, il s’agit
d’une autre structure de données en GenStat qui n’est pas la forme de feuille à laquelle
nous étions habitués. Il ne nous est pas possible de faire un graphique à partir des
données qui se trouvent dans une structure de tableau. Par conséquent, il nous faudra,
au préalable, les convertir dans une structure de feuille normale qui est du type
“Vector”. Dans ce cas, nous allons cliquer dans le tableau et choisir le menu Spread
=> Manipulate => Convert, tout en indiquant le type de feuille “Vector” et valider les
entrées par [OK] (voir figure 6.27). Enfin, il nous faudra fixer à 2, le nombre de
décimaux applicables à toutes les colonnes.
figure 6.26 Tableau GenStat
figure 6.27 Conversion du tableau en type de
feuille ‘Vector’
En vérifiant les données disponibles dans la mémoire de GenStat telles que
présentées à la figure 6.28 (se référer au chapitre 2.4.1), nous y trouvons trois
nouvelles variables et un nouveau facteur ayant chacun 6 valeurs. En fait, GenStat a
converti les en-têtes des colonnes du tableau en variables et facteur si bien qu’à un
certain moment, il a dû même changer leurs noms (Water_1, %0_ppm, %100_ppm,
%200_ppm). Nous n’allons pas entrer en détail au sujet de ce changement de noms. A
présent nous pouvons utiliser cette nouvelle feuille pour la création du graphique ‘point
plot’. Comme dans un tel graphique, les valeurs de l’axe des ordonnées Y sont
77
réparties sur les trois variables, nous adopterons le type de graphique ‘scatter point’
ayant Y multiple.
figure 6.28 Vérification des structures des
données disponibles
figure 6.29 Création d’une graphique ‘multiple
Y scatter plot’
Le graphique du type ‘scatter plot’ ainsi obtenu pour les moyennes de groupes nous
donne cette fois-ci une image claire sur la tendance de l’ensemble des données, et il
nous permet de distinguer les différents niveaux d’acide sorbique dans la légende du
graphique obtenu précédemment.
figure 6.30 Graphique ‘scatter plot’ obtenu comportant la
légende bien définie
Maintenant il y a lieu de conclure que la densité Salmonella augmente en fonction de
l’accroissement de l’activité de l’eau et que la densité diminue avec l’augmentation de
l’acide sorbique. Mais la question qui reste est de savoir si ces différences sont
significatives. La réponse sera trouvée par l’analyse statistique formelle.
78
6.3
Exemple pratique.
En nous servant des exemples trouvés dans des livres, il ne nous est pas
facile de démontrer l’importance de l’exploration des données. Ainsi avonsnous choisi un exemple réel pour pouvoir illustrer d’avantage les méthodes
d’exploration. Il s’agit d’un essai mené en milieu réel au Kenya chez 16
fermiers dans un district et chez 12 dans l’autre. Chaque fermier possède
trois parcelles parmi lesquelles deux ont reçu l’application de la biomasse
et la troisième ayant servi comme parcelle-témoin. Dans les données de ce
fichier dont une vue partielle est montrée ci-dessous, la variable principale
qui nous intéresse est le rendement en grains de maïs (grain yield). Cela
étant, l’objectif principal de l’essai était de voir si l’on pouvait trouver dans
les champs des fermiers, de bons résultats obtenus en station avec les
biomasses de Tithonia diversifolia et de Lantana camara.
A partir du fichier Excel “Onfarm tithonia and lantana mulches.xls”, importez le champ
nommé “data”. Il faut noter qu’une des questions ayant conduit à faire cette étude était
de savoir si tous les fermiers du district West tiraient profit de l’utilisation des
biomasses.
Pendant l’exploration des données, la commande ‘Restrict’ du menu Spread sera le
plus souvent utilisé. Choisissez la commande Spread => Restrict/Filter qui vous
présente plusieurs possibilités. Pour notre cas, en effet, nous avons besoin des
fermiers du district West uniquement et West étant un des deux niveaux du facteur
‘location’. Ainsi, nous allons restreindre les données de façon à n’inclure que le niveau
‘West’ du facteur ‘location’ comme illustré dans la figure 6.32.
figure 6.31 Menu de restriction à un niveau
quelconque de facteur
figure 6.32 Définition d’un seul niveau (ici
West)
De cette restriction, il en résulte que toutes les données de district ‘Central’ ne sont pas
utilisées dans les calculs, même si en réalité elles sont toujours là. La barre d’état, telle
qu’elle apparaît à la figure 6.33, montre en l’occurrence que seules 36 des 84 lignes
sont incluses, et donc actives pour le moment.
79
figure 6.33 La barre d’étant montrant le nombre
des lignes non restreintes
Si l’on clique sur le bouton de restriction ‘restrict switch’ en forme de croix (+) se
trouvant juste au-dessus de la barre de défilement de la feuille (voir figure 6.34), on
verra les lignes exclues par la restriction apparaître en rouge comme à la figure 6.35.
figure 6.34 Bouton de
restriction
figure 6.35 Lignes restreintes présentées en rouge
Pour voir si les fermiers du district West ayant appliqué la biomasse ont obtenu un
rendement supérieur de maïs, il va falloir construire un graphique de type ‘line plot’. En
effet, en choisissant le menu Graphics => Line plot nous allons compléter les
différentes options de manière à obtenir un graphique du rendement de maïs ‘maize
yield’ (variable ‘grain’) en fonction des fermiers ‘farmer’ groupés par type de biomasse
(variable ‘treat’).
figure 6.36 Création du graphique type ‘Line
plot’
figure 6.37 Le graphique ‘Line plot’ obtenu
Même si ce graphique obtenu à la figure 6.37 nous aide d’une certaine manière,
néanmoins il n’est pas encore satisfaisant. D’abord vu que nous sommes en train de
travailler avec l’ancienne version de Graphiques GenStat, la légende montre ici trois
fois ‘grain versus farmer’ mais dans des couleurs différentes. Jusqu’ici, nous ne
parvenons pas à distinguer le type de biomasse qui donne le meilleur rendement. Le
second problème est que les données en axe des X sont organisées selon le nombre
80
croissant des fermiers. Il aurait été intéressant si elles étaient plutôt organisées
suivant l’accroissement du rendement moyen en grains ‘average grain yield’.
Pour le premier problème, la solution serait soit d’utiliser la version récente de GenStat
ou alors de faire toutes sortes de détours en GenStat Discovery et en MS Word. En
observant le graphique de la figure 6.37, il apparaît évident que le plus grand
rendement du fermier 12 a été obtenu par le traitement symbolisé par la ligne verte,
suivi par celui qui est représenté par la ligne rouge et enfin le rendement le plus faible
a été exprimé par la ligne noire.
Pour parvenir à reconnaître les types de biomasse que représentent les différentes
couleurs, nous allons faire une autre restriction à partir des données restreintes, mais
cette fois en travaillant avec l’option ‘To Groups (factor levels)‘ appliquée au ‘farmer’
du niveau 12. Il faudrait s’assurer que l’on travaille avec les données qui ont été
restreintes précédemment.
figure 6.38 La feuille obtenue après la seconde restriction
La feuille obtenue présentée à la figure 6.38 montre clairement que le meilleur
rendement de maïs a été fourni par la biomasse de Tithonia, et le plus faible par la
parcelle témoin. La ligne verte symbolise donc la biomasse de Tithonia, la rouge celle
de Lantana et la ligne noire représente la parcelle sans biomasse (témoin).
Pour que le graphique puisse être mis dans un rapport quelconque, il sera nécessaire
de l’enregistrer comme fichier Bitmap. En effet, dans le menu du GenStat 4.1 Graphics,
nous allons choisir File => Save as, en indiquant que le fichier sera sauvegardé dans
le format bitmap et par conséquent, lui attribuer un nom comme ‘mulch.bmp’.
Dirigeons-nous maintenant vers MS Word, où nous allons sélectionner le menu Insert
=> Picture => From File pour pouvoir insérer le fichier ‘mulch.bmp’. Puis, il va falloir
activer la barre d’outils de dessins (si elle ne l’est pas) en sélectionnant le menu (View
=> Toolbars => Drawing) et cliquer sur le bouton ‘text box’ (figure 6.39). Dans la boîte
ainsi créée, tapons le texte ‘Control’ qui, à l’aide de la souris, sera déplacé jusqu’à
pouvoir couvrir le texte écrit devant la ligne noire dans la légende (figure 6.40).
figure 6.39 Création d’une
boîte de texte en Word
figure 6.40 Modification de la légende des couleurs en
utilisant ‘text box’
81
Il sera évidemment nécessaire de faire la mise en forme de ce texte. En y cliquant
droite, choisissons Format Text Box. Ceci nous permettra probablement de :
Pouvoir modifier couleurs et lignes à travers l’option Colors and Lines:
La couleur blanche de remplissage (‘fill colour’) sera choisie et la
bordure sera sans lignes notamment.
- Sélectionner la disposition du ‘text box’. Ainsi par exemple, on devra
s’assurer que l’on a sélectionné la disposition “In front of text” obtenu
en exploitant l’option Wrapping style qui se trouve sous le menu
‘Layout’.
- Fixer les marges internes. Elles sont fixées, si elles ne le sont pas par
défaut, à 0 ou 0.05 cm en passant par l’option Internal margins que
l’on trouve sous le menu Text box.
- On devra s’assurer enfin que la taille de police du texte n’est pas trop
grande. Times New Roman avec 9 points de taille seraient par exemple
indiqués.
En suivant ces quelques étapes, vous pouvez faire de même pour ‘Tithonia’ et
‘Lantana’ desquels vous aurez à modifier les couleurs du texte en fonction des
couleurs des lignes correspondantes. A l’issue de cette opération, vous devriez avoir le
graphique dont la forme est présentée à la figure 6.41.
-
figure 6.41 Graphique ‘Line plot’ avec légende bien définie
Notons que les opérations effectuées en Word pouvaient l’être directement en GenStat
en utilisant le langage de commandes. En examinant la fenêtre Input, après la création
de graphique de la figure 6.37, nous constatons que pour cette action, GenStat a dû
utiliser tout un tas de commandes pour les paramètres et options variés comme
présenté ci-dessous :
82
XAXIS [RESET=yes] WINDOW=1; TITLE='farmer'; TPOSITION=middle;\
TDIRECTION=parallel;LPOSITION=outside; LDIRECTION=parallel;\
MPOSITION=outside; ARROWHEAD=omit; ACTION=display
YAXIS [RESET=yes] WINDOW=1; TITLE='grain';\
TPOSITION=middle;TDIRECTION=parallel; LPOSITION=outside;\
LDIRECTION=perpendicular; MPOSITION=outside; ARROWHEAD=omit;\
ACTION=display
CALC _nlevs=NLEVELS( treat)
PEN [RESET=yes] 1..._nlevs; METHOD=line; JOIN=ascending;\
SYMBOL=0; LINESTYLE=1
DGRAPH [WINDOW=1; TITLE='Maize yield in West District'] Y=grain;\
X=farmer; PEN=NEWLEVELS( treat;!(1..._nlevs))
PEN [RESET=yes] 1..._nlevs
Une autre alternative de créer un graphique comportant les légendes qui ne prêteraient
pas la confusion consisterait à simplement modifier quelques paramètres et options
dans l’Input et de relancer les commandes. Cependant cette option demande assez de
manipulations des commandes dans l’Input, si bien qu’elle n’aboutit pas à la réponse
directement. Pour son utilisation, il serait avantageux de vérifier dans ‘GenStat
Help’ l’emploi des commandes XAXIS, YAXIS, PEN et DGRAPH.
En observant le graphique de la figure 6.41, nous constatons que les données sur l’axe
des abscisses sont ordonnées suivant le numéro des fermiers. Il aurait été utile de les
ordonner en tenant compte de l’augmentation du rendement moyen du maïs ‘average
maize yield’. Nous allons tenter d’y arriver, en considérant la colonne ‘grain’ comme
une entité entière ou ‘stack’ de données du rendement de maïs. Cette entité est
obtenue quand il n’y a pas application de biomasse, quand la biomasse de Lantana est
appliquée et quand c’est celle de Tithonia qui est utilisée.
A l’aide de la commande du menu Spread => Manipulate => Unstack (voir figure
6.42), nous allons subdiviser cette entité complète de données en trois petites entités.
Autrement dit pour notre cas, elle sera subdivisée en une entité par type de biomasse
appliquée. A travers ce menu, dissocions ainsi l’entité maïs (mettre grain dans la boîte
de Unstack Columns) en suivant le traitement appliqué (treat sera mis dans la boîte
de Unstacking Factor box) et en même temps nous devons conserver dans la
nouvelle feuille de calcul, quelques autres facteurs comme ‘location’ et ‘farmer’ pour
qu’ils puissent nous permettre d’identifier les valeurs des données (mettre ces facteurs
dans la boîte de ID Factors). Les résultats obtenus sont tels que présentés dans la
figure 6.43.
figure 6.42 Boîte de dialogue de l’option
‘Unstack Column’
figure 6.43 La feuille obtenue après avoir
appliqué l’option ‘Unstack’
83
Du tableau précédent, nous pouvons dénommer les colonnes grain_1, grain_2 et
grain_3 suivant les traitements correspondants (se référer au besoin, au chapitre
2.2.1.1) et calculer ainsi le rendement moyen en grains dans une nouvelle colonne
(voir le chapitre 2.3.2). Maintenant nous allons devoir marquer dans le tableau les
valeurs minimum et maximum de chaque variable (figure 6.44) en appliquant le menu
Search => Bookmark => By value. En cliquant droite dans la colonne ‘Average’, il
s’affichera un menu qui permet de classer les moyennes en ordre croissant (figure
6.45).
figure 6.44 Marquage des valeurs extrêmes
figure 6.45 Arrangement des moyennes selon
un ordre préférentiel
Au cas où toutes les étapes décrites ci–haut auraient été bien suivies, on devrait
naturellement aboutir à une feuille de calcul comme celle présentée à la figure 6.46.
figure 6.46 La feuille obtenue par l’arrangement des
moyennes selon l’ordre croissant
De même, en suivant les étapes précédentes (tout en se référant au sur quant au
choix du type de graphique), nous devrions obtenir un graphique semblable à celui de
la figure 6.47.
84
figure 6.47 Graphique final obtenu
Maintenant revenons à l’exploitation des données précédentes en nous servant soit du
tableau ou du graphique ci-dessus, et essayons de répondre aux questions suivantes:
Parmi les 12 fermiers, combien ont-ils obtenu un rendement supérieur
provenant de la biomasse de Tithonia comparé au témoin ?
- Et combien sont-ils pour la biomasse de Lantana toujours en
comparaison avec la parcelle témoin ?
En revenant sur la feuille de calcul originale, nous allons appliquer de nouveau le
menu Spread ⇒ Restrict/Filter ⇒ Using Factor levels, puis sélectionner uniquement
le district Central et enfin cliquer sur [Replace with New], autrement, il ne restera
aucune donnée ! Ensuite, le menu Graphics ⇒ Line Plot avec cette fois la
spécification des données du district ‘Central’ donnera un graphique correspondant.
Essayez à présent de répondre aux même questions que précédemment pour le cas
du district ‘Central’ cette fois. En considérant les deux graphiques, pensez-vous que
les fermiers des deux districts bénéficient équitablement de l’utilisation des
biomasses ?
-
Retenons que si l’on désire retourner aux données entières, le menu à
appliquer sera Spread ⇒ Restrict/Filter ⇒ Remove All. Ensuite, tous les
calculs à faire dans le menu Stats seront uniquement effectués sur les
données restreintes ‘restricted data set’. L’option Bookmarks est appliquée
enfin, sur les données entières.
85
86
7 Défi nº 2
Dans le graphique présenté à la figure 6.47 page 85, les données se trouvent le long
de l’axe des X sont ordonnées en fonction de l’augmentation du rendement moyen de
maïs. Nous estimons que vous êtes maintenant familier à l’utilisation des options
‘stack’ et ‘unstack’ des données en GenStat. Il existe cependant une autre possibilité
de produire le graphique de la figure 6.47. C’est laquelle ?
(Comme conseil, appliquez d’abord l’option ‘tabulation’, puis celle de ‘set margin’.)
88
8 Analyse de la variance.
8.1
Deux cas simples d’Anova
Commençons une nouvelle session de GenStat et ouvrons le fichier “Melon yield.gsh”
vu au chapitre 6.1.1.1. Le dispositif de cette expérimentation est en blocs aléatoires
randomisés. A titre de rappel, nous avions suspecté, durant l’analyse exploratoire au
chapitre 6.2.1, qu’il pouvait y avoir des différences de rendement entre les différentes
variétés de melon. Ce résultat va être confirmé maintenant par une analyse statistique
formelle. Pour produire une analyse de la variance, nous allons nous servir de la
commande Stats ⇒ Analysis of Variance. Puis, dans le menu de l’Anova qui
s’affichera, le type de dispositif Completely Randomized Design ou One-Way
ANOVA (no Blocking) sera choisi tout en complétant de manière appropriée les
options relatives à la variété et au traitement (voir figure 8.1). Toutes ces entrées
seront validées en cliquant sur [OK].
figure 8.1 Boîte de dialogue du calcul d’Anova
Ci-après les résultats d’ANOVA tels que présentés dans la fenêtre des résultats.
***** Analysis of variance *****
Variate: Yield
Source of variation
Variety
Residual
Total
d.f.
3
20
23
s.s.
1291.48
367.65
1659.13
m.s.
430.49
18.38
v.r.
23.42
F pr.
<.001
De ces résultats, nous pouvons conclure qu’il existe des différences significatives pour
les rendements produits par les différentes variétés de melon.
D’autre part, si on préfère utiliser le langage des commandes tel que vu au chapitre
2.4.2, voici présentés dans la fenêtre des entrées (Input window), celles qui viennent
d’être utilisées.
"Completely Randomized Design."
BLOCK "No Blocking"
TREATMENTS Variety
COVARIATE "No Covariate"
ANOVA [PRINT=aovtable,information,means; FACT=32; FPROB=yes;
PSE=diff] Yield
Nous allons reprendre la session et ouvrir le fichier “Egg production.gsh” vu au chapitre
6.1.1.2 (page 68). Cette fois nous avons non seulement un facteur décrivant les
traitements mais aussi un autre facteur – Block – qui indique la disposition ou le
dispositif de l’essai.
L’analyse d’un tel essai s’apprête au schéma normal du menu Stats ⇒ Analysis of
Variance, tout en indiquant One-way ANOVA (in Randomised Blocks) dans la liste
des dispositifs contenus dans l’option Design comme le montre la figure 8.2.
La différence de cette boîte de dialogue obtenue comparée à celle qu’on a eu
précédemment avec ‘One-way ANOVA’ réside en ce que cette fois, il existe une option
supplémentaire [Blocks] devant servir de facteur ‘Bloc’. Ceci permettra finalement que
les données relatives au dispositif de l’essai soient intégrées en GenStat.
figure 8.2 Boîte de dialogue d’Anova pour les blocs
randomisés (cas d’un seul critère de classification)
Ci-après les résultats obtenus à l’Output. Ils nous permettent de conclure qu’il existe
des différences dans la production des œufs entre les différents traitements
Variate: Eggs
Source of variation
d.f.
s.s.
m.s.
v.r.
Block stratum
3
2330.3
776.8
2.01
Block.*Units* stratum
Treatment
Residual
2
6
4212.5
2321.5
2106.3
386.9
5.44
11
8864.2
Total
90
F pr.
0.045
8 - Analyse de la variance.
8.2 Utilisation optimale de l’Output
La conclusion selon laquelle il existe des différences significatives entre les différents
traitements est plutôt une évidence. Pour essayer d’aller en profondeur, considérons
d’autres informations contenues dans la fenêtre des résultats.
En menant cet essai, nous nous attendions à ce que les différents traitements
augmentent la production des œufs. Et cette augmentation peut être calculée à partir
des tables des moyennes. Ainsi le traitement F (éclats de lumière) augmente à 36.3 le
nombre des œufs de 6 poules (342.8 – 306.5) en trois mois soit 36.3/6 = 6.05 œufs par
poule. De même, le prolongement de l’éclairage du jour accroît la production à 42.5
œufs (349 – 306.5) soit 7.1 œufs par poule.
***** Tables of means *****
Variate: Eggs
Grand mean 332.8
Treatment
O
306.5
E
349.0
F
342.8
Un peu plus loin dans la fenêtre des résultats, nous pouvons trouver également les
valeurs de l’erreur standard des différences des moyennes.
*** Standard errors of differences of means ***
Table
Treatment
rep.
4
d.f.
6
s.e.d.
13.91
Nous savons que le produit de l’erreur standard avec la valeur t basée ici sur 6 degrés
de liberté (les degrés de liberté résiduels de l’ANOVA – montré avec les erreurs
standard) est appelée LSD (ou PPDS - la plus petite différence significative). En
GenStat, cette valeur sera obtenue dès qu’on l’aura spécifiée à la case correspondante
de la fenêtre des options d’ANOVA (voir figure 8.3). Cette fenêtre s’ouvre en cliquant
sur [Options…] dans la menu général d’Analyse de la variance.
figure 8.3 Définition des options en vue des
résultats à obtenir à l’Output
91
*** Least significant differences of means (5% level) ***
Table
rep.
d.f.
l.s.d.
Treatment
4
6
34.03
Ceci dit, nous sommes relativement sûrs que chacun de ces deux traitements pourra
augmenter la production des œufs. Mais maintenant toute la question sera de savoir
lequel des deux serait meilleur. La différence de 6.2 œufs par enclos de 6 poules
(environ 1 œuf par poule) est insignifiante par rapport à 34.03. Une différence
éventuelle entre l’éclairage naturel (E) et l’application de deux éclats de lumière de 20
secondes chacun durant la nuit (F) est trop petite pour être détecté.
Pour la comparaison des traitements, nous venons de nous servir des résultats
d’analyse standards présentés dans la fenêtre des résultats. Il est vrai que cet exemple
comporte un petit nombre de traitements et que les comparaisons étaient faites en vue
de répondre à une question de recherche suivante : La lumière supplémentaire
améliore-t-elle la production des œufs et, si oui, quelle serait la meilleure méthode à
appliquer ? Nous avons répondu à ces questions en fixant toutefois quelques mesures
de précision.
Une approche pour assurer que l’analyse corresponds avec des objectifs de recherche
bien précisés est de se servir de l’option des Contrastes dont nous illustrons l’utilisation
par le même exemple.
figure 8.4 L’option de ‘Constrasts’ dans le
dialogue de l’Anova
figure 8.5 Définition des contrastes dans
l’Anova le dialogue de l’Anova
Retournons sur la fenêtre de dialogue d’Anova (figure 8.4) et cliquons dans le bouton
[Contrasts]. Une fenêtre de dialogue s’ouvre et certaines informations peuvent y être
complétées. Dans cette fenêtre, Contrast Factor sera Treatment sachant que nous
avons besoin de comparer certains traitements, et nous indiquerons aussi que le type
de contraste souhaité est Comparisons (figure 8.5). En fait, il s’agit de faire ici deux
types de comparaison à savoir les traitements relatifs aux différents modes d’éclairage
contre le témoin d’une part, et le prolongement de l’éclairage naturel contre
l’application des éclats de lumière, d’autre part. Ainsi, le nombre des contrastes est
égal à 2. En cliquant [OK], on obtient une matrice présentée à la figure 8.6 et dont le
nom par défaut est ‘Cont’ mais qu ‘on aurait dû changer dans la fenêtre de dialogue
des contrastes. En outre, cette matrice comporte deux lignes puisque nous avons
spécifié que nous souhaitons établir deux comparaisons. Elle est constituée de trois
colonnes étant donné que le traitement est structuré en trois niveaux.
92
figure 8.6 Changement de nom des
contrastes
figure 8.7 Remplissage de la matrice par des
combinaisons linaires
Par défaut, les lignes sont appelées “Contrast 1” et “Contrast 2” mais on peut les
changer simplement en cliquant dans la cellule. Rappelons que les deux comparaisons
qui nous intéressent sont : “O vs E and F” et “E vs F” ; voir figure 8.7.
Pour chaque niveau de facteur à comparer, il faut définir un coefficient. Ainsi, en
mettant E et F en comparaison, on fait par-là une soustraction d’un effet chez l’autre.
Et en faisant la comparaison du témoin (O) avec les deux autres, on soustrait l’effet de
O de la moyenne des effets des deux traitements. GenStat se sert de ces coefficients
pour fractionner les sommes des carrés des traitements.
Techniquement, il faudra remplir la matrice de telle sorte que la somme des
coefficients par chaque comparaison soit égale à 0. Pour les deux comparaisons de
l’exemple, nous avons : (-1) + 0.5 + 0.5 = 0 et –1 + 1 = 0. De même, la somme par
paire des produits des coefficients étant égale à 0, nous aurons: (-1)*0+0.5*(-1)+0.5*1
=0. Telle est la définition des contrastes orthogonaux dont l’interprétation peut être faite
séparément car les erreurs utilisées durant l’estimation de chaque paire étaient
indépendantes les unes des autres. L’interprétation des contrastes non-orthogonaux
requiert beaucoup plus de précaution.
figure 8.8 Incorporation des contrastes dans la structure du
traitement
Une fois que la matrice est bien complétée, on peut déjà observer dans la fenêtre de
dialogue de l’Anova, un changement au niveau de la structure des traitements. En
cliquant [OK], les sommes des carrés des traitements sont directement fractionnées
comme on peut le voir dans la table d’Anova à l’Output. On peut déjà constater que
l’effet du traitement explique à près de la moitié (4212.5) la variation totale (8864.2). En
fait presque tous les effets dus au facteur traitement sont expliqués par la différence
entre le témoin et les deux types d’éclairage (4134.4 sur le total de 4212.5), alors que
la différence entre le prolongement de l’éclairage et l’application des éclats de lumière
n’explique presque rien l’effet de la variation (78.1 sur 4212.5). Ainsi la différence
significative entre les traitements au seuil de 5% est due à la différence entre les
traitements O et E d’une part et O et F d’autre part (p=0.017). Il n y a donc aucune
93
différence entre les traitements E et F, et il existe au moins 66.9% de chances pour
qu’ils ne soient pas différents.
Variate: Eggs
Source of variation
d.f.
s.s.
m.s.
v.r.
Block stratum
3
2330.3
776.8
2.01
Treatment
O vs E and F
E vs F
Residual
2
1
1
6
4212.5
4134.4
78.1
2321.5
2106.3
4134.4
78.1
386.9
5.44
10.69
0.20
11
8864.2
Total
F pr.
0.045
0.017
0.669
Quoi des comparaisons multiples ?
Dans beaucoup d’autres logiciels statistiques c’est possible d’utiliser des
tests de comparaison multiples pour comparer les traitements, au lieu de la
méthode des contrastes que nous venons de voir. Ce sont des tests
comme le test de Newman-Keuls, Tukey, Duncan, …
Nous sommes heureux d’annoncer que les tests de comparaisons
multiples ne sont pas inclus dans les menus de l’Édition Discovery de
GenStat. Les producteurs de GenStat ne sont pas convaincus que ces
tests contribuent aux analyses statistiques appropriées des données
d’expériences. Ils ont introduit ces tests dans la dernière version de
GenStat pour être capable de démontrer qu’ils ne contribuent rien !
Donc, vous devez acheter la dernière version de GenStat si vous voulez
effectuer ces tests. Aussi dans les guides de SSC Reading c’est expliqué
pourquoi nous trouvons que ces tests sont inutiles.
94
8.3
Définition de la structure du traitement
Jusqu’ici nous avons effectué des analyses portant sur deux types de dispositifs en
GenStat : Un dispositif complètement randomisé appelé ‘a one-way ANOVA’ sans
blocs et l’autre ‘a one-way ANOVA’ dans les blocs randomisés. On trouve toute la liste
des autres dispositifs qui peuvent être analysés en cliquant dans la petite flèche de la
boîte des dispositifs.
Dispositifs disponibles dans le menu d’Anova :
ANOVA à un critère de classification (sans blocs) (One-way ANOVA (no
Blocking))
ANOVA à un critère de classification (en blocs randomisés) (One-way
ANOVA (in Randomized Blocks))
ANOVA à deux critères de classification (sans blocs) (Two-way ANOVA (no
Blocking))
ANOVA à deux critères de classification (en blocs randomisés) (Two-way
ANOVA (in Randomized Blocks))
Le dispositif complètement randomisé (Completely Randomized Design)
Le dispositif en split plot (Split-Plot Design)
Le dispositif en split split plot (Split-split Plot Design)
Le carré latin (Latin square)
Le carré gréco-latin (Graeco-latin square)
Le dispositif en treillis (Lattice Design)
A part ces différents dispositifs spécifiques, on peut aussi choisir General Analysis of
Variance dont l’utilisation aussi fréquente que possible est plutôt recommandée. Une
fois vous comprenez quelques notions de base, vous serez capable de spécifier une
analyse correcte pour des dispositifs expérimentaux plus compliqués.
La flexibilité de cette option générale est due au fait qu’elle permet
d’intégrer la structure du traitement en utilisant la formule comprenant les
opérateurs ci-après:
+ addition
ex. A+B+C est l’effet principal de A, B, et C
. interaction
ex. A.B est l’interaction de A et B
* produit croisé
A*B est équivalent à A+B+A.B
/ hiérarchisation
A/B est équivalent à A+A.B
Nous allons utiliser ces opérateurs dans les structures factorielles d’abord et
hiérarchiques ensuite du traitement.
8.3.1
Structure factorielle du traitement
Les expérimentations ayant une structure factorielle sont étudiées lorsque les effets de
plusieurs traitements ainsi que leurs interactions (ou effets croisés) sont examinées
simultanément. La structure factorielle du traitement a pour avantage :
95
s’il n’y a pas d’interactions, il y a des avantages d’une réplication
‘cachée’
- s’il y a des interactions, l’expérimentation les peut investiguer
Commençons par l’exemple théorique d’un essai sur l’évaluation de l’application d’un
insecticide et d’un fongicide ainsi que de l’influence de la variété sur le rendement du
maïs. Nous allons regarder quelques approches possibles.
-
Traitement
A
B
C
D
Description
Variété 1, pas d’insecticide, pas de fongicide
Variété 1, insecticide, pas de fongicide
Variété 2, pas d’insecticide, fongicide
Si le dispositif était conçu comme dans cet exemple, ce ne serait pas possible de faire
une analyse appropriée. Quand nous comparons les traitements en utilisant un
ANOVA à un critère de classification, seulement les différences entre A et B seront
causés par l’effet de la variété. Les différences entre C et D pourraient être causé par
la variété, l’insecticide ou le fongicide. En outre, l’effet de la variété est seulement
mesuré quand il n’y a pas d’insecticide ou fongicide appliqué.
Un dispositif alternatif, avec 8 traitements, est comme le suivant :
Traitement
A
B
C
D
E
F
G
H
Description
Variété 1, insecticide, fongicide
Variété 2, insecticide, fongicide
L’analyse de ces données peut s’effectuer dans le modèle de l’ANOVA à un critère de
classification ‘one-way ANOVA’ en vue de calculer les intervalles de confiance comme
montré ci-dessus. Cela nous permettrait de déterminer l’effet de la variété en
examinant la différence entre les traitements A et C et E et G avec B et D et F et H.
Les résultats d’ANOVA sont tout à fait valides mais seulement si nous admettons que
l’effet de chaque facteur est le même quel que soit le niveau où il se trouve dans les
autres facteurs : les rendements de maïs par les différentes variétés sont les mêmes
avec ou sans insecticide et avec ou sans fongicide ET les rendements de maïs
obtenus en appliquant un insecticide sont les mêmes pour les deux variétés et avec ou
sans fongicide ET les rendements de maïs obtenus en appliquant un fongicide sont les
mêmes pour les deux variétés et avec ou sans insecticide. En réalité, cette analyse de
la variance ne sera valide que sous l’hypothèse additionnelle des effets du traitement
(notez le mot additif “et” ci-dessus utilisé maintes fois). Nous ne sommes pas en
mesure de prouver la véracité ou la fausseté de cette hypothèse pour le moment, seuls
le peuvent les résultats d’Anova obtenus en validant notamment chaque ensemble de
niveaux ayant fait l’objet de la comparaison. Ainsi par exemple, l’effet de la variété
pourrait être valide seulement si aucune insecticide ou fongicide n’est appliqué.
Bien qu’il y ait des situations où il n’y a aucun sens pour investiguer les interactions, la
plupart du temps une structure factorielle du traitement fournit beaucoup plus
d’information pour ce genre d’analyses.
96
En fait, le dispositif de cet exemple théorique pourrait être reformulé comme un
dispositif ayant trois facteurs dans lesquels tous les niveaux de chacun sont combinés
les uns les autres. Finalement cette structure factorielle de traitement s’écrirait de la
manière suivante :
(Numéro du triatement) Variety
V1
1
V2
2
V1
3
V2
4
V1
5
V2
6
V1
7
V2
8
Insecticide
Non
Non
Oui
Oui
Non
Non
Oui
Oui
Fungicide
Non
Non
Non
Non
Oui
Oui
Oui
Oui
En examinant les différences ci-dessous, nous pouvons trouver les effets principaux de
chaque facteur ainsi que le changement moyen des différents niveaux pour les autres
facteurs.
-
Effet principal de la variété = traitements 1, 3, 5, 7 contre 2, 4, 6, 8
Effet principal de l’insecticide = traitements 1, 2, 5, 6 contre 3, 4, 7, 8
Effet principal du fongicide = traitements 1, 2, 3, 4 contre 5, 6, 7, 8
Ainsi, l’on pourrait investiguer des interactions. Si on se pose la question de savoir si
l’application de l’insecticide produit le même effet pour les deux variétés, pour
examiner cette question, nous pouvons considérer 1 et 5 contre 2 et 6 (effet de la
variété sans application de l’insecticide) et aussi traitements 3 et 7 contre 4 et 8 (effet
de la variété avec application de l’insecticide).
Comme GenStat n’est pas doté d’une option d’Anova à trois critères de classification
‘three-way Anova’, nous utilisons, à la place, l’option de dispositif d’Analyse de la
variance en général ‘General Analysis of variance’. Les opérateurs définis plus haut
vont nous servir à produire la formule appropriée dans la boîte de la structure du
traitement ‘Treatment structure’. En nous basant sur notre exemple, cette formule
s’inscrit de la manière suivante (voir figure 8.9):
Variety*Insecticide*Fungicide
Ce qui donne, après développement de la formule :
Variety+Insecticide+Fungicide+Variety.Insecticide+Variety.Fungicide+
Insecticide.Fungicide+Variety.Insecticide.Fungicide
97
Nous obtenons finalement la somme de l’effet principal de chaque facteur ainsi que les
interactions du 1er et du 2nd degré.
figure 8.9 Exemple d’une structure de traitements factoriels
Et maintenant pour l’analyse des données réelles, nous allons ouvrir de nouveau le
fichier “Salmonella typhirum survival.xls”. L’analyse portera sur la variable Density,
sachant que le dispositif est d’une structure factorielle comportant deux facteurs Water
et Sorbic, les unités expérimentales étant groupées dans les blocs randomisés. En
complétant ces informations dans le dialogue d’analyse de la variance comme le
montre la figure 8.10, nous devrons préciser aussi dans la fenêtre des options d’Anova
‘Anova Options’ que nous souhaitons obtenir les valeurs de ‘LSD’ affichées dans la
fenêtre Output comme indiquées dans les figures ci-dessous.
figure 8.10 Anova d’une structure de traitement
factoriels
figure 8.11 Options de définition
des résultats du LSD
Du tableau produit à l’Output, on remarque que le tableau d’Anova contient les
sommes des carrés de chaque facteur ainsi que de leur interaction. Il faut signaler que
dans les résultats affichés à l’Output, nous avons trois tableaux des moyennes dont
deux montrant les sommes totales des effets principaux de Sorbic et Water, et l’autre
présentant l’interaction au niveau de l’ensemble des traitements (tableau d’interaction).
En outre, il y a lieu de noter que les tableaux des valeurs de l’erreur standard des
différences des moyennes (s.e.d.) et de la plus petite différence significative (LSD)
comportent tous trois colonnes correspondant aux trois tablaux des moyennes. Ainsi
par exemple la valeur 0.136 indiquée sous ‘Sorbic’ dans le tableau de LSD est la
valeur lsd basée sur 34 degrés de liberté (Residual d.f.) ; elle sert ici à établir les
comparaisons des moyennes totales de Sorbic qui proviennent de 18 valeurs de
données (rep).
98
Variate: Density
Source of variation
d.f.
s.s.
m.s.
v.r.
2
0.01385
0.00692
0.17
Water
Sorbic
Water.Sorbic
Residual
5
2
10
34
81.56910
2.75936
1.31626
1.37389
16.31382
1.37968
0.13163
0.04041
403.72
34.14
3.26
Total
53
87.03245
Block stratum
F pr.
<.001
<.001
0.005
* MESSAGE: the following units have large residuals.
Block 3
*units* 9
0.41
s.e. 0.16
Block 3
*units* 10
-0.42
s.e. 0.16
Variate: Density
Grand mean
5.50
Water
0.78
4.19
0.82
4.39
0.86
4.79
Sorbic
0 ppm
5.80
100 ppm
5.44
200 ppm
5.26
Water
0.78
0.82
0.86
0.90
0.94
0.98
Sorbic
0 ppm
4.28
4.56
5.14
6.00
6.53
8.30
100 ppm
4.23
4.30
4.70
5.36
6.41
7.67
0.90
5.53
0.94
6.42
0.98
7.68
200 ppm
4.07
4.30
4.53
5.24
6.31
7.08
Table
Water
Sorbic
rep.
d.f.
s.e.d.
9
34
0.095
18
34
0.067
Water
Sorbic
3
34
0.164
Table
Water
Sorbic
rep.
d.f.
l.s.d.
9
34
0.193
18
34
0.136
Water
Sorbic
3
34
0.334
99
En ouvrant la fenêtre de notation des entrées ‘Input log window’ par le menu Window
⇒ Input log, nous découvrons les commandes GenStat utilisées pour réaliser
l’analyse préc
"General Analysis of Variance."
BLOCK Block
TREATMENTS Water*Sorbic
COVARIATE "No Covariate"
ANOVA [PRINT=aovtable,information,means; FACT=32; FPROB=yes;
PSE=diff,lsd; LSDLEVEL=5]\
Density
Pendant l’interprétation des résultats d’une analyse de la variance factorielle ayant une
interaction statistiquement significative, il est souvent utile d’avoir une représentation
graphique de la table des moyennes à deux directions. Le moyen de le faire en
GenStat consiste à sélectionner l’option [Further Output] dans la boîte de dialogue
d’Analyse de la Variance, et cliquer sur [Means Plots].
Ce graphique permet de produire le tableau des moyennes en fonction de
l’un des facteurs. Comme l’Anova a été effectué avec deux traitements
factoriels en tenant compte de la combinaison factorielle, ainsi l’un des
facteurs a-t-elle été choisi sur l’axe des abscisses ‘Factor for X-axis‘. Les
moyennes seront rapportées sur le graphique en fonction de ce facteur. De
cette façon, l’autre facteur va définir les groupes ‘Groups’. Les moyennes
de chaque niveau du facteur Groups seront différenciés par les couleurs et
symboles divers. Par défaut, c’est justement par l’option des moyennes
‘means’ que le graphique est tracé en lignes pour autant que l’option des
lignes ‘Lines’ placée en dessous de ‘Method ait été sélectionnée.
En revenant à notre table d’Anova, nous constatons qu’il existe une interaction
significative (p=0.005) entre les deux facteurs sorbic et water, et de ce fait, l’application
de ce graphique bi-directionnel serait convenable. Pour le produire, nous allons devoir
choisir water comme facteur dont les niveaux se placeront sur l’axe des X et sorbic
comme facteur des groupes (figure 8.12). Le type de tracé à faire est obtenu en se
servant de l’option ‘Lines’. Le graphique est montré dans la figure 8.13.
100
figure 8.12 Option de sélection du
facteur de l’axe des abscisses et
celui des groupes
figure 8.13 Le graphique obtenu
On obtient ci-dessus le graphique des moyennes qui comprend en même temps une
petite barre de SED centrée aux environs de la moyenne générale ‘grand mean’.
Mais il est quelquefois nécessaire de produire également la barre LSD.
Jusqu’ici nous ne pouvons pas l’obtenir au moyen du menu, mais plutôt en
modifiant la commande produite par ce dernier. Par conséquent, la ligne
modifiée peut être réalisée par l’option Run ⇒ Line. Entre temps, LSDs a
été sélectionné en passant par le menu [Options] dans la boîte de
dialogue d’Anova, d’où sa valeur a déjà été calculée (0.334).
En utilisant le dialogue ci-dessus dans lequel l’option ‘lines’ a été définie, nous
constatons, au niveau de la fenêtre de la notation des entrées ‘Input log’, que la
commande AGRAPH [method=lines] Water;Sorbic a été envoyée dans le serveur de
GenStat en vue de produire le tracé d’une ligne simple. Au fur et à mesure que vous
deviendrez familier avec GenStat, vous adopterez le plus souvent l’écriture des
commandes directement, alternative qui est relativement assez rapide. Il est préférable
d’inscrire ces commandes dans une nouvelle fenêtre des entrées ‘Input’, étant entendu
qu’il est également faisable de modifier celles qui se trouvent déjà au niveau de la
fenêtre de notation des entrées ‘Input log’. Ainsi par exemple, à la fin de la ligne de
commande de cette dernière fenêtre, nous ajoutons “ ;bar=0.334“ comme suit :
AGRAPH [method=lines] Water;Sorbic;bar=0.334
Après cette écriture, et juste aussitôt la commande Run ⇒ Submit Line effectuée, le
nouveau graphique est automatiquement affiché (figure 8.14).
Essayons d’ajouter cette commande d’écriture aux lignes précédemment obtenues
dans ‘Input log’ (voir page 100) en soumettant chaque fois les données au serveur de
101
GenStat. Nous obtenons instantanément pour chaque cas, non seulement le tableau
d’Anova, mais aussi le graphique correspondant. L’étude détaillée de l’utilisation des
commandes en GenStat sera vue ultérieurement.
figure 8.14 Le même graphique comprenant la barre
des valeurs LSD
La modification des légendes du graphique a été obtenue au moyen de ‘textbox’ tel
que vue au chapitre 6.3. A la fin de cette session, nous effaçons toutes les données
naturellement par le menu Run ⇒ Restart Session.
102
8.3.2
Structure hiérarchisée des blocs
Dans certaines expériences factorielles, il est parfois nécessaire d’avoir les unités
expérimentales plus larges pour certains facteurs que pour d’autres. De tels dispositifs
sont particulièrement appelés des ‘Split plot’. En effet, pour un essai en split plot dont
les grandes parcelles sont dans un dispositif complètement randomisé, on aura besoin
d’un facteur bloc ou block, d’un autre pour les grandes parcelles à l’intérieur des blocs
(grande parcelle ou mainplot auquel s’appliquent les niveaux du traitement factor1) et
enfin d’un autre pour les sous-parcelles à l’intérieur des grandes parcelles (sousparcelle ou subplot auquel s’appliquent les niveaux du traitement factor2).
Les formules générales suivantes décrivent le schéma ainsi que les traitements
factoriels dans un dispositif en split plot:
Layout : block/mainplot/subplot
Treatment factors : factor1*factor2
Dans ces formules, le symbole “/” est un opérateur de hiérarchisation. Par exemple, la
formule
A/B
peut être développée à A+A.B
Nous allons maintenant compléter la boîte de dialogue de ‘General Analysis of
Variance’ en utilisant cette formule ou, alternativement, dans la liste des dispositifs
disponibles présentés, nous sélectionnons ‘Split-plot’. Dans les boîtes des Blocks,
Whole Plots, et Sub-plots, nous aurons besoin d’introduire seulement les trois
facteurs du ‘layout’ correspondants.
Les deux dialogues précédents vont produire les mêmes commandes GenStat
suivants :
BLOCK block/mainplot/subplot
TREATMENTS factor1*factor2
Le sens de la structure de ‘BLOC’ ici peut être entendu en tant que sous-parcelles
hiérarchisées à l’intérieur des grandes parcelles elles-mêmes hiérarchisées dans les
blocs. GenStat effectue assez facilement les analyses d’aussi grande complexité. Il
faudrait néanmoins qu’on ait fourni toute l’information requise définissant le schéma
‘layout’ de l’essai (Blocks, Whole Plots, etc.) et la structure du traitement Treatment
Structure. Ceci peut être obtenu soit en introduisant les formules appropriées dans les
boîtes correspondantes, soit en utilisant les commandes équivalentes BLOCK et
TREATMENTS.
Les résultats présentés dans l’Output sont suffisamment détaillés et complets si bien
qu’on y trouve calculées même toutes les erreurs standard des moyennes ainsi que les
tableaux de chacun des traitements avec leurs degrés de liberté correspondants.
103
L’exemple qui suit se trouve dans le livre de Mead, Curnow and Hasted, pages 151155 (Exemple 7.4). Il s’agit de six variétés de laitue développées dans des caisses qui
sont découvertes à de différentes dates. L’essai comporte 4 blocs (1, 2, 3, 4) ayan
chacun 3 grandes parcelles qui correspondent à des dates de mise à découvert (x,y,z).
A l’intérieur de chaque grande parcelle se trouvent six sous-parcelles correspondant
aux 6 variétés (A, B, C, D, E, F). A l’origine, les données du rendement de laitue
avaient été saisies selon un ordre systématique, mais ici nous préférons les présenter
sous forme de tableau de manière à nous permettre de mieux illustrer les facteurs en
GenStat.
Block 1
111
1
1
F
9.9
211
E
11.1
311
F
4.8
411
E
16.2
222
2
D
11.3
312
2
D
10.3
412
2
A
6.3
113
3
C
9.2
223
3
F
14.3
313
3
C
11.4
413
3
F
12.2
114
4
A
11.8
224
4
A
8.8
314
4
B
11.8
414
4
B
8.8
115
5
D
15.6
225
5
B
12.9
315
5
A
9.7
415
5
C
2.6
B
8.3
226
C
15.7
316
E
14.0
416
E
14.1
D
12.6
221
F
11.6
321
B
11.2
421
6
1
2
1
z
2
1
1
Y
6
2
2
1
Z
3
1
1
Block 4
2
121
x
Block 3
112
116
1
Block 2
x
6
3
2
1
y
4
1
1
z
5
4
2
1
x
D
11.3
F
9.8
C
3.3
222
2
B
8.4
322
2
D
11.0
422
2
B
8.5
123
3
A
7.0
223
3
A
9.1
323
3
F
15.9
423
3
C
7.2
124
4
E
12.6
224
4
E
12.3
324
4
C
7.6
424
4
D
14.7
125
5
B
5.7
225
5
C
6.9
325
5
E
10.8
425
5
A
6.4
126
6
F
10.2
226
6
D
15.4
326
6
A
12.5
426
6
E
11.5
4
3
2
1
y
F
7.5
133
3
B
5.4
233
3
A
7.5
333
3
C
1.0
433
3
C
9.4
134
4
C
12.1
234
4
F
10.8
334
4
D
14.2
434
4
A
9.4
135
5
F
12.5
235
5
D
10.8
335
5
F
10.4
435
5
B
7.8
136
6
A
9.7
236
6
E
11.2
336
6
B
6.1
436
6
D
10.7
Il découle du tableau ci-dessus que les premières quatre entrées de chaque parcelle
sont des numéros des unités, blocs, parcelles principales et sous-parcelles (facteurs
de bloc). Ces facteurs décrivent en quelque sorte le schéma expérimental dans lequel
ils sont systématiquement bien ordonnés. Ils sont suivis par les noms des facteurs
‘date’ et ‘variety’ en même temps que le rendement ‘yield’ qui seront analysés.
En suivant l’ordre systématique, nous allons saisir ces donnés dans une feuille de
calcul (par exemple colonne par colonne) de trois facteurs (block, mainplot et subplot)
qui définissent le schéma expérimental. Deux autres facteurs date et variety ont été
créés pour indiquer les facteurs traitements. Après la saisie, les données seront
enregistrées sous le nom de “Lettuce uncovered.gsh”.
104
Yield
432
Variety
7.1
Date
8.5
A
Sub-plot
z
Main Plot
1
Block
E
2
Variety
3
Date
3
Sub-plot
431
332
Block
14.4
8.4
Main Plot
E
B
Unit
X
Yield
1
Date
331
2
Variety
3
Sub-plot
2
Main Plot
10.6
232
Block
C
13.2
Unit
231
D
Yield
y
Variety
1
Date
3
Sub-plot
16.5
2
Block
1
Main Plot
131
Unit
E
132
Unit
2
Yield
122
figure 8.15 La feuille de données de
laitue
figure 8.16 Anova d’une structure de traitement
factoriel et de blocs hiérarchisés
Nous allons ouvrir la boîte de dialogue d’Anova et choisir dans les listes des dispositifs
le ‘General Analysis of Variance’ en complétant les différentes options de la boîte
comme le montre la figure 8.16. Il faut noter que les deux valeurs de SED nécessaires
pour le tableau des moyennes de variety en fonction de date sont présentées dans la
colonne droite du tableau des valeurs des erreurs standard. La première valeur SED
(1.65) permet de comparer deux moyennes obtenues à de différentes dates, alors que
la seconde (se trouvant en-dessous de la section ‘Except when comparing means with
the same levels of’) sert à comparer deux moyennes à la même date (1.59). A chaque
fois, les degrés de liberté correspondants sont présentés en dessous de chaque SED.
A la fin de cet exercice, nous nous servirons évidemment du Run ⇒ Restart Session
pour effacer toutes les données.
105
Variate: Lettuce
Source of variation
d.f.
s.s.
m.s.
v.r.
Block stratum
3
29.343
9.781
1.35
Block.Mainplot stratum
Date
Residual
2
6
38.003
43.566
19.002
7.261
2.62
1.44
0.152
Block.Mainplot.Subplot stratum
Variety
5
Variety.Date
10
Residual
45
260.508
163.698
227.277
52.102
16.370
5.051
10.32
3.24
<.001
0.003
Total
762.395
71
Block 1
Mainplot 3
Subplot 1
4.3
Block 1
Mainplot 3
Subplot 3
-4.4
F pr.
s.e. 1.8
s.e. 1.8
Variate: Lettuce
Grand mean
10.3
Variety
A
8.8
B
8.6
C
8.1
Date
x
10.4
y
11.1
z
9.3
Variety
A
B
C
D
E
F
Date
x
8.9
9.3
9.6
12.8
13.2
8.8
y
10.1
9.3
11.2
11.5
11.7
12.6
D
12.6
E
12.8
z
7.4
7.2
3.4
13.4
13.3
11.1
Table
Variety
Date
Variety
Date
rep.
12
24
4
s.e.d.
0.92
0.78
1.65
d.f.
45
6
46.05
Except when comparing means with the same level(s) of
Date
1.59
d.f.
45
106
F
10.8
8.3.3
Vérification des valeurs aberrantes ‘outliers’
L’approche de hiérarchisation peut être employée pour avoir plus d’information dans la
fenêtre des résultats (Output). Considérons l’exemple concernant la production d’œufs
et ouvrons de nouveau le fichier “Egg production.gsh”. Chaque unité est un enclos
‘pen’ renfermant 6 poules et de ce fait, elle constitue le niveau de facteur “Pen”. Pour
cela, nous allons insérer une autre colonne ‘pen’ juste avant celle de “Block” comme
illustré à la figure 8.17. Nous pouvons dès lors introduire dans nos données une erreur
volontaire pour concrétiser la notion de valeur aberrante. Remplaçons par exemple le
nombre d’œufs de l’enclos 3 (Block 3, Treatment O) de 295 par 195.
figure 8.17 Ajout d’un identificateur propre à chaque
unité et changement d’une observation
Variate: Eggs
Source of variation
d.f.
s.s.
m.s.
v.r.
Block stratum
3
3980.
1327.
0.76
Treatment
Residual
2
6
11129.
10472.
5565.
1745.
3.19
11
25581.
Total
F pr.
0.114
Block 3
*units* 1
-66.
s.e. 30.
107
En produisant l’Anova, nous obtenons un message nous informant la présence d’une
observation qui possède une grande valeur résiduelle ‘large residual’. Vous devriez
normalement parcourir toutes les données pour retrouver l’observation en question,
mais ici le message indique clairement qu’il s’agit de la 1ère unité du Bloc 3 (figure
8.18). Cependant, une telle facilité n’est pas réalisable lorsqu’il s’agit d’un grand
ensemble des données complexes. En outre, le message sera différent selon que l’on
change l’ordre des données.
figure 8.18 Comptage visant l’identification des
observations aux grandes valeurs des résidus
Pour cela, si on effectue la même Anova pour les mêmes données mais ordonnées
cette fois en tenant compte du nombre décroissant des œufs, on reçoit le message
suivant (à la fin de ce tableau):
Variate: Eggs
Source of variation
d.f.
s.s.
m.s.
v.r.
Block stratum
3
3980.
1327.
0.76
Treatment
Residual
2
6
11129.
10472.
5565.
1745.
3.19
11
25581.
Total
F pr.
0.114
Block 3
*units* 3
-66.
s.e. 30.
Cela nous fait constater que le numéro d’unités (enclos), peut être considéré dans le
schéma expérimental, comme un facteur hiérarchisé à l’intérieur des blocs. C’est pour
108
cette raison qu’il est également possible de produire l’Anova de la façon présentée
dans la figure 8.19:
figure 8.19 Incorporation des unités dans la structure des blocs
Le message d’erreur affiché fournit cette fois-ci une information très catégorique et
suffisamment précise en rapport avec l’ordre des données. Dans notre exemple,
l’observation ayant été détectée de posséder la grande valeur résiduelle correspond à
Pen 4 du Block 3.
Variate: Eggs
Source of variation
d.f.
s.s.
m.s.
v.r.
Block stratum
3
3980.
1327.
0.76
Block.Pen stratum
Treatment
Residual
2
6
11129.
10472.
5565.
1745.
3.19
11
25581.
Total
F pr.
0.114
Block 3
Pen 4
-66.
s.e. 30.
109
8.3.4
Randomisation des dispositifs expérimentaux
GenStat dispose des menus qui permettent de générer la randomisation d’un bon
nombre de dispositifs expérimentaux. Pour ceux utilisés dans ce guide, la procédure
générale consistera à utiliser le menu Stats ⇒ Design ⇒ Generate a Standard
Design.
Nous allons d’abord commencer par le cas d’un dispositif en blocs randomisés
structuré en 4 blocs et 3 traitements, juste comme celui de l’exemple précédent. Dans
la boîte de dialogue affichée, nous choisissons One-way Design (in Randomized
blocks) et indiquons les informations appropriées concernant les traitements et les
blocs. Le dialogue obtenu est présenté à la figure 8.20. En laissant telles qu’elles les
autres informations données par défaut, nous cliquons sur [OK] pour valider les
changements apportés. La figure 8.21 ci-dessous présente la feuille des résultats ainsi
obtenus :
figure 8.20 Boîte de dialogue du schéma d’un
dispositif standard
figure 8.21 La feuille de données obtenue
Il est important de noter ici que GenStat a ajouté une colonne
supplémentaire devant servir de numéro de la parcelle ‘Plotno’ ainsi qu’une
autre appelée ‘Plots’ réservée au numéro de la parcelle à l’intérieur de
chaque bloc. Il est possible qu’en suivant la même procédure, les valeurs
que vous trouvez dans la colonne ‘Treat’ soient totalement différentes de
celles indiquées ci-dessus. Cela est dû au fait que le nombre utilisé de
‘Seeds’ se trouvant en bas de la boîte de dialogue, était probablement
différent. C’est en fait ce nombre ‘Randomization Seed’ dont GenStat se
sert pour générer les chiffres aléatoires.
Ces résultats obtenus concernant le schéma expérimental sont présentés
dans une feuille de calcul, mais elles peuvent être enregistrées comme
fichier GenStat si c’est là qu’on souhaitera saisir les données plus tard.
Autrement elles peuvent être sauvegardées dans une feuille de format
standard, notamment en Excel, car dans ce cas, on pourrait s’en servir
pour concevoir la fiche de collecte des données et même celle de la saisie.
110
L’exemple suivant consiste à une expérimentation de traitements factoriels. Effacons
d’abord les données précédentes par Run ⇒ Restart Session et appliquons de
nouveau le menu Stats ⇒ Design ⇒ Generate a Standard Design. Considérons
l’exemple d’un essai en blocs randomisés comprenant 5 blocs de 12 combinaisons de
traitements factoriels réparties en deux facteurs de trois niveaux (fact1) et quatre
niveaux (fact2).
En complétant le menu comme illustré à la figure 8.22, nous obtenons le plan
d’expérimentation présenté dans une feuille de calcul à la figure 8.23 ainsi que le
tableau indicateur d’ANOVA ‘dummy ANOVA’ dans l’Output.
figure 8.22 Conception d’un dispositif de
blocs randomisés comprenant deux critères
de classification
figure 8.23 La feuille de randomisation
obtenue
Source of variation
d.f.
Block stratum
4
Block.Plot stratum
fact1
fact2
fact1.fact2
Residual
2
3
6
44
Total
59
Le dernier exemple nous montre comment la même boîte de dialogue utilisé pour le
dispositif en blocs randomisés peut servir également lorsqu’il s’agit d’un dispositif en
split plot, en l’occurrence celui analysé précédemment dans le . En complétant le
dialogue, vous aurez sans doute remarqué une autre option qui demande un autre type
d’Anova ‘Trial Anova’ (en bas du dialogue). Ci-dessous la forme sous laquelle les
résultats obtenus pourraient se présenter :
111
figure 8.24 Conception d’un dispositif en split
plot
112
figure 8.25 La feuille obtenue après la
randomisation
Variate: _Rand_
Source of variation
d.f.
s.s.
m.s.
v.r.
Block stratum
3
215.770
71.923
13.15
Block.Mainplot stratum
Date
Residual
2
6
0.865
32.807
0.433
5.468
0.08
5.47
0.925
1.981
5.563
45.000
0.396
0.556
1.000
0.40
0.56
0.849
0.840
Block.Mainplot.Subplot stratum
Variety
5
Date.Variety
10
Residual
45
Total
71
F pr.
301.987
Variate: _Rand_
Grand mean
13.28
Date
1
13.43
2
13.20
3
13.21
Variety
1
12.95
2
13.36
3
13.29
Date
1
2
3
Variety
1
13.58
12.88
12.39
2
13.27
13.43
13.37
3
13.11
12.86
13.92
4
13.42
4
13.47
13.55
13.25
5
13.21
5
13.43
13.16
13.04
6
13.44
6
13.74
13.32
13.26
*** Standard errors of means ***
Table
Date
Variety
Date
Variety
rep.
24
12
4
e.s.e.
0.477
0.289
0.660
d.f.
6
45
19.78
Date
0.500
d.f.
45
Table
Date
Variety
Date
Variety
rep.
24
12
4
l.s.d.
1.652
0.822
1.950
d.f.
6
45
19.78
Date
1.424
d.f.
45
***** Stratum standard errors and coefficients of variation *****
Variate: _Rand_
Stratum
Block
Block.Mainplot
Block.Mainplot.Subplot
d.f.
s.e.
cv%
3
6
45
1.999
0.955
1.000
15.1
7.2
7.5
113
114
9 Défi nº3
Dans le défi nº 1 (chapitre 5, page 63), le dispositif de l’essai était en blocs
randomisés ‘randomised block design’ où les blocs étaient désignés dans
la colonne de REP. Par l’analyse de la variance, trouvez l’erreur standard
de la différence (s.e.d) entre Sesbania (codé SES) et les jachères
naturelles (codées NAT) pour (a) le rendement moyen de maïs et (b) les
nitrates du sol.
116
10 Lecture additionnelle
10.1 Autre documentation gratuite
Une deuxième partie de ce guide, intitulé “Further regression and ANOVA using
GenStat Discovery Edition”, est en train d’être produit. Ce guide inclura plus
d’information sur la regression et l’analyse de variance. Le guide sera distribué sur des
nouvelles versions du CD-ROM avec le logiciel GenStat Édition Discovery et sera
également distribué à travers le site www.worldagroforestrycentre.org/genstatforafrica
ICRAF, ‘the World Agroforestry Centre’, a publié une série de documents sur l’analyse
des données des expériences. Dans ces documents, les analyses sont faites en
utilisant GenStat et des données modèles sont incluses. Tous ces documents se
trouvent sur le CD-ROM de GenStat Édition Discovery et sont aussi disponibles du site
Internet de l’Unité de Support en Matière de Recherche de l’ICRAF :
www.worldagroforestrycentre.org/rsu (regardez sous le menu de ‘Data Analysis’). Sur
le même site il y a aussi des différentes notes techniques, quelques d’eux contiennent
plus d’information technique sur l’usage de GenStat.
Le Centre des Services Statistiques (‘Statistical Services Centre’) de l’Université de
Reading (http://www.rdg.ac.uk/ssc/), a produit une série de guides avec des bonnes
pratiques statistiques. Ils sont disponibles sur le CD-ROM de GenStat Édition
Discovery
et
sur
le
site
Internet
du
SSC:
http://www.rdg.ac.uk/ssc/develop/dfid/booklets.html Une de ces guides est écrit
spécialement pour des utilisateurs de MSTAT qui veulent commencer à utiliser
GenStat. L’unité de biométrie (‘The Biometry Unit Consultancy Services – BUCS’) de
l’Université de Nairobi, en collaboration avec des statisticiens de Malawi et Zimbabwe,
a produit une guide sur le stratégie d’usage des logiciels pour l’analyse statistique dans
leur facultés d’agriculture. Ils proposent d’utiliser GenStat pour la formation des
étudiants postuniversitaires et pour faire la recherche. Pour des étudiants universitaires
ils proposent l’usage de SSC-Stat (un supplément de MS Excel) et Instat+ (un logiciel
pour faire des analyses statistiques simples). Les deux logiciels, SSC-Stat et Instat+, et
le site Internet de BUCS se trouvent également sur le CD-ROM avec GenStat Édition
Discovery. Les versions les plus récentes de ces logiciels peuvent être téléchargé du
site Internet du SSC. Quelques présentations des stratégies de BUCS peuvent être
téléchargé du site http://www.uonbi.ac.ke/acad_depts/bucs/presentation.htm
10.2 Le menu Help de GenStat
Dans le chapitre 2.2.2 (page 11) c’était montré comment trouver plus d’information sur
un sujet spécifique en utilisant le menu ‘Help’ de GenStat. L’exemple montrait
comment savoir plus sur les formats des fichiers des différents tableurs qui peuvent
être importés en GenStat. Le fonctionnement du menu ‘Help’ de GenStat a une grande
ressemblance de beaucoup d’autres logiciels Windows, mais si en doute comment
l’utiliser regardez d’abord sous le menu “how to use help”. Choisissez Help => How to
use help et sélectionnez par exemple “To find a topic in Help”. Cliquez sur le bouton
[Display] comme montré dans la figure 10.1 une fenêtre d’aide s’ouvrira avec
l’information sur ce sujet (figure 10.2).
figure 10.1 Apprendre comment trouver
l’information dans le GenStat Help
figure 10.2 La fenêtre contenant l’information
sur le sujet sélectionné
Le ‘GenStat tutorial’ est un manuel interactif qui couvre des sujets similaires que dans
ce guide. Choisissez Help=> GenStat Tutorial pour voir du texte, des vidéos et des
fenêtres interactives. Cliquez le bouton [Main Menu] pour démarrer le ‘GenStat
tutorial’ comme le montre la figure 10.3.
figure 10.3 Démarrer le ‘GenStat Tutorial’
118
10 - Titre du chapitre
C’est possible de manœuvrer à travers le ‘GenStat tutorial’ en utilisant des différentes
types de boutons (figure 10.4).
figure 10.4 La signification des différents types de boutons dans le GenStat Tutorial
allez vers une section spécifique
démarrez une vidéo sur le sujet
ouvrez une page interactive sur le sujet
Si vous mettez le curseur dessus les
points rouges sur telle page interactive,
une fenêtre ouvrira contenant plus
d’information. Dans l’exemple il s’agit de
plus d’information sur les différentes
options dans le menu Help.
Sortez du ‘GenStat tutorial’ en cliquant sur la bouton [Quit], ou cliquez d’abord sur la
bouton [Back] jusqu’au moment que vous voyez une bouton [Quit]. Confirmez que
vous voulez vraiment sortir en cliquant sur [Yes].
10.3 Notes explicatives “cachés”
Et il y a plus ! Après l’installation de GenStat Édition Discovery, plus de 3,000 pages
des notes explicatives en format pdf se trouvent quelque part sur votre ordinateur. Le
format pdf signifie ‘portable data format’. C’est un format des fichiers qu’on peut lire
avec ‘Adobe Acrobat Reader’. Ceci est un logiciel gratuit. Probablement ça se trouve
déjà sur votre ordinateur mais sinon ou bien il se trouve une copie sur le CD-ROM de
GenStat Édition Discovery, ou bien vous pouvez télécharger la dernière version de
www.adobe.com
Toutes ces notes explicatives ne sont pas directement visibles parce qu’il s’agit des
guides qui sont inclus dans le menu d’aide de GenStat version 6. VSN International,
les producteurs de GenStat, ont décidé juste avant le lancement du GenStat Édition
Discovery d’aussi mettre ces guides disponibles pour les utilisateurs de l’Édition
Discovery, mais il n’était plus de temps pour modifier les menus. Bien que les guides
ont la version 6 pour but, la plupart de l’information est encore utile pour l’Édition
Discovery (ce qui est à son tour semblable que la version 5). Seulement les chapitres
sur les graphiques diffèront.
Si vous avez suivi une installation standard de l’Édition Discovery, les fichiers pdf avec
la documentation se trouvent dans la sous-répertoire: C:\Program Files\GenDisc\doc
(figure 10.5).
119
figure 10.5 The folder containing additional information
Le table suivant donne les références des documents différents.
Introguide.pdf
Roger Payne, Darren Murray, Simon
Harding, David Baird, Duncan Soutar &
Peter Lane. 2002. GenStat® for
WindowsTM (6th Edition) Introduction.
VSN International, Oxford, UK. 276 pp.
ISBN-1-904375-06-5
NewFeatures.pdf
Roger Payne (Ed.) 2002. New features in
GenStat®
Release
6.1
VSN
International, Oxford, UK. 95 pp. ISBN
1-904375-02-2
SyntaxGuide.pdf
Roger Payne (Ed.). 2002. The Guide to
GenStat® Release 6.1 Part 1: Syntax
and
Data
Management.
VSN
International, Oxford, UK. 492 pp. ISBN
1-904375-00-6
StatsGuide.pdf
Roger Payne (Ed.). 2002. The Guide to
GenStat® Release 6.1 Part 2: Statistics
ISBN 1-904375-01-4
Refman1.pdf
Roger Payne et al. 2002. GenStat®
Release 6.1 Reference Manual Part 1:
Summary. VSN International, Oxford,
UK. 254 pp. ISBN 1-904375-03-0
Refman2.pdf
Roger Payne et al. 2002. GenStat®
Release 6.1 Reference Manual Part 2:
Directives VSN International, Oxford, UK.
396 pp. ISBN 1-904375-04-9
Refman3.pdf
Roger Payne and Gillian Arnold (Eds.)
2002. GenStat® Release 6.1 Reference
Manual Part 3: Procedure Library PL14
ISBN 1-904375-05-7
120
10 - Titre du chapitre
10.4 Francophones et hispanophones
Toute la documentation mentionnée ci-dessus est en Anglais. Mais dans le même
répertoire ou se trouvent des autres notes explicatives il y a deux guides introductives
sur GenStat pour Windows version 5, une en Français et une en Espagnol. GenStat
Édition Discovery est exactement la même chose comme GenStat version 5, sauf pour
les graphiques.
IntroFrench5ed.pdf
Simon Harding, Peter Lane, Darren
Murray et Roger Payne. Traduit par
Gaston Kokodé. 2000. Genstat pour
Windows (5éme Edition) Introduction
VSN International sarl, Oxford, UK. 216
pp. ISBN 1-85206-183-9
IntroSpanish5ed.pdf
Simon Harding, Peter Lane, Darren
Murray y Roger Payne. Traducido al
español por Guillermo Hough y Freddy
Ledezma. 2000. Genstat para Windows
(5ta. Edición) Introducción
VSN
Internacional Ltda., Oxford, UK. 216 pp.
ISBN 1-85206-183-9
10.5 La communauté des utilisateurs de GenStat
Finalement, il existe une communauté informelle des utilisateurs de GenStat qui sont
actifs à travers le courrier électronique. Lisez les règles de ce courrier électronique,
regardez
des
anciens
messages
et
joignez
sur
l’adresse
http://www.bioss.sari.ac.uk/genstat/
121
122

GenStat Edition Discovery pour usage quotidien

Transcription

Documents pareils

Menu du Dimanche

S ENTEURS DE JASMIN - Sudokumegastar.com

Passer la TI-84 Plus Silver Edition en mode fr

meuble colonne visioconference - CBi

Paramètre LEECH FTP

Liste déroulante sous Excel

Excel : exercice 3 - E-Mail officiel @fr.educanet2.ch

Le SUDOKU - Problème d`initiation… (03)

Calculer avec EXCEL

PEIP Polytech` Marseille Utilisation d`un tableur TP2