Corrigé de la Série 3

Transcription

Corrigé de la Série 3
Exercices d’introduction au design expérimental
Corrigé Série 3
Corrigé de la Série 3
1
Expérience
Vous vous intéressez à la croissance des levures Saccharomyces cerevisiae en fonction de la température
et du milieu de culture dans lequel elles vivent. Après une recherche de litérature, vous décidez de tester trois
températures (15, 25 et 35 degrès) et deux milieux de culture différents (avec ou sans glucose). Les levures
poussent dans des boites de Pétri et vous avez accès à trois incubateurs dans votre laboratoire.
⇒Quelles sont les hypothèses que vous allez tester ici et quelles prédictions allez vous en tirer ?
Nous avons un design à deux facteurs croisés. Il y a donc trois H0 .
H0a : la température n’a pas d’effet sur la croissance des levures.
H0b : le milieu de culture n’a pas d’effet sur la croissance des levures.
H0c : il n’y a pas d’interaction entre température et milieu de culture.
⇒Quels types de variables sont à définir ? En particulier, comment allez-vous quantifier la croissance
des levures ?
Les deux facteurs température et type de milieu sont des variables qualitatives. Pour la température,
nous ne nous intéressons pas à savoir si augmenter de 10o change quelque chose à la croissance,
mais s’il existe une différence entre les trois températures prises. On aurait très bien pu prendre
18.5o , 23.9o et 32.2o , et cela n’aurait pas changé nos hypothèses. Ces températures sont donc
simplement des étiquettes et donc ce facteur est qualitatif.
Avec un design à deux facteurs croisés, il est important d’avoir une variable réponse quantitative
qui soit distribuée normalement. Sans cela, les analyses statistiques seront bien plus complexes.
Une possibilité est de compter le nombre de colonies apparaissant par boite de Pétri. Avec un
comptage, la distribution des données suit souvent une distribution de Poisson
√ et, si c’est le cas,
0
il faudra transformer nos données avant de faire l’analyse (par exemple Y = Y , cf cours). Pour
avoir une variable continue plus appropriée, il faudrait par exemple utiliser le nombre de colonies
se formant par ml/cm2 , qui devrait alors être distribué normalement. Notez néanmoins qu’on ne
peut jamais être sûr de cela, et il faut toujours le tester avec un test de Shapiro ou par un quantilequantile plot.
⇒Quel design expérimental allez-vous mettre en place pour tester vos hypothèses ? Décrivez-le le
plus précisement possible.
Nous avons donc un design à deux facteurs croisés. Au total, nous avons 3 × 2 = 6 combinaisons
de traitement possibles et il faudrait répliquer suffisament les boites de Pétri dans ces six
combinaisons. On pourrait imaginer mettre 20 boites par combinaisons de traitement, ce qui devrait
être faisable pratiquement et donner une assez bonne représentation de la variation de croissance.
Notez néanmoins qu’on ne peut jamais le dire a priori et qu’il soit possible que 20 soit insuffisant.
Il serait utile de faire une étude pilote pour le déterminer.
Idéallement, il faudrait randomiser complètement les boites de Pétri assignées à chaque
température/milieu. Cependant, c’est impossible de le faire pour la température, puisqu’on a que
trois incubateurs. Toutes les boites se trouvant dans un incubateur seront donc des pseudoréplicats
pour ce facteur. Nous sommes donc avec un design split-plot, qui est une version du design à deux
facteurs croisés. L’appoche à prendre ici est donc la suivante :
1. assigner une température à chaque incubateur
2. y mettre au hasard, par exemple, six réplicats pour chacun des deux milieux
3. répéter au moins trois fois l’expérience en changeant la température assignée à chaque
incubateur
NS – 22 avril 2012
page 1 sur 5
Exercices d’introduction au design expérimental
Corrigé Série 3
Il est important de faire le point 3., car sans cela nous n’aurions pas de réplications pour le facteur
température. Faire trois réplications seraut le minimum, mais on pourrait en faire n’importe quels
multiples de trois.
2
Expérience virtuelle
Vous vous intéressez à l’effet de la quantité de CO2 et de la quantité d’eau sur la croissance d’une variété
d’Arabidopsis thaliana dans vous avez modifié un gène impliqué dans le cycle photosynthétique. Vous avez fait
une étude pilote qui vous montre qu’augmenter la quantité de CO2 de 150ppm à 600ppm induit une variation
dans les données bien plus grande (dév. standard due aux deux groupes = 2.14) qu’augmenter la quantité
d’eau de 0.2ml/jour à 1.5l/jour (dév. standard due aux deux groupes = 0.75). Vous voulez donc vous lancer dans
une expérience à plus grande échelle et disposez de 60 plantes au total. Vous pouvez placer chaque plante
indépendemment sous atmosphère controlée afin de manipuler le CO2 .
⇒Quel design est le plus approprié pour tester les hypothèses de cette expérience ?
Ici encore, nous avons deux facteurs croisés. Etant donnée que l’on peut mettre chaque plante
indépendament sous chaque combinaison de facteurs, un design complètement randomisé est
le plus approprié. Le nombre de réplicats par combinaison est difficile à déterminer, et il serait
approprié de faire une étude pilote pour estimer la variation existante pour chaque combinaison de
facteur. En général, si vous prenez entre 20 et 30 plantes par combinaison, cela devrait suffire.
⇒Combien de niveaux de chaque facteur devez-vous mettre en place afin de bien comprendre les
effets de chaque facteur sur la croissance de la plante ?
Il y a un compromis à faire entre la puissance du test et comment nous souhaitons comprendre
la relation entre facteurs et variables réponse. Nous pouvons illustrer cela avec la function
run.exp(). Les résultats pour le facteur CO2 se trouvent dans la figure 1.
A)
B)
C)
D)
F IGURE 1 – Boxplots et interaction plots pour quatre analyses utilisant un nombre toujours plus grand de
traitements pour le facteur CO2 : A) deux (run.exp(co2=2,eau=2)), B) trois (run.exp(co2=3,eau=2)), C)
quatre (run.exp(co2=4,eau=2)) et D) cinq (run.exp(co2=5,eau=2)).
NS – 22 avril 2012
page 2 sur 5
Exercices d’introduction au design expérimental
Corrigé Série 3
Avec deux traitements du facteur CO2 , l’effet de ce facteur est très significatif ( p < 0.0001). Par
contre, plus le nombre de traitements augmente, plus cette p-value va augmenter également.
Cependant, l’effet de chaque traitement est assez faible, et donc en rajoutant des traitements,
nous voyons sur les boxplots que la variance présente dans chaque traitement annule tout effet de
ce facteur. Dans ce cas précis, il serait plus approprié de ne prendre que trois niveaux du facteurs
CO2 . Il ne faut cependant pas oublier qu’on ne peut jamais savoir cela avec certitude dans des
données réelles. Le seul moyen est de faire une étude pilote.
Les résultats pour le facteur eau se trouvent dans la figure 2.
A)
B)
C)
D)
E)
F IGURE 2 – Boxplots et interaction plots pour cinq analyses utilisant un nombre toujours plus grand de
traitements pour le facteur eau : A) deux (run.exp(co2=2,eau=2)), B) trois (run.exp(co2=2,eau=3)), C)
quatre (run.exp(co2=2,eau=4)), D) cinq (run.exp(co2=2,eau=5)) et E) six (run.exp(co2=2,eau=6)).
Cette fois-ci, deux niveaux du traitement eau (Fig. 2A) résulterait dans une p-value non-significative.
Par contre, dès que l’on rajoute des niveaux, une tendance se déssine ( p < 0.05). Cependant,
en augmentant toujours plus le nombre de niveaux, le nombre de plantes mesurées par niveaux
diminue, ce qui réduit la puissance du test. Dans ce cas-ci, il aurait été plus judicieux de s’arréter
à trois niveaux du facteur eau. Là-encore, une étude pilote serait utile pour mieux comprendre la
relation entre eau et croissance.
⇒Quelle est la relation entre le CO2 et la croissance ? Et entre la quantité d’eau et la croissance ?
Sont-elles linéaires ?
La relation n’est pas du tout linéaire. Pour le cas du CO2 , il est clair dans la figure 1D, que la relation
entre croissance des plante et concentration de CO2 n’est pas linéaire. Elle atteint un plateau assez
rapidement, ce qui signifie que la plante n’est plus capable d’utiliser le CO2 supplémentaire au-delà
d’une certaine limite. Dans le cas de l’eau, la figure 2E montre également très bien qu’au delà d’une
certaine quantité, le rajout d’eau devient néfaste à la croissance de la plante. On aurait pu détecter
cela avec trois niveaux de chaque facteur.
Pour ces dernières questions, chargez le script suivant :
> source("http://www.unil.ch/phylo/teaching/expdesign/tp3.R")
NS – 22 avril 2012
page 3 sur 5
Exercices d’introduction au design expérimental
Corrigé Série 3
Il va vous permettre de générer des données en fonction du nombre de niveaux voulu et va faire l’analyse
statistique appropriée. Pour l’utiliser, vous devez utilisez la fonction run.exp(co2=x,eau=y) en définissant les
deux arguments x et y comment le nombre de niveaux du facteur CO2 et du facteur eau, respectivement.
⇒Que montrent les trois différents plots ? Deux d’entre eux sont évidents. Pour le troisième cherchez
sur internet ce qu’est un “interaction plot” (commande interaction.plot dans R).
Les deux premiers sont simplement des boxplots de chaque facteur pris séparemment. Le plot
de l’interaction montre comment les combinaisons de chaque facteur affecte la croissance des
plantes. S’il n’y a pas d’interaction, les pentes sont parallèles (ou presque, il y a également de
la stochasticité car nous avons un échantillon de plantes). On voit très bien qu’en augmentant le
nombre de niveaux, l’interprétation de ces plots, et donc de l’interaction, devient beaucoup plus
compliquée.
3
Article scientifique
Une étude a été faite pour comprendre si l’apport de nutriment découlant de la remontée des saumons
dans les rivières d’Amérique du Nord avait un impact important sur les forêts alluviales adjacentes. Ils ont en
particulier regarder si les arbres de ces zones croissaient plus rapidement et si l’apport amené par les saumons
arrivait effectivement à être acquis par les arbres.
La description du plan d’échantillonnage effectué se trouve dans les paragraphes suivants. Lisez-les
attentivement et, si besoin est, utilisez des traducteurs on-line.
L’article orignal se trouve à l’adresse suivante :
http://www.unil.ch/phylo/teaching/expdesign/heilfieldnaiman01ecology.pdf
⇒Est-ce que le design de cet article est adéquat ? En particulier, est-ce que l’échantillonnage vous
semble fait correctement ? Est-ce que les tests de la Table 1 sont à votre avis convaincants ?
Le plan d’échantillonage de cette étude est questionnable. Le problème ici est le nombre de sites
qui ont été choisis par les auteurs. Ils ont pris deux systèmes de cours d’eau uniquement et ces
deux systèmes ont des caractéristiques très différentes (par exemple, un d’entre eux possède une
chute d’eau, l’autre pas du tout, ce qui influence le débit, etc. . .). Ces sites n’ont pas été choisis au
hasard, ce qui pose des problèmes sérieux. Les auteurs essaient d’y remédier en testant certaines
caractéristiques écologiques des lieux et montrent que toutes ces caractéristiques sont semblables.
Selon les auteurs, les sites ne diffèrent donc que par leur concentration en azote. Cependant les
tests de la Table 1 ne sont fait que sur 4 points au total, ce qui n’est pas suffisant pour donner des
résultats fiables. Par exemple de “Sitka spruce” est 2.6 fois plus élevée dans les sites de ponte
(68.2, Table 1) que dans les sites de références (26.1, Table 1) sans que cela soit mis en évidence
par le test de T alors que les erreurs standards ne se chevauchent pas. Il n’est simplement pas
assez puissant pour détecter une différence à cause du faible nombre de données.
Après avoir bien réfléchi à cet article, lisez le commentaires fait par les auteurs suivants :
http://www.unil.ch/phylo/teaching/expdesign/kirchhoff03ecology.pdf
⇒Est-ce que vous êtes d’accord avec leur critique concernant l’échantillonnage (les autres critiques
sont très techniques et ne sont pas à considérer ici) ?
Oui, on peut tout à fait être d’accord avec les critiques présentées. En fait, elles montrent comment
une étude scientifique doit être menées. Si on veut tester une hypothèse (ici l’effet d’apport de
nutriment amené par les saumons), il faut impérativement faire en sorte qu’on puisse exclure
tout autre facteur confondant. Dans l’exemple ci-dessus, les auteurs n’ont pas fait une expérience
suffisamment convaincante, ce qui ouvre la porte à d’autres interprétations possibles, comme par
exemple une différence écologique entre les sites choisis. L’effet des saumons ne peut donc pas
être clairement démontré.
NS – 22 avril 2012
page 4 sur 5
Exercices d’introduction au design expérimental
NS – 22 avril 2012
Corrigé Série 3
page 5 sur 5