Corrigé de la Série 3
Transcription
Corrigé de la Série 3
Exercices d’introduction au design expérimental Corrigé Série 3 Corrigé de la Série 3 1 Expérience Vous vous intéressez à la croissance des levures Saccharomyces cerevisiae en fonction de la température et du milieu de culture dans lequel elles vivent. Après une recherche de litérature, vous décidez de tester trois températures (15, 25 et 35 degrès) et deux milieux de culture différents (avec ou sans glucose). Les levures poussent dans des boites de Pétri et vous avez accès à trois incubateurs dans votre laboratoire. ⇒Quelles sont les hypothèses que vous allez tester ici et quelles prédictions allez vous en tirer ? Nous avons un design à deux facteurs croisés. Il y a donc trois H0 . H0a : la température n’a pas d’effet sur la croissance des levures. H0b : le milieu de culture n’a pas d’effet sur la croissance des levures. H0c : il n’y a pas d’interaction entre température et milieu de culture. ⇒Quels types de variables sont à définir ? En particulier, comment allez-vous quantifier la croissance des levures ? Les deux facteurs température et type de milieu sont des variables qualitatives. Pour la température, nous ne nous intéressons pas à savoir si augmenter de 10o change quelque chose à la croissance, mais s’il existe une différence entre les trois températures prises. On aurait très bien pu prendre 18.5o , 23.9o et 32.2o , et cela n’aurait pas changé nos hypothèses. Ces températures sont donc simplement des étiquettes et donc ce facteur est qualitatif. Avec un design à deux facteurs croisés, il est important d’avoir une variable réponse quantitative qui soit distribuée normalement. Sans cela, les analyses statistiques seront bien plus complexes. Une possibilité est de compter le nombre de colonies apparaissant par boite de Pétri. Avec un comptage, la distribution des données suit souvent une distribution de Poisson √ et, si c’est le cas, 0 il faudra transformer nos données avant de faire l’analyse (par exemple Y = Y , cf cours). Pour avoir une variable continue plus appropriée, il faudrait par exemple utiliser le nombre de colonies se formant par ml/cm2 , qui devrait alors être distribué normalement. Notez néanmoins qu’on ne peut jamais être sûr de cela, et il faut toujours le tester avec un test de Shapiro ou par un quantilequantile plot. ⇒Quel design expérimental allez-vous mettre en place pour tester vos hypothèses ? Décrivez-le le plus précisement possible. Nous avons donc un design à deux facteurs croisés. Au total, nous avons 3 × 2 = 6 combinaisons de traitement possibles et il faudrait répliquer suffisament les boites de Pétri dans ces six combinaisons. On pourrait imaginer mettre 20 boites par combinaisons de traitement, ce qui devrait être faisable pratiquement et donner une assez bonne représentation de la variation de croissance. Notez néanmoins qu’on ne peut jamais le dire a priori et qu’il soit possible que 20 soit insuffisant. Il serait utile de faire une étude pilote pour le déterminer. Idéallement, il faudrait randomiser complètement les boites de Pétri assignées à chaque température/milieu. Cependant, c’est impossible de le faire pour la température, puisqu’on a que trois incubateurs. Toutes les boites se trouvant dans un incubateur seront donc des pseudoréplicats pour ce facteur. Nous sommes donc avec un design split-plot, qui est une version du design à deux facteurs croisés. L’appoche à prendre ici est donc la suivante : 1. assigner une température à chaque incubateur 2. y mettre au hasard, par exemple, six réplicats pour chacun des deux milieux 3. répéter au moins trois fois l’expérience en changeant la température assignée à chaque incubateur NS – 22 avril 2012 page 1 sur 5 Exercices d’introduction au design expérimental Corrigé Série 3 Il est important de faire le point 3., car sans cela nous n’aurions pas de réplications pour le facteur température. Faire trois réplications seraut le minimum, mais on pourrait en faire n’importe quels multiples de trois. 2 Expérience virtuelle Vous vous intéressez à l’effet de la quantité de CO2 et de la quantité d’eau sur la croissance d’une variété d’Arabidopsis thaliana dans vous avez modifié un gène impliqué dans le cycle photosynthétique. Vous avez fait une étude pilote qui vous montre qu’augmenter la quantité de CO2 de 150ppm à 600ppm induit une variation dans les données bien plus grande (dév. standard due aux deux groupes = 2.14) qu’augmenter la quantité d’eau de 0.2ml/jour à 1.5l/jour (dév. standard due aux deux groupes = 0.75). Vous voulez donc vous lancer dans une expérience à plus grande échelle et disposez de 60 plantes au total. Vous pouvez placer chaque plante indépendemment sous atmosphère controlée afin de manipuler le CO2 . ⇒Quel design est le plus approprié pour tester les hypothèses de cette expérience ? Ici encore, nous avons deux facteurs croisés. Etant donnée que l’on peut mettre chaque plante indépendament sous chaque combinaison de facteurs, un design complètement randomisé est le plus approprié. Le nombre de réplicats par combinaison est difficile à déterminer, et il serait approprié de faire une étude pilote pour estimer la variation existante pour chaque combinaison de facteur. En général, si vous prenez entre 20 et 30 plantes par combinaison, cela devrait suffire. ⇒Combien de niveaux de chaque facteur devez-vous mettre en place afin de bien comprendre les effets de chaque facteur sur la croissance de la plante ? Il y a un compromis à faire entre la puissance du test et comment nous souhaitons comprendre la relation entre facteurs et variables réponse. Nous pouvons illustrer cela avec la function run.exp(). Les résultats pour le facteur CO2 se trouvent dans la figure 1. A) B) C) D) F IGURE 1 – Boxplots et interaction plots pour quatre analyses utilisant un nombre toujours plus grand de traitements pour le facteur CO2 : A) deux (run.exp(co2=2,eau=2)), B) trois (run.exp(co2=3,eau=2)), C) quatre (run.exp(co2=4,eau=2)) et D) cinq (run.exp(co2=5,eau=2)). NS – 22 avril 2012 page 2 sur 5 Exercices d’introduction au design expérimental Corrigé Série 3 Avec deux traitements du facteur CO2 , l’effet de ce facteur est très significatif ( p < 0.0001). Par contre, plus le nombre de traitements augmente, plus cette p-value va augmenter également. Cependant, l’effet de chaque traitement est assez faible, et donc en rajoutant des traitements, nous voyons sur les boxplots que la variance présente dans chaque traitement annule tout effet de ce facteur. Dans ce cas précis, il serait plus approprié de ne prendre que trois niveaux du facteurs CO2 . Il ne faut cependant pas oublier qu’on ne peut jamais savoir cela avec certitude dans des données réelles. Le seul moyen est de faire une étude pilote. Les résultats pour le facteur eau se trouvent dans la figure 2. A) B) C) D) E) F IGURE 2 – Boxplots et interaction plots pour cinq analyses utilisant un nombre toujours plus grand de traitements pour le facteur eau : A) deux (run.exp(co2=2,eau=2)), B) trois (run.exp(co2=2,eau=3)), C) quatre (run.exp(co2=2,eau=4)), D) cinq (run.exp(co2=2,eau=5)) et E) six (run.exp(co2=2,eau=6)). Cette fois-ci, deux niveaux du traitement eau (Fig. 2A) résulterait dans une p-value non-significative. Par contre, dès que l’on rajoute des niveaux, une tendance se déssine ( p < 0.05). Cependant, en augmentant toujours plus le nombre de niveaux, le nombre de plantes mesurées par niveaux diminue, ce qui réduit la puissance du test. Dans ce cas-ci, il aurait été plus judicieux de s’arréter à trois niveaux du facteur eau. Là-encore, une étude pilote serait utile pour mieux comprendre la relation entre eau et croissance. ⇒Quelle est la relation entre le CO2 et la croissance ? Et entre la quantité d’eau et la croissance ? Sont-elles linéaires ? La relation n’est pas du tout linéaire. Pour le cas du CO2 , il est clair dans la figure 1D, que la relation entre croissance des plante et concentration de CO2 n’est pas linéaire. Elle atteint un plateau assez rapidement, ce qui signifie que la plante n’est plus capable d’utiliser le CO2 supplémentaire au-delà d’une certaine limite. Dans le cas de l’eau, la figure 2E montre également très bien qu’au delà d’une certaine quantité, le rajout d’eau devient néfaste à la croissance de la plante. On aurait pu détecter cela avec trois niveaux de chaque facteur. Pour ces dernières questions, chargez le script suivant : > source("http://www.unil.ch/phylo/teaching/expdesign/tp3.R") NS – 22 avril 2012 page 3 sur 5 Exercices d’introduction au design expérimental Corrigé Série 3 Il va vous permettre de générer des données en fonction du nombre de niveaux voulu et va faire l’analyse statistique appropriée. Pour l’utiliser, vous devez utilisez la fonction run.exp(co2=x,eau=y) en définissant les deux arguments x et y comment le nombre de niveaux du facteur CO2 et du facteur eau, respectivement. ⇒Que montrent les trois différents plots ? Deux d’entre eux sont évidents. Pour le troisième cherchez sur internet ce qu’est un “interaction plot” (commande interaction.plot dans R). Les deux premiers sont simplement des boxplots de chaque facteur pris séparemment. Le plot de l’interaction montre comment les combinaisons de chaque facteur affecte la croissance des plantes. S’il n’y a pas d’interaction, les pentes sont parallèles (ou presque, il y a également de la stochasticité car nous avons un échantillon de plantes). On voit très bien qu’en augmentant le nombre de niveaux, l’interprétation de ces plots, et donc de l’interaction, devient beaucoup plus compliquée. 3 Article scientifique Une étude a été faite pour comprendre si l’apport de nutriment découlant de la remontée des saumons dans les rivières d’Amérique du Nord avait un impact important sur les forêts alluviales adjacentes. Ils ont en particulier regarder si les arbres de ces zones croissaient plus rapidement et si l’apport amené par les saumons arrivait effectivement à être acquis par les arbres. La description du plan d’échantillonnage effectué se trouve dans les paragraphes suivants. Lisez-les attentivement et, si besoin est, utilisez des traducteurs on-line. L’article orignal se trouve à l’adresse suivante : http://www.unil.ch/phylo/teaching/expdesign/heilfieldnaiman01ecology.pdf ⇒Est-ce que le design de cet article est adéquat ? En particulier, est-ce que l’échantillonnage vous semble fait correctement ? Est-ce que les tests de la Table 1 sont à votre avis convaincants ? Le plan d’échantillonage de cette étude est questionnable. Le problème ici est le nombre de sites qui ont été choisis par les auteurs. Ils ont pris deux systèmes de cours d’eau uniquement et ces deux systèmes ont des caractéristiques très différentes (par exemple, un d’entre eux possède une chute d’eau, l’autre pas du tout, ce qui influence le débit, etc. . .). Ces sites n’ont pas été choisis au hasard, ce qui pose des problèmes sérieux. Les auteurs essaient d’y remédier en testant certaines caractéristiques écologiques des lieux et montrent que toutes ces caractéristiques sont semblables. Selon les auteurs, les sites ne diffèrent donc que par leur concentration en azote. Cependant les tests de la Table 1 ne sont fait que sur 4 points au total, ce qui n’est pas suffisant pour donner des résultats fiables. Par exemple de “Sitka spruce” est 2.6 fois plus élevée dans les sites de ponte (68.2, Table 1) que dans les sites de références (26.1, Table 1) sans que cela soit mis en évidence par le test de T alors que les erreurs standards ne se chevauchent pas. Il n’est simplement pas assez puissant pour détecter une différence à cause du faible nombre de données. Après avoir bien réfléchi à cet article, lisez le commentaires fait par les auteurs suivants : http://www.unil.ch/phylo/teaching/expdesign/kirchhoff03ecology.pdf ⇒Est-ce que vous êtes d’accord avec leur critique concernant l’échantillonnage (les autres critiques sont très techniques et ne sont pas à considérer ici) ? Oui, on peut tout à fait être d’accord avec les critiques présentées. En fait, elles montrent comment une étude scientifique doit être menées. Si on veut tester une hypothèse (ici l’effet d’apport de nutriment amené par les saumons), il faut impérativement faire en sorte qu’on puisse exclure tout autre facteur confondant. Dans l’exemple ci-dessus, les auteurs n’ont pas fait une expérience suffisamment convaincante, ce qui ouvre la porte à d’autres interprétations possibles, comme par exemple une différence écologique entre les sites choisis. L’effet des saumons ne peut donc pas être clairement démontré. NS – 22 avril 2012 page 4 sur 5 Exercices d’introduction au design expérimental NS – 22 avril 2012 Corrigé Série 3 page 5 sur 5