TD sur les modèles linéaires et logistiques

Transcription

TD sur les modèles linéaires et logistiques
TD sur les modèles linéaires et logistiques
David Makowski, INRA
22 septembre 2016
1
TD1 : Régression linéaire pour prédire la teneur
en protéines du blé
1.1
Objectif
La teneur en protéines des grains de blé constitue un critère de qualité important pour les entreprises qui collectent et stockent les récoltes de
blé. La teneur en protéines des grains détermine le type d’utilisation industrielle d’une récolte (panification, fabrication de biscuits, alimentation
animale etc.). Si les grains de blé ont une teneur en protéines trop faible, ils
ne pourront pas être utilisés pour la panification, à moins de les mélanger
avec des grains ayant une teneur plus élevée. Il est donc important pour les
entreprises de collecte-stockage de pouvoir prédire, avant la récolte, la qualité du blé afin d’organiser le stockage des grains en silos et de passer des
contrats (Le Bail et Makowski, 2004 ; Le Bail et al., 2005).
L’objectif est de prédire la teneur en protéines des grains de blé en utilisant des modèles linéaires incluant une ou deux variables explicatives mesurables avant la récolte, l’indice de nutrition azoté (INN) et une mesure
de quantité de chlorophylle des feuilles obtenues avec le Minolta SPAD (un
appareil portatif). Les deux types de mesure peuvent être réalisés avant la récolte et permettent donc d’anticiper le niveau de qualité d’une récolte de blé.
La mesure SPAD est cependant nettement plus facile à réaliser en pratique
que la mesure INN. La mesure SPAD ne nécessite en effet que des pincements des feuilles avec l’appareil de mesure Minolta alors que la mesure INN
est basée sur des prélèvements de plantes et des mesures de biomasse et de
teneur en azote réalisées en laboratoire.
1.2
Questions
– Ecrire les équations de trois modèles linéaires permettant de prédire la
teneur en protéines du blé en fonction de l’INN, du SPAD ou des deux
mesures
– Lire le fichier TeneurProteines.txt à l’aide de l’instruction R read.table
(chaque ligne correspond à un site-année de blé)
1
– Faire des graphiques présentant les relations entre la variable à expliquer et les variables explicatives avec l’instruction plot
– Calculer les corrélations entre ces variables à l’aide de l’instruction R
cor
– Estimer les paramètres des trois modèles avec les données en utilisant
l’instruction lm et analyser la distribution des résidus
– Réaliser des tests statistiques à l’aide de l’instruction summary et anova
pour choisir le modèle le plus approprié
2
TD2 : Prédiction de la biomasse de mauvaise
herbe à l’aide de variables quantitatives et qualitatives
2.1
Objectif
Le développement des mauvaises herbes peut être à l’origine de perte de
rendements et de revenus pour les agriculteurs. Des traitements herbicides
sont souvent utilisés pour limiter leur effet nuisible, mais ces traitements
augmentent les risques de pollution de l’eau lorsqu’ils sont appliqués de manière systématique. Pour décider de la nécessité d’appliquer un traitement
herbicide, il est utile de prédire le niveau d’infestation des parcelles par les
mauvaises herbes et de ne traiter qu’en cas de nécessité. De telles prédictions doivent cependant être réalisées assez tôt dans la saison, avant les
traitements, par exemple au début de l’automne.
L’objectif de ce TD est de développer un modèle permettant de prédire
la biomasse de mauvaises herbes en hiver (t.ha−1 ) dans les cultures de colza
en utilisant des variables mesurables au début de l’automne : densité de
mauvaise herbe au début de l’automne (plantes.m−2 ), azote minéral dans
le sol (kg.m−2 ), et travail du sol (labour ou pas de labour). Un fichier de
données incluant des mesures de densité de mauvaises herbes à l’automne
(DMAUT), d’azote du sol (N), de biomasse de mauvaises herbes à l’entrée
de l’hiver (MSMHeh) et un indicateur de travail du sol (WSOL=1 pour
labour, WSOL=0 sinon) est fourni. Chaque ligne du fichier correspond à un
site-année de colza.
2.2
Questions
– Lire le ficher MauvaisesHerbes.txt et décrire brièvement les valeurs de
chaque variable avec summary
– Définir une série de modèles linéaires incluant une, deux ou trois variables d’entrée pour prédire la biomasse
– Estimer les paramètres des modèles avec l’instruction glm
2
– Réaliser des tests statistiques avec summary et anova pour choisir le
modèle le plus approprié pour prédire la biomasse de mauvaises herbes
en hiver
– Illustrer l’utilisation du modèle sélectionné pour faire des prédictions
pour quelques parcelles de colza dont vous définirez les caractéristiques
– Analyser les résidus du modèle sélectionné et identifier des pistes possibles pour améliorer le modèle.
3
TD3 : Prédiction de la présence d’oiseaux dans
les prairies
3.1
Objectif
Certaines espèces d’oiseaux constituent des indicateurs de biodiversité.
Leur présence peut également présenter un atout touristique important. La
présence ou l’absence d’oiseaux dans les prairies sont déterminées par plusieurs facteurs, notamment par les caractéristiques de leur habitat comme
l’intensité du pâturage ou la surface en eau (Milsom et al., 2000 ; Tichit et al.,
2005 ; Makowski et al. 2009). Nous nous intéressons ici à la modélisation de
l’effet d’une variable caractérisant la prairie, la hauteur d’herbe, sur la présence d’une espèce d’oiseau dans les prairies du “Marais Poitevin” en France.
L’espèce d’oiseau considéré ici est le chevalier gambette (Tringa totanus), un
échassier vivant dans les prairies humides et dans les marais. L’objectif est
de développer un modèle logistique pour calculer la probabilité de présence
de cet oiseau en fonction de la hauteur d’herbe (cm).
La base de données est constituée de 424 sites-années correspondant à des
prairies localisées dans le Marais Poitevin en France. Une mesure moyenne de
hauteur d’herbe (moyenne de 50 mesures par prairie, soit environ 20 mesures
par hectare) et une mesure de présence / absence de Chevalier Gambette ont
été réalisées sur chaque site-année. Les mesures de présence / absence ont
été réalisées au stade ‘incubation’ de l’oiseau selon la méthode de Milsom
et al. (2000) (observation de chaque prairie à la jumelle binoculaire ou au
télescope tous les 10 jours à une distance généralement supérieure à 150m).
3.2
Questions
– Définir la variable d’entrée et la variable de sortie du modèle logistique
permettant de prédire la présence d’oiseau dans une prairie en fonction
de la hauteur d’herbe
– Lire le fichier Oiseau.txt à l’aide de l’instruction R read.table et afficher
le tableau de données.
– Faire un graphique des données de type boxplot pour présenter la distribution des hauteurs d’herbe lorsque l’oiseau est présent et lorsqu’il
est absent
3
– Estimer les paramètres du modèle avec les données en utilisant l’instruction glm
– Réaliser des tests statistiques pour tester l’effet de la hauteur d’herbe
sur la présence de l’oiseau
– Tracer la courbe des probabilités de présence de l’oiseau calculées par
le modèle
4
TD4 : Effet de la taille de pruniers
4.1
Objectif
On cherche à mesurer l’effet de la taille (influence de la longueur des
racines et la date de replantation) sur la survie de plans de pruniers. Quatre
traitements expérimentaux (2 dates de taille * 2 longueurs de taille) ont été
appliqués à différents pruniers et les arbres vivants et morts ont été comptés.
4.2
Questions
– Lire et afficher les données du fichier prune.txt.
– Définir des modèles reliant la probabilité de survie du prunier à la date
de taille et/ou la longueur de taille
– Estimer les paramètres de ces modèles à l’aide des données en utilisant
glm
– Réaliser des tests statistiques pour tester l’effet de la date et de la
longueur de taille
4