Décision dans les agro-écosystèmes - MulCyber

Transcription

Décision dans les agro-écosystèmes - MulCyber
Décision dans les agro-écosystèmes
Gauthier Quesnel, Mahuna Akplogan, Mathieu Bonneau,
Roger Martin-Clouaire, Nathalie Peyrard, Jean-Pierre Rellier,
Régis Sabbadin, Ronan Trépos
UR 875 – Unité de Mathématiques et Informatique Appliquées de Toulouse
INRA, 24 Chemin de Borde Rouge - Auzeville CS 52627
31326 Castanet Tolosan CEDEX
[email protected]
Au cours de ces dernières années, la gestion des agro-écosystèmes est devenue un enjeu majeur du développement durable. Cette gestion doit permettre de résoudre des problèmes
environnementaux cruciaux et doit prendre en compte les brusques changements de contexte tel
que les changements climatiques ou de politique agricole, etc. La réponse à ces problèmes de
décisions complexes passe par un recours accru à la modélisation, la simulation et l’expérimentation virtuelle.
Dans cet article, nous présentons des travaux récents de l’intelligence artificielle ayant contribués au thème de la modélisation et la simulation de systèmes complexes pour l’analyse des
modèles agronomiques et la conception de décision. Ces travaux sont principalement ceux de
l’équipe MAD, équipe référente à l’INRA pour la décision dans les agro-écosystèmes. Nous présentons des formalismes originaux pour la modélisation et la simulation de systèmes complexes
ainsi que pour la conception de stratégies basés sur les réseaux de contraintes pondérées ou
les processus décisionnels de Markov. Nous abordons ensuite le couplage entre les deux thèmes
simulation et décision. Enfin, nous illustrons l’utilisation de ces méthodes et modèles sur plusieurs cas d’études en gestion des agro-écosystèmes.
RÉSUMÉ.
In recent years, the sustainable management of agricultural and ecological systems
has become a major challenge. Sustainable management has to solve crucial environmental
problems linked, in part, to rapid changes in context: climatic changes, agricultural policy objectives changes, etc. Solving this challenge involves the joint development of researches in
modelling, simulation and virtual experimentation.
In this article, we present some recent work of the Agro-ecosystem Modelling and Decision
(MAD-MIAT-INRA) team and some related work by other research teams, devoted to the the
modelling and simulation of complex systems, involved in agro-ecosystem management. Then,
we present new formalisms for management strategies design, based on the Weighted Constraint
Satisfaction Problems or the Markov Decision Processes frameworks. We also how how simulation and conception of strategies can be integrated. Finally, we illustrate the use of the presented approaches on several case studies in Agroecosystems management, jointly tackled with
ABSTRACT.
Hermès Science Publication – no y/2013, 1-37
2
HSP. Volume x – no y/2013
research teams in Agronomy.
Agro-écosystèmes, Simulation à événements discrets, Conceptions de stratégies,
MOTS-CLÉS :
Planification
KEYWORDS:
Agroecosystems, Discrete Event Simulation, Design of strategies, Planning
c 2013 Lavoisier
DOI:10.3166/HSP.x.1-37 3
Table des matières
1
Introduction
5
2
Approches basées sur la simulation de stratégies de gestion
6
2.1
Simulation à événements discrets de la dynamique des agro-écosystèmes
7
2.2
Simulation du pilotage des agro-écosystèmes . . . . . . . . . . . . .
10
3
Conception de stratégie de gestion des agro-écosystèmes
12
3.1
Planification hiérarchique . . . . . . . . . . . . . . . . . . . . . . . .
14
3.1.1
Concepts de la planification HTN . . . . . . . . . . . . . . .
14
3.1.2
Approche de planification dans les HTN . . . . . . . . . . . .
15
3.1.3
Illustration sur le problème du choix d’un mode de conduite
en agriculture . . . . . . . . . . . . . . . . . . . . . . . . . .
16
Planification par satisfaction de contraintes pondérées . . . . . . . . .
17
3.2.1
Problème de satisfaction de contraintes . . . . . . . . . . . .
17
3.2.2
Réseaux de contraintes pondérées . . . . . . . . . . . . . . .
18
3.2.3
Illustration sur l’allocation de culture . . . . . . . . . . . . .
19
Planification dans l’incertain et Processus Décisionnels de Markov . .
21
3.3.1
Processus décisionnels de Markov . . . . . . . . . . . . . . .
21
3.3.2
Illustration sur un problème de gestion forestière . . . . . . .
23
3.2
3.3
4
Conception de stratégies par simulation et apprentissage
23
5
Illustrations
25
5.1
SAFIHR : Modélisation d’un agent agriculteur . . . . . . . . . . . . .
25
5.1.1
Problème de décision . . . . . . . . . . . . . . . . . . . . . .
25
5.1.2
SAFHIR : Planification continue . . . . . . . . . . . . . . . .
26
5.1.3
Aperçu du fonctionnement global . . . . . . . . . . . . . . .
28
Conception de stratégies adaptatives d’échantillonnage pour la cartographie d’espèces adventices dans une parcelle . . . . . . . . . . . .
30
5.2
6
Conclusion
31
4
HSP. Volume x – no y/2013
Bibliographie
32
5
1. Introduction
L’objectif principal de l’agriculture a toujours été la production et la sécurité alimentaire, mais s’y ajoute, depuis quelques décennies, celui de rendre des services
environnementaux comme, par exemple, éviter de contribuer au réchauffement climatique, empêcher la détérioration des sols, garantir une eau pure, éviter les invasions
de pathogènes et entretenir la biodiversité. D’autre part, d’importants changements de
contexte concernant, en particulier, la politique agricole, la demande des consommateurs, les contraintes fortes du marché, l’aspiration des agriculteurs à une meilleure
qualité de vie imposent des remises en question et de profondes évolutions dans la
profession. Ces enjeux environnementaux et socio-économiques nécessitent de repenser les stratégies de production ainsi que les systèmes et les pratiques agricoles afin de
les adapter aux conditions nouvelles.
Pour répondre à ces défis, il convient de réorienter la masse de savoirs et d’expertises accumulés depuis les années 50 vers des stratégies favorisant à la fois la productivité des systèmes agricoles et la conservation des ressources naturelles. Les recherches en agro-écologie (Wezel et al., 2009) visent précisément l’établissement d’un
meilleur compromis entre agriculture et environnement, dans un contexte dégradé (appauvrissement des sols et réduction des surfaces agricoles) et changeant, caractérisé
par la montée des aléas physiques (changement climatique), biologiques (émergences
de bioagresseurs), et économiques (volatilité des prix de l’énergie, des intrants et des
produits agricoles). La manière de prendre les décisions relatives au choix et à l’organisation spatio-temporelle des cultures et des interventions techniques à l’échelle
de l’exploitation agricole doit être profondément réexaminée. En effet, les pratiques
impactent directement les ressources naturelles (e.g. en accentuant l’érosion du sol, en
diminuant la biodiversité, en consommant massivement ou, parfois, en polluant l’eau)
et la qualité des produits (sécurité alimentaire, saveur, authenticité). Elles sont aussi
déterminantes dans les performances économiques des systèmes de production et de
l’attractivité de l’agriculture comme pourvoyeur d’emploi. Pour concilier productivité et conservation des ressources naturelles, les modes de gestion des agriculteurs
(Horlings, Marsden, 2011) devront explorer des voies nouvelles permettant d’intensifier l’usage des processus écologiques et mettre en œuvre des innovations issues à
la fois de travaux scientifiques et de connaissances traditionnelles ou empiriques portées par les agriculteurs eux-mêmes. Un des principaux défis de l’agriculture du 21e
siècle est d’assurer une transition vers une gestion durable des agro-écosystèmes (écosystèmes modifiés par les activités agricoles) qui vont des cultures, des pâturages, du
bétail, ou d’autres espèces de flore et de faune, jusqu’aux sols, l’eau et l’atmosphère.
Selon les principes de l’agro-écologie, la conception et la gestion durable des agroécosystèmes doivent se faire en favorisant les interactions et synergies biologiques
et écologiques favorables, grâce à l’intégration des services écosystémiques (Power,
2010) qui comprennent, en particulier, les services de régulation (le contrôle des populations nuisibles, la pollinisation, la filtration de l’eau) et les services d’approvisionnement (les matières brutes obtenues à partir des agro-écosystèmes). La problématique
scientifique de gestion des agro-écosystèmes se transforme en celle de la recherche de
6
HSP. Volume x – no y/2013
compromis entre tous ces services et de la conception de façons innovantes d’exploiter efficacement, maintenir et régénérer les ressources internes des (agro)écosystèmes.
L’étude des problèmes de (re)configuration d’agroécosystème (décisions stratégiques)
(Martin et al., 2013) et de pilotage adaptatif (décisions opérationnelles) sont au cœur
de la problématique. Il s’agit de coordonner dans le temps et dans l’espace les services
écosystémiques pour satisfaire des objectifs complexes de durabilité (économiques,
environnementaux et sociaux) couvrant différentes échelles temporelles (considération de l’immédiat et du futur plus lointain), spatiales (prise en compte des conséquences induites ailleurs) et sociales (un compromis doit être trouvé entre tous les
collectifs concernés par les services en question).
Les travaux à mener se situent à l’interface entre sciences de la nature et sciences
humaines et sociales en s’appuyant fortement sur la modélisation. Un besoin croissant
se fait donc sentir pour des outils mathématiques et informatiques permettant de :
– mieux comprendre les interactions entre les composantes physiques, biologiques et anthropiques des agro-écosystèmes ;
– faciliter la conception, la mise en œuvre et l’évaluation des interventions pratiques qui favorisent la durabilité des systèmes agricoles dans des contextes particuliers ;
– prédire l’évolution des agro-écosystèmes en fonction par exemple du changement climatique.
De nombreux outils mathématiques ou informatiques ont été ou sont utilisés pour
étudier les agro-écosystèmes, la simulation (Le Ber et al., 2012), le model-checking
(Largouët et al., 2011), le data-mining, la visualisation de données, la reconnaissance
de forme ou encore l’optimisation et l’apprentissage par renforcement.
Dans cet article, nous présentons plusieurs formalismes mathématiques et informatiques issus de travaux en intelligence artificielle, en recherche opérationnelle ou
en planification récemment appliqués à la gestion des agro-écosystèmes. Nous présentons en particulier, certains des travaux de l’équipe Modélisation des Agro-systèmes et
Décisions (MAD) ayant pour thème la modélisation et la simulation de systèmes complexes pour exploiter les modèles agronomiques et les modèles de décision (section
2). Nous présentons par la suite des formalismes de conception de stratégie (section 3)
tels que les réseaux de contraintes pondérées ou les processus décisionnels de Markov
avant d’aborder le couplage entre les thèmes simulation et décision (section 4). Dans
la section 5, nous illustrons ces méthodes sur des travaux récents de mise en œuvre
de la gestion des agro-écosystèmes. Enfin, dans la section 6, nous concluons sur les
résultats obtenus ces dernières années et les travaux futurs envisagés.
2. Approches basées sur la simulation de stratégies de gestion
Depuis une vingtaine d’années, de nombreux travaux en informatique (Attonaty
et al., 1993 ; Bergez et al., 2001 ; Muetzelfeldt, Massheder, 2003 ; Bolte et al., 2003 ;
Martin-Clouaire, Rellier, 2009) ont été menés afin d’exploiter les modèles conceptuels
7
agronomiques et aider les agronomes à analyser, évaluer, comprendre et concevoir
par simulation des systèmes intégrant l’agriculteur et les systèmes physiques qu’il
contrôle.
Aujourd’hui, la poursuite de ces travaux est devenu prépondérante pour répondre
à de nouveaux besoins comme la prédiction des modèles en fonction des changements
à venir qu’ils soient climatiques ou humains mais également pour comprendre les
interactions entre ces systèmes complexes, systèmes qui s’affinent et se perfectionnent
en fonction des évolutions technologiques des ordinateurs et des connaissances des
thématiciens.
2.1. Simulation à événements discrets de la dynamique des agro-écosystèmes
Les systèmes que nous étudions sont caractérisés par l’interaction entre activités
agricoles, processus biophysiques et processus de décision individuelle ou collective,
aux échelles de la parcelle agricole, de l’exploitation dans sa globalité ou d’un territoire plus vaste, pour des horizons temporels allant de la journée à plusieurs décennies.
Nous sommes ainsi amenés à coupler des modèles de dynamique du système piloté
(les modèles de culture par exemple) de comportements décisionnels (les stratégies
de conduite par exemple) et, éventuellement, d’exécution des actions décidées. D’une
manière générale (Martin-Clouaire, Rellier, 2009 ; Le Gal et al., 2007), le système de
production agricole peut être divisé en trois systèmes en interaction : le système de
décision, le système opérant et le système biophysique (cf. figure 1). Chacun de ces
systèmes est constitué de processus indépendants qui modélisent la dynamique des
éléments constituant le système. Ce découpage permet de séparer les processus de
décision de l’agent, des processus biophysiques qu’il contrôle. De plus, cette architecture d’identifier les processus opérationnels qui résultent de la mise en œuvre des
consignes d’exécution de tâches ou d’observation de l’agent.
Cette séparation met en évidence le besoin de couplage formel de systèmes dynamiques modélisés à l’aide de formalismes de modélisation différents, (équations
différentielles, automates à états, par exemple). Le cadre formel de simulation à événements discrets DEVS (Zeigler, 1984) et plus particulièrement sa version parallèle
et à structure dynamique DSDE (Barros, 1998) permettent de proposer une approche
systémique pour la simulation de la décision dans un agro-écosystème. DEVS est un
formalisme reconnu pour la spécification de systèmes discrets ou continus complexes.
Ce formalisme est représenté par un réseau de modèles atomiques (figure 2) et couplés
(figure 3), en interaction et en concurrence sur le temps. Pour une description complexe du formalisme, nous recommandons la lecture du chapitre 3 de (Zeigler et al.,
2000).
DEVS définit un modèle atomique comme un ensemble de ports d’entrée et de
sortie, d’états et de fonctions de transition d’états :
M = hX, Y, S, δint , δext , δcon , λ, tai
(1)
8
HSP. Volume x – no y/2013
Statuts des tâches
État des systèmes OS/BS
Système agent AS
Système de
croyances
Système intentionnel MI
(processus de décision)
MB
Consigne d’exécution
des tâches et
des observations
Statuts des tâches
Système opérant OS
(processus opérationnels)
Réaction / Perturbation
Actions / Perturbation
Système biophysique BS
(processus biophysique)
Figure 1. Modèle d’interaction des éléments d’un système de production agricole.
M
x0
··· s =
xn
δint (s, e)
δext (s, e, x)
δcon (s, x)
si
si
si
X = ∅, e = τ (s)
X 6= ∅, 0 ≤ e < τ (s)
X 6= ∅, e = τ (s)
y0
···
yn
Figure 2. Représentation graphique d’un modèle atomique DEVS M .
Où :
X est l’ensemble de toutes les valeurs d’entrée ;
Y est l’ensemble de toutes les valeurs de sortie ;
S est l’ensemble de tous les états séquentiels ;
ta : S → R+
0 est la fonction d’avancement du temps ;
Q = {(s, e)|s ∈ S, 0 ≤ e ≤ ta(s)}, Q est l’ensemble des états totaux où,
e est le temps depuis la dernière transition.
δint : S → S est la fonction de transition interne ;
δext : Q × X b → S est la fonction de transition externe et
X b est un ensemble d’événements dans X produit à un instant donné ;
δcon : S × X b → S est la fonction de transition de conflit,
sujette à δcon (s, ∅) = δint (s).
λ : S → Y est la fonction de sortie.
Si aucun événement externe n’arrive sur un port d’entrée du modèle, le système
reste dans l’état s pour ta(s) unité de temps. Quand e = ta(s), le système change
d’état via l’appel de δint . Cette fonction représente l’autonomie du modèle atomique.
9
Si un événement externe de valeur x arrive quand le système est dans l’état (s, e) avec
e < ta(s), le système change son état en appelant δext (s, e, x). Cette fonction représente la réponse aux perturbations extérieures. S’il arrive quand dans l’état (s, e) avec
e = ta(s), le système change son état en appelant la fonction de conflit δcon (s, x).
Cette fonction est appelée lorsqu’un conflit survient entre au moins un événement
externe et l’échéance de la fonction ta(s) au même instant.
Tous les modèles atomiques peuvent être couplés avec un ou plusieurs autres modèles atomiques pour former un modèle couplé. Cette opération peut être répétée pour
former une hiérarchie de modèles couplés. L’ensemble de modèles atomiques, couplés et leurs connexions forme la structure du modèle. Un modèle couplé est défini de
façon récursive par :
x0
x0
x1
A
y0
x0
y1
x1
B
y0
x0
y1
x1
x0
x1
x1
x0
x1
E
D
C
y0
y0
y1
y0
y1
y1
y0
y1
Figure 3. Représentation graphique d’un modèle couplé DEVS N comprenant cinq
modèles atomiques ou couplés et un réseau de connexions représenté par la fonction
i-to-d.
N = hX, Y, D, {Md }, EIC, EOC, ICi
(2)
Où X et Y sont les ports d’entrée et de sortie, D l’ensemble des sous-modèles
atomiques ou couplés. Ainsi, ∀d ∈ D, Md est un modèle DEVS atomique ou couplé.
Les variables EIC , EOC et IC définissent la structure de couplage du modèle couplé
avec :
– EIC est l’ensemble des couplages externes en entrée, ils connectent les entrée
du modèle couplé aux composants internes.
– EOC est l’ensemble des couplages externes en sortie, ils connectent les sorties
des composants internes au sortie du modèle couplé.
– IC définit les couplages internes. Ils connectent les sorties des composants internes aux entrées des compostants internes.
Le formalisme DEVS est très général et le développement de modèles opérationnels est loin d’être simple. En effet, il est nécessaire, tout d’abord de s’inscrire dans
une modélisation à événements discrets or, de nombreux modèles sont à base d’équations différentielles (à temps continu) ou d’équations récurrentes (à temps discret) et
leur reformulation en modèles à événements discrets DEVS n’est pas triviale. Deuxièmement, le formalisme DEVS laisse une totale liberté sur l’expression des états, des
10
HSP. Volume x – no y/2013
fonctions de transition, des valeurs transportées par les événements et offre simplement une structuration des modèles et une algorithmique minimaliste. Cette simplicité
permet de définir un socle solide et simple pour le couplage des modèles. Il est donc
nécessaire, dans la pratique, de disposer d’une infrastructure informatique pour aider
le modélisateur. Le logiciel VLE (Virtual Laboratory Environment) (VLE) (Quesnel
et al., 2009) est une solution modulaire et extensible pour réaliser des modèles multiformalismes par couplage. Il est implémenté suivant le concept de DEVS Bus (Zeigler
et al., 2000 ; Quesnel et al., 2009).
La multimodélisation dans VLE s’appuie sur une des propriétés essentielles de
DEVS : l’encapsulation. En effet, B. P. Zeigler a montré que les formalismes issus des
systèmes dynamiques où le temps est discrétisé, événementiel ou continu, peuvent être
représentés ou généralisés en DEVS. Ainsi, plutôt que de développer des simulateurs
spécifiques aux modèles à temps discret de type DTSS, à temps continu comme DESS,
ou hybride comme DEV&DESS (Zeigler et al., 2000), l’encapsulation propose de
modéliser ces formalismes directement en tant que modèle DEVS.
Les travaux de l’équipe autour de DEVS et du couplage de formalismes ont permis
de modéliser et de simuler des systèmes complexes comme le sont les exploitations
agricoles mêlant et couplant des modèles de décision réactifs ou planifiés représentant
les agents décideurs et des modèles continus ou discrets représentant les systèmes
biophysiques par exemple les modèles de plantes, les modèles d’exploitation ou les
modèles météorologiques. L’ensemble de ces travaux ont fait naître la plate-forme
RECORD (Bergez et al., 2012). Cette plate-forme de modélisation et de simulation
des agro-écosystèmes de l’INRA vise à aider les modélisateurs de l’INRA à modéliser,
étudier, analyser, optimiser et réutiliser leurs modèles. Cette plate-forme de services
fournit un ensemble de support sur l’utilisation de VLE via des formations et des
documentations techniques. Elle fournit également des maintenances et des évolutions
logicielles ainsi qu’une bibliothèque de modèles réutilisables.
2.2. Simulation du pilotage des agro-écosystèmes
La conduite d’une production agricole est une tâche notoirement complexe parce
que le comportement du système dépend beaucoup de facteurs exogènes sur lesquels
le décideur n’a pas prise, le climat étant le plus important d’entre eux. Comme en production manufacturière, la modélisation et la simulation constituent un outil précieux
pour étudier le fonctionnement des systèmes de production agricoles et aider à mieux
comprendre les conditions de leur viabilité, améliorer leur efficience et leur robustesse
à l’aléa, ou trouver des manières innovantes de les conduire en présence de nouvelles
conditions économiques, sociales ou réglementaires. Les modèles de fonctionnement
de cultures ou d’agrosystèmes sont utilisés par les agronomes depuis l’avènement de
la micro-informatique (Keating et al., 2003). Dans le prolongement des travaux sur
la simulation des processus biophysiques plusieurs projets, en particulier en France
(Leroy et al., 1997 ; Bergez et al., 2001 ; Chatelin et al., 2005 ; Martin-Clouaire, Rellier, 2009), ont été menés afin de pouvoir étudier plus précisément les questions de
11
gestion de productions agricoles et de mieux comprendre l’articulation entre les processus biophysiques et les processus de décision utilisés par l’agriculteur pour piloter
les premiers.
Au cœur de ce type d’étude se trouve le problème de la représentation du comportement décisionnel d’un agriculteur dans sa tâche de conduite. Il est largement
admis que le pilotage du système de production repose sur l’application de ce que
nous appelons une stratégie de conduite, une sorte de programme d’action préétabli
manuellement et spécifiant comment doivent être planifiées les activités de conduite,
comment cette organisation doit être adaptée dans certaines situations identifiées, et
quelles conditions et contraintes doivent être prises en compte dans la détermination
pas à pas des actions à réaliser et des modalités d’exécution en fonction des circonstances rencontrées. Pour étudier le fonctionnement d’un système de production, il faut
modéliser le processus de décision et ses interactions avec les processus biophysiques
objets du contrôle, le déroulement des actions résultant de la prise de décision, et les
facteurs importants de l’environnement extérieur.
De nombreux modèles de simulation de systèmes de production agricole ont été
développés dans les vingt cinq dernières années, mais en se cantonnant à des problèmes étroits comme l’application d’un itinéraire technique (séquence d’interventions) sur une parcelle cultivée (e.g. DECIBLE (Chatelin et al., 2005) pour le blé
d’hiver ou APSIM (Keating et al., 2003) pour diverses cultures), la gestion de l’irrigation (e.g. IRMA (Leroy et al., 1997) ou MODERATO (Bergez et al., 2001) pour
le maïs irrigué) ou la gestion du pâturage en élevage bovin (e.g. SEPATOU (Cros et
al., 2001)). L’étude des décisions impliquant des considérations opérationnelles a été
très peu abordée. Une exception et un précurseur est apparu avec le système OTELO
(Attonaty et al., 1994) initialement développé pour étudier l’organisation du travail et
la gestion des conflits sur l’utilisation des équipements en grande culture. Les auteurs
proposent un modèle et un simulateur permettant de représenter les ressources, l’enchaînement d’activités qui les requièrent et les priorités d’allocation en fonction des
situations rencontrées. Dans ces simulateurs, la modélisation du processus de prise de
décision repose sur des représentations par règles de décision.
L’outil DIESE (Martin-Clouaire, Rellier, 2009) qui s’inscrit dans le prolongement
d’OTELO, est fondé sur une ontologie du domaine, c’est-à-dire un corps formel de
connaissances sur la structure, le fonctionnement et la dynamique des systèmes, en
particulier agricoles. Une partie notable de ce corps de connaissances porte sur le
pilotage des systèmes, et sur les données et les raisonnements qu’il mobilise. Parmi
les données, celles relatives au travail sont la nature, l’agencement et les propriétés
des activités, des opérations et des ressources qu’elles mobilisent. Les raisonnements
portent sur la localisation spatio-temporelle des actes techniques, en fonction de la
perception dynamique de l’état du système, et l’allocation des ressources aux activités. Ce cadre accorde une place importante à la modélisation du contexte dans lequel
le travail se déroule, c’est-à-dire les conditions qui président à la détermination des
activités à réaliser à un moment donné et au déroulement de leur réalisation. L’agent
en charge de la conduite est modélisé à travers son observation (surveillance) de l’ap-
12
HSP. Volume x – no y/2013
pareil de production, sa prise de décision en situation quant aux interventions sur cet
appareil. Pour analyser le comportement organisationnel du gestionnaire, il est nécessaire de modéliser la nature circonstancielle des décisions opérationnelles qui, du fait
des facteurs incontrôlables (p. ex. le climat) pesant sur un système agricole, voient leur
pertinence et leur faisabilité très dépendantes des conditions et contraintes courantes,
en particulier celles qui concernent les ressources.
DIESE permet d’expliciter et d’exécuter des plans qui sont flexibles à travers la
pertinence agronomique des activités qui depend de l’état courant du système, les spécifications temporelles des activités (début et fin au plus tôt et au plus tard), leurs
positions relatives (en séquence, en parallèle, synchronisées ou pas), et leurs caractères optionnel et alternatif. Il autorise d’autre part la spécification d’activités à répéter
conditionnellement à l’état. Les activités ont elles-mêmes un état (ouvert, fermé, en
attente, dormante) mis à jour par l’interpréteur de plan qui tient compte de l’avancée
du temps et propage les conséquences d’un changement d’état d’une activité à toutes
celles qui lui son liées directement ou indirectement. Dans DIESE les tâches à exécuter sont déterminées chaque fois que se produit un changement de disponibilité sur les
ressources ou que se termine une activité. DIESE récupère alors les activités ouvertes
et génére les sous-ensembles d’activités pouvant être allouées en ressources (MartinClouaire, Rellier, 2011). Il choisit finalement un de ces sous-ensembles en fonction
de critères propes au décideur modélisé. Autrement dit DIESE ne fait qu’interpréter
itérativement le plan flexible qui lui est fournit et ne produit pas d’ordonnancement
prévisionnel sur un horizon court comme le fait SAFHIR, présenté plus loin dans la
partie illustrations. Des applications de DIESE existent en élevage (Martin et al., 2011)
(Chardon et al., 2012), viticulture (Ripoche et al., 2011) et grandes cultures (Rellier
et al., 2011).
Enfin, l’extension « Décision » (Akplogan et al., 2010) du simulateur VLE (Quesnel
et al., 2009) propose une approche systémique ou boîte noire de la simulation de stratégies de gestion. Cette extension du formalisme DEVS formalise un exécuteur de
plans flexibles où chaque activé est transformée en automates à états, les connexions
en contraintes de précédence, les consignes en événements externes. Ces travaux sont
à la base du projet SAFHIR présentée dans la partie illustration.
Les travaux présentés dans cette section répondent à deux problèmes présents dans
le cas de la simulation de systèmes dynamiques. Le premier, le couplage de systèmes
de décision avec des systèmes biophysiques. Le second, la modélisation de processus
décisionnel dans le but de représenter le comportement décisionnel d’un agriculteur
dans sa tâche de conduite. Cependant, dans ces travaux, l’aspect objectif de la décision
n’apparaît pas. Dans les prochaines sections, nous développons cette problématique
dans le but d’introduire de la planification et de l’anticipation dans les modèles.
3. Conception de stratégie de gestion des agro-écosystèmes
Les formalismes de modélisation décrits précédemment n’explicitent pas les objectifs de l’agriculteur. Ils ne sont pas capables non plus d’intégrer l’anticipation dans
13
le processus décisionnel. Cependant les recherches en agronomie soulèvent la nécessité de prendre en compte l’ensemble de ces facteurs. Les récents travaux de Snow
(Snow, Lovatt, 2008) montrent la pertinence de cette piste. Elle intègre la notion d’anticipation sous la forme d’une exploration d’arbre de décisions à base de planification
et replanification. La planification permet de construire une suite de décisions dans
l’optique d’atteindre un objectif prédéfini. Elle consiste à raisonner l’organisation des
décisions avant même que leur mise en œuvre ne soit réalisée.
Dans le domaine de l’intelligence artificielle, la planification occupe une partie
très importante. De nombreux ouvrages d’IA (Russell, Norvig, 2010 ; LaValle, 2006 ;
Ginsberg, 1994) présentent différentes techniques de planification. Toutefois, le terme
planification est un terme générique. En effet, il existe autant de méthodes de planification que de types de décision auxquelles on pourrait être confronté. Par exemple en
robotique, (Ghallab, 2001) parle (i) de planification de mouvement pour la construction du chemin et de la trajectoire d’un robot dans l’espace, (ii) de planification pour
la communication en référence aux interactions robot-robot voir homme-robot, (iii)
de planification de tâches pour l’organisation des actions (tâches) d’un ou plusieurs
robots etc.
Les problèmes de planification de tâches sont les plus proches de ceux auxquels
nous nous intéressons dans le cadre de la gestion des agro-écosystèmes. Pour (Ghallab,
2001), c’est la forme la plus générale et la plus abstraite de la planification. Elle vise
à déterminer et à organiser un ensemble de tâches dans le temps et à leur attribuer des
ressources compte tenu des évolutions prévisibles de l’environnement. Ainsi, nous
parlerons dans la suite de cet article de planification en référence à la planification
automatisée de tâches.
Au cours des dernières années, les chercheurs de l’équipe ont développé des approches de modélisation des comportements décisionnels de pilotage de systèmes de
production en mettant l’accent sur (i) la prise en compte de l’incertitude, (ii) la caractérisation de stratégies robustes et flexibles et (iii) sur la coordination des activités de gestion de production. Ces approches intègrent des contraintes structurelles,
agronomiques, environnementales et économiques. Les recherches portent sur la caractérisation de ces processus décisionnels et sur le développement de formalismes
génériques de représentation permettant leur simulation, leur utilisation dans des démarches de conception participative ou d’optimisation. Elles s’appuient et contribuent
à des approches issues de l’intelligence artificielle, de la recherche opérationnelle, des
sciences économiques et des sciences des organisations et de la gestion de production.
En planification dans l’incertain, l’aléa de l’environnement extérieur (particulièrement présent en agronomie, comme dans toutes les sciences de l’environnement) est
pris en compte à travers la modélisation d’effets stochastiques des actions. Dans ce
cas, une action peut avoir plusieurs effets potentiels différents lorsqu’elle est appliquée dans un même état. C’est pourquoi, la notion de plan d’action est remplacée par
la notion de politique δ = {δt }, associant à toute trajectoire partielle (x0 , . . . , xt ) une
action at = δt (x0 , . . . , xt ) ∈ A. On parle parfois de plan conditionnel, contrepartie
des plans classiques, dits inconditionnels.
14
HSP. Volume x – no y/2013
Dans la suite de cette section, nous décrivons trois approches de la planification
ayant donné lieu à des applications en agronomie et en gestion de l’environnement : la
planification hiérarchique, la planification basée sur les problèmes de satisfaction de
contraintes et la planification dans l’incertain basée sur les processus décisionnels de
Markov.
3.1. Planification hiérarchique
La planification hiérarchique se base sur le concept de hiérarchie d’abstraction des
actions et vise à réduire la complexité liée à l’espace de recherche des plans. Le principe de fonctionnement d’un planificateur hiérarchique consiste à produire à chaque
niveau, un plan explicite qui résout le problème posé au « niveau d’abstraction » considéré. Le planificateur commence par dresser un plan à haut niveau, ce plan est ensuite
enrichi au fur et à mesure que le planificateur progresse dans les différents niveaux,
ceci jusqu’à l’obtention d’un plan composé uniquement de tâches de bas niveau.
Les avantages de la planification hiérarchique tiennent à trois grands principes :
– l’exploitation des connaissances expertes spécifiques au domaine. Ces connaissances sont représentées dans les différentes hiérarchies.
– la réduction de l’espace de recherche au travers du raisonnement sur les différentes couches d’abstractions,
– la résolution des interactions entre sous-tâches représentées par les contraintes
d’ordre partiel ou total.
C’est au milieu des années 90 que (Erol et al., 1994) puis (Nau et al., 2003) développent une base formelle, des algorithmes et une analyse de complexité de la planification hiérarchique. Dès lors, le terme planification hiérarchique fait référence à
la planification Hierarchical Task Networks (HTN). Celle-ci est une approche de hiérarchisation des opérateurs dans laquelle le domaine de planification spécifie la façon
de réaliser les buts. Les planificateurs HTN les plus connus sont UCMP (Erol et al.,
1994), SHOP (Nau et al., 1999) et SHOP2 (Nau et al., 2003)
3.1.1. Concepts de la planification HTN
Les éléments de base proposés pour la formalisation HTN sont les états du système,
les tâches primitives ou composées et les méthodes de décomposition.
– États du système : un état est une liste de symboles propositionnels encore appelés atomes. Les atomes qui apparaissent dans cette liste sont tous satisfaits. Ceux
qui n’apparaissaient pas sont tous non satisfaits.
– Tâche : une tâche est une liste de la forme t(h1 , h2 , . . . , hn ) où t représente le
nom de la tâche et les hi des arguments de la tâche. Il existe deux types de tâches
dans un HTN. Les tâches composées et les tâches primitives. Les tâches composées se
décomposent en sous-tâches de façon récursive jusqu’à atteindre des tâches primitives
directement exécutables par le système.
15
– Tâches primitives : elles sont de la forme t(h1 , h2 , . . . , hn ). Elles correspondent
à des actions dans la planification de type STRIPS (Fikes, Nilsson, 1971). Les préconditions et les effets des tâches primitives sont déclarés en utilisant des opérateurs.
Ainsi, le nom d’une tâche primitive est celui d’un opérateur qui décrit son exécution.
– Opérateurs : les opérateurs sont de la forme (Operator o , pre, eff ) où o est la
tâche primitive, pre l’ensemble des atomes qui décrivent les conditions d’activation
de o et eff l’ensemble des atomes qui décrivent les effets de o.
– Tâches composées : elles sont également de la forme t(h1 , h2 , . . . , hn ). Elles
correspondent à un réseau de tâches. Une tâche composée décrit un plan d’action en y
ajoutant les conditions d’exécution des actions qu’elle comporte. Les tâches composées sont associées à des méthodes qui permettent de décomposer des tâches en sous
tâches. Les sous tâches peuvent être partiellement où totalement ordonnées.
– Méthodes : les méthodes sont de la forme (Methode m , pre, T ) où m définit le
nom de la tâche composée, pre l’ensemble des atomes qui décrivent les conditions
d’activation de la méthode m et T une liste de sous tâches.
Le graphe de recherche du planificateur est un arbre ET-OU. Chaque sous-arbre
représente un sous-problème. Les nœuds ET de cet arbre sont des sous-problèmes
qui ont pour fils d’autres sous-problèmes plus élémentaires. Un nœud ET est résolu à
condition que tous ses fils soient résolus. Un nœud OU de l’arbre est aussi un sousproblème. Chacun de ses fils représente une manière de résoudre le sous-problème.
Un nœud OU est résolu à condition qu’au moins un de ses fils soit résolu. Si plusieurs
nœuds OU sont applicables, des heuristiques peuvent être utilisées pour choisir le
nœud le plus adapté à la résolution du sous problème. Dans un HTN, les nœuds OU
sont encodés dans les méthodes et un nœud ET est une réduction d’un nœud OU.
3.1.2. Approche de planification dans les HTN
Les systèmes de planification HTN sont des systèmes de planification non linéaire
combinés à une hiérarchisation des actions. Le planificateur prend en entrée l’état initial et un réseau de tâches. Le fonctionnement d’un planificateur HTN est basé sur
une expansion des actions de haut niveau en actions de plus bas niveau. Pour chaque
action abstraite il existe des décompositions dont l’application aboutit à des actions
partiellement ordonnées. Ainsi, une action abstraite du plan courant peut être décomposée de différentes manières. Ces décompositions sont généralement stockées dans
une bibliothèque de plans et le choix d’une décomposition dépend d’un ensemble de
conditions. Les planificateurs HTN ignorent les préconditions, les effets et les liens
causaux entre les actions d’une décomposition tant que celle-ci n’est pas choisie. Le
fonctionnement d’un planificateur HTN est de ce fait une forme de réduction de problème auquel nous ajoutons du « backtracking ». Le principe de l’algorithme peut être
décrit comme suit :
1. Importer un problème de planification P .
2. Si P ne contient que des tâches primitives, alors résoudre les conflits et retourner le résultat. Si les conflits ne peuvent être résolus, alors retourner erreur.
16
HSP. Volume x – no y/2013
3. Choisir une tâche non primitive t dans P .
4. Choisir une expansion pour t.
5. Remplacer t avec l’expansion.
6. Trouver les interactions entre les tâches dans P et suggérer des façons de les
gérer. En choisir une.
7. Aller à l’étape 2.
Le plan solution est une séquence de tâches primitives.
3.1.3. Illustration sur le problème du choix d’un mode de conduite en agriculture
Le problème de choix du mode de conduite par couple cultures annuelles/parcelle
est un problème de planification intra-annuelle. Il revient à choisir pour chacune des
parcelles d’une exploitation agricole, l’enchaînement des opérations agricoles qui permettra d’atteindre les objectifs de production de l’agriculteur. Chaque opération agricole est soumise à un ensemble de contraintes temporelles (durée d’exécution, période
d’activation et période de fermeture) et de ressources.
Les plans d’actions résultants définissent les modes de conduite des cultures allouées aux parcelles. Les différents modes de conduite, encore appelés itinéraires
techniques (ITK), sont prédéfinis. Il en existe plusieurs pour chaque culture. Chacun
d’eux permet d’atteindre un objectif spécifique qui peut être de maximiser le rendement, de minimiser les intrants ou de minimiser la charge de travail. Les ITKs sont des
plans temporellement consistants, réalisables en fonction des capacités de ressources
et dont l’exécution nécessite une allocation explicite de ressources.
La capacité des planificateurs hiérarchiques à prendre en compte les connaissances
expertes spécifiques au domaine est très importante pour résoudre ce problème. En effet, l’agriculteur ne réinvente pas à chaque fois la manière de conduire ses cultures.
Il dispose, via ses itinéraires techniques, de connaissances suffisantes sur les différentes manières de résoudre le problème de conduite de culture. L’autre avantage de
l’approche HTN est relatif au fait qu’elle est plus efficace en ligne car elle réduit
l’espace de recherche. En contrepartie, elle nécessite l’utilisation d’heuristiques de
décomposition. Dans notre cas, l’heuristique de décomposition doit intégrer la notion
« d’exécutabilité » d’une décomposition au vu des autres décompositions choisies.
Cela résulte du fait que chaque décomposition pour une parcelle donnée est consommatrice de ressources alors que les disponibilités de ressources sont définies au niveau
global de l’exploitation.
Bien qu’ayant été utilisés pour de nombreuses applications du monde réel, les
planificateurs HTN classiques apportent très peu de réponses à la prise en compte
du temps. Or dans notre problème, sa prise en compte explicite est nécessaire. Le
cadre STN (Simple Temporal Networks) basé sur l’algèbre des instants de (Vilain et
al., 1986), est capable de représenter les relations temporelles sous la forme d’une
conjonction de relations entre des instants continus appartenant à des intervalles d’instants. L’algèbre des instants utilise des relations primitives {=, <, >, ≤, ≥, 6=}. Les
17
avantages de cette représentation sont notamment, la spécification des intervalles sur
les dates de début et de fin des tâches et la formulation de contraintes numériques liées
aux décalages temporels (timelag) entre tâches.
En se basant sur les réseaux de contraintes temporelles simples, les planificateurs
SIADEX (Castillo et al., 2005 ; 2006) et SAFHIR (Akplogan, 2013) ont introduit
des mécanismes d’extraction et de propagation des contraintes. Les STN sont utilisés
pour définir les réseaux de tâches associés aux tâches composées. Chaque contrainte
temporelle dans SIADEX exprime soit les dates de débuts, de fins, soit les relations
temporelles entre les tâches d’un réseau. La propagation des contraintes temporelles
est réalisée par une version modifiée de l’algorithme de cohérence de chemin Path
Consistency (PC-2 (Dechter, 2003)). Les algorithmes et les exemples d’utilisation de
HTN, STN et de la prise en compte des ressources sont disponibles dans (Akplogan,
2013).
3.2. Planification par satisfaction de contraintes pondérées
Les techniques de planification basées sur la satisfaction de contraintes ou CSP
(Constraint Satisfaction Problem) (Montanari, 1974) permettent d’appréhender certaines classes de problèmes généraux avec des algorithmes efficaces. Dans les prochaines section, nous décrivons (i) les CSP et (ii) leur extension WCSP avant de montrer un cas pratique de l’utilisation de ceux-ci dans un problème de planification d’allocation de cultures.
3.2.1. Problème de satisfaction de contraintes
Un problème de satisfaction de contraintes est défini par un tuple hX , D, Ci avec :
– X = {x1 , · · · , xn } un ensemble fini de variables,
– D = {D1 , · · · , Dn } un ensemble fini de domaines de variables tel que chaque
variable xi ∈ X soit associée à un domaine fini de valeur Di ∈ D,
– C = {CS1 , · · · , CSe } un ensemble contraintes dures c’est-à-dire à satisfaire absolument. Chaque contrainte dure CSj ∈ C porte sur un sous-ensemble de variables
S j ⊆ X , appelé portée de la contrainte. La taille | S j | de la portée, soit le nombre de
variables qu’elle comporte, est généralement appelé l’arité de la contrainte.
Les contraintes dures imposent des restrictions sur les affectations de valeurs aux
variables de sa portée. Soit l[Sj ] l’ensemble des combinaisons de valeurs sur la portée
S j . Chaque contrainte dure CSj n’autorise qu’un sous ensemble des combinaisons de
valeurs de l[Sj ]. Affecter une variable xi consiste à lui attribuer une valeur v appartenant à son domaine Di . L’affectation est généralement notée (xi = v).
Nous parlerons d’une affectation complète A pour signifier une affectation de
toutes les variables à une valeur. Autrement dit, A ∈ l[X ] est un élément de l’ensemble des combinaisons de valeurs sur l’ensemble D des domaines des variables X .
18
HSP. Volume x – no y/2013
Si l’affectation ne porte que sur un sous ensemble de variables Sj , nous parlerons
d’affectation partielle notée A[Sj ].
La projection d’une affectation partielle ou totale A = {x1 = v1 , . . . , xk = vk }
sur l’ensemble Y = {xi1 , . . . , xip } ⊂ {x1 , . . . , xk } est l’affectation partielle {xi1 =
vi1 , . . . , xip = vip }. Elle est notée A[Y ].
3.2.2. Réseaux de contraintes pondérées
Les CSP ne modélisent que l’autorisation ou l’interdiction de combinaisons de
valeurs. Or certains problèmes issus du monde réel sont par nature sur-contraints,
c’est-à-dire qu’ils ne possèdent aucune solution. Lorsque nous cherchons à modéliser
ces types de problème, il est primordial de définir des contraintes dures (à satisfaire
absolument) et des contraintes souples encore appelées préférences. Ces préférences
définissent des contraintes que nous souhaitons voir vérifier dans des solutions de
bonne qualité. Ainsi, l’objectif n’est plus de voir toutes les contraintes satisfaites mais
plutôt de les satisfaire du mieux possible. En d’autres termes, il s’agit de satisfaire
toutes les contraintes dures et de minimiser une agrégation des coûts des préférences
insatisfaites.
Pour modéliser des préférences sur certaines combinaisons de valeurs, les réseaux
de contraintes valuées (VCSP, Valued Constraint Satisfaction Problem) ont été proposés (Schiex et al., 1995). Cette extension de CSP permet d’appréhender différentes
classes de problèmes dont les réseaux de contraintes pondérées ou WCSP (Weighted
Constraint Satisfaction Problem) (Meseguer et al., 2006). Les réseaux de contraintes
pondérées sont une extension des réseaux de contraintes qui permet d’ajouter une
structure de valuation. Celle-ci permet de définir une structure algébrique caractérisant les coûts associés à certaines combinaisons de valeurs.
Un réseau de contraintes pondérées WCSP est défini par un tuple hX , D, Wi avec :
– X = {x1 , · · · , xn } un ensemble fini de variables.
– D = {D1 , · · · , Dn } un ensemble fini de domaines de variables tel que chaque
variable xi ∈ X soit associée à un domaine fini de valeurs Di ∈ D.
– W = {WS1 , · · · , WSe } un ensemble de fonctions de coûts. Soit l[Si ] l’ensemble
des combinaisons de valeurs sur la portée Si . Chaque fonction de coûts WSi ∈ W est
définie par WSi : l(Si ) → [0, m] avec m ∈ [1, · · · , +∞].
Le coût cost d’une affectation complète A ∈ l[X ] est :
cost(A)
=
X
WSi (A[Si ])
WSi ∈W
Où A[Si ] est la projection d’une affectation de valeurs sur le sous ensemble de
variables Si . La solution d’un WCSP est une affection complète A∗ ∈ l[X ] de coût
cost(A∗ ) telle que :
19
cost(A∗ )
=

min 
A∈l[X ]
X
WSi ∈W

WSi (A[Si ])
3.2.3. Illustration sur l’allocation de culture
Les WCSP présentés précédemment, ont été employés pour aborder le problème
de l’allocation de cultures. L’allocation de cultures (PAC) est l’une des décisions les
plus importantes auxquelles doit faire face un agriculteur. Elle intervient notamment
dans la première phase du processus de production des cultures et permet à l’agriculteur de planifier sur plusieurs années sa stratégie d’occupation du sol. Le terme
« allocation de culture » fait référence (i) au choix des cultures à produire, (ii) à la détermination des proportions annuelles de chacune des cultures et (iii) à l’allocation de
ces cultures aux parcelles de l’exploitation. Le PAC qui en découle nécessite la prise
en compte d’un ensemble de critères spatiaux (e.g. les zones cultivables, le type de sol)
et temporels (e.g. les contraintes de succession et effets précédents des cultures) interagissant à différentes échelles de l’exploitation agricole. Les dimensions spatiale et
temporelle d’un PAC sont étroitement liées dans la mesure où le choix des séquences
de culture pour chaque parcelle prédétermine l’occupation annuelle des parcelles de
l’exploitation agricole.
Le PAC est un problème de planification sur un horizon fini H, durant lequel des
cultures sont affectées aux parcelles (cf. figure 4) de manière à prendre en compte
un ensemble de concepts agronomiques relatifs (i) à l’organisation spatiale de l’exploitation et (ii) à la succession temporelle des cultures sur les parcelles. Résoudre
un PAC consiste donc à affecter sur un horizon fixe H des cultures aux parcelles.
Chaque affectation des cultures doit satisfaire un ensemble de contraintes dures et de
préférences. L’utilité des allocations est estimée par une fonction globale combinant
linéairement plusieurs critères relatifs aux préférences agronomiques et managériales
de l’agriculteur. Ce travail vise à appréhender l’ensemble des facteurs spatiaux et temporels exploités par l’agriculteur. Ces critères sont formalisés dans le cadre des CSP
pondérés sous la forme de contraintes dures et de préférences de l’agriculteur. Notre
choix des contraintes repose sur une étude réalisée par Dury (Dury et al., 2011) sur
les différentes pratiques des agriculteurs.
Les contraintes dures retenues dans cette illustration sont notamment les délais
de retour minimum des cultures, l’historique des parcelles, les propriétés physiques
(types de sol, accessibilité des ressources) des parcelles. Les préférences sont quant à
elles relatives aux effets précédents (kp ) qui se réfèrent à une parcelle et déterminent la
variation des caractéristiques biologiques, chimiques et physiques du sol entre le début
et la fin de la culture sous l’influence du peuplement végétal et des techniques qui lui
sont appliquées et à l’équilibre spatial et temporel des proportions de culture et ceci
sous contrainte de ressources. Les contraintes dures et les préférences sont définies
aussi bien au niveau : (i) des parcelles afin d’exprimer pour chacune d’entre elles la
possibilité (voir l’impossibilité) d’un redécoupage ou d’une fusion, (ii) des blocs afin
20
HSP. Volume x – no y/2013
p3
p4
Unités de gestion
4 blocs, 8 parcelles
b=2
Propriétés biophysiques
2 types de sol
kp
kp
p2
t1
p2
t2
p2
t3
Année
Figure 4. Représentation schématique des concepts spatio-temporels d’un PAC (ti :
année, b: bloc, pj : parcelle, kp : effet précédent).
d’exprimer la compatibilité spatiale des cultures aux parcelles, les délais de retour
minimum et les effets précédents des cultures, (iii) de l’exploitation afin d’exprimer
les objectifs de production ou l’usage des ressources.
Le WCSP suivant représente la définition du PAC pour un horizon fini H par un
ensemble de parcelles élémentaires et de cultures :
– X un ensemble de variables xtb,i ∈ X . Chaque variable xtb,i définit la parcelle élémentaire i du bloc b, i ∈ Nb , b ∈ [1, B] (B = le nombre de bloc et
N1 = le nombre de parcelle) à la date t (t ∈ [1, H]). Ainsi, chaque parcelle élémentaire est décrite par H variables correspondant à l’occupation de la parcelle élémentaire à chaque instant. Soient [1, h] et [h + 1, H] respectivement les instants du
passé (historique) et du futur.
– D les domaines Db,i des variables xtb,i est l’ensemble des cultures possibles sur
toutes les parcelles élémentaires.
– W les fonctions de coûts.
La formalisation de ces contraintes et préférences dans le cadre des WCSP sont
disponibles dans (Akplogan et al., 2011). L’apport de ces travaux par rapport à l’état
de l’art sur le PAC est la prise en charge des deux dimensions spatiale et temporelle du
PAC. Les résultats obtenus montrent que des solutions peuvent être trouvées en temps
raisonnable pour des PAC de petites et moyennes tailles.
21
3.3. Planification dans l’incertain et Processus Décisionnels de Markov
En planification dans l’incertain, l’effet d’une action sur l’état du monde n’est
pas forcément déterministe. Ceci est le cas, en particulier, dans les applications en
agronomie ou l’aléa extérieur, notamment climatique, influence beaucoup les conséquences des actions appliquées à un système semi-naturel. Plusieurs cadres ont été
proposés en intelligence artificielle, pour modéliser de tels problèmes de planification
dans l’incertain. Une famille d’approches, particulièrement fournie, est basée sur le
cadre des Processus Décisionnels de Markov (PDM) (Puterman, 1994), sur laquelle la
communauté de l’IA s’est appuyée pour proposer des modèles et algorithmes pour la
planification dans l’incertain (voir (Buffet, Sigaud, 2008), par exemple).
3.3.1. Processus décisionnels de Markov
Un PDM est constitué d’un quintuplet {X , A, p, r, T }, dans lequel :
– X représente un ensemble (en général fini) d’états possibles d’un système à
contrôler.
– A représente un ensemble (en général fini, également) d’actions applicables au
système.
– p est une fonction de transition, représentant l’effet (incertain) des actions sur
l’état du système. L’effet d’une action est décrit par p(xt+1 |xt , at ), représentant la
probabilité d’atteindre l’état xt+1 du système, lorsque l’action at est appliquée à l’état
xt .
– Une fonction r est utilisée pour modéliser les préférences de l’agent décideur,
sur les transitions du système (r(st , at , st+1 )), ou sur un but à atteindre rT (xT ).
Dans un PDM, la notion de plan d’action est remplacée par la notion de politique.
On parle parfois de plan conditionnel, contrepartie des plans classiques, dits inconditionnels. Une politique δ = {δt } associe à toute trajectoire partielle (x0 , . . . , xt ) une
action at = δt (x0 , . . . , xt ) ∈ A.
Pour toute trajectoire fixée du système τ = (x0 , a0 , . . . , xT −1 , aT −1 , xT ), on définit la probabilité de suivre cette trajectoire en appliquant la politique δ à partir de
x0 :
p(τ |x0 , δ) =
TY
−1
p(xt+1 |xt , δt (x0 , . . . , xt ))
t=0
De même, on définit la récompense obtenue lorsque l’on suit la trajectoire τ :
u(τ ) =
T
−1
X
t=0
r(xt , at , xt+1 )
!
+ rT (xT )
On définit enfin l’utilité espérée d’une politique δ par :
22
HSP. Volume x – no y/2013
EUδ (x0 ) =
X
p(τ |x0 , δ).u(τ ).
τ
Résoudre un PDM consiste à trouver une politique δ ∗ d’utilité espérée maximale,
pour un état initial x0 , fixé (EUδ∗ (x0 ) ≥ EUδ (x0 ), ∀δ), ou pour un ensemble d’états
initiaux.
On peut montrer qu’une telle politique optimale existe (Bellman, 1957). Qui plus
est, dans le cas où l’horizon est infini (T = +∞), il existe une politique optimale
stationnaire (indépendante de t), δ ∗ : X → A (Puterman, 1994).
Ce problème d’optimisation est classiquement résolu par des méthodes de type
Programmation Dynamique Stochastique (Bellman, 1957 ; Bertsekas, 1987 ; Puterman, 1994). L’algorithme de Recherche Arrière est utilisé pour résoudre des problèmes à horizon fini et les algorithmes d’Itération de la Politique et d’Itération de
la Valeur sont les plus couramment utilisés pour le problème à horizon infini.
Le cadre des processus décisionnels de Markov s’est largement imposé comme
modèle pour la planification dans l’incertain en intelligence artificielle ces dernières
années. Néanmoins, un certain nombre de limitations le rendent insuffisant pour modéliser et résoudre la plupart des problèmes de planification dans l’incertain. Ces limitations sont génériques, dès lors que l’on souhaite résoudre un problème de planification
non-idéalisé :
– L’hypothèse d’observabilité complète de l’état du monde à chaque instant.
– L’hypothèse (différente de la précédente) de connaissance parfaite du modèle
(transitions, récompenses). En effet, parfois ce modèle n’est accessible qu’indirectement, par simulation ou expérimentation.
– L’hypothèse de représentation des états et décisions en extension, beaucoup plus
limitée que les langages de représentation habituellement utilisés en planification, qui
permettent de modéliser des problèmes beaucoup plus complexes.
Notons que si ces limitations sont rencontrées dans la plupart des problèmes de
planification « réalistes », elles sont d’autant plus critiques en agriculture, domaine
dans lequel la connaissance partielle d’un modèle ou l’existence de variables d’état et
de décision multiples sont la règle plutôt que l’exception. Pour pallier ces différentes
limitations, plusieurs extensions des PDM ont été proposées :
– Les Processus décisionnels de Markov partiellement observables (Kaelbling et
al., 1998), relâchent l’hypothèse d’observabilité parfaite de l’état courant d’un PDM.
– Les Processus décisionnels de Markov factorisés (Boutilier et al., 2000 ; Sabbadin et al., 2012) fournissent un cadre et des algorithmes de résolution pour des PDM
dans lesquels les états et/ou les actions sont représentées sous forme factorisée, dans
des langages issus soit de la logique soit des réseaux bayésiens.
– Les méthodes de type Apprentissage par Renforcement (voir Section 4) couplent
des simulations des transitions d’un PDM et de la programmation dynamique, afin
23
de résoudre des PDM dont le modèle n’est pas connu a priori, mais accessible par
simulation uniquement.
3.3.2. Illustration sur un problème de gestion forestière
Le cadre des PDM a été utilisé à de nombreuses reprises, et depuis longtemps, pour
modéliser et résoudre des problèmes de planification dans l’incertain en agriculture
(voir, par exemple, (Kennedy, 1986)).
Plus récemment, des extensions des PDM développées dans la communauté de
l’Intelligence Artificielle, ont été mises en oeuvre sur des problèmes de gestion forestière ou de gestion de maladie des plantes. (Sabbadin et al., 2012), par exemple, ont
défini une classe de PDM factorisés dans laquelle :
– Plusieurs variables décrivent l’état global d’un système (par exemple, l’âge des
diverses parcelles d’une forêt).
– Plusieurs variables de décision (en général autant que de variables d’état) décrivent une action courante. Dans le cas de la forêt, ces variables représentent les
actions (coupe, éclaircie), appliquées à chaque parcelle.
– La fonction de transition globale du système est représentée par un produit de
fonctions locales, n’impliquant qu’un petit nombre de variables d’états/actions. Dans
un problème de gestion forestière, on peut supposer que la dynamique de l’état d’une
parcelle ne dépend que de l’action qui lui est appliquée, ainsi que de ses interactions
avec ses parcelles voisines.
– Enfin, la fonction de récompense globale est supposée être l’addition de fonctions de récompenses locales. Dans le cas de la gestion forestière, cette récompense
globale peut être la somme des revenus générés par chaque parcelle, par exemple.
Sous ces hypothèses, il devient trop complexe de calculer une politique optimale,
voire même de la représenter (puisque les actions sont définies en fonction de l’état
de toutes les parcelles!). Néanmoins, (Sabbadin et al., 2012) ont proposé une méthode
permettant de calculer des politiques locales, de bonne qualité empirique. Une politique locale, dans le cas de la gestion forestière, est une politique qui décide des actions à appliquer à chaque parcelle, en fonction de son état et de ceux de ses parcelles
voisines (donc sans considérer l’état des parcelles éloignées).
De la même manière, dans la Section 5.2, nous décrirons un autre exemple d’utilisation des PDM en agriculture, pour la cartographie d’invasion de plantes adventices.
L’approche qui sera décrite inclut à la fois des considérations d’observabilité partielle,
et de factorisation des états du système.
4. Conception de stratégies par simulation et apprentissage
Le cadre des processus décisionnels de Markov permet de représenter et résoudre
des problèmes de planification dans l’incertain. Il est possible d’étendre le cadre des
PDM à la planification en environnement « partiellement observable ». On parle par-
24
HSP. Volume x – no y/2013
fois dans le cadre des PDM d’observabilité partielle dans un sens différent alors que
l’état du monde est parfaitement connu à chaque instant. Il s’agit du cas où le modèle du PDM est imparfaitement connu, c’est-à-dire, lorsque les fonctions p et r du
modèle < X , A, p, r > sont inconnues a priori mais accessibles par expérimentation,
soit parce qu’on peut simuler la dynamique du système, soit parce qu’on peut l’expérimenter en temps réel. Les méthodes de type Apprentissage par Renforcement visent
à résoudre de tels problèmes, dans lesquels le « modèle » du PDM est appris en même
temps que sa solution optimale. Pour ce faire, il existe deux types de méthodes : les
méthodes indirectes et les méthodes directes.
Les méthodes indirectes (Kumar, Varaiya, 1986 ; Sutton, 1991 ; Peng, Williams,
1993 ; Moore, Atkeson, 1993) supposent d’apprendre dans un premier temps (par simulation ou expérimentation) le modèle (p, r) du PDM, puis de le résoudre par un
algorithme de Programmation Dynamique. De manière un peu plus évoluée, on peut
focaliser l’effort lié à l’apprentissage du modèle sur des zones de l’espace d’étatsactions (X × A) prometteuses, sans négliger totalement le reste de l’espace d’étatsactions, afin de garantir qu’on ne passe pas à côté d’une politique optimale. Les méthodes indirectes permettent de résoudre des PDM dont on ne connaît pas, à priori, le
modèle, à la condition de pouvoir expérimenter ou simuler ce modèle. Ces méthodes
présentent toutefois un inconvénient : elles nécessitent de stocker au moins partiellement les fonctions p̂ et r̂.
Les méthodes directes (Sutton, 1988 ; Watkins, 1989 ; Watkins, Dayan, 1992) permettent de se passer de stocker le modèle (p, r) en entier et de ne garder que ce qui est
nécessaire à l’évaluation de politiques ou au calcul de politiques optimales. En contrepartie, des expérimentations / simulations plus nombreuses peuvent être nécessaires.
Le choix d’une méthode directe sera donc préféré lorsque les simulations ont un coût
faible, et qu’un problème de taille mémoire peut se poser. En général, l’information
stockée pour l’évaluation des politiques est une fonction Q : X , A → R qui associe
l’utilité espérée lorsque l’on applique, pour la première transition, une action donnée
a ∈ A depuis l’état x ∈ X , puis en appliquant ensuite la politique courante. Ainsi, au
sein de l’algorithme Q-learning (Watkins, 1989), dans le cadre de l’optimisation du
critère gamma pondéré, une mise à jour de cette fonction est effectuée pour chaque
transition expérimentée ou simulée qui permet de converger vers la politique optimale
(α est un paramètre qui décroît avec t).
Qt+1 (xt , at ) ← (1 − αt ) × Qt (xt , at )
+αt × [rt (xt , at , xt+1 ) + γ × maxa0 Qt (xt+1 , a0 )]
δt+1 (xt )
=
argmaxa Qt+1 (xt , a)
Le modèle (p, r) n’est donc pas conservé directement, on ne conserve que la politique courante Q. La mise à jour est ici formulée dans le cadre dit tabulaire, c’est
à dire lorsque le domaine X ∗ A est discret. Pour prendre en compte des domaines
continus, une possibilité est de se reposer sur des modèles de régression pour estimer
25
Q. Par exemple, l’expression de Q peut être un modèle linéaire sur une base de m
fonctions paramétriques Φ, elle prend alors la forme suivante :
Q(x, a) =
X
w i × Φi
i∈{1,..,m}
L’optimisation, ou l’apprentissage, consiste alors à estimer les valeurs des wi .
Les méthodes directes et indirectes entrelacent en général apprentissage et programmation dynamique, afin de gagner en efficacité.
5. Illustrations
Dans cette section, nous présentons des illustrations plus complètes des méthodes
décrites dans les sections précédentes.
5.1. SAFIHR : Modélisation d’un agent agriculteur
Dans des travaux récents (Akplogan, 2013), a abordé la question de la modélisation
et de la simulation d’un agent agriculteur qui doit gérer son exploitation agricole. Cet
agent est modélisé sous la forme d’un système dynamique couplé à un ensemble de
systèmes continus ou discrets représentant les éléments de son exploitation : parcelles,
plantes, ressources etc. Ce système agent doit alors répondre aux différents problèmes
qu’un agriculteur peut rencontrer dans son exploitation. Ces travaux mettent en œuvre
un ensemble de formalismes et concepts issus des communautés de la recherche opérationnelle, de la planification et de la simulation présentés en partie dans les sections
précédentes.
5.1.1. Problème de décision
La conduite d’une exploitation par un agriculteur amène à identifier trois types
de problèmes de décision : stratégique, tactique et opérationnelle. Chacune de ces décisions porte sur des dimensions spatiales (allant de l’exploitation à la parcelle) et
temporelles (de quelques heures à plusieurs années). Dans ces travaux, nous définissons :
– La décision stratégique comme un problème de planification spatio-temporelle
à long terme, plusieurs années, dans lequel des cultures sont affectées à des parcelles
de manière à atteindre les objectifs de production de l’agriculteur tout en satisfaisant
un ensemble de contraintes et de préférences agronomiques ou écologiques.
– La décision tactique comme un problème de planification d’actions duratives
dans l’espace de plans partiellement ordonnés que sont les itinéraires techniques
(ITKs). L’objectif de cette planification à moyen terme, plusieurs mois voire une année, est d’affecter des ITKs à des couples parcelle/culture de manière à respecter les
26
HSP. Volume x – no y/2013
préférences de conduite de l’agriculteur tout en tenant compte des contraintes temporelles et des ressources sur les opérations agricoles.
– La décision opérationnelle comme un problème d’ordonnancement à court
terme, quelques jours, d’un ensemble d’actions duratives et parallèles. Son but est
d’allouer des ressources réutilisables et consommables aux différentes opérations agricoles de manière à satisfaire les contraintes temporelles et les règles de priorités entre
opérations.
Pour répondre à ce problème, (Akplogan, 2013) a choisi de construire un système
complexe autonome capable d’entrelacer continuellement des phases de planification
et d’exécution. Les approches adoptées sont issues de la robotique autonome et permettent d’intégrer les spécificités de la décision dans les systèmes de culture à l’échelle
de l’exploitation. Elles sont basées sur l’architecture CLARAty (Coupled Layer Architecture for Robotic Autonomy (Volpe et al., 2000 ; 2001 ; Estlin et al., 2001)), utilisée
dans le système CLEaR (Closed-Loop Execution and Recovery (Fisher et al., 2000 ;
Estlin et al., 2001)). L’approche de (Akplogan, 2013) exploite également l’idée de la
hiérarchisation de l’horizon de planification proposée dans CLEaR. Cela permet de
mettre en œuvre des niveaux de planification à long terme (pour la décision stratégique), à moyen terme (pour la décision tactique) et à court terme (pour la décision
opérationnelle). Ainsi, suivant les processus de décision considérés, les capacités de
planification de l’agent peuvent varier dans des proportions allant du comportement
purement réactif basé sur des règles de production agricoles à des comportements délibératifs basés sur des objectifs prédéfinis. Dans les deux cas, le système agent perçoit
l’état des systèmes qu’il pilote et produit des consignes d’exécution de tâches.
5.1.2. SAFHIR : Planification continue
(Akplogan, 2013) propose une nouvelle architecture informatique, nommée SAFIHR (Simulation-based Architecture For Interleaving Heterogeneous Decisions in
Real world problems). Cette architecture modulaire est destinée à la modélisation
d’un agent, vu comme un système hiérarchique dynamique et distribué explicitement
en interaction avec son environnement. Ainsi, chacun des trois types de problèmes
de décision de l’agriculteur est résolu par un module spécifique. Dans l’architecture
SAFIHR, les modules de décision et leurs mécanismes d’interaction reposent entièrement sur une version parallèle et à structures dynamiques du cadre de modélisation et
de simulation à événements discrets (DSDE (Barros, 1998)).
Comme l’indique la figure 5, les composants définissent des modèles DEVS où
des entités déclaratives permettant d’initialiser ces modèles. Ces composants sont :
– Base de connaissances : ce composant modélise les connaissances statiques et
constantes de l’agent. Ce composant contient des informations structurelles de l’environnement de l’agent. Ces informations sont relatives aux éléments tels que la structure de l’exploitation agricole, l’historique des parcelles, les capacités de ressources,
les cultures productibles etc. D’autre part, ce composant contient les connaissances
spécifiques à la planification. Il s’agit notamment des tâches opérationnelles A et des
27
Délimitation des couches
Modèles DEVS atomiques
Modèle DEVS couplé
Bibliothèque d’algorithmes (Z)
WCSP
Planificateur
Gestionnaire
solver
HTN
Resources
Systèmes de croyances MB
Coordinateur : DSDEN Mχ
Base de connaissances (L)
(+) Actions (A, P)/Plan
(+) Resources
(+) Constraintes
Observation OS
XA
Mise à jour des croyances
(B)
(+) Constuit et gère le plan
(+) Condition, planning, replanning
Consignes OS
YA
IN
vi (t0 ) = fi (vj , · · · , vj0 )
Plan courant π (réseau DSDEN)
Figure 5. Architecture du système de décision SAFIHR.
tâches de planification P, les conditions d’activation des tâches, des plans partiels L
décrivant les itinéraires techniques. Enfin, la base de connaissances contient les objectifs, les contraintes et les préférences de l’agent.
– Gestion des états de croyance B : ce composant modélise la dynamique des états
de croyance de l’agent. Contrairement aux données statiques contenues dans la base de
connaissances, ce système intègre l’ensemble des connaissances permettant de mettre
à jour l’état de l’agent.
– Le plan courant π : il est représenté par des séquences de tâches instanciées et
partiellement ordonnées. Chaque séquence est associée à une cible du système biophysique (par exemple, une parcelle). Les liens entre les tâches d’une séquence représentent les contraintes de précédence. Certaines tâches, en noir dans le DSDEN sur la
figure 5, représentent des tâches de planification, ordonnant au coordinateur l’exécution explicite de nouvelles planifications.
– Bibliothèques d’algorithmes Z : elle représente l’ensemble des capacités dont
dispose l’agent pour la construction et la modification de son plan. La bibliothèque
d’algorithmes contient un ensemble d’algorithmes associés à chacun des problèmes
de décision spécifiques. Ces algorithmes permettent de planifier des tâches à différents
niveaux d’abstraction. Ce composant contient autant de méthodes de résolution que de
problèmes de décision susceptibles de se poser durant la simulation.
– Coordinateur centralisé : ensemble des règles définissant l’ordre dans lequel les
processus de décision doivent être activés. Le coordinateur centralisé se charge de
la coordination de chacun des composants. Il intègre des mécanismes permettant de
détecter les situations d’échec et de mettre des priorités dans leur prise en compte.
Enfin, afin de faire coopérer ces planificateurs spécifiques aux sein d’un même système, (Akplogan, 2013) exploite les mécanismes proposés dans l’architecture IDEA
(Intelligent Distributed Execution Architecture (Muscettola et al., 2002 ; Dias, 2003))
28
HSP. Volume x – no y/2013
sur l’interaction entre différents planificateurs. Chaque planificateur est alors vu comme
un système de contrôle indépendant.
5.1.3. Aperçu du fonctionnement global
SAFIHR est une architecture basée sur la version parallèle de l’extension DEVS
à structure dynamique (Barros, 1998). L’agent agriculteur est représenté comme un
réseau de modèles DEVS parallèles. Ce réseau est nommé DSDEN A . Les entrées IA
modélisent les fonctions d’observation tandis que les sorties OA modélisent les tâches
opérationnelles de l’agent. Le système reçoit en entrée des informations en provenance du système opérant. Ces informations caractérisent d’une part l’avancement
des processus opérationnels et d’autre part l’état des processus biophysiques tels que
la dynamique du sol, le stade de maturité des plantes etc. En sortie, le système envoie,
via OA , des consignes d’exécution de tâches (par exemple, la consigne « démarrer
semis »).
Nous divisons l’architecture interne de SAFIHR en deux sous-systèmes DEVS.
D’un coté, le modèle atomique DEVS système de croyance - MB et de l’autre, le
modèle DEVS couplé système intentionnel - MI . Ces deux sous-systèmes sont des
influenceurs l’un de l’autre et s’exécutent de manière complètement parallèle. Les
connexions internes allant de MB vers MI sont utilisées afin de transmettre au système
intentionnel les croyances mises à jour du système. Les connexions internes allant de
MI vers MB permettent de transmettre au système de croyance des informations sur
les tâches opérationnelles qui viennent de démarrer.
Sur la base des événements reçus et de l’état total (s, e), le système de croyance
est mis à jour par les fonctions de transition δint et δext . Les valeurs des sorties λ(s)
sont celles de prédicats nécessaires au fonctionnement de MI .
Le système intentionnel est un modèle couplé intégrant un ensemble de modèles
atomiques DEVS délibératifs couplés à un réseau hχ, Mχ i dans l’optique de construire
et de contrôler l’exécution du plan courant de l’agent. Dans le cas des applications
qui nous intéressent, nous avons identifié trois types de modèles atomiques DEVS
délibératifs : WCSP Solver, HTN planner et Resources manager.
Le modèle atomique DEVS WCSP solver est dédié à la planification stratégique
de l’organisation spatio-temporelle de l’exploitation agricole. Déclenché par Mχ , il
produit une séquence de cultures de taille H pour chaque parcelle élémentaire. Considérant une année donnée, le coordinateur Mχ déclenche le modèle atomique HTN
planner afin de construire un plan tactique sur une année. Ces plans annuels sont utilisés comme modes de production pour chaque couple parcelle élémentaire - culture.
Une partie de plan est envoyée au modèle atomique DEVS Resources manager afin de
construire un ordonnancement sur quelques jours. L’horizon de l’ordonnancement est
déterminé en fonction de la structure du réseau temporel représentant le plan annuel
de l’agent.
Comme l’indique la figure 6, le cycle de décision de l’agent est constitué de trois
phases durant lesquelles l’agent observe, planifie et exécute son plan courant. En ob-
29
servant les événements issus du système opérant, il met à jour ses croyances sur l’état
des systèmes opérant et biophysique. Ces connaissances, fonction du temps, sont exploitées afin de construire le plan courant de l’agent. Le plan résultant est exécuté. Ce
cycle de décision se retrouve dans de nombreux travaux en IA, notamment pour les
agents Belief Desire Intention (BDI) (Rao, Georgeff, 1995)) . Nous notons cependant
deux points particuliers de la phase de planification. D’une part, la planification des
problèmes qui nous concerne porte sur des échelles temporelles et spatiales très différentes. Par exemple, le choix des rotations se fait sur plusieurs années et impacte
l’ensemble de l’exploitation agricole. À l’inverse, les décisions de gestion de chantiers se font sur quelques jours et impactent essentiellement quelques îlots fonctionnels. D’autre part, les niveaux d’abstraction des plans obtenus sont très variables selon
le type de problème de décision considéré. Par exemple, le plan issu de la décision
d’assolement d’une année donnée n’est pas directement exécutable dans le système
opérant. Ce plan doit être affiné. Nous distinguons deux classes de tâches qui sont :
tâches opérationnelles et tâches de planification.
Résolution de problèmes
Évènement
Planification,
re-planification,
ordonnancement
Observation et m.a.j.
des connaissances
contrôle d’exécution
Action
Observations + statuts
Figure 6. Cycle de décision à simuler.
ajustement annuel
historique
année →
année courante
1
2
D ÉCISION STRATÉGIQUE
blé
mois →
D ÉCISION TACTIQUE
semaine →
11
12
(a) semis → désherbage
(b) semis
D ÉCISION OPÉRATIONNELLE
4
maïs
5
blé
maïs
fin d’hiver
automne
10
futur
3
1
semaine d’octobre
chantier de semis
2
3
4
5
6
7
8
9
(b) désherbage
semaine de février mars
chantier de désherbage
Figure 7. Les niveaux d’abstraction de la décision dans les systèmes de culture au
sein de l’exploitation agricole.
Les tâches opérationnelles sont des tâches directement exécutables dont l’effet
direct est de déclencher un processus opérationnel du système opérant. Ces tâches
modifient par conséquent l’état des systèmes biophysique et opérant. Les tâches de
planification sont des tâches abstraites dont l’effet direct est de déclencher la résolution d’un problème afin de modifier l’état interne de l’agent. Les tâches opérationnelles
et de planification peuvent être combinées afin de construire un plan.
Comme l’indiquent les figures 6 et 7, les phases de planification et d’exécution
peuvent être entrelacées dans une boucle de résolution de problème. De manière
30
HSP. Volume x – no y/2013
générale, en planification continue (Ambros-Ingerson, Steel, 1988 ; Haigh, Veloso,
1998 ; Lemai, 2004), l’entrelacement des phases d’exécution et de planification se
fait à condition que (i) le contrôleur d’exécution relève l’impossibilité (précondition
insatisfaite / atteinte d’une date limite) d’exécution d’une tâche ou (ii) l’impossibilité
d’atteindre un but. À ces deux situations d’échecs susceptibles d’entraîner une replanification, nous ajoutons des conditions d’expansion de plan. En effet, le plan à exécuter
étant constitué de tâches de planification, l’exécution de ces dernières entraîne une
résolution de problème qui, par conséquent, modifie le plan courant de l’agent.
Enfin, l’application SAFHIR est en fin de développement. Elle a été conçue sur le
simulateur VLE (Quesnel et al., 2009) et sur le formalisme DEVS.
5.2. Conception de stratégies adaptatives d’échantillonnage pour la cartographie
d’espèces adventices dans une parcelle
Dans les parcelles cultivées, les adventices (mauvaises herbes) sont responsables
d’une perte de récolte (Oerke, 2006) du fait de la compétition avec la culture pour
les ressources et parce qu’elles sont des hôtes potentiels pour des parasites ou des
maladies des plantes. Cependant les adventices jouent également un rôle positif dans
la préservation de la biodiversité en tant que ressources trophiques ou hôtes de nombreuses espèces (Gibson et al., 2006), (Petit et al., 2011). Ainsi, un des enjeux en
agro-écologie est aujourd’hui de concevoir de nouvelles stratégies de gestion des adventices qui optimisent un compromis entre rendement et services écologiques rendus.
Cela requiert, entre autres, une bonne compréhension de la répartition spatiale des adventices dans les parcelles.
Pour cela, en pratique, une parcelle est découpée en quadrats et une carte d’abondance est estimée, à partir d’un échantillonnage sur un nombre limité de quadrats et un
modèle de distribution spatiale. L’évaluation de l’abondance d’une espèce adventice
sur une parcelle est très coûteuse en temps, et nécessite des techniciens notateurs ayant
une grande expertise pour être capable de reconnaître et distinguer les différentes espèces adventices. Le choix du nombre et de la position des quadrats échantillonnés est
donc crucial, pour garantir une bonne qualité de la carte restaurée tout en limitant le
temps passé à échantillonner dans la parcelle. Plusieurs stratégies ont été proposées
pour un échantillonnage spatial des adventices. Toutes sont statiques : les quadrats à
échantillonner sont déterminés une fois pour toute avant le début de la campagne.
En s’appuyant sur le cadre de PDM, (Bonneau, 2012) a proposé un algorithme
de résolution approchée du problème de recherche d’un stratégie adaptative optimale
pour l’échantillonnage des adventices. Plus précisément, la distribution spatiale des
notes d’abondance d’une espèce adventice dans une parcelle est modélisé par un modèle de champ de Markov (classique en analyse d’image (Koller, Friedman, 2009)).
Le coût d’échantillonnage est matérialisé à partir du temps mis par le notateur pour
attribuer une note et se déplacer vers le quadrat suivant. Il s’agit donc d’un coût qui
dépend à la fois de la position du quadrat et de la valeur de l’observation. La stratégie
optimale d’échantillonnage est donc la solution d’un problème d’optimisation de la
31
qualité de la carte reconstruite sous contrainte de respecter un budget temps maximal
donné.
Pour résoudre (de manière approchée) ce problème d’échantillonnage dans les
champs de Markov, (Bonneau, 2012) a traduit le problème en un PDM à horizon fini,
puis exploité les techniques d’apprentissage par renforcement (AR), classiquement
utilisées dans ce cadre. Une application directe des algorithmes d’AR au problème
d’échantillonnage n’est cependant pas possible, soit parce que ces algorithmes sont
dédiés aux PDM à horizon infini, soit parce que la taille des problèmes traités est trop
grande. (Bonneau et al., 2012) se sont inspirés de l’algorithme Least Square Policy
Iteration (Lagoudakis, Parr, 2003) (LSPI) pour PDM à horizon infini pour proposer
l’algorithme Least Square Dynamic Programming (LSDP) qui repose sur les principes
suivants :
i) comme dans LSPI, une approximation paramétrique de la Q-fonction par une
combinaison linéaire d’un ensemble de fonctions de bases mais dont les poids dépendent du temps (puisqu’en horizon fini la politique optimale d’un PDM est non
stationnaire),
ii) une construction des trajectoires de paires état-action visitées à partir d’un batch
de simulations du champ de Markov générées off-line,
iii) un calcul des poids par moindre carré et programmation dynamique (car la récompense est uniquement finale).
L’algorithme LSDP (Bonneau et al., 2012) a été mis en œuvre sur le problème
d’échantillonnage d’une espèce d’adventice dans une parcelle, pour un modèle de distribution spatiale et un modèle de coût appris sur données réelles. La stratégie adaptative fournie par LSDP conduit à de meilleures restaurations de la carte des classes
d’abondance que les stratégies d’échantillonnage des adventices classiques (qui sont
statiques : en étoile, en W, en Z ou encore régulières). L’une de ces dernières peut parfois être meilleure pour une carte donnée, mais ce n’est jamais la même et la qualité
varie beaucoup d’une carte à l’autre.
Cette application illustre l’intérêt d’appliquer une stratégie d’échantillonnage adaptative. La difficulté reste néanmoins que, pour la mettre en œuvre, l’utilisateur doit
disposer d’une estimation de la valeur des paramètres du modèle de champ de Markov. Soit un jeu de données issu d’une autre parcelle ou d’une autre date permet de
construire un modèle ad-hoc, soit on peut envisager un premier échantillonnage régulier pour estimer ces paramètres.
6. Conclusion
La communauté de l’Intelligence Artificielle, à travers les domaines de la planification, puis de la planification dans l’incertain, développe des approches pour la
décision séquentielle depuis longtemps. Mais la gestion des agro-écosystèmes n’était
pas, au départ, un débouché naturel pour ces approches. D’autres sciences de la décision, comme la recherche opérationnelle ou l’économie, abordent ce thème depuis
32
HSP. Volume x – no y/2013
longtemps. Toutefois, depuis quelques années, les communautés nationales et internationales de l’IA ont commencé à se préoccuper de développement durable (chaire
développement durable de l’école Polytechnique, conférence Computational Sustainability etc.). La gestion des ressources naturelles et des agro-écosystèmes sont des
thématiques reconnues au sein de ce domaine.
Nous avons donc pointé quelques cadres théoriques comme la simulation à événements discrets, la planification hiérarchique, les problèmes de satisfaction de contraintes,
les processus décisionnels de Markov et quelques applications réussies de ces approches à des problèmes de gestion dans les agro-écosystèmes. Cette présentation est
forcément partielle. Nous avons fait l’impasse sur de nombreux domaines de recherche
liés aux automates (Largouët et al., 2011), à la fouille de données ou l’analyse de texte
(Fabrègue et al., 2012), ainsi qu’aux approches à base d’agents. Nous n’avons pas non
plus abordé l’utilisation des modèles dans des processus collectifs d’apprentissage, de
conception de systèmes de production et de résolution de problèmes. Ce type d’utilisation (Becu et al., 2008) suscite beaucoup d’intérêt actuellement parce qu’il facilite,
d’une part, l’intégration de connaissances scientifiques et pratiques, et l’acceptabilité
des résultats du fait de l’implication des agriculteurs dans leur élaboration.
La modélisation du comportement décisionnel de l’agriculteur (McCown et al.,
2012) doit faire l’objet de recherches plus approfondies, en particulier sur le raisonnement dynamique des objectifs et des préférences et sur la manière d’exploiter les
connaissances sur l’incertitude. Le but de ces travaux est d’atteindre un niveau de
réalisme suffisant pour expliquer les différences de résultats entre agriculteurs, pouvoir identifier les besoins de formation et, enfin, concevoir des dispositifs permettant
d’améliorer globalement les capacités de prise de décision.
À travers cet article, nous espérons avoir réussi à donner un aperçu de l’intérêt
réciproque pour les chercheurs en intelligence artificielle et en agronomie/écologie
à travailler ensemble et de la présence de la communauté française de l’IA sur ce
domaine de recherche.
Bibliographie
Akplogan M. (2013). Approche modulaire pour la planification continue – application à la
conduite des systèmes de cultures. Thèse de doctorat, Université Paul Sabatier de Toulouse,
Toulouse France.
Akplogan M., Dury J., Givry S. D., Quesnel G., Joannon A., Reynaud A. et al. (2011). A
Weighted CSP approach for solving spatio-temporal planning problem in farming systems.
In Preferences and Soft Constraints, p. 1-15.
Akplogan M., Quesnel G., Garcia F., Joannon A., Martin-Clouaire R. (2010). Towards a deliberative agent system based on DEVS formalism for application in agriculture. In S. for
Computer Simulation International (Ed.), Proceedings of the 2010 Summer Computer Simulation Conference, p. 250–257. San Diego, CA, USA.
Ambros-Ingerson J. A., Steel S. (1988). Integrating planning, execution and monitoring. In
AAAI (American Association for Artificial Intelligence), p. 83-88.
33
Attonaty J., Chatelin M., Poussin J., Soler L. (1993). Advice and decision support systems in
agriculture : new issues. In Farm level information systems, p. 89–101. Woudschoten, Zeist,
The Netherlands.
Attonaty J., Chatelin M., Poussin J., Soler L. (1994). OTELO : un simulateur à base de connaissance pour raisonner équipement et organisation du travail. In Le conseil en agroéquipement et en organisation du travail. Outils et premières expériences, p. 37-49. Paris, APCA.
Barros F. J. (1998). Abstract simulators for the DSDE formalism. In Proceedings of the 30th
conference on Winter Simulation, p. 407–412. Los Alamitos, CA, USA, IEEE Computer
Society Press.
Becu N., Neef A., Schreinemachers P., Sangkapitux C. (2008). Participatory computer simulation to support collective decision-making: Potential and limits of stakeholder involvement.
Land Use Policy, vol. 25, no 4.
Bellman R. E. (1957). Dynamic programming. Princeton University Press, Princeton.
Bergez J., Chabrier P., Gary C., Jeuffroy M. H., Makowski D., Quesnel G. et al. (2012, avril).
An open platform to build, evaluate and simulate integrated models of farming and agroecosystems. Environmental Modelling & Software.
Bergez J., Debaeke P., Deumier J., Lacroix B., Leenhardt D., Leroy P. et al. (2001). MODERATO: an object-oriented decision tool for designing maize irrigation schedules. Ecological Modelling, vol. 137, no 1, p. 43 – 60.
Bertsekas D. P. (1987). Dynamic programming: Deterministic and stochastic models. Englewood Cliffs, Prentice-Hall.
Bolte C., Van Evert J., Lamaker A. (2003). The ModCom modular simulation system. European
Journal of Agronomy, vol. 18, p. 333–343.
Bonneau M. (2012). Échantillonnage adaptatif optimal dans les champs de Markov – Application à l’échantillonnage d’une espèce adventice. Thèse de doctorat, Université Paul
Sabatier de Toulouse.
Bonneau M., Peyrard N., Sabbadin R. (2012, august). A reinforcement-learning algorithm for
sampling design in Markov random fields. In European Conference on Artificial Intelligence
(ECAI’12). Montpellier, France.
Boutilier C., Dearden R., Goldszmidt M. (2000). Stochastic dynamic programming with factored representations. Artificial Intelligence, vol. 121, no 1, p. 49-107.
Buffet O., Sigaud O. (Eds.). (2008). Processus décisionnels de Markov en Intelligence Artificielle. Hermès Science - Lavoisier.
Castillo L. A., Fernández-Olivares J., García-Pérez Ó., Palao F. (2005). Temporal enhancements of an HTN planner. In Caepia, p. 429-438.
Castillo L. A., Fernández-Olivares J., García-Pérez Ó., Palao F. (2006). Efficiently handling
temporal knowledge in an HTN planner. In Icaps, p. 63-72.
Chardon X., Rigolot C., Baratte C., Espagnol S., Raison C., Martin-Clouaire R. et al. (2012).
Melodie: a whole-farm model to study the dynamics of nutrients in dairy and pig farms with
crops. animal, vol. 6, p. 1711–1721.
34
HSP. Volume x – no y/2013
Chatelin M. H., Aubry C., Poussin J. C., Meynard J. M., Massé J., Verjux N. et al. (2005).
DéciBlé, a software package for wheat crop management simulation. Agricultural Systems,
vol. 83, no 1, p. 77 – 99.
Cros M., Duru M., Garcia F., Martin-Clouaire R. (2001). Simulating rotational grazing management. Journal of Environment International, vol. 27, no 2–3, p. 139–145.
Dechter R. (2003). Constraint processing. Elsevier Morgan Kaufmann.
Dias M. B. (2003). A real-time rover executive based on model-based reactive planning. In The
7th International Symposium on Artificial Intelligence, Robotics and Automation in Space,
(iSAIRAS).
Dury J., Schaller N., Garcia F., Reynaud A., Bergez J. E. (2011). Models to support cropping
plan and crop rotation decisions. A review. Agronomy for Sustainable Development.
Erol K., Hendler J. A., Nau D. S. (1994). HTN planning: Complexity and expressivity. In
AAAI (American Association for Artificial Intelligence), vol. 2, p. 1123–1128. Seattle,
Washington, USA.
Estlin T., Volpe R., Nesnas I., Mutz D., Fisher F., Engelhardt B. et al. (2001). Decision-making
in a robotic architecture for autonomy. In Proceedings of the International Symposium on
Artificial Intelligence, Robotics, and Automation in Space (iSAIRAS).
Fabrègue M., Braud A., Bringay S., Ber F. L., Teisseire M. (2012). Including spatial relations
and scales within sequential pattern extraction. In Discovery science, p. 209-223.
Fikes R. E., Nilsson N. J. (1971). Strips: A new approach to the application of theorem proving
to problem solving. Artificial Intelligence, vol. 2, no 3-4, p. 189–208.
Fisher F., Knight R., Engelhardt B., Chien S., Alejandre N. (2000). A planning approach to
monitor and control for deep space communications. 2000 IEEE Aerospace Conference
Proceedings, p. 311–320.
Ghallab M. (2001). Planification et décision. In J. P. Laumond (Ed.), La robotique mobile, p.
259–296. Hermes.
Gibson R., Nelson I., Hopkins G., Hamlett B., Memmott J. (2006). Pollinator webs, plant
communities and the conservation of rare plants: arable weeds as a case study. Journal of
applied ecology, vol. 43, p. 246–257.
Ginsberg M. (1994). Essentials of Artificial Intelligence. San Francisco, CA, USA, Morgan
Kaufmann Publishers Inc.
Haigh K. Z., Veloso M. M. (1998). Planning, execution and learning in a robotic agent. In
Proceedings of the Fourth International Conference on Artificial Intelligence Planning Systems, p. 441-452. AAAI Press.
Horlings L. G., Marsden T. K. (2011). Towards the real green revolution? Exploring the
conceptual dimensions of a new ecological modernisation of agriculture that could f́eed the
world.́ Global Environmental Change, vol. 21, no 2, p. 99–134.
Kaelbling L. P., Littman M. L., Cassandra A. R. (1998). Planning and acting in partially
observable domains. Artificial Intelligence, vol. 101, p. 99-134.
Keating B., Carberry P., Hammer G., Probert M., Robertson M., Holzworth D. et al. (2003). An
overview of APSIM, a model designed for farming systems simulation. European Journal of
Agronomy, vol. 18, no 3-4, p. 267 - 288.
35
Kennedy J. (1986). Dynamic Programming. Applications to Agriculture and Natural Resources.
Elsevier Applied Science Publishers.
Koller D., Friedman N. (2009). Probabilistic graphical models: Principles and techniques. MIT
Press.
Kumar P. R., Varaiya P. P. (1986). Stochastic systems: Estimation, identification and adaptive
control. Englewood Cliffs, New Jersey, Prentice Hall.
Lagoudakis M., Parr R. (2003). Least-squares policy iteration. Journal of Machine Learning
Research, vol. 4, p. 1107-1149.
Largouët C., Cordier M.-O., Bozec Y.-M., Zhao Y., Fontenelle G. (2011). Use Of Timed Automata And Model-Checking To Explore Scenarios On Ecosystem Models. Environmental
Modelling and Software, no 30, p. 123-138.
LaValle S. M. (2006). Planning algorithms. Cambridge, U.K., Cambridge University Press.
Le Gal P.-Y., Moulin C.-H., Navarrete M., Wery J. (2007). Modelling framework to design
innovative agricultural production systems. In Proceedings of Farming Systems Design
2007 (FSD-07), p. 64-65.
Le Ber F., Lavigne C., Da Silva S. (2012). Structure analysis of hedgerows and other perennial
landscape lines in two French agricultural landscapes. In The 15th AGILE conference on
Geographic Information Science, p. 6. Avignon, France.
Lemai S. (2004). IXTET-EXEC: planning, plan repair and execution control with time and
resource management. Thèse de doctorat, Institut National Polytechnique de Toulouse INPT.
Leroy P., Deumier J. M., Jacquin C. (1997). IRMA: un simulateur de l’organisation des chantiers d’irrigation. Perspectives agricoles n. 228, p. 76–83.
Martin G., Martin-Clouaire R., Duru M. (2013). Farming system design to feed the changing
world. A review. Agronomy for Sustainable Development, vol. 33, p. 131–149.
Martin G., Martin-Clouaire R., Rellier J.-P., Duru M. (2011). A simulation framework for
the design of grassland-based beef-cattle farms. Environmental Modelling and Software,
vol. 26, p. 371–385.
Martin-Clouaire R., Rellier J.-P. (2009). Modelling and simulating work practices in agriculture. International Journal of Metadata, Semantics and Ontologies, vol. 4, p. 42–53.
Martin-Clouaire R., Rellier J.-P. (2011). Dynamic resource allocation in a farm management
simulation. In F. Chan, D. Marinova, R. Anderssen (Eds.), Proceedings of the 19th International Congress on Modelling and Simulation. Modelling and Simulation Society of
Australia and New Zealand, p. 808–814.
McCown R., Carberry P., Dalgliesh N., Foale M., Hochman Z. (2012). Farmers use intuition to
reinvent analytic decision support for managing seasonal climatic variability. Agricultural
systems, vol. 106, p. 33–45.
Meseguer P., Rossi F., Schiex T. (2006). Soft constraints processing. In F. Rossi, P. van Beek,
T. Walsh (Eds.), Handbook of constraint programming. Elsevier.
Montanari U. (1974). Networks of constraints: fundamental properties and application to
picture processing. Information Science, vol. 7, p. 95–132.
36
HSP. Volume x – no y/2013
Moore A. W., Atkeson C. G. (1993). Prioritized sweeping: Reinforcement learning with less
data and less real time. Machine Learning, vol. 13.
Muetzelfeldt R. I., Massheder J. (2003). The simile visual modelling environment. European
Journal of Agronomy, vol. 18, p. 345–358.
Muscettola N., Dorais G. A., Fry C., Levinson R., Plaunt C. (2002). Idea: Planning at the core
of autonomous reactive agents. In Proceedings of the 3rd International NASA Workshop
on Planning and Scheduling for Space.
Nau D., Cao Y., Lotem A., Avila M. M. (1999). Shop: Simple hierarchical ordered planner. In
15th International Joint Conference on Artificial Intelligence, p. 968–973.
Nau D., Ilghami O., Kuter U., Murdock J. W., Wu D., Yaman F. (2003). SHOP2: An HTN
planning system. Journal of Artificial Intelligence Research, vol. 20, p. 379–404.
Oerke E. (2006). Crop losses to pests. Journal of Agricultural Science, vol. 144, p. 31-43.
Peng J., Williams R. J. (1993). Efficient learning and planning within the Dyna framework.
Adaptive Behavior, vol. 1, no 4, p. 437-454.
Petit S., Boursault A., Le Guilloux M., Munier-Jolain N., Reboud X. (2011). Interactions between weeds and cultivated plants as related to management of plant pathogens. Agronomy
for sustainable developpment, vol. 31, p. 309-317.
Power A. (2010). Ecosystem services and agriculture: tradeoffs and synergies. Philosophical
Transactions of the Royal Society B, vol. 365, no 1554, p. 2959–2971.
Puterman M. L. (1994). Markov decision processes. New York, John Wiley and Sons.
Quesnel G., Duboz R., Ramat E. (2009). The Virtual Laboratory Environment – An operational framework for multi-modelling, simulation and analysis of complex dynamical systems.
Simulation Modelling Practice and Theory, vol. 17, p. 641-653.
Rao A. S., Georgeff M. P. (1995). BDI-agents: from theory to practice. In Proceedings of the
First International Conference on Multiagent Systems. San Francisco.
Rellier J., Martin-Clouaire R., Cialdella N., Jeuffroy M., Meynard J. (2011). Modélisation de
l’organisation du travail en systèmes de grande culture : méthode et application à l’évaluation ex ante d’innovations variétales de pois. In P. Béguin, B. Dedieu, E. Sabourin (Eds.),,
p. 205-221. L’Harmattan.
Ripoche A., Rellier J.-P., Martin-Clouaire R., Paré N., Biarnès A., Gary C. (2011). Modelling
adaptive management of intercropping in vineyards to satisfy agronomic and environmental performances under mediterranean climate. Environmental Modelling and Software,
vol. 26, no 12, p. 1467–1480.
Russell S. J., Norvig P. (2010). Artificial Intelligence - a Modern Approach (3. internat. ed.).
Pearson Education.
Sabbadin R., Peyrard N., Forsell N. (2012). A framework and a mean-field algorithm for the
local control of spatial processes. International Journal of Approximate Reasoning, vol. 53,
no 1, p. 66–86.
Schiex T., Fargier H., Verfaillie G. (1995). Valued Constraint Satisfaction Problems: Hard and
Easy Problems. In C. Mellish (Ed.), IJCAI’95: Proceedings International Joint Conference
on Artificial Intelligence. Montreal.
37
Snow V., Lovatt S. (2008). A general planner for agro-ecosystem models. Computers Electronics
in Agricuture, vol. 60, no 2, p. 201–211.
Sutton R. (1988). Learning to predict by the method of temporal differences. Machine Learning,
vol. 3, no 1, p. 9-44.
Sutton R. (1991). Planning by incremental dynamic programming. In M. Kaufmann (Ed.), Proc.
of the 8th International Workshop on Machine Learning, p. 353-357.
Vilain M., Kautz H., Beek P. (1986). Constraint propagation algorithms for temporal reasoning. In Readings in qualitative reasoning about physical systems, p. 377–382. Morgan
Kaufmann.
Volpe R., Nesnas I., Estlin T., Mutz D., Petras R., Das H. (2000). CLARAty : Coupled layer
architecture for robotic autonomy. Rapport technique. NASA – Jet Propulsion Laboratory.
Volpe R., Nesnas I., Estlin T., Mutz D., Petras R., Das H. (2001). The CLARAty architecture for
robotic autonomy. In Proceedings of the 2001 IEEE Aerospace Conference.
Watkins C. J. (1989). Learning from delayed rewards. Thèse de doctorat, King’s College,
Cambridge, UK.
Watkins C. J., Dayan P. (1992). Q-learning. Machine Learning, vol. 3, no 8, p. 279-292.
Wezel A., Bellon S., Doré T., Francis C., Vallod D., David C. (2009). Agroecology as a science,
a movement and a practice. A review. Agronomy for Sustainable Development, vol. 29,
no 4, p. 503–515.
Zeigler B. P. (1984). Theory of Modeling and Simulation. Krieger Publishing Compagny. (2nd
Edition)
Zeigler B. P., Kim T. G., Praehofer H. (2000). Theory of Modeling and Simulation (2nd éd.).
Orlando, FL, USA, Academic Press, Inc.