Décision dans les agro-écosystèmes - MulCyber
Transcription
Décision dans les agro-écosystèmes - MulCyber
Décision dans les agro-écosystèmes Gauthier Quesnel, Mahuna Akplogan, Mathieu Bonneau, Roger Martin-Clouaire, Nathalie Peyrard, Jean-Pierre Rellier, Régis Sabbadin, Ronan Trépos UR 875 – Unité de Mathématiques et Informatique Appliquées de Toulouse INRA, 24 Chemin de Borde Rouge - Auzeville CS 52627 31326 Castanet Tolosan CEDEX [email protected] Au cours de ces dernières années, la gestion des agro-écosystèmes est devenue un enjeu majeur du développement durable. Cette gestion doit permettre de résoudre des problèmes environnementaux cruciaux et doit prendre en compte les brusques changements de contexte tel que les changements climatiques ou de politique agricole, etc. La réponse à ces problèmes de décisions complexes passe par un recours accru à la modélisation, la simulation et l’expérimentation virtuelle. Dans cet article, nous présentons des travaux récents de l’intelligence artificielle ayant contribués au thème de la modélisation et la simulation de systèmes complexes pour l’analyse des modèles agronomiques et la conception de décision. Ces travaux sont principalement ceux de l’équipe MAD, équipe référente à l’INRA pour la décision dans les agro-écosystèmes. Nous présentons des formalismes originaux pour la modélisation et la simulation de systèmes complexes ainsi que pour la conception de stratégies basés sur les réseaux de contraintes pondérées ou les processus décisionnels de Markov. Nous abordons ensuite le couplage entre les deux thèmes simulation et décision. Enfin, nous illustrons l’utilisation de ces méthodes et modèles sur plusieurs cas d’études en gestion des agro-écosystèmes. RÉSUMÉ. In recent years, the sustainable management of agricultural and ecological systems has become a major challenge. Sustainable management has to solve crucial environmental problems linked, in part, to rapid changes in context: climatic changes, agricultural policy objectives changes, etc. Solving this challenge involves the joint development of researches in modelling, simulation and virtual experimentation. In this article, we present some recent work of the Agro-ecosystem Modelling and Decision (MAD-MIAT-INRA) team and some related work by other research teams, devoted to the the modelling and simulation of complex systems, involved in agro-ecosystem management. Then, we present new formalisms for management strategies design, based on the Weighted Constraint Satisfaction Problems or the Markov Decision Processes frameworks. We also how how simulation and conception of strategies can be integrated. Finally, we illustrate the use of the presented approaches on several case studies in Agroecosystems management, jointly tackled with ABSTRACT. Hermès Science Publication – no y/2013, 1-37 2 HSP. Volume x – no y/2013 research teams in Agronomy. Agro-écosystèmes, Simulation à événements discrets, Conceptions de stratégies, MOTS-CLÉS : Planification KEYWORDS: Agroecosystems, Discrete Event Simulation, Design of strategies, Planning c 2013 Lavoisier DOI:10.3166/HSP.x.1-37 3 Table des matières 1 Introduction 5 2 Approches basées sur la simulation de stratégies de gestion 6 2.1 Simulation à événements discrets de la dynamique des agro-écosystèmes 7 2.2 Simulation du pilotage des agro-écosystèmes . . . . . . . . . . . . . 10 3 Conception de stratégie de gestion des agro-écosystèmes 12 3.1 Planification hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1.1 Concepts de la planification HTN . . . . . . . . . . . . . . . 14 3.1.2 Approche de planification dans les HTN . . . . . . . . . . . . 15 3.1.3 Illustration sur le problème du choix d’un mode de conduite en agriculture . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Planification par satisfaction de contraintes pondérées . . . . . . . . . 17 3.2.1 Problème de satisfaction de contraintes . . . . . . . . . . . . 17 3.2.2 Réseaux de contraintes pondérées . . . . . . . . . . . . . . . 18 3.2.3 Illustration sur l’allocation de culture . . . . . . . . . . . . . 19 Planification dans l’incertain et Processus Décisionnels de Markov . . 21 3.3.1 Processus décisionnels de Markov . . . . . . . . . . . . . . . 21 3.3.2 Illustration sur un problème de gestion forestière . . . . . . . 23 3.2 3.3 4 Conception de stratégies par simulation et apprentissage 23 5 Illustrations 25 5.1 SAFIHR : Modélisation d’un agent agriculteur . . . . . . . . . . . . . 25 5.1.1 Problème de décision . . . . . . . . . . . . . . . . . . . . . . 25 5.1.2 SAFHIR : Planification continue . . . . . . . . . . . . . . . . 26 5.1.3 Aperçu du fonctionnement global . . . . . . . . . . . . . . . 28 Conception de stratégies adaptatives d’échantillonnage pour la cartographie d’espèces adventices dans une parcelle . . . . . . . . . . . . 30 5.2 6 Conclusion 31 4 HSP. Volume x – no y/2013 Bibliographie 32 5 1. Introduction L’objectif principal de l’agriculture a toujours été la production et la sécurité alimentaire, mais s’y ajoute, depuis quelques décennies, celui de rendre des services environnementaux comme, par exemple, éviter de contribuer au réchauffement climatique, empêcher la détérioration des sols, garantir une eau pure, éviter les invasions de pathogènes et entretenir la biodiversité. D’autre part, d’importants changements de contexte concernant, en particulier, la politique agricole, la demande des consommateurs, les contraintes fortes du marché, l’aspiration des agriculteurs à une meilleure qualité de vie imposent des remises en question et de profondes évolutions dans la profession. Ces enjeux environnementaux et socio-économiques nécessitent de repenser les stratégies de production ainsi que les systèmes et les pratiques agricoles afin de les adapter aux conditions nouvelles. Pour répondre à ces défis, il convient de réorienter la masse de savoirs et d’expertises accumulés depuis les années 50 vers des stratégies favorisant à la fois la productivité des systèmes agricoles et la conservation des ressources naturelles. Les recherches en agro-écologie (Wezel et al., 2009) visent précisément l’établissement d’un meilleur compromis entre agriculture et environnement, dans un contexte dégradé (appauvrissement des sols et réduction des surfaces agricoles) et changeant, caractérisé par la montée des aléas physiques (changement climatique), biologiques (émergences de bioagresseurs), et économiques (volatilité des prix de l’énergie, des intrants et des produits agricoles). La manière de prendre les décisions relatives au choix et à l’organisation spatio-temporelle des cultures et des interventions techniques à l’échelle de l’exploitation agricole doit être profondément réexaminée. En effet, les pratiques impactent directement les ressources naturelles (e.g. en accentuant l’érosion du sol, en diminuant la biodiversité, en consommant massivement ou, parfois, en polluant l’eau) et la qualité des produits (sécurité alimentaire, saveur, authenticité). Elles sont aussi déterminantes dans les performances économiques des systèmes de production et de l’attractivité de l’agriculture comme pourvoyeur d’emploi. Pour concilier productivité et conservation des ressources naturelles, les modes de gestion des agriculteurs (Horlings, Marsden, 2011) devront explorer des voies nouvelles permettant d’intensifier l’usage des processus écologiques et mettre en œuvre des innovations issues à la fois de travaux scientifiques et de connaissances traditionnelles ou empiriques portées par les agriculteurs eux-mêmes. Un des principaux défis de l’agriculture du 21e siècle est d’assurer une transition vers une gestion durable des agro-écosystèmes (écosystèmes modifiés par les activités agricoles) qui vont des cultures, des pâturages, du bétail, ou d’autres espèces de flore et de faune, jusqu’aux sols, l’eau et l’atmosphère. Selon les principes de l’agro-écologie, la conception et la gestion durable des agroécosystèmes doivent se faire en favorisant les interactions et synergies biologiques et écologiques favorables, grâce à l’intégration des services écosystémiques (Power, 2010) qui comprennent, en particulier, les services de régulation (le contrôle des populations nuisibles, la pollinisation, la filtration de l’eau) et les services d’approvisionnement (les matières brutes obtenues à partir des agro-écosystèmes). La problématique scientifique de gestion des agro-écosystèmes se transforme en celle de la recherche de 6 HSP. Volume x – no y/2013 compromis entre tous ces services et de la conception de façons innovantes d’exploiter efficacement, maintenir et régénérer les ressources internes des (agro)écosystèmes. L’étude des problèmes de (re)configuration d’agroécosystème (décisions stratégiques) (Martin et al., 2013) et de pilotage adaptatif (décisions opérationnelles) sont au cœur de la problématique. Il s’agit de coordonner dans le temps et dans l’espace les services écosystémiques pour satisfaire des objectifs complexes de durabilité (économiques, environnementaux et sociaux) couvrant différentes échelles temporelles (considération de l’immédiat et du futur plus lointain), spatiales (prise en compte des conséquences induites ailleurs) et sociales (un compromis doit être trouvé entre tous les collectifs concernés par les services en question). Les travaux à mener se situent à l’interface entre sciences de la nature et sciences humaines et sociales en s’appuyant fortement sur la modélisation. Un besoin croissant se fait donc sentir pour des outils mathématiques et informatiques permettant de : – mieux comprendre les interactions entre les composantes physiques, biologiques et anthropiques des agro-écosystèmes ; – faciliter la conception, la mise en œuvre et l’évaluation des interventions pratiques qui favorisent la durabilité des systèmes agricoles dans des contextes particuliers ; – prédire l’évolution des agro-écosystèmes en fonction par exemple du changement climatique. De nombreux outils mathématiques ou informatiques ont été ou sont utilisés pour étudier les agro-écosystèmes, la simulation (Le Ber et al., 2012), le model-checking (Largouët et al., 2011), le data-mining, la visualisation de données, la reconnaissance de forme ou encore l’optimisation et l’apprentissage par renforcement. Dans cet article, nous présentons plusieurs formalismes mathématiques et informatiques issus de travaux en intelligence artificielle, en recherche opérationnelle ou en planification récemment appliqués à la gestion des agro-écosystèmes. Nous présentons en particulier, certains des travaux de l’équipe Modélisation des Agro-systèmes et Décisions (MAD) ayant pour thème la modélisation et la simulation de systèmes complexes pour exploiter les modèles agronomiques et les modèles de décision (section 2). Nous présentons par la suite des formalismes de conception de stratégie (section 3) tels que les réseaux de contraintes pondérées ou les processus décisionnels de Markov avant d’aborder le couplage entre les thèmes simulation et décision (section 4). Dans la section 5, nous illustrons ces méthodes sur des travaux récents de mise en œuvre de la gestion des agro-écosystèmes. Enfin, dans la section 6, nous concluons sur les résultats obtenus ces dernières années et les travaux futurs envisagés. 2. Approches basées sur la simulation de stratégies de gestion Depuis une vingtaine d’années, de nombreux travaux en informatique (Attonaty et al., 1993 ; Bergez et al., 2001 ; Muetzelfeldt, Massheder, 2003 ; Bolte et al., 2003 ; Martin-Clouaire, Rellier, 2009) ont été menés afin d’exploiter les modèles conceptuels 7 agronomiques et aider les agronomes à analyser, évaluer, comprendre et concevoir par simulation des systèmes intégrant l’agriculteur et les systèmes physiques qu’il contrôle. Aujourd’hui, la poursuite de ces travaux est devenu prépondérante pour répondre à de nouveaux besoins comme la prédiction des modèles en fonction des changements à venir qu’ils soient climatiques ou humains mais également pour comprendre les interactions entre ces systèmes complexes, systèmes qui s’affinent et se perfectionnent en fonction des évolutions technologiques des ordinateurs et des connaissances des thématiciens. 2.1. Simulation à événements discrets de la dynamique des agro-écosystèmes Les systèmes que nous étudions sont caractérisés par l’interaction entre activités agricoles, processus biophysiques et processus de décision individuelle ou collective, aux échelles de la parcelle agricole, de l’exploitation dans sa globalité ou d’un territoire plus vaste, pour des horizons temporels allant de la journée à plusieurs décennies. Nous sommes ainsi amenés à coupler des modèles de dynamique du système piloté (les modèles de culture par exemple) de comportements décisionnels (les stratégies de conduite par exemple) et, éventuellement, d’exécution des actions décidées. D’une manière générale (Martin-Clouaire, Rellier, 2009 ; Le Gal et al., 2007), le système de production agricole peut être divisé en trois systèmes en interaction : le système de décision, le système opérant et le système biophysique (cf. figure 1). Chacun de ces systèmes est constitué de processus indépendants qui modélisent la dynamique des éléments constituant le système. Ce découpage permet de séparer les processus de décision de l’agent, des processus biophysiques qu’il contrôle. De plus, cette architecture d’identifier les processus opérationnels qui résultent de la mise en œuvre des consignes d’exécution de tâches ou d’observation de l’agent. Cette séparation met en évidence le besoin de couplage formel de systèmes dynamiques modélisés à l’aide de formalismes de modélisation différents, (équations différentielles, automates à états, par exemple). Le cadre formel de simulation à événements discrets DEVS (Zeigler, 1984) et plus particulièrement sa version parallèle et à structure dynamique DSDE (Barros, 1998) permettent de proposer une approche systémique pour la simulation de la décision dans un agro-écosystème. DEVS est un formalisme reconnu pour la spécification de systèmes discrets ou continus complexes. Ce formalisme est représenté par un réseau de modèles atomiques (figure 2) et couplés (figure 3), en interaction et en concurrence sur le temps. Pour une description complexe du formalisme, nous recommandons la lecture du chapitre 3 de (Zeigler et al., 2000). DEVS définit un modèle atomique comme un ensemble de ports d’entrée et de sortie, d’états et de fonctions de transition d’états : M = hX, Y, S, δint , δext , δcon , λ, tai (1) 8 HSP. Volume x – no y/2013 Statuts des tâches État des systèmes OS/BS Système agent AS Système de croyances Système intentionnel MI (processus de décision) MB Consigne d’exécution des tâches et des observations Statuts des tâches Système opérant OS (processus opérationnels) Réaction / Perturbation Actions / Perturbation Système biophysique BS (processus biophysique) Figure 1. Modèle d’interaction des éléments d’un système de production agricole. M x0 ··· s = xn δint (s, e) δext (s, e, x) δcon (s, x) si si si X = ∅, e = τ (s) X 6= ∅, 0 ≤ e < τ (s) X 6= ∅, e = τ (s) y0 ··· yn Figure 2. Représentation graphique d’un modèle atomique DEVS M . Où : X est l’ensemble de toutes les valeurs d’entrée ; Y est l’ensemble de toutes les valeurs de sortie ; S est l’ensemble de tous les états séquentiels ; ta : S → R+ 0 est la fonction d’avancement du temps ; Q = {(s, e)|s ∈ S, 0 ≤ e ≤ ta(s)}, Q est l’ensemble des états totaux où, e est le temps depuis la dernière transition. δint : S → S est la fonction de transition interne ; δext : Q × X b → S est la fonction de transition externe et X b est un ensemble d’événements dans X produit à un instant donné ; δcon : S × X b → S est la fonction de transition de conflit, sujette à δcon (s, ∅) = δint (s). λ : S → Y est la fonction de sortie. Si aucun événement externe n’arrive sur un port d’entrée du modèle, le système reste dans l’état s pour ta(s) unité de temps. Quand e = ta(s), le système change d’état via l’appel de δint . Cette fonction représente l’autonomie du modèle atomique. 9 Si un événement externe de valeur x arrive quand le système est dans l’état (s, e) avec e < ta(s), le système change son état en appelant δext (s, e, x). Cette fonction représente la réponse aux perturbations extérieures. S’il arrive quand dans l’état (s, e) avec e = ta(s), le système change son état en appelant la fonction de conflit δcon (s, x). Cette fonction est appelée lorsqu’un conflit survient entre au moins un événement externe et l’échéance de la fonction ta(s) au même instant. Tous les modèles atomiques peuvent être couplés avec un ou plusieurs autres modèles atomiques pour former un modèle couplé. Cette opération peut être répétée pour former une hiérarchie de modèles couplés. L’ensemble de modèles atomiques, couplés et leurs connexions forme la structure du modèle. Un modèle couplé est défini de façon récursive par : x0 x0 x1 A y0 x0 y1 x1 B y0 x0 y1 x1 x0 x1 x1 x0 x1 E D C y0 y0 y1 y0 y1 y1 y0 y1 Figure 3. Représentation graphique d’un modèle couplé DEVS N comprenant cinq modèles atomiques ou couplés et un réseau de connexions représenté par la fonction i-to-d. N = hX, Y, D, {Md }, EIC, EOC, ICi (2) Où X et Y sont les ports d’entrée et de sortie, D l’ensemble des sous-modèles atomiques ou couplés. Ainsi, ∀d ∈ D, Md est un modèle DEVS atomique ou couplé. Les variables EIC , EOC et IC définissent la structure de couplage du modèle couplé avec : – EIC est l’ensemble des couplages externes en entrée, ils connectent les entrée du modèle couplé aux composants internes. – EOC est l’ensemble des couplages externes en sortie, ils connectent les sorties des composants internes au sortie du modèle couplé. – IC définit les couplages internes. Ils connectent les sorties des composants internes aux entrées des compostants internes. Le formalisme DEVS est très général et le développement de modèles opérationnels est loin d’être simple. En effet, il est nécessaire, tout d’abord de s’inscrire dans une modélisation à événements discrets or, de nombreux modèles sont à base d’équations différentielles (à temps continu) ou d’équations récurrentes (à temps discret) et leur reformulation en modèles à événements discrets DEVS n’est pas triviale. Deuxièmement, le formalisme DEVS laisse une totale liberté sur l’expression des états, des 10 HSP. Volume x – no y/2013 fonctions de transition, des valeurs transportées par les événements et offre simplement une structuration des modèles et une algorithmique minimaliste. Cette simplicité permet de définir un socle solide et simple pour le couplage des modèles. Il est donc nécessaire, dans la pratique, de disposer d’une infrastructure informatique pour aider le modélisateur. Le logiciel VLE (Virtual Laboratory Environment) (VLE) (Quesnel et al., 2009) est une solution modulaire et extensible pour réaliser des modèles multiformalismes par couplage. Il est implémenté suivant le concept de DEVS Bus (Zeigler et al., 2000 ; Quesnel et al., 2009). La multimodélisation dans VLE s’appuie sur une des propriétés essentielles de DEVS : l’encapsulation. En effet, B. P. Zeigler a montré que les formalismes issus des systèmes dynamiques où le temps est discrétisé, événementiel ou continu, peuvent être représentés ou généralisés en DEVS. Ainsi, plutôt que de développer des simulateurs spécifiques aux modèles à temps discret de type DTSS, à temps continu comme DESS, ou hybride comme DEV&DESS (Zeigler et al., 2000), l’encapsulation propose de modéliser ces formalismes directement en tant que modèle DEVS. Les travaux de l’équipe autour de DEVS et du couplage de formalismes ont permis de modéliser et de simuler des systèmes complexes comme le sont les exploitations agricoles mêlant et couplant des modèles de décision réactifs ou planifiés représentant les agents décideurs et des modèles continus ou discrets représentant les systèmes biophysiques par exemple les modèles de plantes, les modèles d’exploitation ou les modèles météorologiques. L’ensemble de ces travaux ont fait naître la plate-forme RECORD (Bergez et al., 2012). Cette plate-forme de modélisation et de simulation des agro-écosystèmes de l’INRA vise à aider les modélisateurs de l’INRA à modéliser, étudier, analyser, optimiser et réutiliser leurs modèles. Cette plate-forme de services fournit un ensemble de support sur l’utilisation de VLE via des formations et des documentations techniques. Elle fournit également des maintenances et des évolutions logicielles ainsi qu’une bibliothèque de modèles réutilisables. 2.2. Simulation du pilotage des agro-écosystèmes La conduite d’une production agricole est une tâche notoirement complexe parce que le comportement du système dépend beaucoup de facteurs exogènes sur lesquels le décideur n’a pas prise, le climat étant le plus important d’entre eux. Comme en production manufacturière, la modélisation et la simulation constituent un outil précieux pour étudier le fonctionnement des systèmes de production agricoles et aider à mieux comprendre les conditions de leur viabilité, améliorer leur efficience et leur robustesse à l’aléa, ou trouver des manières innovantes de les conduire en présence de nouvelles conditions économiques, sociales ou réglementaires. Les modèles de fonctionnement de cultures ou d’agrosystèmes sont utilisés par les agronomes depuis l’avènement de la micro-informatique (Keating et al., 2003). Dans le prolongement des travaux sur la simulation des processus biophysiques plusieurs projets, en particulier en France (Leroy et al., 1997 ; Bergez et al., 2001 ; Chatelin et al., 2005 ; Martin-Clouaire, Rellier, 2009), ont été menés afin de pouvoir étudier plus précisément les questions de 11 gestion de productions agricoles et de mieux comprendre l’articulation entre les processus biophysiques et les processus de décision utilisés par l’agriculteur pour piloter les premiers. Au cœur de ce type d’étude se trouve le problème de la représentation du comportement décisionnel d’un agriculteur dans sa tâche de conduite. Il est largement admis que le pilotage du système de production repose sur l’application de ce que nous appelons une stratégie de conduite, une sorte de programme d’action préétabli manuellement et spécifiant comment doivent être planifiées les activités de conduite, comment cette organisation doit être adaptée dans certaines situations identifiées, et quelles conditions et contraintes doivent être prises en compte dans la détermination pas à pas des actions à réaliser et des modalités d’exécution en fonction des circonstances rencontrées. Pour étudier le fonctionnement d’un système de production, il faut modéliser le processus de décision et ses interactions avec les processus biophysiques objets du contrôle, le déroulement des actions résultant de la prise de décision, et les facteurs importants de l’environnement extérieur. De nombreux modèles de simulation de systèmes de production agricole ont été développés dans les vingt cinq dernières années, mais en se cantonnant à des problèmes étroits comme l’application d’un itinéraire technique (séquence d’interventions) sur une parcelle cultivée (e.g. DECIBLE (Chatelin et al., 2005) pour le blé d’hiver ou APSIM (Keating et al., 2003) pour diverses cultures), la gestion de l’irrigation (e.g. IRMA (Leroy et al., 1997) ou MODERATO (Bergez et al., 2001) pour le maïs irrigué) ou la gestion du pâturage en élevage bovin (e.g. SEPATOU (Cros et al., 2001)). L’étude des décisions impliquant des considérations opérationnelles a été très peu abordée. Une exception et un précurseur est apparu avec le système OTELO (Attonaty et al., 1994) initialement développé pour étudier l’organisation du travail et la gestion des conflits sur l’utilisation des équipements en grande culture. Les auteurs proposent un modèle et un simulateur permettant de représenter les ressources, l’enchaînement d’activités qui les requièrent et les priorités d’allocation en fonction des situations rencontrées. Dans ces simulateurs, la modélisation du processus de prise de décision repose sur des représentations par règles de décision. L’outil DIESE (Martin-Clouaire, Rellier, 2009) qui s’inscrit dans le prolongement d’OTELO, est fondé sur une ontologie du domaine, c’est-à-dire un corps formel de connaissances sur la structure, le fonctionnement et la dynamique des systèmes, en particulier agricoles. Une partie notable de ce corps de connaissances porte sur le pilotage des systèmes, et sur les données et les raisonnements qu’il mobilise. Parmi les données, celles relatives au travail sont la nature, l’agencement et les propriétés des activités, des opérations et des ressources qu’elles mobilisent. Les raisonnements portent sur la localisation spatio-temporelle des actes techniques, en fonction de la perception dynamique de l’état du système, et l’allocation des ressources aux activités. Ce cadre accorde une place importante à la modélisation du contexte dans lequel le travail se déroule, c’est-à-dire les conditions qui président à la détermination des activités à réaliser à un moment donné et au déroulement de leur réalisation. L’agent en charge de la conduite est modélisé à travers son observation (surveillance) de l’ap- 12 HSP. Volume x – no y/2013 pareil de production, sa prise de décision en situation quant aux interventions sur cet appareil. Pour analyser le comportement organisationnel du gestionnaire, il est nécessaire de modéliser la nature circonstancielle des décisions opérationnelles qui, du fait des facteurs incontrôlables (p. ex. le climat) pesant sur un système agricole, voient leur pertinence et leur faisabilité très dépendantes des conditions et contraintes courantes, en particulier celles qui concernent les ressources. DIESE permet d’expliciter et d’exécuter des plans qui sont flexibles à travers la pertinence agronomique des activités qui depend de l’état courant du système, les spécifications temporelles des activités (début et fin au plus tôt et au plus tard), leurs positions relatives (en séquence, en parallèle, synchronisées ou pas), et leurs caractères optionnel et alternatif. Il autorise d’autre part la spécification d’activités à répéter conditionnellement à l’état. Les activités ont elles-mêmes un état (ouvert, fermé, en attente, dormante) mis à jour par l’interpréteur de plan qui tient compte de l’avancée du temps et propage les conséquences d’un changement d’état d’une activité à toutes celles qui lui son liées directement ou indirectement. Dans DIESE les tâches à exécuter sont déterminées chaque fois que se produit un changement de disponibilité sur les ressources ou que se termine une activité. DIESE récupère alors les activités ouvertes et génére les sous-ensembles d’activités pouvant être allouées en ressources (MartinClouaire, Rellier, 2011). Il choisit finalement un de ces sous-ensembles en fonction de critères propes au décideur modélisé. Autrement dit DIESE ne fait qu’interpréter itérativement le plan flexible qui lui est fournit et ne produit pas d’ordonnancement prévisionnel sur un horizon court comme le fait SAFHIR, présenté plus loin dans la partie illustrations. Des applications de DIESE existent en élevage (Martin et al., 2011) (Chardon et al., 2012), viticulture (Ripoche et al., 2011) et grandes cultures (Rellier et al., 2011). Enfin, l’extension « Décision » (Akplogan et al., 2010) du simulateur VLE (Quesnel et al., 2009) propose une approche systémique ou boîte noire de la simulation de stratégies de gestion. Cette extension du formalisme DEVS formalise un exécuteur de plans flexibles où chaque activé est transformée en automates à états, les connexions en contraintes de précédence, les consignes en événements externes. Ces travaux sont à la base du projet SAFHIR présentée dans la partie illustration. Les travaux présentés dans cette section répondent à deux problèmes présents dans le cas de la simulation de systèmes dynamiques. Le premier, le couplage de systèmes de décision avec des systèmes biophysiques. Le second, la modélisation de processus décisionnel dans le but de représenter le comportement décisionnel d’un agriculteur dans sa tâche de conduite. Cependant, dans ces travaux, l’aspect objectif de la décision n’apparaît pas. Dans les prochaines sections, nous développons cette problématique dans le but d’introduire de la planification et de l’anticipation dans les modèles. 3. Conception de stratégie de gestion des agro-écosystèmes Les formalismes de modélisation décrits précédemment n’explicitent pas les objectifs de l’agriculteur. Ils ne sont pas capables non plus d’intégrer l’anticipation dans 13 le processus décisionnel. Cependant les recherches en agronomie soulèvent la nécessité de prendre en compte l’ensemble de ces facteurs. Les récents travaux de Snow (Snow, Lovatt, 2008) montrent la pertinence de cette piste. Elle intègre la notion d’anticipation sous la forme d’une exploration d’arbre de décisions à base de planification et replanification. La planification permet de construire une suite de décisions dans l’optique d’atteindre un objectif prédéfini. Elle consiste à raisonner l’organisation des décisions avant même que leur mise en œuvre ne soit réalisée. Dans le domaine de l’intelligence artificielle, la planification occupe une partie très importante. De nombreux ouvrages d’IA (Russell, Norvig, 2010 ; LaValle, 2006 ; Ginsberg, 1994) présentent différentes techniques de planification. Toutefois, le terme planification est un terme générique. En effet, il existe autant de méthodes de planification que de types de décision auxquelles on pourrait être confronté. Par exemple en robotique, (Ghallab, 2001) parle (i) de planification de mouvement pour la construction du chemin et de la trajectoire d’un robot dans l’espace, (ii) de planification pour la communication en référence aux interactions robot-robot voir homme-robot, (iii) de planification de tâches pour l’organisation des actions (tâches) d’un ou plusieurs robots etc. Les problèmes de planification de tâches sont les plus proches de ceux auxquels nous nous intéressons dans le cadre de la gestion des agro-écosystèmes. Pour (Ghallab, 2001), c’est la forme la plus générale et la plus abstraite de la planification. Elle vise à déterminer et à organiser un ensemble de tâches dans le temps et à leur attribuer des ressources compte tenu des évolutions prévisibles de l’environnement. Ainsi, nous parlerons dans la suite de cet article de planification en référence à la planification automatisée de tâches. Au cours des dernières années, les chercheurs de l’équipe ont développé des approches de modélisation des comportements décisionnels de pilotage de systèmes de production en mettant l’accent sur (i) la prise en compte de l’incertitude, (ii) la caractérisation de stratégies robustes et flexibles et (iii) sur la coordination des activités de gestion de production. Ces approches intègrent des contraintes structurelles, agronomiques, environnementales et économiques. Les recherches portent sur la caractérisation de ces processus décisionnels et sur le développement de formalismes génériques de représentation permettant leur simulation, leur utilisation dans des démarches de conception participative ou d’optimisation. Elles s’appuient et contribuent à des approches issues de l’intelligence artificielle, de la recherche opérationnelle, des sciences économiques et des sciences des organisations et de la gestion de production. En planification dans l’incertain, l’aléa de l’environnement extérieur (particulièrement présent en agronomie, comme dans toutes les sciences de l’environnement) est pris en compte à travers la modélisation d’effets stochastiques des actions. Dans ce cas, une action peut avoir plusieurs effets potentiels différents lorsqu’elle est appliquée dans un même état. C’est pourquoi, la notion de plan d’action est remplacée par la notion de politique δ = {δt }, associant à toute trajectoire partielle (x0 , . . . , xt ) une action at = δt (x0 , . . . , xt ) ∈ A. On parle parfois de plan conditionnel, contrepartie des plans classiques, dits inconditionnels. 14 HSP. Volume x – no y/2013 Dans la suite de cette section, nous décrivons trois approches de la planification ayant donné lieu à des applications en agronomie et en gestion de l’environnement : la planification hiérarchique, la planification basée sur les problèmes de satisfaction de contraintes et la planification dans l’incertain basée sur les processus décisionnels de Markov. 3.1. Planification hiérarchique La planification hiérarchique se base sur le concept de hiérarchie d’abstraction des actions et vise à réduire la complexité liée à l’espace de recherche des plans. Le principe de fonctionnement d’un planificateur hiérarchique consiste à produire à chaque niveau, un plan explicite qui résout le problème posé au « niveau d’abstraction » considéré. Le planificateur commence par dresser un plan à haut niveau, ce plan est ensuite enrichi au fur et à mesure que le planificateur progresse dans les différents niveaux, ceci jusqu’à l’obtention d’un plan composé uniquement de tâches de bas niveau. Les avantages de la planification hiérarchique tiennent à trois grands principes : – l’exploitation des connaissances expertes spécifiques au domaine. Ces connaissances sont représentées dans les différentes hiérarchies. – la réduction de l’espace de recherche au travers du raisonnement sur les différentes couches d’abstractions, – la résolution des interactions entre sous-tâches représentées par les contraintes d’ordre partiel ou total. C’est au milieu des années 90 que (Erol et al., 1994) puis (Nau et al., 2003) développent une base formelle, des algorithmes et une analyse de complexité de la planification hiérarchique. Dès lors, le terme planification hiérarchique fait référence à la planification Hierarchical Task Networks (HTN). Celle-ci est une approche de hiérarchisation des opérateurs dans laquelle le domaine de planification spécifie la façon de réaliser les buts. Les planificateurs HTN les plus connus sont UCMP (Erol et al., 1994), SHOP (Nau et al., 1999) et SHOP2 (Nau et al., 2003) 3.1.1. Concepts de la planification HTN Les éléments de base proposés pour la formalisation HTN sont les états du système, les tâches primitives ou composées et les méthodes de décomposition. – États du système : un état est une liste de symboles propositionnels encore appelés atomes. Les atomes qui apparaissent dans cette liste sont tous satisfaits. Ceux qui n’apparaissaient pas sont tous non satisfaits. – Tâche : une tâche est une liste de la forme t(h1 , h2 , . . . , hn ) où t représente le nom de la tâche et les hi des arguments de la tâche. Il existe deux types de tâches dans un HTN. Les tâches composées et les tâches primitives. Les tâches composées se décomposent en sous-tâches de façon récursive jusqu’à atteindre des tâches primitives directement exécutables par le système. 15 – Tâches primitives : elles sont de la forme t(h1 , h2 , . . . , hn ). Elles correspondent à des actions dans la planification de type STRIPS (Fikes, Nilsson, 1971). Les préconditions et les effets des tâches primitives sont déclarés en utilisant des opérateurs. Ainsi, le nom d’une tâche primitive est celui d’un opérateur qui décrit son exécution. – Opérateurs : les opérateurs sont de la forme (Operator o , pre, eff ) où o est la tâche primitive, pre l’ensemble des atomes qui décrivent les conditions d’activation de o et eff l’ensemble des atomes qui décrivent les effets de o. – Tâches composées : elles sont également de la forme t(h1 , h2 , . . . , hn ). Elles correspondent à un réseau de tâches. Une tâche composée décrit un plan d’action en y ajoutant les conditions d’exécution des actions qu’elle comporte. Les tâches composées sont associées à des méthodes qui permettent de décomposer des tâches en sous tâches. Les sous tâches peuvent être partiellement où totalement ordonnées. – Méthodes : les méthodes sont de la forme (Methode m , pre, T ) où m définit le nom de la tâche composée, pre l’ensemble des atomes qui décrivent les conditions d’activation de la méthode m et T une liste de sous tâches. Le graphe de recherche du planificateur est un arbre ET-OU. Chaque sous-arbre représente un sous-problème. Les nœuds ET de cet arbre sont des sous-problèmes qui ont pour fils d’autres sous-problèmes plus élémentaires. Un nœud ET est résolu à condition que tous ses fils soient résolus. Un nœud OU de l’arbre est aussi un sousproblème. Chacun de ses fils représente une manière de résoudre le sous-problème. Un nœud OU est résolu à condition qu’au moins un de ses fils soit résolu. Si plusieurs nœuds OU sont applicables, des heuristiques peuvent être utilisées pour choisir le nœud le plus adapté à la résolution du sous problème. Dans un HTN, les nœuds OU sont encodés dans les méthodes et un nœud ET est une réduction d’un nœud OU. 3.1.2. Approche de planification dans les HTN Les systèmes de planification HTN sont des systèmes de planification non linéaire combinés à une hiérarchisation des actions. Le planificateur prend en entrée l’état initial et un réseau de tâches. Le fonctionnement d’un planificateur HTN est basé sur une expansion des actions de haut niveau en actions de plus bas niveau. Pour chaque action abstraite il existe des décompositions dont l’application aboutit à des actions partiellement ordonnées. Ainsi, une action abstraite du plan courant peut être décomposée de différentes manières. Ces décompositions sont généralement stockées dans une bibliothèque de plans et le choix d’une décomposition dépend d’un ensemble de conditions. Les planificateurs HTN ignorent les préconditions, les effets et les liens causaux entre les actions d’une décomposition tant que celle-ci n’est pas choisie. Le fonctionnement d’un planificateur HTN est de ce fait une forme de réduction de problème auquel nous ajoutons du « backtracking ». Le principe de l’algorithme peut être décrit comme suit : 1. Importer un problème de planification P . 2. Si P ne contient que des tâches primitives, alors résoudre les conflits et retourner le résultat. Si les conflits ne peuvent être résolus, alors retourner erreur. 16 HSP. Volume x – no y/2013 3. Choisir une tâche non primitive t dans P . 4. Choisir une expansion pour t. 5. Remplacer t avec l’expansion. 6. Trouver les interactions entre les tâches dans P et suggérer des façons de les gérer. En choisir une. 7. Aller à l’étape 2. Le plan solution est une séquence de tâches primitives. 3.1.3. Illustration sur le problème du choix d’un mode de conduite en agriculture Le problème de choix du mode de conduite par couple cultures annuelles/parcelle est un problème de planification intra-annuelle. Il revient à choisir pour chacune des parcelles d’une exploitation agricole, l’enchaînement des opérations agricoles qui permettra d’atteindre les objectifs de production de l’agriculteur. Chaque opération agricole est soumise à un ensemble de contraintes temporelles (durée d’exécution, période d’activation et période de fermeture) et de ressources. Les plans d’actions résultants définissent les modes de conduite des cultures allouées aux parcelles. Les différents modes de conduite, encore appelés itinéraires techniques (ITK), sont prédéfinis. Il en existe plusieurs pour chaque culture. Chacun d’eux permet d’atteindre un objectif spécifique qui peut être de maximiser le rendement, de minimiser les intrants ou de minimiser la charge de travail. Les ITKs sont des plans temporellement consistants, réalisables en fonction des capacités de ressources et dont l’exécution nécessite une allocation explicite de ressources. La capacité des planificateurs hiérarchiques à prendre en compte les connaissances expertes spécifiques au domaine est très importante pour résoudre ce problème. En effet, l’agriculteur ne réinvente pas à chaque fois la manière de conduire ses cultures. Il dispose, via ses itinéraires techniques, de connaissances suffisantes sur les différentes manières de résoudre le problème de conduite de culture. L’autre avantage de l’approche HTN est relatif au fait qu’elle est plus efficace en ligne car elle réduit l’espace de recherche. En contrepartie, elle nécessite l’utilisation d’heuristiques de décomposition. Dans notre cas, l’heuristique de décomposition doit intégrer la notion « d’exécutabilité » d’une décomposition au vu des autres décompositions choisies. Cela résulte du fait que chaque décomposition pour une parcelle donnée est consommatrice de ressources alors que les disponibilités de ressources sont définies au niveau global de l’exploitation. Bien qu’ayant été utilisés pour de nombreuses applications du monde réel, les planificateurs HTN classiques apportent très peu de réponses à la prise en compte du temps. Or dans notre problème, sa prise en compte explicite est nécessaire. Le cadre STN (Simple Temporal Networks) basé sur l’algèbre des instants de (Vilain et al., 1986), est capable de représenter les relations temporelles sous la forme d’une conjonction de relations entre des instants continus appartenant à des intervalles d’instants. L’algèbre des instants utilise des relations primitives {=, <, >, ≤, ≥, 6=}. Les 17 avantages de cette représentation sont notamment, la spécification des intervalles sur les dates de début et de fin des tâches et la formulation de contraintes numériques liées aux décalages temporels (timelag) entre tâches. En se basant sur les réseaux de contraintes temporelles simples, les planificateurs SIADEX (Castillo et al., 2005 ; 2006) et SAFHIR (Akplogan, 2013) ont introduit des mécanismes d’extraction et de propagation des contraintes. Les STN sont utilisés pour définir les réseaux de tâches associés aux tâches composées. Chaque contrainte temporelle dans SIADEX exprime soit les dates de débuts, de fins, soit les relations temporelles entre les tâches d’un réseau. La propagation des contraintes temporelles est réalisée par une version modifiée de l’algorithme de cohérence de chemin Path Consistency (PC-2 (Dechter, 2003)). Les algorithmes et les exemples d’utilisation de HTN, STN et de la prise en compte des ressources sont disponibles dans (Akplogan, 2013). 3.2. Planification par satisfaction de contraintes pondérées Les techniques de planification basées sur la satisfaction de contraintes ou CSP (Constraint Satisfaction Problem) (Montanari, 1974) permettent d’appréhender certaines classes de problèmes généraux avec des algorithmes efficaces. Dans les prochaines section, nous décrivons (i) les CSP et (ii) leur extension WCSP avant de montrer un cas pratique de l’utilisation de ceux-ci dans un problème de planification d’allocation de cultures. 3.2.1. Problème de satisfaction de contraintes Un problème de satisfaction de contraintes est défini par un tuple hX , D, Ci avec : – X = {x1 , · · · , xn } un ensemble fini de variables, – D = {D1 , · · · , Dn } un ensemble fini de domaines de variables tel que chaque variable xi ∈ X soit associée à un domaine fini de valeur Di ∈ D, – C = {CS1 , · · · , CSe } un ensemble contraintes dures c’est-à-dire à satisfaire absolument. Chaque contrainte dure CSj ∈ C porte sur un sous-ensemble de variables S j ⊆ X , appelé portée de la contrainte. La taille | S j | de la portée, soit le nombre de variables qu’elle comporte, est généralement appelé l’arité de la contrainte. Les contraintes dures imposent des restrictions sur les affectations de valeurs aux variables de sa portée. Soit l[Sj ] l’ensemble des combinaisons de valeurs sur la portée S j . Chaque contrainte dure CSj n’autorise qu’un sous ensemble des combinaisons de valeurs de l[Sj ]. Affecter une variable xi consiste à lui attribuer une valeur v appartenant à son domaine Di . L’affectation est généralement notée (xi = v). Nous parlerons d’une affectation complète A pour signifier une affectation de toutes les variables à une valeur. Autrement dit, A ∈ l[X ] est un élément de l’ensemble des combinaisons de valeurs sur l’ensemble D des domaines des variables X . 18 HSP. Volume x – no y/2013 Si l’affectation ne porte que sur un sous ensemble de variables Sj , nous parlerons d’affectation partielle notée A[Sj ]. La projection d’une affectation partielle ou totale A = {x1 = v1 , . . . , xk = vk } sur l’ensemble Y = {xi1 , . . . , xip } ⊂ {x1 , . . . , xk } est l’affectation partielle {xi1 = vi1 , . . . , xip = vip }. Elle est notée A[Y ]. 3.2.2. Réseaux de contraintes pondérées Les CSP ne modélisent que l’autorisation ou l’interdiction de combinaisons de valeurs. Or certains problèmes issus du monde réel sont par nature sur-contraints, c’est-à-dire qu’ils ne possèdent aucune solution. Lorsque nous cherchons à modéliser ces types de problème, il est primordial de définir des contraintes dures (à satisfaire absolument) et des contraintes souples encore appelées préférences. Ces préférences définissent des contraintes que nous souhaitons voir vérifier dans des solutions de bonne qualité. Ainsi, l’objectif n’est plus de voir toutes les contraintes satisfaites mais plutôt de les satisfaire du mieux possible. En d’autres termes, il s’agit de satisfaire toutes les contraintes dures et de minimiser une agrégation des coûts des préférences insatisfaites. Pour modéliser des préférences sur certaines combinaisons de valeurs, les réseaux de contraintes valuées (VCSP, Valued Constraint Satisfaction Problem) ont été proposés (Schiex et al., 1995). Cette extension de CSP permet d’appréhender différentes classes de problèmes dont les réseaux de contraintes pondérées ou WCSP (Weighted Constraint Satisfaction Problem) (Meseguer et al., 2006). Les réseaux de contraintes pondérées sont une extension des réseaux de contraintes qui permet d’ajouter une structure de valuation. Celle-ci permet de définir une structure algébrique caractérisant les coûts associés à certaines combinaisons de valeurs. Un réseau de contraintes pondérées WCSP est défini par un tuple hX , D, Wi avec : – X = {x1 , · · · , xn } un ensemble fini de variables. – D = {D1 , · · · , Dn } un ensemble fini de domaines de variables tel que chaque variable xi ∈ X soit associée à un domaine fini de valeurs Di ∈ D. – W = {WS1 , · · · , WSe } un ensemble de fonctions de coûts. Soit l[Si ] l’ensemble des combinaisons de valeurs sur la portée Si . Chaque fonction de coûts WSi ∈ W est définie par WSi : l(Si ) → [0, m] avec m ∈ [1, · · · , +∞]. Le coût cost d’une affectation complète A ∈ l[X ] est : cost(A) = X WSi (A[Si ]) WSi ∈W Où A[Si ] est la projection d’une affectation de valeurs sur le sous ensemble de variables Si . La solution d’un WCSP est une affection complète A∗ ∈ l[X ] de coût cost(A∗ ) telle que : 19 cost(A∗ ) = min A∈l[X ] X WSi ∈W WSi (A[Si ]) 3.2.3. Illustration sur l’allocation de culture Les WCSP présentés précédemment, ont été employés pour aborder le problème de l’allocation de cultures. L’allocation de cultures (PAC) est l’une des décisions les plus importantes auxquelles doit faire face un agriculteur. Elle intervient notamment dans la première phase du processus de production des cultures et permet à l’agriculteur de planifier sur plusieurs années sa stratégie d’occupation du sol. Le terme « allocation de culture » fait référence (i) au choix des cultures à produire, (ii) à la détermination des proportions annuelles de chacune des cultures et (iii) à l’allocation de ces cultures aux parcelles de l’exploitation. Le PAC qui en découle nécessite la prise en compte d’un ensemble de critères spatiaux (e.g. les zones cultivables, le type de sol) et temporels (e.g. les contraintes de succession et effets précédents des cultures) interagissant à différentes échelles de l’exploitation agricole. Les dimensions spatiale et temporelle d’un PAC sont étroitement liées dans la mesure où le choix des séquences de culture pour chaque parcelle prédétermine l’occupation annuelle des parcelles de l’exploitation agricole. Le PAC est un problème de planification sur un horizon fini H, durant lequel des cultures sont affectées aux parcelles (cf. figure 4) de manière à prendre en compte un ensemble de concepts agronomiques relatifs (i) à l’organisation spatiale de l’exploitation et (ii) à la succession temporelle des cultures sur les parcelles. Résoudre un PAC consiste donc à affecter sur un horizon fixe H des cultures aux parcelles. Chaque affectation des cultures doit satisfaire un ensemble de contraintes dures et de préférences. L’utilité des allocations est estimée par une fonction globale combinant linéairement plusieurs critères relatifs aux préférences agronomiques et managériales de l’agriculteur. Ce travail vise à appréhender l’ensemble des facteurs spatiaux et temporels exploités par l’agriculteur. Ces critères sont formalisés dans le cadre des CSP pondérés sous la forme de contraintes dures et de préférences de l’agriculteur. Notre choix des contraintes repose sur une étude réalisée par Dury (Dury et al., 2011) sur les différentes pratiques des agriculteurs. Les contraintes dures retenues dans cette illustration sont notamment les délais de retour minimum des cultures, l’historique des parcelles, les propriétés physiques (types de sol, accessibilité des ressources) des parcelles. Les préférences sont quant à elles relatives aux effets précédents (kp ) qui se réfèrent à une parcelle et déterminent la variation des caractéristiques biologiques, chimiques et physiques du sol entre le début et la fin de la culture sous l’influence du peuplement végétal et des techniques qui lui sont appliquées et à l’équilibre spatial et temporel des proportions de culture et ceci sous contrainte de ressources. Les contraintes dures et les préférences sont définies aussi bien au niveau : (i) des parcelles afin d’exprimer pour chacune d’entre elles la possibilité (voir l’impossibilité) d’un redécoupage ou d’une fusion, (ii) des blocs afin 20 HSP. Volume x – no y/2013 p3 p4 Unités de gestion 4 blocs, 8 parcelles b=2 Propriétés biophysiques 2 types de sol kp kp p2 t1 p2 t2 p2 t3 Année Figure 4. Représentation schématique des concepts spatio-temporels d’un PAC (ti : année, b: bloc, pj : parcelle, kp : effet précédent). d’exprimer la compatibilité spatiale des cultures aux parcelles, les délais de retour minimum et les effets précédents des cultures, (iii) de l’exploitation afin d’exprimer les objectifs de production ou l’usage des ressources. Le WCSP suivant représente la définition du PAC pour un horizon fini H par un ensemble de parcelles élémentaires et de cultures : – X un ensemble de variables xtb,i ∈ X . Chaque variable xtb,i définit la parcelle élémentaire i du bloc b, i ∈ Nb , b ∈ [1, B] (B = le nombre de bloc et N1 = le nombre de parcelle) à la date t (t ∈ [1, H]). Ainsi, chaque parcelle élémentaire est décrite par H variables correspondant à l’occupation de la parcelle élémentaire à chaque instant. Soient [1, h] et [h + 1, H] respectivement les instants du passé (historique) et du futur. – D les domaines Db,i des variables xtb,i est l’ensemble des cultures possibles sur toutes les parcelles élémentaires. – W les fonctions de coûts. La formalisation de ces contraintes et préférences dans le cadre des WCSP sont disponibles dans (Akplogan et al., 2011). L’apport de ces travaux par rapport à l’état de l’art sur le PAC est la prise en charge des deux dimensions spatiale et temporelle du PAC. Les résultats obtenus montrent que des solutions peuvent être trouvées en temps raisonnable pour des PAC de petites et moyennes tailles. 21 3.3. Planification dans l’incertain et Processus Décisionnels de Markov En planification dans l’incertain, l’effet d’une action sur l’état du monde n’est pas forcément déterministe. Ceci est le cas, en particulier, dans les applications en agronomie ou l’aléa extérieur, notamment climatique, influence beaucoup les conséquences des actions appliquées à un système semi-naturel. Plusieurs cadres ont été proposés en intelligence artificielle, pour modéliser de tels problèmes de planification dans l’incertain. Une famille d’approches, particulièrement fournie, est basée sur le cadre des Processus Décisionnels de Markov (PDM) (Puterman, 1994), sur laquelle la communauté de l’IA s’est appuyée pour proposer des modèles et algorithmes pour la planification dans l’incertain (voir (Buffet, Sigaud, 2008), par exemple). 3.3.1. Processus décisionnels de Markov Un PDM est constitué d’un quintuplet {X , A, p, r, T }, dans lequel : – X représente un ensemble (en général fini) d’états possibles d’un système à contrôler. – A représente un ensemble (en général fini, également) d’actions applicables au système. – p est une fonction de transition, représentant l’effet (incertain) des actions sur l’état du système. L’effet d’une action est décrit par p(xt+1 |xt , at ), représentant la probabilité d’atteindre l’état xt+1 du système, lorsque l’action at est appliquée à l’état xt . – Une fonction r est utilisée pour modéliser les préférences de l’agent décideur, sur les transitions du système (r(st , at , st+1 )), ou sur un but à atteindre rT (xT ). Dans un PDM, la notion de plan d’action est remplacée par la notion de politique. On parle parfois de plan conditionnel, contrepartie des plans classiques, dits inconditionnels. Une politique δ = {δt } associe à toute trajectoire partielle (x0 , . . . , xt ) une action at = δt (x0 , . . . , xt ) ∈ A. Pour toute trajectoire fixée du système τ = (x0 , a0 , . . . , xT −1 , aT −1 , xT ), on définit la probabilité de suivre cette trajectoire en appliquant la politique δ à partir de x0 : p(τ |x0 , δ) = TY −1 p(xt+1 |xt , δt (x0 , . . . , xt )) t=0 De même, on définit la récompense obtenue lorsque l’on suit la trajectoire τ : u(τ ) = T −1 X t=0 r(xt , at , xt+1 ) ! + rT (xT ) On définit enfin l’utilité espérée d’une politique δ par : 22 HSP. Volume x – no y/2013 EUδ (x0 ) = X p(τ |x0 , δ).u(τ ). τ Résoudre un PDM consiste à trouver une politique δ ∗ d’utilité espérée maximale, pour un état initial x0 , fixé (EUδ∗ (x0 ) ≥ EUδ (x0 ), ∀δ), ou pour un ensemble d’états initiaux. On peut montrer qu’une telle politique optimale existe (Bellman, 1957). Qui plus est, dans le cas où l’horizon est infini (T = +∞), il existe une politique optimale stationnaire (indépendante de t), δ ∗ : X → A (Puterman, 1994). Ce problème d’optimisation est classiquement résolu par des méthodes de type Programmation Dynamique Stochastique (Bellman, 1957 ; Bertsekas, 1987 ; Puterman, 1994). L’algorithme de Recherche Arrière est utilisé pour résoudre des problèmes à horizon fini et les algorithmes d’Itération de la Politique et d’Itération de la Valeur sont les plus couramment utilisés pour le problème à horizon infini. Le cadre des processus décisionnels de Markov s’est largement imposé comme modèle pour la planification dans l’incertain en intelligence artificielle ces dernières années. Néanmoins, un certain nombre de limitations le rendent insuffisant pour modéliser et résoudre la plupart des problèmes de planification dans l’incertain. Ces limitations sont génériques, dès lors que l’on souhaite résoudre un problème de planification non-idéalisé : – L’hypothèse d’observabilité complète de l’état du monde à chaque instant. – L’hypothèse (différente de la précédente) de connaissance parfaite du modèle (transitions, récompenses). En effet, parfois ce modèle n’est accessible qu’indirectement, par simulation ou expérimentation. – L’hypothèse de représentation des états et décisions en extension, beaucoup plus limitée que les langages de représentation habituellement utilisés en planification, qui permettent de modéliser des problèmes beaucoup plus complexes. Notons que si ces limitations sont rencontrées dans la plupart des problèmes de planification « réalistes », elles sont d’autant plus critiques en agriculture, domaine dans lequel la connaissance partielle d’un modèle ou l’existence de variables d’état et de décision multiples sont la règle plutôt que l’exception. Pour pallier ces différentes limitations, plusieurs extensions des PDM ont été proposées : – Les Processus décisionnels de Markov partiellement observables (Kaelbling et al., 1998), relâchent l’hypothèse d’observabilité parfaite de l’état courant d’un PDM. – Les Processus décisionnels de Markov factorisés (Boutilier et al., 2000 ; Sabbadin et al., 2012) fournissent un cadre et des algorithmes de résolution pour des PDM dans lesquels les états et/ou les actions sont représentées sous forme factorisée, dans des langages issus soit de la logique soit des réseaux bayésiens. – Les méthodes de type Apprentissage par Renforcement (voir Section 4) couplent des simulations des transitions d’un PDM et de la programmation dynamique, afin 23 de résoudre des PDM dont le modèle n’est pas connu a priori, mais accessible par simulation uniquement. 3.3.2. Illustration sur un problème de gestion forestière Le cadre des PDM a été utilisé à de nombreuses reprises, et depuis longtemps, pour modéliser et résoudre des problèmes de planification dans l’incertain en agriculture (voir, par exemple, (Kennedy, 1986)). Plus récemment, des extensions des PDM développées dans la communauté de l’Intelligence Artificielle, ont été mises en oeuvre sur des problèmes de gestion forestière ou de gestion de maladie des plantes. (Sabbadin et al., 2012), par exemple, ont défini une classe de PDM factorisés dans laquelle : – Plusieurs variables décrivent l’état global d’un système (par exemple, l’âge des diverses parcelles d’une forêt). – Plusieurs variables de décision (en général autant que de variables d’état) décrivent une action courante. Dans le cas de la forêt, ces variables représentent les actions (coupe, éclaircie), appliquées à chaque parcelle. – La fonction de transition globale du système est représentée par un produit de fonctions locales, n’impliquant qu’un petit nombre de variables d’états/actions. Dans un problème de gestion forestière, on peut supposer que la dynamique de l’état d’une parcelle ne dépend que de l’action qui lui est appliquée, ainsi que de ses interactions avec ses parcelles voisines. – Enfin, la fonction de récompense globale est supposée être l’addition de fonctions de récompenses locales. Dans le cas de la gestion forestière, cette récompense globale peut être la somme des revenus générés par chaque parcelle, par exemple. Sous ces hypothèses, il devient trop complexe de calculer une politique optimale, voire même de la représenter (puisque les actions sont définies en fonction de l’état de toutes les parcelles!). Néanmoins, (Sabbadin et al., 2012) ont proposé une méthode permettant de calculer des politiques locales, de bonne qualité empirique. Une politique locale, dans le cas de la gestion forestière, est une politique qui décide des actions à appliquer à chaque parcelle, en fonction de son état et de ceux de ses parcelles voisines (donc sans considérer l’état des parcelles éloignées). De la même manière, dans la Section 5.2, nous décrirons un autre exemple d’utilisation des PDM en agriculture, pour la cartographie d’invasion de plantes adventices. L’approche qui sera décrite inclut à la fois des considérations d’observabilité partielle, et de factorisation des états du système. 4. Conception de stratégies par simulation et apprentissage Le cadre des processus décisionnels de Markov permet de représenter et résoudre des problèmes de planification dans l’incertain. Il est possible d’étendre le cadre des PDM à la planification en environnement « partiellement observable ». On parle par- 24 HSP. Volume x – no y/2013 fois dans le cadre des PDM d’observabilité partielle dans un sens différent alors que l’état du monde est parfaitement connu à chaque instant. Il s’agit du cas où le modèle du PDM est imparfaitement connu, c’est-à-dire, lorsque les fonctions p et r du modèle < X , A, p, r > sont inconnues a priori mais accessibles par expérimentation, soit parce qu’on peut simuler la dynamique du système, soit parce qu’on peut l’expérimenter en temps réel. Les méthodes de type Apprentissage par Renforcement visent à résoudre de tels problèmes, dans lesquels le « modèle » du PDM est appris en même temps que sa solution optimale. Pour ce faire, il existe deux types de méthodes : les méthodes indirectes et les méthodes directes. Les méthodes indirectes (Kumar, Varaiya, 1986 ; Sutton, 1991 ; Peng, Williams, 1993 ; Moore, Atkeson, 1993) supposent d’apprendre dans un premier temps (par simulation ou expérimentation) le modèle (p, r) du PDM, puis de le résoudre par un algorithme de Programmation Dynamique. De manière un peu plus évoluée, on peut focaliser l’effort lié à l’apprentissage du modèle sur des zones de l’espace d’étatsactions (X × A) prometteuses, sans négliger totalement le reste de l’espace d’étatsactions, afin de garantir qu’on ne passe pas à côté d’une politique optimale. Les méthodes indirectes permettent de résoudre des PDM dont on ne connaît pas, à priori, le modèle, à la condition de pouvoir expérimenter ou simuler ce modèle. Ces méthodes présentent toutefois un inconvénient : elles nécessitent de stocker au moins partiellement les fonctions p̂ et r̂. Les méthodes directes (Sutton, 1988 ; Watkins, 1989 ; Watkins, Dayan, 1992) permettent de se passer de stocker le modèle (p, r) en entier et de ne garder que ce qui est nécessaire à l’évaluation de politiques ou au calcul de politiques optimales. En contrepartie, des expérimentations / simulations plus nombreuses peuvent être nécessaires. Le choix d’une méthode directe sera donc préféré lorsque les simulations ont un coût faible, et qu’un problème de taille mémoire peut se poser. En général, l’information stockée pour l’évaluation des politiques est une fonction Q : X , A → R qui associe l’utilité espérée lorsque l’on applique, pour la première transition, une action donnée a ∈ A depuis l’état x ∈ X , puis en appliquant ensuite la politique courante. Ainsi, au sein de l’algorithme Q-learning (Watkins, 1989), dans le cadre de l’optimisation du critère gamma pondéré, une mise à jour de cette fonction est effectuée pour chaque transition expérimentée ou simulée qui permet de converger vers la politique optimale (α est un paramètre qui décroît avec t). Qt+1 (xt , at ) ← (1 − αt ) × Qt (xt , at ) +αt × [rt (xt , at , xt+1 ) + γ × maxa0 Qt (xt+1 , a0 )] δt+1 (xt ) = argmaxa Qt+1 (xt , a) Le modèle (p, r) n’est donc pas conservé directement, on ne conserve que la politique courante Q. La mise à jour est ici formulée dans le cadre dit tabulaire, c’est à dire lorsque le domaine X ∗ A est discret. Pour prendre en compte des domaines continus, une possibilité est de se reposer sur des modèles de régression pour estimer 25 Q. Par exemple, l’expression de Q peut être un modèle linéaire sur une base de m fonctions paramétriques Φ, elle prend alors la forme suivante : Q(x, a) = X w i × Φi i∈{1,..,m} L’optimisation, ou l’apprentissage, consiste alors à estimer les valeurs des wi . Les méthodes directes et indirectes entrelacent en général apprentissage et programmation dynamique, afin de gagner en efficacité. 5. Illustrations Dans cette section, nous présentons des illustrations plus complètes des méthodes décrites dans les sections précédentes. 5.1. SAFIHR : Modélisation d’un agent agriculteur Dans des travaux récents (Akplogan, 2013), a abordé la question de la modélisation et de la simulation d’un agent agriculteur qui doit gérer son exploitation agricole. Cet agent est modélisé sous la forme d’un système dynamique couplé à un ensemble de systèmes continus ou discrets représentant les éléments de son exploitation : parcelles, plantes, ressources etc. Ce système agent doit alors répondre aux différents problèmes qu’un agriculteur peut rencontrer dans son exploitation. Ces travaux mettent en œuvre un ensemble de formalismes et concepts issus des communautés de la recherche opérationnelle, de la planification et de la simulation présentés en partie dans les sections précédentes. 5.1.1. Problème de décision La conduite d’une exploitation par un agriculteur amène à identifier trois types de problèmes de décision : stratégique, tactique et opérationnelle. Chacune de ces décisions porte sur des dimensions spatiales (allant de l’exploitation à la parcelle) et temporelles (de quelques heures à plusieurs années). Dans ces travaux, nous définissons : – La décision stratégique comme un problème de planification spatio-temporelle à long terme, plusieurs années, dans lequel des cultures sont affectées à des parcelles de manière à atteindre les objectifs de production de l’agriculteur tout en satisfaisant un ensemble de contraintes et de préférences agronomiques ou écologiques. – La décision tactique comme un problème de planification d’actions duratives dans l’espace de plans partiellement ordonnés que sont les itinéraires techniques (ITKs). L’objectif de cette planification à moyen terme, plusieurs mois voire une année, est d’affecter des ITKs à des couples parcelle/culture de manière à respecter les 26 HSP. Volume x – no y/2013 préférences de conduite de l’agriculteur tout en tenant compte des contraintes temporelles et des ressources sur les opérations agricoles. – La décision opérationnelle comme un problème d’ordonnancement à court terme, quelques jours, d’un ensemble d’actions duratives et parallèles. Son but est d’allouer des ressources réutilisables et consommables aux différentes opérations agricoles de manière à satisfaire les contraintes temporelles et les règles de priorités entre opérations. Pour répondre à ce problème, (Akplogan, 2013) a choisi de construire un système complexe autonome capable d’entrelacer continuellement des phases de planification et d’exécution. Les approches adoptées sont issues de la robotique autonome et permettent d’intégrer les spécificités de la décision dans les systèmes de culture à l’échelle de l’exploitation. Elles sont basées sur l’architecture CLARAty (Coupled Layer Architecture for Robotic Autonomy (Volpe et al., 2000 ; 2001 ; Estlin et al., 2001)), utilisée dans le système CLEaR (Closed-Loop Execution and Recovery (Fisher et al., 2000 ; Estlin et al., 2001)). L’approche de (Akplogan, 2013) exploite également l’idée de la hiérarchisation de l’horizon de planification proposée dans CLEaR. Cela permet de mettre en œuvre des niveaux de planification à long terme (pour la décision stratégique), à moyen terme (pour la décision tactique) et à court terme (pour la décision opérationnelle). Ainsi, suivant les processus de décision considérés, les capacités de planification de l’agent peuvent varier dans des proportions allant du comportement purement réactif basé sur des règles de production agricoles à des comportements délibératifs basés sur des objectifs prédéfinis. Dans les deux cas, le système agent perçoit l’état des systèmes qu’il pilote et produit des consignes d’exécution de tâches. 5.1.2. SAFHIR : Planification continue (Akplogan, 2013) propose une nouvelle architecture informatique, nommée SAFIHR (Simulation-based Architecture For Interleaving Heterogeneous Decisions in Real world problems). Cette architecture modulaire est destinée à la modélisation d’un agent, vu comme un système hiérarchique dynamique et distribué explicitement en interaction avec son environnement. Ainsi, chacun des trois types de problèmes de décision de l’agriculteur est résolu par un module spécifique. Dans l’architecture SAFIHR, les modules de décision et leurs mécanismes d’interaction reposent entièrement sur une version parallèle et à structures dynamiques du cadre de modélisation et de simulation à événements discrets (DSDE (Barros, 1998)). Comme l’indique la figure 5, les composants définissent des modèles DEVS où des entités déclaratives permettant d’initialiser ces modèles. Ces composants sont : – Base de connaissances : ce composant modélise les connaissances statiques et constantes de l’agent. Ce composant contient des informations structurelles de l’environnement de l’agent. Ces informations sont relatives aux éléments tels que la structure de l’exploitation agricole, l’historique des parcelles, les capacités de ressources, les cultures productibles etc. D’autre part, ce composant contient les connaissances spécifiques à la planification. Il s’agit notamment des tâches opérationnelles A et des 27 Délimitation des couches Modèles DEVS atomiques Modèle DEVS couplé Bibliothèque d’algorithmes (Z) WCSP Planificateur Gestionnaire solver HTN Resources Systèmes de croyances MB Coordinateur : DSDEN Mχ Base de connaissances (L) (+) Actions (A, P)/Plan (+) Resources (+) Constraintes Observation OS XA Mise à jour des croyances (B) (+) Constuit et gère le plan (+) Condition, planning, replanning Consignes OS YA IN vi (t0 ) = fi (vj , · · · , vj0 ) Plan courant π (réseau DSDEN) Figure 5. Architecture du système de décision SAFIHR. tâches de planification P, les conditions d’activation des tâches, des plans partiels L décrivant les itinéraires techniques. Enfin, la base de connaissances contient les objectifs, les contraintes et les préférences de l’agent. – Gestion des états de croyance B : ce composant modélise la dynamique des états de croyance de l’agent. Contrairement aux données statiques contenues dans la base de connaissances, ce système intègre l’ensemble des connaissances permettant de mettre à jour l’état de l’agent. – Le plan courant π : il est représenté par des séquences de tâches instanciées et partiellement ordonnées. Chaque séquence est associée à une cible du système biophysique (par exemple, une parcelle). Les liens entre les tâches d’une séquence représentent les contraintes de précédence. Certaines tâches, en noir dans le DSDEN sur la figure 5, représentent des tâches de planification, ordonnant au coordinateur l’exécution explicite de nouvelles planifications. – Bibliothèques d’algorithmes Z : elle représente l’ensemble des capacités dont dispose l’agent pour la construction et la modification de son plan. La bibliothèque d’algorithmes contient un ensemble d’algorithmes associés à chacun des problèmes de décision spécifiques. Ces algorithmes permettent de planifier des tâches à différents niveaux d’abstraction. Ce composant contient autant de méthodes de résolution que de problèmes de décision susceptibles de se poser durant la simulation. – Coordinateur centralisé : ensemble des règles définissant l’ordre dans lequel les processus de décision doivent être activés. Le coordinateur centralisé se charge de la coordination de chacun des composants. Il intègre des mécanismes permettant de détecter les situations d’échec et de mettre des priorités dans leur prise en compte. Enfin, afin de faire coopérer ces planificateurs spécifiques aux sein d’un même système, (Akplogan, 2013) exploite les mécanismes proposés dans l’architecture IDEA (Intelligent Distributed Execution Architecture (Muscettola et al., 2002 ; Dias, 2003)) 28 HSP. Volume x – no y/2013 sur l’interaction entre différents planificateurs. Chaque planificateur est alors vu comme un système de contrôle indépendant. 5.1.3. Aperçu du fonctionnement global SAFIHR est une architecture basée sur la version parallèle de l’extension DEVS à structure dynamique (Barros, 1998). L’agent agriculteur est représenté comme un réseau de modèles DEVS parallèles. Ce réseau est nommé DSDEN A . Les entrées IA modélisent les fonctions d’observation tandis que les sorties OA modélisent les tâches opérationnelles de l’agent. Le système reçoit en entrée des informations en provenance du système opérant. Ces informations caractérisent d’une part l’avancement des processus opérationnels et d’autre part l’état des processus biophysiques tels que la dynamique du sol, le stade de maturité des plantes etc. En sortie, le système envoie, via OA , des consignes d’exécution de tâches (par exemple, la consigne « démarrer semis »). Nous divisons l’architecture interne de SAFIHR en deux sous-systèmes DEVS. D’un coté, le modèle atomique DEVS système de croyance - MB et de l’autre, le modèle DEVS couplé système intentionnel - MI . Ces deux sous-systèmes sont des influenceurs l’un de l’autre et s’exécutent de manière complètement parallèle. Les connexions internes allant de MB vers MI sont utilisées afin de transmettre au système intentionnel les croyances mises à jour du système. Les connexions internes allant de MI vers MB permettent de transmettre au système de croyance des informations sur les tâches opérationnelles qui viennent de démarrer. Sur la base des événements reçus et de l’état total (s, e), le système de croyance est mis à jour par les fonctions de transition δint et δext . Les valeurs des sorties λ(s) sont celles de prédicats nécessaires au fonctionnement de MI . Le système intentionnel est un modèle couplé intégrant un ensemble de modèles atomiques DEVS délibératifs couplés à un réseau hχ, Mχ i dans l’optique de construire et de contrôler l’exécution du plan courant de l’agent. Dans le cas des applications qui nous intéressent, nous avons identifié trois types de modèles atomiques DEVS délibératifs : WCSP Solver, HTN planner et Resources manager. Le modèle atomique DEVS WCSP solver est dédié à la planification stratégique de l’organisation spatio-temporelle de l’exploitation agricole. Déclenché par Mχ , il produit une séquence de cultures de taille H pour chaque parcelle élémentaire. Considérant une année donnée, le coordinateur Mχ déclenche le modèle atomique HTN planner afin de construire un plan tactique sur une année. Ces plans annuels sont utilisés comme modes de production pour chaque couple parcelle élémentaire - culture. Une partie de plan est envoyée au modèle atomique DEVS Resources manager afin de construire un ordonnancement sur quelques jours. L’horizon de l’ordonnancement est déterminé en fonction de la structure du réseau temporel représentant le plan annuel de l’agent. Comme l’indique la figure 6, le cycle de décision de l’agent est constitué de trois phases durant lesquelles l’agent observe, planifie et exécute son plan courant. En ob- 29 servant les événements issus du système opérant, il met à jour ses croyances sur l’état des systèmes opérant et biophysique. Ces connaissances, fonction du temps, sont exploitées afin de construire le plan courant de l’agent. Le plan résultant est exécuté. Ce cycle de décision se retrouve dans de nombreux travaux en IA, notamment pour les agents Belief Desire Intention (BDI) (Rao, Georgeff, 1995)) . Nous notons cependant deux points particuliers de la phase de planification. D’une part, la planification des problèmes qui nous concerne porte sur des échelles temporelles et spatiales très différentes. Par exemple, le choix des rotations se fait sur plusieurs années et impacte l’ensemble de l’exploitation agricole. À l’inverse, les décisions de gestion de chantiers se font sur quelques jours et impactent essentiellement quelques îlots fonctionnels. D’autre part, les niveaux d’abstraction des plans obtenus sont très variables selon le type de problème de décision considéré. Par exemple, le plan issu de la décision d’assolement d’une année donnée n’est pas directement exécutable dans le système opérant. Ce plan doit être affiné. Nous distinguons deux classes de tâches qui sont : tâches opérationnelles et tâches de planification. Résolution de problèmes Évènement Planification, re-planification, ordonnancement Observation et m.a.j. des connaissances contrôle d’exécution Action Observations + statuts Figure 6. Cycle de décision à simuler. ajustement annuel historique année → année courante 1 2 D ÉCISION STRATÉGIQUE blé mois → D ÉCISION TACTIQUE semaine → 11 12 (a) semis → désherbage (b) semis D ÉCISION OPÉRATIONNELLE 4 maïs 5 blé maïs fin d’hiver automne 10 futur 3 1 semaine d’octobre chantier de semis 2 3 4 5 6 7 8 9 (b) désherbage semaine de février mars chantier de désherbage Figure 7. Les niveaux d’abstraction de la décision dans les systèmes de culture au sein de l’exploitation agricole. Les tâches opérationnelles sont des tâches directement exécutables dont l’effet direct est de déclencher un processus opérationnel du système opérant. Ces tâches modifient par conséquent l’état des systèmes biophysique et opérant. Les tâches de planification sont des tâches abstraites dont l’effet direct est de déclencher la résolution d’un problème afin de modifier l’état interne de l’agent. Les tâches opérationnelles et de planification peuvent être combinées afin de construire un plan. Comme l’indiquent les figures 6 et 7, les phases de planification et d’exécution peuvent être entrelacées dans une boucle de résolution de problème. De manière 30 HSP. Volume x – no y/2013 générale, en planification continue (Ambros-Ingerson, Steel, 1988 ; Haigh, Veloso, 1998 ; Lemai, 2004), l’entrelacement des phases d’exécution et de planification se fait à condition que (i) le contrôleur d’exécution relève l’impossibilité (précondition insatisfaite / atteinte d’une date limite) d’exécution d’une tâche ou (ii) l’impossibilité d’atteindre un but. À ces deux situations d’échecs susceptibles d’entraîner une replanification, nous ajoutons des conditions d’expansion de plan. En effet, le plan à exécuter étant constitué de tâches de planification, l’exécution de ces dernières entraîne une résolution de problème qui, par conséquent, modifie le plan courant de l’agent. Enfin, l’application SAFHIR est en fin de développement. Elle a été conçue sur le simulateur VLE (Quesnel et al., 2009) et sur le formalisme DEVS. 5.2. Conception de stratégies adaptatives d’échantillonnage pour la cartographie d’espèces adventices dans une parcelle Dans les parcelles cultivées, les adventices (mauvaises herbes) sont responsables d’une perte de récolte (Oerke, 2006) du fait de la compétition avec la culture pour les ressources et parce qu’elles sont des hôtes potentiels pour des parasites ou des maladies des plantes. Cependant les adventices jouent également un rôle positif dans la préservation de la biodiversité en tant que ressources trophiques ou hôtes de nombreuses espèces (Gibson et al., 2006), (Petit et al., 2011). Ainsi, un des enjeux en agro-écologie est aujourd’hui de concevoir de nouvelles stratégies de gestion des adventices qui optimisent un compromis entre rendement et services écologiques rendus. Cela requiert, entre autres, une bonne compréhension de la répartition spatiale des adventices dans les parcelles. Pour cela, en pratique, une parcelle est découpée en quadrats et une carte d’abondance est estimée, à partir d’un échantillonnage sur un nombre limité de quadrats et un modèle de distribution spatiale. L’évaluation de l’abondance d’une espèce adventice sur une parcelle est très coûteuse en temps, et nécessite des techniciens notateurs ayant une grande expertise pour être capable de reconnaître et distinguer les différentes espèces adventices. Le choix du nombre et de la position des quadrats échantillonnés est donc crucial, pour garantir une bonne qualité de la carte restaurée tout en limitant le temps passé à échantillonner dans la parcelle. Plusieurs stratégies ont été proposées pour un échantillonnage spatial des adventices. Toutes sont statiques : les quadrats à échantillonner sont déterminés une fois pour toute avant le début de la campagne. En s’appuyant sur le cadre de PDM, (Bonneau, 2012) a proposé un algorithme de résolution approchée du problème de recherche d’un stratégie adaptative optimale pour l’échantillonnage des adventices. Plus précisément, la distribution spatiale des notes d’abondance d’une espèce adventice dans une parcelle est modélisé par un modèle de champ de Markov (classique en analyse d’image (Koller, Friedman, 2009)). Le coût d’échantillonnage est matérialisé à partir du temps mis par le notateur pour attribuer une note et se déplacer vers le quadrat suivant. Il s’agit donc d’un coût qui dépend à la fois de la position du quadrat et de la valeur de l’observation. La stratégie optimale d’échantillonnage est donc la solution d’un problème d’optimisation de la 31 qualité de la carte reconstruite sous contrainte de respecter un budget temps maximal donné. Pour résoudre (de manière approchée) ce problème d’échantillonnage dans les champs de Markov, (Bonneau, 2012) a traduit le problème en un PDM à horizon fini, puis exploité les techniques d’apprentissage par renforcement (AR), classiquement utilisées dans ce cadre. Une application directe des algorithmes d’AR au problème d’échantillonnage n’est cependant pas possible, soit parce que ces algorithmes sont dédiés aux PDM à horizon infini, soit parce que la taille des problèmes traités est trop grande. (Bonneau et al., 2012) se sont inspirés de l’algorithme Least Square Policy Iteration (Lagoudakis, Parr, 2003) (LSPI) pour PDM à horizon infini pour proposer l’algorithme Least Square Dynamic Programming (LSDP) qui repose sur les principes suivants : i) comme dans LSPI, une approximation paramétrique de la Q-fonction par une combinaison linéaire d’un ensemble de fonctions de bases mais dont les poids dépendent du temps (puisqu’en horizon fini la politique optimale d’un PDM est non stationnaire), ii) une construction des trajectoires de paires état-action visitées à partir d’un batch de simulations du champ de Markov générées off-line, iii) un calcul des poids par moindre carré et programmation dynamique (car la récompense est uniquement finale). L’algorithme LSDP (Bonneau et al., 2012) a été mis en œuvre sur le problème d’échantillonnage d’une espèce d’adventice dans une parcelle, pour un modèle de distribution spatiale et un modèle de coût appris sur données réelles. La stratégie adaptative fournie par LSDP conduit à de meilleures restaurations de la carte des classes d’abondance que les stratégies d’échantillonnage des adventices classiques (qui sont statiques : en étoile, en W, en Z ou encore régulières). L’une de ces dernières peut parfois être meilleure pour une carte donnée, mais ce n’est jamais la même et la qualité varie beaucoup d’une carte à l’autre. Cette application illustre l’intérêt d’appliquer une stratégie d’échantillonnage adaptative. La difficulté reste néanmoins que, pour la mettre en œuvre, l’utilisateur doit disposer d’une estimation de la valeur des paramètres du modèle de champ de Markov. Soit un jeu de données issu d’une autre parcelle ou d’une autre date permet de construire un modèle ad-hoc, soit on peut envisager un premier échantillonnage régulier pour estimer ces paramètres. 6. Conclusion La communauté de l’Intelligence Artificielle, à travers les domaines de la planification, puis de la planification dans l’incertain, développe des approches pour la décision séquentielle depuis longtemps. Mais la gestion des agro-écosystèmes n’était pas, au départ, un débouché naturel pour ces approches. D’autres sciences de la décision, comme la recherche opérationnelle ou l’économie, abordent ce thème depuis 32 HSP. Volume x – no y/2013 longtemps. Toutefois, depuis quelques années, les communautés nationales et internationales de l’IA ont commencé à se préoccuper de développement durable (chaire développement durable de l’école Polytechnique, conférence Computational Sustainability etc.). La gestion des ressources naturelles et des agro-écosystèmes sont des thématiques reconnues au sein de ce domaine. Nous avons donc pointé quelques cadres théoriques comme la simulation à événements discrets, la planification hiérarchique, les problèmes de satisfaction de contraintes, les processus décisionnels de Markov et quelques applications réussies de ces approches à des problèmes de gestion dans les agro-écosystèmes. Cette présentation est forcément partielle. Nous avons fait l’impasse sur de nombreux domaines de recherche liés aux automates (Largouët et al., 2011), à la fouille de données ou l’analyse de texte (Fabrègue et al., 2012), ainsi qu’aux approches à base d’agents. Nous n’avons pas non plus abordé l’utilisation des modèles dans des processus collectifs d’apprentissage, de conception de systèmes de production et de résolution de problèmes. Ce type d’utilisation (Becu et al., 2008) suscite beaucoup d’intérêt actuellement parce qu’il facilite, d’une part, l’intégration de connaissances scientifiques et pratiques, et l’acceptabilité des résultats du fait de l’implication des agriculteurs dans leur élaboration. La modélisation du comportement décisionnel de l’agriculteur (McCown et al., 2012) doit faire l’objet de recherches plus approfondies, en particulier sur le raisonnement dynamique des objectifs et des préférences et sur la manière d’exploiter les connaissances sur l’incertitude. Le but de ces travaux est d’atteindre un niveau de réalisme suffisant pour expliquer les différences de résultats entre agriculteurs, pouvoir identifier les besoins de formation et, enfin, concevoir des dispositifs permettant d’améliorer globalement les capacités de prise de décision. À travers cet article, nous espérons avoir réussi à donner un aperçu de l’intérêt réciproque pour les chercheurs en intelligence artificielle et en agronomie/écologie à travailler ensemble et de la présence de la communauté française de l’IA sur ce domaine de recherche. Bibliographie Akplogan M. (2013). Approche modulaire pour la planification continue – application à la conduite des systèmes de cultures. Thèse de doctorat, Université Paul Sabatier de Toulouse, Toulouse France. Akplogan M., Dury J., Givry S. D., Quesnel G., Joannon A., Reynaud A. et al. (2011). A Weighted CSP approach for solving spatio-temporal planning problem in farming systems. In Preferences and Soft Constraints, p. 1-15. Akplogan M., Quesnel G., Garcia F., Joannon A., Martin-Clouaire R. (2010). Towards a deliberative agent system based on DEVS formalism for application in agriculture. In S. for Computer Simulation International (Ed.), Proceedings of the 2010 Summer Computer Simulation Conference, p. 250–257. San Diego, CA, USA. Ambros-Ingerson J. A., Steel S. (1988). Integrating planning, execution and monitoring. In AAAI (American Association for Artificial Intelligence), p. 83-88. 33 Attonaty J., Chatelin M., Poussin J., Soler L. (1993). Advice and decision support systems in agriculture : new issues. In Farm level information systems, p. 89–101. Woudschoten, Zeist, The Netherlands. Attonaty J., Chatelin M., Poussin J., Soler L. (1994). OTELO : un simulateur à base de connaissance pour raisonner équipement et organisation du travail. In Le conseil en agroéquipement et en organisation du travail. Outils et premières expériences, p. 37-49. Paris, APCA. Barros F. J. (1998). Abstract simulators for the DSDE formalism. In Proceedings of the 30th conference on Winter Simulation, p. 407–412. Los Alamitos, CA, USA, IEEE Computer Society Press. Becu N., Neef A., Schreinemachers P., Sangkapitux C. (2008). Participatory computer simulation to support collective decision-making: Potential and limits of stakeholder involvement. Land Use Policy, vol. 25, no 4. Bellman R. E. (1957). Dynamic programming. Princeton University Press, Princeton. Bergez J., Chabrier P., Gary C., Jeuffroy M. H., Makowski D., Quesnel G. et al. (2012, avril). An open platform to build, evaluate and simulate integrated models of farming and agroecosystems. Environmental Modelling & Software. Bergez J., Debaeke P., Deumier J., Lacroix B., Leenhardt D., Leroy P. et al. (2001). MODERATO: an object-oriented decision tool for designing maize irrigation schedules. Ecological Modelling, vol. 137, no 1, p. 43 – 60. Bertsekas D. P. (1987). Dynamic programming: Deterministic and stochastic models. Englewood Cliffs, Prentice-Hall. Bolte C., Van Evert J., Lamaker A. (2003). The ModCom modular simulation system. European Journal of Agronomy, vol. 18, p. 333–343. Bonneau M. (2012). Échantillonnage adaptatif optimal dans les champs de Markov – Application à l’échantillonnage d’une espèce adventice. Thèse de doctorat, Université Paul Sabatier de Toulouse. Bonneau M., Peyrard N., Sabbadin R. (2012, august). A reinforcement-learning algorithm for sampling design in Markov random fields. In European Conference on Artificial Intelligence (ECAI’12). Montpellier, France. Boutilier C., Dearden R., Goldszmidt M. (2000). Stochastic dynamic programming with factored representations. Artificial Intelligence, vol. 121, no 1, p. 49-107. Buffet O., Sigaud O. (Eds.). (2008). Processus décisionnels de Markov en Intelligence Artificielle. Hermès Science - Lavoisier. Castillo L. A., Fernández-Olivares J., García-Pérez Ó., Palao F. (2005). Temporal enhancements of an HTN planner. In Caepia, p. 429-438. Castillo L. A., Fernández-Olivares J., García-Pérez Ó., Palao F. (2006). Efficiently handling temporal knowledge in an HTN planner. In Icaps, p. 63-72. Chardon X., Rigolot C., Baratte C., Espagnol S., Raison C., Martin-Clouaire R. et al. (2012). Melodie: a whole-farm model to study the dynamics of nutrients in dairy and pig farms with crops. animal, vol. 6, p. 1711–1721. 34 HSP. Volume x – no y/2013 Chatelin M. H., Aubry C., Poussin J. C., Meynard J. M., Massé J., Verjux N. et al. (2005). DéciBlé, a software package for wheat crop management simulation. Agricultural Systems, vol. 83, no 1, p. 77 – 99. Cros M., Duru M., Garcia F., Martin-Clouaire R. (2001). Simulating rotational grazing management. Journal of Environment International, vol. 27, no 2–3, p. 139–145. Dechter R. (2003). Constraint processing. Elsevier Morgan Kaufmann. Dias M. B. (2003). A real-time rover executive based on model-based reactive planning. In The 7th International Symposium on Artificial Intelligence, Robotics and Automation in Space, (iSAIRAS). Dury J., Schaller N., Garcia F., Reynaud A., Bergez J. E. (2011). Models to support cropping plan and crop rotation decisions. A review. Agronomy for Sustainable Development. Erol K., Hendler J. A., Nau D. S. (1994). HTN planning: Complexity and expressivity. In AAAI (American Association for Artificial Intelligence), vol. 2, p. 1123–1128. Seattle, Washington, USA. Estlin T., Volpe R., Nesnas I., Mutz D., Fisher F., Engelhardt B. et al. (2001). Decision-making in a robotic architecture for autonomy. In Proceedings of the International Symposium on Artificial Intelligence, Robotics, and Automation in Space (iSAIRAS). Fabrègue M., Braud A., Bringay S., Ber F. L., Teisseire M. (2012). Including spatial relations and scales within sequential pattern extraction. In Discovery science, p. 209-223. Fikes R. E., Nilsson N. J. (1971). Strips: A new approach to the application of theorem proving to problem solving. Artificial Intelligence, vol. 2, no 3-4, p. 189–208. Fisher F., Knight R., Engelhardt B., Chien S., Alejandre N. (2000). A planning approach to monitor and control for deep space communications. 2000 IEEE Aerospace Conference Proceedings, p. 311–320. Ghallab M. (2001). Planification et décision. In J. P. Laumond (Ed.), La robotique mobile, p. 259–296. Hermes. Gibson R., Nelson I., Hopkins G., Hamlett B., Memmott J. (2006). Pollinator webs, plant communities and the conservation of rare plants: arable weeds as a case study. Journal of applied ecology, vol. 43, p. 246–257. Ginsberg M. (1994). Essentials of Artificial Intelligence. San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. Haigh K. Z., Veloso M. M. (1998). Planning, execution and learning in a robotic agent. In Proceedings of the Fourth International Conference on Artificial Intelligence Planning Systems, p. 441-452. AAAI Press. Horlings L. G., Marsden T. K. (2011). Towards the real green revolution? Exploring the conceptual dimensions of a new ecological modernisation of agriculture that could f́eed the world.́ Global Environmental Change, vol. 21, no 2, p. 99–134. Kaelbling L. P., Littman M. L., Cassandra A. R. (1998). Planning and acting in partially observable domains. Artificial Intelligence, vol. 101, p. 99-134. Keating B., Carberry P., Hammer G., Probert M., Robertson M., Holzworth D. et al. (2003). An overview of APSIM, a model designed for farming systems simulation. European Journal of Agronomy, vol. 18, no 3-4, p. 267 - 288. 35 Kennedy J. (1986). Dynamic Programming. Applications to Agriculture and Natural Resources. Elsevier Applied Science Publishers. Koller D., Friedman N. (2009). Probabilistic graphical models: Principles and techniques. MIT Press. Kumar P. R., Varaiya P. P. (1986). Stochastic systems: Estimation, identification and adaptive control. Englewood Cliffs, New Jersey, Prentice Hall. Lagoudakis M., Parr R. (2003). Least-squares policy iteration. Journal of Machine Learning Research, vol. 4, p. 1107-1149. Largouët C., Cordier M.-O., Bozec Y.-M., Zhao Y., Fontenelle G. (2011). Use Of Timed Automata And Model-Checking To Explore Scenarios On Ecosystem Models. Environmental Modelling and Software, no 30, p. 123-138. LaValle S. M. (2006). Planning algorithms. Cambridge, U.K., Cambridge University Press. Le Gal P.-Y., Moulin C.-H., Navarrete M., Wery J. (2007). Modelling framework to design innovative agricultural production systems. In Proceedings of Farming Systems Design 2007 (FSD-07), p. 64-65. Le Ber F., Lavigne C., Da Silva S. (2012). Structure analysis of hedgerows and other perennial landscape lines in two French agricultural landscapes. In The 15th AGILE conference on Geographic Information Science, p. 6. Avignon, France. Lemai S. (2004). IXTET-EXEC: planning, plan repair and execution control with time and resource management. Thèse de doctorat, Institut National Polytechnique de Toulouse INPT. Leroy P., Deumier J. M., Jacquin C. (1997). IRMA: un simulateur de l’organisation des chantiers d’irrigation. Perspectives agricoles n. 228, p. 76–83. Martin G., Martin-Clouaire R., Duru M. (2013). Farming system design to feed the changing world. A review. Agronomy for Sustainable Development, vol. 33, p. 131–149. Martin G., Martin-Clouaire R., Rellier J.-P., Duru M. (2011). A simulation framework for the design of grassland-based beef-cattle farms. Environmental Modelling and Software, vol. 26, p. 371–385. Martin-Clouaire R., Rellier J.-P. (2009). Modelling and simulating work practices in agriculture. International Journal of Metadata, Semantics and Ontologies, vol. 4, p. 42–53. Martin-Clouaire R., Rellier J.-P. (2011). Dynamic resource allocation in a farm management simulation. In F. Chan, D. Marinova, R. Anderssen (Eds.), Proceedings of the 19th International Congress on Modelling and Simulation. Modelling and Simulation Society of Australia and New Zealand, p. 808–814. McCown R., Carberry P., Dalgliesh N., Foale M., Hochman Z. (2012). Farmers use intuition to reinvent analytic decision support for managing seasonal climatic variability. Agricultural systems, vol. 106, p. 33–45. Meseguer P., Rossi F., Schiex T. (2006). Soft constraints processing. In F. Rossi, P. van Beek, T. Walsh (Eds.), Handbook of constraint programming. Elsevier. Montanari U. (1974). Networks of constraints: fundamental properties and application to picture processing. Information Science, vol. 7, p. 95–132. 36 HSP. Volume x – no y/2013 Moore A. W., Atkeson C. G. (1993). Prioritized sweeping: Reinforcement learning with less data and less real time. Machine Learning, vol. 13. Muetzelfeldt R. I., Massheder J. (2003). The simile visual modelling environment. European Journal of Agronomy, vol. 18, p. 345–358. Muscettola N., Dorais G. A., Fry C., Levinson R., Plaunt C. (2002). Idea: Planning at the core of autonomous reactive agents. In Proceedings of the 3rd International NASA Workshop on Planning and Scheduling for Space. Nau D., Cao Y., Lotem A., Avila M. M. (1999). Shop: Simple hierarchical ordered planner. In 15th International Joint Conference on Artificial Intelligence, p. 968–973. Nau D., Ilghami O., Kuter U., Murdock J. W., Wu D., Yaman F. (2003). SHOP2: An HTN planning system. Journal of Artificial Intelligence Research, vol. 20, p. 379–404. Oerke E. (2006). Crop losses to pests. Journal of Agricultural Science, vol. 144, p. 31-43. Peng J., Williams R. J. (1993). Efficient learning and planning within the Dyna framework. Adaptive Behavior, vol. 1, no 4, p. 437-454. Petit S., Boursault A., Le Guilloux M., Munier-Jolain N., Reboud X. (2011). Interactions between weeds and cultivated plants as related to management of plant pathogens. Agronomy for sustainable developpment, vol. 31, p. 309-317. Power A. (2010). Ecosystem services and agriculture: tradeoffs and synergies. Philosophical Transactions of the Royal Society B, vol. 365, no 1554, p. 2959–2971. Puterman M. L. (1994). Markov decision processes. New York, John Wiley and Sons. Quesnel G., Duboz R., Ramat E. (2009). The Virtual Laboratory Environment – An operational framework for multi-modelling, simulation and analysis of complex dynamical systems. Simulation Modelling Practice and Theory, vol. 17, p. 641-653. Rao A. S., Georgeff M. P. (1995). BDI-agents: from theory to practice. In Proceedings of the First International Conference on Multiagent Systems. San Francisco. Rellier J., Martin-Clouaire R., Cialdella N., Jeuffroy M., Meynard J. (2011). Modélisation de l’organisation du travail en systèmes de grande culture : méthode et application à l’évaluation ex ante d’innovations variétales de pois. In P. Béguin, B. Dedieu, E. Sabourin (Eds.),, p. 205-221. L’Harmattan. Ripoche A., Rellier J.-P., Martin-Clouaire R., Paré N., Biarnès A., Gary C. (2011). Modelling adaptive management of intercropping in vineyards to satisfy agronomic and environmental performances under mediterranean climate. Environmental Modelling and Software, vol. 26, no 12, p. 1467–1480. Russell S. J., Norvig P. (2010). Artificial Intelligence - a Modern Approach (3. internat. ed.). Pearson Education. Sabbadin R., Peyrard N., Forsell N. (2012). A framework and a mean-field algorithm for the local control of spatial processes. International Journal of Approximate Reasoning, vol. 53, no 1, p. 66–86. Schiex T., Fargier H., Verfaillie G. (1995). Valued Constraint Satisfaction Problems: Hard and Easy Problems. In C. Mellish (Ed.), IJCAI’95: Proceedings International Joint Conference on Artificial Intelligence. Montreal. 37 Snow V., Lovatt S. (2008). A general planner for agro-ecosystem models. Computers Electronics in Agricuture, vol. 60, no 2, p. 201–211. Sutton R. (1988). Learning to predict by the method of temporal differences. Machine Learning, vol. 3, no 1, p. 9-44. Sutton R. (1991). Planning by incremental dynamic programming. In M. Kaufmann (Ed.), Proc. of the 8th International Workshop on Machine Learning, p. 353-357. Vilain M., Kautz H., Beek P. (1986). Constraint propagation algorithms for temporal reasoning. In Readings in qualitative reasoning about physical systems, p. 377–382. Morgan Kaufmann. Volpe R., Nesnas I., Estlin T., Mutz D., Petras R., Das H. (2000). CLARAty : Coupled layer architecture for robotic autonomy. Rapport technique. NASA – Jet Propulsion Laboratory. Volpe R., Nesnas I., Estlin T., Mutz D., Petras R., Das H. (2001). The CLARAty architecture for robotic autonomy. In Proceedings of the 2001 IEEE Aerospace Conference. Watkins C. J. (1989). Learning from delayed rewards. Thèse de doctorat, King’s College, Cambridge, UK. Watkins C. J., Dayan P. (1992). Q-learning. Machine Learning, vol. 3, no 8, p. 279-292. Wezel A., Bellon S., Doré T., Francis C., Vallod D., David C. (2009). Agroecology as a science, a movement and a practice. A review. Agronomy for Sustainable Development, vol. 29, no 4, p. 503–515. Zeigler B. P. (1984). Theory of Modeling and Simulation. Krieger Publishing Compagny. (2nd Edition) Zeigler B. P., Kim T. G., Praehofer H. (2000). Theory of Modeling and Simulation (2nd éd.). Orlando, FL, USA, Academic Press, Inc.