Enseignement et ingénierie des interfaces multimodales
Transcription
Enseignement et ingénierie des interfaces multimodales
Enseignement et ingénierie des interfaces multimodales : une expérience toulousaine Bruno Merlin, Régis Privat, Mathieu Raynal, Philippe Truillet IRIT UMR CNRS 5505 118, Route de Narbonne 31062, Toulouse Cedex 4, France {merlin, privat, raynal, truillet}@irit.fr RESUME Cet article présente une expérience d’enseignement de la multimodalité que nous menons sur les universités toulousaines. Notre approche modulaire nous permet d’aborder plusieurs facettes de l’IHM, de la conception à la réalisation de systèmes interactifs multimodaux. Après l’avoir généralisée dans nos enseignements, nous avons pu en apprécier les avantages sur le plan pédagogique ainsi qu’au point de vue recherche. MOTS CLES : interaction multimodale, enseignement de l’IHM, approche modulaire. ABSTRACT This article presents a multimodality-teaching experiment which we have led at the University of Toulouse. Our modular approach enables us to deal with many aspects of the HCI, from the design to the realisation of multimodal interactive systems. Having used it extensively in our teaching we have been able to appreciate the advantages of this approach both from a didactic and a scientific point of view. CATEGORIES AND SUBJECT DESCRIPTORS: H.5.2 User Interfaces : Prototyping. GENERAL TERMS: Multimodal Interaction, Design KEYWORDS: multimodal interaction, teaching HCI, modular approach. INTRODUCTION L’interaction homme-machine est par essence un do- maine privilégié pour une réflexion pluridisciplinaire, comme en témoigne le contenu des enseignements proposé par l’ACM [1]. A contrario d’autres disciplines informatiques, celle-ci a l’avantage de pouvoir donner rapidement des résultats « visibles » et palpables par les étudiants. Malheureusement, l’enseignement de l’IHM aux niveaux Master 1 et 2 (Maîtrise et DEA/DESS) reste trop souvent essentiellement théorique. Les problèmes liés à la création et à la maintenance de travaux pratiques, les connaissances préalables à acquérir de la part des étudiants amènent fréquemment les enseignants soit à renoncer à cette pratique soit à proposer des travaux pratiques en IHM centrés autour de la problématique des interfaces WIMP. Quelques expériences comme [6] existent toutefois mais n’abordent, à notre sens qu’une partie de la problématique de l’IHM (architecture logicielle). IntrosPAC est par exemple un outil qui a pour objectifs de permettre aux étudiants de comprendre les liens entre l’architecture conceptuelle et le code. Le problème devient encore plus crucial lorsqu’on aborde l’enseignement de la multimodalité. Dans notre approche, nous avons voulu accompagner nos étudiants de l’étape de la conception préliminaire au développement complet du système interactif multimodal. Le bilan des bureaux d’études que nous avons effectués entre 1994 et 2001 (essentiellement autour de la conception de serveurs vocaux interactifs) faisait fréquemment surgir des problèmes d’ordre purement technique d’intégration des différentes modalités « exotiques » (parole en entrée, reconnaissance de gestes, …) : problèmes liés à un SDK, incompatibilités logicielles et/ou matérielles, … Les étudiants avaient ainsi peu l’occasion de « toucher du doigt » les problèmes essentiels liés à la conception et l’évaluation de systèmes interactifs réellement multimodaux, du fait du temps passé à l’intégration des modalités. Le challenge est pourtant très intéressant à relever : comment accroître le transfert technologique de la recherche vers l’enseignement en diffusant vers les étudiants, de la manière la plus simple et la plus rapide possible, les connaissances issues de travaux sur les technologies émergentes ? L’APPROCHE MODULAIRE Depuis deux années, nous avons entièrement repensé l’architecture de nos travaux pratiques. Nous avons préféré adopter une approche modulaire qui nous permet ainsi à la fois : • d’être souple quant aux applications à étudier et permettre une adaptation rapide des TPs en fonction de la population étudiante concernée ; • de permettre de se concentrer sur les problèmes de conception d’IHM multimodales ; • et d’être entièrement évolutif et permettre l’ajout de nouveaux composants techniques. Cette approche est d’ailleurs assez similaire que [4]. La population-cible concerne les étudiants de 4ème et de 5ème année d’université (Master 1 et Master 2), essentiellement des étudiants d’IUP et de filière classique. Suivant les modules proposés, le contenu des formations varie ainsi entre l’intégration de différentes modalités pour concevoir un système multimédia (sans fusion multimodale), la conception de systèmes multimodaux sur des durées courtes (quelques semaines) ou plus longues (quelques mois), l’intégration de nouveaux modules au sein de notre architecture ou encore le prototypage d’applications. ACCROITRE LA PRODUCTIVITE AVEC DES AGENTS LOGICIELS La modularité grâce au concept d’agent L’approche modulaire dans le cadre de Travaux Pratiques a pour but d’apporter des composants spécialisés et facilement réutilisables (processus ou dispositifs encapsulés dans des modules). Celle-ci est avantageuse car elle favorise le travail des étudiants sur les problèmes fondamentaux de conception d’IHM multimodale à la place de la gestion des différentes modalités. Nous avons ainsi identifié trois types d’agents (au sens de composant indépendant) modulaires : 1. les agents « physiques», interfaçant un dispositif matériel (cf. Figure 1) et communiquant avec le système interactif ou avec d’autres agents (encapsulation de nouvelles technologies), 2. les agents « logiciels » tels que certains processus consacrés à une tâche spécifique (par exemple, reconnaissance vocale, compréhension du langage naturel, contexte, …) 3. et les agents « de liaison » permettant la mise en communication et le traitement d’informations (à différents niveaux d’abstraction) provenant des autres agents. Figure 1 : quelques périphériques connectés Nous mentionnons ici l’analogie avec les trois niveaux (physique, syntaxique et sémantique) de l’interaction indiquée dans le concept de l’interface utilisateur pour tous [9]. Pour satisfaire nos objectifs de prototypage rapide de la part des étudiants, l’utilisation d’un bus logiciel nous a été nécessaire pour permettre la communication entre ces agents. Ce bus se devait d’être léger, multi-plateformes, très facile à comprendre et à utiliser (à la différence d’autres bus, comme par exemple CORBA1, qui sont très puissants mais difficiles à mettre en œuvre ou qui reposent sur un principe de communication entre agents basés sur les actes de langage, comme dans FIPA : Foundation for Intelligents Physical Agents2). Le bus logiciel Ivy Nous avons retenu le bus logiciel Ivy du CENA [4]. Ce choix résulte des principes conceptuels qui sous-tendent celui-ci : Ivy repose sur une architecture totalement distribuée avec une communication point à point et un modèle événementiel. Par opposition à d’autres bus logiciels, Ivy ne se fonde pas sur un serveur central. Cela permet de concevoir des agents adaptés spécifiquement aux besoins d’une personne indépendamment du système. Par exemple, on peut avoir un agent affichant l’information renvoyée par un système sur l’écran du PDA d’un utilisateur ; une autre personne peut remplacer l’écran par un synthétiseur vocal, et finalement un troisième peut employer un afficheur Braille, ceci sans faire un seul changement au cœur du système, qui se contente de renvoyer l’information à donner aux utilisateurs. Ainsi, chaque agent développé dans n’importe quel projet peut être immédiatement réemployé pour le prototypage rapide d’un autre projet si le besoin s’en fait sentir. 1 http://www.wordesign.com/samples/corba_terminology.htm http://www.corba.org/standards.htm http://www.omg.org/ 2 http://www.fipa.org/ La phase de prototypage rapide Dans le processus de conception, le prototypage rapide est une étape cruciale non seulement pour réduire le coût et pour tester l’utilisabilité d’un système ou d’une technologie, mais également pour améliorer la connaissance sur l’attitude et le comportement des utilisateurs, les fonctionnalités du système (en termes de modalités d’interaction, stratégies de dialogue, …). Le but du prototypage est de pouvoir tester un certain nombre de solutions innovantes pouvant être utiles aux utilisateurs dans le contexte envisagé. Le retour sur expérience peut être employé pour guider le développement ultérieur mais peut également servir à transformer ou rejeter des aspects de la conception. L’architecture basée sur un bus logiciel autorisant la communication entre agents permet le prototypage rapide par la réutilisation d’agents existants, mais aussi d’étudier l’interaction même si les modalités ne sont pas disponibles, en facilitant la réalisation de composants « magiciens d’Oz ». Les autres agents nécessaires pour réaliser un système complet peuvent être ajoutés au gré de leurs réalisations, comme pour étudier les performances de la reconnaissance vocale, de reconnaissance de patterns visuels, … Agents Disponibles Quelques agents ont préalablement été réalisés par notre équipe [11]. Ces agents sont téléchargeables et utilisés par nos étudiants. Nous pouvons mentionner : • pour les agents physiques : RFID, un agent permettant la détection de tags RFID ; • et pour les agents logiciels : • greco : un agent de reconnaissance gestuelle basé sur les réseaux de neurones ; • ppilot : un agent de synthèse à partir de texte, utilisant SAPI3 (Speech Application Programming Interface) ; • Sra et Recogniser : deux agents de reconnaissance de la parole, un basé sur SAPI4, et l’autre utilisant le moteur de reconnaissance d’IBM via JavaSpeech5 ; • IvyPPT : un agent commandant Microsoft PowerPoint, grâce à VBA ; • Visionneur : un agent de surveillance graphique permettant de visualiser les messages transitant sur le bus et éventuellement de simuler le comportement d’un agent ; Certains de ces agents ont déjà été employés à plusieurs reprises pour la réalisation de systèmes multimodaux. Ceci sera illustré dans le paragraphe suivant. 3 http://www.microsoft.com/speech 4 Speech API(Application Program Interface) 5 http://java.sun.com/products/java-media/speech/ QUELQUES REALISATIONS Moteurs de fusion multimodale Lors de leur Bureau d’étude, nous avions proposé à nos étudiants de réaliser un moteur de fusion multimodale leur permettant de piloter une application. Le type d’application (facilement interchangeable) consiste soit en la manipulation de tableaux de données (tableaux de stock d’un supermarché) par diverses modalités (gestes, voix, pointage) soit en la manipulation d’un logiciel de dessin (formes vectorielles). Ce bureau d’étude s’étale sur une durée de 10 heures, (5 séances de 2 heures). La première séance est essentiellement tournée vers la prise en main du bus Ivy [7] au travers de deux exemples simples à programmer en Java. Les quatre suivantes consistent à concevoir et intégrer le moteur de fusion. La pleine intégration des différentes modalités en entrée (reconnaissance de parole et de geste) n’a pu être possible en si peu de séances que par la réutilisation d’agents déjà réalisés (Sra et Greco). Intégration de technologies Dans le cadre des modules TER (Maîtrise Informatique, niveau Master 1), nous faisons essentiellement travailler nos étudiants (par groupes de 3 ou 4 sur une durée de 4 mois) sur le développement de nouveaux modules par l’intégration soit de librairies préexistantes (par exemple, l’ARToolkit [2]), soit de périphériques « exotiques ». La difficulté réside essentiellement dans le fait que ces étudiants n’ont absolument aucune connaissance concernant l’IHM, discipline qui ne fait pas partie de leur cursus initial. Le travail demandé s’appuie sur une conception centrée-utilisateur (essentiellement par l’utilisation de scénarios) et va jusqu’au développement d’un prototype illustrant leur apport. Figure 2 : l’interface du jeu TKJelly A titre d’illustration, les étudiants de la promotion 20032004 ont travaillé sur : • • • • la manipulation directe en utilisant des modules de reconnaissance de gestes, de parole et la librairie graphique TkZinc [10] sous Tcl/Tk (cf. Figure 2) ; la manipulation Pick and Drop ; l’étude de systèmes mixtes pour la transmodalité en intégrant l’ARToolkit [2] ; le repérage et le guidage de personnes nonvoyantes dans la ville en utilisant des capteurs RFID [8] et des bibliothèques de reconnaissance de patterns visuels. Projet pluridisciplinaire Ce projet s’inscrit dans le cadre du Projet de Grande Envergure proposé aux étudiants de DESS Systèmes Intelligents (SI). Il se poursuit sur une durée de 5 mois (d’octobre à février) en parallèle avec leurs cours. Il doit permettre de mettre en pratique les connaissances de manière transversale par rapport aux enseignements suivis pendant l’IUP et le DESS SI. De nombreux domaines sont donc couverts par celui-ci : robotique, synthèse 3D, parole, … Ainsi, MIIB (MultImodal Interactive Bot) [5] est un projet permettant la visite d’un musée virtuel par le biais de commande d’un robot. Le robot est actionné grâce à un joystick et/ou à la voix. En retour, l’utilisateur visualise une scène 3D représentant le musée plus une vidéo de ce que voit le robot. Ce dernier peut aussi avoir des informations textuelles et/ou vocales sur les œuvres du musée. architecture modulaire supportée par des agents dans les différentes étapes de conception. Cette modularité nous a permis à la fois d’être plus réactif aux nouvelles technologies intéressantes à étudier, de proposer à partir d’un même base technique de multiples projets adaptables suivant les populations estudiantines concernées et enfin d’alimenter nos travaux de recherches par le retour d’expérience issues des projets étudiants. BIBLIOGRAPHIE 1. ACM, ACM SIGCHI Curricula for Computer Interaction, http://www.acm.org/sigchi/cdg/ Human- 2. ARToolkit, http://www.hitl.washington.edu/research/shared_spa ce/download/ 3. Bouchet J, Nigay L., ICARE: A component-Based Approach for the Design and Development of Multimodal Interfaces, Extended Abstracts of CHI’04, Vienna, Austria, April 2004, ACM Press, pp. 13251328. 4. Buisson, M., Bustico, A., Chatty, St., Colin, F-R., Jestin, Y., Maury, S., Mertz, Ch., Truillet, Ph., Ivy : un bus logiciel au service du développement de prototypes de systèmes interactifs, IHM 2002, Poitiers, France, pp. 223-226, 2002, ISBN : 1-58113-615-3 5. DESS SI, Multi-Modal Interactive Bot (MIIB), Projet de Grande Envergure 2003-2004, http://www.desssi.ups-tlse.fr/promo2003-2004 6. Lachenal Ch., Coutaz J., introsPAC : un outil pour enseigner et comprendre PAC-Amodeus, IHM 2003, Caen, France, pp. 212-215, 2002, ISBN : 1-58113803-2 7. Merlin B., Raynal M., Truillet Ph., « bus ivy », support de Travaux Pratiques, téléchargeable à l’adresse : http://www.gagoon.org/phidago/doc/addons/ivy/bus _ivy.doc 8. Phidgets, http://www.phidgets.com Figure 3 : visite d’un musée par robot interposé Ce Projet de Grande Envergure nous a permis d’aborder avec les étudiants toutes les facettes de notre enseignement multimodal. Ils ont du à la fois développer de nouveaux agents d’interfaçage et de pilotage du robot mobile mais aussi de mettre en œuvre un moteur de fusion et fission multimodale pour l’interaction avec leur système. CONCLUSION Dans cet article, nous avons montré notre approche de l’enseignement de l’ingénierie multimodale basée sur une 9. Stephanidis, C. Towards User Interfaces for All: Some Critical Issues. Panel Session “User Interfaces for All - Everybody, Everywhere, and Anytime » Proceedings of the 6th International Conference on Human-Computer Interaction (HCI International ‘95), Tokyo, Japan, 9-14 July 1995, vol. 1, pp. 13742, Amsterdam: Elsevier, Elsevier Science. 10. TkZinc, http://www.tkzinc.org 11. Zone de Téléchargement Public de l’équipe DIAMANT, http://www.irit.fr/recherches/MODEL/DIAM/ztp