Enseignement et ingénierie des interfaces multimodales

Transcription

Enseignement et ingénierie des interfaces multimodales
Enseignement et ingénierie
des interfaces multimodales :
une expérience toulousaine
Bruno Merlin, Régis Privat, Mathieu Raynal, Philippe Truillet
IRIT UMR CNRS 5505
118, Route de Narbonne
31062, Toulouse Cedex 4, France
{merlin, privat, raynal, truillet}@irit.fr
RESUME
Cet article présente une expérience d’enseignement de la
multimodalité que nous menons sur les universités toulousaines. Notre approche modulaire nous permet
d’aborder plusieurs facettes de l’IHM, de la conception à
la réalisation de systèmes interactifs multimodaux. Après
l’avoir généralisée dans nos enseignements, nous avons
pu en apprécier les avantages sur le plan pédagogique
ainsi qu’au point de vue recherche.
MOTS CLES : interaction multimodale, enseignement de
l’IHM, approche modulaire.
ABSTRACT
This article presents a multimodality-teaching experiment which we have led at the University of Toulouse.
Our modular approach enables us to deal with many aspects of the HCI, from the design to the realisation of
multimodal interactive systems. Having used it extensively in our teaching we have been able to appreciate
the advantages of this approach both from a didactic and
a scientific point of view.
CATEGORIES AND SUBJECT DESCRIPTORS: H.5.2
User Interfaces : Prototyping.
GENERAL TERMS: Multimodal Interaction, Design
KEYWORDS: multimodal interaction, teaching HCI,
modular approach.
INTRODUCTION
L’interaction homme-machine est par essence un do-
maine privilégié pour une réflexion pluridisciplinaire,
comme en témoigne le contenu des enseignements proposé par l’ACM [1]. A contrario d’autres disciplines informatiques, celle-ci a l’avantage de pouvoir donner rapidement des résultats « visibles » et palpables par les
étudiants. Malheureusement, l’enseignement de l’IHM
aux niveaux Master 1 et 2 (Maîtrise et DEA/DESS) reste
trop souvent essentiellement théorique. Les problèmes
liés à la création et à la maintenance de travaux pratiques, les connaissances préalables à acquérir de la part
des étudiants amènent fréquemment les enseignants soit à
renoncer à cette pratique soit à proposer des travaux pratiques en IHM centrés autour de la problématique des interfaces WIMP.
Quelques expériences comme [6] existent toutefois mais
n’abordent, à notre sens qu’une partie de la problématique de l’IHM (architecture logicielle). IntrosPAC est par
exemple un outil qui a pour objectifs de permettre aux
étudiants de comprendre les liens entre l’architecture
conceptuelle et le code. Le problème devient encore plus
crucial lorsqu’on aborde l’enseignement de la multimodalité. Dans notre approche, nous avons voulu accompagner nos étudiants de l’étape de la conception préliminaire au développement complet du système interactif
multimodal.
Le bilan des bureaux d’études que nous avons effectués
entre 1994 et 2001 (essentiellement autour de la conception de serveurs vocaux interactifs) faisait fréquemment
surgir des problèmes d’ordre purement technique
d’intégration des différentes modalités « exotiques » (parole en entrée, reconnaissance de gestes, …) : problèmes
liés à un SDK, incompatibilités logicielles et/ou matérielles, …
Les étudiants avaient ainsi peu l’occasion de « toucher du
doigt » les problèmes essentiels liés à la conception et
l’évaluation de systèmes interactifs réellement multimodaux, du fait du temps passé à l’intégration des modalités.
Le challenge est pourtant très intéressant à relever :
comment accroître le transfert technologique de la recherche vers l’enseignement en diffusant vers les étudiants, de la manière la plus simple et la plus rapide possible, les connaissances issues de travaux sur les technologies émergentes ?
L’APPROCHE MODULAIRE
Depuis deux années, nous avons entièrement repensé
l’architecture de nos travaux pratiques. Nous avons préféré adopter une approche modulaire qui nous permet
ainsi à la fois :
• d’être souple quant aux applications à étudier et
permettre une adaptation rapide des TPs en fonction
de la population étudiante concernée ;
• de permettre de se concentrer sur les problèmes de
conception d’IHM multimodales ;
• et d’être entièrement évolutif et permettre l’ajout de
nouveaux composants techniques.
Cette approche est d’ailleurs assez similaire que [4]. La
population-cible concerne les étudiants de 4ème et de
5ème année d’université (Master 1 et Master 2), essentiellement des étudiants d’IUP et de filière classique.
Suivant les modules proposés, le contenu des formations
varie ainsi entre l’intégration de différentes modalités
pour concevoir un système multimédia (sans fusion multimodale), la conception de systèmes multimodaux sur
des durées courtes (quelques semaines) ou plus longues
(quelques mois), l’intégration de nouveaux modules au
sein de notre architecture ou encore le prototypage
d’applications.
ACCROITRE LA PRODUCTIVITE AVEC DES AGENTS
LOGICIELS
La modularité grâce au concept d’agent
L’approche modulaire dans le cadre de Travaux Pratiques a pour but d’apporter des composants spécialisés et
facilement réutilisables (processus ou dispositifs encapsulés dans des modules). Celle-ci est avantageuse car elle
favorise le travail des étudiants sur les problèmes fondamentaux de conception d’IHM multimodale à la place de
la gestion des différentes modalités.
Nous avons ainsi identifié trois types d’agents (au sens
de composant indépendant) modulaires :
1. les agents « physiques», interfaçant un dispositif matériel (cf. Figure 1) et communiquant avec le système interactif ou avec d’autres agents (encapsulation de nouvelles technologies),
2. les agents « logiciels » tels que certains processus
consacrés à une tâche spécifique (par exemple, reconnaissance vocale, compréhension du langage naturel, contexte, …)
3. et les agents « de liaison » permettant la mise en
communication et le traitement d’informations (à
différents niveaux d’abstraction) provenant des autres agents.
Figure 1 : quelques périphériques connectés
Nous mentionnons ici l’analogie avec les trois niveaux
(physique, syntaxique et sémantique) de l’interaction indiquée dans le concept de l’interface utilisateur pour tous
[9].
Pour satisfaire nos objectifs de prototypage rapide de la
part des étudiants, l’utilisation d’un bus logiciel nous a
été nécessaire pour permettre la communication entre ces
agents. Ce bus se devait d’être léger, multi-plateformes,
très facile à comprendre et à utiliser (à la différence
d’autres bus, comme par exemple CORBA1, qui sont très
puissants mais difficiles à mettre en œuvre ou qui reposent sur un principe de communication entre agents basés
sur les actes de langage, comme dans FIPA : Foundation
for Intelligents Physical Agents2).
Le bus logiciel Ivy
Nous avons retenu le bus logiciel Ivy du CENA [4]. Ce
choix résulte des principes conceptuels qui sous-tendent
celui-ci : Ivy repose sur une architecture totalement distribuée avec une communication point à point et un modèle événementiel. Par opposition à d’autres bus logiciels, Ivy ne se fonde pas sur un serveur central. Cela
permet de concevoir des agents adaptés spécifiquement
aux besoins d’une personne indépendamment du système. Par exemple, on peut avoir un agent affichant
l’information renvoyée par un système sur l’écran du
PDA d’un utilisateur ; une autre personne peut remplacer
l’écran par un synthétiseur vocal, et finalement un troisième peut employer un afficheur Braille, ceci sans faire
un seul changement au cœur du système, qui se contente
de renvoyer l’information à donner aux utilisateurs.
Ainsi, chaque agent développé dans n’importe quel projet peut être immédiatement réemployé pour le prototypage rapide d’un autre projet si le besoin s’en fait sentir.
1
http://www.wordesign.com/samples/corba_terminology.htm
http://www.corba.org/standards.htm
http://www.omg.org/
2
http://www.fipa.org/
La phase de prototypage rapide
Dans le processus de conception, le prototypage rapide
est une étape cruciale non seulement pour réduire le coût
et pour tester l’utilisabilité d’un système ou d’une technologie, mais également pour améliorer la connaissance
sur l’attitude et le comportement des utilisateurs, les
fonctionnalités du système (en termes de modalités
d’interaction, stratégies de dialogue, …). Le but du prototypage est de pouvoir tester un certain nombre de solutions innovantes pouvant être utiles aux utilisateurs dans
le contexte envisagé. Le retour sur expérience peut être
employé pour guider le développement ultérieur mais
peut également servir à transformer ou rejeter des aspects
de la conception.
L’architecture basée sur un bus logiciel autorisant la
communication entre agents permet le prototypage rapide
par la réutilisation d’agents existants, mais aussi
d’étudier l’interaction même si les modalités ne sont pas
disponibles, en facilitant la réalisation de composants
« magiciens d’Oz ». Les autres agents nécessaires pour
réaliser un système complet peuvent être ajoutés au gré
de leurs réalisations, comme pour étudier les performances de la reconnaissance vocale, de reconnaissance de
patterns visuels, …
Agents Disponibles
Quelques agents ont préalablement été réalisés par notre
équipe [11]. Ces agents sont téléchargeables et utilisés
par nos étudiants. Nous pouvons mentionner :
• pour les agents physiques : RFID, un agent permettant la détection de tags RFID ;
• et pour les agents logiciels :
• greco : un agent de reconnaissance gestuelle basé sur les réseaux de neurones ;
• ppilot : un agent de synthèse à partir de texte,
utilisant SAPI3 (Speech Application Programming Interface) ;
• Sra et Recogniser : deux agents de reconnaissance de la parole, un basé sur SAPI4, et l’autre
utilisant le moteur de reconnaissance d’IBM via
JavaSpeech5 ;
• IvyPPT : un agent commandant Microsoft PowerPoint, grâce à VBA ;
• Visionneur : un agent de surveillance graphique permettant de visualiser les messages transitant sur le bus et éventuellement de simuler le
comportement d’un agent ;
Certains de ces agents ont déjà été employés à plusieurs
reprises pour la réalisation de systèmes multimodaux.
Ceci sera illustré dans le paragraphe suivant.
3
http://www.microsoft.com/speech
4
Speech API(Application Program Interface)
5
http://java.sun.com/products/java-media/speech/
QUELQUES REALISATIONS
Moteurs de fusion multimodale
Lors de leur Bureau d’étude, nous avions proposé à nos
étudiants de réaliser un moteur de fusion multimodale
leur permettant de piloter une application. Le type
d’application (facilement interchangeable) consiste soit
en la manipulation de tableaux de données (tableaux de
stock d’un supermarché) par diverses modalités (gestes,
voix, pointage) soit en la manipulation d’un logiciel de
dessin (formes vectorielles).
Ce bureau d’étude s’étale sur une durée de 10 heures, (5
séances de 2 heures). La première séance est essentiellement tournée vers la prise en main du bus Ivy [7] au travers de deux exemples simples à programmer en Java.
Les quatre suivantes consistent à concevoir et intégrer le
moteur de fusion.
La pleine intégration des différentes modalités en entrée
(reconnaissance de parole et de geste) n’a pu être possible en si peu de séances que par la réutilisation d’agents
déjà réalisés (Sra et Greco).
Intégration de technologies
Dans le cadre des modules TER (Maîtrise Informatique,
niveau Master 1), nous faisons essentiellement travailler
nos étudiants (par groupes de 3 ou 4 sur une durée de 4
mois) sur le développement de nouveaux modules par
l’intégration soit de librairies préexistantes (par exemple,
l’ARToolkit [2]), soit de périphériques « exotiques ». La
difficulté réside essentiellement dans le fait que ces étudiants n’ont absolument aucune connaissance concernant
l’IHM, discipline qui ne fait pas partie de leur cursus initial. Le travail demandé s’appuie sur une conception centrée-utilisateur (essentiellement par l’utilisation de scénarios) et va jusqu’au développement d’un prototype illustrant leur apport.
Figure 2 : l’interface du jeu TKJelly
A titre d’illustration, les étudiants de la promotion 20032004 ont travaillé sur :
•
•
•
•
la manipulation directe en utilisant des modules
de reconnaissance de gestes, de parole et la librairie graphique TkZinc [10] sous Tcl/Tk (cf.
Figure 2) ;
la manipulation Pick and Drop ;
l’étude de systèmes mixtes pour la transmodalité en intégrant l’ARToolkit [2] ;
le repérage et le guidage de personnes nonvoyantes dans la ville en utilisant des capteurs
RFID [8] et des bibliothèques de reconnaissance
de patterns visuels.
Projet pluridisciplinaire
Ce projet s’inscrit dans le cadre du Projet de Grande Envergure proposé aux étudiants de DESS Systèmes Intelligents (SI). Il se poursuit sur une durée de 5 mois
(d’octobre à février) en parallèle avec leurs cours. Il doit
permettre de mettre en pratique les connaissances de manière transversale par rapport aux enseignements suivis
pendant l’IUP et le DESS SI. De nombreux domaines
sont donc couverts par celui-ci : robotique, synthèse 3D,
parole, …
Ainsi, MIIB (MultImodal Interactive Bot) [5] est un projet permettant la visite d’un musée virtuel par le biais de
commande d’un robot. Le robot est actionné grâce à un
joystick et/ou à la voix. En retour, l’utilisateur visualise
une scène 3D représentant le musée plus une vidéo de ce
que voit le robot. Ce dernier peut aussi avoir des informations textuelles et/ou vocales sur les œuvres du musée.
architecture modulaire supportée par des agents dans les
différentes étapes de conception.
Cette modularité nous a permis à la fois d’être plus réactif aux nouvelles technologies intéressantes à étudier, de
proposer à partir d’un même base technique de multiples
projets adaptables suivant les populations estudiantines
concernées et enfin d’alimenter nos travaux de recherches par le retour d’expérience issues des projets étudiants.
BIBLIOGRAPHIE
1.
ACM, ACM SIGCHI Curricula for
Computer Interaction,
http://www.acm.org/sigchi/cdg/
Human-
2. ARToolkit,
http://www.hitl.washington.edu/research/shared_spa
ce/download/
3.
Bouchet J, Nigay L., ICARE: A component-Based
Approach for the Design and Development of Multimodal Interfaces, Extended Abstracts of CHI’04,
Vienna, Austria, April 2004, ACM Press, pp. 13251328.
4.
Buisson, M., Bustico, A., Chatty, St., Colin, F-R.,
Jestin, Y., Maury, S., Mertz, Ch., Truillet, Ph., Ivy :
un bus logiciel au service du développement de prototypes de systèmes interactifs, IHM 2002, Poitiers,
France, pp. 223-226, 2002, ISBN : 1-58113-615-3
5.
DESS SI, Multi-Modal Interactive Bot (MIIB), Projet de Grande Envergure 2003-2004,
http://www.desssi.ups-tlse.fr/promo2003-2004
6.
Lachenal Ch., Coutaz J., introsPAC : un outil pour
enseigner et comprendre PAC-Amodeus, IHM 2003,
Caen, France, pp. 212-215, 2002, ISBN : 1-58113803-2
7.
Merlin B., Raynal M., Truillet Ph., « bus ivy », support de Travaux Pratiques, téléchargeable à
l’adresse :
http://www.gagoon.org/phidago/doc/addons/ivy/bus
_ivy.doc
8. Phidgets, http://www.phidgets.com
Figure 3 : visite d’un musée par robot interposé
Ce Projet de Grande Envergure nous a permis d’aborder
avec les étudiants toutes les facettes de notre enseignement multimodal. Ils ont du à la fois développer de nouveaux agents d’interfaçage et de pilotage du robot mobile
mais aussi de mettre en œuvre un moteur de fusion et fission multimodale pour l’interaction avec leur système.
CONCLUSION
Dans cet article, nous avons montré notre approche de
l’enseignement de l’ingénierie multimodale basée sur une
9.
Stephanidis, C. Towards User Interfaces for All:
Some Critical Issues. Panel Session “User Interfaces
for All - Everybody, Everywhere, and Anytime »
Proceedings of the 6th International Conference on
Human-Computer Interaction (HCI International
‘95), Tokyo, Japan, 9-14 July 1995, vol. 1, pp. 13742, Amsterdam: Elsevier, Elsevier Science.
10. TkZinc, http://www.tkzinc.org
11. Zone de Téléchargement Public de l’équipe DIAMANT,
http://www.irit.fr/recherches/MODEL/DIAM/ztp