EUROPEAN ORGANISATION FOR THE SAFETY OF

Transcription

EUROPEAN ORGANISATION FOR THE SAFETY OF
EUROPEAN ORGANISATION
FOR THE SAFETY OF AIR NAVIGATION
EUROCONTROL
EUROCONTROL EXPERIMENTAL
CENTRE
Intrusiveness of On-Line Self-Assessment in
ATC Simulation using
Keyboard and Speech Recognition
EXECUTIVE SUMMARY
EEC Report No. 275
EEC Task AT66
EATCHIP Task DPS.ET1.ST07
Approved for
publication by
Head of Division B2
Issued : March 1995
The information contained in this document is the property of the EUROCONTROL Agency and no
part should be reproduced in any form without the Agency's permission.
The views expressed herein do not necessarily reflect the official views or policy of the Agency.
REPORT DOCUMENTATION PAGE
Reference :
EEC Report No. 275
Executive Summary
Security Classification :
Originator :
Originator (Corporate Author) Name/Location :
EEC Division B2
EUROCONTROL Experimental Centre
B. P. 15
F 91222 BRETIGNY SUR ORGE Cedex France
Telephone +33 (1) 69 88 75 00
Sponsor :
Sponsor (Contract Authority) Name/Location :
EUROCONTROL
Directorate of
EATCHIP Development
EUROCONTROL Headquarters
96 Rue de la Fusée
B 1130 HAREN
Telephone +32(2)729 90 11
Unclassified
Title :
Intrusiveness of On-Line Self-Assessment in ATC Simulation
using Keyboard and Speech Recognition
Authors :
H. David
S. Pledger
Date
March 95
Pages
12
Figs
2
Refs
4
Appendices
-
EATCHIP Task Specification
EEC Task No.
Task No. Sponsor
Period
DPS.ET1.ST07
AT66
HMW1
05/93 - 05/94
Distribution Statement :
(a) Controlled by
(b) Special limitations
(c) Sent to NTIS
Descriptors (keywords) :
Abstract:
:
:
:
Head of Division B2
None
No
Human-computer Interface, Stress, Strain, Intrusiveness, Development,
Experimental Methods, Air Traffic Control, TRACON/Pro, SWAT, ISA,
NASA-TLX
TRACON/Pro is a real-time ATC simulator, designed originally as a training system for
Air Traffic Control in the United States of America. Because the system is completely
self-contained, it is a suitable tool for research on ATC measurement techniques. The
standard system includes voice generation and recognition modules, so that it can be
operated without pseudo-pilots. The system provides detailed records and scores for the
performance of ATC.
An initial study has shown that it is possible to use TRACON/Pro to assess the
intrusiveness of self-assessment methods for the measurement of workload in ATC, and to
demonstrate that this intrusiveness depends on the manner in which Air Traffic Control is
exercised.
Executive Summary of EEC Report No. 275
EEC Task AT66
EATCHIP Task DPS.ET1.ST07
Issued: March 1995
Intrusiveness of On-Line Self-Assessment in ATC Simulation
using Keyboard and Speech Recognition
by
H. DAVID
S. PLEDGER
EXECUTIVE SUMMARY
TRACON/Pro is a real-time ATC simulator, designed originally as a training system for Air Traffic
Control in the United States of America. Because the system is completely self-contained, it is a
suitable tool for research on ATC measurement techniques. The standard system includes voice
generation and recognition modules, so that it can be operated without pseudo-pilots.
The system provides detailed records and scores for the performance of ATC. Positive points are
awarded for the correct treatment of the aircraft, and negative points for errors such as the failure to
transfer the aircraft or to maintain separation levels.
An initial study has shown that it is possible to use TRACON/Pro to assess the intrusiveness of selfassessment methods for the measurement of workload in ATC, and to demonstrate that this
intrusiveness depends on the manner in which Air Traffic Control is exercised.
1.
INTRODUCTION
The development and validation of tools for measuring Air Traffic Controller workload and
strain form part of the responsibilities of EEC Division B2.3. Attempts have been made to
carry out systematic studies of the psychological and/or physiological effects of carrying out
Air Traffic Control on the controller, as reported in EEC Reports 183 (David 1985), 187
(David 1985), 219 (Vanwonterghem and Verboven) and 228 (Vanwonterghem and Rabit).
Most of these attempts (Reports 183, 187 and 228) have had to be carried out as part of a fullscale Real-Time simulation. This makes it very difficult, if not impossible, to maintain adequate
control over the circumstances of the experiment, so that balanced experimental designs, and,
above all, a sufficient variety of suitable participants have always been difficult to obtain.
It has therefore been necessary to find a 'model' for ATC simulation, in a more readily available
form than the complex Real-Time Simulator, but having a greater degree of realism than the
computer games then available. In particular, a primary difference between 'games' and real-life
ATC is that control is exercised in reality through R/T links to aircraft and telephone links to
adjacent sectors or centres.
The TRACON/Pro simulator appears to fulfil this function, and, in addition, can provide useful
practical experience in techniques that it has not been practical to introduce into large-scale
real-time simulations.
This report describes the application of the TRACON/Pro simulator to a study of the relative
intrusiveness (subjective and objective) of two potential on-line measures of the strain on Air
Traffic Controllers. This study also compared the relative efficiency of control using a
keyboard and a voice recognition interface.
2.
EXPERIMENTAL DESIGN AND CONDUCT - SIGNIFICANT RESULTS
Experimental Design
Eight controllers completed the full set of eleven measured exercises, with a different traffic
sample (matched for size and difficulty) in each exercise. The first five measured exercises used
one control mode (speech or key) and the second five the other. The final exercise replicated
the first, although a different traffic sample was used.
The orders of presentation of measurement types and reporting methods were balanced within
the set of measured exercises for each controller, and the orders of presentation of control
modes and exercises were balanced between controllers to minimise learning effects.
1
Experimental Procedure
Each controller was given a pre-briefing which emphasized that it was the system, not the
controller, that was being tested. They were then trained in the use of TRACON/Pro, and the
voice recognition system was trained for the controller's voice (53 words, 99 phrases - about
one hour). Controllers then carried out training exercises, with samples increasing from 10 to
22 aircraft until they failed three times to complete a trial without separation errors, or reached
the maximum traffic level, using the first control mode. They then carried out the first block of
five measured trials, repeated the training with the second input mode, carried out the second
block of five trials, and finally carried out the last trial with the initial input mode.
Each trial took approximately 45 minutes, including run-up and run-down times, when aircraft
were entering or leaving the simulated area. Controllers carried out eleven measured and up to
twenty training exercises, over a period of three to five consecutive days. They completed a
final questionnaire, in the presence of the experimenter and of the equipment.
Analysis
The primary measure of potential intrusiveness is the decrement between the controller's
theoretical maximum score and his actual score. If on-line measures are intrusive, then we
should see a decrement in performance when they are being taken, and, if they are perceived as
being intrusive, a corresponding effect on the NASA-TLX scores. There were, in fact,
significantly more hand-over errors when on-line measurements were being taken, although the
total number of errors is not large in itself.
Figure 1 shows the overall mean performance decrement for each of the ten experimental
conditions. The performance decrement, the total number of errors, and the number of handover errors were all particularly high when the SWAT test results were reported by voice. or
when ISA was reported by pressing a key.
Figure 2 summarizes the analyses of the NASA-TLX scores and their 'test/no test'
components, showing a significant overall increase in the NASA-TLX score and four of its
components. Mental Demand, Temporal Demand and Effort show just significant ( < 5%)
increments, while Frustration and the overall TLX score show highly significant differences ( <
0.1 %).
2
3.
HYPOTHESES AND CONCLUSIONS
Hypotheses are re-printed in roman type - conclusions follow in italics.
3.1
The TRACON/Pro simulator may be used as an experimental test-bed.
This study demonstrates that this can be done. Subjective controller opinion suggests that it
involves similar skills to ATC, although modifications are required to reflect European ATC
procedures.
3.2
On-line measurements are intrusive.
Subjective opinion is definite to this effect. There is some objective evidence that performance
deteriorates in the presence of on-line measurement.
3.3
SWAT is more intrusive than ISA.
Subjective opinion is definite on this point, and it appears that verbal SWAT reporting
combined with verbal control is particularly intrusive.
3.4
Speech control is more efficient than keyboard control
Apart from one anomalous result, objective measurement suggests that the performance
decrement is less when speech control is employed.
3.5
Speech control is preferable to keyboard control
Controllers were unanimous that RELIABLE speech control would be preferable to keyboard
control. In its current form, it would not be acceptable for real air traffic control, although it
was more acceptable in simulation, and for non-critical tasks such as display control.
3.6
Intrusiveness is greater when the same mode is used for control and reporting
No clear conclusion can be drawn on the data obtained in this experiment. It appears that the
SWAT was particularly disruptive when spoken responses were required in association with
spoken control. (Some controllers comments suggest that they gave up the attempt to
discriminate the three dimensions of workload when under stress - which is exactly when the
responses are important.) This agrees with observations of previous use of SWAT in real-time
simulations.
3
4.
RECOMMENDATIONS
4.1
TRACON/Pro should be used to further investigate methods of making on-line measures in particular, the use of video-taped or on-line video records for the assessment of strain
using ISA coding.
4.2
TRACON/Pro should be updated to use European speech codes and observe the
European convention on the transition from Altitude to Flight Level.
4.3
ISA should be used in preference to SWAT in real-time simulation measurement.
4.4
The NASA-TLX should be used as a standard measure in all real-time simulations. Its
results appear to be consistent with ISA and the multiple scales give useful indications of
the nature of the problems encountered.
4.5
Use of speech recognition in real-time ATC simulations should be investigated further,
since the performance of speech recognition systems is now becoming acceptable.
REFERENCES
David Hugh, MEASUREMENT OF CONTROLLERS' MENTAL STATE IN A REAL-TIME
SIMULATION ENVIRONMENT, May 1985, EEC Report No 183, pp 61
David Hugh, MEASUREMENT OF AIR TRAFFIC CONTROLLERS' EYE MOVEMENTS IN
REAL-TIME SIMULATION, November 1985, EEC Report No 187,pp 35
Vanwonterghem Kamiel and Rabit Monique, ACTIVITE ELECTRIQUE CEREBRALE ET
CHARGE MENTALE CHEZ LES CONTROLEURS DU TRAFIC AERIEN, August
1989, Eurocontrol Experimental Centre Report No. 228,pp 30
Vanwonterghem Kamiel and Verboven Jacqueline , BRAIN ACTIVITY IN A SIMULATED
ATC TASK , August 1988, Eurocontrol Experimental Centre Report No. 219,pp 16
4
300
250
200
TRACON SCORE
Voice Command
150
Key Command
100
50
0
None
IS A(voice)
S WAT (v)
IS A(key)
S WAT (key)
F igure 1 - P erformance Decreme nt
80
70
TLX Components/Score
60
50
No On-line T es t
40
On-line T es t
30
20
10
0
Mental
Phys ical
T emporal
Perform.
Effort
F igure 2 - NAS A T L X
5
F rus tration
T LX S core
EEC Rapport No. 275
EEC Tâche AT66
EATCHIP Tâche DPS.ET1.ST07
Publication: Mars 1995
Intrusion d’auto-évaluations en ligne dans les simulations ATC utilisant un clavier et un
système de reconnaissance de parole
par
H. DAVID
S. PLEDGER
SOMMAIRE
TRACON/Pro est un simulateur de contrôle du trafic aérien en temps réel, conçu à l’origine
comme un système de formation pour le contrôle du trafic aérien aux Etats-Unis d’Amérique. Du
fait de sa complète indépendance, ce système constitue un outil adéquat pour la recherche en
matière de techniques de mesures ATC. Le système standard comprend des modules de synthèse
vocale ainsi que de reconnaissance vocale et peut donc fonctionner sans pseudo-pilotes.
Le système procure des enregistrements détaillés et des résultats chiffrés pour mesurer la
performance en ATC. Des points positifs sont accordés pour la gestion correcte de l’avion et des
points négatifs pour des erreurs telles que l’échec, soit du transfert de l’avion, soit du maintien du
niveau de séparation.
Une étude initiale a démontré qu’il était possible d’utiliser TRACON/Pro, dans le but, d’une part,
de déterminer le degré d’intrusion de méthodes d’auto-évaluation pour mesurer la charge de
travail dans les tâches de contrôle du trafic aérien, d’autre part, de démontrer que cette intrusion
dépendait des conditions dans lesquelles était exercé le contrôle du trafic.
6
1.
INTRODUCTION
Le développement et la validation des outils de mesure de la charge de travail et de
pression à laquelle est soumise le contrôleur du trafic aérien font partie des responsabilités
de la Division B2.3 du Centre Expérimental Eurocontrol. L’évaluation des effets
psychologiques et/ou physiologiques liés à l’exercice de l’ATC sur le contrôleur a déjà été
tentée à travers diverses études systématiques telles que celles décrites dans les rapports
suivants : 183 (David, 1985), 187 (David, 1985), 219 (Vanwonterghem et Verboven) et
228 (Vanwonterghem et Rabit).
La plupart de ces tentatives (Rapports 183, 187 et 228) n’ont pu être réalisées que dans le
cadre de simulations en temps réel de grande envergure. Ceci rend difficile, sinon
impossible, le fait de contrôler rigoureusement les conditions expérimentales : il a toujours
été difficile de définir des protocoles d’expérimentation équilibrés et, surtout, d’obtenir
une population de sujets représentative de l’ensemble des contrôleurs compte tenu de leur
diversité.
Il a donc été nécessaire de trouver un « modèle » de simulation ATC qui soit plus
accessible que le complexe simulateur en temps réel, mais ayant cependant un degré plus
élevé de réalisme que les jeux électroniques existants. En particulier, une première
différence entre les « jeux » et l’ATC réel réside dans le fait que le contrôle est, dans la
réalité, exercé via des réseaux R/T reliant avions et téléphones aux secteurs ou centres
adjacents. Le simulateur TRACON/Pro semble remplir cette fonction et, de plus, peut
procurer une expérience pratique utile en ce qui concerne des techniques qu’il n’a pas été
facile d’introduire dans les simulations en temps réel de grande envergure.
Le présent rapport décrit l’utilisation du simulateur TRACON/Pro dans le cadre d’une
étude de l’intrusion relative (subjective et objective) de deux outils en ligne, prometteurs
pour la mesure de l’effort exercé par le contrôleur du trafic aérien. Cette étude permet
également de comparer les performances obtenues lorsque le contrôle est effectué à l’aide
d’un clavier et lorsqu’il est effectué à l’aide d’un système de reconnaissance vocale.
2.
CONCEPTION EXPERIMENTALE
RESULTATS SIGNIFICATIFS
ET
COMPORTEMENT
-
Conception expérimentale
Huit contrôleurs ont effectué la série complète des onze exercices mesurés avec, pour
chacun de ces exercices, un échantillonage de trafic différent comportant des tailles et des
difficultés différentes. Les cinq premiers exercices mesurés ont été réalisés en faisant
appel à un mode de contrôle (vocal ou clavier) et les cinq suivants à l’autre. Le dernier
exercice constituait une réplique du premier, bien qu’un échantillon de trafic différent était
utilisé.
7
Pour chaque contrôleur, les ordres de présentation des types de mesures ainsi que les
méthodes de compte-rendu furent équilibrés tout au long de la série d’exercices mesurés;
les ordres de présentation des modes de contrôle et des exercices furent équilibrés entre
les contrôleurs afin de minimiser les effets d’apprentissage.
Procédure expérimentale
Un exposé préliminaire a été fait à chaque contrôleur, mettant l’accent sur le fait que
l’expérimentation concernait le système et non les contrôleurs. Ces derniers furent ensuite
entraînés à l’utilisation du TRACON/Pro et le système de reconnaissance vocale fut
préparé pour la voix du contrôleur (53 mots, 99 phrases - environ 1 heure). Les
contrôleurs ont alors exécuté des exercices d’entrainement, avec des échantillons
augmentant de 10 à 22 avions, jusqu’au moment où, par trois fois de suite, ils ont, soit
échoué à réaliser un exercice sans aucune erreur de séparation, soit atteint le niveau de
trafic maximum, en utilisant le premier mode de contrôle. Ils ont alors exécuté la première
série de cinq exercices mesurés, répété l’opération avec le second mode de contrôle,
exécuté la seconde série de cinq essais et, finalement, effectué l’exercice final à l’aide du
mode de contrôle initial.
Chaque exercice dura environ 45 minutes, y compris les phases montantes et
descendantes, lorsque l’avion entre dans l’espace simulé ou le quitte. Les contrôleurs
exécutèrent 11 exercices mesurés et jusqu’à 20 exercices d’entraînement sur une période
de 3 à 5 journées consécutives. Ils remplirent un questionnaire final, en présence de
l’expérimentateur et de l’équipement.
Analyse
La première mesure d’intrusion potentielle réside dans la différence entre le score
maximum théorique du contrôleur et son score réel. Si des mesures en ligne sont perçues
comme importunes, il faudrait alors, lorsqu’elles sont prises, observer une diminution en
matière de performances et un effet correspondant sur les scores de NASA-TLX. Elles
étaient, en fait, davantage dues à des erreurs de manipulations lorsque des mesures en
ligne ont été prises, malgré un nombre total d’erreurs non élevé en soi.
Le Tableau 1 montre la diminution de la performance moyenne générale pour chacune des
dix conditions expérimentales. La diminution de performance, le nombre total d’erreurs et
le nombre d’erreurs de manipulation étaient particulièrement élevés dans le compte-rendu
des résultats de test SWAT par le contrôle vocal ou dans celui des tests ISA par le
contrôle clavier.
Le Tableau 2 résume les analyses des scores NASA-TLX et de leur composants « test/no
test », montrant une augmentation globale significative dans le score NASA-TLX ainsi
que de quatre de ses composants. La demande mentale (Mental Demand), la demande
temporelle (Temporal Demand) et l’effort (Effort) montrèrent des augmentations
significatives (< 5 %) tandis que la frustration (Frustration) et le score TLX global
montrèrent des différences significatives élevées (< 0.1 %).
8
3.
HYPOTHESES ET CONCLUSIONS
Les hypothèses sont imprimées en style roman, tandis que les conclusions suivent en
italique.
3.1.
Le simulateur TRACON/Pro peut être utilisé en tant que banc d’essai expérimental
Cette étude démontre que ceci peut être fait. L’opinion subjective du contrôleur est que
cela implique des compétences similaires pour le contrôle du trafic aérien, bien que des
modifications soient requises pour que les procédures européennes en matière de
contrôle du trafic aérien soient reproduites.
3.2.
Les mesures en ligne sont gênantes
L’opinion subjective est précise à cet effet. D’un point de vue objectif, on a pu montrer
que la performance se détériore en présence de mesures en ligne.
3.3.
SWAT est plus gênant que ISA
L’opinion subjective est claire sur ce point et il apparaît que le compte-rendu SWAT sous
forme verbale, combiné avec le contrôle par reconnaissance vocale, est particulièrement
gênant.
3.4.
Le contrôle par reconnaissance de la parole est plus efficace que le contrôle par clavier
A part un résultat présentant une anomalie, la mesure objective suggère que la baisse de
performances est moindre lorsque le contrôle par reconnaissance vocale est utilisé.
3.5.
Le contrôle par reconnaissance vocale est préférable au contrôle par clavier
Les contrôleurs ont été unanimes pour considérer qu’un contrôle par reconnaissance
vocale fiable était préférable à un contrôle par clavier. Dans sa forme courante, un tel
contrôle ne serait pas acceptable pour le contrôle du trafic aérien en situation
opérationnelle, bien qu’il soit plus acceptable en simulation ainsi que pour des tâches
non critiques telles que le contrôle des présentations affichées.
3.6.
L’intrusion est plus forte lorsque le même mode est utilisé pour le contrôle et le compterendu
Aucune conclusion claire ne peut être tirée des données obtenues par cette
expérimentation. Il apparaît que le test SWAT était particulièrement perturbant lorsque
des réponses orales étaient requises en même temps qu’un contrôle oral.
9
(Certains contrôleurs ont suggéré d’abandonner la tentative de distinguer les trois
dimensions de la charge de travail sous période de stress - ce qui correspond exactement
aux périodes de réponses importantes en nombre). Ceci corrobore les observations
d’utilisations antérieures de SWAT dans des simulations en temps réel.
4.
RECOMMANDATIONS
4.1.
TRACON/Pro devrait être utilisé afin de poursuivre l’investigation de méthodes
d’élaboration de mesures en ligne - en particulier, l’utilisation de bandes video ou
d’enregistrements video en ligne pour évaluer le niveau d’effort en utilisant la codification
ISA.
4.2.
TRACON/Pro devrait être mis à jour afin d’utiliser les codes vocaux européens et
d’observer la convention européenne relative à la transition de l’altitude au niveau de vol.
4.3.
ISA devrait être utilisé de préférence à SWAT dans les mesures de simulation en temps
réel.
4.4.
NASA-TLX devrait être utilisé comme mesure standard dans toutes les simulations en
temps réel. Ses résultats semblent compatibles avec ceux d’ISA et les échelles
multidimensionnelles donnent des indications utiles quant à la nature des problèmes
rencontrés.
4.5.
L’utilisation de la reconnaissance de la parole dans les simulations ATC en temps réel
devrait être davantage étudiée étant donné que la performance de tels systèmes devient
maintenant acceptable.
REFERENCES
David Hugh, MEASUREMENT OF CONTROLLERS' MENTAL STATE IN A REAL-TIME
SIMULATION ENVIRONMENT, May 1985, EEC Report No. 183, pp 61
David Hugh, MEASUREMENT OF AIR TRAFFIC CONTROLLERS' EYE MOVEMENTS IN
REAL-TIME SIMULATION, November 1985, EEC Report No.187, pp 35
Vanwonterghem Kamiel and Rabit Monique, ACTIVITE ELECTRIQUE CEREBRALE ET
CHARGE MENTALE CHEZ LES CONTROLEURS DU TRAFIC AERIEN, August
1989, Eurocontrol Experimental Centre Report No. 228, pp 30
Vanwonterghem Kamiel and Verboven Jacqueline , BRAIN ACTIVITY IN A SIMULATED
ATC TASK , August 1988, Eurocontrol Experimental Centre Report No. 219, pp 16
10

Documents pareils