EUROPEAN ORGANISATION FOR THE SAFETY OF
Transcription
EUROPEAN ORGANISATION FOR THE SAFETY OF
EUROPEAN ORGANISATION FOR THE SAFETY OF AIR NAVIGATION EUROCONTROL EUROCONTROL EXPERIMENTAL CENTRE Intrusiveness of On-Line Self-Assessment in ATC Simulation using Keyboard and Speech Recognition EXECUTIVE SUMMARY EEC Report No. 275 EEC Task AT66 EATCHIP Task DPS.ET1.ST07 Approved for publication by Head of Division B2 Issued : March 1995 The information contained in this document is the property of the EUROCONTROL Agency and no part should be reproduced in any form without the Agency's permission. The views expressed herein do not necessarily reflect the official views or policy of the Agency. REPORT DOCUMENTATION PAGE Reference : EEC Report No. 275 Executive Summary Security Classification : Originator : Originator (Corporate Author) Name/Location : EEC Division B2 EUROCONTROL Experimental Centre B. P. 15 F 91222 BRETIGNY SUR ORGE Cedex France Telephone +33 (1) 69 88 75 00 Sponsor : Sponsor (Contract Authority) Name/Location : EUROCONTROL Directorate of EATCHIP Development EUROCONTROL Headquarters 96 Rue de la Fusée B 1130 HAREN Telephone +32(2)729 90 11 Unclassified Title : Intrusiveness of On-Line Self-Assessment in ATC Simulation using Keyboard and Speech Recognition Authors : H. David S. Pledger Date March 95 Pages 12 Figs 2 Refs 4 Appendices - EATCHIP Task Specification EEC Task No. Task No. Sponsor Period DPS.ET1.ST07 AT66 HMW1 05/93 - 05/94 Distribution Statement : (a) Controlled by (b) Special limitations (c) Sent to NTIS Descriptors (keywords) : Abstract: : : : Head of Division B2 None No Human-computer Interface, Stress, Strain, Intrusiveness, Development, Experimental Methods, Air Traffic Control, TRACON/Pro, SWAT, ISA, NASA-TLX TRACON/Pro is a real-time ATC simulator, designed originally as a training system for Air Traffic Control in the United States of America. Because the system is completely self-contained, it is a suitable tool for research on ATC measurement techniques. The standard system includes voice generation and recognition modules, so that it can be operated without pseudo-pilots. The system provides detailed records and scores for the performance of ATC. An initial study has shown that it is possible to use TRACON/Pro to assess the intrusiveness of self-assessment methods for the measurement of workload in ATC, and to demonstrate that this intrusiveness depends on the manner in which Air Traffic Control is exercised. Executive Summary of EEC Report No. 275 EEC Task AT66 EATCHIP Task DPS.ET1.ST07 Issued: March 1995 Intrusiveness of On-Line Self-Assessment in ATC Simulation using Keyboard and Speech Recognition by H. DAVID S. PLEDGER EXECUTIVE SUMMARY TRACON/Pro is a real-time ATC simulator, designed originally as a training system for Air Traffic Control in the United States of America. Because the system is completely self-contained, it is a suitable tool for research on ATC measurement techniques. The standard system includes voice generation and recognition modules, so that it can be operated without pseudo-pilots. The system provides detailed records and scores for the performance of ATC. Positive points are awarded for the correct treatment of the aircraft, and negative points for errors such as the failure to transfer the aircraft or to maintain separation levels. An initial study has shown that it is possible to use TRACON/Pro to assess the intrusiveness of selfassessment methods for the measurement of workload in ATC, and to demonstrate that this intrusiveness depends on the manner in which Air Traffic Control is exercised. 1. INTRODUCTION The development and validation of tools for measuring Air Traffic Controller workload and strain form part of the responsibilities of EEC Division B2.3. Attempts have been made to carry out systematic studies of the psychological and/or physiological effects of carrying out Air Traffic Control on the controller, as reported in EEC Reports 183 (David 1985), 187 (David 1985), 219 (Vanwonterghem and Verboven) and 228 (Vanwonterghem and Rabit). Most of these attempts (Reports 183, 187 and 228) have had to be carried out as part of a fullscale Real-Time simulation. This makes it very difficult, if not impossible, to maintain adequate control over the circumstances of the experiment, so that balanced experimental designs, and, above all, a sufficient variety of suitable participants have always been difficult to obtain. It has therefore been necessary to find a 'model' for ATC simulation, in a more readily available form than the complex Real-Time Simulator, but having a greater degree of realism than the computer games then available. In particular, a primary difference between 'games' and real-life ATC is that control is exercised in reality through R/T links to aircraft and telephone links to adjacent sectors or centres. The TRACON/Pro simulator appears to fulfil this function, and, in addition, can provide useful practical experience in techniques that it has not been practical to introduce into large-scale real-time simulations. This report describes the application of the TRACON/Pro simulator to a study of the relative intrusiveness (subjective and objective) of two potential on-line measures of the strain on Air Traffic Controllers. This study also compared the relative efficiency of control using a keyboard and a voice recognition interface. 2. EXPERIMENTAL DESIGN AND CONDUCT - SIGNIFICANT RESULTS Experimental Design Eight controllers completed the full set of eleven measured exercises, with a different traffic sample (matched for size and difficulty) in each exercise. The first five measured exercises used one control mode (speech or key) and the second five the other. The final exercise replicated the first, although a different traffic sample was used. The orders of presentation of measurement types and reporting methods were balanced within the set of measured exercises for each controller, and the orders of presentation of control modes and exercises were balanced between controllers to minimise learning effects. 1 Experimental Procedure Each controller was given a pre-briefing which emphasized that it was the system, not the controller, that was being tested. They were then trained in the use of TRACON/Pro, and the voice recognition system was trained for the controller's voice (53 words, 99 phrases - about one hour). Controllers then carried out training exercises, with samples increasing from 10 to 22 aircraft until they failed three times to complete a trial without separation errors, or reached the maximum traffic level, using the first control mode. They then carried out the first block of five measured trials, repeated the training with the second input mode, carried out the second block of five trials, and finally carried out the last trial with the initial input mode. Each trial took approximately 45 minutes, including run-up and run-down times, when aircraft were entering or leaving the simulated area. Controllers carried out eleven measured and up to twenty training exercises, over a period of three to five consecutive days. They completed a final questionnaire, in the presence of the experimenter and of the equipment. Analysis The primary measure of potential intrusiveness is the decrement between the controller's theoretical maximum score and his actual score. If on-line measures are intrusive, then we should see a decrement in performance when they are being taken, and, if they are perceived as being intrusive, a corresponding effect on the NASA-TLX scores. There were, in fact, significantly more hand-over errors when on-line measurements were being taken, although the total number of errors is not large in itself. Figure 1 shows the overall mean performance decrement for each of the ten experimental conditions. The performance decrement, the total number of errors, and the number of handover errors were all particularly high when the SWAT test results were reported by voice. or when ISA was reported by pressing a key. Figure 2 summarizes the analyses of the NASA-TLX scores and their 'test/no test' components, showing a significant overall increase in the NASA-TLX score and four of its components. Mental Demand, Temporal Demand and Effort show just significant ( < 5%) increments, while Frustration and the overall TLX score show highly significant differences ( < 0.1 %). 2 3. HYPOTHESES AND CONCLUSIONS Hypotheses are re-printed in roman type - conclusions follow in italics. 3.1 The TRACON/Pro simulator may be used as an experimental test-bed. This study demonstrates that this can be done. Subjective controller opinion suggests that it involves similar skills to ATC, although modifications are required to reflect European ATC procedures. 3.2 On-line measurements are intrusive. Subjective opinion is definite to this effect. There is some objective evidence that performance deteriorates in the presence of on-line measurement. 3.3 SWAT is more intrusive than ISA. Subjective opinion is definite on this point, and it appears that verbal SWAT reporting combined with verbal control is particularly intrusive. 3.4 Speech control is more efficient than keyboard control Apart from one anomalous result, objective measurement suggests that the performance decrement is less when speech control is employed. 3.5 Speech control is preferable to keyboard control Controllers were unanimous that RELIABLE speech control would be preferable to keyboard control. In its current form, it would not be acceptable for real air traffic control, although it was more acceptable in simulation, and for non-critical tasks such as display control. 3.6 Intrusiveness is greater when the same mode is used for control and reporting No clear conclusion can be drawn on the data obtained in this experiment. It appears that the SWAT was particularly disruptive when spoken responses were required in association with spoken control. (Some controllers comments suggest that they gave up the attempt to discriminate the three dimensions of workload when under stress - which is exactly when the responses are important.) This agrees with observations of previous use of SWAT in real-time simulations. 3 4. RECOMMENDATIONS 4.1 TRACON/Pro should be used to further investigate methods of making on-line measures in particular, the use of video-taped or on-line video records for the assessment of strain using ISA coding. 4.2 TRACON/Pro should be updated to use European speech codes and observe the European convention on the transition from Altitude to Flight Level. 4.3 ISA should be used in preference to SWAT in real-time simulation measurement. 4.4 The NASA-TLX should be used as a standard measure in all real-time simulations. Its results appear to be consistent with ISA and the multiple scales give useful indications of the nature of the problems encountered. 4.5 Use of speech recognition in real-time ATC simulations should be investigated further, since the performance of speech recognition systems is now becoming acceptable. REFERENCES David Hugh, MEASUREMENT OF CONTROLLERS' MENTAL STATE IN A REAL-TIME SIMULATION ENVIRONMENT, May 1985, EEC Report No 183, pp 61 David Hugh, MEASUREMENT OF AIR TRAFFIC CONTROLLERS' EYE MOVEMENTS IN REAL-TIME SIMULATION, November 1985, EEC Report No 187,pp 35 Vanwonterghem Kamiel and Rabit Monique, ACTIVITE ELECTRIQUE CEREBRALE ET CHARGE MENTALE CHEZ LES CONTROLEURS DU TRAFIC AERIEN, August 1989, Eurocontrol Experimental Centre Report No. 228,pp 30 Vanwonterghem Kamiel and Verboven Jacqueline , BRAIN ACTIVITY IN A SIMULATED ATC TASK , August 1988, Eurocontrol Experimental Centre Report No. 219,pp 16 4 300 250 200 TRACON SCORE Voice Command 150 Key Command 100 50 0 None IS A(voice) S WAT (v) IS A(key) S WAT (key) F igure 1 - P erformance Decreme nt 80 70 TLX Components/Score 60 50 No On-line T es t 40 On-line T es t 30 20 10 0 Mental Phys ical T emporal Perform. Effort F igure 2 - NAS A T L X 5 F rus tration T LX S core EEC Rapport No. 275 EEC Tâche AT66 EATCHIP Tâche DPS.ET1.ST07 Publication: Mars 1995 Intrusion d’auto-évaluations en ligne dans les simulations ATC utilisant un clavier et un système de reconnaissance de parole par H. DAVID S. PLEDGER SOMMAIRE TRACON/Pro est un simulateur de contrôle du trafic aérien en temps réel, conçu à l’origine comme un système de formation pour le contrôle du trafic aérien aux Etats-Unis d’Amérique. Du fait de sa complète indépendance, ce système constitue un outil adéquat pour la recherche en matière de techniques de mesures ATC. Le système standard comprend des modules de synthèse vocale ainsi que de reconnaissance vocale et peut donc fonctionner sans pseudo-pilotes. Le système procure des enregistrements détaillés et des résultats chiffrés pour mesurer la performance en ATC. Des points positifs sont accordés pour la gestion correcte de l’avion et des points négatifs pour des erreurs telles que l’échec, soit du transfert de l’avion, soit du maintien du niveau de séparation. Une étude initiale a démontré qu’il était possible d’utiliser TRACON/Pro, dans le but, d’une part, de déterminer le degré d’intrusion de méthodes d’auto-évaluation pour mesurer la charge de travail dans les tâches de contrôle du trafic aérien, d’autre part, de démontrer que cette intrusion dépendait des conditions dans lesquelles était exercé le contrôle du trafic. 6 1. INTRODUCTION Le développement et la validation des outils de mesure de la charge de travail et de pression à laquelle est soumise le contrôleur du trafic aérien font partie des responsabilités de la Division B2.3 du Centre Expérimental Eurocontrol. L’évaluation des effets psychologiques et/ou physiologiques liés à l’exercice de l’ATC sur le contrôleur a déjà été tentée à travers diverses études systématiques telles que celles décrites dans les rapports suivants : 183 (David, 1985), 187 (David, 1985), 219 (Vanwonterghem et Verboven) et 228 (Vanwonterghem et Rabit). La plupart de ces tentatives (Rapports 183, 187 et 228) n’ont pu être réalisées que dans le cadre de simulations en temps réel de grande envergure. Ceci rend difficile, sinon impossible, le fait de contrôler rigoureusement les conditions expérimentales : il a toujours été difficile de définir des protocoles d’expérimentation équilibrés et, surtout, d’obtenir une population de sujets représentative de l’ensemble des contrôleurs compte tenu de leur diversité. Il a donc été nécessaire de trouver un « modèle » de simulation ATC qui soit plus accessible que le complexe simulateur en temps réel, mais ayant cependant un degré plus élevé de réalisme que les jeux électroniques existants. En particulier, une première différence entre les « jeux » et l’ATC réel réside dans le fait que le contrôle est, dans la réalité, exercé via des réseaux R/T reliant avions et téléphones aux secteurs ou centres adjacents. Le simulateur TRACON/Pro semble remplir cette fonction et, de plus, peut procurer une expérience pratique utile en ce qui concerne des techniques qu’il n’a pas été facile d’introduire dans les simulations en temps réel de grande envergure. Le présent rapport décrit l’utilisation du simulateur TRACON/Pro dans le cadre d’une étude de l’intrusion relative (subjective et objective) de deux outils en ligne, prometteurs pour la mesure de l’effort exercé par le contrôleur du trafic aérien. Cette étude permet également de comparer les performances obtenues lorsque le contrôle est effectué à l’aide d’un clavier et lorsqu’il est effectué à l’aide d’un système de reconnaissance vocale. 2. CONCEPTION EXPERIMENTALE RESULTATS SIGNIFICATIFS ET COMPORTEMENT - Conception expérimentale Huit contrôleurs ont effectué la série complète des onze exercices mesurés avec, pour chacun de ces exercices, un échantillonage de trafic différent comportant des tailles et des difficultés différentes. Les cinq premiers exercices mesurés ont été réalisés en faisant appel à un mode de contrôle (vocal ou clavier) et les cinq suivants à l’autre. Le dernier exercice constituait une réplique du premier, bien qu’un échantillon de trafic différent était utilisé. 7 Pour chaque contrôleur, les ordres de présentation des types de mesures ainsi que les méthodes de compte-rendu furent équilibrés tout au long de la série d’exercices mesurés; les ordres de présentation des modes de contrôle et des exercices furent équilibrés entre les contrôleurs afin de minimiser les effets d’apprentissage. Procédure expérimentale Un exposé préliminaire a été fait à chaque contrôleur, mettant l’accent sur le fait que l’expérimentation concernait le système et non les contrôleurs. Ces derniers furent ensuite entraînés à l’utilisation du TRACON/Pro et le système de reconnaissance vocale fut préparé pour la voix du contrôleur (53 mots, 99 phrases - environ 1 heure). Les contrôleurs ont alors exécuté des exercices d’entrainement, avec des échantillons augmentant de 10 à 22 avions, jusqu’au moment où, par trois fois de suite, ils ont, soit échoué à réaliser un exercice sans aucune erreur de séparation, soit atteint le niveau de trafic maximum, en utilisant le premier mode de contrôle. Ils ont alors exécuté la première série de cinq exercices mesurés, répété l’opération avec le second mode de contrôle, exécuté la seconde série de cinq essais et, finalement, effectué l’exercice final à l’aide du mode de contrôle initial. Chaque exercice dura environ 45 minutes, y compris les phases montantes et descendantes, lorsque l’avion entre dans l’espace simulé ou le quitte. Les contrôleurs exécutèrent 11 exercices mesurés et jusqu’à 20 exercices d’entraînement sur une période de 3 à 5 journées consécutives. Ils remplirent un questionnaire final, en présence de l’expérimentateur et de l’équipement. Analyse La première mesure d’intrusion potentielle réside dans la différence entre le score maximum théorique du contrôleur et son score réel. Si des mesures en ligne sont perçues comme importunes, il faudrait alors, lorsqu’elles sont prises, observer une diminution en matière de performances et un effet correspondant sur les scores de NASA-TLX. Elles étaient, en fait, davantage dues à des erreurs de manipulations lorsque des mesures en ligne ont été prises, malgré un nombre total d’erreurs non élevé en soi. Le Tableau 1 montre la diminution de la performance moyenne générale pour chacune des dix conditions expérimentales. La diminution de performance, le nombre total d’erreurs et le nombre d’erreurs de manipulation étaient particulièrement élevés dans le compte-rendu des résultats de test SWAT par le contrôle vocal ou dans celui des tests ISA par le contrôle clavier. Le Tableau 2 résume les analyses des scores NASA-TLX et de leur composants « test/no test », montrant une augmentation globale significative dans le score NASA-TLX ainsi que de quatre de ses composants. La demande mentale (Mental Demand), la demande temporelle (Temporal Demand) et l’effort (Effort) montrèrent des augmentations significatives (< 5 %) tandis que la frustration (Frustration) et le score TLX global montrèrent des différences significatives élevées (< 0.1 %). 8 3. HYPOTHESES ET CONCLUSIONS Les hypothèses sont imprimées en style roman, tandis que les conclusions suivent en italique. 3.1. Le simulateur TRACON/Pro peut être utilisé en tant que banc d’essai expérimental Cette étude démontre que ceci peut être fait. L’opinion subjective du contrôleur est que cela implique des compétences similaires pour le contrôle du trafic aérien, bien que des modifications soient requises pour que les procédures européennes en matière de contrôle du trafic aérien soient reproduites. 3.2. Les mesures en ligne sont gênantes L’opinion subjective est précise à cet effet. D’un point de vue objectif, on a pu montrer que la performance se détériore en présence de mesures en ligne. 3.3. SWAT est plus gênant que ISA L’opinion subjective est claire sur ce point et il apparaît que le compte-rendu SWAT sous forme verbale, combiné avec le contrôle par reconnaissance vocale, est particulièrement gênant. 3.4. Le contrôle par reconnaissance de la parole est plus efficace que le contrôle par clavier A part un résultat présentant une anomalie, la mesure objective suggère que la baisse de performances est moindre lorsque le contrôle par reconnaissance vocale est utilisé. 3.5. Le contrôle par reconnaissance vocale est préférable au contrôle par clavier Les contrôleurs ont été unanimes pour considérer qu’un contrôle par reconnaissance vocale fiable était préférable à un contrôle par clavier. Dans sa forme courante, un tel contrôle ne serait pas acceptable pour le contrôle du trafic aérien en situation opérationnelle, bien qu’il soit plus acceptable en simulation ainsi que pour des tâches non critiques telles que le contrôle des présentations affichées. 3.6. L’intrusion est plus forte lorsque le même mode est utilisé pour le contrôle et le compterendu Aucune conclusion claire ne peut être tirée des données obtenues par cette expérimentation. Il apparaît que le test SWAT était particulièrement perturbant lorsque des réponses orales étaient requises en même temps qu’un contrôle oral. 9 (Certains contrôleurs ont suggéré d’abandonner la tentative de distinguer les trois dimensions de la charge de travail sous période de stress - ce qui correspond exactement aux périodes de réponses importantes en nombre). Ceci corrobore les observations d’utilisations antérieures de SWAT dans des simulations en temps réel. 4. RECOMMANDATIONS 4.1. TRACON/Pro devrait être utilisé afin de poursuivre l’investigation de méthodes d’élaboration de mesures en ligne - en particulier, l’utilisation de bandes video ou d’enregistrements video en ligne pour évaluer le niveau d’effort en utilisant la codification ISA. 4.2. TRACON/Pro devrait être mis à jour afin d’utiliser les codes vocaux européens et d’observer la convention européenne relative à la transition de l’altitude au niveau de vol. 4.3. ISA devrait être utilisé de préférence à SWAT dans les mesures de simulation en temps réel. 4.4. NASA-TLX devrait être utilisé comme mesure standard dans toutes les simulations en temps réel. Ses résultats semblent compatibles avec ceux d’ISA et les échelles multidimensionnelles donnent des indications utiles quant à la nature des problèmes rencontrés. 4.5. L’utilisation de la reconnaissance de la parole dans les simulations ATC en temps réel devrait être davantage étudiée étant donné que la performance de tels systèmes devient maintenant acceptable. REFERENCES David Hugh, MEASUREMENT OF CONTROLLERS' MENTAL STATE IN A REAL-TIME SIMULATION ENVIRONMENT, May 1985, EEC Report No. 183, pp 61 David Hugh, MEASUREMENT OF AIR TRAFFIC CONTROLLERS' EYE MOVEMENTS IN REAL-TIME SIMULATION, November 1985, EEC Report No.187, pp 35 Vanwonterghem Kamiel and Rabit Monique, ACTIVITE ELECTRIQUE CEREBRALE ET CHARGE MENTALE CHEZ LES CONTROLEURS DU TRAFIC AERIEN, August 1989, Eurocontrol Experimental Centre Report No. 228, pp 30 Vanwonterghem Kamiel and Verboven Jacqueline , BRAIN ACTIVITY IN A SIMULATED ATC TASK , August 1988, Eurocontrol Experimental Centre Report No. 219, pp 16 10