Quand l`horloge parlante a beaucoup à raconter sur l`évolution des
Transcription
Quand l`horloge parlante a beaucoup à raconter sur l`évolution des
Quand l’horloge parlante a beaucoup à raconter sur l’évolution des techniques d’archivage audiovisuel Félicien Vallet Jean Carrive Institut national de l’audiovisuel 4 avenue de l’Europe 94366 Bry-sur-Marne cedex, France [email protected] - [email protected] RÉSUMÉ Depuis sa création en 1974, l’Institut national de l’audiovisuel (Ina 1 ) est chargé de rassembler et conserver les images et les sons qui fondent la mémoire collective française, leur donner du sens et les partager avec le plus grand nombre. En coïncidence des innovations technologiques, le métier d’archiviste a évolué au cours des années pour répondre à l’émergence de nouveaux défis : évolution des supports physiques, apparition de l’ordinateur, stockage massif de données, numérisation des fonds, multiplication des chaînes de télévision et de radio à collecter, etc. Dans cet article nous revenons sur un des choix technologiques faits par les diffuseurs de programmes télévisés : celui d’utiliser un enregistrement de l’horloge parlante pour indexer les programmes de télévision sauvegardés. Cette manipulation d’horodatage, qui peut être considérée comme l’ancêtre du timecodage, consiste à utiliser la stéréophonie pour enregistrer le signal audio utile sur un canal et l’heure courante donnée par l’horloge parlante sur l’autre (le son TV étant quasi-exclusivement mono à cette époque). De la fin des années 1970 au milieu des années 1990, environ 70 000 bandes d’archives ayant subi ce traitement ont ainsi été collectées par l’Ina. Cependant, à cette époque, aucune méthode de traitement automatisé n’avait été imaginée... ABSTRACT When the speaking clock has a lot to say about audiovisual archiving Since 1974, the French National Audiovisual Institute is responsible for gathering, storing and sharing sound and images belonging to the French memory. The job of archivist has greatly evolved over time with the appearance of the computer, the creation of new storage devices, the archive digitization or the increase of the number of radio and television channels to be collected. In this paper we comment the technical choice made during the 1970s to archive and index television programs by recording the speaking clock. This processing, which can be seen as an ancestor of the timecoding, is based on the use of the stereophonic sound to record the speaking clock on one channel and the useful TV signal on the other one (since TV sound was almost exclusively mono at that time). Between the end of the 1970s and the beginning of the 1990s about 70 000 tapes of programs where recorded that way. However, at that time, no automatic treatment had ever been designed... MOTS-CLÉS : Horloge parlante, Transcription automatique de la parole, Archivage audiovisuel. KEYWORDS: Speaking clock, Automatic speech transcription, Audiovisual archiving. 1. Institut national de l’audiovisuel : www.ina.fr 1 Introduction Avec le foisonnement de documents audiovisuels issus des productions télévisuelles et radiophoniques mais également d’amateurs (via les sites internet de type YouTube ou Dailymotion), les archivistes professionnels comme l’Institut national de l’audiovisuel (Ina) ont de plus en plus besoin d’outils de structuration efficaces. En effet, un fonds documentaire n’est pas seulement un stock ou un ensemble de documents, mais une mémoire vivante en constante évolution. Cet aspect repose sur l’instrumentation du fonds, c’est-à-dire son indexation (Bachimont, 1998). Les missions des archivistes étant de conserver mais également de documenter et d’exposer les contenus, les besoins de méthodes automatiques d’indexation se font ressentir chaque jour avec un peu plus d’acuité (les équipes de documentalistes étant limitées). Si actuellement le problème principal n’est plus le stockage, l’apparition de « cimetières de données » au sein desquels des documents sont laissés à l’abandon et la connaissance et l’information qu’ils contiennent sont perdues présente un risque grandissant. Par conséquent, afin d’éviter que l’archive ne s’étiole jusqu’à ne devenir qu’un stock, l’utilisation de méthodes d’indexation automatique est devenue inévitable. FIGURE 1: Première horloge parlante, système Brillié (1933-1965). En 1933, l’Observatoire de Paris inaugure la première horloge parlante au monde (voir Figure 1). Ce dispositif annonce l’heure courante de manière automatisée et sous forme vocale par le biais d’un service téléphonique 2 . Par la suite, deux autres types d’horloges lui succèdent en 1965 et 1991 (cette dernière étant totalement électronique). Ce service, toujours en vigueur de nos jours, est accessible au 3699. En pratique, les heures sont énoncées de 0 à 23 puis les minutes de 0 à 59 en enfin les secondes à 10, 20, 30 et 40. La phrase « au quatrième top, il sera exactement » est ensuite prononcée pour annoncer le passage à la minute suivante. Chaque intervention est suivie d’un bip marquant le temps exact (heure atomique). Le changement de minute s’effectue à la suite de quatre bips consécutifs. Afin de faciliter l’indexation des fonds, les diffuseurs de programmes télévisés décident dans les années 1970 de tirer profit du fait que le son TV est quasi-exclusivement mono pour effectuer une opération d’horodatage des contenus vidéo. Il s’agit d’enregistrer en « parallèle antenne », en plus du programme télévisé, l’heure courante donnée par l’horloge parlante. Avec l’aide de 2. voir « Bureau international de l’heure - l’horloge parlante » (vidéo Ina) : www.ina.fr/video/CAF93053168 la stéréophonie, le signal audio utile est donc sauvegardé sur un canal tandis que sur l’autre on enregistre l’horloge parlante. Il est ainsi possible de connaître avec exactitude l’heure de diffusion d’une émission et de faciliter son indexation en ayant recours à des grilles de programmes. Ce procédé autorise de plus à enregistrer d’affilée pour une même journée et sur un même support plusieurs programmes disjoints dans le temps et ainsi d’identifier rapidement à l’oreille les différents blocs temporels. Jusqu’aux années 1990 (et l’apparition de la piste TC sur les supports Béta SP), environ 70 000 bandes sont enregistrées de cette manière par les diffuseurs sur cassettes trois quarts de pouce (3/4") Umatic, BVU puis Béta TL avant d’être remises à l’Institut (qui les a numérisées depuis). Cette manipulation a été effectuée par d’autres gestionnaires de contenus à cette époque comme la British Broadcasting Company (BBC). Cependant, si l’enregistrement de l’horloge parlante permet de faciliter l’indexation d’un document, il peut également se révéler une mauvaise surprise pour les auditeurs. En effet, les acquéreurs d’archives ne sont pas spécialement désireux d’entendre la voix nasillarde de l’horloge. Il s’agit donc d’identifier dans les fonds de l’Ina les 70 000 bandes pour lesquelles un enregistrement de l’horloge parlante a été réalisé ce qui, en pratique, se révèle irréalisable manuellement. Les avancées dans les domaines du traitement automatique de la parole et du signal rendent désormais possible la mise en place de procédures automatisées pour ces archives. Cet article nous permet donc, par le biais d’un problème d’ingénierie original d’éclairer le lecteur sur l’histoire et l’évolution des pratiques d’indexation documentaire et de le familiariser aux questions auxquelles les archivistes doivent répondre dans leur travail quotidien. Nous proposons dans la section 2 une description du mécanisme de détection de l’horloge parlante. Ensuite, une fois ce canal identifié (s’il y en a un), nous proposons une transcription automatique de la parole sous contrainte. Celle-ci permet d’identifier dans la section 4, les ruptures d’enregistrements à l’intérieur d’un même support et une correction de la transcription peut ensuite être effectuée par morceaux comme cela est décrit dans la section 5. La section 6 expose les résultats expérimentaux et apporte des éléments de discussion avant qu’une conclusion à l’étude ne soit proposée. 2 Détection de l’horloge parlante Un des problèmes liés à l’enregistrement de l’horloge parlante dans les fonds de l’Ina tient à ce que les contenus ayant subi cette manipulation ne sont pas clairement répertoriés et que le canal affecté n’est pas toujours le même (il semble cependant s’agir majoritairement du canal droit). Par conséquent, la première étape d’un traitement massif consiste à détecter la présence d’un enregistrement de l’horloge parlante sur une des deux pistes audio. Une visualisation du signal audio nous indique que dans ce cas les canaux présentent deux comportements différents (voir les formes d’ondes de la Figure 2). En particulier, le canal contenant l’horloge parlante présente un profil particulier avec des régularités (bips), des énonciations courtes (« dix-huit heures trente-sept minutes vingt secondes ») et de longues plages de silence. Empiriquement, un détecteur de silence convient parfaitement pour distinguer de façon efficace lequel des deux canaux, s’il y en a un, contient un enregistrement de l’horloge parlante. En effet, si l’horloge parlante n’est pas enregistrée, le signal utile est dupliqué sur les canaux droit et gauche. Il s’agit donc de rechercher une forte disparité entre les proportions de silence présentes sur chacune des pistes audio. La méthode choisie pour la détection de silence est celle proposée dans (Saha et al., 2005). En faisant l’hypothèse que les échantillons appartenant aux parties non-voisées (i.e. bruit/silence) suivent une distribution gaussienne, il est possible après estimation de la moyenne µ et de la variance σ2 de cette distribution de calculer la distance de Mahalanobis à une dimension pour une variable aléatoire x (dans notre cas un échantillon audio calculé pour 10 ms de signal) : |x − µ| distMahalanobis = (1) σ Les propriétés de la distribution gaussienne assurent en effet que l’échantillon considéré x a une probabilité de 99.7% d’être non-voisé si la distance de Mahalanobis est inférieure à 3. Bip 18h37m10s Bip 18h37m20s FIGURE 2: Formes d’ondes pour un document audiovisuel contenant un enregistrement d’horloge parlante sur la piste droite (en bas) et le signal audio utile sur la piste de gauche (en haut). Grâce à cette méthode, il est donc possible de quantifier la proportion de silence sur chaque canal et de les comparer. Avec un seuillage adapté, un très bon taux de détection peut être obtenu (voir section 6). De plus, il est intéressant de noter que les erreurs de détection ne surviennent que pour les rares canaux muets ou défectueux. 3 Transcription automatique de la parole sous contrainte Une fois le canal contenant un enregistrement de l’horloge parlante détecté, il s’agit d’exploiter les technologies de traitement de la parole pour extraire l’information utile à l’indexation du document. Pour cela une transcription automatique (Walker et al., 2004) est réalisée à l’aide du logiciel Sphinx-4 3 . Le modèle acoustique proposé par le Laboratoire d’Informatique de l’Université du Maine, LIUM 4 , est employé pour permettre une transcription en français (Deléglise et al., 2005). Pour améliorer la qualité de la transcription, une adaptation de ce modèle acoustique est réalisée. Celle-ci est effectuée en ajoutant plusieurs centaines d’énonciations (phrases et mots) de l’horloge. Le vocabulaire utilisé étant un ensemble fini de 69 mots, il est très aisé de constituer le dictionnaire phonétique mettant en correspondance les mots et phonèmes. Enfin, on définit un modèle de 3. Sphinx-4 : www.cmusphinx.sourceforge.net 4. LIUM (outils et ressources) : www-lium.univ-lemans.fr langage spécifique aux phrases prononcées par l’horloge parlante (en l’occurrence une grammaire) comme suit : grammaire = ([au quatrième top, il sera exactement] x heures y minutes [z secondes])* (2) avec x, y et z des entiers naturels satisfaisant : x ∈ [0; 23], y ∈ [0; 59] et z ∈ {10, 20, 30, 40}. Ce système de transcription sous contrainte doit être suffisamment robuste pour traiter les horloges parlantes de 1965 et de 1991. Pour cette dernière, une alternance de deux voix (une féminine et une masculine) étant observée, des échantillons de chacune ont été ajoutés à ceux collectés pour l’horloge de 1965. Les premiers résultats obtenus ont cependant montré que la retranscription des heures était délicate pour l’horloge parlante de 1965 (qui est celle majoritaire dans les enregistrements de l’Ina). En effet, il semble à l’écoute que les bandes de films parlants utilisées par l’Observatoire de Paris pour énoncer les heures sont moins intelligibles que celles pour les minutes. En particulier, les attaques sur les consonnes dentales (le [d] de « dix-sept heures » par exemple) sont très peu marquées. Une explication qui peut être avancée est que, sur une journée, la bande audio utilisée pour les heures passe 2.5 fois plus que celle des minutes, ce qui expliquerait une usure plus rapide. En effet, chaque minute est énoncée 5 fois par heure (au cours de la minute courante) et cela pour les 24 heures de la journée (120 énonciations/jour). Chaque heure est elle énoncée 5 fois par minute et ce pour chaque minute de l’heure courante (300 énonciations/jour). Afin d’améliorer les scores de reconnaissance, 24 nouveaux mots, composés de la concaténation du chiffre et de l’heure (zero_heure, une_heure, etc.), ont été créés. La grammaire et le dictionnaire acoustique ont été eux aussi adaptés. Les taux de reconnaissance ont ainsi pu être réhaussés. Malheureusement, les résultats obtenus restent bien souvent sujets à contenir des erreurs et incomplets (puisque certaines énonciations ne permettent pas d’obtenir de transcription avec un niveau de confiance suffisant). En effet, les pistes audio contenant l’horloge parlante sont très souvent bruitées, rendant la transcription délicate. Il s’agit alors d’utiliser le caractère déterministe de l’horloge parlante pour corriger les omissions et erreurs de transcription. 4 Détection de ruptures Afin de corriger la transcription, la première étape consiste à identifier les ruptures temporelles dans le cas où plusieurs programmes auraient été enregistrés consécutivement (bout-à-bout). Pour ce faire, nous exploitons la cohérence temporelle. En effet, à l’intérieur d’un bloc temporel cohérent les énonciations « au quatrième top » sont espacées d’exactement 60 secondes. Ainsi, la continuité temporelle est assurée si pour " petit (0.25 secondes dans notre cas) on a : au quatrième top |t i au quatrième top mod60 − t i+1 mod60| ≤ " (3) Avec t le temps de l’énonciation en secondes, i un entier naturel tel que i ∈ [1; N − 1] et N le nombre de fois que la phrase « au quatrième top » est transcrite pour un enregistrement donné. On fait ainsi l’hypothèse que, pour deux blocs temporels consécutifs, il est impossible d’avoir deux enregistrements de l’horloge exactement synchrones. Si l’équation 3 n’est pas vérifiée, une rupture est détectée et un nouveau bloc temporel est déclaré. En pratique, il s’agit de s’assurer de la robustesse de la détection de rupture dans le cas où la phrase de référence « au quatrième top » n’a pas été transcrite correctement. Cela peut-être réalisé relativement facilement à l’aide d’hypothèses simples. Il est par exemple possible de stipuler qu’un bloc temporel a une durée minimale de 3 minutes, ce qui se vérifie empiriquement dans les programmes archivés par l’Ina sur ces types de supports. 5 Correction de la transcription Une fois obtenus une transcription brute des énonciations de l’horloge parlante et un découpage en blocs temporels cohérents, il est possible de proposer une correction du flux de parole transcrit. En effet, comme cela a été évoqué à la section 3, l’élocution de l’horloge parlante présente des particularités spécifiques : le vocabulaire utilisé est particulièrement réduit et, à l’intérieur d’un bloc temporel, le discours est parfaitement déterministe. Il s’agit donc d’effectuer une optimisation sous contrainte en exploitant la cohérence syntaxique. Les contraintes à satisfaire sont les données de transcription et l’enchaînement chronologique des séquences au sein d’un bloc temporel. Par conséquent, il faut trouver pour les heures et les minutes la séquence la plus probable. Ces deux séquences sont liées. Ainsi, un changement d’heure implique un passage de 59 à 0 minute et vice versa. Enfin, pour ce qui est des secondes nous faisons le choix de replacer celles-ci a posteriori dans la transcription corrigée (la précision attendue étant de l’ordre de la minute). La Figure 3 propose un schéma du processus de décodage de l’horloge parlante comme il a été décrit jusqu’ici. De plus, un exemple d’alignement de séquence la plus probable est donné pour une transcription automatique bruitée et incomplète. Création d’un dictionnaire et d’une grammaire Sélection du canal de l’horloge Transcription automatique de la parole Adaptation d’un modèle acoustique 12h ??? ??h 12h 18h ??h 12h 12h […] ??m 13m 16m ??? ??? ??m 14m 14m 10s 20s ??? 40s 10s ??? 30s Identification des ruptures et correction 12h 12h 12h 12h 12h 12h 12h 12h […] 13m 13m 13m 13m 14m 14m 14m 14m 10s 20s 30s 40s 10s 20s 30s FIGURE 3: Schéma récapitulatif du processus de décodage de l’horloge parlante sur les documents Ina. La correction est effectuée par optimisation des contraintes imposées par la transcription. L’avantage de forcer un alignement de la séquence déterministe la plus probable est que celle-ci permet le très simple calcul d’une probabilité d’obtenir cette séquence. Il est ainsi aisé de produire pour chaque bloc l’équivalent d’une valeur de confiance sur les heures et sur les minutes proposées. La probabilité d’avoir la séquence des heures corrigée dans le bloc temporel i se calcule donc comme suit (et de façon équivalente pour les minutes) : Piheure = Nb de fois que l’heure transcrite est identique à celle proposée dans la correction Nb total d’énonciations d’heures attendues dans le bloc i (4) 6 Résultats expérimentaux Comme cela a été présenté dans la section 2, la détection du canal sur lequel l’horloge parlante est enregistrée se fait par évaluation d’une différence de proportion de silence entre les canaux gauche et droit d’un enregistrement stéréo. L’analyse d’un corpus de 900 émissions, dont il est connu qu’entre un tiers et la moitié contiennent un enregistrement de l’horloge, présente un saut très marqué (en pointillés rouges sur la Figure 4a). 50 60 45 50 40 35 40 30 30 25 20 20 15 10 10 5 0 0 100 200 300 400 500 600 700 800 900 0 P < 15% 5% < P2 < 10% P > 310% (a) Tracé de la valeur absolue de la différence (b) Histogramme de la répartition des probabide proportion de silence entre les canaux audio lités P pour les minutes. En bleu, les séquences pour chaque émission analysée. correctes et en rouge celles erronées. FIGURE 4: Identification de valeurs de seuils pour la détection et le décodage de l’horloge parlante. Par conséquent, un seuillage pour une différence inter-canaux de 5% est effectué et évalué sur 200 fichiers annotés. Le taux de détection sur cet ensemble est de 97%. Les 3% restant étant constitués d’enregistrements comprenant des canaux muets ou abîmés avec beaucoup de silence. L’évaluation de la correction de la transcription de l’horloge parlante a été effectuée sur un souscorpus de 26 fichiers (22 avec l’horloge de 1965 et 4 avec celle de 1991). La Table 1 regroupe les les résultats obtenus. On peut remarquer que les ruptures temporelles sont toutes correctement détectées et que les taux d’erreurs sur les heures et les minutes sont de l’ordre de 8%. entité détectée ruptures heures minutes erreurs 0/30 (0.0%) 4/56 (7.1%) 5/56 (8.9%) TABLE 1: Résultats de détection de ruptures (30 au total) ainsi que de correction de transcription des séquences pour les heures et minutes à l’intérieur de chaque bloc temporel (56 au total). Ces derniers taux s’avèrent trop élevés pour le traitement de plusieurs dizaines de milliers d’heures de programmes. Il est donc crucial de calculer des probabilités d’exactitude des séquences d’heures et de minutes obtenues pour chaque bloc temporel (voir section 5). La Figure 4b montre un histogramme des probabilités obtenues sur les 56 blocs temporels des 26 émissions traitées pour les séquences de minutes. Il apparaît clairement que la totalité des erreurs présente une probabilité d’obtenir la séquence inférieure à 10% (et inférieure à 5% pour la grande majorité). Ainsi, il est possible de trouver un seuil au dessus duquel la décision est quasi-certaine. A l’issu d’un traitement massif, un opérateur pourra par la suite effectuer une validation manuelle des blocs temporels pour lesquels les probabilités de séquences sont faibles. 7 Conclusion et perspectives Cet article propose une méthode simple utilisant des techniques de traitement de la parole et du signal pour la détection et le décodage d’enregistrements de l’horloge parlante. Il s’agit là d’un enjeu de taille pour les gestionnaires d’archives comme l’Institut national de l’audiovisuel (Ina) puisque de la fin des années 1970 jusqu’au début des années 1990 un horodatage des programmes archivés a été effectué par un enregistrement de l’heure courante. Ainsi, en filigrane, le lecteur peut appréhender l’évolution des pratiques d’indexation au cours des dernières décennies. Les résultats de l’étude montrent que de très bonnes performances peuvent être atteintes ce qui va permettre la mise en œuvre prochaine d’une chaîne de traitement pour les dizaines de milliers d’heures de programmes concernées par l’enregistrement de l’horloge parlante. Il sera à cette occasion intéressant d’évaluer l’évolution des taux d’erreur en fonction de l’année d’enregistrement pour proposer, le cas échéant, une correction adaptée. Enfin, une fois obtenues plusieurs versions des énonciations des heures et minutes constituant l’intégralité d’une journée, des méthodes de corrélation par audio template matching (Gaudard et al., 2007) pourront éventuellement être testées, améliorant ainsi les coûts calculatoires. Remerciements Les auteurs souhaitent remercier Pascal Flard, Jean-Michel Rodes et Jean Varra de l’Institut national de l’audiovisuel pour leur aide précieuse. Références BACHIMONT, B. (1998). Bibliothèques numériques audiovisuelles. Des enjeux scientifiques et techniques. Document numérique, 2:219 – 242. DELÉGLISE, P., ESTÈVE, Y., MEIGNIER, S. et MERLIN, T. (2005). The LIUM speech transcription system : a CMU Sphinx III-based system for french broadcast news. In International Speech Communication Association, Lisbon, Portugal. GAUDARD, C., ARADILLA, G. et B OURLARD, H. (2007). Speech recognition based on template matching and phone posterior probabilities. Rapport technique, IDIAP. SAHA, G., CHAKROBORTY, S. et SENAPATI, S. (2005). A new silence removal and endpoint detection algorithm for speech and speaker recognition applications. In National Conference on Communications, Kharagpur, India. WALKER, W., LAMERE, P., KWOK, P., RAJ, B., SINGH, R., GOUVEA, E., WOLF, P. et WOELFEL, J. (2004). Sphinx-4 : A flexible open source framework for speech recognition. Rapport technique TR-2004-139, Sun Microsystems.