Quand l`horloge parlante a beaucoup à raconter sur l`évolution des

Transcription

Quand l`horloge parlante a beaucoup à raconter sur l`évolution des
Quand l’horloge parlante a beaucoup à raconter sur
l’évolution des techniques d’archivage audiovisuel
Félicien Vallet
Jean Carrive
Institut national de l’audiovisuel
4 avenue de l’Europe
94366 Bry-sur-Marne cedex, France
[email protected] - [email protected]
RÉSUMÉ
Depuis sa création en 1974, l’Institut national de l’audiovisuel (Ina 1 ) est chargé de rassembler
et conserver les images et les sons qui fondent la mémoire collective française, leur donner du
sens et les partager avec le plus grand nombre. En coïncidence des innovations technologiques,
le métier d’archiviste a évolué au cours des années pour répondre à l’émergence de nouveaux
défis : évolution des supports physiques, apparition de l’ordinateur, stockage massif de données,
numérisation des fonds, multiplication des chaînes de télévision et de radio à collecter, etc.
Dans cet article nous revenons sur un des choix technologiques faits par les diffuseurs de programmes télévisés : celui d’utiliser un enregistrement de l’horloge parlante pour indexer les
programmes de télévision sauvegardés. Cette manipulation d’horodatage, qui peut être considérée comme l’ancêtre du timecodage, consiste à utiliser la stéréophonie pour enregistrer le signal
audio utile sur un canal et l’heure courante donnée par l’horloge parlante sur l’autre (le son TV
étant quasi-exclusivement mono à cette époque). De la fin des années 1970 au milieu des années
1990, environ 70 000 bandes d’archives ayant subi ce traitement ont ainsi été collectées par l’Ina.
Cependant, à cette époque, aucune méthode de traitement automatisé n’avait été imaginée...
ABSTRACT
When the speaking clock has a lot to say about audiovisual archiving
Since 1974, the French National Audiovisual Institute is responsible for gathering, storing and
sharing sound and images belonging to the French memory. The job of archivist has greatly
evolved over time with the appearance of the computer, the creation of new storage devices, the
archive digitization or the increase of the number of radio and television channels to be collected.
In this paper we comment the technical choice made during the 1970s to archive and index
television programs by recording the speaking clock. This processing, which can be seen as an
ancestor of the timecoding, is based on the use of the stereophonic sound to record the speaking
clock on one channel and the useful TV signal on the other one (since TV sound was almost
exclusively mono at that time). Between the end of the 1970s and the beginning of the 1990s
about 70 000 tapes of programs where recorded that way. However, at that time, no automatic
treatment had ever been designed...
MOTS-CLÉS : Horloge parlante, Transcription automatique de la parole, Archivage audiovisuel.
KEYWORDS: Speaking clock, Automatic speech transcription, Audiovisual archiving.
1. Institut national de l’audiovisuel : www.ina.fr
1
Introduction
Avec le foisonnement de documents audiovisuels issus des productions télévisuelles et radiophoniques mais également d’amateurs (via les sites internet de type YouTube ou Dailymotion), les
archivistes professionnels comme l’Institut national de l’audiovisuel (Ina) ont de plus en plus
besoin d’outils de structuration efficaces. En effet, un fonds documentaire n’est pas seulement
un stock ou un ensemble de documents, mais une mémoire vivante en constante évolution. Cet
aspect repose sur l’instrumentation du fonds, c’est-à-dire son indexation (Bachimont, 1998).
Les missions des archivistes étant de conserver mais également de documenter et d’exposer les
contenus, les besoins de méthodes automatiques d’indexation se font ressentir chaque jour avec
un peu plus d’acuité (les équipes de documentalistes étant limitées). Si actuellement le problème
principal n’est plus le stockage, l’apparition de « cimetières de données » au sein desquels des
documents sont laissés à l’abandon et la connaissance et l’information qu’ils contiennent sont
perdues présente un risque grandissant. Par conséquent, afin d’éviter que l’archive ne s’étiole
jusqu’à ne devenir qu’un stock, l’utilisation de méthodes d’indexation automatique est devenue
inévitable.
FIGURE 1: Première horloge parlante, système Brillié (1933-1965).
En 1933, l’Observatoire de Paris inaugure la première horloge parlante au monde (voir Figure 1).
Ce dispositif annonce l’heure courante de manière automatisée et sous forme vocale par le biais
d’un service téléphonique 2 . Par la suite, deux autres types d’horloges lui succèdent en 1965 et
1991 (cette dernière étant totalement électronique). Ce service, toujours en vigueur de nos jours,
est accessible au 3699. En pratique, les heures sont énoncées de 0 à 23 puis les minutes de 0 à 59
en enfin les secondes à 10, 20, 30 et 40. La phrase « au quatrième top, il sera exactement » est
ensuite prononcée pour annoncer le passage à la minute suivante. Chaque intervention est suivie
d’un bip marquant le temps exact (heure atomique). Le changement de minute s’effectue à la
suite de quatre bips consécutifs.
Afin de faciliter l’indexation des fonds, les diffuseurs de programmes télévisés décident dans les
années 1970 de tirer profit du fait que le son TV est quasi-exclusivement mono pour effectuer
une opération d’horodatage des contenus vidéo. Il s’agit d’enregistrer en « parallèle antenne »,
en plus du programme télévisé, l’heure courante donnée par l’horloge parlante. Avec l’aide de
2. voir « Bureau international de l’heure - l’horloge parlante » (vidéo Ina) : www.ina.fr/video/CAF93053168
la stéréophonie, le signal audio utile est donc sauvegardé sur un canal tandis que sur l’autre on
enregistre l’horloge parlante. Il est ainsi possible de connaître avec exactitude l’heure de diffusion
d’une émission et de faciliter son indexation en ayant recours à des grilles de programmes. Ce
procédé autorise de plus à enregistrer d’affilée pour une même journée et sur un même support
plusieurs programmes disjoints dans le temps et ainsi d’identifier rapidement à l’oreille les
différents blocs temporels. Jusqu’aux années 1990 (et l’apparition de la piste TC sur les supports
Béta SP), environ 70 000 bandes sont enregistrées de cette manière par les diffuseurs sur cassettes
trois quarts de pouce (3/4") Umatic, BVU puis Béta TL avant d’être remises à l’Institut (qui les a
numérisées depuis). Cette manipulation a été effectuée par d’autres gestionnaires de contenus à
cette époque comme la British Broadcasting Company (BBC). Cependant, si l’enregistrement de
l’horloge parlante permet de faciliter l’indexation d’un document, il peut également se révéler une
mauvaise surprise pour les auditeurs. En effet, les acquéreurs d’archives ne sont pas spécialement
désireux d’entendre la voix nasillarde de l’horloge. Il s’agit donc d’identifier dans les fonds de
l’Ina les 70 000 bandes pour lesquelles un enregistrement de l’horloge parlante a été réalisé ce
qui, en pratique, se révèle irréalisable manuellement.
Les avancées dans les domaines du traitement automatique de la parole et du signal rendent
désormais possible la mise en place de procédures automatisées pour ces archives. Cet article nous
permet donc, par le biais d’un problème d’ingénierie original d’éclairer le lecteur sur l’histoire et
l’évolution des pratiques d’indexation documentaire et de le familiariser aux questions auxquelles
les archivistes doivent répondre dans leur travail quotidien. Nous proposons dans la section 2 une
description du mécanisme de détection de l’horloge parlante. Ensuite, une fois ce canal identifié
(s’il y en a un), nous proposons une transcription automatique de la parole sous contrainte.
Celle-ci permet d’identifier dans la section 4, les ruptures d’enregistrements à l’intérieur d’un
même support et une correction de la transcription peut ensuite être effectuée par morceaux
comme cela est décrit dans la section 5. La section 6 expose les résultats expérimentaux et apporte
des éléments de discussion avant qu’une conclusion à l’étude ne soit proposée.
2
Détection de l’horloge parlante
Un des problèmes liés à l’enregistrement de l’horloge parlante dans les fonds de l’Ina tient à ce
que les contenus ayant subi cette manipulation ne sont pas clairement répertoriés et que le canal
affecté n’est pas toujours le même (il semble cependant s’agir majoritairement du canal droit).
Par conséquent, la première étape d’un traitement massif consiste à détecter la présence d’un
enregistrement de l’horloge parlante sur une des deux pistes audio.
Une visualisation du signal audio nous indique que dans ce cas les canaux présentent deux comportements différents (voir les formes d’ondes de la Figure 2). En particulier, le canal contenant
l’horloge parlante présente un profil particulier avec des régularités (bips), des énonciations
courtes (« dix-huit heures trente-sept minutes vingt secondes ») et de longues plages de silence.
Empiriquement, un détecteur de silence convient parfaitement pour distinguer de façon efficace
lequel des deux canaux, s’il y en a un, contient un enregistrement de l’horloge parlante. En effet,
si l’horloge parlante n’est pas enregistrée, le signal utile est dupliqué sur les canaux droit et
gauche. Il s’agit donc de rechercher une forte disparité entre les proportions de silence présentes
sur chacune des pistes audio. La méthode choisie pour la détection de silence est celle proposée
dans (Saha et al., 2005). En faisant l’hypothèse que les échantillons appartenant aux parties
non-voisées (i.e. bruit/silence) suivent une distribution gaussienne, il est possible après estimation
de la moyenne µ et de la variance σ2 de cette distribution de calculer la distance de Mahalanobis
à une dimension pour une variable aléatoire x (dans notre cas un échantillon audio calculé pour
10 ms de signal) :
|x − µ|
distMahalanobis =
(1)
σ
Les propriétés de la distribution gaussienne assurent en effet que l’échantillon considéré x a une
probabilité de 99.7% d’être non-voisé si la distance de Mahalanobis est inférieure à 3.
Bip
18h37m10s
Bip
18h37m20s
FIGURE 2: Formes d’ondes pour un document audiovisuel contenant un enregistrement d’horloge
parlante sur la piste droite (en bas) et le signal audio utile sur la piste de gauche (en haut).
Grâce à cette méthode, il est donc possible de quantifier la proportion de silence sur chaque canal
et de les comparer. Avec un seuillage adapté, un très bon taux de détection peut être obtenu (voir
section 6). De plus, il est intéressant de noter que les erreurs de détection ne surviennent que
pour les rares canaux muets ou défectueux.
3
Transcription automatique de la parole sous contrainte
Une fois le canal contenant un enregistrement de l’horloge parlante détecté, il s’agit d’exploiter
les technologies de traitement de la parole pour extraire l’information utile à l’indexation du
document. Pour cela une transcription automatique (Walker et al., 2004) est réalisée à l’aide du
logiciel Sphinx-4 3 . Le modèle acoustique proposé par le Laboratoire d’Informatique de l’Université
du Maine, LIUM 4 , est employé pour permettre une transcription en français (Deléglise et al.,
2005).
Pour améliorer la qualité de la transcription, une adaptation de ce modèle acoustique est réalisée.
Celle-ci est effectuée en ajoutant plusieurs centaines d’énonciations (phrases et mots) de l’horloge.
Le vocabulaire utilisé étant un ensemble fini de 69 mots, il est très aisé de constituer le dictionnaire
phonétique mettant en correspondance les mots et phonèmes. Enfin, on définit un modèle de
3. Sphinx-4 : www.cmusphinx.sourceforge.net
4. LIUM (outils et ressources) : www-lium.univ-lemans.fr
langage spécifique aux phrases prononcées par l’horloge parlante (en l’occurrence une grammaire)
comme suit :
grammaire = ([au quatrième top, il sera exactement] x heures y minutes [z secondes])*
(2)
avec x, y et z des entiers naturels satisfaisant : x ∈ [0; 23], y ∈ [0; 59] et z ∈ {10, 20, 30, 40}. Ce
système de transcription sous contrainte doit être suffisamment robuste pour traiter les horloges
parlantes de 1965 et de 1991. Pour cette dernière, une alternance de deux voix (une féminine et
une masculine) étant observée, des échantillons de chacune ont été ajoutés à ceux collectés pour
l’horloge de 1965.
Les premiers résultats obtenus ont cependant montré que la retranscription des heures était
délicate pour l’horloge parlante de 1965 (qui est celle majoritaire dans les enregistrements de
l’Ina). En effet, il semble à l’écoute que les bandes de films parlants utilisées par l’Observatoire de
Paris pour énoncer les heures sont moins intelligibles que celles pour les minutes. En particulier,
les attaques sur les consonnes dentales (le [d] de « dix-sept heures » par exemple) sont très peu
marquées. Une explication qui peut être avancée est que, sur une journée, la bande audio utilisée
pour les heures passe 2.5 fois plus que celle des minutes, ce qui expliquerait une usure plus
rapide. En effet, chaque minute est énoncée 5 fois par heure (au cours de la minute courante) et
cela pour les 24 heures de la journée (120 énonciations/jour). Chaque heure est elle énoncée 5
fois par minute et ce pour chaque minute de l’heure courante (300 énonciations/jour).
Afin d’améliorer les scores de reconnaissance, 24 nouveaux mots, composés de la concaténation
du chiffre et de l’heure (zero_heure, une_heure, etc.), ont été créés. La grammaire et le dictionnaire
acoustique ont été eux aussi adaptés. Les taux de reconnaissance ont ainsi pu être réhaussés.
Malheureusement, les résultats obtenus restent bien souvent sujets à contenir des erreurs et
incomplets (puisque certaines énonciations ne permettent pas d’obtenir de transcription avec un
niveau de confiance suffisant). En effet, les pistes audio contenant l’horloge parlante sont très
souvent bruitées, rendant la transcription délicate. Il s’agit alors d’utiliser le caractère déterministe
de l’horloge parlante pour corriger les omissions et erreurs de transcription.
4
Détection de ruptures
Afin de corriger la transcription, la première étape consiste à identifier les ruptures temporelles
dans le cas où plusieurs programmes auraient été enregistrés consécutivement (bout-à-bout).
Pour ce faire, nous exploitons la cohérence temporelle. En effet, à l’intérieur d’un bloc temporel
cohérent les énonciations « au quatrième top » sont espacées d’exactement 60 secondes. Ainsi, la
continuité temporelle est assurée si pour " petit (0.25 secondes dans notre cas) on a :
au quatrième top
|t i
au quatrième top
mod60 − t i+1
mod60| ≤ "
(3)
Avec t le temps de l’énonciation en secondes, i un entier naturel tel que i ∈ [1; N − 1] et N le
nombre de fois que la phrase « au quatrième top » est transcrite pour un enregistrement donné.
On fait ainsi l’hypothèse que, pour deux blocs temporels consécutifs, il est impossible d’avoir
deux enregistrements de l’horloge exactement synchrones.
Si l’équation 3 n’est pas vérifiée, une rupture est détectée et un nouveau bloc temporel est déclaré.
En pratique, il s’agit de s’assurer de la robustesse de la détection de rupture dans le cas où la
phrase de référence « au quatrième top » n’a pas été transcrite correctement. Cela peut-être réalisé
relativement facilement à l’aide d’hypothèses simples. Il est par exemple possible de stipuler
qu’un bloc temporel a une durée minimale de 3 minutes, ce qui se vérifie empiriquement dans
les programmes archivés par l’Ina sur ces types de supports.
5
Correction de la transcription
Une fois obtenus une transcription brute des énonciations de l’horloge parlante et un découpage
en blocs temporels cohérents, il est possible de proposer une correction du flux de parole transcrit.
En effet, comme cela a été évoqué à la section 3, l’élocution de l’horloge parlante présente des
particularités spécifiques : le vocabulaire utilisé est particulièrement réduit et, à l’intérieur d’un
bloc temporel, le discours est parfaitement déterministe.
Il s’agit donc d’effectuer une optimisation sous contrainte en exploitant la cohérence syntaxique.
Les contraintes à satisfaire sont les données de transcription et l’enchaînement chronologique
des séquences au sein d’un bloc temporel. Par conséquent, il faut trouver pour les heures et
les minutes la séquence la plus probable. Ces deux séquences sont liées. Ainsi, un changement
d’heure implique un passage de 59 à 0 minute et vice versa. Enfin, pour ce qui est des secondes
nous faisons le choix de replacer celles-ci a posteriori dans la transcription corrigée (la précision
attendue étant de l’ordre de la minute).
La Figure 3 propose un schéma du processus de décodage de l’horloge parlante comme il a été
décrit jusqu’ici. De plus, un exemple d’alignement de séquence la plus probable est donné pour
une transcription automatique bruitée et incomplète.
Création d’un
dictionnaire et
d’une grammaire
Sélection du
canal de
l’horloge
Transcription
automatique de
la parole
Adaptation d’un
modèle
acoustique
12h
???
??h
12h
18h
??h
12h
12h
[…]
??m
13m
16m
???
???
??m
14m
14m
10s
20s
???
40s
10s
???
30s
Identification
des ruptures et
correction
12h
12h
12h
12h
12h
12h
12h
12h
[…]
13m
13m
13m
13m
14m
14m
14m
14m
10s
20s
30s
40s
10s
20s
30s
FIGURE 3: Schéma récapitulatif du processus de décodage de l’horloge parlante sur les documents
Ina. La correction est effectuée par optimisation des contraintes imposées par la transcription.
L’avantage de forcer un alignement de la séquence déterministe la plus probable est que celle-ci
permet le très simple calcul d’une probabilité d’obtenir cette séquence. Il est ainsi aisé de produire
pour chaque bloc l’équivalent d’une valeur de confiance sur les heures et sur les minutes proposées.
La probabilité d’avoir la séquence des heures corrigée dans le bloc temporel i se calcule donc
comme suit (et de façon équivalente pour les minutes) :
Piheure =
Nb de fois que l’heure transcrite est identique à celle proposée dans la correction
Nb total d’énonciations d’heures attendues dans le bloc i
(4)
6
Résultats expérimentaux
Comme cela a été présenté dans la section 2, la détection du canal sur lequel l’horloge parlante
est enregistrée se fait par évaluation d’une différence de proportion de silence entre les canaux
gauche et droit d’un enregistrement stéréo. L’analyse d’un corpus de 900 émissions, dont il est
connu qu’entre un tiers et la moitié contiennent un enregistrement de l’horloge, présente un saut
très marqué (en pointillés rouges sur la Figure 4a).
50
60
45
50
40
35
40
30
30
25
20
20
15
10
10
5
0
0
100
200
300
400
500
600
700
800
900
0
P < 15%
5% < P2 < 10%
P > 310%
(a) Tracé de la valeur absolue de la différence (b) Histogramme de la répartition des probabide proportion de silence entre les canaux audio lités P pour les minutes. En bleu, les séquences
pour chaque émission analysée.
correctes et en rouge celles erronées.
FIGURE 4: Identification de valeurs de seuils pour la détection et le décodage de l’horloge parlante.
Par conséquent, un seuillage pour une différence inter-canaux de 5% est effectué et évalué sur
200 fichiers annotés. Le taux de détection sur cet ensemble est de 97%. Les 3% restant étant
constitués d’enregistrements comprenant des canaux muets ou abîmés avec beaucoup de silence.
L’évaluation de la correction de la transcription de l’horloge parlante a été effectuée sur un souscorpus de 26 fichiers (22 avec l’horloge de 1965 et 4 avec celle de 1991). La Table 1 regroupe les
les résultats obtenus. On peut remarquer que les ruptures temporelles sont toutes correctement
détectées et que les taux d’erreurs sur les heures et les minutes sont de l’ordre de 8%.
entité détectée
ruptures
heures
minutes
erreurs
0/30 (0.0%)
4/56 (7.1%)
5/56 (8.9%)
TABLE 1: Résultats de détection de ruptures (30 au total) ainsi que de correction de transcription
des séquences pour les heures et minutes à l’intérieur de chaque bloc temporel (56 au total).
Ces derniers taux s’avèrent trop élevés pour le traitement de plusieurs dizaines de milliers d’heures
de programmes. Il est donc crucial de calculer des probabilités d’exactitude des séquences d’heures
et de minutes obtenues pour chaque bloc temporel (voir section 5). La Figure 4b montre un
histogramme des probabilités obtenues sur les 56 blocs temporels des 26 émissions traitées
pour les séquences de minutes. Il apparaît clairement que la totalité des erreurs présente une
probabilité d’obtenir la séquence inférieure à 10% (et inférieure à 5% pour la grande majorité).
Ainsi, il est possible de trouver un seuil au dessus duquel la décision est quasi-certaine. A l’issu
d’un traitement massif, un opérateur pourra par la suite effectuer une validation manuelle des
blocs temporels pour lesquels les probabilités de séquences sont faibles.
7
Conclusion et perspectives
Cet article propose une méthode simple utilisant des techniques de traitement de la parole et du
signal pour la détection et le décodage d’enregistrements de l’horloge parlante. Il s’agit là d’un
enjeu de taille pour les gestionnaires d’archives comme l’Institut national de l’audiovisuel (Ina)
puisque de la fin des années 1970 jusqu’au début des années 1990 un horodatage des programmes
archivés a été effectué par un enregistrement de l’heure courante. Ainsi, en filigrane, le lecteur
peut appréhender l’évolution des pratiques d’indexation au cours des dernières décennies.
Les résultats de l’étude montrent que de très bonnes performances peuvent être atteintes ce qui
va permettre la mise en œuvre prochaine d’une chaîne de traitement pour les dizaines de milliers
d’heures de programmes concernées par l’enregistrement de l’horloge parlante. Il sera à cette
occasion intéressant d’évaluer l’évolution des taux d’erreur en fonction de l’année d’enregistrement
pour proposer, le cas échéant, une correction adaptée. Enfin, une fois obtenues plusieurs versions
des énonciations des heures et minutes constituant l’intégralité d’une journée, des méthodes de
corrélation par audio template matching (Gaudard et al., 2007) pourront éventuellement être
testées, améliorant ainsi les coûts calculatoires.
Remerciements
Les auteurs souhaitent remercier Pascal Flard, Jean-Michel Rodes et Jean Varra de l’Institut
national de l’audiovisuel pour leur aide précieuse.
Références
BACHIMONT, B. (1998). Bibliothèques numériques audiovisuelles. Des enjeux scientifiques et
techniques. Document numérique, 2:219 – 242.
DELÉGLISE, P., ESTÈVE, Y., MEIGNIER, S. et MERLIN, T. (2005). The LIUM speech transcription
system : a CMU Sphinx III-based system for french broadcast news. In International Speech
Communication Association, Lisbon, Portugal.
GAUDARD, C., ARADILLA, G. et B OURLARD, H. (2007). Speech recognition based on template
matching and phone posterior probabilities. Rapport technique, IDIAP.
SAHA, G., CHAKROBORTY, S. et SENAPATI, S. (2005). A new silence removal and endpoint
detection algorithm for speech and speaker recognition applications. In National Conference on
Communications, Kharagpur, India.
WALKER, W., LAMERE, P., KWOK, P., RAJ, B., SINGH, R., GOUVEA, E., WOLF, P. et WOELFEL, J.
(2004). Sphinx-4 : A flexible open source framework for speech recognition. Rapport technique
TR-2004-139, Sun Microsystems.