Alineación del Texto al Habla

Transcription

Alineación del Texto al Habla
Alineación del Texto al Habla
María del Carmen Corisco Beltrán
Javier Dones Luengo
Ingeniería de Telecomunicación
Universidad Carlos III de Madrid
[email protected]
Ingeniería de Telecomunicación
Universidad Carlos III de Madrid
[email protected]
ABSTRACT
En este documento se pretende mostrar qué es
la alineación de texto a imágenes y las posibles
soluciones existentes en la actualidad a este
problema. Además se presentará la solución
que ofrece el programa de alineación WinPitch
Pro. Por último daremos un ejemplo de
aplicación en informativos televisivos.
Términos Generales
Algoritmos, diseño, fiabilidad, factores humanos,
teoría.
Palabras clave
Alineación,
RHA,
estenotipia,
subtítulos
informativos, WinPitch Pro, reconocimiento del
habla, modelo oculto de Markov.
1. INTRODUCCIÓN
Con el creciente uso de la multimedia como
medio para la comunicación surge la necesidad
de representar el sonido de imágenes
multimedia en texto. Esto lo vemos hoy en día
constantemente en videos y televisión, por
ejemplo en los informativos, en los que se hace
transcripciones de lo que cuenta el periodista en
caso en el que las condiciones acústicas no
sean muy buenas, y podemos ver cómo las
transcripciones aparecen al mismo tiempo en el
que se mueven los labios de éste.
También se utiliza en medios audiovisuales para
personas con dificultades auditivas o sordera en
los que podemos ver la imagen y al mismo
tiempo la transcripción de lo que se está
diciendo. O en videos menos profesionales
como conferencias o charlas, que han sido
tradicionalmente transcriptos de forma manual.
Dependiendo del esfuerzo invertido, dichas
transcripciones son perfectas o aproximadas ya
que no en todos los casos las transcripciones
están adecuadas perfectamente a un instante
de tiempo determinado.
Figura 1. Aplicación en la industria de los videojuegos
(SingStar para PlayStation)
Por tanto, ¿en qué consiste la alineación del
texto al habla? Lo que busca es asignar a un
archivo de sonido, textos previamente escritos o
en formato electrónico mediante punteros
bidireccionales que unen los segmentos de
sonido con los de texto.
Existen varias aproximaciones en cuanto al
desarrollo de sistemas de subtitulado en tiempo
real se refiere que van desde la estenotipia,
hasta los sistemas de subtitulado asistidos por
motores de reconocimiento automático del habla
(RAH).

Estenotipia
La estenotipia es un método de escritura
rápida que precisa un teclado llamado
máquina de estenotipia. Con este aparato se
pueden ejecutar pulsaciones con una o más
teclas presionadas simultáneamente.
Existen diversos sistemas de estenotipia, que
básicamente se dividen en manuales,
informatizados y mezcla de ambos. La
escritura resultante muestra letras alfabéticas
en caracteres de imprenta sobre una tira de
papel. La más usada actualmente es la
estenotipia informatizada que permite la
grabación digital de texto y sonido.

Reconocimiento
(RAH)
automático
del
habla
El Reconocimiento Automático del Habla
(RAH) o Reconocimiento Automático de Voz
es una parte de la Inteligencia Artificial (IA)
que tiene como objetivo permitir la
comunicación hablada entre seres humanos y
computadoras electrónicas. El problema que
se plantea en un sistema de RAH es el de
hacer cooperar un conjunto de informaciones
que provienen de diversas fuentes de
conocimiento (acústica, fonética, fonológica,
léxica, sintáctica, semántica y pragmática), en
presencia de ambigüedades, incertidumbres y
errores inevitables para llegar a obtener una
interpretación aceptable del mensaje acústico
recibido.
En la actualidad, podemos contar con diversos
métodos para la alineación de texto al habla que
van desde el uso de sistemas parcialmente
asistidos por operadores humanos o sistemas
que hacen uso de locutores en la sombra, hasta
sistemas que tratan de obtener una
transcripción total del audio sin ningún tipo de
asistencia humana.
2. LA ALINEACIÓN DEL TEXTO
AL
HABLA
DE
FORMA
AUTOMÁTICA
La alineación de discurso al texto escrito
establece una relación biunívoca entre las
unidades del habla y unidades de texto. En su
puesta en práctica más simple, cada unidad de
texto (como por ejemplo la sílaba, la palabra, el
sintagma o la sentencia u oración) reciben un
índice de tiempo correspondiente a la posición
de tiempo en el archivo. Cuando este proceso
es alcanzado, un operador puede seleccionar
una unidad alineada de texto y escuchar el
segmento de discurso correspondiente. Al
mismo tiempo podremos lograr representar el
análisis acústico del programa mediante un
espectrograma y una curva melódica.
Figura 2. Segmentación de un archivo de audio en sus
correspondientes fonemas
2.1. Segmentación del Habla
La mayoría de los estudiantes de la fonética
experimental son capaces de segmentar
sonidos del habla con precisión, con las señales
visuales representadas por el análisis acústico.
Por ejemplo consonantes fricativas y silencios
son rasgos fácilmente reconocibles. Sin
embargo las consonantes y vocales puede ser
más difícil de segmentar ya que se
corresponden exactamente con unidades de
fonética y fonológica, mientras que los
elementos de la señal del habla se definen
como identidades acústicas.
En realidad en muchos casos no se puede
asemejar las unidades de texto a unidades
fonéticas, por ello la alineación y la
segmentación
sólo
pueden
considerarse
aproximaciones, por lo que los plazos limitados
físicos de segmentos de discurso deben ser
colocados en algún sitio durante las transiciones
articulatorias de fonemas.
Figura 3. Reglas de
sustitución de fonemas
no especificadas que se
demuestran similares
2.2. Alineación Automática mediante
el Modelo Oculto de Márkov
Los métodos automáticos o no automáticos para
la alineación del habla al texto utilizan
algoritmos usados en el reconocimiento vocal a
menudo basado en parámetros obtenidos por un
Modelo Oculto de Márkov aplicado a los datos
de discurso.
Un modelo oculto de Márkov (también conocido
por sus siglas en inglés HMM, Hidden Markov
Model) es un modelo estadístico que asume un
proceso de Márkov de parámetros desconocidos
a la hora de modelar el sistema. El objetivo que
se va a perseguir va a ser determinar estos
parámetros a partir de los parámetros
observables. Los parámetros que se deducen,
se pueden llevar a cabo en análisis sucesivos
de aplicaciones de reconocimiento de patrones.
La diferencia fundamental que existe con un
modelo de Márkov normal es que en los últimos,
el estado es visible directamente para el
observador, siendo por tanto las probabilidades
de transición entre estados los únicos
parámetros del sistema. En cambio, en los
modelos ocultos de Márkov, el estado no es
visible directamente, sino que sólo lo son las
variables influidas por el estado, teniendo cada
estado una distribución de probabilidad sobre
los posibles estados de salida. Gracias a esto,
la secuencia de símbolos que se consiguen con
este modelo proporciona información fiable
acerca de la secuencia de estados del sistema.
Aparte de en el text speech alignment, los
modelos ocultos de Márkov encuentran
aplicación en sistemas de reconocimiento de
habla, etiquetado gramatical...
fuentes de discurso constituyen problemas
difíciles para este proceso.
Figura 5. Errores de alineación en métodos automáticos
debido al reconocimiento de voz
3. LA ALINEACIÓN DEL TEXTO
AL HABLA DE FORMA NO
AUTOMÁTICA
Todas las desventajas que hemos presentado
en los apartados anteriores debido al uso del
reconocimiento de voz para conseguir la
alineación, nos hacen ver que va a ser
necesario contar con recursos humanos. Es
decir, vamos a necesitar un operador que se
encargue de solucionar todos estos problemas.
Existen dos formas distintas de alinear de
manera semiautomática dependiendo de si el
texto está preescrito o no:
Figura 4. Ejemplo de modelo oculto Márkov
Aunque atractivos, los sistemas basados en el
reconocimiento vocal automático sufren las
mismas limitaciones que el reconocimiento
vocal: probabilidad de error alta (entre el 15 % y
el 20 %) y dificultad de entrenar el sistema con
las voces. Además, los resultados serán buenos
sólo si la relación señal a ruido es
suficientemente grande y si las voces (los votos)
para alinear, no se diferencian demasiado de los
modelos con los que solía entrenar el algoritmo.
La superposición del discurso constituye desde
luego un caso muy difícil para estos sistemas.
2.3 Alineación Automática por
Síntesis.
Otro método automático se basa en la
comparación de las variaciones espectrales de
la señal a lo largo del tiempo con otra señal de
discurso que contiene el texto a alinear (Malfrère
y Dutoit, 2000). La ventaja aquí se deriva del
hecho que es más fácil alinear espectros
sucesivos sobre dos escalas de tiempo distintas.
Sin embargo los límites de este acercamiento
son similares a aquellos del empleo de la
alineación con modelos de Markov: la baja
relación señal a ruido, las variaciones en el tipo
de voz debidas a los modelos usados en el
proceso de síntesis y la superposición de
 Si el texto no está preescrito, para empezar
debemos escribir el texto y segmentar el
discurso en secuencias. Durante este
proceso, una base de datos guarda
automáticamente el texto introducido.
 Si el texto ya ha sido preescrito, se va a
mostrar en una ventana dinámicamente
mientras el fonema correspondiente es
puesto en una velocidad lenta (que puede
ser ajustado continuamente sobre la
marcha). En cada identificación de una
unidad de discurso para segmentar y alinear
(sea una sílaba, una palabra, el sintagma, la
sentencia u oración), el operador pulsa con
el ratón de ordenador sobre el segmento de
texto percibido. El programa registra la
posición del cursor sobre la ventana de texto
(que define el final del segmento de texto
para alinear) y el tiempo del chasquido
(trazando un mapa de nuevo sobre la
verdadera escala de tiempo de la onda de
discurso).
Este
proceso
genera
continuamente una base de datos de
indicadores que unen los segmentos de
texto y segmentos de discurso.
Además vamos a poder depurar los límites
de los segmentos mediante técnicas como
retroceder y adelantar, mostrándose las
variaciones en un espectrograma.
4. WINPITCH PRO
Existen una serie de instrumentos de software
conocidos y extensamente usados que hacen
que los experimentos tradicionales fonéticos del
laboratorio se consideren obsoletos.
WinPitch Pro es uno de estos instrumentos
recién diseñados, que utiliza motores de análisis
de discurso muy fiables.
Fue diseñado en 1996 con el fin de reducir las
operaciones manuales y así obtener un
programa de facilidad de uso.
Se trata de un programa software innovador que
ayuda a la alineación en corporaciones grandes.
Es un método fácil que precisa las unidades
desde la sílaba hasta la frase mediante un
almacenamiento jerárquico de los datos
alineados.
El programa se basa en la vinculación visual y
selección mediante un clic de ratón de un
segmento de texto con su correspondiente
sonido del habla. De esta forma se consigue
generar punteros bidireccionales definiendo así
la alineación.
La grabación de discurso con WinPitch Pro
permite el análisis en tiempo real y la
demostración de las curvas de prosódica junto
con su correspondiente espectrograma. Esto
permite conseguir una supervisión muy exacta
de las grabaciones, permitiendo al usuario no
sólo ajustar el nivel de entrada a un valor
óptimo, sino también mejorar la posición en la
captura de sonidos (micrófonos, etc.) mientras
se visualiza en la pantalla en tiempo real. Con
este mecanismo, la presencia de ecos y fuentes
ruidosas pueden ser fácilmente descubiertas y
corregidas. Además es un programa de fácil
instalación.
En el modo de transcripción de discurso, sólo el
de sonido está disponible.
Una serie de funciones integradas permiten
realizar operaciones muy rápidas para la
transcripción en cualquier fuente Unicode
disponible. El usuario puede mejorar el archivo
de sonido definiendo los segmentos de discurso
a una velocidad reducida para facilitar su
percepción auditiva y transcripción.
Para realizar esta segmentación se establece
una relación biunívoca entre las unidades de
expresión y de texto de forma que a cada
unidad de texto (sílaba, palabra o frase) le
corresponde un instante de tiempo determinado
definido por el archivo de sonido.
Conforme se realiza la segmentación, se
construye una base de datos que contiene el
texto y las posiciones de tiempo de cada
segmento. Esta base de datos se puede guardar
en formato .xml y en excel, para crear un
interfaz con otros programas informáticos.
Figura 7. La transcripción de texto puede usar cualquier
fuente Unicode disponible además de un conjunto de
símbolos
4.2. La Alineación del Texto
4.1. La Transcripción del Texto
Una vez que el texto ha sido transcrito y está
disponible en formato electrónico podemos
comenzar con la alineación con el archivo de
sonido mediante una serie de indicadores
bidireccionales que unen los segmentos de texto
con los segmentos de sonido. De esta forma se
permite al usuario pulsar sobre el último
elemento del segmento de texto y mostrarlo
mientras es percibido (la tarifa de velocidad de
repetición
lenta
permite
la
percepción
simultánea y sincrónica del sonido y la
colocación del cursor de pantalla). El programa
automáticamente almacena un indicador
bidireccional entre el texto y el sonido para
establecer la alineación.
Una vez que los datos de discurso han sido
capturados, la transcripción de texto y la
alineación ya está prácticamente hecha.
Tal y como describimos en el apartado 2, este
procedimiento tiene enormes ventajas sobre
métodos automáticos basados en el empleo de
Figura 6. Análisis espectrográfico
reconocimiento vocal: es insensible a la calidad
de la grabación del sonido, y desde luego no
requiere de ningún tipo de datos de
entrenamiento.
En realidad los problemas inherentes al
reconocimiento automático son pasados al
operador humano, mientras el reconocimiento
de voz básico, para que se realice de forma
eficiente, debe ser una tarea individual para
cada uno de los oradores.
Además, los problemas que provienen de la
presencia de ruido de fondo, o de segmentos de
varios oradores hablando de forma simultánea,
muy común en ambientes de discurso
espontáneo, también son controlados por esta
herramienta.
4.3. La Navegación
Una vez que la alineación del texto ha sido
realizada, navegar a través del archivo de
sonido es sumamente fácil. Simplemente
pulsando sobre una palabra o una secuencia de
palabras, el usuario puede acceder a los
segmentos
circundantes
y analizar
su
correspondiente acústico en ese instante de
tiempo mediante el espectograma y la gráfica de
intensidad de oscilación.
mostrando al usuario la onda sonora en una
escala de tiempo definida.
4.4. Análisis Fundamental de
Frecuencias
El análisis de Prosodic requiere la frecuencia
fundamental confiable que rastrea algoritmos,
asegurando la lectura exacta y la demostración
de valores de fo en una amplia gama de
frecuencias. Por esta razón, WinPitch Pro
incluye cinco motores de análisis de frecuencia
fundamentales que pueden ser activados a
escala global sobre el archivo entero de sonido,
o en una parte del archivo o segmento para un
tiempo definido: AMDF, Spectral Comb, Spectral
brush, Autocorrelation and Selected Harmonics
Comb.
El modo Spectral Comb, es robusto en cuanto al
ruido incluso cuando otras fuentes como
instrumentos musicales están presentes con el
fonema. Su robustez esencialmente se debe al
empleo de toda la información armónica del
espectro (la frecuencia y la intensidad).
Además contiene métodos de rastreo como,
parámetros para el estudio de la armonía
conservada. Es el usuario el encargado de
configurar cada uno de los parámetros sobre el
archivo entero de sonido o sobre segmentos
seleccionados.
El método Spectral Brush es de carácter
experimental, y utiliza la propiedad de la no
determinación para el cálculo de la frecuencia
fundamental para ello se encarga de separar los
armónicos de los diferentes instrumentos
musicales del archivo de sonido.
Esta característica nos permite el análisis en el
mundo musical de grabaciones de diferentes
cantantes.
Figura 8. Después de la alineación del texto al discurso, se
crea una base de datos automáticamente, permitiendo al
usuario rápidamente recuperar y analizar los segmentos de
discurso con sólo pulsar sobre el texto
Lo mismo ocurre cuando el usuario selecciona
una palabra entera, un sintagma o una frase u
oración:
sus
segmentos
de
sonido
correspondientes son analizados y suenan
automáticamente.
La disposición de los segmentos en el caso de
sonidos simultáneos, esto es, cuando tenemos
una conversación espontanea en la que hay
varios oradores, ya está hecha en el análisis del
discurso.
Otras herramientas de navegación permiten
realizar un zoom sobre la ventana de
navegación con un simple comando de ratón
5. EJEMPLO DE APLICACIÓN:
INFORMATIVOS TELEVISIVOS
El subtitulado de informativos, es una importante
aplicación que puede facilitar el acceso a la
información y la integración de personas sordas
o con dificultades en la audición. Sin embargo,
el subtitulado en tiempo real de programas
emitidos en directo, resulta una aplicación muy
costosa, a la que el desarrollo de sistemas
completamente automáticos puede ayudar a
abaratar.
En este apartado se presenta un método para la
generación de subtítulos en tiempo real de
forma completamente automática y sin la
necesidad de supervisión humana, mediante el
uso de técnicas de reconocimiento automático
del habla. Dicho sistema utiliza los textos de las
noticias obtenidos del sistema informático de
Figura 9. Descripción global del sistema completo que controla los subtitulos de los informativos televisivos
redacción realizando el alineamiento temporal
entre dichos textos y el audio del informativo a
través de un motor de reconocimiento
automático del habla. Los subtítulos generados
por el módulo de RAH (reconocimiento
automático del habla) son enviados al gestor del
teletexto.
5.1. Funcionamiento
En la figura podemos ver un diagrama de
bloques de la aplicación. Cada uno de estos
bloques lo podemos ver como un módulo aparte
independiente del otro, que se comunican a
través del envío de paquetes con TCP/IP,
exceptuando el envío de rótulos al gestor de
teletexto mediante UDP debido a exigencias del
fabricante del equipamiento del teletexto.
El sistema está compuesto por dos partes
diferentes:


Text Retrieval Module (TR) es el módulo
encargado de recoger los textos de las
noticias del sistema informático de la
redacción.
Speech-Text Alignment Module (STA) es el
módulo encargado del alineamiento
temporal entre el audio y los textos
5.1.1. Text Retrieval Module (TR)
El sistema completo cuenta con un sistema de
continuidad que envía indicaciones al comienzo
y al final del programa.
Otro aspecto a tener en cuenta es la colocación
de los subtítulos en pantalla que es controlado
por una rotuladora de forma que no interfiera en
la imagen.
Además hay que darse cuenta de que las
noticias pueden cambiar en tiempo real, por lo
que necesitamos un sistema capaz de cargar el
contenido de cada una de las noticias a partir de
su
subtítulo.
Este
sistema
estará
constantemente
monitorizado
al
sistema
informático de redacción y a las modificaciones
que se produzca como consecuencia de
reconocimiento del habla. De esta forma podrán
modificar los subtítulos en base al cambio de la
noticia.
No todos los cambios permiten modificar los
subtítulos como por ejemplo: el presentador no
diga el texto de la noticia correctamente, que
haya una alteración en el orden de las noticias
no comunicada, que haya un fallo del motor de
reconocimiento, que haya baja calidad de
audio… En consecuencia, se puede perder el
sincronismo.
En estos casos, para que el subtitulado del resto
del informativo se desarrolle correctamente, la
solución pasa por saltar a la siguiente noticia a
subtitular ya que no se cuenta con información
externa fiable.
Por ello es necesario controlar cuál va a ser la
siguiente noticia a subtitular y para ello
contaremos con un detector de noticias basado
en reconocimiento del habla.
Una segunda medida de seguridad para
garantizar el correcto seguimiento del orden de
las noticias se basa en un atributo de las
noticias dentro del sistema informático de la
redacción. Este atributo cambia de estado (de
CUED a PLAY) cada vez que una noticia que
contenga una pieza de vídeo pasa a ser la
siguiente en entrar. En ese caso, el sistema
pasa a considerarla como la siguiente noticia a
subtitular. Lamentablemente no todas las
noticias cuentan con dicho atributo y el cambio
en dicho atributo puede producirse incluso antes
de que la noticia anterior haya finalizado por lo
que el empleo de este mecanismo de control
debe restringirse a una medida de segundo
orden para el caso en el que el detector de
noticias no haya funcionado adecuadamente.

Programas de televisión, informativos,
conferencias, charlas... en donde se
busque la comprensión por parte de
personas que tengan dificultades
auditivas o sordera.

Ayuda a la comprensión en situaciones
de alto nivel de ruido (por ejemplo
pantallas de televisión en estaciones
de metro).

Videojuegos
y
programas
de
entretenimiento tales como karaokes
disponibles para videoconsolas. En
este caso cabe destacar videojuegos
como SingStar o Lips, en los que existe
una sincronización perfecta entre la
aparición del texto subtitulado de la
canción con la música de fondo del
vídeo.
5.1.2. Speech-Text Alignment Module (STA)
Consiste en un sistema de modelos ocultos de
Márkov continuos (continuos HMM) con
unidades acústicas contextuales donde cada
unidad está modelada con una mezcla de
gaussianas (GMM) de 16 componentes. El
audio empleado es digitalizado a 16 KHz con 16
bits por muestra.
Por otro lado, tras la recepción del texto de cada
noticia, se genera una gramática de estados
finitos a la que se le añaden redes de fonemas
tras cada pausa y al comienzo de la noticia. El
motivo de utilización de la red de fonemas es
que en ocasiones las noticias contienen vídeos,
declaraciones de personajes o locuciones del
reportero de las que no se tiene el texto. En
estos casos, los reporteros que preparan la
noticia, marcan el lugar de inserción de los
fragmentos sin texto asociado de manera que
durante esos pasajes no se enviarán subtítulos
al no contar con el texto asociado. De este
modo, la red de fonemas será la encargada de
modelar acústicamente estos trozos del
informativo evitando que la gramática generada
con el texto de la noticia progrese
erróneamente.
6. CONCLUSIONES
El campo de investigación del alineamiento de
voz y texto (o text speech alignament) es un
área de investigación bastante poco explorada
en la actualidad, pero que está empezando a
contar con investigaciones más profundas y
rigurosas, lo cual está llevando a la aparición de
soluciones software que abordan las distintas
problemáticas que presenta (WinPitch Pro entre
otros).
Por tanto, nos encontramos ante un área nueva
con múltiples aplicaciones para mejorar la
comprensión por parte de todo el mundo en
situaciones muy diversas que supone un gran
reto para mejorar las prestaciones de las
soluciones ya existentes.
7. REFERENCIAS
[1] Modelos de Márkov
http://es.wikipedia.org/wiki/Modelo_oculto_de
_M%C3%A1rkov
[2] WinPitchPro Philippe Martin
http://www.iscaspeech.org/archive/sp2004/sp04_545.pdf
[3] An HMM-based system for automatic
segmentation and alignment of speech. Kåre
Sjölander
http://www.speech.kth.se/prod/publications/fil
es/908.pdf
Asimismo, se han tratado de exponer diversas
técnicas de resolver el problema, entre las que
destacan principalmente dos: la alineación
automática del texto al habla (empleando
modelos ocultos de Márkov, o bien alineación
automática por síntesis) y la alineación del texto
de forma no automática.
[4] Subtitulado en tiempo real de informativos
en directo para la televisión mediante
reconocimiento del habla. Universidad de
Zaragoza.
http://www.cesya.es/estaticas/amadis09/Doc
umentos/Sesion1-5.pdf
Como se ha dicho anteriormente, encontramos
múltiples aplicaciones en muy diversos
escenarios:
[5] Manual de usuario WinPitch
http://www.winpitch.com/GuideWinPich/WPL
TLguide.htm

Documents pareils