Alineación del Texto al Habla
Transcription
Alineación del Texto al Habla
Alineación del Texto al Habla María del Carmen Corisco Beltrán Javier Dones Luengo Ingeniería de Telecomunicación Universidad Carlos III de Madrid [email protected] Ingeniería de Telecomunicación Universidad Carlos III de Madrid [email protected] ABSTRACT En este documento se pretende mostrar qué es la alineación de texto a imágenes y las posibles soluciones existentes en la actualidad a este problema. Además se presentará la solución que ofrece el programa de alineación WinPitch Pro. Por último daremos un ejemplo de aplicación en informativos televisivos. Términos Generales Algoritmos, diseño, fiabilidad, factores humanos, teoría. Palabras clave Alineación, RHA, estenotipia, subtítulos informativos, WinPitch Pro, reconocimiento del habla, modelo oculto de Markov. 1. INTRODUCCIÓN Con el creciente uso de la multimedia como medio para la comunicación surge la necesidad de representar el sonido de imágenes multimedia en texto. Esto lo vemos hoy en día constantemente en videos y televisión, por ejemplo en los informativos, en los que se hace transcripciones de lo que cuenta el periodista en caso en el que las condiciones acústicas no sean muy buenas, y podemos ver cómo las transcripciones aparecen al mismo tiempo en el que se mueven los labios de éste. También se utiliza en medios audiovisuales para personas con dificultades auditivas o sordera en los que podemos ver la imagen y al mismo tiempo la transcripción de lo que se está diciendo. O en videos menos profesionales como conferencias o charlas, que han sido tradicionalmente transcriptos de forma manual. Dependiendo del esfuerzo invertido, dichas transcripciones son perfectas o aproximadas ya que no en todos los casos las transcripciones están adecuadas perfectamente a un instante de tiempo determinado. Figura 1. Aplicación en la industria de los videojuegos (SingStar para PlayStation) Por tanto, ¿en qué consiste la alineación del texto al habla? Lo que busca es asignar a un archivo de sonido, textos previamente escritos o en formato electrónico mediante punteros bidireccionales que unen los segmentos de sonido con los de texto. Existen varias aproximaciones en cuanto al desarrollo de sistemas de subtitulado en tiempo real se refiere que van desde la estenotipia, hasta los sistemas de subtitulado asistidos por motores de reconocimiento automático del habla (RAH). Estenotipia La estenotipia es un método de escritura rápida que precisa un teclado llamado máquina de estenotipia. Con este aparato se pueden ejecutar pulsaciones con una o más teclas presionadas simultáneamente. Existen diversos sistemas de estenotipia, que básicamente se dividen en manuales, informatizados y mezcla de ambos. La escritura resultante muestra letras alfabéticas en caracteres de imprenta sobre una tira de papel. La más usada actualmente es la estenotipia informatizada que permite la grabación digital de texto y sonido. Reconocimiento (RAH) automático del habla El Reconocimiento Automático del Habla (RAH) o Reconocimiento Automático de Voz es una parte de la Inteligencia Artificial (IA) que tiene como objetivo permitir la comunicación hablada entre seres humanos y computadoras electrónicas. El problema que se plantea en un sistema de RAH es el de hacer cooperar un conjunto de informaciones que provienen de diversas fuentes de conocimiento (acústica, fonética, fonológica, léxica, sintáctica, semántica y pragmática), en presencia de ambigüedades, incertidumbres y errores inevitables para llegar a obtener una interpretación aceptable del mensaje acústico recibido. En la actualidad, podemos contar con diversos métodos para la alineación de texto al habla que van desde el uso de sistemas parcialmente asistidos por operadores humanos o sistemas que hacen uso de locutores en la sombra, hasta sistemas que tratan de obtener una transcripción total del audio sin ningún tipo de asistencia humana. 2. LA ALINEACIÓN DEL TEXTO AL HABLA DE FORMA AUTOMÁTICA La alineación de discurso al texto escrito establece una relación biunívoca entre las unidades del habla y unidades de texto. En su puesta en práctica más simple, cada unidad de texto (como por ejemplo la sílaba, la palabra, el sintagma o la sentencia u oración) reciben un índice de tiempo correspondiente a la posición de tiempo en el archivo. Cuando este proceso es alcanzado, un operador puede seleccionar una unidad alineada de texto y escuchar el segmento de discurso correspondiente. Al mismo tiempo podremos lograr representar el análisis acústico del programa mediante un espectrograma y una curva melódica. Figura 2. Segmentación de un archivo de audio en sus correspondientes fonemas 2.1. Segmentación del Habla La mayoría de los estudiantes de la fonética experimental son capaces de segmentar sonidos del habla con precisión, con las señales visuales representadas por el análisis acústico. Por ejemplo consonantes fricativas y silencios son rasgos fácilmente reconocibles. Sin embargo las consonantes y vocales puede ser más difícil de segmentar ya que se corresponden exactamente con unidades de fonética y fonológica, mientras que los elementos de la señal del habla se definen como identidades acústicas. En realidad en muchos casos no se puede asemejar las unidades de texto a unidades fonéticas, por ello la alineación y la segmentación sólo pueden considerarse aproximaciones, por lo que los plazos limitados físicos de segmentos de discurso deben ser colocados en algún sitio durante las transiciones articulatorias de fonemas. Figura 3. Reglas de sustitución de fonemas no especificadas que se demuestran similares 2.2. Alineación Automática mediante el Modelo Oculto de Márkov Los métodos automáticos o no automáticos para la alineación del habla al texto utilizan algoritmos usados en el reconocimiento vocal a menudo basado en parámetros obtenidos por un Modelo Oculto de Márkov aplicado a los datos de discurso. Un modelo oculto de Márkov (también conocido por sus siglas en inglés HMM, Hidden Markov Model) es un modelo estadístico que asume un proceso de Márkov de parámetros desconocidos a la hora de modelar el sistema. El objetivo que se va a perseguir va a ser determinar estos parámetros a partir de los parámetros observables. Los parámetros que se deducen, se pueden llevar a cabo en análisis sucesivos de aplicaciones de reconocimiento de patrones. La diferencia fundamental que existe con un modelo de Márkov normal es que en los últimos, el estado es visible directamente para el observador, siendo por tanto las probabilidades de transición entre estados los únicos parámetros del sistema. En cambio, en los modelos ocultos de Márkov, el estado no es visible directamente, sino que sólo lo son las variables influidas por el estado, teniendo cada estado una distribución de probabilidad sobre los posibles estados de salida. Gracias a esto, la secuencia de símbolos que se consiguen con este modelo proporciona información fiable acerca de la secuencia de estados del sistema. Aparte de en el text speech alignment, los modelos ocultos de Márkov encuentran aplicación en sistemas de reconocimiento de habla, etiquetado gramatical... fuentes de discurso constituyen problemas difíciles para este proceso. Figura 5. Errores de alineación en métodos automáticos debido al reconocimiento de voz 3. LA ALINEACIÓN DEL TEXTO AL HABLA DE FORMA NO AUTOMÁTICA Todas las desventajas que hemos presentado en los apartados anteriores debido al uso del reconocimiento de voz para conseguir la alineación, nos hacen ver que va a ser necesario contar con recursos humanos. Es decir, vamos a necesitar un operador que se encargue de solucionar todos estos problemas. Existen dos formas distintas de alinear de manera semiautomática dependiendo de si el texto está preescrito o no: Figura 4. Ejemplo de modelo oculto Márkov Aunque atractivos, los sistemas basados en el reconocimiento vocal automático sufren las mismas limitaciones que el reconocimiento vocal: probabilidad de error alta (entre el 15 % y el 20 %) y dificultad de entrenar el sistema con las voces. Además, los resultados serán buenos sólo si la relación señal a ruido es suficientemente grande y si las voces (los votos) para alinear, no se diferencian demasiado de los modelos con los que solía entrenar el algoritmo. La superposición del discurso constituye desde luego un caso muy difícil para estos sistemas. 2.3 Alineación Automática por Síntesis. Otro método automático se basa en la comparación de las variaciones espectrales de la señal a lo largo del tiempo con otra señal de discurso que contiene el texto a alinear (Malfrère y Dutoit, 2000). La ventaja aquí se deriva del hecho que es más fácil alinear espectros sucesivos sobre dos escalas de tiempo distintas. Sin embargo los límites de este acercamiento son similares a aquellos del empleo de la alineación con modelos de Markov: la baja relación señal a ruido, las variaciones en el tipo de voz debidas a los modelos usados en el proceso de síntesis y la superposición de Si el texto no está preescrito, para empezar debemos escribir el texto y segmentar el discurso en secuencias. Durante este proceso, una base de datos guarda automáticamente el texto introducido. Si el texto ya ha sido preescrito, se va a mostrar en una ventana dinámicamente mientras el fonema correspondiente es puesto en una velocidad lenta (que puede ser ajustado continuamente sobre la marcha). En cada identificación de una unidad de discurso para segmentar y alinear (sea una sílaba, una palabra, el sintagma, la sentencia u oración), el operador pulsa con el ratón de ordenador sobre el segmento de texto percibido. El programa registra la posición del cursor sobre la ventana de texto (que define el final del segmento de texto para alinear) y el tiempo del chasquido (trazando un mapa de nuevo sobre la verdadera escala de tiempo de la onda de discurso). Este proceso genera continuamente una base de datos de indicadores que unen los segmentos de texto y segmentos de discurso. Además vamos a poder depurar los límites de los segmentos mediante técnicas como retroceder y adelantar, mostrándose las variaciones en un espectrograma. 4. WINPITCH PRO Existen una serie de instrumentos de software conocidos y extensamente usados que hacen que los experimentos tradicionales fonéticos del laboratorio se consideren obsoletos. WinPitch Pro es uno de estos instrumentos recién diseñados, que utiliza motores de análisis de discurso muy fiables. Fue diseñado en 1996 con el fin de reducir las operaciones manuales y así obtener un programa de facilidad de uso. Se trata de un programa software innovador que ayuda a la alineación en corporaciones grandes. Es un método fácil que precisa las unidades desde la sílaba hasta la frase mediante un almacenamiento jerárquico de los datos alineados. El programa se basa en la vinculación visual y selección mediante un clic de ratón de un segmento de texto con su correspondiente sonido del habla. De esta forma se consigue generar punteros bidireccionales definiendo así la alineación. La grabación de discurso con WinPitch Pro permite el análisis en tiempo real y la demostración de las curvas de prosódica junto con su correspondiente espectrograma. Esto permite conseguir una supervisión muy exacta de las grabaciones, permitiendo al usuario no sólo ajustar el nivel de entrada a un valor óptimo, sino también mejorar la posición en la captura de sonidos (micrófonos, etc.) mientras se visualiza en la pantalla en tiempo real. Con este mecanismo, la presencia de ecos y fuentes ruidosas pueden ser fácilmente descubiertas y corregidas. Además es un programa de fácil instalación. En el modo de transcripción de discurso, sólo el de sonido está disponible. Una serie de funciones integradas permiten realizar operaciones muy rápidas para la transcripción en cualquier fuente Unicode disponible. El usuario puede mejorar el archivo de sonido definiendo los segmentos de discurso a una velocidad reducida para facilitar su percepción auditiva y transcripción. Para realizar esta segmentación se establece una relación biunívoca entre las unidades de expresión y de texto de forma que a cada unidad de texto (sílaba, palabra o frase) le corresponde un instante de tiempo determinado definido por el archivo de sonido. Conforme se realiza la segmentación, se construye una base de datos que contiene el texto y las posiciones de tiempo de cada segmento. Esta base de datos se puede guardar en formato .xml y en excel, para crear un interfaz con otros programas informáticos. Figura 7. La transcripción de texto puede usar cualquier fuente Unicode disponible además de un conjunto de símbolos 4.2. La Alineación del Texto 4.1. La Transcripción del Texto Una vez que el texto ha sido transcrito y está disponible en formato electrónico podemos comenzar con la alineación con el archivo de sonido mediante una serie de indicadores bidireccionales que unen los segmentos de texto con los segmentos de sonido. De esta forma se permite al usuario pulsar sobre el último elemento del segmento de texto y mostrarlo mientras es percibido (la tarifa de velocidad de repetición lenta permite la percepción simultánea y sincrónica del sonido y la colocación del cursor de pantalla). El programa automáticamente almacena un indicador bidireccional entre el texto y el sonido para establecer la alineación. Una vez que los datos de discurso han sido capturados, la transcripción de texto y la alineación ya está prácticamente hecha. Tal y como describimos en el apartado 2, este procedimiento tiene enormes ventajas sobre métodos automáticos basados en el empleo de Figura 6. Análisis espectrográfico reconocimiento vocal: es insensible a la calidad de la grabación del sonido, y desde luego no requiere de ningún tipo de datos de entrenamiento. En realidad los problemas inherentes al reconocimiento automático son pasados al operador humano, mientras el reconocimiento de voz básico, para que se realice de forma eficiente, debe ser una tarea individual para cada uno de los oradores. Además, los problemas que provienen de la presencia de ruido de fondo, o de segmentos de varios oradores hablando de forma simultánea, muy común en ambientes de discurso espontáneo, también son controlados por esta herramienta. 4.3. La Navegación Una vez que la alineación del texto ha sido realizada, navegar a través del archivo de sonido es sumamente fácil. Simplemente pulsando sobre una palabra o una secuencia de palabras, el usuario puede acceder a los segmentos circundantes y analizar su correspondiente acústico en ese instante de tiempo mediante el espectograma y la gráfica de intensidad de oscilación. mostrando al usuario la onda sonora en una escala de tiempo definida. 4.4. Análisis Fundamental de Frecuencias El análisis de Prosodic requiere la frecuencia fundamental confiable que rastrea algoritmos, asegurando la lectura exacta y la demostración de valores de fo en una amplia gama de frecuencias. Por esta razón, WinPitch Pro incluye cinco motores de análisis de frecuencia fundamentales que pueden ser activados a escala global sobre el archivo entero de sonido, o en una parte del archivo o segmento para un tiempo definido: AMDF, Spectral Comb, Spectral brush, Autocorrelation and Selected Harmonics Comb. El modo Spectral Comb, es robusto en cuanto al ruido incluso cuando otras fuentes como instrumentos musicales están presentes con el fonema. Su robustez esencialmente se debe al empleo de toda la información armónica del espectro (la frecuencia y la intensidad). Además contiene métodos de rastreo como, parámetros para el estudio de la armonía conservada. Es el usuario el encargado de configurar cada uno de los parámetros sobre el archivo entero de sonido o sobre segmentos seleccionados. El método Spectral Brush es de carácter experimental, y utiliza la propiedad de la no determinación para el cálculo de la frecuencia fundamental para ello se encarga de separar los armónicos de los diferentes instrumentos musicales del archivo de sonido. Esta característica nos permite el análisis en el mundo musical de grabaciones de diferentes cantantes. Figura 8. Después de la alineación del texto al discurso, se crea una base de datos automáticamente, permitiendo al usuario rápidamente recuperar y analizar los segmentos de discurso con sólo pulsar sobre el texto Lo mismo ocurre cuando el usuario selecciona una palabra entera, un sintagma o una frase u oración: sus segmentos de sonido correspondientes son analizados y suenan automáticamente. La disposición de los segmentos en el caso de sonidos simultáneos, esto es, cuando tenemos una conversación espontanea en la que hay varios oradores, ya está hecha en el análisis del discurso. Otras herramientas de navegación permiten realizar un zoom sobre la ventana de navegación con un simple comando de ratón 5. EJEMPLO DE APLICACIÓN: INFORMATIVOS TELEVISIVOS El subtitulado de informativos, es una importante aplicación que puede facilitar el acceso a la información y la integración de personas sordas o con dificultades en la audición. Sin embargo, el subtitulado en tiempo real de programas emitidos en directo, resulta una aplicación muy costosa, a la que el desarrollo de sistemas completamente automáticos puede ayudar a abaratar. En este apartado se presenta un método para la generación de subtítulos en tiempo real de forma completamente automática y sin la necesidad de supervisión humana, mediante el uso de técnicas de reconocimiento automático del habla. Dicho sistema utiliza los textos de las noticias obtenidos del sistema informático de Figura 9. Descripción global del sistema completo que controla los subtitulos de los informativos televisivos redacción realizando el alineamiento temporal entre dichos textos y el audio del informativo a través de un motor de reconocimiento automático del habla. Los subtítulos generados por el módulo de RAH (reconocimiento automático del habla) son enviados al gestor del teletexto. 5.1. Funcionamiento En la figura podemos ver un diagrama de bloques de la aplicación. Cada uno de estos bloques lo podemos ver como un módulo aparte independiente del otro, que se comunican a través del envío de paquetes con TCP/IP, exceptuando el envío de rótulos al gestor de teletexto mediante UDP debido a exigencias del fabricante del equipamiento del teletexto. El sistema está compuesto por dos partes diferentes: Text Retrieval Module (TR) es el módulo encargado de recoger los textos de las noticias del sistema informático de la redacción. Speech-Text Alignment Module (STA) es el módulo encargado del alineamiento temporal entre el audio y los textos 5.1.1. Text Retrieval Module (TR) El sistema completo cuenta con un sistema de continuidad que envía indicaciones al comienzo y al final del programa. Otro aspecto a tener en cuenta es la colocación de los subtítulos en pantalla que es controlado por una rotuladora de forma que no interfiera en la imagen. Además hay que darse cuenta de que las noticias pueden cambiar en tiempo real, por lo que necesitamos un sistema capaz de cargar el contenido de cada una de las noticias a partir de su subtítulo. Este sistema estará constantemente monitorizado al sistema informático de redacción y a las modificaciones que se produzca como consecuencia de reconocimiento del habla. De esta forma podrán modificar los subtítulos en base al cambio de la noticia. No todos los cambios permiten modificar los subtítulos como por ejemplo: el presentador no diga el texto de la noticia correctamente, que haya una alteración en el orden de las noticias no comunicada, que haya un fallo del motor de reconocimiento, que haya baja calidad de audio… En consecuencia, se puede perder el sincronismo. En estos casos, para que el subtitulado del resto del informativo se desarrolle correctamente, la solución pasa por saltar a la siguiente noticia a subtitular ya que no se cuenta con información externa fiable. Por ello es necesario controlar cuál va a ser la siguiente noticia a subtitular y para ello contaremos con un detector de noticias basado en reconocimiento del habla. Una segunda medida de seguridad para garantizar el correcto seguimiento del orden de las noticias se basa en un atributo de las noticias dentro del sistema informático de la redacción. Este atributo cambia de estado (de CUED a PLAY) cada vez que una noticia que contenga una pieza de vídeo pasa a ser la siguiente en entrar. En ese caso, el sistema pasa a considerarla como la siguiente noticia a subtitular. Lamentablemente no todas las noticias cuentan con dicho atributo y el cambio en dicho atributo puede producirse incluso antes de que la noticia anterior haya finalizado por lo que el empleo de este mecanismo de control debe restringirse a una medida de segundo orden para el caso en el que el detector de noticias no haya funcionado adecuadamente. Programas de televisión, informativos, conferencias, charlas... en donde se busque la comprensión por parte de personas que tengan dificultades auditivas o sordera. Ayuda a la comprensión en situaciones de alto nivel de ruido (por ejemplo pantallas de televisión en estaciones de metro). Videojuegos y programas de entretenimiento tales como karaokes disponibles para videoconsolas. En este caso cabe destacar videojuegos como SingStar o Lips, en los que existe una sincronización perfecta entre la aparición del texto subtitulado de la canción con la música de fondo del vídeo. 5.1.2. Speech-Text Alignment Module (STA) Consiste en un sistema de modelos ocultos de Márkov continuos (continuos HMM) con unidades acústicas contextuales donde cada unidad está modelada con una mezcla de gaussianas (GMM) de 16 componentes. El audio empleado es digitalizado a 16 KHz con 16 bits por muestra. Por otro lado, tras la recepción del texto de cada noticia, se genera una gramática de estados finitos a la que se le añaden redes de fonemas tras cada pausa y al comienzo de la noticia. El motivo de utilización de la red de fonemas es que en ocasiones las noticias contienen vídeos, declaraciones de personajes o locuciones del reportero de las que no se tiene el texto. En estos casos, los reporteros que preparan la noticia, marcan el lugar de inserción de los fragmentos sin texto asociado de manera que durante esos pasajes no se enviarán subtítulos al no contar con el texto asociado. De este modo, la red de fonemas será la encargada de modelar acústicamente estos trozos del informativo evitando que la gramática generada con el texto de la noticia progrese erróneamente. 6. CONCLUSIONES El campo de investigación del alineamiento de voz y texto (o text speech alignament) es un área de investigación bastante poco explorada en la actualidad, pero que está empezando a contar con investigaciones más profundas y rigurosas, lo cual está llevando a la aparición de soluciones software que abordan las distintas problemáticas que presenta (WinPitch Pro entre otros). Por tanto, nos encontramos ante un área nueva con múltiples aplicaciones para mejorar la comprensión por parte de todo el mundo en situaciones muy diversas que supone un gran reto para mejorar las prestaciones de las soluciones ya existentes. 7. REFERENCIAS [1] Modelos de Márkov http://es.wikipedia.org/wiki/Modelo_oculto_de _M%C3%A1rkov [2] WinPitchPro Philippe Martin http://www.iscaspeech.org/archive/sp2004/sp04_545.pdf [3] An HMM-based system for automatic segmentation and alignment of speech. Kåre Sjölander http://www.speech.kth.se/prod/publications/fil es/908.pdf Asimismo, se han tratado de exponer diversas técnicas de resolver el problema, entre las que destacan principalmente dos: la alineación automática del texto al habla (empleando modelos ocultos de Márkov, o bien alineación automática por síntesis) y la alineación del texto de forma no automática. [4] Subtitulado en tiempo real de informativos en directo para la televisión mediante reconocimiento del habla. Universidad de Zaragoza. http://www.cesya.es/estaticas/amadis09/Doc umentos/Sesion1-5.pdf Como se ha dicho anteriormente, encontramos múltiples aplicaciones en muy diversos escenarios: [5] Manual de usuario WinPitch http://www.winpitch.com/GuideWinPich/WPL TLguide.htm