Traducción automática. Técnicas y aplicaciones

Transcription

Traducción automática. Técnicas y aplicaciones
Traducción automática. Técnicas y aplicaciones
Isabel Cuadrado Gutiérrez
David Ferrer Figueroa
Ingeniería de Telecomunicación
Universidad Carlos III de Madrid
Ingeniería de Telecomunicación
Universidad Carlos III de Madrid
[email protected]
[email protected]
ABSTRACTO
en día en todo tipo de lenguas hace que sea más que necesaria la
mecanización de la traducción.
En este texto se aborda un tema de gran relevancia en la
actualidad, el concepto de la traducción automática. Se analizará
esta desde su origen hasta la actualidad, tratando la evolución de
las distintas técnicas empleadas para obtener la mayor calidad
posible en las traducciones.
La traducción supone todo un reto para los seres humanos dado
que no tenemos el mismo dominio en ambas lenguas, pero el
hecho de intentar que todo el proceso de traducción lo lleve a cabo
un sistema automatizado se convierte en un trabajo todavía más
complejo.
Asimismo, se hace un breve repaso a las aplicaciones más
utilizadas y al desarrollo futuro previsto en este campo teniendo
en cuenta, entre otros factores, la rentabilidad del negocio y la
calidad de la traducción.
Categorías y descripciones
I.2.6.g [Computing Methodologies]: Machine learning
I.2.7.f [Computing Methodologies]: Machine translation
Términos generales
Documentación, Algoritmos, Teoría
Palabras clave
Inteligencia artificial, Traducción automática, algoritmo de
corpus.
1. INTRODUCCIÓN
Desde el origen de los tiempos, el hombre, como ser social, ha
necesitado comunicarse con otras personas. Si bien en un
principio el entorno del ser humano era restringido, conforme ha
ido avanzando el tiempo, el hombre ha ido expandiendo su área de
acción, lo cual le supone un problema cuando ha de hacerlo con
alguien que no habla su misma lengua. Esta necesidad de
comunicación unida a la cantidad de información disponible hoy
Permission to make digital or hard copies of all or part of this work
for personal or classroom use is granted without fee provided that
copies are not made or distributed for profit or commercial advantage
and that copies bear this notice and the full citation on the first page.
To copy otherwise, to republish, to post on servers or to redistribute
to lists, requires prior specific permission and/or a fee.
Copyright © 2011 Isabel Cuadrado Gutiérrez y David Ferrer
Figueroa
Inteligencia en Redes de Comunicación. 2011
Por este motivo, hoy en día uno de los principales objetivos del
ser humano es conseguir que, mediante el uso de tecnología, se
puedan pasar las palabras habladas y escritas en una lengua a otra
sin perder información por el camino ni decir cosas diferentes a
las del texto original.
Uno de los pioneros en dar a conocer la traducción automática
fue Warren Weaver que además de introducir este concepto
sugirió algunos métodos para encarar la disciplina como son el
uso de técnicas criptográficas, los análisis estadísticos, la
exploración de la lógica subyacente, la aplicación de los teoremas
de Shannon. Los primeros desarrollos informáticos se realizaron a
finales de la década de 1950 pero no se obtuvieron los resultados
que se esperaba.
En la actualidad, no hay ningún sistema capaz de obtener
resultados de igual calidad que un traductor humano.
Especialmente, si la traducción se realiza sobre un texto de
lenguaje común o coloquial. Nadie ha sido capaz hasta ahora, ni
empleando el mejor programa que hay en el mercado, de ofrecer
la fluidez y habilidad que nos proporcionan los nativos de un
idioma y los traductores humanos. No nos cansaremos de reiterar
lo complicada que puede llegar a ser la traducción, debido en gran
medida a que el significado de las palabras depende siempre del
contexto en el que se formulan.
Todos los traductores de los que disponemos en la red hacen que
en la gran mayoría de ocasiones la traducción se haga inteligible
entre otros motivos porque realizan mal las puntuaciones, tienen
errores gramaticales, desplazan las palabras y son bastante
imprecisos. La deficiencia con la que cuentan algunos sistemas en
cuanto a traducciones se refiere es tal que sólo son capaces de
traducir algunas palabras o frases hechas como ocurre por ejemplo
con algunos sistemas de reservas de vuelos.
Se ha observado sin embargo, que cuando se pretende realizar una
traducción entre dos lenguas que no tienen raíces comunes (como
por ejemplo el español y el alemán) la calidad de la traducción
empeora mucho en comparación con la que se consigue
traduciendo entre lenguas de raíces afines (por ejemplo, las
lenguas romances: Español, portugués, francés, etc.).
Se ha comprobado que uno de los factores más importantes para
obtener una traducción de alta calidad, es el grado de
especialización, ya que cuanto más especializado esté el sistema al
tipo de texto y vocabulario que se pretende traducir mejor será la
calidad del texto obtenido.
Así pues, un sistema especializado en traducir cotizaciones en
bolsa produce traducciones muy buenas, incluso para lenguas que
no son afines. Sin embargo, esta idea no se puede aplicar a
campos como la medicina.
La traducción es un proceso más tedioso de lo que parece ya que
con sustituir todas las palabras por su significado correspondiente
no es suficiente, tenemos que tener en cuenta otra gran cantidad
de factores como son el orden en que aparecen las palabras, la
influencia que tienen unas sobre las otras, el contexto en el que
son escritas, etc. Esto es debido a que todos los idiomas cuentan
con tres factores fundamentales en las construcciones de oraciones
como son la morfología de las palabras, la sintaxis de las frases y
la semántica, un texto por muy sencillo que parezca puede contar
con palabras o frases ambiguas.
Sin embargo, hoy en día existen métodos estadísticos que
traducen textos sin tener en cuenta la gramática, pero la tendencia
actual es aplicar todas las metodologías a lo que llamamos corpus
lingüísticos.
2. HISTORIA:
La idea de la traducción automática se remonta al siglo XVII. En
1629, René Descartes ya propuso un lenguaje universal, con ideas
equivalentes en otras lenguas que compartiesen un mismo
símbolo.
En el siglo XIX, Jean-François Champollion consiguió, tras
muchos intentos fallidos, descifrar los jeroglíficos egipcios a
través del primer texto bilingüe conocido, la Piedra Rosetta. Esta
piedra es un fragmento de una estela egipcia que contiene un
mismo texto escrito en tres lenguas distintas: Egipcio demótico,
antiguos jeroglíficos egipcios, y griego antiguo.
La idea de utilizar ordenadores para traducir idiomas fue
propuesta en 1946 por A.D. Booth entre otros.
En la década de 1950, se llevó a cabo el conocido como
“Experimento de Georgetown”, donde se tradujeron exitosamente
más de cincuenta frases del inglés al ruso. Este experimento
supuso un punto de inflexión en esta área de trabajo, y también el
comienzo de una época dorada en el campo, donde se invirtió una
gran cantidad de dinero.
En 1954, en el Birkbeck College (Universidad de Londres) se
consiguió realizar una traducción muy básica entre el francés y el
inglés usando la máquina APEXC. Otro ejemplo, fue la lectura y
escritura de textos Braille por ordenador.
Por aquel entonces se esperaba que la traducción automática fuese
un problema resuelto en unos 4 o 5 años. Pero la realidad fue muy
diferente, y conforme se observaba que los frutos obtenidos no
eran los esperados, la financiación dedicada a esta área se fue
reduciendo notablemente.
Por aquel entonces, la traducción automática se realizaba casi por
completo mediante sistemas basados en reglas. Como su nombre
indica, estos sistemas de traducción requerían de expertos en
lingüística que formasen los diccionarios de ambos lenguajes
teniendo en cuenta tanto reglas gramaticales como sintácticas. Por
ejemplo, que en español los adjetivos siguen al nombre y en inglés
es al revés. No obstante, la gran complejidad de los idiomas, con
todas sus variantes, hacía que los sistemas resultantes se
encontrasen muy lejos de una traducción de calidad.
Con los avances tecnológicos propios de la década de los 80, se
consiguió abaratar y aumentar la potencia de los ordenadores, y
esto permitió a los expertos centrar su investigación en otros
modelos de traducción, los llamados modelos estadísticos. Desde
entonces, los investigadores han ajustado sus algoritmos
basándose en esta metodología.
Otro momento de gran importancia en el campo sucedió con el
boom de Internet. Desde entonces han salido a la luz ingentes
cantidades de textos iguales en diversos idiomas. Este hecho ha
permitido los sistemas comparar muchos más textos y conseguir
traducciones mejores.
Sin embargo, prácticamente desde que se comenzó a trabajar en
este aprendizaje máquina, ha habido diversidad de opiniones
acerca de si una máquina podrá ser capaz algún día de producir
traducciones de texto con una gran calidad. Si bien grandes
expertos en el área consideran este objetivo como imposible, y
relegan el papel de la traducción automática a una herramienta
para el traductor humano, otros creen que en un futuro sí será
posible automatizar las traducciones con una calidad óptima
3. TRADUCCIÓN AUTOMÁTICA
Este subcampo de la lingüística computacional investiga el uso de
programas para traducir texto o voz entre dos idiomas. [1]
Imagen 1. Piedra Rosetta
Para poder descifrarla, Champollion tuvo que buscar patrones
entre los textos, símbolos repetidos y posteriormente encontrar su
significado.
Existen diferentes aproximaciones para traducir lenguajes. La
aproximación más sencilla consiste en cambiar directamente
palabras provenientes de un lenguaje en palabras de otro. Sin
embargo, este método puede inducir a una mala traducción,
puesto que en muchas ocasiones, la información que prima se
basa en el contexto y la frase en las que se encuentra la palabra a
traducir.
Una manera de solventar el problema anterior consiste en situar el
contenido a traducir en el contexto del que proviene. Así, se
pueden acotar los posibles significados del texto y sus
traducciones. Por ello, muchos programas hoy en día permiten
focalizar la búsqueda en función de las profesiones o de los
campos a los que va dirigido el texto.
No obstante, la ayuda de las personas sigue siendo muy útil (y
necesaria en muchos casos) para obtener mejores resultados en la
traducción. Por ejemplo, si se le indica al sistema que palabras del
texto son nombres propios, acrónimos, o palabras en general que
no se deben traducir, el traductor puede ofrecer resultados más
precisos.
destino. Sin embargo, esta representación se puede dividir en
diversos niveles según su profundidad: Se pueden traducir todas
las palabras independientemente de las demás, o bien, se puede
crear una interlingua, donde existe una representación intermedia
completa. En la Imagen 2 se puede observarlas aproximaciones
basadas en diccionario (color rojo), en transferencia (color verde)
e interlingua (color azul).
4. COMPONENTES DE UN SISTEMA DE
TRADUCCIÓN AUTOMÁTICA
La traducción automática puede dividirse en tres fases principales.
Primero el sistema tiene que analizar la entrada en el lenguaje
original para crear una representación interna. Entonces,
normalmente se manipula esta representación interna para
transferirla a una forma adecuada del lenguaje destino.
Finalmente, genera la salida en el lenguaje de destino.
Normalmente, un sistema de traducción automática contiene
componentes de análisis, transferencia y generación. Estos
componentes incorporan un gran conocimiento de las palabras
(conocimiento léxico) y del lenguaje (conocimiento lingüístico).
Este conocimiento es almacenado en uno o más lexicones y
posiblemente en otras fuentes de conocimiento lingüístico, como
gramáticas. La interfaz de usuario es invariablemente una parte
crucial de la mayoría de los sistemas de traducción automática. La
interface permite a los usuarios verificar, desambiguar y si es
necesario, corregir la salida del sistema. Otra característica común
dentro del procesamiento de lenguaje natural es el uso de grandes
“corpora” (plural de “corpus”). Un corpus es una gran colección
de texto que ha sido correctamente etiquetada, y se emplea para
adquirir el conocimiento léxico y lingüístico requerido.
El lexicón es un componente importante de cualquier sistema de
traducción automática Contiene toda la información relevante
acerca de palabras y frases que se requiere para los distintos
niveles de análisis y generación. Una entrada típica del lexicon
para una palabra contendría la siguiente información acerca de la
palabra: La parte de discurso, las variantes morfológicas, las
palabras típicas, frases o construcciones típicas que acompañan a
esta palabra, algún tipo de información semántica acerca de la
palabra e información acerca del equivalente de la palabra en el
lenguaje de destino. Algunos sistemas prefieren dividir el lexicón
en lexicones de fuente, destino y transferencia que enlaza los otros
dos. El formato exacto de los lexicones depende del diseño
ingenieril.
5. TIPOS DE TRADUCCIÓN
AUTOMÁTICA
5.1 Basada en reglas
Este es el método inicial explicado anteriormente; consiste en
dividir el texto original en fragmentos, y convertir estos
fragmentos en partes del texto en el lenguaje de destino.
El proceso a seguir en este tipo de traducciones es el siguiente:
Primero, se crea una representación simbólica del texto y
posteriormente se pasa de esa representación al lenguaje de
Imagen 2. Modelos de traducción automática basados en
reglas
5.1.1 Basada en diccionario
Se basa en el uso de entradas de diccionario. Esto quiere decir que
se hará una traducción directa palabra por palabra, que por lo
general, carece de relación con las palabras colindantes.
Si bien esta técnica es la más rudimentaria, es válida para la
traducción de listas de frases (ej. Frases incompletas o catálogos
sencillos de productos y servicios).
También se puede utilizar para facilitar la traducción manual si la
persona a cargo de la traducción tiene un elevado nivel de
comprensión en ambos idiomas, y por lo tanto, es capaz de
corregir errores de sintaxis y gramática.
En la Imagen 3, se puede apreciar un ejemplo de un mal uso de la
traducción basada en diccionario.
Este proceso se va ampliando hasta que implica a una parte de
texto suficientemente grande.
Los resultados proporcionados por este método son muy buenos,
aunque sin embargo, conlleva un elevado coste computacional por
todas las iteraciones que son necesarias para traducir un texto.
Sin embargo, como contrapartida, es muy sencillo ampliar la
traducción a nuevos idiomas, ya que al no precisar de un lenguaje
intermedio, la traducción se realiza únicamente con diccionarios y
un corpus apropiado.
5.3 Basada en corpus
La traducción automática realizada en base a un corpus lingüístico
consiste en el análisis de textos lingüísticos con sus respectivas
traducciones. Podemos diferenciar entre dos tipos de mecanismos
que emplean los corpus como son los basados en métodos
estadísticos y los basados en ejemplos. Para comprender el
funcionamiento de ambos métodos que explicaremos a
continuación hay que tener claros los conceptos siguientes:
Imagen 3. Traducción basada en diccionario
5.1.2 Basada en transferencia:
Este método tiene en cuenta que para poder realizar
adecuadamente una traducción es necesario tener una
representación intermedia que sea capaz de entender el significado
de la frase original y así, poder producir la traducción adecuada.
Normalmente, se sigue el siguiente patrón a la hora de realizar una
traducción basada en transferencia: Primero se analiza el texto de
entrada sintáctica y morfológicamente para crear la representación
interna. Posteriormente, se genera la traducción desde esta
representación interna empleando vocabulario y reglas
gramaticales.
Esta
técnica
produce
resultados
aproximadamente un 90% de los casos.
satisfactorios
en
5.1.3 Basada en un lenguaje intermedio:
En este caso, también se considera necesario emplear un lenguaje
intermedio para realizar la traducción. Sin embargo, ahora este
lenguaje tiene una importancia mucho mayor, es la interlingua. El
lenguaje original,
es convertido a esta interlingua que
estructuralmente, es independiente de ambos lenguajes (origen y
destino). Finalmente, el texto traducido se obtiene desde esta
interlingua.
5.2 Basada en contexto:
Este método emplea técnicas que buscan la mejor traducción
posible para cada una de las palabras basándose en su contexto
(palabras colindantes). Así pues, el texto se divide en ventanas de
unas pocas palabras, y se busca la traducción idónea para cada una
de las palabras, desechando todas las acepciones que no tienen
sentido dentro de la ventana utilizada.
- Corpus bilingüe paralelo: Es la selección de un texto original y
de su traducción en otra lengua, colocado todo de forma natural
sin haber realizado ningún análisis ni separación.
- Corpus bilingüe alineado: Es la selección de un texto original y
de su traducción en otra lengua colocada siguiendo algún tipo de
orden pudiendo éste ser realizado por palabras, frases o párrafos.
- Alineamiento: Este término se define como la acción de
identificar en dos textos en idiomas diferentes, qué partes de uno
de ellos (párrafos, frases, palabras) se corresponden con las del
otro.
5.3.1 Traducción automática estadística
El empleo de técnicas estadísticas en la traducción automática
cuenta con defectos y virtudes como suele ocurrir con muchos
aspectos hoy en día. Un beneficio destacable es el poder conseguir
que un sistema aprenda a traducir gracias a una inmensa cantidad
de ejemplos de los que se realiza su traducción previamente.
Asimismo, este hecho hace a su vez que se vean los importantes
defectos que van a arrastrar estos sistemas de traducción, como
son la necesidad de disponer de estos corpus y el hecho de que el
sistema obtenido es muy sensible al sistema de entrenamiento
utilizado.
Debido a este motivo se han obtenido resultados bastante
satisfactorios cuando se emplea traducción estadística en campos
restringidos de traducción que están especializados en un lenguaje
determinado, por el contrario cuando el traductor sale de este
campo y abarca un ámbito de lenguaje más coloquial, predominan
todavía los sistemas que se basan en conocimiento.
Los sistemas de traducción estadísticos parten de lo que se conoce
como corpus bilingüe. Para que se entienda mejor el concepto, un
ejemplo de corpus bilingüe sería por ejemplo los subtítulos de una
película.
Posteriormente, se desplaza esta ventana una posición (palabra), y
se repite el proceso anterior. Como se puede observar, una sola
palabra se traduce en varias ocasiones hasta obtener un resultado
óptimo.
El proceso comienza con la obtención de un corpus bilingüe, y
una vez que se dispone de éste, se pasa al proceso de alineación.
La finalidad de la alineación del corpus es crear una
correspondencia entre las palabras de un idioma y otro, y es en
este punto donde la estadística empieza a ser importante.
Finalmente, se amplían las ventanas para que las frases, o el texto
en general tengan también significado, y se hace otra búsqueda.
Para hacernos una idea de cómo va a funcionar el sistema
imaginemos que tenemos dos textos iguales en dos idiomas
diferentes. Si nos ponemos a compararles oración por oración nos
damos cuenta de que ciertas palabras en uno de ellos siempre se
corresponden con otras en el otro texto. Por ejemplo, si en todas
las oraciones inglesas de un texto en las que aparece la palabra
“boy” vemos que la versión en español tiene la palabra “niño”
relacionaríamos una con la otra obteniendo su traducción.
Del mismo modo en esta etapa el sistema observa muchos pares
de oraciones escritos en dos idiomas diferentes, siendo unas
traducciones de las otras y a partir de lo que observa construye
asociaciones entre palabras. Para lograr buenas asociaciones es
necesario observar muchas oraciones, ya que con una única
oración sin saber nada del idioma es imposible determinar con
certeza el significado de algunas palabras, así podemos decir que
cuanto más grande sea el corpus con más certeza crearemos
asociaciones.
Una vez completado el alineamiento de todos los pares de
oraciones, buscamos entre nuestras asociaciones las que encajan
en nuestra oración realizando así la traducción.
Sin embargo, utilizando únicamente estas asociaciones no siempre
es posible traducir de forma correcta una oración, ya que por
ejemplo podemos encontrarnos con palabras que muestran
ambigüedades como por ejemplo la palabra “ganar” en una
sentencia en inglés puede ponerse como “win”,”gain”,”get” y no
sabemos cuál de todas es la correcta para nuestra oración.
Imagen 4. Ejemplo de corpus basado en frases
Posteriormente, se continua alineando al nivel de palabras: Para
cada par de oraciones del corpus paralelo, se enlazan las palabras
de la oración fuente con las palabras de la oración destino.
Finalmente se realiza la extracción de frases bilingües,
entendiendo estas como la unión de dos frases tal que no exista un
enlace entre alguna de las palabras de la frase bilingüe y una
palabra que esté fuera de la misma:
Por ello en la traducción automática estadística se emplean dos
modelos: el de traducción y el de lenguaje. Con estos modelos
podremos puntuar a las posibles traducciones eligiendo finalmente
a la que tenga mayor puntuación. Con el modelo de traducción
puntuamos lo bien que está traducida una palabra, mientras que
con el modelo de lenguaje puntuamos lo bien que está escrita la
traducción.
Estos modelos no son los únicos que participan en el cálculo de la
traducción, existen varios dependiendo del paradigma de
traducción que se siga. El que nos vamos a centrar en explicar es
el basado en frases, para ello nuestro corpus tiene que estar
alineado a nivel de oraciones de forma que tendremos dos
documentos con el mismo número de oraciones tal y como se
muestra a continuación:
Imagen 5. Ejemplo de extracción de frases bilingües
En este ejemplo se puede ver que la frase bilingüe “This will”“Este será” no es válida, pues el enlace “be”-“será” asocia una
palabra dentro de la frase con una fuera. De esta forma serán
válida frases como “This will be”-“será”, “will be”- “será”,
“interesting”-“interesante”,
“interesting
example”-“ejemplo
interesante”, "This will be an interesting example”-“Este será un
ejemplo interesante”.
Una vez extraídas todas las frases de todos los pares de oraciones
del corpus podemos calcular el modelo de traducción. Ésta técnica
de traducción parte de la definición de un modelo estadístico en el
que se trata de estimar la probabilidad de que, dadas dos frases
cada una en un idioma, una sea la traducción de la otra, y así
poder decidir cómo de buena es una traducción para una frase
determinada; todo esto a partir de funciones y cambios
estadísticos.
Este modelo de traducción junto con el de lenguaje (que también
basándose en funciones estadísticas estimará la probabilidad de
que una traducción ya realizada sea la más adecuada para ese
texto en concreto y esté hecha de forma correcta) intentarán
conseguir una traducción con la mejor calidad posible.
5.3.2 Traducción basada en ejemplos
La idea en la que se fundamenta la traducción basada en ejemplos
tal y como su nombre indica, es realizar las traducciones a partir
de ejemplos similares a las oraciones que se pretenden traducir y
de los cuáles ya conocemos su traducción. Se precisa contar con
una gran cantidad de corpus bilingües alineados para obtener estos
ejemplos de traducciones y almacenarlos en bases de datos para
que resulte más fácil encontrarlos a partir de las palabras que
contienen los ejemplos.
Además, hay que tener en cuenta otro concepto dentro de la
traducción basada en ejemplos, las memorias de traducción. Al
igual que en el caso de los ejemplos, las memorias de traducción
buscan en el corpus bilingüe frases similares a las que se quiere
traducir en un momento determinado y se mira cómo se tradujo
dicha frase tomándola como ejemplo. El traductor podrá emplear
esta información como referencia una vez la haya encontrado.
La forma de llevar a cabo la traducción de un sistema basado tanto
en ejemplos como en memorias se realiza de la siguiente forma:
en primer lugar se introduce al sistema el texto del que queremos
obtener la traducción, seguidamente el sistema le divide en
unidades de texto buscando en la base de datos aquellos ejemplos
que se asemejan a nuestras unidades. Si la traducción se basa en
memorias, el sistema extrae todos los ejemplos que encuentra
proporcionándoselos a un traductor humano que será el encargado
de construir las frases adecuadas Sin embargo si la traducción
está basada en ejemplos, no hay intervención humana en el
proceso realizándose todo el proceso por el sistema automatizado
que se arriesga a tomar las decisiones que producirán el texto de
salida.
A la hora de realizar la búsqueda de los ejemplos, hay que tener
cuidado con la longitud de las unidades de texto elegidas para
realizar dicha búsqueda dado que si establecemos segmentos con
una longitud muy pequeña podemos encontrarnos con demasiados
problemas de ambigüedad que en muchos casos provocarían que
el sistema se confundiese en sus decisiones al realizar la
traducción.
Actualmente muchos sistemas basados en ejemplos funcionan
utilizando la oración como unidad de texto, pero cabe destacar
que para explotar la capacidad con la que cuentan estos sistemas
debemos emplear unidades más pequeñas que la oración y así a
partir de ellas, realizando combinaciones, producir oraciones
completas.
5.4 Traducción híbrida
Estas técnicas aprovechan los puntos fuertes de las metodologías
basadas en reglas y estadística.
Actualmente varias empresas dedicadas a la traducción
automática (Asia Online, LinguaSys, Systran, PangeaMT, UPV)
afirman tener sistemas híbridos de este tipo.
Se pueden distinguir dos variantes principales dentro de esta
metodología:
6. DESAMBIGUACIÓN EN LA
TRADUCCIÓN
La desambiguación consiste en encontrar la traducción correcta
cuando hay varias traducciones posibles. Este problema fue
enunciado en la década de 1950 por Yehoshua Bar-Hillel. Él
indicaba que sin una enciclopedia universal, una máquina nunca
sería capaz de distinguir entre dos significados de una misma
palabra.
Hoy en día existen numerosas aproximaciones diseñadas para
paliar este problema. Pueden dividirse en someras y profundas.
Las aproximaciones someras asumen que no hay un conocimiento
del texto. Simplemente aplican métodos estadísticos a las palabras
que rodean a la palabra ambigua para obtener el resultado mejo.
Las aproximaciones profundas sin embargo, pre asumen un
conocimiento comprensivo de la palabra.
Sin embargo, a día de hoy, las aproximaciones someras han
demostrado dar mejores resultados en las traducciones.
Grandes expertos en el mundo de la traducción (como Claude
Piron, que fue traductor para las Naciones Unidas y la
Organización Mundial de la Salud), indican que la traducción
automática, como mucho, será capaz de automatizar la parte más
sencilla del trabajo de un traductor; sin embargo, la parte más
costosa y que consume mayor cantidad de tiempo, tendrá que
seguir siendo realizada por una persona cualificada, ya que
normalmente implica hacer una investigación extensa para
resolver ambigüedades en el texto de origen.
Para poder realizar esta investigación a un nivel tan profundo sería
necesario que el software de traducción emplease también parte
de sus recursos a buscar la desambiguación correcta. Sin embargo,
esto requiere un nivel de desarrollo en Inteligencia Artificial que
no se ha alcanzado aún.
7. SERVICIOS DE TRADUCCIÓN
AUTOMÁTICA
Si bien, como se ha indicado anteriormente, ningún sistema de
traducción hoy en día es capaz de producir una traducción
perfecta en campos que no se encuentren restringidos, hay una
gran variedad de sistemas automáticos que producen resultados
muy notorios.
A continuación vamos a nombrar sólo dos de estas aplicaciones.
No obstante, para mostrar el gran impacto que tiene este mercado,
y la cantidad de empresas que hay, mostramos en la siguiente
tabla, una comparación entre las empresas más importantes y el
número de lenguajes en los que traducen.
5.4.1 Reglas de post-procesado por las estadísticas
Las traducciones son realizadas utilizando un motor basado en
reglas. Posteriormente se emplean reglas estadísticas en un intento
de ajustar o corregir la salida del motor de reglas.
5.4.2 Estadísticas guiadas por reglas:
Las reglas se utilizan para preprocesar los datos, en un intento de
orientar mejor el motor estadístico. Las reglas son empleadas
también en el post-proceso de la producción estadística para
realizar funciones tales como la normalización. Este enfoque tiene
mucho más poder, flexibilidad y control cuando se traduce.
Tabla 1. Número de idiomas disponibles por empresa
Compañía
Número de idiomas
Asia Online
77
Google Translate
65
WorldLingo
43
PROMT
43
Apertium
42
Systran
36
Systran
36
7.1 Systran
Systran es una de las empresas más antiguas en traducción
automática. Fue fundada por el Dr. Peter Toma en 1968 y ha
trabajado durante muchos años para el departamento de defensa
de los Estados Unidos de América y para la Comisión Europea.
En un origen, basó sus métodos de traducción en reglas, aunque
posteriormente ha ido migrando a memorias de traducción (corpus
paralelos).
Hoy en día es una de los sistemas más utilizados aunque muchas
veces el cliente lo desconoce. Este sistema se encuentra integrado
en aplicaciones como en el traductor de textos de los ordenadores
que emplean el sistema operativo Mac OS X, en el traductor
online de Yahoo!, Yahoo! Babel Fish, y fue también utilizado por
el buscador Google hasta 2007.
7.2 Google translate
Posiblemente es una de las aplicaciones más conocidas para
traducir textos hoy en día. Esta herramienta de uno de los gigantes
de Internet, Google, proporciona traducción automática entre 65
idiomas (Si bien, entre muchos de ellos se realiza una traducción
intermedia al inglés). Para lograrlo, el sistema busca rápidamente
en Internet de entre la gran cantidad de textos ya traducidos que
existen, aquella combinación de palabras que proporciona un
resultado mejor. El sistema empleado para la traducción es
estadístico, y por tanto, su misión no es fragmentar y reunir las
frases para obtener el significado, sino que proporciona un
resultado obtenido tras analizar los textos equivalentes más
probables. Las fuentes de datos provienen en la mayoría de los
casos de traducciones humanas: Desde textos clásicos hasta
obras modernas. En el primer caso los resultados son muy
interesantes, pero cuando se enfrenta a nuevos textos, en muchos
casos, Google Translate se pierde en la intención, el contexto real
y el estilo.
8. PROBLEMAS EN LA TRADUCCIÓN
AUTOMÁTICA
La traducción automática en sí misma es un problema difícil por
dos motivos principalmente: El primero es que los lenguajes
naturales son muy ambiguos. Esta ambigüedad se da en todos los
niveles (tanto léxico, sintáctico, semántico como pragmático).
Una palabra of rase puede tener más de un significado. Decidir el
significado adecuado en cada momento es crucial para hacer un
análisis correcto. El segundo motivo es que cuando los humanos
emplean el lenguaje natural, emplean a la vez una enorme
cantidad de sentido común, y conocimiento acerca del mundo, que
les ayuda a resolver la ambigüedad. Conseguir que la traducción
automática consiga el mismo conocimiento del mundo en un
contexto sin restricciones requiere de un gran esfuerzo.
9. INVESTIGACIÓN ACTUAL Y
RENTABILIDAD DE LA TRADUCCIÓN
AUTOMÁTICA
Las investigaciones llevadas a cabo hoy en día en los sistemas de
traducción automática están centradas en especial en la búsqueda
y mejora de técnicas de aprendizaje máquina para adquirir el
significado de las palabras y la gramática de forma automática.
Estas tareas necesitan emplear inmensas cantidades de corpora y
aplicar técnicas estadísticas como por ejemplo redes neuronales
para obtener correlaciones en el corpus. Los corpora que se
emplean en estas investigaciones pueden ser para un único idioma
o bien pueden ser corpora bilingües alineados, que tal y como se
ha comentado con anterioridad se trata de textos traducidos en dos
lenguas y ordenados haciendo corresponderse ciertas partes del
texto origen con el texto destino.
Las memorias de traducción son otra línea de investigación hoy en
día. Consisten en recordar automáticamente las traducciones
completas de frases o expresiones comunes para evitar procesarlas
repetitivamente.
Actualmente, hay gran actividad en el mundo de la traducción
automática en Japón y la Unión Europea, y por extensión en
EEUU.
Todavía se continuará investigando hasta que se obtenga un
sistema de traducción que, desde el punto de vista lingüístico y
comercial, sea rentable. Como hemos comentado ya a lo largo del
trabajo los sistemas han sido útiles y rentables cuando nos
centramos en campos y ciencias específicas de un grupo, por ello
se está tendiendo a realizar sistemas que se basan en lo que
denominaríamos sublenguajes como entre otros podemos
encontrar, el jurídico, el científico, el médico, el filosófico, etc.
Estos sublenguajes no requieren traducciones de calidad elevada y
pueden resultar muy valiosos para las personas que desempeñen
actividades dentro de estos campos. La traducción resultará más
sencilla haciendo estas subdivisiones dado que el vocabulario será
más reducido y la sintaxis está más limitada, ya que son lenguajes
con formas fijadas, más estáticos, abundan en ellos fórmulas y
suelen estar sometidos a controles permanentes.
Un ejemplo claro de lo que acabamos de exponer es el de Meteo,
un programa que desde el año siguiente a su instalación (1977) ha
estado produciendo partes meteorológicos para el servicio
meteorológico de Canadá diariamente. En la actualidad, podemos
hablar de unos resultados tan buenos como son que el programa
traduzca alrededor de 37.000 palabras diarias con un 90%.de
precisión.
Resultados como los obtenidos con un sistema como es Meteo
hacen que se pueda demostrar lo rentable que resulta la traducción
automática en algunos casos, a pesar de que para otros ámbitos
todavía no lo sea., como ocurre con el lenguaje espontáneo,
coloquial que se resiste a una formalización precisa y a ajustarse a
reglas gramaticales, hechos que resultan necesarios para la
obtención de una buena traducción. De esta forma, tendremos que
esperar para ver buenos resultados en lo que al lenguaje común se
refiere por lo que de momento sólo podemos hablar de traductor
como un complemento de ayuda al ser humano.
10. CONCLUSIONES
Podemos concluir que el desarrollo de los sistemas de traducción
ha sido posible gracias a dos hechos importantes que les han
favorecido claramente: en primer lugar la explosión de
información al alcance de todo el mundo y en idiomas diferentes
de lo cual el gran culpable es Internet y en segundo lugar la
globalización. Esto significa que hay una enorme necesidad de
comunicación y de hacerse con información la cuál debe estar
disponible en diversos idiomas para que pueda ser accesible a
todo el mundo
Sólo basta con fijarse en las cifras para hacerse una idea de la
valía que tiene el mercado de la traducción automática hoy en día;
se estima que a nivel mundial vale casi 10.000 millones de euros.
Hemos comprobado que los sistemas encargados de traducir por
ejemplo grandes obras literarias (como puede ser El Quijote) se
encuentran aún muy alejados de obtener una traducción de buena
calidad, pero por el contrario aquellos que traduzcan partes
meteorológicos, textos técnicos, etc. tienen un peso importante
hoy en día para la sociedad.
El mayor problema con el que cuentan todavía los sistemas de
traducción radica en la calidad que se obtiene tras la realización
de la traducción. Aún tenemos que recortar distancias entre el
producto obtenido y la verdadera traducción, porque aunque cada
vez vayamos imitando mejor la labor que lleva a cabo un
traductor humano, todavía nos queda un largo camino que recorrer
para igualarlo.
[5] Rao, Durgesh D. (1998)
Machine translation: A gentle introduction.
ISSN: 0971-8044
[6] Jos Hallebeek
“El corpus paralelo”. Universidad de Nijimegen. Nederlands
[7] José A. Troyano
“Alineación de textos y traducción automática”. ITALICA.
Universidad de Sevilla
[8] Petra Prochäzková (2006)
“Fundamentos de la lingüística del corpus. Concepción de
los corpus y métodos de investigación con corpus”.
[9] Andreas Eisele (2007)
11. REFERENCIAS
[1] Wikipedia
http://es.wikipedia.org/wiki/Traduccion_automatica
[2] Cohen, J.M., "Translation", Encyclopedia Americana, 1986,
vol. 27, pp. 12–15.
[3] Wikipedia
http://es.wikipedia.org/wiki/Piedra_de_Rosetta
[4] Hutchins, W. John; and Harold L. Somers (1992). An
Introduction to Machine Translation. London: Academic
Press. ISBN 0-12-362830-X.
“Hybrid machine translations: Combining rule-based and
statistical MT systems”. Saarland University & DFKI. LT
Lab.
[10] WIRED
http://www.wired.com/wired/archive/14.12/translate.html
[11] European Association for Machine Translation
www.eamt.org