Title: EBMT ExampleBased Machine Translation TABE Traduccin Automtica Basada en Ejemplos
1EBMT Example-Based Machine TranslationTABE
Traducción Automática Basada en Ejemplos
- Ralf Brown
- Adaptación y traducción Ariadna Font Llitjós
- Mayo 8 de 2002, Temuco, Chile
2Indice
- Traducción Automática Basada en Ejemplos
- Generalizando TABE
- Generalización Automática
- Traducción con multiples sistemas (multi-engine)
- Lo que funciona mejor
3El Paradigma TABE
- La lista de ejemplos contiene oraciones en la
lengua de origen alineadas con las traducciones
correspondientes en la lengua de destino. - Dada una oración en la lengua de origen, se busca
en la lista de ejemplos si hay alguna ejemplo que
sea exactamente el mismo que la nueva oración, si
la encuentra, el resultado es la traducción
alineada con ella, si no, se trata de - encontrar subpartes que sean identicas a partes
de las oraciones de origen en la lista de
ejemplos lo más largas posibles y - de concatenar el texto alineado dentro de la
oración
4(No Transcript)
5Equivalencia (matching) simple
- La forma más simple de traducción en TABE es
encontrar la misma oración que se quiere traducir
en la lista de ejemplos (alineada con la
traducción correspondiente) - Una vez halladas todas las oraciones exactas (las
palabras solas no se aparejan), se intenta
encontrar la parte de la oración traducida
correspondiente a la oración original mediante
una alineación a nivel de suboración.
6Equivalencia simple (cont.)
- Por ejemplo, la oración
- 200 delegados de la convención en Londres
- seria aparejada completamente con ella misma,
pero solamente con la parte en negrita de esta
otra oración - 57 delegados de la convención en Paris
- Si este proceso no produce una alineación
suficientemente satisfactoria, se descarta la
pareja y se prosigue a examinar el siguiente
ejemplo.
7Alineación a nivel suboracional
- Cuando TABE encuentra una ejemplo que es solo
parcialmente identico, hay que determinar que
parte de la traducción se corresponde a la parte
que es igual a la oración que se quiere traducir - 200 delegados se reunieron a puerta cerrada ayer
para hablar sobre la nueva ley de impuestos - Yesterday, 200 delegates met behind closed doors
to discuss the new tax code - 200 delegados se reunieron a puerta cerrada ayer
para hablar sobre la nueva ley de impuestos - Yesterday, 200 delegates met behind closed doors
to discuss the new tax code
8- 200 delegados se reunieron a puerta cerrada ayer
para hablar sobre la nueva ley de impuestos - Yesterday, 200 delegates met behind closed doors
to discuss the new tax code - En este caso, no se puede alinear a nivel de toda
la oración debido a que el orden de las palabras
es diferente
9Clases sintáctica y semánticamente equivalentes
- Las oraciones no siempre tienen que ser identicas
a nivel superficial para poderlas alinear. Muchos
grupos de palabras son completamente
intercambiables, y en este caso se pueden tratar
como identicas. - Por ejemplo, como sabemos que Germany y
France ambos son nombres de paises (asi como
sus correspondientes traducciones), si tenemos la
pareja siguiente en la lista de ejemplos - John went to Germany - Juan se fue para
Alemania - podemos traducir John went to France como
- Juan se fue para Francia
10Tambien es posible crear equivalencias mas
complejas
- Multiples palabras Alemania del Este
- Patrones
- ltnumerogt ltmesgt, ltnumerogt ltfechagt
- lttitulo honorificogtltnombregtltapellidogt ltpersonagt
11Algunas de las clases equivalentes que usa TABE
- Numeros
- Ordinales
- Parte del dia (manana, tarde, noche)
- Meses del ano
- Fechas
- Colores
- Ciudades
- Paises
- Comparativos y superlativos (mayor, menor)
- Unidades de medida
- Unidades de tiempo
- Minerales
- Animales
- etc.
12Substitución de palabras por la clase
correspondiente (tokenization)
- Dadas las clases equivalentes que acabamos de
mostrarles, se reemplaza cada ocurrencia de una
palabra o patron dentro de una clase con el
nombre de la clase (seguida de un numero si es
necesario desambiguar). - Tanto al indexar el corpus de entrenamiento
(lista de ejemplos) como cuando se va a traducir
una nueva oración
13- Por ejemplo, para TABE
- Tres personas tomaron el ascensor hasta el
quarto piso, dos al quinto. - es tratada como
- ltnumerogt1 personas tomaron el ascensor hasta el
- ltordinalgt1 piso, ltnumerogt2 al ltordinalgt2.
- Y para cada una de las quatro substituciones,
- almacenamos la traduccion correspondiente para
- poderla volver a substituir
14Comparación recursiva
- Es posible alcanzar un nivel mayor de
generalización, mas alla de la substitucion,
mediante la comparación recursiva de la oración a
traducir con respecto a la lista de ejemplos
alineados. - Si anotamos ciertos sintagmas en la lista de
ejemplos con su categoria sintactica (SN, SP,
etc.), podemos reemplazar todas las instancias
posteriores de ese sintagma con su categoria
sintactica en la lista de ejemplos alineados, lo
cual nos permite substituirla por cualquier otro
sintagma de la misma categoria en esa posición.
15- Por ejemplo, dadas entradas que indican que todos
los sintagmas siguientes son sintagmas nominales
(SN), - La bola roja
- El libro azul
- Su enorme tractor
- Un diamante pequeno pero perfecto
- podemos substituir el uno por el otro
indistintamente en cualquier parte donde
aparezcan en un ejemplo de traduccion. - Claro que no todas las substituciones posibles en
este - conjunto tienen sentido, semanticamente hablando,
- pero de aparecer en el texto a traducir, el
sistema los - podria procesar.
16Reglas gramaticales
- La comparación recursiva no tiene porque
limitarse a un solo nivel de substitución.
Podemos crear una regla de producción gramatical
que consiste en una pareja de reglas de
producción, una para cada lengua. - Para impedir sobregeneralizar, podemos incorporar
retricciones semanticas o linguisticas a las
reglas de producción mediante el uso adequado de
etiquetas
17- The affordable painters
- the (ltadj-sgt ltadj-pgt) lt nombre-masc-plgt
- ? the ltadj-pgt lt nombre-masc-plgt
- ? ltsn-plgt
- ? ltsn-plgt
- ? los ltnombre-masc-plgtltadj-plgt
- los pintores accesibles
-
-
18- La gramatica que TABE no tiene que ser completa,
unas cuantas reglas simples pueden ser
suficientes. - Todas las partes de los ejemplos (y del input a
traducir) que no estan cubiertas por las reglas
gramaticales se comparan de la manera descrita
anteriormente.
19Ejemplo de reglas gramaticales
- (TOKEN ltN-Mgt (TOKEN ltSN-Mgt)
- libro ltpos-mgt ltN-mgt
- book ltpos-mgt ltN-mgt
- (TOKEN ltSN-Mgt) (TOKEN ltSN-Mgt)
- el ltN-mgt el ltnumerogt ltN-mgt
- the ltN-mgt the ltnumerogt ltN-mgt
- (TOKEN ltSN-Mgt) (TOKEN ltSN-Mgt)
- el ltN-mgt ltadj-mgt el ltN-mgtltadj-mgt1 ltadj-mgt2
- the ltadj-mgt ltN-mgt the ltadj-mgt2ltadj-mgt1 ltN-mgt
20Aplicación de reglas gramaticales
- Las reglas gramaticales se aplican de manera muy
similar a los patrones de substitución. La
diferencia principal es que las reglas no se
aplican de manera incondicional, y que los
patrones de substitución tienen precedencia sobre
las reglas. - Al indexar, busca entradas en el corpus de
ejemplos que se puedan subtsituir (reglas
gramaticales e información morfologica), y
almazena el resultado de subtituir las entradas
por sus etiquetas correspondientes. Se repite
este proceso hasta que no se encuantran mas
candidatos para subtitución.
21- Al traducir, vuelve a buscar en el corpus
entradas etiquetadas que sean identicas y repite
el proceso hasta que no haya mas entradas
identicas. - Hay que mantener todos los resultados
intermedios, y comparar todas las posibilidades
con todos los ejemplos del corpus para efectuar
la traducción correcta. - La bola roja reboto contra el suelo
- Permitiria substituir cualquier combinacion de
las partes de los siguientes patrones (y su input
original) - ltdetgt1ltnombregt1ltcolorgt reboto contra ltdetgt2
ltnombregt2 - ltsngt reboto contra ltsngt
- ltsngt reboto ltspgt
22Generalización Automatica - Agrupación de
palabras
- Objetivo encontrar conjuntos de palabras con
patrones de uso similares - Observaciones
- Agrupación de documentos encuentra conuntos de
documentos con un contenido similar - Las palabras con patriones de uso similar tienen
contextos similares a su alrededor - Solución crear un pseudo-documento para cada
palabra, el contenido es representado por las
palabras de su alrededor, para todas la
ocurrencias? de esa palabra, y agrupar los
pseudo-documentos.
23- Si ya partimos de clases equivalentes (p. ej.
listas de palabras creadas manualmente), estas se
pueden usar como semilla en el proceso de
agrupación. - Ejemplos de agrupaciones automaticas
24- ltCL_1334gt ltCL_1337gt
- sólo only para of
- solamente only para for
- ltCL_1769gt ltCL_1983gt
- razones reasons posibles possible
- cuestiones questions nuevas new
- cuestiones matters diversas various
- cuestiones issues distintas various
- consideraciones considerations distintas differe
nt - ltCL_2189gt ltCL_2416gt
- desarrollo developing político political
- desarrollo countries jurídico legal
- económico economic
- ltCL_9450gt administrativo administrative
- pacífico peaceful
- climático climate
25Multiples traducciones
- Este TABE fue disenado desdel principio para
formar parte de un Sistema de Traducción
Automatica con multiples sistemas (multi-engine). - Puede generar multiples traducciones parciales
(que posiblemente se sobreponen), y dejar vacios
alli donde no encuentra una traducción.
26- El sistema de TA con multiples sitemas (TAMS)
combina las traducciones producidas por TABE con
traducciones producidas por otros sistemas (los
cuales pueden rellenar los vacios que dejo TABE). - La manera de combinar multiples traducciones (de
partes consecutivas de una oracion) es usar un
modelo de lengua de trigramos (1 palabra la
palabra precedente la palabra siguiente) para
la lengua de destino, asi como otros factores,
para suavizar las transiciones entre traducciones
parciales. - Se escoje la mejor traducción de entre todas las
posibilidades
27- Otro factor que tiene en cuenta el modelo de
lenguage del TAMS es el nivel de confianza
asignado a cada traducción por el mismo sistema
de traducción. - En el caso de TABE, este nivel de confianza se
basa en varias heuristicas con pesos, las cuales
tratan de estimar el nivel de corrección de la
alineación (proporción de palabras que se
corresponden de manera unica, la diferencia de
longitud entre la oración de origen y la
traducción, etc.)
28Traducción con multiples sistemas
- Todas las tecnologias de traducción tienen sus
puntos fuertes y sus puntos debiles. Al combinar
de manera inteligente distintas tecnicas, podemos
aprovechar los puntos fuertes de cada sistema y
minimizar los puntos debiles. - Por ejemplo
- Los sistemas basados en conocimiento pueden
alcanzar una cualidad muy elevada, pero solo con
respecto a dominios muy limitados. - Los sistemas basados en ejemplos (TABE) son
generalmente de menor calidad, pero experimentan
una degradación menos rapida a medida que el
texto se aleja del dominio en questión.
29- Si combinamos estos 2 tipos de sistemas, podemos
obtener - ? traducciones de calidad elevada en el dominio
del sistema basado en conocimiento y - ? traducciones de peor calidad (pero mejores
que las que produciria el sistema basado en
conocimiento solo) fuera del dominio
30Lo que funciona mejor
- Para el uso mas efectivo de una cantidad de datos
de entrenamiento determinada - El texto paralelo tiene que ser lo mas diverso
posible. - El texto paralelo tiene que estar alineado a
nivel de la palabra. - Hay que tener un diccionario bilingue con todas
las formas, con categoria sintactica, numero ,
genero , etc. - escribir reglas de substitución simples formando
gramaticas para SN, SV y sintagmas similares,
usando etiquetas que aparezcan en el diccionario
bilingue.
31Texto paralelo rasgos deseables
- un texto de entrenamiento del mismo dominio nos
asegura maxima similaridad - un texto de otro dominio no permite encontrar
tantas partes de las oraciones que se
correspondan a los ejemplos, y las partes son mas
cortas. - un texto de entrenamiento diverso asegura el
maximo numero de patrones de substitución
diferentes - un texto repetitivo solamente proporciona
ejemplos redundantes - una alineación manual a nivel de palabra
asegura una mejor calidad de las traducciones - una alineación automatica a menudo resulta en
fracaso a la hora de alinear y ocasionalemte en
una alineación incorrecta ( y por lo tanto una
mala traducción).
32(No Transcript)