EBMT ExampleBased Machine Translation TABE Traduccin Automtica Basada en Ejemplos PowerPoint PPT Presentation

presentation player overlay
1 / 32
About This Presentation
Transcript and Presenter's Notes

Title: EBMT ExampleBased Machine Translation TABE Traduccin Automtica Basada en Ejemplos


1
EBMT Example-Based Machine TranslationTABE
Traducción Automática Basada en Ejemplos
  • Ralf Brown
  • Adaptación y traducción Ariadna Font Llitjós
  • Mayo 8 de 2002, Temuco, Chile

2
Indice
  • Traducción Automática Basada en Ejemplos
  • Generalizando TABE
  • Generalización Automática
  • Traducción con multiples sistemas (multi-engine)
  • Lo que funciona mejor

3
El Paradigma TABE
  • La lista de ejemplos contiene oraciones en la
    lengua de origen alineadas con las traducciones
    correspondientes en la lengua de destino.
  • Dada una oración en la lengua de origen, se busca
    en la lista de ejemplos si hay alguna ejemplo que
    sea exactamente el mismo que la nueva oración, si
    la encuentra, el resultado es la traducción
    alineada con ella, si no, se trata de
  • encontrar subpartes que sean identicas a partes
    de las oraciones de origen en la lista de
    ejemplos lo más largas posibles y
  • de concatenar el texto alineado dentro de la
    oración

4
(No Transcript)
5
Equivalencia (matching) simple
  • La forma más simple de traducción en TABE es
    encontrar la misma oración que se quiere traducir
    en la lista de ejemplos (alineada con la
    traducción correspondiente)
  • Una vez halladas todas las oraciones exactas (las
    palabras solas no se aparejan), se intenta
    encontrar la parte de la oración traducida
    correspondiente a la oración original mediante
    una alineación a nivel de suboración.

6
Equivalencia simple (cont.)
  • Por ejemplo, la oración
  • 200 delegados de la convención en Londres
  • seria aparejada completamente con ella misma,
    pero solamente con la parte en negrita de esta
    otra oración
  • 57 delegados de la convención en Paris
  • Si este proceso no produce una alineación
    suficientemente satisfactoria, se descarta la
    pareja y se prosigue a examinar el siguiente
    ejemplo.

7
Alineación a nivel suboracional
  • Cuando TABE encuentra una ejemplo que es solo
    parcialmente identico, hay que determinar que
    parte de la traducción se corresponde a la parte
    que es igual a la oración que se quiere traducir
  • 200 delegados se reunieron a puerta cerrada ayer
    para hablar sobre la nueva ley de impuestos
  • Yesterday, 200 delegates met behind closed doors
    to discuss the new tax code
  • 200 delegados se reunieron a puerta cerrada ayer
    para hablar sobre la nueva ley de impuestos
  • Yesterday, 200 delegates met behind closed doors
    to discuss the new tax code

8
  • 200 delegados se reunieron a puerta cerrada ayer
    para hablar sobre la nueva ley de impuestos
  • Yesterday, 200 delegates met behind closed doors
    to discuss the new tax code
  • En este caso, no se puede alinear a nivel de toda
    la oración debido a que el orden de las palabras
    es diferente

9
Clases sintáctica y semánticamente equivalentes
  • Las oraciones no siempre tienen que ser identicas
    a nivel superficial para poderlas alinear. Muchos
    grupos de palabras son completamente
    intercambiables, y en este caso se pueden tratar
    como identicas.
  • Por ejemplo, como sabemos que Germany y
    France ambos son nombres de paises (asi como
    sus correspondientes traducciones), si tenemos la
    pareja siguiente en la lista de ejemplos
  • John went to Germany - Juan se fue para
    Alemania
  • podemos traducir John went to France como
  • Juan se fue para Francia

10
Tambien es posible crear equivalencias mas
complejas
  • Multiples palabras Alemania del Este
  • Patrones
  • ltnumerogt ltmesgt, ltnumerogt ltfechagt
  • lttitulo honorificogtltnombregtltapellidogt ltpersonagt

11
Algunas de las clases equivalentes que usa TABE
  • Numeros
  • Ordinales
  • Parte del dia (manana, tarde, noche)
  • Meses del ano
  • Fechas
  • Colores
  • Ciudades
  • Paises
  • Comparativos y superlativos (mayor, menor)
  • Unidades de medida
  • Unidades de tiempo
  • Minerales
  • Animales
  • etc.

12
Substitución de palabras por la clase
correspondiente (tokenization)
  • Dadas las clases equivalentes que acabamos de
    mostrarles, se reemplaza cada ocurrencia de una
    palabra o patron dentro de una clase con el
    nombre de la clase (seguida de un numero si es
    necesario desambiguar).
  • Tanto al indexar el corpus de entrenamiento
    (lista de ejemplos) como cuando se va a traducir
    una nueva oración

13
  • Por ejemplo, para TABE
  • Tres personas tomaron el ascensor hasta el
    quarto piso, dos al quinto.
  • es tratada como
  • ltnumerogt1 personas tomaron el ascensor hasta el
  • ltordinalgt1 piso, ltnumerogt2 al ltordinalgt2.
  • Y para cada una de las quatro substituciones,
  • almacenamos la traduccion correspondiente para
  • poderla volver a substituir

14
Comparación recursiva
  • Es posible alcanzar un nivel mayor de
    generalización, mas alla de la substitucion,
    mediante la comparación recursiva de la oración a
    traducir con respecto a la lista de ejemplos
    alineados.
  • Si anotamos ciertos sintagmas en la lista de
    ejemplos con su categoria sintactica (SN, SP,
    etc.), podemos reemplazar todas las instancias
    posteriores de ese sintagma con su categoria
    sintactica en la lista de ejemplos alineados, lo
    cual nos permite substituirla por cualquier otro
    sintagma de la misma categoria en esa posición.

15
  • Por ejemplo, dadas entradas que indican que todos
    los sintagmas siguientes son sintagmas nominales
    (SN),
  • La bola roja
  • El libro azul
  • Su enorme tractor
  • Un diamante pequeno pero perfecto
  • podemos substituir el uno por el otro
    indistintamente en cualquier parte donde
    aparezcan en un ejemplo de traduccion.
  • Claro que no todas las substituciones posibles en
    este
  • conjunto tienen sentido, semanticamente hablando,
  • pero de aparecer en el texto a traducir, el
    sistema los
  • podria procesar.

16
Reglas gramaticales
  • La comparación recursiva no tiene porque
    limitarse a un solo nivel de substitución.
    Podemos crear una regla de producción gramatical
    que consiste en una pareja de reglas de
    producción, una para cada lengua.
  • Para impedir sobregeneralizar, podemos incorporar
    retricciones semanticas o linguisticas a las
    reglas de producción mediante el uso adequado de
    etiquetas

17
  • The affordable painters
  • the (ltadj-sgt ltadj-pgt) lt nombre-masc-plgt
  • ? the ltadj-pgt lt nombre-masc-plgt
  • ? ltsn-plgt
  • ? ltsn-plgt
  • ? los ltnombre-masc-plgtltadj-plgt
  • los pintores accesibles

18
  • La gramatica que TABE no tiene que ser completa,
    unas cuantas reglas simples pueden ser
    suficientes.
  • Todas las partes de los ejemplos (y del input a
    traducir) que no estan cubiertas por las reglas
    gramaticales se comparan de la manera descrita
    anteriormente.

19
Ejemplo de reglas gramaticales
  • (TOKEN ltN-Mgt (TOKEN ltSN-Mgt)
  • libro ltpos-mgt ltN-mgt
  • book ltpos-mgt ltN-mgt
  • (TOKEN ltSN-Mgt) (TOKEN ltSN-Mgt)
  • el ltN-mgt el ltnumerogt ltN-mgt
  • the ltN-mgt the ltnumerogt ltN-mgt
  • (TOKEN ltSN-Mgt) (TOKEN ltSN-Mgt)
  • el ltN-mgt ltadj-mgt el ltN-mgtltadj-mgt1 ltadj-mgt2
  • the ltadj-mgt ltN-mgt the ltadj-mgt2ltadj-mgt1 ltN-mgt

20
Aplicación de reglas gramaticales
  • Las reglas gramaticales se aplican de manera muy
    similar a los patrones de substitución. La
    diferencia principal es que las reglas no se
    aplican de manera incondicional, y que los
    patrones de substitución tienen precedencia sobre
    las reglas.
  • Al indexar, busca entradas en el corpus de
    ejemplos que se puedan subtsituir (reglas
    gramaticales e información morfologica), y
    almazena el resultado de subtituir las entradas
    por sus etiquetas correspondientes. Se repite
    este proceso hasta que no se encuantran mas
    candidatos para subtitución.

21
  • Al traducir, vuelve a buscar en el corpus
    entradas etiquetadas que sean identicas y repite
    el proceso hasta que no haya mas entradas
    identicas.
  • Hay que mantener todos los resultados
    intermedios, y comparar todas las posibilidades
    con todos los ejemplos del corpus para efectuar
    la traducción correcta.
  • La bola roja reboto contra el suelo
  • Permitiria substituir cualquier combinacion de
    las partes de los siguientes patrones (y su input
    original)
  • ltdetgt1ltnombregt1ltcolorgt reboto contra ltdetgt2
    ltnombregt2
  • ltsngt reboto contra ltsngt
  • ltsngt reboto ltspgt

22
Generalización Automatica - Agrupación de
palabras
  • Objetivo encontrar conjuntos de palabras con
    patrones de uso similares
  • Observaciones
  • Agrupación de documentos encuentra conuntos de
    documentos con un contenido similar
  • Las palabras con patriones de uso similar tienen
    contextos similares a su alrededor
  • Solución crear un pseudo-documento para cada
    palabra, el contenido es representado por las
    palabras de su alrededor, para todas la
    ocurrencias? de esa palabra, y agrupar los
    pseudo-documentos.

23
  • Si ya partimos de clases equivalentes (p. ej.
    listas de palabras creadas manualmente), estas se
    pueden usar como semilla en el proceso de
    agrupación.
  • Ejemplos de agrupaciones automaticas

24
  • ltCL_1334gt ltCL_1337gt
  • sólo only para of
  • solamente only para for
  • ltCL_1769gt ltCL_1983gt
  • razones reasons posibles possible
  • cuestiones questions nuevas new
  • cuestiones matters diversas various
  • cuestiones issues distintas various
  • consideraciones considerations distintas differe
    nt
  • ltCL_2189gt ltCL_2416gt
  • desarrollo developing político political
  • desarrollo countries jurídico legal
  • económico economic
  • ltCL_9450gt administrativo administrative
  • pacífico peaceful
  • climático climate

25
Multiples traducciones
  • Este TABE fue disenado desdel principio para
    formar parte de un Sistema de Traducción
    Automatica con multiples sistemas (multi-engine).
  • Puede generar multiples traducciones parciales
    (que posiblemente se sobreponen), y dejar vacios
    alli donde no encuentra una traducción.

26
  • El sistema de TA con multiples sitemas (TAMS)
    combina las traducciones producidas por TABE con
    traducciones producidas por otros sistemas (los
    cuales pueden rellenar los vacios que dejo TABE).
  • La manera de combinar multiples traducciones (de
    partes consecutivas de una oracion) es usar un
    modelo de lengua de trigramos (1 palabra la
    palabra precedente la palabra siguiente) para
    la lengua de destino, asi como otros factores,
    para suavizar las transiciones entre traducciones
    parciales.
  • Se escoje la mejor traducción de entre todas las
    posibilidades

27
  • Otro factor que tiene en cuenta el modelo de
    lenguage del TAMS es el nivel de confianza
    asignado a cada traducción por el mismo sistema
    de traducción.
  • En el caso de TABE, este nivel de confianza se
    basa en varias heuristicas con pesos, las cuales
    tratan de estimar el nivel de corrección de la
    alineación (proporción de palabras que se
    corresponden de manera unica, la diferencia de
    longitud entre la oración de origen y la
    traducción, etc.)

28
Traducción con multiples sistemas
  • Todas las tecnologias de traducción tienen sus
    puntos fuertes y sus puntos debiles. Al combinar
    de manera inteligente distintas tecnicas, podemos
    aprovechar los puntos fuertes de cada sistema y
    minimizar los puntos debiles.
  • Por ejemplo
  • Los sistemas basados en conocimiento pueden
    alcanzar una cualidad muy elevada, pero solo con
    respecto a dominios muy limitados.
  • Los sistemas basados en ejemplos (TABE) son
    generalmente de menor calidad, pero experimentan
    una degradación menos rapida a medida que el
    texto se aleja del dominio en questión.

29
  • Si combinamos estos 2 tipos de sistemas, podemos
    obtener
  • ? traducciones de calidad elevada en el dominio
    del sistema basado en conocimiento y
  • ? traducciones de peor calidad (pero mejores
    que las que produciria el sistema basado en
    conocimiento solo) fuera del dominio

30
Lo que funciona mejor
  • Para el uso mas efectivo de una cantidad de datos
    de entrenamiento determinada
  • El texto paralelo tiene que ser lo mas diverso
    posible.
  • El texto paralelo tiene que estar alineado a
    nivel de la palabra.
  • Hay que tener un diccionario bilingue con todas
    las formas, con categoria sintactica, numero ,
    genero , etc.
  • escribir reglas de substitución simples formando
    gramaticas para SN, SV y sintagmas similares,
    usando etiquetas que aparezcan en el diccionario
    bilingue.

31
Texto paralelo rasgos deseables
  • un texto de entrenamiento del mismo dominio nos
    asegura maxima similaridad
  • un texto de otro dominio no permite encontrar
    tantas partes de las oraciones que se
    correspondan a los ejemplos, y las partes son mas
    cortas.
  • un texto de entrenamiento diverso asegura el
    maximo numero de patrones de substitución
    diferentes
  • un texto repetitivo solamente proporciona
    ejemplos redundantes
  • una alineación manual a nivel de palabra
    asegura una mejor calidad de las traducciones
  • una alineación automatica a menudo resulta en
    fracaso a la hora de alinear y ocasionalemte en
    una alineación incorrecta ( y por lo tanto una
    mala traducción).

32
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com