Syntactic mismatches in machine translation Igor Mel - PowerPoint PPT Presentation

About This Presentation
Title:

Syntactic mismatches in machine translation Igor Mel

Description:

Syntactic mismatches in machine translation Igor Mel uk, Leo Wanner Referentin: Hasti Feshangchi LMU M nchen - CIS Proseminar Paraphrasenbegriff – PowerPoint PPT presentation

Number of Views:99
Avg rating:3.0/5.0
Slides: 46
Provided by: Hast150
Category:

less

Transcript and Presenter's Notes

Title: Syntactic mismatches in machine translation Igor Mel


1
Syntactic mismatches in machine translation Igor
Melcuk, Leo Wanner
  • Referentin Hasti Feshangchi
  • LMU München - CIS
  • Proseminar Paraphrasenbegriff
  • WS 2007/08

2
  • Syntactic mismtaches Ein zentrales Problem,
    das in der maschiniellen Übersetzung whärend der
    Übertragung von syntaktischen Struktur eines
    Satzes in der Ausgangssprache zu einer
    äquivalente Struktur in der Zielsprache
    auftaucht.
  • Dieser Beitrag wird syntactic mismaches auf
    der Übertragungsebene(Tiefenstrukturebene)
    während der sentance to sentance maschiniellen
    Übersetzung im Rahmen eines paradigmatischen
    Transfer betrachten.

3
  • Die Übertragung(Transfer) auf syntaktischen
    Ebene hat mit der Übertragung 3 grossen Arten der
    linguistischen Informationen zu tun
  • Lexikal units( lexical transfer)
  • Grammemic transfer( inflectional meanings)
  • Syntactic constructions( syntactic transfer)

4
Problem der syntactic mismaches
  1. Interlinguistische und intralinguistische Natur
    der syntactic mismaches.
  2. Relevante Aspekte von theoretical framework The
    Meaning-Text Theory(MTT).

5
Arten der mismaches( translation divergences)
Dorr(1993,1994)
  • 1. Themtic divergence mismatches
    aufgrund der syntaktischen actant-permutation
    oder conversion.
  • I like this picture.
  • Mne navritsja èta kartina.
  • Das englische syntaktische Subjekt I
    entspricht semantisch dem indirektem Objekt Mne
    im Russischen.

6
  • 2. demotional/promotional divergence
    mismatches aufgrund der dependency Inversion oder
    head switsching.
  • I just learnd that.
  • Je viens de laapprendre.
  • ( I COME FROM THAT TO-LEARN)
  • Ich schwimme gern.
  • I like swimming.
  • Die adverbialbestimmung Modifikator in dem
    ersten Satz jedes Paares entspricht semantisch
    dem finiten Verb des zweiten Satzes.

7
  • 3. lexical conflational divergence mismatches
    aufgrund lexeme-phrase substitution oder lexical
    fission/fussion.
  • I stabbed John.
  • Yo le di a John una puñalada.
  • ( I TO-HIM GAVE TO JOHN A STAB)
  • I like Mary.
  • Ich habe Mary gern.
  • Die verbale lexeme im ersten Satz vom jeden
    Paar entspricht einer verbalen Ausdruck im
    zweiten Satz.

8
  • 4. categorial divergence Mismatches aufgrund
    part-of-speech Änderungen.
  • I am hungry.
  • Jai faim.
  • (I HAVE HUNGER)
  • Die gleiche Bedeutung wird durch ein
    Adjektiv im Englischen und ein Substantiv im
    Französischen zum Ausdruck gebracht.

9
  • 5.structural divergence Mismatches aufgrund
    function-word introduction/elimination
  • Je lirai.
  • (I READ fut1stperson)
  • I will read.
  • He entered the room.
  • Er trat in das Zimmer ein.
  • (HE STEPPED IN THE ROOM IN)
  • Die gleiche Bedeutung wird durch ein Aufix
    im Französischen und ein Auxiliary im Englischen,
    oder durch ein Verb ohne Präposition im
    Englischen und ein Verb mit Präposition, im
    Deutschen zum Ausdruck gebracht.

10
  • Dorr's Typologie diente als Ausgangspunkt für
    eine Reihe von Untersuchungen über das Problem
    der syntactic mismatches im MT.
  • Mit Hilfe dieser Typologie versucht man einen
    universellen Kalkül der syntactic mismatches
    zwischen den Sprachen zu entwickeln und eine
    Methode für seine Abgabe in einer einheitlichen
    Art und Weise vorzuschlagen.

11
Die intra und inter-linguistische Natur der
syntactic mismaches
  • Das Phänomen der syntaktischen mismatches ist so
    viel interlinguistik wie intralinguistik. In
    anderen Worten, äquivalente Strukturen innerhalb
    einer Sprache(Paraphrasen), zeigen mismaches von
    der gleichen Art wie die Art zwischen äquivalent
    syntaktische Strukturen zwischen zwei
    verschiedenen Sprachen.

12
Intralinguistische Beispiele
  • 1. Actant conversion mismatch
  • Ich mag das Bild.- Mir gefällt das Bild.
  • 2. Head-switching mismatch
  • Ich mag schwimmen.- Ich schwimme gern.
  • 3. lexical fission/fusion mismatch
  • Ich schuss auf john.- Ich gab auf john einen
    Schuss ab.

13
  • 4. Part-of-Speech mismatch
  • Ich bin hungrig.-Ich hab Hunger.
  • 5. Functional word introduction/elimination
    mismatch.
  • a. Er las.- Er hat gelesen.
  • b. Er betrat das Zimmer.- Er trat in das Zimmer
    ein.
  • c. Ja budu sobiratsja zavtra.- Ja soberus
    zavtra.

14
  • Deshalb können wir schließen, dass strukturelle
    mismatches zwischen semantisch äquivalenten
    Ausdrücken verschiedener Sprachen, einen
    bestimmten Fall von einem allgemeinen Phänomen
    repräsentieren
  • Die Gründung der Entsprechungen zwischen
    semantisch äquivalente aber strukturell (
    syntaktisch) divergierende Ausdrücke ist nichts
    als paraphrasieren.
  • Daher kann das Problem der structural
    mismaches im MT gelöst werden, indem einen
    allgemeinen Mechanismus zu paraphrasieren -
    sowohl intra- als auch interlinguistisch benutzt
    wird.

15
MTT
  • MTT bietet eine allgemeine intralinguistic
    paraphrasingsystem(Žolkovskij 1967 Melcuk 1974,
    pp 149, 1988b, 1992 Milicevic 2003). Diese
    paraphrasingsystem ist früher, unter anderen
    Systemen, von Sanromán vilas ua. (1999) und
    Apresjan ua. (Im Druck), intralinguistisch an der
    Quell-Sprache Seite benutzt worden, um die
    Quellsprache-Strukturen zu den Zielsprache-Struktu
    ren anzupassen. Wir nehmen dieses System in
    unserem Konzept für die interlinguistische
    Auflösung von Quell- und Zielsprache
    Structure-mismaches.

16
Die theoretischen Rahmen(theoretical framework)
  • Angesichts der Komplexität der Aufgabe in MT,
    muss die Übertragungsphase so viel wie möglich
    verkürzt werden, und die intralinguistische
    Phenomene müssen an der Quell-Seite(während der
    Analyse), oder an der Ziel-Seite(während der
    Synthese) behandelt werden.
  • Die Ebene, auf der die Übertragung erfolg ist,
    ist in MTT die Tifensyntaktischen Struktur.
  • Die TSyntS(DSyntS) ist abstrakt genug, um alle
    Arten von lexikalischen und syntaktischen
    divergences zu verhindern.

17
General Schema der Übertragung
18

Der Vorschlag Transfer als paraphrasieren
  • Unser Ziel ist in diesem Beitrag ein zweifaches
  • (i) eine Beschreibung aller logisch möglichen
    Arten von syntactic missmaches
  • (ii) zu definieren und zu zeigen, dass die
    Struktur der Universal-Transfer(paraphrasieren)-Re
    geln notwendig und ausreichend für die Zuordnung
    zwischen zwei beliebigen tief syntaktischen
    Strukturen sind, in denen mindestens ein
    mismatches zu finden ist .

19
The syntactic transfer engine(STE)
  • Die Natur dieser Regeln setzt eine besondere
    Architektur des Übertragung-Motors voraus, die in
    der Lage ist, mit syntactic mismatches zwischen
    den TsyntS-en umgehen zu können.(der syntaktische
    Transfer Engine, STE).

20
STE muss die folgenden drei Hauptkomponenten
haben
  • 1. Formalisierte einsprachige "erklärende
    kombinatorische Wörterbücher"(ECDs) für die
    Sprachen. Diese Lexika sind unabhängig von dem
    Paar-Sprachen und neutraler, in dem Sinne, dass
    jeder kann entweder als eine Quell- oder eine
    Zielsprache lexikon benutzt werden. Sie
    beinhalten unter anderem die lexikalische
    co-occurrence Informationen der Sprache, die in
    Bezug auf die lexikalischen Funktionen sind.
    (LFs) (vgl. Ziff. 3.1.1 und Mel'fuk 1996 für eine
    detaillierte Einführung in die LFs).

21
  • 2. Eine Reihe von lexikalischen zweisprachigen
    Korrespondenz Indizes für die Sprachpaare. Eine
    zweisprachige lexikalische Index (BLI), die für
    jedes Paar von Sprachen spezifisch ist und eine
    neutrale Liste von Paaren der translationale
    equivalent-LUs von LS und LT darstellt.
  • 3. Eine Reihe von Transfer-Paraphrasing-Regeln,
    die die Zuordnung zwischen equivalent-syntaktische
    n Strukturen von LS und LT durchführen.

22
Bilingual lexikalische Index
  • BLI ist grundsätzlich auf tiefe LUs der
    Sprach-Paare beteiligt. So, in der englischen
    Teil eines englischen BLI ist PAY nicht als in
    pay attention, sondern nur so beteiligt
  • ATTENTIONPay ist eines der Elemente des Wertes
    LF Oper1 von ATTENTION.
  • Weder enthält er LAUNCH noch ATTACKN wie in
    launch an attack, sondern nur ATTACKV ATTACKN
    ist ein Element des Wertes LF S0 auf ATTACKV. Und
    es ist weder HEAVY noch RAINN wie in heavy rain,
    aber nur RAINV.

23
regular u. irregular Äquivalenze
  • Lexikalische Äquivalenzen in einer BLI lassen
    sich in zwei großen Klassen aufteilen
    "regular"Äquivalenze, die keine structural
    mismatches zeigen und können in Form von LU-Paare
    zum Ausdruck kommen, und "irregular"Äquivalenzen,
    die zu einer structural mismatches zeigen und
    eine spezifische Umwandlung erforderlich ist, um
    diese mismatches aufzulösen.

24
regulär Äquivalenzen
  • Mit Bezug auf die regulär lexikalische
    Äquivalenzen, sind wieder zwei Fälle zu
    unterscheiden
  • 1. LS hat mindestens eine semantisch voll
    passende Übersetzung, die LT entspricht. In
    diesem Fall erhält LS nur diese LT als seine
    Übersetzungsäquivalent und alle exakte und mehr
    spezielle Synonyme von LT sind nicht in der BLI,
    sondern in der Monolingual LT ECD zu finden, und
    werden bei der Synthese ausgesucht.
  • Beispiel (DEEP, PROFOND)
  • (CHAIR1, CHAISE)
  • (CHAIR2, CHAIRE)

25
  • 2. LS verfügt nicht über eine voll passende
    Übersetzungsäquivalent, aber ein oder mehrere
    semantisch nicht genau passende
    Übersetzungsäquivalente, die kreuzende Synonyme
    von einander sind. In diesem Fall, LS erhält alle
    diese Synonyme als seine Übersetzungsäquivalente.
  • Beispiele
  • (ANSPRACHE, OBRAŠCENIE,
  • PRIZYV,
  • VOZZVANIE)

26
irregulär Äquivalenzen
  • Was als irregulär lexikalische Äquivalenzen
    betroffen sind, jede Übersetzungsäquivalenz ist
    von der Form (LS, LT, ?), wo ? ein LF ist. ?(LS)
    LT - Auf diese Weise, bestimmt ? eindeutig die
    Art des mismaches, die durch die Übersetzung LS
    zu LT auftaucht und auch ihre Resolution. (Anti,
    Conv21 und //Adv1 sind LFs, deren Werte sich in
    der entsprechenden einsprachige ECDs befinden.)
  • Beispiela. (SHALLOW, PROFOND, Anti)
  • b. (LIKE, PLAIRE, Conv21) c. (SOLER,
    HABITUELLEMENT , //AdV1)  Julie likes Paul.
    Paul plait à Julie. Maria suele leer. Maria
    lit habituellement. "Maria usually reads."

27
Transfer- paraphrasierungsregeln
  • Drei verschiedene Arten von Transfer-
    paraphrasierungsregeln sind zu unterscheiden
  • 1. Eine Reihe von elementaren lexikalischen
    Äquivalenzen ausgedrückt in der LFs. Sie sind
    universall.
  • 2. Eine Reihe von elementaren syntaktischen
    Operationen, die den tief syntaktischen Baum in
    Zielsprache "durch die Anwendung einer
    lexikalischen Äquivalent darstellen. Die sind
    notwendig, um sicherzustellen, dass der Baum
    wohlgeformt und semantisch äquivalent zu dem tief
    syntaktischen Baum in Ausgangsprache ist.
  • 3. Eine Reihe von syntaktischen
    Anpassungsoperationen, die sich um den Kontext
    kümmern.

28
Definition von TsynS
  • Ld , Gsem und Rdsynt sind drei disjunkten
    Alphabeten der TsyntS, wo Ld die Menge der
    tiefenlexikalischen Einheiten (LU), Gsem die
    Menge der semantischen grammemes und Rdsynt die
    Menge der tiefensyntaktischen Beziehungen ist.
  • TsyntS ist eine Tupel über Ld U Gsem U Rdsynt.

29
Ld Deep lexical units (tiefenlexikalischen
Einheiten)
  • Die Menge der tiefen LUs von L enthält alle LUs (
    Lexeme und Idiome) von L mit folgenden
    Ergänzungen und Eliminierungen.
  • Ergänzungen
  • (i) LF Sombole, (ii) fiktive lexeme
  • Eliminierungen
  • (i) strukturelle Wörter, (ii) Personalpronomen,
    (iii) Wert der LF
  • -Eine analytische Form have been paid
  • PAYind, pass, pres, perf, non-progr.
  • -Alle propositionen und konjunktionen werden
    weggelassen
  • Insists on departure INSIST-?? ? DEPARTURE
  • Quarrel between friends QUARREL-? ? FRIENDS
  • Know that she is sleeping
  • KNOW- ?? ? SLEEPind, act, pres, non-perf,
    progr-? ?SHE

30
  • -All Personalpronomen(3rd person) werden durch
    ihre References ersetzt
  • a. Taking the book, John put it on the table.
  • b. Taking the book, John put THE BOOK on the
    table.
  • -Ein Idiom wird als eine Knote repräsentiert
  • a. John got his second wind JOHN ? ? - GET-
    ONES- SECOND- WIND
  • b. John barks up the wrong tree JOHN ? ?
    -BARK- UP- THE- WRONG- TREE

31
LF
  • LF lassen sich in zwei Arten aufteilen
    Paradigmatische LF und syntagmatische LF
  • Paradigmatische LF vertreten lexikosemantische
    Ableitungen( wie der Namen der Aktion, Prozess,
    etc.)
  • Adverbial noun (S0)
  • The name of the actant of an action, State,
    process, etc. (Si)
  • The name of the characteristic property of the
    ith actant of an action, state, process, etc.
    (Ai)
  • The name of a conversiv of L (Convij)
  • Syntagmatische LF Magn, Operi, Reali, Son

32
(No Transcript)
33
(No Transcript)
34
  • Der Wert eines syntagmatischen LF ist in den
    meisten Fällen zusammen mit L als einen
    syntaktischen Abhängigen oder gouvernor von L
    zum Ausdruck gebracht. Aber in einigen Fällen,
    ein Element der Wert von f(L) drückt den Sinn des
    LF f zusammen mit der Bedeutung von L. Ein
    solches Element wird als fused bezeichnet
  • Heavy Magn(RAIN)
  • Downpour //Magn(RAIN)
  • SpreadPreparReal1 (BUTTER)
  • Butter //PreparLabreal12 (BUTTER)

35
  • In paradigmatischen LFs kann ein Lexem L1, der
    ein Element der Wert einer paradigmatischen LF f
    von dem Schlüsselwort L2 ist, in TsyntS durch die
    funktionale Notation ersetzt werden, nur wenn die
    drei folgenden Bedingungen gleichzeitig erfüllt
    sind
  • - f steht nicht für eine Synonym, eine Antonym
    oder ein konversiv.
  • - Die Bedeutung von L1 ist die genaue
    zusammensetzung der Bedeutung von L2 und f.
  • - Die Bedeutung von L1 und L2 ist gleich und L2
    ist semantisch die Grundlage(Basis) von L1
  • V0(ATTACKN) erscheint nicht in der TsyntS. Der
    Nomen Attack ist nicht semantisch der Basis von
    den Verb attack aber die umgekehrte Form ist
    schon richtig S0(ATTACKV)

36
  • Gsem deep grammemes( tief-grammemes)
  • Geschlecht, case, verbal Person und Numerus sind
    syntaktische grammemes und erscheinen nicht in
    OsyntS und TsyntS.
  • RTsynt deep- syntactic relation
    (tiefensyntaktischen Beziehungen)
  • Die sechs actantial DsyntRels( ?, ??, ...,V?)
  • Attributive TsyntRel(ATTR)
  • Coordinative TsyntRel(COORD)
  • Appenditive TsyntRel(APPEND)

37
Vier lexikalischen Elemente der TsyntS, die nicht
in der OsyntS erscheinen
  • Zero LUs (unpersönliche Pronomen)

38
  • - LF Symbole
  • - Elidierte Lus
  • DuermoI sleep erscheint in TsyntS als
  • YO??-DORMIRind,pres,non-perf,non-progr
  • - Fiktive LUs, die Bedeutungen durch
    syntaktischen Konstruktionen repräsentieren

39
Andere Tranfer-Repräsentationen
  • Jackendoffs(1990) Lexical Conceptual
    Structures(LCSs)
  • LFGs f-structure (Bresnan 1982)
  • Discourse Representation Theory (DRT)( Kamp und
    Reyle 1993 Reyle 1993)
  • Situation Semantics(Barwise und Perry 1983)

40
Beispiel von TsyntS
41
(No Transcript)
42
Pseudo-mismatches
  • Pseudo mismatches aufgrund oberflächensyntaktische
    n Phänomene
  • Hilfsverben aller Art
  • LIREfut - ? ?MOI READfut- ? ??
  • (French) le loup THE WOLF ?(Romanian) lupul
    WOLF-def the wolf
  • (English) more beautiful ? (German) schöner
    BEAUTIFUL-comp

43
  • Präpositionen und Konjunktionen

44
  • Die Idiome(teilweise)
  • Syntaktische Idiosyncrasies

45
  • 2- Pseudo mismatches aufgrund eingeschränkten
    lexikalischen co-accurrence
Write a Comment
User Comments (0)
About PowerShow.com