Computergest - PowerPoint PPT Presentation

1 / 33
About This Presentation
Title:

Computergest

Description:

Title: Zu den spezifischen Eigenschaften von bersetzungen Theorie, Methoden & Resultate Elke Teich 28.6.02 Author: Elke Teich Last modified by – PowerPoint PPT presentation

Number of Views:38
Avg rating:3.0/5.0
Slides: 34
Provided by: Elk49
Category:

less

Transcript and Presenter's Notes

Title: Computergest


1
Computergestützte Analyse multilingualer
KorporaElke Teich3. Februar 2003
2
  • Wozu Korpora?
  • empirische Grundlage bei linguistischen
    Fragestellungen
  • Grundlage für computerlinguistische Modellierung
    Trainieren statistischer Verfahren, machine
    learning (z.B. Parser, Grammatiken)
  • Was will man an multilingualen Korpora
    untersuchen? Beispiele
  • Sprachunterschiede unter Berücksichtigung von
    Gebrauchsbedingungen (Sprachtypologie,
    Texttypologie)
  • L2-Lehr/Lernmaterialien (kontrastive Linguistik)
  • Maße für Übersetzungsqualität (Übersetzungswissens
    chaft)
  • translation memories (Maschinelle Übersetzung)
  • Wie geht man dabei vor?
  • viele Daten (gt zig tausend Wörter)
    computergestützte Analyse

3
Übersetzungen
  • Was ist daran interessant? Textsorte,
  • an der wir Multilingualität (z.B.
    Sprachtypologie,
  • kontrastive Linguistik) in action sehen
    können
  • die wir im Alltag ständig antreffen
  • Übersetzungen haben etwas Spezielles, das sie
    von
  • Texten unterscheidet, die keine Übersetzungen
    sind.
  • Wie kann man dieses Spezielle
    herausarbeiten?
  • Beobachtungen formulieren,
  • an multilingualem Korpus überprüfen,
  • computerlinguistische Techniken einsetzen.

4
The secret strength of hydrogen Übersetzung Alta
Vista (Systran)
Aller chemischen Elemente ist Wasserstoff in der
Struktur und zuerst in der Verschiedenartigkei
t seines chemischen Verhaltens das
einfachste. Das Element selbst besteht als das
Molekül H2, das als das hellste aller Gase
weithin bekannt ist. Obgleich Industrie dieses
Gas auf einer großen Skala benutzt, wird sie
selten im täglichen Leben aus- genommen
angetroffen, um Ballone zu füllen. Gleichwohl in
25 Jahren Zeit festsetzen sie, kann dieses das
Gas sein, das in unsere Häuser zu den
Kraftstoffdampfkesseln und -kochern geleitet wird
einmal haben wir herauf Versorgungsmaterialien
des natürlichen Methangases verwendet, CH4.
Wasserstoff brennt, um Wasser zu bilden, und ist
folglich sauberer als die Gase, die Carbon
enthalten.
5
The secret strength of hydrogen Original
Scientific American
Of all the chemical elements, hydrogen is the
simplest in structure, and first in the
diversity of its chemical behaviour. The element
Itself exists as the molecule H2 which is well
known as the lightest of all gases. Although
industry uses this gas on a large scale it is
rarely encountered in everyday life except to
fill balloons. However in 25 years time this may
be the gas which is piped into our homes to fuel
boilers and cookers - once we have used up
supplies of natural methane gas, CH4. Hydrogen
burns to form water, and hence is cleaner than
gases containing carbon.
Handout
6
Die geheime Kraft des Wasserstoffs Übersetzung
Spektrum der Wissenschaft
Wasserstoff ist seinem Aufbau nach das
einfachste, aber seinem Verhalten nach das
vielseitigste von allen chemischen Elementen. Es
existiert als Molekül H2, das als das leichteste
aller Gase allgemein bekannt ist. Obwohl es
industriell in großem Umfang genutzt wird, kommt
es im täglichen Leben außer beim Füllen von
Ballons kaum vor. Doch könnte gerade dieses Gas
in einem Vierteljahrhundert, wenn die Vorräte an
natürlichem Methangas, CH4, aufgebraucht sind,
in den Gasgeräten unserer Haushalte Verwendung
finden. Wasserstoff verbrennt zu Wasser und ist
Somit weniger umweltbelastend als Gase, die
Kohlenstoff enthalten.
Handout
7
Art Spiegelman, Maus I Übersetzung Christine
Brinck, Josef Joffe
8
Übersetzungen ihre spezifischen Eigenschaften
  • (Auch gute) Übersetzungen haben spezifische
    Eigenschaften, die sie von Texten in derselben
    Sprache wie der Zielsprache (ZS) unterscheiden
    (vgl. Baker 95, 96 Toury 95, Teich 01)
  • Spezifischen Produktionsbedingungen von
    Übersetzungen induziert durch quellsprachlichen
    Text, zielsprachenorientiert Hypothesen
  • Übersetzungen lassen die Quellsprache (QS)
    durchscheinen ? shining through
  • Übersetzungen gehorchen der ZS-Norm mehr als
    vergleichbare ZS-Originaltexte ? normalization
  • andere explicitation, simplification,
    levelling-out
  • Was ist denn normal? Was kann übertrieben
    normal gemacht werden? Was kann durchscheinen?

9
Scientific American/Systran/ Spektrum der
Wissenschaft (Original Englisch)
Hydrogen burns to form water, and hence is
cleaner than gases containing carbon. Wasserstof
f brennt, um Wasser zu bilden, und ist folglich
sauberer als die Gase, die Carbon
enthalten. Wasserstoff verbrennt zu Wasser und
ist somit weniger umweltbelastend als Gase, die
Kohlenstoff enthalten.
(vgl. Doherty 93 Hawkins 84)
? Sprachtypologie (System)
10
CAD/CAM User Manual AutoCad (Original Englisch)
Englisch To draw a polyline. Deutsch
So zeichnen Sie eine Polylinie.
(Eine Polylinie zeichnen.) Russisch Chtoby
narisovatj poliliniju.
IN-ORDER-TO DRAW POLYLINE Bulgarisch
Chertane na polilinija. DRAWING OF
POLYLINE
to-Infinitiv
finiter Satz, deklarativ
um zu Infinitiv
Nominalisierung
(vgl. Copernicus Project AGILE)
? Texttypologie (Register)
11
Hypothesen ihre Herleitung
  • Sprachenpaar Englisch-Deutsch, Register
    populärwissenschaftlicher Texte
  • Sprachtypologie (System) Prä/Postmodifikation
    der NP (E Postmodifikation, D
    Prämodifikation), Themaoptionen (E grammatical
    word order, D pragmatic word
    order), Transitivität (D transitiv E ergativ)
  • Texttypologie (registerspezifisch) Passiv,
    Nomina, komplexe Nominalgruppen, einfache
    Satzstruktur (relationale Prädikate)

12
Beispiele Sprachtypologie
  • Transitivität
  • (1) E A material known as ionophore, which
    binds to membranes...
  • (2) D Eine Substanz, die als Ionophor
    wirkt. Sie setzt sich an der
  • Membran fest.
  • (3) E Thus in water the hydrogen atoms
    exchange billions of times per second.
  • (4) D In Wasser etwa werden die
    Wasserstoffatome Milliardenmale pro Sekunde
    ausgetauscht.
  • Prä/Postmodifikation
  • (5) E The voltages that would be expected to
    be produced in the cytoplasm of Fucus embryos,
    only 0.1 mm in length, would unfortunately be too
    close to the limits of microelectrode sensitivity
    to be measurable.
  • (6) D Die zu erwartenden Spannungen im
    Zellplasma würden bei
  • den 0.1 mm lange Fucusembryonen leider schon
    unterhalb der für Mikroelektroden messbaren
    Grenze liegen.

13
Beispiele Texttypologie
  • Einfache Satzstruktur, komplexe Nominalgruppen
  • (1) E So in Fucus, one of the events that
    translates asymmetry in the environment into
    asymmetry in the embryo is a polarised pumping of
    electric current, in the form of Ca ions.
  • (2) D Beim Fucus ist damit einer der
    Prozesse, der eine Asymmetrie aus der Umgebung in
    eine Asymmetrie des Embryos umsetzt, ein
    polarisierter elektrischer Strom von Ca-Ionen.
  • Nicht agentivische Darstellung (z.B. Passiv)
  • (3) E The behavior of acids is generally
    observed in water.
  • (4) D Gewöhnlich untersucht man das
    Verhalten von Säuren in Wasser.
  • (5) D Somit lassen sich auch bei diesen
    Spielen verschiedene Strategien in einer
    Auszahlungsmatrix gegenüberstellen und bewerten.
  • (6) D Dabei ist eine sehr bemerkenswerte
    Verlagerung zu verzeichnen.
  • (7) D In Lehrbüchern wird dieser Prozess
    oft durch die Gleichung HCl H Cl- dargestellt.
  • (8) E Text books often write this process
    as HCl H Cl-.
  • (9) E Thus in water the hydrogen atoms
    exchange billions of times per second.

14
Beispiel Passiv/Passivalternativen
  • G-ORI E-ORI Subkorpus
  • Passiv typischer
  • für E als für D
  • Passivalternativen
  • typischer für D als für E

15
Hypothesen ihre Herleitung Passiv/Passivalterna
tiven
  • Hypothesenformulierung E-ORIG-TL
  • In Übersetzungen vom Englischen ins Deutsche
    liegt shining-through im Passivbereich vor, wenn
    in G-TL signifikant mehr Passive auftreten
    als in vergleichbaren deutschen Texten (G-ORI)
  • In Übersetzungen vom Englischen ins Deutsche
    liegt normalization im Passivbereich vor, wenn in
    G-TL signifikant mehr Passivalternativen
    auftreten als in vergleichbaren deutschen Texten
    (G-ORI)


16
Hypothesen ihre Herleitung Passiv/Passivalterna
tiven
  • Hypothesenformulierung G-ORIE-TL
  • In Übersetzungen vom Deutschen ins Englische
    liegt shining-through im Passivbereich vor, wenn
    in E-TL signifikant mehr Passivalternativen
    auftreten als in vergleichbaren englischen Texten
    (E-ORI)
  • In Übersetzungen vom Deutschen ins Englische
    liegt normalization im Passivbereich vor, wenn in
    E-TL signifikant mehr Passive auftreten als in
    vergleichbaren englischen Texten (E-ORI)



17
Korpus
English original texts
German translations
English translations
German original texts
(Register populärwissenschaftliche Prosa ca. 10
000 Wörter pro Subkorpus)
18
Analysetechniken Methoden
  • Korpusanreicherung PoS (Part-of-Speech) tagging
  • Korpusquery reguläre Ausdrücke
  • Resultate und Interpretation
  • Paare von Merkmalen, Chi-Quadrat
  • Bewertung im Sinne von shining through,
    normalization

19
Techniken Korpusanreicherung
  • PoS-tagging TnT (Brants 2000) Englisch
    (Susanne Sampson 95), Deutsch (STTS Hinrichs et
    al. 95)
  • TnT output

CS RR AT1 JJ YC RR JJ YC NN1 VBZ VVN YC PN1 VM VB
0 VVN YF
If however a rapid , preferably instant , ef
fect is desired , strophanthin will be needed .
20
Techniken Korpusquery
  • Extraktion von Instanzen der ausgewählten
    lexiko-grammatischen Merkmale CQP/ XKWIC (Christ
    94)
  • Query-Syntax reguläre Ausdrücke

21
Resultate Interpretation
E-ORI
G-ORI
G-TL
278
389
357
active
165
79
100
passive
G-ORI G-TL ?2 3.6 Signifikanz 0.10 (1 df
gt 2.71)
  • ? schwaches shining-through (Passiv) in G-TL

E-ORI
G-ORI
G-TL
64
146
163
passive alternatives
165
79
100
passive
G-ORI G-TL ?2 0.0 nicht signifikant
? kein normalization-Effekt (Passivalternativen)
in G-TL
22
Resultate Interpretation
G-ORI
E-ORI
E-TL
389
278
218
active
79
165
186
passive
E-ORI E-TL ?2 7.9 Signifikanz 0.01 (1 df
gt 6.64)
  • ? normalization (Passiv) in E-TL

G-ORI
E-ORI
E-TL
146
64
62
passive alternatives
79
165
186
passive
E-ORI E-TL ?2 0.1 nicht signifikant
? kein shining-through-Effekt (Passivalternativen)
in E-TL
23
Resultate Interpretation
E-TL G-TL
1) passive vs. active normalization shining through
2) passive vs. passive alternatives --- ---
3) material vs. relational (other factor) (other factor)
4) attributive vs. predicative normalization normalization
5) premod vs. postmod shining through shining through
6) full relative vs. dense postmod --- normalization
7) full relative vs. dense mod --- (other factor)
8) effective vs. middle --- (other factor)
9) unmarked vs. marked theme normalization shining through
  • Effekte komplementär (1, 9), bidirektional (4,
    5), unidirektional (6)
  • mehr Effekte in G-TL mehr shining through in
    G-TL, mehr
  • normalization in E-TL
  • Effekte, die nicht auf normalization/shining
    through zurückzuführen
  • sind (3, 7, 8)

24
Resultate Interpretation
  • E-TL normalisiert mehr, G-TL lässt mehr
    durchscheinen
  • (1) E-ORI Thus, in water the hydrogen atoms
    exchange billions of times per second.
  • G-TL In Wasser etwa werden die
    Wasserstoffatome Milliardenmale pro Sekunde
    ausgetauscht.
  • (2) E-ORI ... this choice minimizes the risk of
    errors during translation
  • G-TL ...und damit die Gefahr von
    Übermittlungsfehlern verringert wird.
  • (3) G-ORI Für den praktischen Gebrauch benötigt
    man große Zahlen.
  • E-TL ...for practical application large
    numbers are needed.
  • (4) G-ORI Die Übermittlung einer Nachricht mit
    öffentlichen und geheimen Schlüsseln lässt sich
    auch in der Kryptologie verwircklichen.
  • E-TL Transmission of a signal with public
    and secret keys can be realized also in
    cryptology.
  • ? habituelle Übersetzung
  • TL kann Durchscheinen aus typologischen Gründen
    verkraften (TL-System macht spezifischere
    Unterscheidungen)
  • TL muss aus typologischen Gründen kompensieren
    (geringere Spezifik des TL-Systems)
    Normalisierung

25
Zusammenfassung und Ausblick
  • Übersetzungen zwischen den Stühlen lassen QS
    durchscheinen, versuchen gleichzeitig ganz
    normal für die ZS zu sein
  • Anwendungen Übersetzerische Intuitionen
    beschreiben ? differenzierte Maße für
    Übersetzungsqualität, Einfluß von Übersetzungen
    im Sprachwandel
  • Theorie, z.B. Was ist normal? Registertheorie
    (Systemic Functional Linguistics Halliday 85)
    wichtig für Hypothesen Interpretation!
  • Methoden/Techniken Sprachtypologie,
    Texttypologie, Computerlinguistik,
    Korpuslinguistik

26
Zusammenfassung und Ausblick
  • Methodologie zum Korpusvergleich Beispiele
  • Abgrenzung verschiedener Register/Fachsprachen
  • Entwicklung von Maßen für Textqualität in
    Abhängigkeit von Register/Genre
  • multi-layer annotierte Korpora längerfristiges
    Potenzial für Forschung und Lehre
  • Linguistik Theorie und Deskription auf Grundlage
    großer Datenmengen
  • Informatik Linguistische Datenbanken
    Repräsentation und Abfrage
  • Computerlinguistik Training statistischer
    Verfahren auf Basis von annotierten
    Referenzkorpora (tree banks)
  • Interdisziplinär Anwendungen an der
    Schnittstelle Linguistik/Computerlinguistik/Inform
    atik (content syndication, z.B.
    Informationsextraktion)

27
Grammatik
Text
Übersetzungen, ML Texte
Methoden multi-layer annotierte Korpora,
computerlinguistische Techniken
28
Thank you for your attention!
29
Literatur
(Baker 95) M. Baker, Corpora in translation
studies An overview and some suggestions for
future research, Target 7(2)223-245. (Baker 96)
M. Baker, Corpus-based translation studies the
challenges that lie ahead. In H. Somers (ed.),
Terminology, LSP and Translation Studies in
Language Engineering in Honour of Juan C. Sager,
Benjamins, Amsterdam, pp. 175-186. (Brants 00)
T. Brants, TnT A statistical part-of-speech
tagger, Proceedings of the 6th Applied Natural
Language Processing Conference (ANLP) 2000,
Seattle, WA. (Christ 94) O. Christ, The IMS
Corpus Workbench Technical Manual, Technical
report, Institut für maschinelle
Sprachverarbeitung, Universität
Stuttgart. (Doherty 93) M. Doherty,
Parametrisierte Perspektive, Zeitschrift für
Sprach- wissenschaft 12(1)3-38. (Halliday 85)
MAK Halliday, An Introduction to Functional
Grammar. Edward Arnold, London. (Hawkins 84)
J.A. Hawkins, A comparative typology of English
and German. Croom Helm, London and Sydney.
Handout
30
Literatur
(Hinrichs et al 95) E. Hinrichs, Feldweg, H.,
Boyle-Hinrichs, M. and Hauser, R.
Abschlußbericht ELWIS. Korpusunterstützte
Entwicklung lexikalischer Wissens- basen für die
Computerlinguistik, Technical report,
Universität Tübingen. (Sampson 95) G. Sampson,
English for the Computer. Oxford University
Press, Oxford. (Teich 01) E. Teich, Contrast
and commonality between English and German in
system and text. A methodology for the
investigation of cross-linguistic variation in
translations and multilingually comparable texts.
Habilitationsschrift, Universität des
Saarlandes, Saarbrücken. (Toury 95) G. Toury,
Descriptive translation studies and beyond.
Benjamins, Amsterdam.
Handout
31
German original texts
A n z a h l T o k e n s
English translations
T y p e T o k e n R a t i o
Handout
32
Korpusvergleich
G-ORI E-TL E-ORI
sentence length 11.55 12.54 15.36
number of sentences 544 588 366
text length 10442 11051 10460
type-token ratio 49.24 38.66 39.61
? ? ? ?
max min
E-ORI G-TL G-ORI
sentence length 15.36 13.26 11.55
number of sentences 366 411 544
text length 10460 9927 10442
type-token ratio 39.61 47.24 49.24
? ? ? ?
  • E-TL länger, geringere Vokabularvariation
  • G-TL dazwischen

Handout
33
Resultate Interpretation
  • Andere Effekte explicitation, z.B. bei dense
    modification vs. full relative clauses
  • E-ORI At the heart of Rivests asymmetric
    cypher is a one-way function based on the sort of
    modular functions described earlier...
  • G-TL Kern der asymmetrischen
    Verschlüsselung von Rivest ist eine
    Einwegfunktion, die auf oben beschriebenen
    Modulfunktionen beruht.
  • G-TL Kern der asymmetrischen
    Verschlüsselung von Rivest ist eine auf den oben
    beschriebenen Modulfunktionen beruhende
    Einwegfunktion.
  • Effekte, die nur in Übersetzungen auftreten
    (nicht in G-ORI E-ORI)
  • E-ORI Thus, the history of bioelectricity
    produced a discontinuity in scientific history.
  • G-TL So kam es, dass die Wissenschaftsgeschi
    chte der Bioelektrizität diskontinuierlich
    verlaufen ist.
  • G-TL So produzierte die Geschichte der
    Bioelektrizität eine Diskontinuität in der
    Wissenschaftsgeschichte. (ungewollte
    Personifizierung!)
  • bidirektionale Effekte Kandidaten für
    universelle Merkmale? Übersetzungsprozessbedingte
    Erklärungen?
Write a Comment
User Comments (0)
About PowerShow.com