Optimierung von Volltextinvertierung durch den Einsatz von Indexierungsw - PowerPoint PPT Presentation

About This Presentation
Title:

Optimierung von Volltextinvertierung durch den Einsatz von Indexierungsw

Description:

Title: PowerPoint-Pr sentation Author: Jutta Lindenthal Last modified by: Spree Created Date: 10/2/2004 8:42:21 AM Document presentation format: Bildschirmpr sentation – PowerPoint PPT presentation

Number of Views:81
Avg rating:3.0/5.0
Slides: 11
Provided by: Jutta1
Category:

less

Transcript and Presenter's Notes

Title: Optimierung von Volltextinvertierung durch den Einsatz von Indexierungsw


1
Optimierung von Volltextinvertierung durch den
Einsatz von Indexierungswörterbüchern
Artikelstrecke ab BUTTERBLUME im Deutschen
Wörterbuch von Jacob und Wilhelm Grimm
(http//edoc.hu-berlin.de/e_histfor/10_I/PHP/Woert
erbuecher_2007-10-I.php)
Spree SoSe 2011
2
?
Wir erinnern uns Einschränkungen regebasierter
Verfahren
http//blogs.taz.de/wp-inst/wp-content/blogs.dir/2
0/files/2006/07/problem-moslem.jpg
  • Fehler werden in Kauf genommen
  • Tolerierbar, da Sucheingabe nach demselben
    Prinzip gestemmt wird wie der Text
  • Nur sinnvoll, wenn Sprache über in hohem Maße
    regelhafte Wortbildung verfügt
  • Anzahl der Regeln überschaubar ist
  • Ausnahmen begrenzt sind
  • Prefixe werden in der Regel nicht berücksichtigt
  • Eigennamen werden nicht berücksichtigt
  • Keine Kompositazerlegung möglich
  • Phrasen werden nicht erkannt
  • Synonyme werden nicht erkannt

3
?
Lösung Indexierungswörterbuch
Grundform Benutzertest Wortart Substantiv
Vorzugsbenennung Usability-Test Wortformen
Benutzertestes, Benutzertests alternative
Schreibweisen Benutzer-Test, Benutzer-Testes,
Benutzer-Tests Abkürzung -- Teilwörter
Benutzer, Benuter, Test äquivalente Begriffe
Usertest, Nutzertest
Typischer Schreibfehler von Frau Spree
Wörterbucheintrag a-step
4
?
Funktionsweise Indexierungswörterbücher
blogspot.com/.../sofortlC3B6sung.jpg
  1. Aufbau eines Wortformen-Wörterbuchs als
    Positivliste, in der alle Wörter in Grundform
    oder in Vollform aufgenommen sind
  2. Vergleich der Wortform aus dem zu indexierenden
    Text Buchstabe für Buchstabe (Beginn mit dem
    letzten Buchstaben) mit den Lexikoneintragungen
    (Lemma/ta) bis eine Übereinstimmung erkannt
    wird. Diesen Prozess nennt man Lemmatisierung
  3. Aufbau eines Relationen-Wörterbuchs, damit
    Flexive und Derivative erkannt werden
  4. Festlegen einer Erkennungsstrategie, um Wörter
    erkennen und in Grundform bringen zu können
  5. Festlegung eines Verfahrens zur Identifizierung
    von Komposita

5
?
Lemmatisierung
Worterkennung Zeichenkette zw. , und Leerzeichen
Geschichten von Kindern, Tieren und Steinen
Tieren
Texteingang
Tieren (Dativ Plural) Tier
Analyse
Tier
Lemma
(Wörterbucheintrag, lexikalische Beschreibung)
6
?
Relationenwörterbuch
  • Im Relationenwörterbuch werden die vorkommenden
    Wörter auf Grundformen zurückgeführt
  • im Text vorkommende Mehrwortbegriffe/Phrasen
    werden identifiziert
  • soweit es sich um Komposita handelt, werden auch
    Beziehungen zwischen den Teilwörtern und dem im
    Text / Titel stehenden Wort hergestellt.
  • Beziehungen zwischen Derivationen werden
    hergestellt
  • (Beispiele besuchen / Besuch, anfahren /
    Anfahrt, Begehung / begehen / begehbar ...).
  • Synonymbeziehungen können abgebildet werden
  • "Sonnabend" zu "Samstag"
  • Mit Hilfe der "Übersetzungsrelation" lassen sich
    schließlich auch Wörtern einer Sprache
    Übersetzungsäquivalente zuordnen.
  • (verkürzt aus Harald H. Zimmermann Automatische
    Indexierung und elektronische Thesauri
    http//www.uni-duesseldorf.de/ulb/mil_zimm.htm)

7
?
Beispiel Grundformenwörterbuch
Quelle Klaus Lepsky Sprachengineering
Grundlagen und Methoden sprachverarbeitender
Verfahren (2003)
8
?
Beispiel Wörterbuchabgleich Teilworterkennung
Komposita
Quelle Gödert, Lepsky, Nagelschmidt
Textsammlung automtische Indexierung.
linux2.fbi.fh-koeln.de/kram/textsammlung-automatis
che-indexierung.pdf
9
?
Beispiel schematisch Relationenwörterbuch
Haustür ? Haus
? Tür Fristlose Kündigung
?fristlos ? Frist
?Kündigung Kindergarten ?Kindergarten Kinders
tuhl ?Kind
?Stuhl
Eintrag im Relationen- Wörterbuch hat
Priorität vor Zerlegung
10
?
Was leisten lexikonbasierte Programme?
  • Selektion sinntragender Stichwörter
  • Nur die Wörter, die im Wörterbuch stehen, werden
    in den Index übernommen
  • Reduktion von Wortformen im Text auf ihre
    Grundform
  • Zerlegung von Komposita (Dekomposition)
  • Phrasenerkennung / Bindestrichergänzungen
  • Wortsubstitution / Thesaurusfunktion
  • Einschränkung hoher Entwicklungs- und
    Pflegeaufwand
Write a Comment
User Comments (0)
About PowerShow.com