2 Faktenextraktion: - PowerPoint PPT Presentation

About This Presentation
Title:

2 Faktenextraktion:

Description:

2 Faktenextraktion: bersicht Faktenextraktion - zwischen Information Retrieval und Sprachverstehen Message Understanding Conferenc (MUC) Wettbewerb: – PowerPoint PPT presentation

Number of Views:57
Avg rating:3.0/5.0
Slides: 12
Provided by: schw197
Category:

less

Transcript and Presenter's Notes

Title: 2 Faktenextraktion:


1
2 Faktenextraktion Übersicht
  • Faktenextraktion - zwischen Information Retrieval
    und Sprachverstehen
  • Message Understanding Conferenc (MUC)
    Wettbewerb IR-Fragestellung
    "Relevant sind alle Artikel, die eine
    Wirtschaftsprognose für 2003 abgeben und eine
    Aussage zum Haushaltsdefizit machen."
  • NLP-Fragen "Wie hoch ist das
    Haushaltsdefizit voraussichtlich in 2003?"
    Wie lautet die Schätzung für das
    Wirtschaftswachstum in 2003 ?"

Siehe Tutorial von Appelt, SRI, Tutorial 1999.
Wilckes Information Extraction, TR.
(elektronischer Reader)
2
Einschränkungen gegenüber NLP
  • Nur Teile des Inhalts "relevant"
  • Wie spezifiziert man den?
  • z.B. Datenbankschem
  • ButtoSProd ( Jahr, Wert), ......,
  • WachstumProg (Inst, Datum, fürJahr, Wert)
  • Faktenmuster ltNPgt ltVPgt Zahl ltProzgt
  • ltVPgtltNPgt Zahl ltProzgt
  • Trigger NPWirtschaftswachstum
    VPbetragenPrognose ist...
  • ProzProzent

3
Methoden zur Regeldefinition
  • Wie findet man die Extraktionsregeln?
  • Manuell / intellektuell ("Knowledge Engineering
    Ansatz") - Wissen über die Anwendung
    ("Domänen-Wissen") - Sprachliches Wissen
    (Grammatik, Wortsemantik..) gt
    Regel-Definition in Handarbeit
  • Aufwendig! Relativ gute Ergebnisse für
    eingeschänkte Anwendungsbereiche.
  • Statistische Techniken
  • - Regeln durch Analyse großer Corpora lernen
  • - Überwachtes Lernen (Trainer) nützlich
  • gt Aufwand geringer, aber Trainingsdaten?
  • Statistische Techniken wichtig, s. o.

4
Grobarchitektur

Wortzerlegung
Morphologische / lexikalische Analyse
  • Typisch für alle Sprach- verarbeitungssysteme
  • Was ist spezifisch für FE / IE ?

Parsing
Feedback zur Disambiguierung
Semantik / Anwendungskontext
5
FE und NLP
  • FE sehr große Textmengen
  • Effizienz ist ein Thema
  • Texte nicht notwendig korrekt (grammatisch,
    Rechtschreibung,..)
  • Robuste Parsing-Techniken
  • Endliche Automaten für Parsing
  • Gegenstandsbereich wichtig
  • Domänenwissen in jeden Verarbeitungsschritt
    einbeziehen
  • -gt FE Technologie Vereinfachungen gegenüber
    Natural Language Processing. Aber
    Unterschiedliche Schulen

6
Wortzerlegung
  • Trivial ?

Nein! Sprachabhängig, nicht jede Sprache kennt
die Auflösung einer Äußerung in Worte. Aber
Englisch, Deutsch.....
Erkennen von Satzendungen? "Einer sog.
Abstraktion kommt in der Informatik große
Bedeutung zu."
Dennoch eher einfaches Problem.
7
Morphologie
  • Dictionary look up (Lexikon) mit / ohne
    FlexionsformenIn machen Sprachen sehr viele
    Formen (Finnisch 10000 mögliche Verformen!!)
  • Part-Of-Speech TaggingSammelbegriff für die
    Zuweisung von syntaktischen Kategorien (auch
    grammatikalische Kategorien statt POST).
  • FE eher untergeordnete Bedeutung (Appelt), da
    keine vollständige syntaktische Analyse
  • Auch Eigennamen zuordnen
  • "General Electric", "Yesterday Microsoft
    announced....", "The Redmond Microsoft branch.."



    )

8
Name Tagger
  • Stastisch Hidden Markov Modelle
  • Annahme Es gibt einen probabilistischen
    endlichen Automaten, der mit jedem Eingabewort
    schaltet. Pfad vom Start- zum Endknoten liefert
    Wahrscheinlichkeit für die Interpretation eines
    Namens aus verschiedenen Konstituenten (hier).
    z.B. "John Smith" (Person) , "John Deere"
    (Firmenname)
  • Lernverfahren anwendbar!
  • Regelbasiert
  • z.B. Sequenz von Worten, die mit Großbuchstaben
    beginnen......, sind Eigennamen (im
    Englischen!).
  • Wenn dem Wort w direkt GmbH AG Inc. folgt,
    handelt es sich um Firmennamen.

9
Syntax
  • "Full parsing" oder "Shallow parsing" ?
  • "Finite State Grammers" (reguläre Sprache ?!)
    reicht für Erkennung von einfachen Fakten.
  • Schwierige grammatikalische Konstrukte weglassen
    oder auflösen (Konjunktion -gt 2 Sätze)
  • Fehler haben oft andere Ursachen als falsche
    syntaktische Zerlegung.
  • Keine binäre Entscheidung genauere Kenntnis der
    syntaktischen Struktur ist nicht per se
    schädlich.
  • Verhältnis von Aufwand und Nutzen.

10
Semantik
  • "Molekularer Ansatz"
  • Finde induktiv Sprachmuster für die relevanten
    Fakten (Lesen von Texten, markieren, Regeln
    aufstelle
  • "ltInstitutgt ltrechen prognostizierengt
    ltWachstum.. von ltZahlgt"
  • Keine Trennung von sprachlicher Formulierung von
    Fakten und formaler Repräsentation (z.B.
    DB-Schema)
  • verspricht hohe Präzision, geringeren Recall
  • "Atomarer Ansatz"
  • Finde die wichtigen Konstituenten "Institute"
    "Wachstum" "Prognose" Würde (evtl. !)
    erkennen "Die Institute sind sich sicher, dass
    das Bruttosozialprodukt sich um 2 erhöhen wird"
  • Ableiten von Fakten aus Konstituenten.

11
Zusammenfassung
  • Faktenextraktion einfacher als Textverstehen.
  • .... aber ....
  • viele Probleme des Textverstehens tauchen auch
    hier auf.
  • Statistische Techniken scheinen sinnvoll
  • Lernen von Mustern
  • Lernen von Eigennamen etc.
  • Grammatik
  • Nutzen von Metatags (XML etc.?)
  • Anwendungen
  • Verbesserung von Information Retrieval als
    wichtige Anwendung.
  • Abfragbare Datenbanken aufbauen schwierig, aber
    nützlich.
Write a Comment
User Comments (0)
About PowerShow.com