Sprache, Wissen, Lernen -- eine Suche durch die KI mit dem Kriterium near(X, chr) Katharina Morik - PowerPoint PPT Presentation

About This Presentation
Title:

Sprache, Wissen, Lernen -- eine Suche durch die KI mit dem Kriterium near(X, chr) Katharina Morik

Description:

Sprache, Wissen, Lernen eine Suche durch die KI mit dem Kriterium nearX, chr Katharina Morik – PowerPoint PPT presentation

Number of Views:140
Avg rating:3.0/5.0
Slides: 22
Provided by: kathari97
Category:
Tags: chr | com | dem | die | durch | eine | ibc | katharina | kriterium | lernen | mit | morik | near | sprache | suche | wissen

less

Transcript and Presenter's Notes

Title: Sprache, Wissen, Lernen -- eine Suche durch die KI mit dem Kriterium near(X, chr) Katharina Morik


1
Sprache, Wissen, Lernen -- eine Suche durch die
KI mit dem Kriterium near(X, chr)Katharina Morik
2
Die Suche
  • Sprache
  • Wissen
  • Lernen
  • noch mehr Lernen
  • Das Ziel
  • Künstliche Intelligenz
  • Menschengerechtes Verhalten
  • Autonomie

3
Sprache
  • Verstehen, was Menschen tun, wenn sie sprechen
  • Natürlichsprachliche Kommunikation mit Rechnern
    ermöglichen
  • Datenbanken
  • Technische Geräte
  • Roboter
  • Repräsentation
  • Grammatik
  • Lexikon
  • Semantik
  • Dialoggedächtnis
  • Hintergrundwissen

4
Texte, Dokumente
  • Texte automatisch klassifizieren, gruppieren
  • Repräsentation Bag of words ergibt
    Dimensionalität 100 000.Die meisten
    Lernalgorithmen sind in der Laufzeit abhängig von
    der Dimensionalität!
  • Jedes Wort ist wichtig Das Weglassen eines
    Wortes vom Korrelationsrang 9947 senkt die
    Klassifikationsgüte!
  • Zwei Dokumente über das selbe Thema haben nur die
    Stoppwörter gemeinsam!
  • Wortvektoren sind spärlich besetzt -- die meisten
    Wörter kommen in einem Dokument nicht vor.
  • T. Joachims 2002 Learning to Classify Text using
    Support Vector Machines

5
Warum und wann ist die SVM gut für
Textklassifikation?
  • SVM iteriert nicht über alle Attribute eines
    Beispiels, sondern hängt ab von der Euklidschen
    Länge der Vektoren.
  • Wortvektoren sind spärlich besetzt, also ist die
    Euklidsche Länge klein.
  • Folglich ist die SVM nicht bedroht durch die hohe
    Dimension der Wortvektoren.
  • Theoretische Resultate beachten
  • die Zipf-Verteilung der Worthäufigkeiten,
  • den Vektorraum mit der Euklidschen Länge,
  • die Einsicht, dass Wörter einer Gruppe mit einer
    bestimmten Häufigkeit vorkommen müssen, nicht ein
    bestimmtes Wort!
  • (Joachims 2002)

6
Information aus Texten extrahieren
  • Named Entity Recognition
  • Repräsentation Wortfolge
  • Verfahren Conditional Random Fields
  • Die wahrscheinlichste Zustandssequenz für eine
    Beobachtungssequenz ist die, die die meisten
    (gewichteten) Merkmale erfüllt (Viterbi
    algorithm).

Transition feature if i-1th state is PER and
ith state is O, return 1
State feature given observation Hamburg, i-th
state is LOC, return 1
7
NER Plug-in to RapidMiner
8
Relationen aus Texten extrahieren
  • Relationen zwischen Named Entities
  • livesIn Person ? Loc
  • merge Org ? Org
  • rules Person ? Org
  • Texte sind annotiert mit NE labels und relation
    labels.
  • Aufgaben finde Relationsinstanzen
  • Es gibt eine Relation in dem Satz
  • livesIn(Peter, Dortmund) ist eine Relation in dem
    Satz
  • Verwendung von Baumkernfunktion und Wortmerkmalen
    Diplomarbeit Martin Had (2009)

9
Experiment
  • HTML-Data aus Google ziehen,TagSoup - SAX parser
    für gutes HTML,XPath für gute Texte,OpenNLP für
    Aufteilung in Sätze,Stanford parser trainiert
    für Deutsch
  • NE company, relation merge
  • Training set427 positive Beispiele931 negative
    Beispiele
  • Test set103 positive Beispiele 235 negative
    Beispiele
  • ParameterC 50.2 (SVM Fehlertoleranz)? 0.4
    (Balance Baumkern, Wortmerkmale)
  • Accuracy 79.29
  • F-measure 57.31

10
Web of Economy
11
Wissen --- MOBAL
  • Eingeschränkte Prädikatenlogik
  • Inferenzmaschine mit 4 Wahrheitswerten
  • Balanced cooperative modeling alles, was der
    Benutzer eingeben kann, kann auch gelernt werden!
  • STT -- Sorten der Argumente
  • RDT -- metadatengestütztes Regellernen
  • KRT -- Revision von Regeln aufgrund von
    Widersprüchen
  • CLT -- Begriffsbildung auf der Basis von KRT
  • Ohne Wartung jahrelang an 30 Orten im Einsatz
  • Weiterentwicklung des Regellernens
  • RDT/dm (Brockhausen,Münstermann )
  • Cilgg (Kietz)
  • Subgruppenentdeckung (Wrobel et al.)

12
Wissenserwerb kognitiv -- The Day Night Cycle
  • Empirische Untersuchung (Vosniadou, Brewer 1992,
    1994)
  • 60 Kinder im Alter von 6 11,1., 3., 5. Klasse
  • Fragen der Art Where is the sun at
    night?,How does this happen? und
  • schematische Zeichnungen Now make it so it is
    day for the person!
  • 9 Erklärungstypen (valide Modelle)
  • Formalisierung der Erklärungstypen in MOBAL
  • Eingabe wahrer Fakten -- Widerspruchserkennung
    und - auflösung durch MOBAL führt zu neuem
    Modell.
  • Zuordnung des neuen Modells zu kindlichem
    Erklärungstyp

Modell 4
Modell 1
Modell 5
13
Simulation
Widersprüche zu Modell 9
Minimale Menge wahrer Eingaben
Fakten Modell 1
Fakten Modell 8
...
Kontroll- modell 1
Kontroll- modell 8
Beispiele aus dem Alltag
...
14
Mögliche Theorieentwicklungen
15
Nie mehr als 4 Eingaben erforderlich
  • Falsche Zwischenmodelle,
  • die Wahl eines günstigen (falschen)
    Ausgangsmodells erleichtern das Lernen.
  • Kognitionswissenschaft und
    Komplexitätstheorie haben mehr gemeinsam, als
    man denkt!

16
Wie geht es weiter?
Lernen
  • Eingebettete Systeme und Data Mining
  • Energie-effiziente Algorithmen
  • Hochdimensionale, dicht besetzte Daten
  • Exonanalyse bei Neuroblastomen
  • Analyse von astrophysikalischen Daten

Dortmund
Knowledge Discovery for Ubiquitous Computing
17
Worst-Case Execution Time Heuristics for
Function-Inlining
  • Standard-Heuristiken werden durch die
    Random-Forest-gelernte Funktion übertroffen 9,3
    weniger WCET
  • 84.0 und 83.5 accuracy für ScratchPadMemory and
    Flash Memory, leave-1-out Kreuzvalidierung

C- Source
High-levelrepresentation
C-Parser
Codegenerator
Marwedel, Morik
18
Prediction of Neuroblastoma Survival
  • Gen-Probe-Ebene Gen-Daten von 67
    Neuroblastom-Patienten, Vorhersage des Rückfalls
  • Üblich erst Merkmalsauswahl, dann
    Kreuzvalidierung der Vorhersage, so erzielten
    wir RBF-SVM 81 accuracy. Neu Kreuzvalidierung
    um Merkmalsauswahl UND Vorhersage 78 accuracy.
    (Cancer Letter 2009)
  • Exons 250.000 Exons, 131 Patienten, Vorhersage
    des Rückfalls
  • Merkmalsauswahl durch SVM-Gewichtung auf Exons
    mit Expression gt t innere Kreuzvalidierung 97
    accuracy äußere Kreuzvalidierung bei
    SVM-Gewichtung 69.
  • Merkmalsauswahl durch Ensemble der top-k SVM
    gewichteten innere Kreuzvalidierung 97
    accuracy äußere Kreuzvalidierung 78,6 accuracy.
  • Exons des Gens JARID1C fanden sich in den meisten
    top-k Labortest bestätigt die Wirkung.

Eggert, Schramm, Morik
19
MAGIC
20
IceCube
21
Der Weg ist das Ziel
  • Wir wollten menschengerechte Systeme, die uns
    Arbeit abnehmen können.
  • Große Datenmengen durchsuchen und analysieren,
    Prognosen stellen
  • Dokumente (WWW)
  • Datenbanken
  • Sensormessungen
  • An Situationen adaptieren
  • Mobiltelefon für Benutzerprofil adaptieren
  • Teleskop anhand erster Messungen auf
    Partikelstrom ausrichten
  • Wir sind Ingenieure gewordenWir haben Systeme
    entwickelt, die weltweit im Einsatz sind.
  • Was passiert, wenn all die kleinen Geräte mit
    Lernfähigkeit ausgestattet sind?

Lernen
Write a Comment
User Comments (0)
About PowerShow.com