Sprache, Wissen, Lernen -- eine Suche durch die KI mit dem Kriterium near(X, chr) Katharina Morik - PowerPoint PPT Presentation

About This Presentation

Title:

Sprache, Wissen, Lernen -- eine Suche durch die KI mit dem Kriterium near(X, chr) Katharina Morik

Description:

Sprache, Wissen, Lernen eine Suche durch die KI mit dem Kriterium nearX, chr Katharina Morik – PowerPoint PPT presentation

Number of Views:140

Avg rating:3.0/5.0

Slides: 22

Provided by: kathari97

Category:

more less

Transcript and Presenter's Notes

Title: Sprache, Wissen, Lernen -- eine Suche durch die KI mit dem Kriterium near(X, chr) Katharina Morik

1
Sprache, Wissen, Lernen -- eine Suche durch die
KI mit dem Kriterium near(X, chr)Katharina Morik
2
Die Suche

Sprache
Wissen
Lernen
noch mehr Lernen
Das Ziel
Künstliche Intelligenz
Menschengerechtes Verhalten
Autonomie

3
Sprache

Verstehen, was Menschen tun, wenn sie sprechen
Natürlichsprachliche Kommunikation mit Rechnern
ermöglichen
Datenbanken
Technische Geräte
Roboter
Repräsentation
Grammatik
Lexikon
Semantik
Dialoggedächtnis
Hintergrundwissen

4
Texte, Dokumente

Texte automatisch klassifizieren, gruppieren
Repräsentation Bag of words ergibt
Dimensionalität 100 000.Die meisten
Lernalgorithmen sind in der Laufzeit abhängig von
der Dimensionalität!
Jedes Wort ist wichtig Das Weglassen eines
Wortes vom Korrelationsrang 9947 senkt die
Klassifikationsgüte!
Zwei Dokumente über das selbe Thema haben nur die
Stoppwörter gemeinsam!
Wortvektoren sind spärlich besetzt -- die meisten
Wörter kommen in einem Dokument nicht vor.
T. Joachims 2002 Learning to Classify Text using
Support Vector Machines

5
Warum und wann ist die SVM gut für
Textklassifikation?

SVM iteriert nicht über alle Attribute eines
Beispiels, sondern hängt ab von der Euklidschen
Länge der Vektoren.
Wortvektoren sind spärlich besetzt, also ist die
Euklidsche Länge klein.
Folglich ist die SVM nicht bedroht durch die hohe
Dimension der Wortvektoren.
Theoretische Resultate beachten
die Zipf-Verteilung der Worthäufigkeiten,
den Vektorraum mit der Euklidschen Länge,
die Einsicht, dass Wörter einer Gruppe mit einer
bestimmten Häufigkeit vorkommen müssen, nicht ein
bestimmtes Wort!
(Joachims 2002)

6
Information aus Texten extrahieren

Named Entity Recognition
Repräsentation Wortfolge
Verfahren Conditional Random Fields
Die wahrscheinlichste Zustandssequenz für eine
Beobachtungssequenz ist die, die die meisten
(gewichteten) Merkmale erfüllt (Viterbi
algorithm).

Transition feature if i-1th state is PER and
ith state is O, return 1
State feature given observation Hamburg, i-th
state is LOC, return 1
7
NER Plug-in to RapidMiner
8
Relationen aus Texten extrahieren

Relationen zwischen Named Entities
livesIn Person ? Loc
merge Org ? Org
rules Person ? Org
Texte sind annotiert mit NE labels und relation
labels.
Aufgaben finde Relationsinstanzen
Es gibt eine Relation in dem Satz
livesIn(Peter, Dortmund) ist eine Relation in dem
Satz
Verwendung von Baumkernfunktion und Wortmerkmalen
Diplomarbeit Martin Had (2009)

9
Experiment

HTML-Data aus Google ziehen,TagSoup - SAX parser
für gutes HTML,XPath für gute Texte,OpenNLP für
Aufteilung in Sätze,Stanford parser trainiert
für Deutsch
NE company, relation merge
Training set427 positive Beispiele931 negative
Beispiele
Test set103 positive Beispiele 235 negative
Beispiele
ParameterC 50.2 (SVM Fehlertoleranz)? 0.4
(Balance Baumkern, Wortmerkmale)
Accuracy 79.29
F-measure 57.31

10
Web of Economy
11
Wissen --- MOBAL

Eingeschränkte Prädikatenlogik
Inferenzmaschine mit 4 Wahrheitswerten
Balanced cooperative modeling alles, was der
Benutzer eingeben kann, kann auch gelernt werden!
STT -- Sorten der Argumente
RDT -- metadatengestütztes Regellernen
KRT -- Revision von Regeln aufgrund von
Widersprüchen
CLT -- Begriffsbildung auf der Basis von KRT
Ohne Wartung jahrelang an 30 Orten im Einsatz
Weiterentwicklung des Regellernens
RDT/dm (Brockhausen,Münstermann )
Cilgg (Kietz)
Subgruppenentdeckung (Wrobel et al.)

12
Wissenserwerb kognitiv -- The Day Night Cycle

Empirische Untersuchung (Vosniadou, Brewer 1992,
1994)
60 Kinder im Alter von 6 11,1., 3., 5. Klasse
Fragen der Art Where is the sun at
night?,How does this happen? und
schematische Zeichnungen Now make it so it is
day for the person!
9 Erklärungstypen (valide Modelle)
Formalisierung der Erklärungstypen in MOBAL
Eingabe wahrer Fakten -- Widerspruchserkennung
und - auflösung durch MOBAL führt zu neuem
Modell.
Zuordnung des neuen Modells zu kindlichem
Erklärungstyp

Modell 4
Modell 1
Modell 5
13
Simulation
Widersprüche zu Modell 9
Minimale Menge wahrer Eingaben
Fakten Modell 1
Fakten Modell 8
...
Kontroll- modell 1
Kontroll- modell 8
Beispiele aus dem Alltag
...
14
Mögliche Theorieentwicklungen
15
Nie mehr als 4 Eingaben erforderlich

Falsche Zwischenmodelle,
die Wahl eines günstigen (falschen)
Ausgangsmodells erleichtern das Lernen.
Kognitionswissenschaft und
Komplexitätstheorie haben mehr gemeinsam, als
man denkt!

16
Wie geht es weiter?
Lernen

Eingebettete Systeme und Data Mining
Energie-effiziente Algorithmen
Hochdimensionale, dicht besetzte Daten
Exonanalyse bei Neuroblastomen
Analyse von astrophysikalischen Daten

Dortmund
Knowledge Discovery for Ubiquitous Computing
17
Worst-Case Execution Time Heuristics for
Function-Inlining

Standard-Heuristiken werden durch die
Random-Forest-gelernte Funktion übertroffen 9,3
weniger WCET
84.0 und 83.5 accuracy für ScratchPadMemory and
Flash Memory, leave-1-out Kreuzvalidierung

C- Source
High-levelrepresentation
C-Parser
Codegenerator
Marwedel, Morik
18
Prediction of Neuroblastoma Survival

Gen-Probe-Ebene Gen-Daten von 67
Neuroblastom-Patienten, Vorhersage des Rückfalls
Üblich erst Merkmalsauswahl, dann
Kreuzvalidierung der Vorhersage, so erzielten
wir RBF-SVM 81 accuracy. Neu Kreuzvalidierung
um Merkmalsauswahl UND Vorhersage 78 accuracy.
(Cancer Letter 2009)
Exons 250.000 Exons, 131 Patienten, Vorhersage
des Rückfalls
Merkmalsauswahl durch SVM-Gewichtung auf Exons
mit Expression gt t innere Kreuzvalidierung 97
accuracy äußere Kreuzvalidierung bei
SVM-Gewichtung 69.
Merkmalsauswahl durch Ensemble der top-k SVM
gewichteten innere Kreuzvalidierung 97
accuracy äußere Kreuzvalidierung 78,6 accuracy.
Exons des Gens JARID1C fanden sich in den meisten
top-k Labortest bestätigt die Wirkung.

Eggert, Schramm, Morik
19
MAGIC
20
IceCube
21
Der Weg ist das Ziel

Wir wollten menschengerechte Systeme, die uns
Arbeit abnehmen können.
Große Datenmengen durchsuchen und analysieren,
Prognosen stellen
Dokumente (WWW)
Datenbanken
Sensormessungen
An Situationen adaptieren
Mobiltelefon für Benutzerprofil adaptieren
Teleskop anhand erster Messungen auf
Partikelstrom ausrichten
Wir sind Ingenieure gewordenWir haben Systeme
entwickelt, die weltweit im Einsatz sind.
Was passiert, wenn all die kleinen Geräte mit
Lernfähigkeit ausgestattet sind?

Lernen

Write a Comment

User Comments (0)