Informationsintegration

About This Presentation

Title:

Informationsintegration

Description:

Title: Das XML-Datenbanksystem Tamino Author: Thomas Kudrass Last modified by: Kudrass Document presentation format: Overheadfolien Other titles: Times New Roman ... – PowerPoint PPT presentation

Number of Views:64

Avg rating:3.0/5.0

Slides: 63

Provided by: ThomasK67

Category:

more less

Transcript and Presenter's Notes

Title: Informationsintegration

1
Informationsintegration
2
Einführung

Traditionelle Datenbankverarbeitung zentralisiert
Administrationsvorteile
Leistungs- und Verfügbarkeitsproblem
Entwicklung verteilter Informationssysteme
Hohe Leistungsfähigkeit
Skalierbarkeit
Hohe Verfügbarkeit
Verteilungstransparenz
Unterstützung dezentraler Organisationsstrukturen
Integrierter Zugriff auf heterogene Datenbanken
Data Warehousing
Unternehmensportale
Einfache Systemadministration, Hohe
Kosteneffektivität

3
Einführung (2)

Zusammenführung von Daten und Inhalten aus
verschiedenen Quellen zu einer einheitlichen
Menge von Informationen
Aufnahme zusätzlicher Komponenten, um Angebot zu
vergrössern und zu verbessern
Randbedingungen
Einbindung soll integriert erfolgen
Systeme der eingebundenen Partner bleiben autonom
Für die Einbindung keine grossen Änderungen
Integrierte vs. Föderative Mehrrechner-DBS

4
Überblick

Grundbegriffe
Integrationsansätze
Materialisierte Integration
Virtuelle Integration
Architektur föderierter Systeme
Integrationskonflikte
Schemaintegration
Integration mittels Mashups
Zusammenfassung

5
(Knoten)-Autonomie

Grad, zu dem verschiedene DBMS unabhängig
kooperieren können
Hoher Grad an Autonomie ? Föderiertes System (oft
lose gekoppelt)
Arten der Autonomie
Design-Autonomie (Wahl des DBMS, Wahl der
Ablaufumgebung)
Ausführungsautonomie (vs. globales
Transaktionsmanagement)
Kooperationsautonomie / Kommunikationsautonomie
Autonomie als organisatorisches Problem
Beschneidung von Kompetenzen und Verantwortungen
einzelner Systemverantwortlicher

6
Begriff Föderation

Vgl. Beispiel Bundesrepublik Deutschland
Bundesländer bedingt autonom
Konflikte durch konkurrierende Gesetzgebung
Weitere Föderationen
Europäische Union
Vereinigte Staaten von Amerika
Vereinte Nationen (UNO)
Charakter einer Föderation
Grad der verbleibenden Autonomie
Heterogenität der beteiligten (Teil-)Staaten
Übertragbarkeit auf Informationssysteme ?

7
Architekturvarianten
8
Heterogenität

Hoher Grad an Autonomie führt zu einer wachsenden
Heterogenität ? Unterschiedlichkeit von
miteinander verbundenen Informationssystemen
Dimension Heterogenität
Technische Heterogenität (syntaktische Ebene)
Datenmodellbasierte Heterogenität
Logische Heterogenität
Semantische Heterogenität (Synonyme, Homonyme)
Schemabasierte Heterogenität
Strukturelle Heterogenität
Heterogenitäten zu überbrücken ist die
Kernaufgabe der Integration!

9
Integrations-Beispiel

Starke Heterogenität der Systeme
Quelle 1 Oracle-Datenbank ? Zugriff über JDBC
Quelle 2 CORBA Schnittstelle, über die auf den
Informationsbestand zugegriffen werden kann
Quelle 3 XML-Datenbanksystem ? Zugriff mittels
XML-Standards (XPath, XQuery)
Quelle 4 Angebot von statischen HTML-Seiten ?
Zugriff via HTTP-Protokoll
Alle Quellen verwenden unterschiedliche Schemata
Entkopplung durch eine Zwischenschicht, die eine
integrierte Sicht zur Verfügung stellt

10
Anbindung virtuell vs. materialisiert
Systeme zur Datenintegration
Verteilte Anfragebearbeitung
Kopieren der Daten
Materialisierte Integration
Virtuelle Integration
Strukturierte Anfragen
Unstrukturierte Anfragen
(Semi-) Strukturierte Daten
Updates, Transaktionen
Leseoperationen
Mediatoren-Systeme
Föderierte DBS
(Meta-)Suchmaschinen
Data Warehouses
11
Materialisierte Integration
12
Virtuelle Integration Mediatorbasierte
Informationssysteme
Anwendung 1
Anwendung 2
Schaffung leicht-gewichtiger, verwaltbarer
Mediatoren ?Kopplung verschiedener Mediatoren zu
einer mehrschichtigen Föderationsarchitektur
Mediator
Daten aus verschiedenen Quellen müssen
zusammengefasst werden Schema Mapping
Mediator
Wrapper
Wrapper
Wrapper
Quelle 1
Quelle 2
Quelle 3
13
Mediatorbasierte IS - Beispiel
Benutzer wählt aus Kategorie gtgtBohrmaschinenltlt
unter 250,-
Generierung der Anfrage SELECT Name, Preis,
Bewertung WHERE Preis lt 250 AND Kategorie
Bohrmaschine
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
14
Mediatorbasierte IS Beispiel (2)
Anfragezerlegung Übersetzung ins Schema der
Quellen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
15
Mediatorbasierte IS Beispiel (3)
Übersetzung in Quellenanfragen Absetzen der
Anfragen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
16
Mediatorbasierte IS Beispiel (4)
Zusammenführung der Ergebnisse einer
Quelle Transformation in das gemeinsame
Datenmodell und Ausführung von Filteroperationen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
Quellen liefern Ergebnis zurück
17
Mediatorbasierte IS Beispiel (5)
Aufbereitung der Ergebnisse für den Benutzer
Übersetzung ins Informationsmodell des
Portales z.Bsp. Artikelname -gt Name Verschmelzen
der Ergebnismengen
Sammeln der Ergebnisse
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
18
Typen von föderierten IS
Föderierte Informationssysteme
Föderiertes Schema
Kein Föderiertes Schema
Komponenten sind nicht nur Datenbanken
Komponenten sind Datenbanken
Lose gekoppelte Informationssysteme
Föderierte Datenbanksysteme
Mediator-basierte Informationssysteme
19
Systemarchitektur föderierter DBS
Globale Anwendungen
Globale Anwendungen
Föderierungsdienst
Metadaten
Lokale Anwendungen
Lokale Anwendungen
Datenbanksystem
Datenbanksystem
Datenbank
Datenbank
Komponentensystem
Komponentensystem
Föderiertes DBS
20
5-Ebenen-Schema-Architektur
Föderiertes Datenbanksystem
Externes Schema
Externes Schema
Föderiertes (globales) Schema
Anfragebearbeitung
Integration
Schemaintegration
Exportschema
Exportschema
Auswahl der zu integrierenden Teile
Komponentenschema
Komponentenschema
Übersetzung in gemeinsames Datenmodell
Lokales Schema
Lokales Schema
Datenbank
Datenbank
21
Global-As-View Beispiel
Bottom-Up-Integration
Lokale Schemata V1 IMDB(Titel, Regie, Jahr,
Genre) V2 MyMovies(Titel, Regie, Jahr, Genre)
Bekannte Nebenbedingung auf dem globalen Schema
kann modelliert werden.
Globales Schema NeuerFilm(Titel, Regie, Jahr,
Genre) Programm(Kino, Titel, Zeit) Nebenbedingung
Jahr gt 2000
CREATE VIEW NeuerFilm AS SELECT FROM IMDB WHERE
Jahr gt 2000 UNION SELECT FROM MyMovies WHERE
Jahr gt 2000
22
Local-As-View Beispiel
Top-Down-Integration
Lokales Schema V3 KinoDB(Kino, Genre)
Assoziationen des globalen Schemas können in der
Sicht hergestellt werden.
Globales Schema Film(Titel, Regie, Jahr,
Genre) Programm(Kino, Titel, Zeit)
CREATE VIEW V3 AS SELECT Programm.Kino,
Film.Genre FROM Film, Programm WHERE Film.Titel
Programm.Titel
23
Anwendungsgebiete föderierter DBS

Meta-Suchmaschinen
Digitale Bibliotheken
Unternehmensfusionen
Kundendatenbanken
Personaldatenbanken
Krankenhausinformationssysteme
Krankheitsverlauf (Akte)
Verwaltung
Krankenkasse
Geo-Informationssysteme

24
Integrationsprozess (virtuelle Integration)

Bildung eines globalen Schemas (Schemaintegration)
Generierung von Wrappern für jede Datenquelle
Softwarekomponente
Mapping von lokalen Schemata auf globales Schema
Kennt Anfragefähigkeiten der Quellen
Daten bleiben vor Ort
Informationsquellen sind autonom

25
Integrationsprozess (materialisierte Integration)

Keine wirklich einheitliche und durchgängige
Methodik für die Durchführung der Integration
vorhanden
5 Phasen des Integrationsprozesses
Analyse der zu integrierenden Datenquellen
Transformation der gegebenenfalls heterogenen
Beschreibungen der Daten (Datenbankschemata) in
ein gemeinsames Datenmodell
Feststellung der sich semantisch entsprechenden
Daten (Angabe sogenannter Korrespondenzen)
Ableitung eines integrierten Schemas
Integration der Daten

26
Binäre vs. n-äre Integration
27
Probleme beim Integrationsprozess

Datenbankschemata oft nicht vollständig
Datenquellen oft "semistrukturiert", oder es gibt
überhaupt kein Datenbankschema
In Altsystemen Semantik der Daten in der
Datenbank nicht vollständig bekannt
Korrespondenzen und Abhängigkeiten zwischen Daten
aus verschiedenen Quellen sind nicht bekannt
Wie ist die Heterogenität zu überwinden?

28
Kriterien für Integrationsmethoden

Vollständigkeit (Completeness)
Alle Informationen aus lokalen Schemata erhalten
Korrektheit (Correctness)
Neue Beziehungen dürften vorhandene Schemata
konsistent ergänzen
Minimalität (Minimality)
Vermeidung von Redundanz
Verständlichkeit (Understandability)
Bekanntes aus lokalem Schema ins föderierte
Schema übernehmen
Vergleich mit traditionellem DB-Entwurf?

29
Klassifizierung von Integrationskonflikten

Datenmodell-Heterogenität
Unterschiedliche Semantik
Unterschiedliche Struktur
Schema- oder Modellierungsheterogenität
Strukturelle Konflikte
Extensionale Konflikte
Beschreibungskonflikte
Heterogenität auf Datenebene (Datenkonflikt)

30
Datenmodellkonflikte

Vielzahl an Datenmodellen mit unterschied-lichen
Modellierungskonstrukten
objektorientiert, relational, XML, hierarchisch,
objektrelational
Beispiele
Mengenwertige Attribute (objektrelational) vs.
Fremdschlüsselbeziehung (relational)
Modellierung von Spezialisierung im relationalen
Modell (mindestens 3 Varianten)
Konstrukte eines Datenmodells werden oft nicht
vollständig oder falsch verwendet

31
Schematische Heterogenität

Unterschiedliche Modellierung gleicher
Sachverhalte
Strukturelle Konflikte
Modellierung Relation vs. Attribut, Attribut vs.
Wert, Relation vs. Wert
Benennung Relationen, Attribute
Geschachtelt vs. Fremdschlüssel

Person ( Id, Vorname, Nachname, Männlich,
Weiblich )
Männer (Id, Vorname, Nachname) Frauen (Id,
Vorname, Nachname)
32
Schematische Heterogenität (2)

Tabellen Tabellen Konflikte
Namenskonflikte (gleiche Namen aber
unterschiedliche Tabellen)
Strukturkonflikte (fehlende Attribute)
Attribut Attribut Konflikte
Namenskonflikte (gleiche Namen aber
unterschiedliche Attribute)
Default-Wert Konflikte
IC-Konflikte (Datentypkonflikte,
Bedingungskonflikte)

33
Beschreibungskonflikte

Unterschiedliche Auswahl an erfassten
Objekteigenschaften
Homonyme und synonyme Bezeichnungen
bei Attributen, Klassen, Relationen, Beziehungen
Datentypkonflikte
Wertebereichskonflikte
Skalierungskonflikte (Maßeinheiten)
Genauigkeitskonflikte
Konflikte durch Integritätsbedingungen
Konflikte der Manipulationsoperationen

34
Beispiele für Beschreibungskonflikte
Homonyme Schloss ? Türschloss Schloss ? Gebäude
Synonyme Personal Angestellte
Datentypen int string (für Zahlen)
Skalierungen 0,153 (Meter) 153,0 (Millimeter)
Genauigkeiten 0,543 kg 0,54321 kg
Integritäts-bedingungen Gehalt lt 6000 Gehalt lt 7000
35
Synonyme

Verschiedene Worte mit gleicher Bedeutung

Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Verlag, Ejahr, Exemplare, ISBN) VERFASSER
(Pubnr, Vname) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
36
Homonyme

Gleiche Worte mit unterschiedlicher Bedeutung

Bezeichnet Unterschiede in Bedeutung,
Interpretation und Art der Nutzung
Annahme bisher ? gleiche Bezeichnung, gleiche
Semantik
Repräsentiert Objekt A die gleiche Entität wie
Objekt B? (Identifikationskonflikte)
Datenkonflikt Zwei Duplikate haben
unterschiedliche Attributwerte für semantisch
gleiches Attribut
Genauigkeitskonflikte

38
Datenkonflikte

Inkorrekte Einträge
Tippfehler bei der Eingabe von Werten
Falsche Einträge aufgrund von Programmierfehlern
Veraltete Einträge
Unterschiedliche Aktualisierungszeitpunkte
Vergessene Aktualisierungen
Verschiedene Ausdrücke / Repräsentation von
Werten
Verschiedene Datentypen (numerisch vs.
nicht-numerisch)
Unterschiedliche Schreibweisen, Genauigkeit,
Skalierung (bei gleichem Datentyp)

39
Behebung von Datenkonflikten

Angabe expliziter Werteabbildungen
Einführung von Ähnlichkeitsmaßen
Bevorzugung der Werte aus einer lokalen Quelle
Verwendung von Hintergrundwissen
Konventionen hinsichtlich Schreibweisen
Behandlung von Homonymen und Synonymen auf
Datenebene Wörterbücher, Thesauri, Ontologien
Wissensbasierte Verfahren

40
Integrationspotential

Wann ist eine Informationsintegration möglich?
Intensionale Redundanz
Wann ist eine Informationsintegration schwierig?
Extensionale Redundanz
Wann ist eine Informationsintegration nützlich?
Extensionale Komplementierung
Intensionale Komplementierung

41
Intension und Extension

Intension ? Menge der Schemainformationen und
deren Semantik
Extension ? Menge aller zur Intension gehörigen
Daten

ISBN Titel Autor
123456 Mobby Dick Herman Melville
789101 Robinson Crusoe Daniel Defoe
122222 XML-DB Karl May
Intension Extension
42
Intensionale Redundanz

Liegt vor, wenn das Entfernen von Teilen der
Intension die Gesamtintension nicht verändert.
Intensionale Redundanz auch über mehrere
Relationen und Quellen.

ISBN ID Titel Autor
3442727316 3442727316 Moby Dick Herman Melville
3491960827 3491960827 Robinson Crusoe Daniel Defoe
3462032283 3462032283 Zwölf Nick McDonell
3883891606 3883891606 Timbuktu Paul Auster
43
Intensionale Komplementierung
ISBN Autor
123456 Herman Melville
789101 Daniel Defoe
122222 Karl May
ISBN Titel
122222 XML-DB
123456 Mobby Dick
789101 Robinson Crusoe

Informationen mehrerer (sich komplementierender)
Quellen werden zu einem größeren Ganzen
integriert
Intensionale Komplementierung liegt vor, wenn von
zwei Intensionen
mindestens eine Differenz nicht leer ist,
und deren Schnittmenge nicht leer ist.

ISBN Autor
123456 Herman Melville
789101 Daniel Defoe
122222 Karl May
Titel
Mobby Dick
Robinson Crusoe
XML-DB
44
Extensionale Redundanz

Liegt vor, wenn die Menge der von zwei Quellen
gemeinsam repräsentierten Objekte nicht leer ist.

ID Autor
122222 Karl Mai
123456 Herman Melville
ISBN Autor
123456 Herman Melville
122222 Karl May
Extensionale Redundanz
Datenkonflikt
45
Zusammenfassung Redundanz

Extensionale Redundanz ermöglicht intensionale
Komplementierung
Zwei Quellen, die über gleiche Dinge sprechen,
können zu einer dichteren Quelle integriert
werden (Density)
Intensionale Redundanz ermöglicht extensionale
Komplementierung
Zwei Quellen mit gleichem Schema können zu einer
überdeckenderen Quelle integriert werden
(Coverage)

46
Schemaintegration

Ziel aus mehreren Export-Schemata ein globales
konzeptionelles Schema erstellen
Unterstützung durch geeignete Tools
Umfasst 3 Phasen
Vorintegration
Erkennung und Behebung von Konflikten
Mischen und Restrukturierung der Schemaangaben

47
Schemaintegration Beispiel

Vorintegration
Konflikterkennung Behebung
Mischen Restrukturierung

Vorintegration
Konflikterkennung Behebung
Mischen Restrukturierung

Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Vname, Jahr, Exemplare, ISBN) VERFASSER
(Pubnr, Autor) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
49
Schemaintegration Beispiel (3)

Schwierigkeit Integritätsbedingungen
Pubnr nur in der ersten und Vnr nur in der
zweiten
Datenbank bekannt
Unterschiedliche Behandlung von Autoren
Annahme zu BUCH-ISBN kann ein Pubnr Wert und
zu einem Verlagsname ein Vnr Wert bestimmt
werden
Liegen der ISBN bzw. Vname Wert bereits in
BUCHPUB bzw. VERLAG vor ergibt sich die
Zuordnung aus dem Inhalt
Gegebenfalls neue Nummern generieren
Attribut Autor aus BUCH extrahieren und in
VERFASSER überführen

Vorintegration
Konflikterkennung Behebung
Mischen Restrukturierung

50
Schemaintegration Beispiel (4)

Vorintegration
Konflikterkennung Behebung
Mischen Restrukturierung

Attribute der BUCH Relation auf BUCHP,
PUBLIKATION und VERFASSER abgebildet
Angaben von BUCHPUB befinden sich weitgehend in
BUCHP, lediglich Verlagsname nun in VERLAG

PUBLIKATION (Pubnr, Titel, Typcode) BUCHP
(Pubnr, Vnr, Jahr, Preis, Standort-STADT, Ex-UNI,
ISBN) VERFASSER (Pubnr, Autor) SCHLAGWORT (Pubnr,
Sname) VERLAG (Vnr, Vname, Adresse)
51
Prinzipien der Schemaintegration

Korrespondenzen
Element-Korrespondenzen (z.B. Klassen,
Relationen)
Attribut-Korrespondenzen
Pfad-Korrespondenzen
Korrespondenzen auf Basis von Mengenbeziehungen
Äquivalenz
Teilmengenbeziehung / Einschluß
Überlappung
Disjunktheit

52
Integrationsregeln (1)

Regel 1 Unabhängige ElementeJedes
Schemaelement, zu dem es keine Korrespondenz mit
einem Schemaelement des anderen Schema gibt, wird
unverändert ins föderierte Schema übernommen.

53
Integrationsregeln (2)

Regel 2 Äquivalente ElementeSind 2
Schemaelemente der zu integrierenden Schemata
über eine Element-Korrepondenz als äquivalent
bestimmt, so werden diese beiden Schemaelemente
im föderierten Schema durch genau ein
Schemaelement repräsentiert.

Integrationsregeln für Attribute
Attribute ohne Korrespondenz unverändert
übernehmen
2 Attribute mit Gleichheits-Korrespondenz ? zu
einem Attribut im föderierten Schema
zusammenfassen
Bei Teilmengen-Korrespondenz ? Attribut, das
Obermenge repräsentiert, ins föderierte Schema
übernehmen
Bei Überlappungs-Korrespondenz ? neues Attribut
anlegen, das die Vereinigung der beiden
Wertemenge repräsentiert, andere Form der
Zusammenführung bei Disjunktheit (z.B. Summe,
Mittelwertbildung)

54
Integrationsregeln (3)

Regel 3 Pfad-IntegrationIn der Regel müssen die
beiden zueinander in Korrespondenz stehenden
Pfade im föderierten Schema jeweils durch einen
semantisch äquivalenten Pfad abgebildet sein. Nur
falls eine Pfad-Äquivalenz als Korrespondenz
vorliegt, reicht es, wenn einer der beiden Pfade
im föderierten Schema abgebildet ist.Sind beide
Pfade vollständig im integrierten Schema
enthalten, liefert die Pfad-Korrespondenz eine
Integritätsbedingung, die auf Ebene des
föderierten Schemas zu überwachen ist.

Beispiel
KUNDE bestellt WARE ABNEHMER versorgt
WARE produziert Hersteller versorgt
PRODUZENT
abgeleitet KUNDE bestellt WARE produziert
HERSTELLER ABNEHMER versorgt PRODUZENT

55
Mashup-Ansatz zur Datenintegration

besondere Art von Anwendungen zur
Datenintegration
neuer Ansatz gegenüber klassischen
Datenintegrationsansätzen wie Data Warehouses
oder Query-Mediatoren
Entwicklung
potenzieller Kreis der Mashup-Entwickler viel
größer (evtl. ohne Programmierkenntnisse)
kurze Entwicklungszeit, frühzeitige Evaluierung
und Anpassung (Stunden, Tage)
Geeignet für Prototyping und agile
Entwicklungsmethoden

56
Arten von Mashups

Mapping-Mashups
Integrieren Daten aus online verfügbaren Karten
(maps)
Hohe Verbreitung durch Mapping-APIs (Google,
Yahoo, Microsoft)
Foto- und Video-Mashups
motiviert durch Foto-Hosting-Sites (flickr) und
Videoportale (YouTube)
Integration externer Daten mit Hilfe von
Metadaten (z.B. für aktuelle Nachrichten)
Such- und Shopping-Mashups
Anbieter Google Froogle, PriceGrabber
Vergleichsinformationen zu Produkten
verschiedener Anbieter
Heute Webschnittstellen zum Zugriff auf
Produktinformationen (z.B. Amazon, eBay)
Nachrichten-Mashups
Kombinieren Agenturmeldungen mit Beiträgen in Web
(Blogs, Foren u.ä.)

57
Mashups und Datenintegration

Datenextraktion
Verschiedene Schnittstellen von Datenprovidern
Standardisierte Protokolle und Formate
Datenfluss
extrahierte Daten transformieren und miteinander
kombinieren
Benötigte Logik in Mashup-Anwendung (Servlets,
PHP o.ä.)
Präsentation
Webbrowser visualisiert Mashup-Ergebnis für
Client
Generieren von (X)HTML-Code, ggf. Feed-Format
)RSS, Atom) für Newsreader

58
Mashup-Gesamtarchitektur
Daten-/Service-Provider (WWW, Web-APIs, Feeds)
Mashup-Anwendung
Client(Webbrowser, Feedreader)
Daten-extraktion
Daten-fluss
Präsen-tation
(X)HTML, RSS, Atom, CSV, JSON
(X)HTML, JavaScript, RSS, Atom
59
Mashup vs. klassische Datenintegration

Entwicklungsprozess
Mashup prototyp. Entwicklung von DI-Anwendungen
Klassische DI erfordert Vorlaufzeit (Data
Cleaning, Schema Integration)
Integrationsart
Zugriff auf Datenquellen mittels Wrapper ähnlich
klassische DI
Low-Level-Integration keine explizite
semantische Beschreibung der Quellen und ihrer
Verbindung, stattdessen fest codierter Datenfluss
virtuelle Integration (d.h. Extraktion und
Kombination der Daten zur Laufzeit)
geeignet eher für kleine Datenvolumina
Verwendung
relativ starre Verknüpfung der Daten
eher aufgabenspezifische Anwendungen (anders als
ein DWH für beliebige Analysen)
Kürzere Lebensdauer

60
Werkzeuge zur Mashup-Erstellung

Tools zur Datenextraktion von Informationen aus
Websites
Tools zur Modellierung und Ausführung von
Datenflüssen
Komponenten zur Datenverarbeitung (z.B.
Transformation und Aggregation von Datenwerten
und objekten)
Anwendungen zur Unterstützung der Präsentation,
d.h. zur integrierten Darstellung innerhalb eines
Frontends und Interaktion mit Benutzer
Beispiele
Extraktion Dapper, OpenKapow Robomaker (frei
verfügbar)
Datenrepräsentation Google Mashup Editor
Datenflussmodellierung Apatar, Microsoft Popfly,
IBM Damia, Yahoo! Pipes
LiteraturD. Aumüller, A. Thor Mashup-Werkzeuge
zur Ad-hoc-Datenintegration im Web, in
Datenbank-Spektrum 26/2008

61
Zusammenfassung und Ausblick

Weiterentwicklung bestehender Schemaintegrationsve
rfahren
Theoretisch wohlüberlegte Ansätze häufig
qualitativ unbefriedigende Ergebnisse
Berücksichtigung von Unsicherheiten bei der
Datenbankintegration
Informationsintegration grosse Herausforderung
Suchmaschinen im Web liefern nur Dokumente,
welche Suchbegriffe enthalten
Vorgestellte Systeme auf Unterstützung
strukturierter Anfragen ausgerichtet

62
Literatur

E. Rahm Mehrrechner-Datenbanksysteme, Addison
Wesley 1994.
Datenbank Spektrum (Heft 6 / Juni 2003)
S. Conrad, W. Hasselbring, A. Koschel, R. Tritsch
Enterprise Application Integration
Grundlagen Konzepte Entwurfsmuster
Praxisbeispiele, Elsevier Spektrum Akademishcer
Verlag 2006.
U. Leser, F. Naumann Informationsintegration
Architekturen und Methoden zur Integration
verteilter und heterogener Datenquellen,
dpunkt.verlag 2007.