Data Warehouse Day 3 - PowerPoint PPT Presentation

Loading...

PPT – Data Warehouse Day 3 PowerPoint presentation | free to view - id: 69be47-MzJjZ



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

Data Warehouse Day 3

Description:

Data Warehouse Day 3 Day 2 Review / Recall What are the 4 key characteristics of Data Warehouse ? Explain them ! Define a Independent and a dependent Data Mart ! – PowerPoint PPT presentation

Number of Views:56
Avg rating:3.0/5.0
Slides: 126
Provided by: BenMa49
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: Data Warehouse Day 3


1
Data Warehouse Day 3
Day 2 Review / Recall
What are the 4 key characteristics of Data
Warehouse ? Explain them ! Define a Independent
and a dependent Data Mart ! Name the distinctions
between Data Warehouses and Data Marts ! What are
the most common schema designs ? What different
kind of data are in a Data Warehouse ?
2
Data Warehouse and Analysis
Where we are ?
3
Data Warehouse and Analysis
Where we are ?
4
Data Warehouse and Analysis
Where we are ?
5
Data Warehouse and Analysis
Analysewerkzeuge Darstellung
  • Tabellen
  • Pivot-Tabellen Kreuztabellen
  • Analyse durch Vertauschen von Zeilen und Spalten
  • Veränderung von Tabellendimensionen
  • Schachtelung von Tabellendimensionen
    (Integration weiterer Dimensionen)
  • Graphiken
  • Bildliche Darstellung großer Datenmengen -
    Wuerfel
  • Netz-, Punkt-, Oberflächengraphen
  • Text und Multimedia-Elemente
  • Ergänzung um Audio- oder Videodaten
  • Einbeziehung von Dokumentenmanagementsystemen

6
Data Warehouse and Analysis
Analysewerkzeuge Darstellung - Pivot
7
Data Warehouse and Analysis
Analysewerkzeuge Realisierung
  • Standard Reporting
  • Reporting-Werkzeuge des klassischen
    Berichtswesens
  • Berichtshefte
  • Graphische Entwicklungsumgebungen zur Erstellung
    von Präsentationen von Tabellen, Graphiken, etc.
  • Ad-hoc Query Reporting
  • Werkzeuge zur Erstellung und Präsentation von
    Berichten
  • Verbergen von Datenbankanbindung und
    Anfragesprachen

8
Data Warehouse and Analysis
Analysewerkzeuge Realisierung II
  • Analyse-Clients
  • Werkzeuge zur mehrdimensionalen Analyse
  • beinhalten Navigation, Manipulation
    (Berechnung), erweiterte Analysefunktionen und
    Präsentation
  • Spreadsheet Add-Ins
  • Erweiterung von Tabellenkalkulationen für
    Datenanbindung und Navigation
  • Entwicklungsumgebungen
  • Unterstützung der Entwicklung eigener
    Analyseanwendungen
  • Bereitstellung von Operationen auf
    multidimensionalen Daten

9
Data Warehouse and Analysis
Werkzeuge fuer Entscheider
  • Report- u. Abfragegeneratoren
  • Statistik
  • Dokumenten-Retrieval
  • aktive Informationsfilter
  • Prozeßmodellierung
  • geographische Informationssysteme
  • Führungsinformation
  • Entscheidungsunterstützung
  • Abteilungsspezifische Tools
  • industriespezifische Tools
  • Online Analytical Processing
  • Data Mining

10
Data Warehouse and Analysis
Online Analytical Processing (OLAP)
  • dynamische, multidimensionale Analyse von Daten
    mit dem Ziel der Aufdeckung neuer oder
    unerwarteter Beziehungen zwischen Variablen
  • Typische Fragestellungen
  • Mit welchem Produkt wird der größte Umsatz in
    einer Region gemacht ?
  • Wie verhält sich der Umsatz im Vergleich zum
    letzten Jahr?
  • Ansatz
  • multidimensionale Sichtweise auf Daten
  • Anpassung des Datenmodells
  • Präsentationsunterstützung

11
Data Warehouse and Analysis
E.F. Codd (1993) Anforderungen an OLAP-Werkzeuge
OLAP - Coddsche Regeln
  • 1. Multidimensionale konzeptionelle Sichtweise
  • Betrachtung von (betriebwirtschaftlichen)
    Kenngrößen aus Sicht verschiedener Dimensionen
  • 2. Transparenz
  • bzgl. Zugriff auf Daten aus unterschiedlichen
    Quellen
  • 3. Zugriffsmöglichkeit
  • interne und externe Quellen
  • 4. Gleichbleibende Antwortzeit bei der
    Berichterstellung
  • Antwortzeit unabhängig von der Anzahl der
    Dimensionen und des Datenvolumens

12
Data Warehouse and Analysis
E.F. Codd (1993) Anforderungen an OLAP-Werkzeuge
OLAP - Coddsche Regeln II
  • 5. Client-Server-Architektur
  • Trennung von Speicherung, Verarbeitung,
    Präsentation
  • offene Schnittstelle zum OLAP-Server
  • 6. Generische Dimensionalität
  • einheitliche Behandlung aller Dimensionen
  • aber -gt spezielle Zeitdimensionen
  • 7. Dynamische Behandlung dünn besetzter Matrizen
  • Anpassung des physischen Schemas an die
    Dimensionalität und Datenverteilung (sparsity)
  • 8. Mehrbenutzer-Unterstützung
  • konkurrierende Zugriffe
  • Sicherheits- und Integritätsmechanismen,
    Zugriffsrechte

13
Data Warehouse and Analysis
E.F. Codd (1993) Anforderungen an OLAP-Werkzeuge
OLAP - Coddsche Regeln III
  • 9. Uneingeschränkte kreuzdimensionale Operationen
  • automatische Ableitung der Berechnungen, die
    sich aus den Hierarchiebeziehungen der
    Dimensionen ergeben (Aggregationen)
  • Definition eigener Berechnungen
  • 10. Intuitive Datenbearbeitung
  • ergonomische, intuitive Datenbearbeitung
  • Navigation über Daten, Ausrichtung von
    Konsolidierungspfaden
  • 11. Flexible Berichterstellung
  • Erstellung von Berichten mit beliebiger
    Datenanordnung
  • 12. Unbegrenzte Anzahl von Dimensionen und Ebenen
  • keine Einschränkungen der Anzahl der
    unterstützten Dimensionen (häufig jedoch max. 5-8)

14
Data Warehouse and Analysis
OLAP - Definition
FASMI (Fast Analysis of Shared Multidimensional
Information)
  • Es soll ein schneller Zugriff (nicht länger als
    20 Sekunden) selbst bei aufwendigen Abfragen
    möglich sein.
  • Datenanalysen sollen mit Hilfe von statistischen
    Verfahren und Geschäftslogik durchführbar sein.
  • Die OLAP-Datenbasis muß von mehreren Benutzern
    gleichzeitig genutzt werden können.
  • Für den Benutzer sollen alle von ihm benötigten
    Daten, unabhängig von Menge oder Herkunft,
    bereitgestellt werden.

15
Data Warehouse and Analysis
OLAP - FASMI II
  • Die konzeptionelle Sicht auf die Daten muß von
    mehrdimensionaler Natur sein.
  • physischer multidimensionaler Datenstruktur
  • virtuellen Multidimensionalität der Datenbank
  • beruht auf einer relationalen Datenhaltung in
    denormalisierter Form (Star- bzw.
    Snowflake-Schema)
  • Unter einer multidimensionalen Datenstruktur ist
    die Darstellung von Daten anhand von
    mehrdimensionalen Datenwürfeln zu verstehen und
    nicht wie im relationalen Datenmodell in
    zweidimensionalen Tabellen.

16
Data Warehouse and Analysis
OLAP - Sources
1. Operational System 2. Warehouse a) Relational
b) Multidimensional
17
Data Warehouse and Analysis
OLAP - Architectures
  • ROLAP Relational On Line Analytical Processing
  • relationale Datenspeicherung - Tabellenform
  • MOLAP Multidimensional On Line Analytical
    Processing
  • multidimensional Datenspeicherung,
    n-dimensionaler Würfel (n-dim data cube)
  • HOLAP Hybrid On Line Analytical Processing
  • Speicherung eines Teils des DWHs in Form von
    Würfeln (Performance), bei miss-hit wird aus
    relationalen RDBMS ein neuer Würfel generiert.
  • DOLAP Desktop On Line Analytical Processing
  • Analysesoftware und Datenspeicherung erfolgt auf
    der Clientseite

18
Data Warehouse and Analysis
OLAP - ROLAP
Operationale Datenbank- schicht
Applikationsschicht (Serverseite)
Presentationschicht (Clientseite)
Summary Tabels
Applikations- server
SQL
API
Data Warehouse
Visualisierung durch multi- dimensionale
Kreuztabellen, Reports, Top10 Ranking, Business
Charts, etc. Dynamische Berichte mit
OLAP Funktionalität
Metadaten
operationale Datenbestände, legacy
systeme, externe Datenquellen, Benchmarking,
Börsendienste, etc.
multidimensional modelliertes DWH, basierend auf
einem relationalen Datenbanksystem
19
Data Warehouse and Analysis
OLAP - ROLAP Eigenschaften
  • relationale Datenbank als Datenbasis für die
    OLAP Analyse
  • multidimensionale Sichten (views) durch
    tabellarische Aufbereitung der Daten, mittels
    standard SQL Abfragen (multidimensionalen
    Anfragen - GROUP-BY-Erweiterungen CUBE-Operator)
  • Multidimensionale Erweiterungen MDX, OLE DB for
    OLAP (Microsoft), Oracle Express, Discoverer
  • basieren auf relationalem Starschema (oder
    Snowflake Schema) mit Facts, Dimensions
  • Vorberechnete Summary Tables (materialized
    views) verbessern die Performance

20
Data Warehouse and Analysis
OLAP - ROLAP Vorteile und Nachteile
  • Verwendet robuste (bereits bewährte) relationale
    Datenbanken
  • Verständlicher (DBA) Datenzugriff (nur SQL)
  • Datenimport
  • Sicherheitsmechanismen bestehen bereits (auf
    relationaler Ebene)
  • Große Datenmengen (größer als 100 Gbyte)

21
Data Warehouse and Analysis
OLAP - MOLAP
Operationale Datenbank- schicht
Presentationschicht (Clientseite)
Applikationsschicht (Serverseite)
Applikations- server
API
MQL
SQL
operationale Datenbestände, legacy
systeme, externe Datenquellen, Benchmarking,
Börsendienste, etc.
Multidimensionale Datenbank DWH in Form von
Würfeln physikalisch gespeichert, intelligente
Indexstrategie
Visualisierung durch multi- dimensionale
Kreuztabellen, Reports, Top10 Ranking, Business
Charts, etc. Dynamische Berichte mit
OLAP Funktionalität
Metadaten
22
Data Warehouse and Analysis
OLAP - MOLAP Eigenschaften
  • Multidimensionale Datenbank für effiziente
    Speicherung von multidimensionale OLAP Abfragen
  • multidimensionale Sicht durch Aufbereitung der
    Daten in einem n-dimensionalen Würfel
  • multidimensionales Datenmodell -gt

23
Data Warehouse and Analysis
OLAP - MOLAP Vorteile und Nachteile
Performance bei kleineren Datenmengen ( lt 10
Gbyte) Meist eigene multidimensionale
Abfragesprache (verständlicher als SQL)
Hinzufügen von Dimensionen und Hierarchien ist
leichter /- Problematik von dünnbesetzten
Würfel muß gelöst werden - Eingeschränkte
Datenmengen (Performance sinkt) -
multidimensionale Abfragesprache -gt
Transformation Standard SQL notwendig - Nicht
jeder mögliche Datenwürfel kann vorberechnet
werden. - Bei miss-hit muß auf
dahinterliegendes relationale RDBMS zugegriffen
werden.
24
Data Warehouse and Analysis
OLAP - HOLAP
Operationale Datenbank- schicht
Presentationschicht (Clientseite)
Applikationsschicht (Serverseite)
Applikations- server
API
MQL
Metadaten
Visualisierung durch multi- dimensionale
Kreuztabellen, Reports, Top10 Ranking, Business
Charts, etc. Dynamische Berichte mit
OLAP Funktionalität
operationale Datenbestände, legacy
systeme, externe Datenquellen, Benchmarking,
Börsendienste, etc.
Data Warehouse
25
Data Warehouse and Analysis
OLAP - HOLAP Eigenschaften
  • Nutzt die Vorteile der relationalen als auch
    multidimensionalen OLAP Anwendung
  • multidimensonale Datenbank wird für häufige
    Abfragen erstellt
  • multidimensionale Data Marts
  • hochaggregierte Daten - schnelle Antwortzeit
  • relationale Datenbank wird für seltenere
    Abfragen verwendet - große Mengen an Daten

26
Data Warehouse and Analysis
OLAP - HOLAP Vorteile und Nachteile
Vereinigt das beste aus den beiden (ROLAP
MOLAP) Welten MDDB System greift nicht mehr
auf die operationalen Daten zu, sondern auf ein
relationales DWH keine Summary Tabelen
(Problem DWH Maintenance !) mehr notwendig -
Aufwendige Architekturkonzept, unterschiedliche
Technologien werden vermischt
27
Data Warehouse and Analysis
OLAP - DOLAP
Operationale Datenbank- schicht
Presentationschicht (Clientseite)
Applikations- server
PC-DBMS
ODBC
API
Extrakt aus einem DWH oder opera-tionalen
Datenbe-ständen
Metadaten
Visualisierung durch multi- dimensionale
Kreuztabellen, Reports, Top10 Ranking, Business
Charts, etc. Dynamische Berichte mit
OLAP Funktionalität
operationale Datenbestände, legacy
systeme, externe Datenquellen, Benchmarking,
Börsendienste, etc.
oft wird auch ein spezielle Filestruktur als
Datenbasis für den DOLAP Applika- tionsserver
generiert.
28
Data Warehouse and Analysis
OLAP - DOLAP Eigenschaften
  • Speicherung der Daten am Client (PC)
  • OLAP Applikations- und Datenbankserver laufen
    auf der Clientseite
  • Antwortzeit wird gering gehalten (kein
    Kommunikationsoverhead durch Netzwerk)
  • begrenzte Kapazität (PC Datenbank, Ressourcen)
  • Endanwender wird ein Auszug aus dem zentralen
    Data Warehouse auf seinen Client gestellt.

29
Data Warehouse and Analysis
OLAP - DOLAP Vorteile und Nachteile
Für kleinere klar abgegrenzte Anwendungsgebiete
gut geeignet Sicherheit kann gewährleistet
werden, DWH (DBA) Administrator steuert die
Erstellung der Extrakte für die einzelnen
Endanwender - Endanwender sieht zumeist nur
einen Ausschnitt aus dem zentralen Data
Warehouse, Analysen könnten dadurch falsch
interpretiert werden - Anwendungen sind oft alte
Reportgeneratoren (statische Berichte) mit
hinzugefügter OLAP Funktionalität - Anwendungen
verwenden zum Teil keine Datenbank, sondern
erzeugen eine Filestruktur auf dem Client - Oft
greifen DOLAP Anwendungen direkt auf die
operationalen Datenbestände zu.
30
Data Warehouse and Analysis
OLAP - Multidimensionales Datenmodell
  • Datenmodell ausgerichtet auf Unterstützung der
    Analyse
  • Datenanalyse im Entscheidungsprozeß
  • Betriebswirtschaftliche Kennzahlen (Erlöse,
    Gewinne, Verluste, etc.) stehen im Mittelpunkt
  • Betrachtung der Kennzahlen aus unterschiedlichen
    Perspektiven (zeitlich, regional, produktbezogen)
    -gt Dimensionen
  • Unterteilung der Auswertedimensionen möglich
    (Jahr, Quartal, Monat) -gt Hierarchien oder
    Konsolidierungsebenen

31
Data Warehouse and Analysis
OLAP - Multidimensionales Datenmodell II
  • Kennzahlen/Fakten (engl. facts)
  • (verdichtete) numerische Meßgrößen
  • Beschreiben betriebswirtschaftliche Sachverhalte
  • Beispiele Umsatz, Gewinn, Verlust,
    Deckungsbeitrag
  • Typen
  • Additive Fakten (additive) Berechnung zwischen
    sämtlichen Konsolidierungsebenen der Dimensionen
    möglich, z.B. Einkaufswert
  • Semi-additive Fakten (additive) Berechnung nur
    für ausgewählte Menge von Hierarchieebenen, z.B.
    Lagerbestand
  • Nicht-additive Fakten keine additive Berchnung
    möglich, z.B. Durchschnitts- oder prozentuale
    Werte

32
Data Warehouse and Analysis
OLAP - Multidimensionales Datenmodell III
  • Dimension
  • beschreibt mögliche Sicht auf die assoziierte
    Kennzahl
  • endliche Menge von Dimensionselementen
    (Hierarchieobjekten), die eine semantische
    Beziehung aufweisen
  • dienen der orthogonalen Strukturierung des
    Datenraums
  • Hierarchien in Dimensionen einfach und parallel
    - Examples ?
  • Beispiele Produkt, Geographie, Zeit

33
Data Warehouse and Analysis
OLAP - Multidimensionales Datenmodell IV
  • Würfel (engl. cube, eigentlich Quader)
  • Grundlage der multidimensionalen Analyse
  • Kanten -gt Dimensionen
  • Zellen -gt ein oder mehrere Kennzahlen (als
    Funktion der Dimensionen)
  • Anzahl der Dimensionen -gt Dimensionalität
  • Visualisierung
  • 2 Dimensionen Tabelle
  • 3 Dimensionen Würfel
  • gt3 Dimensionen Multidimensionale Domänenstruktur

34
Data Warehouse and Analysis
OLAP - Cube
35
Data Warehouse and Analysis
OLAP - Cube Example
36
Data Warehouse and Analysis
OLAP - Operationen auf multidimensionalen
Datenstrukturen
37
Data Warehouse and Analysis
OLAP - Operationen auf multidimensionalen
Datenstrukturen
  • Standardoperationen
  • Pivotierung
  • Roll-Up, Drill-Down
  • Drill-Across
  • Slice, Dice

38
Data Warehouse and Analysis
OLAP - Operationen - Pivotierung/Rotation
39
Data Warehouse and Analysis
OLAP - Operationen -Drill/Roll-Up
  • Beispiel
  • Land-gtStaat-gtRegion
  • Tag -gt Monat -gt Quartal -gt Jahr
  • Beim Drill-/Roll-up werden die Werte auf der
    nächst höheren
  • Hierarchieebene analysiert
  • Dimensionalität bleibt erhalten

Dimension REGION
40
Data Warehouse and Analysis
OLAP - Operationen -Drill-Down / Across
  • komplementär zu Roll-Up
  • Navigation von aggregierten Daten zu
    Detail-Daten entlang der Klassifikationshierarchie
  • Untersuchen der Daten in einem feineren
    Detaillierungsgrad innerhalb einer Dimension
  • Untersuchen von Detaildaten
  • Drill-Across
  • Wechsel von einem Würfel zu einem anderen

Dimension REGION
41
Data Warehouse and Analysis
OLAP - Operationen - Roll-Up, Drill-Down
42
Data Warehouse and Analysis
OLAP - Operationen - Slice
  • Erzeugen individueller Sichten
  • Slice
  • Herausschneiden von Scheiben aus dem Würfel
  • Verringerung der Dimensionalität
  • Beispiel alle Werte des aktuellen Jahres

43
Data Warehouse and Analysis
OLAP - Operationen - Slice
44
Data Warehouse and Analysis
OLAP - Operationen - Slice - Beispiel
45
Data Warehouse and Analysis
OLAP - Operationen - Dice
  • Erzeugen individueller Sichten
  • Dice
  • Herausschneiden einen Teilwürfels
  • Erhaltung der Dimensionalität, Veränderung der
    Hierarchieobjekte
  • Beispiel die Werte bestimmter Produkte oder
    Regionen

46
Data Warehouse and Analysis
OLAP - Operationen - Dice - Example
47
Data Warehouse and Analysis
OLAP - Analyse-Werkzeuge
  • Business Objects Business Objects
  • Cognos
  • Powerplay, BI Platform
  • Hyperion
  • Hyperion OLAP
  • Essbase
  • IBM Visualizer
  • Informix Metacube
  • Seagate Holos, Seagate Info
  • Oracle Express Server
  • Brio Brio Enterprise
  • Arcplan Information Servies
  • inSigth, dynaSight

48
Data Warehouse and Analysis
Data Mining and the Sept. 11th ?
  • Applied Systems Intelligence (ASI)
  • eine Global Information Base, die feindliche
    Operationen automatisch aufspüren soll
  • Nips, ein Numerically Integrated Profiling
    System
  • stellt Verbindungen zwischen Bankgeschäften und
    Reiseaktivitäten her
  • Choice Point
  • verkauft Kundendaten an das FBI
  • Nora (Non-Obvious Relationship Awareness)
  • Reservierungen für Flüge, Hotels und Mietwagen
  • Informationen aus über 4000 Quellen, in denen
    Daten von über einer Million Menschen
    zusammenlaufen
  • Datenmuster eines Passagiers mit dem eines
    Elements auf der Liste der bad guys überein
  • Alarm am Ticketschalter

49
Data Warehouse and Analysis
Data Mining - Definition
  • Der Begriff Data Mining steht für das Suchen
    nach wertvollen Geschäftsinformationen in einer
    großen Datenbank und für das Graben nach einer
    wertvollen Informationsader.
  • Data Mining kann als Teilprozess des Knowledge
    Discovery angesehen werden
  • Knowledge Discovery ist ein neuer Begriff in der
    Data Warehouse-, OLAP und Data Mining
    Problematik.
  • Er bezeichnet den gesamten Entdeckungsprozeß
    ausgehend von der Formulierung einer Frage bis
    zur Interpretation der Ergebnisse.
  • Data Mining ist der Kunde im Data Warehouse

50
Data Warehouse and Analysis
Data Mining - Knowledge Discovery in Databases
(KDD)
Iterativer und interaktiver Prozeß 1. Festlegung
von Problembereich und Zielen 2. Datensammlung
und bereinigung 3. Auswahl und Parametrisierung
der Analysefunktionen und methoden 4. Data
Mining/Mustererkennung 5. Bewertung und
Interpretation der Ergebnisse 6. Nutzung des
gefundenen Wissens
51
Data Warehouse and Analysis
Data Mining - Data Warehouse - Kunde
52
Data Warehouse and Analysis
Data Mining - Data Warehouse - Donator
53
Data Warehouse and Analysis
Data Mining - Verfahren
  • Erkennung von Abhängigkeiten
  • Aufdeckung statistischer Abhängigkeiten zwischen
    Variablen relevanter Datensätze -gt
    Assoziationsregeln, Wahrscheinlichkeitsnetze
  • Bsp. Warenkorbanalyse
  • Klassifikation
  • Zuordnung von Objekten zu verschiedenen
    vorgegebenen Klassen
  • Ableitung des Klassifikationsmodells aus einer
    Trainingsmenge
  • Bsp. Kundenklassifkation bzgl. Schadensrisiko

54
Data Warehouse and Analysis
Data Mining - Verfahren II
  • Clustering
  • Einordnung ähnlicher Objekte in neu gebildete
    Gruppen daß Ähnlichkeit innerhalb der Gruppen
    möglichst groß sowie zwischen Gruppen möglichst
    gering
  • Bsp. Segmentierung von Kunden im Marketing
  • Generalisierung
  • Methoden zur Aggregation und Verallgemeinerung
    großer Datenmengen auf höherer Abstraktionsebene
  • Bsp. interaktive Datenexploration

55
Data Warehouse and Analysis
Data Mining - Verfahren III
  • Sequenzanalyse
  • Suche nach häufig auftretenden Episoden oder
    Ereignisfolgen in Datenbeständen mit (zeitlicher)
    Ordnung
  • Bsp. Clickstream-Analyse
  • Regression
  • Ermittlung des Ursache-Wirkung-Zusammenhangs
    zwischen einzelnen Merkmalen
  • Bsp. Entwickung von Aktienkursen

56
Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (Clickstream)
  • Cognos PowerPlay
  • Clickstream-Verhalten der Besucher Ihrer Website
    nachvollziehen und multidimensional analysieren.
  • Antworten und Ergebnisse zu Fragestellungen wie
  • Welches Unternehmen besuchte meine Website?
  • Für welche Web-Seiten interessieren sich meine
    Kunden besonders?
  • Wie navigiert der Besucher durch meine
    Web-Seiten?
  • Wie lange hält sich der Besucher auf den
    einzelnen Web-Seiten auf?
  • Wann wird meine Website am häufigsten besucht?

57
Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (Clickstream)
58
Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (Clustering)
59
Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele
(Klassifikationen)
60
Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele
(Assoziationsregeln)
Ableitung von Regeln aus Itemsets Wenn ein
Kunde Milch kauft, dann kauft er auch Butter. !
61
Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (Decision
Tree)
62
Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (weitere)
63
Data Warehouse and Analysis
Data Mining - Weitere Anwednungen
64
Data Warehouse and Analysis
Data Mining - Weitere Methoden und Techniken
Aktienkurse, Bildauswertung, Biometrie,
Meteorolgie
65
Data Warehouse and Analysis
Data Mining - Weitere Methoden und Techniken
66
Data Warehouse and Analysis
Data Mining - What it does
  • Discovers facts and data relationship
  • find patterns - Examples ?
  • determines rules - Examples ?
  • Retains and reuses rules - Example ?
  • Present Information for the users
  • may take many hours
  • needs little human intervention (Einmischung)
  • but requires knowledgeable people to analyze
    results !

67
Data Warehouse and Analysis
Data Mining - What it does
68
Data Warehouse and Analysis
Data Mining and OLAP
69
Data Warehouse and Analysis
Data Mining Tools - Kriterien
70
Data Warehouse and Analysis
Data Mining Tools - Kriterien II
71
Data Warehouse and Analysis
Data Mining Tools - Kriterien III
72
Data Warehouse and Analysis
Data Mining Tools - Kriterien IV
73
Data Warehouse Projects
The Business Case for a Data Warehouse - Example
  • Wal Mart (www.wal-mart.com)
  • Marktführer im amerikanischen Einzelhandel
  • Unternehmensweites Data Warehouse
  • Größe ca. 25 TB
  • Täglich bis zu 20.000 DW-Anfragen
  • Hoher Detaillierungsgrad (tägliche Auswertung
    von Artikelumsätzen, Lagerbestand
    Kundenverhalten)
  • Basis für Warenkorbanalyse,
  • Kundenklassifizierung, ...

74
Data Warehouse Projects
The Business Case for a Data Warehouse - Example
II
  • Überprüfung des Warensortiments zur Erkennung
    von Ladenhütern oder Verkaufsschlagern
  • Standortanalyse zur Einschätzung der
    Rentabilität von Niederlassungen
  • Untersuchung der Wirksamkeit von
    Marketing-Aktionen
  • Auswertung von Kundenbefragungen, Reklamationen
    bzgl. Bestimmer Produkte etc.
  • Analyse des Lagerbestandes
  • Warenkorbanalyse mit Hilfe der Kassenbons

75
Data Warehouse Projects
The Business Case for a Data Warehouse - Example
III
Beispiel einer Anfrage Welche Umsätze sind in
den Jahren 1998 und 1999 in den Abteilungen
Kosmetik, Elektro und Haushaltswaren in den
Bundesländern Sachsen-Anhalt und Thüringen
angefallen ?
76
Data Warehouse Projects
The Business Case for a Data Warehouse - Example
IV
77
Data Warehouse Projects
The Business Case for a Data Warehouse - Example V
78
Data Warehouse Projects
The Business Case - ROI
Data Warehousing, often described as the holy
grail that will lead companies to success
through a better understanding of their business,
is delivering on its promise Average Three
Year ROI Enterprise Data Warehouse ROI -
322 Discrete Data Warehouse ROI - 533
Source International Data Corporation
79
Data Warehouse Projects
The Business Case for a Data Warehouse
80
Data Warehouse Projects
The Business Case DWH
  • A well rounded and complete Business Case should
    include a picture of
  • the likely Benefits to the company
  • an indication of the Costs of the solution both
    initial and year on year
  • an indication of the Risks, together with any
    risk mitigation (Minderung)

81
Data Warehouse Projects
The Business Case DWH - Benefits
  • Categorizing
  • Tangible (greifbare) Benefits
  • cost savings associated with the cost reduction
    in OLTP
  • DWH will remove the need to update the old
    mainframe
  • Intangible Benefits
  • e.g. organization decisions making capabilities
    being enhanced

82
Data Warehouse Projects
The Business Case DWH - Benefits
  • Categorizing by Objectives (Zielen)
  • increased revenue (Einkuenfte)
  • decreased costs
  • Quantifying the Benefits
  • Time
  • reducing cycle time to perform and activity
  • Quantity
  • e.g. Reduced customer defection by 5 within 1
    year to doubled profit
  • Quality
  • e.g. Increased Staff satisfaction increased
    customer satisfaction reduction in churn
    (Beschwerde) savings in acquisition costs

83
Data Warehouse Projects
The Business Case for a DWH - Costs
84
Data Warehouse Projects
The Business Case for a DWH - Costs II
85
Data Warehouse Projects
The Business Case for a DWH - Risks
  • Business Environment
  • political and cultural world within which the
    company operates
  • dependencies to other companies (network,
    merger, acquisitions)
  • corporate strategy changes
  • departmental politics
  • Effective sponsorship
  • change of the organization itself brought about
    by the Warehouse

86
Data Warehouse Projects
The Business Case for a DWH - Risks
  • Technical Environment
  • new technologies vers old
  • technical surprises
  • lack of understanding the source system
  • interfaces to other systems
  • Project Risks
  • resources ?!
  • Inter project dependencies

Project Management !!!
87
Data Warehouse Projects
Overwiev - Die Andersartigkeit des DW-Projektes
  • Durch die Größe der Datenbasis müssen frühzeitig
    Überlegungen der Datenbankadministration und
    Performancesicherung mit einbezogen werden
  • Auch dem effizienten Import der Daten muss viel
    Zeit gewidmet werden
  • Flexible Architektur nötig, da kein Unternehmen
    seinen künftigen Informationsbedarf voraussehen
  • DW muss so aufgebaut werden, dass es sich
    ständig verändern kann
  • Gefahr beim Wasserfall-Modell Paralyse durch
    Analyse man wird nie mit analysieren fertig und
    setzt somit nie um

88
Data Warehouse Projects
Overwiev - Die Andersartigkeit des DW-Projektes
II
  • Ein DW ist i.d.R. breit angelegt und umfaßt
    meist große Datenbanken mit über 100 Gbyte
  • Fehler im System-/HW-Aufbau rächen sich
    unmittelbar
  • Die Anforderungen an ein DW sind i.d.R. nur sehr
    unvollständig definierbar und ändern sich zudem
    im Laufe der Zeit
  • Damit steigt die Gefahr einer ständigen
    Veränderung der Anforderungen ohne Fertigstellung
    Paralyse durch Analyse
  • Oftmals werden im Zusammenhang mit einem DW auch
    die Geschäftsprozesse überarbeitet
  • Zeitliche Dimension 18-24 Monate

89
Data Warehouse Projects
Project Management Methods
  • Why ?
  • Success is composed of
  • On time delivery, within budget costs
  • contracted functionality delivered
  • happy clients !
  • Which ?
  • E.g. Oracle Data Warehouse Method
  • e.g. Roche Price Waterhouse Coopers Summit D
  • In-house used Methods

90
Data Warehouse Projects
Project Management - Tasks
  • Control and Reporting
  • determine scope and approach (Zweck) of the
    project
  • manage change and control risks
  • report progress status externally
  • control the quality plan
  • Work Management
  • define, monitor and direct all work performed on
    the project
  • financial view of the project

91
Data Warehouse Projects
Project Management - Tasks II
  • Resource Management
  • helps to provide the project with right level of
    staffing (Mitarbeiter) and skills
  • Quality Management
  • implement quality measures to verify the project
    meets the clients purpose
  • Configuration Management
  • store, organize, track and control all documents
    and deliverables
  • Computerized System Validation

92
Data Warehouse Projects
Project Management - Phases
93
Data Warehouse Projects
Project Management - Phases - Strategy
94
Data Warehouse Projects
Project Management - Phases - Strategy II
  • focus understanding the business goals and
    initiatives
  • defining the purpose and objectives for the
    total DW solution (vision, big picture)
  • key outputs defining the implementation and
    infrastructure development
  • business case with measurable objectives
  • DW architecture and technical architecture,
    strategies for each component of DW
  • Project Plan

95
Data Warehouse Projects
Project Management - Phases - Definition
96
Data Warehouse Projects
Project Management - Phases - Definition II
  • to define the scope and objectives for the
    incremental development effort while complying
    (vergleichen) with the enterprise vision
  • to create initial models
  • to document data sources
  • to define data quality
  • to create technical architecture and DW
    architecture for the scoped solution
  • tactical plans for addressing data acquisition,
    data access, DW administration, Training, meta
    data management

97
Data Warehouse Projects
Project Management - Phases - Analysis
98
Data Warehouse Projects
Project Management - Phases - Analysis II
  • to formulate the detailed requirements for the
    selected increment
  • focus is on the users information, data
    acquisition and data access requirements for
    business analysis and decision making
  • refresh cycles, data mappings
  • to produce relational and/or multidimensional
    modal as appropriate (angemessen)
  • requirements for hardware, software, network,
    backup and recovery (credit application !)

99
Data Warehouse Projects
Project Management - Phases - Design
100
Data Warehouse Projects
Project Management - Phases - Design II
  • to translate analysis phase requirements into
    detailed desing specifications while taking into
    account the technical architecture and available
    technologies
  • data acquisition and load modules are designed,
    data elements, levels of summarization and
    granularity are validated, data integrity is
    checked, metadata docuemented
  • data access, query, reporting components are
    defined
  • using the logical models, detailed data
    requirements data mappings, the physical
    structures for relational/ multidimensional
    metadata database objects are designed

101
Data Warehouse Projects
Project Management - Phases - Build
102
Data Warehouse Projects
Project Management - Phases - Build II
  • to create and test
  • the database structures, data acquisition
    modules, DW administration tools, metadata
    modules, data access modules, reports and queries
  • test scripts
  • to develop, integrate and test the increment
    before it is prepared for the transition phase
  • user and operation guides, technical and
    metadata references are produced
  • training database is developed, training
    material are completed

103
Data Warehouse Projects
Project Management - Phases - Transition
104
Data Warehouse Projects
Project Management - Phases - Transition II
  • to install the incremental solution
  • to prepare the client personnel to use and
    manage the solution
  • to go to production and begin managing the
    growth and maintenance of the Warehouse
  • Monitoring
  • user acceptance tests

105
Data Warehouse Projects
Project Management - Phases - Discovery
106
Data Warehouse Projects
Project Management - Phases - Discovery II
  • to identify and plan for the next increment
  • to select the next effort based on business need
    and DW infrastructure need
  • to evaluate the implemented increment and
    identify increment opportunities (Moeglichkeiten)
  • user/client involvement
  • lessons learned

107
Data Warehouse Projects
Project Management - Processes
108
Data Warehouse Projects
Project Management - Roles
109
Data Warehouse Projects
Business Requirements
Questions
Answers
Who defines the business benefit ?
The Business
Who derives the business benefit ?
The Business
Who holds the purse string ?
The Business
Who do we need to impress ?
The Business
Who needs a Data Warehouse ?
The Business !
IT ?
110
Data Warehouse Projects
Business Requirements Definition Process
  • defines the requirements
  • clarifies the scope
  • establishes the implementation roadmap
  • with the direction of the client organization
  • definition of strategic business goals and
    initiatives
  • used to direct the strategies, purpose and goals
    of the DWH solution

111
Data Warehouse Projects
Business Requirements Definition Process II
  • Early in the process
  • the focus is on the enterprise aspect of the DW
    solution
  • information requirements
  • subject areas
  • implementation roadmap
  • business case
  • Process continues
  • scoping the solution to be developed and
    delivered
  • identifying the clients information needs
  • modeling the requirements

112
Data Warehouse Projects
Business Requirements II
  • Analyze the business NOT the data !
  • Identify the business events that are of
    interest
  • a single business event may result in a number
    of transactional records
  • some key events may be masked (verdeckt) or not
    recorded at all
  • the business meaning is critical
  • business meaning may also enforce operational
    requirements on the Warehouse

113
Data Warehouse Projects
Business Requirements III
  • Identify the types of users - to support their
    needs effectively
  • Monitor
  • status reports
  • Manager
  • overview
  • Investigator
  • identify meaning/reasons of anomalies, power
    drilling
  • Innovator
  • details, multi-step ananlysis
  • Communicator
  • identify, acquire and retain users

114
Data Warehouse Projects
Solution Definition Strategies
115
Data Warehouse Projects
Solution Definition Strategies II
116
Data Warehouse Projects
Solution Definition Strategies III
117
Data Warehouse Projects
Solution Definition Strategies IV
  • Big Bang
  • Independent Data Mart
  • Incremental Data Warehouse top- down
  • Incremental Data Warehouse bottom-up
  • Migration
  • Independent Data Mart

118
Data Warehouse Projects
Solution Definition Strategies - Big Bang
  • top-down big bang is a high risk
  • extended time to achieve business benefits
  • requirements will change during analysis
  • longer and deeper valley of despair
  • if the business is being re-engineered, the Data
    Warehouse may not have management focus
  • but having a big picture before starting a DW
    (vision)
  • Clients
  • start-up (e-) business where IT is the key
    enabler (Amazon.com)
  • organizations where information is seen as
    critical
  • the foolish !

119
Data Warehouse Projects
Solution Definition Strategies - Independent Data
Marts
  • low entry costs
  • fast to accrue (zufallen) business benefits
  • Adopted easily be LOB (line of business)
  • - islands of information - lack any synergy among
    the subject area
  • - no high-level understanding of business needs
  • - no future direction esteblished
  • - no cross functional view of the business (no
    single version of truth)
  • Clients
  • immediate needs outweigh (ueberwiegen) potential
    future benefits
  • powerful and dynamic LOB management
  • smaller companies or budget held at LOB level

120
Data Warehouse Projects
Solution Definition Strategies - Top-Down
Incremental
  • provides relatively quick implementation
    payback
  • significant lower risk than Big Bang
  • achieves synergy among subject areas - one
    version of truth
  • - more difficult to sell because of higher
    up-front costs
  • Clients
  • cross functional reporting seen as important
  • strategic vision
  • matrix management with an open view to
    information
  • organizations that believe the press about DW
    benefits
  • organizations that are trying to re-align
    business IT

121
Data Warehouse Projects
Solution Definition Strategies - Bottom-Up
Incremental
  • proof of concept type of approach proves the
    technical concept quickly
  • easier product lead sale
  • - tenets (Grundsaetze) are completely compromised
  • - high costs of re-engineering between increments
  • - cultural rejection by the next LOB as
    definitions are imposed (aufgezwungen)
  • Clients
  • IT lead Data Warehouse project
  • IT attempting to regain (zurueckgewinnen) or
    maintain control
  • Nike IT culture - Just do it !
  • concerns about overall risk benefit, fixed
    price DW implementations

122
Data Warehouse Projects
Solution Definition Strategies - DM-DW Migration
  • client/user has matured through the use of
    DMs, derived business value and moved on
  • sound (vernuenftig) approach to IT
  • strong alignment business IT
  • - Benefits are mainly in terms of organization
    capability readiness
  • Clients
  • external consulting used rather than internal IT
    project
  • balance of power lies with the business not IT
  • new senior appointment wants it this way

123
Data Warehouse Projects
Meeting the Technical Challenge - Tenets
  • Data Warehouse Tenets (Grundsaetze)
  • Extensible
  • possible to add new types of transactional data
    as well as new levels of aggregations as
    information change over time
  • Scalable
  • DW may grow by an order of magnitude
    (Groessenordnung) over time (transactions and
    business)
  • Flexible
  • flexible to support all types of access
    (multidimensional, ad-hoc, drill-down)

124
Data Warehouse Projects
Meeting the Technical Challenge - Tenets II
  • Integrated
  • any solution must be fully integrated with
    existing systems and operational environments
  • data from multiple disparate systems
  • Reliable (zuverlaessig)
  • all data have to be accurate and consistent for
    a given point in time
  • Manageable
  • trade off (Kompromis) between the cost of
    automating any solution and cost of managing a
    system on a day to day basis
  • Accessible
  • 24/7, information must be timely and represented
    in a useful fashion

125
Data Warehouse Projects
Meeting the Technical Challenge - Summary
About PowerShow.com