DATA WAREHOUSE (2nd) - PowerPoint PPT Presentation

Loading...

PPT – DATA WAREHOUSE (2nd) PowerPoint presentation | free to download - id: 597694-MWNiZ



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

DATA WAREHOUSE (2nd)

Description:

Title: DATA WAREHOUSING AND DATA MINING Subject: data warehousing and data mining Author: DR S SESHADRI Last modified by: HANIM MARIA Created Date – PowerPoint PPT presentation

Number of Views:178
Avg rating:3.0/5.0
Slides: 38
Provided by: DRSS3
Learn more at: http://elearning.upnjatim.ac.id
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: DATA WAREHOUSE (2nd)


1
DATA WAREHOUSE (2nd)
  • Presented by HANIM M.A.
  • hanim03_at_gmail.com, hanim_maria_at_yahoo.com

2
Acknowledgments
  • Abdul Kadir
  • S. Sudarshan (Comp. Science and Engineering Dept,
    IIT, Bombay)
  • Anindya Datta (Georgia Institute of Technology)
  • DR. R. Seshadri

3
Overview
  • Part 1 Review data, informasi
  • Part 2 Pengenalan Data Warehouse
  • Part 3 Karakteristik Data Warehouse
  • Part 4 Task 1

4
Part 1 Overview
5
Data Warehouse
  • Data warehouse adalah basis data yang menyimpan
    data sekarang dan data masa lalu yang berasal
    dari berbagai sistem operasional dan sumber yang
    lain (sumber eksternal) yang menjadi perhatian
    penting bagi manajemen dalam organisasi dan
    ditujukan untuk keperluan analisis dan pelaporan
    manajemen dalam rangka pengambilan keputusan
  • Data warehouse digunakan untuk mendukung
    pengambilan keputusan, bukan untuk melaksanakan
    pemrosesan transaksi
  • Data warehouse hanya berisi informasi-informasi
    yang relevan bagi kebutuhan pemakai yang dipakai
    untuk pengambilan keputusan

6
Perbedaan DW dan OLTP
OLTP Data Warehouse
Menangani data saat ini Data bisa saja disimpan pada beberapa platform Data diorganisasikan berdasarkan fungsi atau operasi seperti penjualan, produksi, dan pemrosesan pesanan Pemrosesan bersifat berulang Untuk mendukung keputusan harian (operasional) Melayani banyak pemakai operasional Berorientasi pada transaksi Lebih cenderung menangani data masa lalu Data disimpan dalam satu platform Data diorganisasikan menutut subjek seperti pelkanggan atau produk Pemrosesan sewaktu-waktu, tak terstruktur, dan bersifat heuristik Untuk mendukung keputusan yang strategis Untuk mendukung pemakai manajerial yang berjumlah relatif sedikit Berorientasi pada analisis
7
Sumber Data untuk DW
  • Data operasional dalam organisasi, misalnya basis
    data pelanggan dan produk, dan
  • Sumber eksternal yang diperoleh misalnya melalui
    Internet, basis data komersial, basis data
    pemasok atau pelanggan
  • Berbagai data yang berasal dari sumber
    digabungkan dan diproses lebih lanjut oleh
    manajer data warehouse dan disimpan dalam basis
    data tersendiri.
  • Selanjutnya, perangkat lunak seperti OLAP dan
    data mining dapat digunakan oleh pemakai untuk
    mengakses data warehouse

8
Prinsip Data Warehouse
9
Part 2 Data Warehouse Architecture
10
Data Warehouse Architecture
11
Part 3 Multidimensional Data Model
12
DW and OLAP as Multidimensional Data Model
  • Data warehouse dan OLAP didasarkan pada
    multidimensional data model.
  • Model ini merepresentasikan data dalam bentuk
    data cube, data dimodelkan dan ditampilkan
    sebagai multiple dimension.
  • Data cube ini didasarkan pada dimensions table
    dan facts table.

13
Multidimensional Data Model
  • Multidimensional yang berarti bahwa terdapat
    banyak lapisan kolom dan baris (Ini berbeda
    dengan tabel pada model relasional yang hanya
    berdimensi dua)
  • Berdasarkan susunan data seperti itu, amatlah
    mudah untuk memperoleh jawaban atas pertanyaan
    seperti Berapakah jumlah produk 1 terjual di
    Jawa Tengah pada tahun n-3?

14
Fact Table
  • Merepresentasikan proses bisnis, yaitu model
    proses bisnis sebagai bentuk (artifact) pada data
    model.
  • Mengandung elemen pengukuran atau metrik atau
    fakta pada bisnis proses.
  • jumlah penjualan bulanan pada proses bisnis
    Penjualan.
  • dll
  • Terdapat foreign key untuk tabel dimensi.
  • Berisi ribuan kolom

15
Dimension Tables
  • Merepresentasikan who, what, where, when and how
    of sebuah pengukuran/artifact.
  • Merepresentasikan entities yang real, bukan
    proses bisnis.
  • Memberikan konteks pengukuran (subject)
  • Sebagai contoh
  • Pada tabel fakta Penjualan. Karakteristik dari
    pengukuran jumlah penjualan bulanan bisa
    terdiri dari lokasi (Where), waktu (When), produk
    yang terjual (What).

16
Dimension Tables
  • Atribut pada tabel dimensi merupakan kolom-kolom
    yang ada pada tabel dimensi.
  • Pada tabel dimensi lokasi, atribut bisa merupakan
    Kode Pos, kota, kode negara, negara, dll. Secara
    umum, atribut pada tabel dimensi digunakan untuk
    pelaporan dengan menggunakan batasan kueri,
    contoh where Country'USA'. Atribut pada tabel
    dimensi juga mengandung satu atau beberapa
    hierarchical relationships.
  • Sebelum mendesain data warehouse, harus
    ditentukan dulu mengandung elemen apa saja data
    warehouse yang akan dibuat. Misalkan jika ingin
    membuat data warehouse yang mengandung jumlah
    penjualan bulanan yang melibatkan semua lokasi,
    waktu, dan produk, maka dimensinya adalah
    LokasiWaktu
  • Product

17
3D data cube, according to the dimension time,
location, item
18
Warehouse Database Schema
  • Bukan ER Diagram
  • Design harus mencerminkan multidimensional view
  • Star Schema
  • Snowflake Schema
  • Fact Constellation Schema

19
Example of a Star Schema
Order
Product
Order No Order Date
ProductNO ProdName ProdDescr Category CategoryDesc
ription UnitPrice
Fact Table
Customer
OrderNO SalespersonID CustomerNO ProdNo DateKey Ci
tyName Quantity Total Price
Customer No Customer Name Customer Address City
Date
DateKey Date
Salesperson
City
SalespersonID SalespersonName City Quota
CityName State Country
20
(No Transcript)
21
Star Schema
  • Model dimana data warehouse terdiri dari satu
    tabel pusat yang besar (tabel fakta).
  • Ada satu table untuk tiap dimensi
  • Pada star schema, satu dimensi diwakili oleh satu
    tabel dan masing-masing tabel diwakili oleh
    beberapa atribut.

22
Example of a Snowflake Schema
Order
Product
Category
Order No Order Date
ProductNO ProdName ProdDescr Category Category Uni
tPrice
CategoryName CategoryDescr
Fact Table
Customer
OrderNO SalespersonID CustomerNO ProdNo DateKey Ci
tyName Quantity Total Price
Customer No Customer Name Customer Address City
Date
Month
DateKey Date Month
Year
Month Year
Salesperson
Year
SalespersonID SalespersonName City Quota
City
State
CityName State Country
StateName Country
23
Snowflake Schema
24
Snowflake Schema
  • Ada mekanisme normalisasi tabel dimensi
  • Mudah untuk dimaintain
  • Butuh kapasitas penyimpanan yang relatif lebih
    kecil
  • Efektifitas browsing/select data berkurang karena
    harus melibatkan banyak kueri dari berbagai macam
    tabel

25
Fact Constellation
26
Fact Constellation
  • Fact Constellation
  • Ada beberapa tabel fakta yang digunakan
    bersama-sama (share) beberapa tabel dimensi.
  • Dapat berupa kumpulan skema star

27
Data Warehouse
  • Data warehouse dapat dibangun sendiri dengan
    menggunakan perangkat pengembangan aplikasi
    ataupun dengan menggunakan perangkat lunak khusus
    yang ditujukan untuk menangani hal ini
  • Beberapa contoh perangkat lunak yang digunakan
    untuk administrasi dan manajemen data warehouse
  • HP Intelligent Warehouse (Hewlett Packard)
  • FlowMark (IBM)
  • SourcePoint (Software AG)

28
Petunjuk Membangun DW
  • Menentukan misi dan sasaran bisnis bagi
    pembentukan data warehouse
  • Mengidentifikasi data dari basis data operasional
    dan sumber lain yang diperlukan bagi data
    warehouse
  • Menentukan item-item data dalam perusahaan dengan
    melakukan standarisasi penamaan data dan maknanya
  • Merancang basis data untuk data warehouse
  • Membangun kebijakan dalam mengarsipkan data lama
    sehingga ruang penyimpanan tak menjadi terlalu
    besar dan agar pengambilan keputusan tidak
    menjadi terlalu lamban.
  • Menarik data produksi (operasional) dan
    meletakkan ke basis data milik data warehouse

29
Data Mart
  • Bagian dari data warehouse yang mendukung
    kebutuhan pada tingkat departemen atau fungsi
    bisnis tertentu dalam perusahaan. Karakteristik
    yang membedakan data mart dan data warehouse
    adalah sebagai berikut (Connolly, Begg, Strachan
    1999).
  • Data mart memfokuskan hanya pada
    kebutuhan-kebutuhan pemakai yang terkait dalam
    sebuah departemen atau fungsi bisnis.
  • Data mart biasanya tidak mengandung data
    operasional yang rinci seperti pada data
    warehouse.
  • Data mart hanya mengandung sedikit informasi
    dibandingkan dengan data warehouse. Data mart
    lebih mudah dipahami dan dinavigasi.

30
Contoh Software Data Mart
  • SmartMart (IBM)
  • Visual Warehouse (IBM)
  • PowerMart (Informatica)

31
OLAP
  • OnLine Analytical Processing
  • Suatu jenis pemrosesan yang memanipulasi dan
    menganalisa data bervolume besar dari berbagai
    perspektif (multidimensi). OLAP seringkali
    disebut analisis data multidimensi.

32
OLAP (Lanjutan)
  • Data multidimensi adalah data yang dapat
    dimodelkan sebagai atribut dimensi dan atribut
    ukuran
  • Contoh atribut dimensi adalah nama barang dan
    warna barang, sedangkan contoh atribut ukuran
    adalah jumlah barang

33
OLAP Contoh Data 2 Dimensi
34
Kemampuan OLAP
  • Konsolidasi (roll up) melibatkan pengelompokan
    data. Sebagai contoh kantor-kantor cabang dapat
    dikelompokkan menurut kota atau bahkan propinsi.
    Transaksi penjualan dapat ditinjau menurut tahun,
    triwulan, bulan, dan sebagainya. Kadangkala
    istilah rollup digunakan untuk menyatakan
    konsolidasi
  • Drill-down adalah suatu bentuk yang merupakan
    kebalikan dari konsolidasi, yang memungkinkan
    data yang ringkas dijabarkan menjadi data yang
    lebih detail
  • Slicing and dicing (atau dikenal dengan istilah
    pivoting) menjabarkan pada kemampuan untuk
    melihat data dari berbagai sudut pandang

35
Contoh Tabel Pivoting
36
Hierarki Dimensi untuk Drill-down
37
Software OLAP
  • Express Server (Oracle)
  • PowerPlay (Cognos Software)
  • Metacube (Informix/Stanford Technology Group)
  • HighGate Project (Sybase)
About PowerShow.com