ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining - PowerPoint PPT Presentation

Loading...

PPT – ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining PowerPoint presentation | free to download - id: 694bf2-MzVmN



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining

Description:

ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining Dall OLTP all OLAP Analisi dei dati Sistemi OLTP e OLAP Sistemi OLTP e OLAP ... – PowerPoint PPT presentation

Number of Views:12
Avg rating:3.0/5.0
Slides: 50
Provided by: poliba
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: ANALISI DEI DATI OLAP (On Line Analytical Processing) Data Warehousing Data Mining


1
ANALISI DEI DATI OLAP (On Line Analytical
Processing) Data Warehousing Data Mining
2
DallOLTP allOLAP
La tecnologia delle basi di dati è finalizzata
prevalentemente alla gestione dei dati in
linea, si parla di OnLine Transaction
Processing (OLTP)
3
Analisi dei dati
  • I dati disponibili possono essere utilizzati non
    solo nella gestione, ma anche nella
    pianificazione
  • Unanalisi dei dati passati e presenti può
    essere utile per la programmazione delle attività
    future dellimpresa
  • Si parla in questo caso di On Line Analytical
    Processing (OLAP)

4
Sistemi OLTP e OLAP
  • Lelemento principale dellarchitettura OLAP è
    una particolare base di dati chiamata data
    warehouse (magazzino dei dati), in cui sono
    contenuti dati che, opportunamente analizzati
    possono fornire un supporto alle decisioni.
  • I sistemi OLTP forniscono i dati per lambiente
    OLAP, sono cioè una sorgente di dati (data
    source) per tale ambiente.
  • Tra i due sistemi cambia la tipologia di utente
    terminalisti (OLTP), analisti (OLAP)

5
Sistemi OLTP e OLAP
OLTP
OLAP
analisti
terminalisti
Terminalisti utenti finali. Possono eseguire
operazioni di lettura e di scrittura
Analisti Pochi utenti, occupano posizioni di
alto livello nellimpresa e svolgono attività di
supporto alle decisioni.
6
Sistemi OLTP e OLAP
  • OLTP (On Line Transaction Processing)
  • Sistemi per la gestione dei dati
  • Utilizzo di un set di operazioni ben definito
  • Bassa complessità delle operazioni
  • Le operazioni coinvolgono una piccola quantità di
    dati
  • Continuo aggiornamento dei dati
  • Generalmente viene utilizzato lo stato corrente
    di unapplicazione
  • Devono essere rispettate le proprietà ACIDe
    (atomicità, correttezza, isolamento, durabilità)
    delle transazioni
  • OLAP (On Line Analytical Processing)
  • Sistemi per lanalisi dei dati
  • Permettono di eseguire operazioni non previste
    nella progettazione del DB (sistemi di supporto
    alle decisioni)
  • Operano su grosse moli di dati
  • I dati sono statici (usualmente si utilizzano
    dati storici)
  • Operano su dati provenienti da più fonti
    eterogenee
  • Le proprietà ACIDe non sono rilevanti perché le
    operazioni sono di sola lettura

7
Caratteristiche dei Data warehouse
  • Utilizzano dati provenienti da più DB
  • I meccanismi di importazione sono di tipo
    asincrono e periodico
  • In tal modo non vengono penalizzate le
    prestazioni delle data source
  • La warehouse non contiene dati perfettamente
    allineati con il flusso di transazioni negli OLTP
  • Problema legato alla qualità dei dati
  • La semplice raccolta di dati può non essere
    sufficiente per una corretta analisi perché i
    dati possono contenere inesattezze, errori,
    omissioni

8
Architettura di un DataWarehouse
Export dei dati
Data mining
Accesso ai Dati
DW
Prime due componenti operano nelle data source
Allineamento dei Dati (refresh)
Acquisizione dei Dati
Export
Export
Export
Data Filter
Data Filter
Data Filter
Gli altri cinque componenti operano nella DW
Data Source
Data Source
Data Source
9
Architettura di un DataWarehouse
Data Source
Possono essere di qualsiasi tipo, anche raccolte
di dati non gestite tramite DBMS oppure gestite
da DBMS di vecchia generazione (legacy system).
Controlla la correttezza dei dati prima
dellinserimento nella warehouse. Può eliminare
dati scorretti e rilevare o correggere eventuali
inconsistenze tra dati provenienti da più data
source. Viene fatta la pulizia dei dati (data
cleaning) necessaria ad assicurare un buon
livello di qualità.
Data Filter
Export
Lesportazione dei dati avviene in maniera
incrementale il sistema colleziona solo le
modifiche (inserzioni o cancellazioni) delle data
source.
10
Architettura di un DataWarehouse
Acquisizione dei Dati (loader)
  • E responsabile del caricamento iniziale dei dati
    nella DW.
  • Predispone i dati alluso operativo, svolge
    operazioni di ordinamento, aggregazione e
    costruisce le strutture dati della warehouse.
  • Le operazioni di acquisizione vengono svolte a
    lotti (in batch), quando la DW non è
    utilizzata.
  • In applicazioni con pochi dati il modulo è
    invocato periodicamente per acquisire tutto il
    contenuto della DW.
  • In genere,invece, i dati vengono allineati in
    modo incrementale, utilizzando il modulo di
    allineamento dei dati.

11
Architettura di un DataWarehouse
Allineamento dei Dati (refresh)
  • Propaga incrementalmente le modifiche della data
    source in modo da aggiornare il contenuto della
    DW. Laggiornamento può essere effettuato
    tramite
  • invio dei dati (data shipping)
  • invio delle transazioni (transaction shipping)
  • Nel primo caso allinterno delle data source
    vengono inseriti dei trigger che registrano
    cancellazioni, inserimenti e modifiche(coppie
    inserimento-cancellazione) in archivi
    variazionali. Nel secondo caso viene usato il log
    delle transazioni per costruire gli archivi
    variazionali.

12
Architettura di un DataWarehouse
Accesso ai Dati
  • E il modulo che si occupa dellanalisi dei dati.
  • Realizza in maniera efficiente interrogazioni
    complesse, caratterizzate da join tra tabelle,
    ordinamenti e aggregazioni complesse.
  • Consente nuove operazioni come roll up, drill
    down e data cube.

13
Architettura di un DataWarehouse
Data mining
  • Tecniche algoritmiche che consentono di fare
    deduzioni sui dati.
  • Consente di svolgere ricerche sofisticate sui
    dati e di esplicitare relazioni nascoste tra i
    dati.

Export dei dati
  • Consente lesportazione dei dati da una DW ad
    unaltra. Architettura gerarchica.

14
Architettura di un DataWarehouse
  • Moduli di ausilio alla progettazione e gestione
    di una DW
  • un componente per lassistenza allo sviluppo
    della DW, che permette di facilitare le
    definizione dello schema dei dati e i meccanismi
    per limportazione dei dati.
  • un dizionario dei dati, che descrive il
    contenuto della DW, utile per comprendere quali
    analisi dei dati possono essere eseguite, una
    sorta di glossario.

15
Schema di un DataWarehouse
  • Nel costruire una DW aziendale ci si concentra su
    sottoinsiemi molto semplici dei dati aziendali
    che si vogliono analizzare (dati dipartimentali).
  • Ogni schema semplificato dei dati dipartimentali
    prende il nome di data mart.
  • Lorganizzazione dei dati di un data mart avviene
    secondo uno schema multidimensionale (o schema a
    stella).

16
Schema a stella
prodotto
Unità centrale rappresenta i fatti
(0,N)
(1,1)
(0,N)
(0,N)
(1,1)
Vendita
supermercato
promozione
(1,1)
(1,1)
Diverse unità poste a raggiera intorno ai fatti
rappresentano le dimensioni dellanalisi
(0,N)
tempo
17
Schema a stella
  • Varie relazioni uno a molti collegano ciascuna
    occorrenza di fatto con una ed una sola
    occorrenza di ciascuna delle dimensioni.
  • La struttura è regolare e indipendente dal
    problema considerato. (occorrono almeno due
    dimensioni altrimenti il problema degenera in una
    semplice gerarchia uno-molti)
  • Un numero elevato di dimensioni è sconsigliato
    perché la gestione dei fatti e lanalisi si
    complicano.

18
Schema a stella
Ciascuna occorrenza di vendita ha per
identificatore i quattro codici CodProd CodMarket
CodPromo CodTempo Gli attributi non chiave sono
Amm e Qta.
Ogni occorrenza di vendita è un dato aggregato
19
Schema a stella
  • Nella dimensione del tempo sono presenti dati
    derivati e ridondanze.
  • Le ridondanze servono per facilitare le
    operazioni di analisi dei dati.
  • I fatti sono in forma normale di Boyce-Codd in
    quanto ogni attributo non chiave dipende
    funzionalmente dalla sua unica chiave.
  • Le dimensioni sono in genere relazioni non
    normalizzate.

20
Schema a fiocco di neve
Evoluzione dello schema a stella, introdotta per
strutturare gerarchicamente le dimensioni non
normalizzate.
Tale schema rappresenta in modo esplicito le
gerarchie, riducendo così le ridondanze e le
anomalie
21
Analisi dei dati operazioni
  1. Interfaccia standard di formulazione delle query
  2. Drill down
  3. Roll up
  4. Data Cube (Slice-and-dice)

22
INTERFACCIA STANDARD DI FORMULAZIONE DELLE QUERY
  • Lanalisi dei dati di un data mart organizzato a
    stella richiede lestrazione di un sottoinsieme
    dei fatti e delle dimensioni
  • Le dimensioni vengono usate per selezionare i
    dati e per raggrupparli
  • I fatti vengono tipicamente aggregati
  • È possibile costruire moduli predefiniti per
    estrarre i dati in cui si offrono scelte
    predefinite (selezioni, aggregazioni,valutazioni
    di funzioni aggregate.

23
INTERFACCIA STANDARD DI FORMULAZIONE DELLE QUERY
Schema
Opzioni
Condizioni
Vista
Promozione.Nome Prodotto.Nome Tempo.Mese Qta Amm
3x2 Coupon 15 SuperSaver Vino Pasta Olio Gen Dic
SuperSaver Pasta Olio Feb Apr
Prodotto.Nome Tempo.Mese sum sum
  • Attributi delle dimensioni
  • Promozione
  • Prodotto
  • Tempo
  • Attributi dei Fatti
  • Aggregati (SUM)

24
INTERFACCIA STANDARD DI FORMULAZIONE DELLE QUERY
Schema
Opzioni
Condizioni
Vista
Promozione.Nome Prodotto.Nome Tempo.Mese Qta Amm
3x2 Coupon 15 SuperSaver Vino Pasta Olio Gen Dic
SuperSaver Pasta Olio Feb Apr
Prodotto.Nome Tempo.Mese sum sum
select Tempo.Mese, Prodotto.Nome, sum(Amm),
sum(Qta) from Vendite, Tempo, Prodotto where
Vendite.CodTempo Tempo.CodTempo and
Vendite.CodProdotto Prodotto.CodProdotto and
(Prodotto.Nome Pasta or Prodotto.Nome
Olio) and Tempo.Mese between Feb and
Apr and Promozione.Nome SuperSaver group by
Tempo.Mese, Prodotto.Nome order by Tempo.Mese,
Prodotto.Nome
Tempo.mese Prodotto.nome sum(Amm) sum(Qta)
25
Drill-down e Roll-up
  • Il drill down permette di aggiungere una
    dimensione di analisi disaggregando i dati.
  • Il roll up dualmente consente di eliminare una
    dimensione di analisi.
  • Loperazione di roll up può essere fatta agendo
    sui risultati dellinterrogazione, quella di
    drill down richiede la riformulazione
    dellinterrogazione(servono dati non presenti
    nellinterrogazione).

26
Drill-down e Roll-up
Prodotto.Nome Tempo.Mese Qta
Vino Pasta Olio Gen Dic
Pasta Feb Apr
Prodotto.Nome Tempo.Mese sum
Schema
Opzioni
Condizioni
Vista
  • somma delle
  • quantità vendute
  • di pasta nel
  • trimestre Feb-Apr

Tempo.mese Prodotto.Nome Sum(Qta)
Feb Pasta 46 Kg
Mar Pasta 50 Kg
Apr Pasta 51 Kg
27
Drill-down
Tempo.mese Prodotto.Nome Sum(Qta)
Feb Pasta 46 Kg
Mar Pasta 50 Kg
Apr Pasta 51 Kg
Il manager è interessato alle vendite per
zona Drill down on Zona
Tempo.mese Prodotto.Nome Zona Sum(Qta)
Feb Pasta Nord 18
Feb Pasta Centro 15
Feb Pasta Sud 13
Mar Pasta Nord 18
Mar Pasta Centro 18
Mar Pasta Sud 14
Apr Pasta Nord 18
Apr Pasta Centro 17
Apr Pasta Sud 16
28
Analisi dei dati
Tempo.mese Prodotto.Nome Zona Sum(Qta)
Feb Pasta Nord 18
Feb Pasta Centro 15
Feb Pasta Sud 13
Mar Pasta Nord 18
Mar Pasta Centro 18
Mar Pasta Sud 14
Apr Pasta Nord 18
Apr Pasta Centro 17
Apr Pasta Sud 16
Il manager è interessato solo alla suddivisione
delle vendite per zona roll up on Mese
Zona Prodotto.Nome Sum(Qta)
Nord Pasta 54 Kg
Centro Pasta 50 Kg
Sud Pasta 43Kg
29
Rappresentazione Multidimensionale (Cube)
30
Slice-and-dice
  • Seleziona un sottoinsieme delle celle del un
    cubo, ottenuta affettando e tagliando a cubetti
    il cubo stesso.
  • Seleziona e proietta riducendo la dimensionalità
    dei dati

31
Slice-and-dice
Il manager vuole effettuare unanalisi relativa
alle vendite in tutti i periodi nella zona Roma-2
32
Slice-and-dice
Il manager vuole effettuare unanalisi relativa
alle vendite in tutti i periodi nella zona Roma-2
Luogo
Articolo
Tempo
33
Slice-and-dice
Il manager di prodotto esamina la vendita di un
particolare prodotto in tutti i periodi e in
tutti i mercati
Luogo
Articolo
Tempo
34
Slice-and-dice
Il manager finanziario esamina la vendita di
tutti i prodotti in tutti i mercati relativamente
ad un particolare periodo
Luogo
Articolo
Tempo
35
Slice-and-dice
Il manager strategico si concentra su
una categoria di prodotti, una area regionale
e un orizzonte temporale medio
Luogo
Articolo
Tempo
36
Slice-and-dice
Il manager seleziona le vendite per trimestre e
per negozio dei soli lettori di DVD
Lettori DVD 1 trim.03 2 trim.03 3 trim.03 4 trim.03
Roma-1 38 91 66 198
Roma-2 155 219 248 265
Milano-1 121 273 266 326
Milano-2 222 122 155 200
37
Data mining
  • Ricerca di informazioni nascoste allinterno
    delle DW.
  • Esempi
  • analisi di mercato (individuazione di oggetti
    acquistati assieme o in sequenza)
  • analisi di comportamento (frodi o usi illeciti
    delle carte di credito)
  • analisi di previsione (costo futuro delle cure
    mediche)

38
Fasi del processo di data mining
  1. Comprensione del dominio.
  2. Preparazione sul set di dati. Individuazione di
    un sottoinsieme dei dati della DW su cui
    effettuare il mining e loro codifica (input
    algoritmo)
  3. Scoperta dei pattern. Ricerca e individuazione di
    pattern ripetitivi tra i dati.
  4. Valutazione dei pattern. Partendo dai pattern
    scoperti si valutano quali esperimenti compiere
    successivamente e quali ipotesi formulare o quali
    conseguenze trarre.
  5. Utilizzo dei risultati. Prendere decisioni
    operative a seguito del processo di data mining
    (allocazione merci, concessione credito).

39
Problemi di data mining
Struttura ricorrente
Specifici algoritmi
Buona scalarità
Efficenti per grandi moli di dati
40
Problemi di data mining
  • Regole di associazione
  • Discretizzazione
  • Classificazione

41
Regole di associazione
  • Scoprire associazioni ti tipo causa-effetto.
  • Una regola associativa consta di una premessa e
    di una conseguenza.
  • Pannolini ? Birra
  • e possibile definire in modo preciso le
    probabilità associate alle regole di
    associazione.
  • supporto probabilità che in una osservazione sia
    presente sia la premessa che la conseguenza di
    una regola.
  • confidenza probabilità che in una osservazione
    sia presente la conseguenza di una regola essendo
    già presente la premessa.

42
Regole di associazione
Il problema di data mining relativo alla scoperta
delle regole di associazione viene quindi
enunciato come segue Trovare tutte le regole di
associazione con supporto e confidenza superiori
a valori prefissati
43
Regole di associazione esempio
Premessa Conseguenza Supporto Confidenza
pantaloni-sci scarponi 0.25 1
scarponi pantaloni-sci 0.25 1
magliette stivali 0.25 0.5
magliette giacche 0.25 1
stivali magliette 0.25 0.5
stivali giacche 0.25 1
giacche magliette 0.5 0.66
giacche stivali 0.25 0.33
Vogliamo le regole associative con supporto
maggiore o uguale di 0.25 e confidenza maggiore
strettamente di 0.5
44
Regole di associazione esempio
Premessa Conseguenza Supporto Confidenza
pantaloni-sci scarponi 0.25 1
scarponi pantaloni-sci 0.25 1
magliette stivali 0.25 0.5
magliette giacche 0.25 1
stivali magliette 0.25 0.5
stivali giacche 0.25 1
giacche magliette 0.5 0.66
giacche stivali 0.25 0.33
45
Regole di associazione esempio
Premessa Conseguenza Supporto Confidenza
pantaloni-sci scarponi 0.25 1
scarponi pantaloni-sci 0.25 1
magliette stivali 0.25 0.5
magliette giacche 0.25 1
stivali magliette 0.25 0.5
stivali giacche 0.25 1
giacche magliette 0.5 0.66
giacche stivali 0.25 0.33
Vogliamo le regole associative che hanno supporto
e confidenza superiori a 0.4
46
Discretizzazione
  • Consente di rappresentare un intervallo continuo
    di dati tramite pochi valori discreti,
    selezionati in modo da rendere più evidente il
    fenomeno sottoposto ad osservazione.
  • Es. valori di pressione

47
Classificazione
  • Catalogazione di un fenomeno in una classe
    predefinita. Fa uso di algoritmi di
    classificazione (es. alberi decisionali)
  • Quando i fenomeni sono descritti da un gran
    numero di attributi i classificatori si occupano
    di determinare gli attributi significativi,
    separandoli da quelli irrilevanti.
  • Es. polizza assicurazione

48
Classificazione alberi decisionali
Età lt23
vero
falso
TipoAutoSportiva
falso
vero
TipoAutoCamion
vero
falso
49
(No Transcript)
About PowerShow.com