Nincs diac - PowerPoint PPT Presentation

1 / 26
About This Presentation
Title:

Nincs diac

Description:

SQL OLAP 6. ra – PowerPoint PPT presentation

Number of Views:88
Avg rating:3.0/5.0
Slides: 27
Provided by: unim205
Category:
Tags: diac | nincs

less

Transcript and Presenter's Notes

Title: Nincs diac


1
SQL OLAP6. óra
2
Általános integrációs szintek
3
A források integrálása a DW rendszerek
legfontosabb eleme
Elemei - séma integráció - adat
integráció -- virtuális -- valós
4
ETL folyamatok
5
Séma integráció
Célja homogén, konzisztens közös séma eloállítása
Integráció fobb lépései - elo integráció
(preintegration) - séma összehasonlítás (schema
comparison) - séma illesztés (schema
conforming) - séma összevonás (schema merging)
6
Name
City
Title
Publisher
Book
University
Published by
Adopted by
Refer to
Name
Address
Name
Topics
- - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - -
-
Title
Publication
Code
Publisher
contains
Word
Keywords
Code
Research Area
7
Name
City
Title
A
Publisher
Book
University
Published by
Adopted by
Refer to
Name
Address
Name
Topics
- - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - -
-
B
Title
Publication
Publisher
Published by
Code
contains
Name
Word
Name
Keywords
Topics
Code
Research Area
8
Name
City
Title
Name
Address
Publisher
Book
University
Published by
Adopted by
Published by
Refer to
Name
Topics
Publication
contains
Code
Research Area
Title
Code
9
Elointegráció lépései
- az egyes sémák elemzése - integrációba
bevonandó elemek kiválasztása - integrációs
sorrend meghatározása - integritási elvek
összegyüjtése - szemantikai kibovités - közös
szemantikai modellre alakítás (EER, ODL,
formális logikai nyelv,...) - adatszótár
létrehozás
1.
gt0
2.
gt0
10
Séma összehasonlítás lépései
- a különbözo sémák elemei közötti kapcsolatok
meghatározása - séma struktúra hasonlóság
vizsgálata - modell heterogenitási konfliktusok
feloldása - elnevezési konfliktusok
feloldása (hononima, szinonima) - szemantikai
konfliktusok felodása - strukturális konfliktusok
feloldása
nev
vezeto
tel
fiz
nev
oszt.vez
cim
11
Séma illesztés elemei - elnevezés --
szinonímák -- általánosítás -- elírás -
struktúra -- kapcsolatok -- szerkezet --
viselkedés
12
Séma illesztés és összevonás lépései
- konfliktusok számbavétele - konfiktusok
feloldása - sémak kombinálása - közös séma
átalaktítása (séma hasonlóság alapú vizsgálat) -
séma optimalizálása - teljesség, helyesség,
minimalitás ellenorzés
nev
vezeto
nev
vezeto
tel
fiz
tel
cim
nev
oszt.vez
cim
13
Adat integrációs lépések
- adat illesztés -- formátum -- kódolás --
érték - adatszurés (közös integritási
feltételek) - adat ellenorzés (inkozisztencia
feloldása)
A séma integrációban megadott leképzés (mapping)
alapján muködik
speciális feladatok - adattisztítás - adat
illesztés
14
DW
Integrációs struktúra
kliens séma
kliens modell
mediators
fogalmi szint alkalmazás modell (EER, logikai f.)
logikai szint DW séma (relációk, kockák)
wrapper
meta-modell
adatforrások
15
Integráció tervezési módszerek
Egyszintu (one-shot) csak egy célséma
van Inkrementális modulok független parciális
sémák inter-séma megkötések, szabályok
Forrás vezérelt tervezés vállalati szintu modell
kialakítása a források alapján a meglévo adatok
határozzák meg az integrált modellt Kliens
vezérelt tervezés a felhasználói igények
kielégítése a cél az igények határozzák meg az
integrált modellt
16
Adattisztítás (data cleaning)
DSS garbage in garbage out
17
Data Cleaning
tipikus betöltési inkozisztenciák
  • hiányos séma elem
  • hiányos adatelofordulás
  • hibásan bevitt érték
  • téves számítások
  • dupplikációk
  • eltéro formátum
  • eltéro kódolás
  • átfedo kódolás
  • integritási szabályok hiánya
  • nem összetartozó adatok
  • hiányzó kapcsolat
  • elnevezés konfliktus
  • strukturális konfliktus

18
(No Transcript)
19
(No Transcript)
20
Adat tisztítási módszerek
A DW rendszer egyik legnehezebb feladata
a séma/adat integrációval együtt hajtódik végre
Fázisai - adatelemzés a lehetséges hibák
felderítésére - transzformációs, leképzési
metódusok elkészítése - algoritmusok
ellenorzése, validálás - adatok módosítása -
tisztított adatok beépítése
21
Adatelemzés két fo áramlata - data
profileing - data mining
A transzformáció általános formátuma SQL
22
Elírási hibák felderítése - n-gram
módszer gyors pontatlan - szótár
alapú hash (hasító fv) - editálási
távolság dinamikus programozás lassú pont
os
23
Minimális költség kiszámítása az editálási
távolságnál
alap muveletek insertion, deletion, substitution
c(sn,tm) d(sn-1,tm-1) c(sn,0)
d(sn-1,tm) c(0,tm) d(sn,tm-1)
d(sn,tm) min
Átalakítási mátrix
t a r g e t
s o u r c e
O (nm) O (n m / log n)
24
Hiányzó érték pótlása
nem pontos, statisztikai alapú
a többi attribútum alapján vett legvalószínubb
érték megadása
1. attribútum-párok közötti korreláció
számítása korr szumma(xiyi) / (szumma(xi)
szumma(yi)) 2. legszorosabb kapcsolatú
attributumok kiválasztása 3. értékek
közelítése d szumma ((yi xi)2) d ?
szélsoérték
25
Rekord illesztési módszerek
más helyrol származó rekordok illesztése (pl.
biztosítottak)
nem egyeznek meg a kapcsolódó kulcsok (hiány,
elírás)
módszerek - egy index pontatlan, lassú -
több index ablak technika - valószínuségi
pozitív és negatív minták vizsgálatával
megbecsüli az illeszkedési
valószínuséget maradnak bizonytalan
esetek
26
Piaci termékek
cleaning.html
Write a Comment
User Comments (0)
About PowerShow.com