Az adatok

About This Presentation

Title:

Az adatok

Description:

Adatok el feldolgoz sa Az adatok ltal nos jellemz se Az adatok alapvet statisztikai jellemz i Az adatok hasonl s g nak m r se Adattiszt t s – PowerPoint PPT presentation

Number of Views:205

Avg rating:3.0/5.0

Slides: 123

Provided by: Jiaw268

Category:

Tags: adatok

more less

Transcript and Presenter's Notes

Title: Az adatok

1
Adatok elofeldolgozása

Az adatok általános jellemzése
Az adatok alapveto statisztikai jellemzoi
Az adatok hasonlóságának mérése
Adattisztítás
Adatok integrálása, átalakítása
Adatredukció

2
Milyen típusú adathalmazokkal dolgozunk?

Rekord
Relációs adatbázis rekordjai
Adatmátrixok, például numerikus mátrix, együttes
gyakoriságot megadó (crosstabs) mátrix
Dokumentumok szövegek, weboldalak kulcsszó-
(term) gyakorisági vektor
Tranzakciós adatok
Gráfok
Weboldalak gráfja (WWW)
Közösségi hálók
Molekulaszerkezetek
Rendezett adatok
Földrajzi adatok térképek
Idosorok
Szekvenciák vásárlási sorozatok
Genetikus sorozatok

3
A strukturált adatok legfontosabb jellemzoi

Többdimenziós adatok
Nagyon nagy lehet a dimenzió, akár több ezer is
(például dokumentum/kulcsszó mátrix)
Ezt hívják a dimenzió átkának (Curse of
dimensionality).
Oracle-ben csak 1000 oszlopos lehet egy tábla!
Ritkaság
Például a bitmap indexben nagyon sok a 0
Felbontás
A mintázat függhet a mértékegységtol, skálától
Hasonlóság
Valamilyen távolságmérték

4
Az attribútumok típusa

Szöveges (Nominal)
foglalkozás, személyi azonosító, szemszín,
irányítószám
Rendezett (Ordinal)
rangok (tisztek rangja, beosztási fokozatok),
osztályzatok, magasság magas, közepes, alacsony
Bináris
orvosi teszt (pozitív vagy negatív)
Intervallum (Interval) /- muveletek
értelmezhetok
dátum, elégedettségi mutató (1-10)
Skálafüggo (Ratio), azaz az egységhez
arányosítjuk konstanssal szorzás értelmezheto
homérséklet Kelvin fokban, hossz centiméterben,
ido órában, darabszám

5
Diszkrét vagy folytonos attribútumok

Diszkrét attribútum
Véges vagy megszámlálhatóan végtelen lehetséges
érték
irányítószám, foglalkozás, egy dokumentum szavai
gyakran egész számokkal reprezentálják
ilyen a bináris attribútum is
Folytonos attribútum
nem megszámlálható halmazból veheti fel az
értéket
valós számok homérséklet, magasság, súly
valójában a valós számokat csak véges sok
számjeggyel ábrázoljuk
tipikusan lebegopontos változóval reprezentáljuk

6
Adatok elofeldolgozása

Az adatok általános jellemzése
Az adatok alapveto statisztikai jellemzoi
Az adatok hasonlóságának mérése
Adattisztítás
Adatok integrálása, átalakítása
Adatredukció

7
Leíró jellemzok eloállítása

Motiváció
Legyen egy gyors áttekintésünk az adatok
viselkedésérol, tendenciájáról,
elhelyezkedésérol, átlagokról, szóródásukról
Az adatok szóródására, eloszlására jellemzo
statisztikák
medián, max, min, kvantilisek (quantiles),
kiugrások (outliers), szórás (variance), etc.
Numerikus dimenziók rendezett számhalmazoknak
felelnek meg
az adatok szóródása függ a pontosság fokától,
azaz hány tizedesjeggyel reprezentáljuk az
adatokat
a minta jellemezheto a kvantiliseket ábrázoló
Boxplot diagrammal
Többdimenziós szóródás
visszavezetjük a dimenziók szóródására
a Boxplot diagramokat 3D-ben ábrázoljuk
(xi,yi,Boxplot(z))

8
Mennyire központ körüliek az adatok?

Átlag (Mean)
súlyozott átlag
levágott (Trimmed mean) átlag elhagyjuk a
legnagyobb, legkisebb értékeket
Medián (Median)
A középso mintaelem, vagy a két középso mintaelem
átlaga, ha páratlan, illetve páros számú adat
van. ( 2. kvartilis)
A medián az a µ érték, ahol az eloszlásfüggvény
1/2 F(µ)1/2
Módusz (Mode)
A leggyakrabban eloforduló mintaelem vagy elemek
több ilyen is lehet unimodális, bimodális.
trimodális

9
Szimmetrikus vagy ferde adatok

A medián, átlag és módusz elhelyezkedése
szimmetrikus, pozitív és negatív ferdeségu adatok
esetén.

szimmetrikus
pozitív ferdeség
negatív ferdeség
10
A szóródás jellemzése

Kvartilisek (negyedelok), kiugró adatok és
boxplotok segítségével
Kvartilis Q1 (25-ik percentilis, azaz a minta
25-a kisebb ennél), Q3 (a 75-ik percentilis,
azaz a minta 75-a kisebb ennél)
Belso kvartilis terjedelem (Inter-quartile
range) IQR Q3 Q1
5-számos jellemzés (Five number summary) min,
Q1, M, Q3, max
Doboz diagram (Boxplot) a doboz a végei, illetve
a közepe a kvartilisek, a dobozon kívüli minták
közül a távoliak a kiugró adatok
Kiugró elem (Outlier) (1.5xIQR) Q3 nál
nagyobb, vagy Q1-(1.5xIQR) nél kisebb
Szórásnégyzet (Variance), szórás (standard
deviation) (minta s, populáció s)
Szórásnégyzet (Variance) (skálázható algebrai
formulával számolható ki)
Szórás (Standard deviation) a variancia
négyzetgyöke

11
Doboz (Boxplot) diagram

Az eloszlásra jellemzo 5 érték
Minimum, Q1, M, Q3, Maximum
A doboz (Boxplot)
A mintát a doboz reprezentálja
A doboz magassága IQR
A medián kettéosztja a dobozt
Arra ferdül az eloszlás, amelyik féldoboz nagyobb
A doboz karjai (Whiskers) két vonal a Minimumig,
illetve a Maximumig

12
Doboz (Boxplot) diagram
13
Doboz (Boxplot) diagram értelmezése
Harang alakú Egyenletes
Jobbra ferdül
14
3D Boxplot diagram
A Profit eloszlását jellemezzük rögzített
bevétel és költség esetén
15
A normális eloszlás tulajdonságai

A suruségfüggvény harang alakú
Az adatok 68-a esik a µs, µs intervallumba,
ahol µ a várható érték, s a szórás
Az adatok 95-a esik a µ2s, µ2s intervallumba
Az adatok 99.7-a esik a µ3s, µ3s
intervallumba

16
További hasznos grafikus megjelenítések

Boxplot 5 számmal jellemzi az eloszlást
Hisztogram x az értékeknek, az y a
gyakoriságoknak felel meg
Kvantilis diagram (xi ,fi ) párok,
ahol a minta 100xfi - a ? xi
Kvantilis-kvantilis (q-q) diagram két eloszlás
kvantilis értékeit hasonlítja össze
Pontdiagram (Scatter plot) 2D-ben vagy 3D-ben
ponttal jelölünk minden mintaelemet
Regressziós görbe (Loess - local regression) egy
sima görbét illesztünk a pontdiagram adatpontjaira

17
Hisztogram

A doboz diagramnál jobban jellemzi az eloszlást
Gyakorisági hisztogram
Egydimenziós eloszláshoz használható
A téglalap magassága az adott osztályba eso
minták számával egyenlo

18
A hisztogram többet árul el az eloszlásról, mint
a doboz diagram

A két eloszlás doboza megegyezik
Mind az 5 nevezetes értékük ugyanaz min, Q1,
medián, Q3, max
Az egyik egy egycsúcsú eloszlás, a másik egy
kétcsúcsú eloszlás.

19
Kvantilis diagram (Quantile Plot)

Az összes adat megjelenítése helyett az
eloszlásfüggvényt közelítjük a tapasztalati
eloszlásfüggvénnyel.
A kvantilis diagram a tapasztalati
eloszlásfüggvény inverze, készítése elott
rendezzük az adatokat
(xi , fi ) azt jelenti, hogy az adatok 100fi-a
kisebb vagy egyenlo xi értékénél

20
Kvantilis-Kvantilis (Q-Q) diagram

Két eloszlásfüggvényt hasonlítunk össze úgy, hogy
a megegyezo kvantilis pároknak megfelelo pontokat
ábrázoljuk
Megegyezo eloszlás esetén a pontok az yx
tengelyen lesznek

(Q3,Q3)
(Q2,Q2)
(Q1,Q1)
21
Pontdiagram (Scatter plot)

Kétdimenziós adatokat vagy két dimenziós
vetületet ábrázoljuk
Az adatok viselkedését jól lehet látni, például
hol alakulnak ki csoportok, mi a tendencia, hol
vannak szélsoséges adatok

22
Lokális regressziós görbe (Loess Curve)

Egy sima (általában lineáris vagy kis fokú
polinom) görbét illesztünk a pontokra a
környezetük alapján
Két paraméterrel hangoljuk
a simítási paraméter mondja meg, hogy mennyi ()
közeli pontot használjunk fel (speciális esete a
Mozgó Átlag)
a második paraméter a polinom foka

23
Pozitív és negatív korreláció
a regressziós egyenes meredeksége negatív
a regressziós egyenes meredeksége pozitív

Az adatok kettévághatók egy pozitívan és egy
negatívan korrelált ponthalmazra

24
Korrelálatlan adatok
25
Vizualizációs módszerek

Mit nyújt egy jó ábrázolás?
Egyszeru grafikai elemekre (egyenes, kör, gömb,
kocka, stb.) képezik le az adatokat
Nagy adathalmazok jellemzoit kiemelik
Könnyebben találhatunk mintákat, szabályosságot
vagy szabálytalanságot, trendet, összefüggéseket
az adatok között
megtalálhatjuk az adathalmaz lényeges részét,
ezáltal redukáljuk a feladatot kevesebb adatra
A kiszámított modellt ábrázolva látjuk, hogy
mennyire jó a modell, mennyire illeszkednek rá az
adatok
Tipikus módszerek
Geometrikai technikák
Ikonizált technikák
Hierarchikus technikák

26
Direkt adatvizualizáció
Az örvénylést megtekeredo szalagként ábrázoljuk
27
Geometriai technikák

Az adatokon geometriai transzformációt, vetítést
végzünk
Tipikus módszerek
3D-s tájképek
Projekciók
A többdimenziós adatoknak mely vetületei,
dimenzió a lényegesek?
Az összes kétdimenzió pontdiagramból mátrix
készítése
Metszet készítése
Hiperszeletelés (Hyperslice) többdimenziós
függvények
vizualizációja a megfelelo kétváltozós
függvények ábrázolásával
Párhuzamos koordináták használata (Parallel
coordinates)

28
Pontdiagram mátrix
Used by permission of M. Ward, Worcester
Polytechnic Institute

A k-dimenziós adatokból C(k, 2) (k2 ? k)/2
pontdiagram készítheto

29
3D tájképek
Újságcikkek témák szerinti eloszlása
Used by permission of B. Wright, Visible
Decisions Inc.

Az adatokat (mesterséges módon) 2D-ben
reprezentáljuk és például az együttes gyakoriság
lesz a pontok magassága
Az azonos magasságú szintek azonos színuek

30
Párhuzamos koordináták (Parallel Coordinates)

k párhuzamos egyenes felel meg a k attribútumnak
Minden k-dimenziós pontot egy töröttvonallal
reprezentálunk az i-ik egyenesen az i-ik
koordinátát, ami az i-ik attribútumnak megfelelo
minimum, maximum tartományba esik
Ahány elemi a minta, annyi poligont kapunk

31
3 db (piros, kék, zöld) 3D adathalmaz ábrázolása
párhuzamos koordinátákkal
32
Ikonizált technikák

Az értékeket az ikonok valamilyen jellemzoje
fejezi ki
Tipikus módszerek
Chernoff arcok
Vonalrajzok (Stick Figures)
Formák (Shape Coding)
Színek
Csempeoszlop (TileBars) Dokumentumok részeiben a
keresett szó hányszor fordul elo

33
Chernoff arcok

Több dimenziót tudunk 2D-ben ábrázolni, például x
legyen a szemöldök meredeksége, y a szem
nagysága, z az orr hossza, stb.
Az ábrán 10 jellemzos arcokat látunk

34
Vonalrajzok (Stick Figures)

Népszámlálási adatok a nem és az iskolázottság
eloszlása a kor és jövedelem függvényében
used by permission of G. Grinstein, University of
Massachusettes at Lowell
35
Csempeoszlop (TileBars)
36
Hierarchikus technikák

A teret hierachikus partíciókra osztjuk fel.
Tipikus módszerek
Dimenzió beágyazása (Dimensional Stacking)
Világ a világban (Worlds-within-Worlds)
Fatérkép (Treemap)
Kúpfák (Cone Trees)
Infokocka (InfoCube)

37
Dimenziók beágyazása(Dimensional Stacking)

Az n-dimenziós teret 2D részterekre
particionáljuk, és ezeket egymásba ágyazzuk
Minél beljebb van 2 attribútum, annál kevésbé
lényegesek (az elso attribútum a legfontosabb)
Alacsony számosságú rendezett (ordinal)
attribútumokra használható

38
Dimenziók beágyazása
Used by permission of M. Ward, Worcester
Polytechnic Institute
A földrajzi koordinátákon (x,y) belül a
kibányászott érc vastartalma (z) és amilyen
mélyrol felhozták (w).
39
Fatérkép (Tree-Map)

A teret felbontjuk tartományokra a kiválasztott
attribútum alapján
A tartomány nagysága az attribútum értékét fejezi
ki
A tartományt tovább bontjuk egy másik attribútum
alapján.
Színekkel a felbontásban nem szereplo
attribútumok értékét fejezhetjük ki.

MSR Netscan Image
40
Egy fájlrendszer fatérképe
41
Adatok elofeldolgozása

Az adatok általános jellemzése
Az adatok alapveto statisztikai jellemzoi
Az adatok hasonlóságának mérése
Adattisztítás
Adatok integrálása, átalakítása
Adatredukció

42
Hasonlóság (Similarity) és különbözoség
(Dissimilarity)

Hasonlóság
egy szám, ami megmondja mennyire hasonló a két
objektum
minél nagyobb, annál jobban hasonlóak
a hasonlósági mérték általában 0,1-beli szám
Különbözoség (eltérés, távolság)
mennyire különbözo a két objektum
minél nagyobb, annál jobban eltérnek
általában 0 jelenti, hogy teljesen hasonlók
felso korlát nem mindig van
Közelségen (Proximity) hasonlóságot vagy
különbözoséget értünk

43
Adatmátrix és különbözoségi mátrix

Adatmátrix
n darab p dimenziós objektum
n x p
Különbözoségi mátrix
minden objektumpár különbözosége szerepel benne
háromszög mátrix
n x n

44
Példa távolság mátrixra
Data Matrix
Távolság (különbözoség) mátrix Euklideszi
távolság esetén
45
Minkowski-távolság

Minkowski távolság
ahol i (xi1, xi2, , xip) és j (xj1, xj2, ,
xjp) két p-dimenziós objektum, q a távolság
rendje.
Távolság szokásos tulajdonságai
d(i, j) gt 0 ha i ? j, és d(i, i) 0 (Potitív
definit)
d(i, j) d(j, i) (Szimmetria)
d(i, j) ? d(i, k) d(k, j) (Háromszög-egyenlotle
nség)
Ha a távolság kielégíti mindhármat, akkot metrika.

46
A Minkowski-távolság speciális esetei

q 1 Manhattan-távolság (L1 norma)
például Hamming-távolság eltéro bitek száma
q 2 (L2 norma) Euklideszi-távolság
q ? ?. szuprémum-távolság (Lmax norma, L?
norma).
A komponensek maximális eltérése
Súlyozott összeg is használható, ha nem egyformán
fontosak a dimenziók

47
Példa Minkowski-távolságra
Távolság mátrix
48
Intervallum típusú változók

Standardizáljuk az adatokat
Az f-ik komponensben kiszámoljuk az átlagos
abszolút eltérést
ahol
Kiszámítjuk az i-ik objektum standardizált
z-értékét (z-score).
Az abszolút eltérés kevésbé érzékeny a kiugró
értékekre, mint a szórás
A standardizált objektumoknak vesszük a
Minkowski-távolságát

49
Bináris változók

Kontingencia-táblával
jellemezzük az együttes eloszlást
Szimmetrikus bináris változók távolsága
Aszimmetrikus bináris változók távolsága
Jaccard-együttható (hasonlósági mérték
aszimetrikus bináris változókra)

A Jaccard-együttható ugyanazt adja, mint a
koherencia

50
Bináris változók eltérése

(név,nem,lázas,köhög,teszt1,teszt2,teszt3)
a nem szimmetrikus (egyformán fontos, hogy férfi
vagy no)
a többi változó aszimmetrikus
Kódoljuk Y és P értéket 1-gyel, N értéket 0-val

51
Szöveges (Nominal) változók

A bináris általánosítása, például felveheto
értékek piros, sárga, kék, zöld (4 érték)
2. módszer Egyszeru egyezés
m az egyezések száma, p a változók száma
2. módszer bittérkép index készítésével
visszavezetjük bináris változókra
minden felveheto értéknek egy bináris változót
feleltetünk meg

52
Rendezett (Ordinal) változók

Lehet diszkrét vagy folytonos is
Nem az érték, hanem a sorrend számít, például
rangfokozat
Visszavezetjük intervallum típusúra
xif helyett a rendezés szerinti sorszámát
vesszük
normáljuk, hogy a rangok 0, 1-be essenek
az így kapott intervallum változók eltérését
vesszük

53
Skálafüggo (Ratio-Scaled) változók

Skálafüggo (Ratio-scaled) nem lináris a skála,
például exponenciális ( Ae Bt vagy Ae -Bt )
Módszerek
intervallum típusnak tekintve nem jó (a skála
torzít)
logaritmikus transzformációval visszavezetjük
lineáris skálára
yif log(xif)
folytonos rendezett adatoknak tekintjük oket,
ahol a rang intervallum típusú

54
Kevert típusú változók

6 féle típust határoztunk meg
szimmetrikus bináris, aszimmetrikus bináris,
nominális, ordinális, intervallum és skálafüggo
A megfelelo típusok eltérésének súlyozott összege
f bináris vagy nominális
dij(f) 0 ha xif xjf , dij(f) 1 különben
f intervallum típusú normalizált távolság
f ordinális vagy skálafüggo
vegyük az rif rangot
a zif értéket intervallum típusúnak tekintjük

55
Vektorokra értelmezett koszinusz hasonlóság

Vektor objektumok dokumentumok kulcsszavai,
géntulajdonságok egy génchip esetén
Alkalmazási terület információ keresés
(information retrieval), biológia
d1 és d2 vektorok esetén
cos(d1, d2) (d1 ? d2) /d1
d2 ,
ahol ? a skalárszorzat, d a d hossza
Például
d1 3 2 0 5 0 0 0 2 0 0
d2 1 0 0 0 0 0 0 1 0 2
d1?d2 31200050000000210002
5
d1 (33220055000000220000)0
.5(42)0.5 6.481
d2 (11000000000000110022)
0.5(6) 0.5 2.245
cos( d1, d2 ) .3150

56
Adatok elofeldolgozása

Az adatok általános jellemzése
Az adatok alapveto statisztikai jellemzoi
Az adatok hasonlóságának mérése
Adattisztítás
Adatok integrálása, átalakítása
Adatredukció

57
Az elofeldolgozás fo feladatai

Adatok tisztítása
Hiányzó értékek pótlása, hibás, zajos értékek
kijavítása (simítása), kiugró esetek keresése
eltávolítása, inkonzisztenciák feloldása
Adatok integrálása
Több adatbázis, adatkocka, fájl adatainak közös
sémába töltjük
Adatok transzformálása
Szükség esetén normalizálása, összesítése
Adatok redukálása (mintavételezés)
Olyan kisebb mintát keresünk, amely a teljes
populációs statisztikai tulajdonságait magán
hordozza
Diszkretizálunk folytonos függvény helyett
néhány helyen felvett értékét tekintjük vagy
számokat osztályokba sorolunk

58
Az adattisztítás

Rossz adatokból jó eredményt nem lehet kapni!
Jó döntést csak jó adatok alapján lehet hozni
a hiányzó, vagy duplán tárolt adatok hibás,
félrevezeto statisztikákat okozhatnak
Az adattárház építésének elso számú feladata az
adattisztítás
Az adattárház építés részei (ETL)
az adatok összegyujtése az adatforrásokból (data
Extraction)
az adatok tisztítása és transzformálása (cleaning
and Transform)
a transzformált adatok betöltése az adattárházba
(Load)
Az adattisztítás feladatai
hiányzó értékek kitöltése
kiugró esetek összegyujtése, zajos adatok
simítása,
inkonzisztenciát okozó hibák javítása
az integrációból adódó többszörös elofordulások
eltávolítása

59
Milyen a piszkos adat?

Nem teljes hiányoznak attribútumok, értékek vagy
csak összesített adatok állnak rendelkezésre
foglalkozás "" (hiányzó adat)
zajos zajos, hibás, vagy kiugró értéket
tartalmaz
fizetés-10 (hibás érték)
inkonzisztens összefüggéseket megsérti,
ellentmondásos a kódolása, névhasználat,
Kor42 de születés2000.01.01.
Egyik helyen az osztályzat 1,2,3 másik helyen A,
B, C
ellenmondásosak a duplázott rekordok

60
Miért keletkeznek piszkos adatok?

Honnan származnak a nem teljes adatok?
Az adatgyujtéskor kimarad, például eltéro
adattípusok miatt
Más volt az elképzelés az adatgyujtéskor, mint a
késobbi adatelemzéskor, hiányoznak az elemzéshez
szükséges adatok.
Emberi/hardver/szoftver problémák
Honnan jöhetnek zajos, hibás adatok?
Hibás az adatgyujto méroeszköt
Az adatbevitel során emberi vagy szoftveres hibák
Adatátvitel közben sérülnek az adatok
Mitol lesznek inkonzisztens adataink?
Különbözo adatforrásokból jönnek az adatok
Megsérthetünk például funkcionális függoségeket
(ha módosítás során nincs ellenorzés)
A megegyezo rekordokból csak egyet akarunk
megtartani

61
Az adatminoséget több szempont alapján mérhetjük
(többdimenziós mérték)

A legfontosabb mértékek
Pontosság (Accuracy) - például méroeszközöbol
származó adatok hány jegyre pontosak
Teljesség (Completeness) például nullértékek
száma
Konzisztencia (Consistency) megsértett
szabályok száma, vagy legbovebb konzisztens
részhalmaz mérete
Idoszeruség (Timeliness) mennyire frissek az
adatok (legjobb lenne az online)
Hihetoség (Believability) mennyire bízunk mi,
vagy szakértok (0,1) a bevitt adatokban

62
Az adatminoséget több szempont alapján mérhetjük
(többdimenziós mérték)

További mértékek
Hozzáadott érték (Value added) például az értékek
alapján kap egy jelzot, hogy átlagos, átlagon
felüli vagy aluli
Értelmezhetoség (Interpretability)
Elérhetoség (Accessibility)
Az adatminoség
szoftverekkel mérheto

63
Hiányzó adatok

Nem mindig adják meg az összes adatot
Például a vásárlók jövedelmét, vagy a gmail-es
felhasználók telefonszámát nem töltik ki
Miért van hiányzó adat
Hibás a méromuszer
Törölték a nem konzisztens adatokat
nem volt kötelezoen kitöltendo
adatgyujtéskor még nem tudtuk, hogy fontos lesz
késobb
az adatváltozás nem volt naplózva, elvesztek a
régi értékek
Mi van, ha mégis szükségünk lenne arra, hogy
milyen érték hiányzik valójában?

64
Mit kezdjünk a hiányzó értékekkel?

Eldobjuk a teljes rekordot például
osztályozáskor pont az osztálycímke hiányzik
nem jó megoldás, ha attrbútumonként más a
nullértékek hányada, és túl sok rekordot érint
Kézzel kitöltjük a hiányzó értékeket idoigényes
nincs erre eroforrás
Automatikusan töltjük ki, de hogyan?
bevezetünk egy Ismeretlen globális konstanst,
ezzel egy új osztály is keletkezhet!
Az attribútum átlagával, várható értékével
pótoljuk
Csak az ugyanabba az osztályba eso mintának az
átlagát vesszük ez már okosabb
A legvalószínubb értéket vesszük amit döntési
fával, vagy Bayes-képlettel következtetünk ki

65
Zajos adatok

Zaj a mért változóra vonatkozó véletlen hiba
vagy szóródás
Mitol pontatlan egy attribútumérték?
hibás az adatgeneráló berendezés
adatbevitelkor rossz adat került be
adatátvitelkor sérült az adat
technológiai hiányosság (nem is lehet pontosabban
mérni)
elnevezési inkonzisztencia (a hossz nevu
változóról nem tudjuk, hogy méterben vagy lábban
kell megadni az értéket)
További adattisztítást igénylo adatproblémák
dupla rekordok
nem teljes rekordok
inkonzisztens adatok

66
Mit kezdjünk a zajos adatokkal?

Kategorizálás (Binning) például intervallumokra
osztás
az adatokat (például egyenlo gyakoriságú)
partíciókba (bin) soroljuk
a partícióba tartozó értékek helyett vehetjük a
partíció átlagát, mediánját, valamelyik
végpontját, ezzel simítjuk az adatokat
Regresszió
egy sima regressziós függvényt illesztünk az
adatokra
Klaszterezés (Clustering)
a hasonló (közeli) objektumokat klaszterekbe
soroljuk
a kiugró értékeket (kis elemszámú vagy mindentol
távoli klasztereket) eldobjuk
Kiugró adatok detektálása félautomata módon
lehetséges, gyanús értékek keresése
algoritmussal, és átadása a felhasználónak, hogy
o döntsön

67
Diszkretizálás, kategórizálás (Binning)

Egyenlo széles particionálás
A tartományt N egyenlo hosszú intervallumra
osztjuk egyenletes rácsfelosztás
Ha az attribútum értékek maximuma A, minimuma B,
akkor az intervallumok hossza W (B A)/N.
Egyszeru, de a szélsoséges adatokra érzékeny (sok
üres intervallum lesz)
A torzított, hibás adatokra is érzékeny
Egyenlo gyakoriságú particionálás
A tartományt N intervallumra osztjuk úgy, hogy
mindegyikbe ugyanannyi minta jusson
jól skálázható
számokra egyszeru, de kategóriaváltozókra
trükközni kell, számokkal kódolhatunk, de
vigyázni kell, közeli számok nem biztos, hogy
közeli kategóriát jelentenek

68
Adatsimítás kategorizálással (Binning)

Az árak rendezve (dollárban) 4, 8, 9, 15, 21,
21, 24, 25, 26, 28, 29, 34
Egyenlo gyakoriságú intervallumok
- Bin 1 4, 8, 9, 15
- Bin 2 21, 21, 24, 25
- Bin 3 26, 28, 29, 34
Simítás az átlaggal
- Bin 1 9, 9, 9, 9
- Bin 2 23, 23, 23, 23
- Bin 3 29, 29, 29, 29
Simítás a végpontokkal (amelyikhez közelebb
van)
- Bin 1 4, 4, 4, 15
- Bin 2 21, 21, 25, 25
- Bin 3 26, 26, 26, 34

69
Regresszió

Az együtthatók becslésére alkalmazott eljárások
a legkisebb négyzetek módszere (Ordinary Least
Squares, OLS)
Minimalizáljuk a hibák
négyzetének összegét
az általánosított legkisebb négyzetek módszere
(Generalized Least Squares , GLS)
az általánosított momentumok módszere
(Generalized Method of Moments, GMM)
a legnagyobb valószínuség módszere (Maximum
Likelihood Estimation, ML)

70
Lineáris regresszió

Az optimalizálandó függvény
a és b szerint deriválva
Kifejezve b-t és a-t

71
Klaszterezés

Csoportok képzése távolságok alapján (jövedelem,
kor, gyakori látogató) kiugró értékek, amelyek
egyelemu csoportok

72
Az adattisztítás mint folyamat

Észre kell venni a szokatlan adatokat
Használjunk metaadatokat, leírókat (tartomány,
értékkészlet, függoségek, eloszlások), amivel
összehasonlíthatók a minták
Ellenorizzük a többértéku mezoket (field
overloading)
Ellenorizzük a szabályokat (egyediség, egymás
utániság, nullértékek tiltása)
Használjunk kész rendszereket, szótárakat
Adatfehérítés (Data scrubbing) szakértoi
tudásbázisok bevetése (irányítószámok,
helyesírási szótárak)
Adatellenorzés (Data auditing) adatelemzéssel
keressük meg a kapcsolatokat, szabályokat és az
azokat megsérto eseteket (például klaszterezünk,
korrelációkat számolunk)
Az adatok betöltése, egyesítése (migrálása és
integrálása)
Migráló eszközök betöltés elott/után
transzformálhatunk is
ETL (Extraction/Transformation/Loading) eszközök
az adatgyujto, transzformáló, betölto folyamatot
grafikus felületen tervezhetjük meg, hajthatjuk
végre
Az elobbi két folyamatot általában ugyanazzal az
eszközzel hajthatjuk végre
a folyamat lehet egyaránt iteratív és interaktív
is

73
Adatok elofeldolgozása

Az adatok általános jellemzése
Az adatok alapveto statisztikai jellemzoi
Az adatok hasonlóságának mérése
Adattisztítás
Adatok integrálása, átalakítása
Adatredukció

74
Adatintegráció

Mikor kell egyesíteni az adatokat
több adatforrásból származó adatokat akarunk
egyesítve tárolni
Közös séma tervezése A.cust-id ? B.cust-
ugyanazt a mezot másképpen neveztük a két
táblában
Egyedazonosítási probléma (Entity identification
problem)
Két adatforrásban reprezentált egyedek valójában
ugyanazt a valóságos egyedet reprezentálják csak
másképpen, például, Bill Clinton William
Clinton
Az észlelt adatkonfliktusokat fel kell oldani
(resolution)
Miért reprezentáljuk másképp, más
attribútumértékekkel ugyanazt az egyedet?
Például a mértékegység más, vagy egy térbeli
adatot más koordinátarendszerben
(polárkoordinátákkal) adunk meg

75
Hogy kezeljük azt a redundanciát, amit az
adategyesítés okoz?

Egyesítéskor gyakran többszörös példányok,
attribútumok keletkeznek
Azonos objektumok ugyanazt az attribútumot vagy
objektumot másképp neveztünk el a két
adatbázisban
Származtatott adatok egyik helyen megadjuk
(T1.Adó), a másik helyen kiszámoljuk (T2.Adó)
ugyanazt az értéket
A redundáns attribútumokat korrelációanalízissel
lehet felderíteni
Ha csökkentjük vagy elkerüljük a redundanciát,
akkor jöbb minoségu lesz az adatbányászat
eredménye és ráadásul gyorsabb is.

76
Korrelációanalízis (Numerikus adatokon)

Korrelációs együttható (Pearsons együttható)
kovariancia osztva a szórások szorzatával
A mintából becsülhetjük
a korrelációs együtthatót
Ugyanez kifejezheto a mintára vonatkozó z-érték,
az átlag és a szórás segítségével is
Minél nagyobb az r abszolút értéke, annál jobban
korreláltak.
Ha r gt 0, akkor a két változó pozitívan
korrelált, azaz egyszerre no vagy csökken az
értékük.
Ha r 0, akkor linárisan függetlenek.
Ha r lt 0, akkor a két változó negatívan
korrelált, azaz egymáshoz képest ellentétesen no
vagy csökken az értékük.

77
A korreláció lineáris kapcsolatot mér!

Ha a korrelációs 0, attól még nem biztos, hogy
függetlenek (kivéve, ha normális eloszlásúak a
változók.)
Korrelálatlan, de nem független diszkrét változók

78
Korreláció megfigyelése a pontdiagramon
A korrelációs együttható -1 és 1 között.
79
Korrelációanalízis (kategórikus adatok esetén)

?2 (chi-square) teszt a megfigyelt és várható
(elméleti függetlenség alapján számolt)
gyakoriságok alapján
A statisztika szabadságfoka (n-1)(m-1), ahol n,m
a felveheto kategóriák száma
Minél nagyobb a ?2 értéke, annál szorosabb a két
változó kapcsolata
A korrelációs nem jelent okozati kapcsolatot
a kórházak száma és az ellopott kocsi száma
általában erosen korrelált
magyarázat mindketto a lakosság számával
korrelált

80
Egy példa

?2 statisztika értéke
Ez eros korrelációt jelent.

Sakkozik Nem sakkozik Sorösszeg
Bridzzsel 250(90) 200(360) 450
Nem bridzzsel 50(210) 1000(840) 1050
Oszlopösszeg 300 1200 1500
81
Adattranszformálás

Az attribútum régi értékeit egy függvény alapján
újakra cseréljük
Különbözo módszerek
Simítás az ugrálásokat, zajokat eltávolítjuk az
adatokból
Aggregálás Összesítünk, adatkockákat készítünk
Általánosítás Fogalmi hierarchiában egy magasabb
szinttel helyettesítünk
Normalizálás átskálázzuk, hogy egy adott kisebb
tartományba essenek az értékek
min-max normalizálás
z-score normalizálás
Új attribútumok készítése
számított attribútumok jövedelemadókulcsadó

82
A normalizálások

Min-max normalizálás new_minA, new_maxA
Például 12,000, 98,000 intervallumot a 0.0,
1.0-re képezzük.
Ekkor 73,000 képe
Z-score normalizálás (µ átlag, s szórás)
Például ha µ 54,000, s 16,000, akkor
Decimális normalizálás (Például 3422 helyett
3000)

ahol j a legkisebb egész, melyre Max(?) lt 1
83
Adatok elofeldolgozása

Az adatok általános jellemzése
Az adatok alapveto statisztikai jellemzoi
Az adatok hasonlóságának mérése
Adattisztítás
Adatok integrálása, átalakítása
Adatredukció

84
Adatcsökkento stratégiák

Miért van szükség adatredukcióra?
Egy adatbázis adattárház sok terabájtos lehet
Ha a teljes adathalmaz elemeznénk, akkor az
adatbányászó algoritmusok nagyon sokáig (napokig)
is tarthatnának
Mit jelent az adatredukció Olyan kisebb méretu
reprezentálását keressük az adatoknak, amelyek
statisztikai viselkedése hasonló a teljes
adathalmazra, és a redukált halmazon elvégzett
elemzések eredménye hasonló, mint amilyet a
teljes halmazra kapnánk
Stratégiák
Dimenziócsökkentés nem fontos attribútumok
eldobása
A lehetséges értékek számának (Numerosity)
csökkentése
adatkockák aggregációk
adattömörítés
regresszió
diszkretizálás és fogalmi hierarchiák használata

85
Dimenzócsökkentés

A dimenziók átka
ha no a dimenziószám, akkor egyre ritkábbak
lesznek az adatok
ezáltal a suruségek, távolságok használata
értelmetlenné válhat
exponenciális gyorsan no a részterek száma
Dimenziócsökkentés
elkerüljük a dimenziók átkát
a lényegtelen attribútumokat elhagyjuk, csökken a
zaj
az adatbányászat ido és tárigénye kisebb lesz
könnyebben vizualizálható
Dimenziócsökkento technikák
Fokomponens analízis (Principal component
analysis PCA)
Szingulárisérték-dekompozíció (Singular value
decomposition SVD)
Felügyelt és nem lineáris technikák (például
lényeges attribútumok keresésére - feature
selection)

86
Fokomponens analízis Principal Component
Analysis (PCA)

Olyan ortonormált, kisebb dimenziójú
koordinátarendszert keresünk, amely az adatok
szórását a leheto legjobban magyarázza (ez egy
optimalizálási feladat)
A koordinátarendszert a kovarianciamátrix
sajátvektorai fogják megadni

87
Fokomponens analízis Principal Component
Analysis (PCA)

Ha az x1, x2 két dimenzió helyett csak y1
dimenziót használjuk, akkor a hiba csak ?2-vel
növekszik

88
A fokomponens analízis lépései

Adott N adatvektor (n-dimeziós), keressük azt a k
n ortogonális vektort (fokomponenst), amelyek
legjobban reprezentálják az adatokat
Normalizáljunk, hogy minden adat ugyanabba az
intervallumba essen
Kiszámítjuk a k ortonormált sajátvektort, a
fokomponenseket
Minden inputvektor a k fokomponens lineáris
kombinációja
A fokomponenseket sajátértékek szerint csökkeno
sorrendbe rendezzük
Elhagyjuk a túl kicsi sajátértéku
fokomponenseket, mert ezek a szórásnak csak kis
részét magyarázzák
Csak numerikus adatokra muködik

89
Lényeges attribútumhalmaz kiválasztása

Ez is csökkenti a dimenziók számát
Redundáns attribútumok
például az áru Ára és ÁFA értéke
Lényegtelen attribútumok
a feladat számára nem fontos, például leíró
információt tartalmazó attribútumok
Ha a Adattárház jegyet akarjuk megbecsülni, akkor
nem fontos, hogy a hallgatónak milyen
nyelvvizsgája van

90
Heurisztikák a lényeges attribútumhalmaz
keresésére

Lehetséges halmazok száma 2d , ha az
attribútumok száma d
Heurisztikák
Kiválasztjuk a legszignifikánsabb attribútumot
(feltéve, hogy az attribútumok függetlenek)
Fentrol lefele Mindig a legszignifikánsabb
attribútumot választjuk a maradékból
Lentrol felfele Mindig kidobjuk a legkevésbé
szignifikáns attribútumot
Kombinálva
Visszalépést is megengedve

91
Új attribútumhalmaz kiválasztása

Az adatok fontos információit hatékonyabban
akarjuk reprezentálni
Elhagyunk attribútumokat
csak az elemzéshez szükségeseket tartjuk meg
Új térbe transzformáljuk az adatokat (például
adatredukció során)
például Fourier-transzformáció, wavelet
transzformáció
Attribútum készítése
attribútumok kombinálása
diszkretizálás

92
Új térbe transzformálás

Fourier-transzformáció
Wavelet-transzformáció
Például a négyszögjel

2 szinuszhullám
Frekvencia
2 szinuszhullám Zaj
93
Számosság (Numerosity) csökkentése

Kevesebb értékkel akarjuk ugyanazt reprezentálni
Paraméteres módszerek (például regresszió)
Feltesszük, hogy az adatok valamilyen
paraméterekkel leírható modell alapján
keletkeznek, megbecsüljük a paramétereket, és az
adatokat eldobhatjuk, kivéve a kiugró adatokat
Például Log-lineáris model az együttes
eloszlást a hatások szorzataként tételezzük fel
Nem-paraméteres módszerek
Nem keresünk modellt
hisztogram, klaszterezés, mintavételezés

94
Regresszió

Lineáris regresszió egyenest illesztünk
Y w X b
Legkisebb négyzetek módszerével minimalizáljuk a
hibát
Többváltozós regresszió az Y vektort több
attribútumváltozó lineáris kombinációjaként (aX
formában) keressük
Y b0 b1 X1 b2 X2.

95
Regresszió és Log-Lineáris modell

Log-lineáris modell diszkrét többdimenziós
eloszlást approximálunk vele, például p(a, b, c,
d) ?ab ?ac?ad ?bcd

96
Wavelet transzformáció

Diszkrét wavelet transzformáció (DWT) egyszeru
függvények súlyozott összegeként közelítjük a
függvényt, így elég a súlyok sorozatát ismerni
ilyen egyszeru függvények pl
Felhasználási terület lineáris jelfeldolgozás,
multirezolúciós felbontások
Ezzel tömörebb formában approximálunk elég a
súlyok közül a legerosebb komponensekhez
tartozókat tárolni
A diszkrét Fourier-transzformációhoz hasonló, de
annál jobb (veszteséges) tömörítést jelent

97
Wavelet transzformáció

Módszer
Legyen L hossz 2 hatvány
Minden transzformáció két függvénybol áll
simításból, és különbségbol
Rekurzívan alkalmazzuk, fele akkora adathalmazra

98
Wavelet transzformáció

Két dimenzióban és kétféle szurést (high, low)
használva

99
DWT képtömörítés (jpeg, png)

Kép
Low Pass High Pass
Low Pass High Pass
Low Pass High Pass

100
Adatkockák és az aggregálás

Az adatkockák legkisebb egysége az alap kuboid
(ebben szerepelnek az aggregált értékek)
ebben általában egyedek összesített adatai
található
például ügyfele telefonhívásainak összesítése
(száma, összes ido)
Az adatkockákban az összesítés több szintu lehet
Például városok szerint, hónapok szerint
Az ilyen további összesítések tovább csökkentik a
vizsgálandó adatok méretét
Melyik összesítési szint lesz megfelelo?
ami a legkisebb méretu, de még elégséges a
feladat megoldásához
Az olyan lekérdezéseket, amelyekben aggregálás
szerepel, próbáljuk az adatkockák adataival
kiszámolni.

101
Adattömörítés

Sztringek tömörítése
jól kidolgozott elméletek és hatékony
algoritmusok léteznek erre
Általában veszteségmentesség is garantálható
Ahhoz, hogy muveleteket végezzünk vissza kell
elobb állítni az eredetit
Kép, hang és film tömörítése
Általában veszteséges a tömörítés, fokozatos
finomítás
Nehéz egy részt az egész visszaállítása nélkül
eloállítani

102
Az adattömörítés sémája
Eredeti adatok
Tömörített adatok
Veszteségmentes
Az eredeti adatok közelítése
Veszteséges
103
A hisztogram is adatredukciónak tekintheto

Az adatokat kosarakba osztjuk és tároljuk a
kosarak átlagát, az elemek összegét, stb.
kosaranként
Partíciós szabályok a felosztásra
egyenlo széles intervallumok
egyenlo gyakoriságú intervallumok
V-optimális legkisebb a hisztogram szórás (a
kosarakba eso elemek szórását megszorozzuk a
kosarak elemszámával és összeadjuk)
MaxDiff rendezzük az elemeket és ott vágunk,
ahol egymás mellett legnagyobbak (k-1 vágás) a
különbség

1,1,4,5,5,7,9, 14,16,18, 27,30,30,32
104
A klaszterezés mint adatredukció

Az adatokat például hasonlóság alapján
klaszterekbe osztjuk és az adatok helyett a
klasztereket reprezentáló értékeket, például
középpontjukat és átmérojüket tároljuk
Elég hatékony, ha az adatok nem egyenletes
szétkentek a térben
A hierarchikus klaszterezés olyan, mint a
többdimenziós indexfák (például R-fák)

Nagyon sokféle klaszterezo eljárás létezik,
például különböznek abban, hogy konvex, konkáv,
vagy tetszoleges alakú csoportokat ismernek fel.

105
A mintavételezés mint adatredukció

Az N elemu adathalmazt egy kisebb, s elemu
mintával reprezentáljuk
Ha az adatbányászó algoritmus az adatok számában
szublináris - o(n), akkor a mintán futtatva
hatékonyabb a feldolgozás
Alapelv legyen a minta reprezentatív
Egy véletlen minta általában nem jó, ha nagyon
eltér az eloszlás az egyenletestol
Többször veszünk mintát vagy egy-egy részbol
különbözo valószínuséggel (többrétegu
mintavételezés)
A minta nem biztos, hogy kevesebb
adatbázisblokkban helyezkedik el, így nem biztos,
hogy az I/O blokkmuveletek száma csökken

106
A mintavételezések típusai

Véletlen (egyenletes) mintavételezés
bármelyik elemet egyenlo valószínuséggel
választunk ki
ez visszatevés nélküli mintavétel, azaz a
kiválasztott objektumot eltávolítjuk a
populációból
Visszatevéses mintavételezés
a kiválasztott objektumot nem távolítjuk el a
populációból
Rétegzett mintavételezés
Az adatokat partíciókba osztjuk és minden
partícióból arányosan sok mintát választunk,
például minden megyébol a megyék népességével
arányos számú ember a megyék szerinti eloszlást
jól tükrözi

107
Visszatevés nélküli vagy visszatevéses
mintavételezés
(visszatevés nélkül)
visszatevéssel
108
Klaszterezett (rétegzett) mintavétel
Rétegzett mintavétel
Az adatok klaszterei
109
A diszkretizálás mint adatredukció

Háromféle attribútum
Nominális elnevezések (sztringek) rendezés
nélkül (színek, foglalkozások, stb)
Ordinális rendezheto, ragsorolható elnevezések,
katonai rangok, beosztások
Folytonos végtelen számhalmaz (valós, egész)
Diszkretizálás
a folytonos attribútumok tartományát
intervallumokra osztjuk
osztályozásoknál is szükség lehet rá, mivel egyes
osztályozó módszerek csak nominális
attribútumokra muködnek
csökken a méret a diszkretizálással

110
Diszkretizálás és fogalmi hierarchiák

Diszkretizálás
besoroljuk a folytonos attribútum értékeit
intervallumokba
a megfelelo intervallum címkéjét használjuk az
adatértékek helyett (csökken a különbözo értékek
száma)
lehet felügyelt (supervised) vagy felügyelet
nélküli (unsupervised)
lehet hasító (fentrol lefele) vagy összevonó
(lentrol felfele)
A fogalmi hierarchiák
az adatok értékét (például a vásárlók korát)
rekurzívan egyre magasabb szintu fogalommal
helyettesítjük (például fiatal, középkorú, idos)

111
Diszkretizálás és fogalmi hierarchiák generálása

Tipikus módszerek (mindegyik rekurzívan is
alkalmazható)
Kategórizálás (Binning)
Top-down módszer, felügyelet nélküli
Hisztogram alapú
Top-down módszer, felügyelet nélküli
Klaszterezés
vagy top-down vagy bottom-up módszer, felügyelet
nélküli
Entrópia alapú diszkretizálás top-down módszer,
felügyelt
Intervallumok egyesítése ?2 elemzéssel bottom-up
módszer, felügyelet nélküli
Szegmentálás természetes partícionálással
top-down módszer, felügyelet nélküli

112
Entrópia alapú diszkretizálás

Ha egy S halmazt S1 és S2 partícióra bontunk úgy,
hogy T vágással, akkor a partícionálással kapott
információ értéke
Az entrópia értéke a bizonytalanságot méri. Ha
egy elem m osztály valamelyikébe eshet, akkor S1
entrópiája
ahol pi annak a valószínusége, hogy egy véletlen
S1-beli elem az i osztályba tartozik
Bináris diszkretizálás során azt a T-t
választjuk, amelyre az I(S,T) minimális
A vágásokat egy megállási feltétel teljesüléséig
folytatjuk rekurzívan
Az ilyen vágásokkal fokozatosan javítjuk az
osztályozás pontosságát

113
Az entrópia néhány tulajdonsága
A bináris (Bernoulli) eloszlás entrópiafüggvénye
114
Az entrópia néhány tulajdonsága
115
Diszkretizálás osztálycímkékkel

Entrópia alapú (bináris vágás helyett k-részre)

3 - 3 kategória x és y értékekre
5 - 5 kategória x és y értékekre
116
Diszkretizálás osztálycímkék nélkül
Az adatok
egyenlo nagyságú intervallumok
Egyenlo gyakoriságú
K-átlag
117
Intervallumösszevonás ?2 elemzéssel

Összevonáson alapul
Összevonás a szomszédos intervallumok közül a
legjobb párt összevonjuk egy nagyobb
intervallumba majd rekurzívan folytatjuk
ChiMerge algoritmus
Kezdetben A numerikus értékei mind külön
intervallumok
?2 tesztet csinálunk minden szomszédos
intervallumra
Amelyik párra legkisebb a ?2 érték, azt
összevonjuk
A megállási feltétel lehet
szignifikancia szint
korlát a maximális intervallum hosszára

118
Szegmentálás heurisztikával

Egy egyszeru 3-4-5 szabállyal nagyjából egyforma
intervallumokra szegmentálhatjuk az értékeket.
Ha 3, 6, 7 vagy 9 különbözo érték szerepel a
legnagyobb helyi értékben, akkor 3 egyenlo (7
esetén 2-3-2 arányú) intervallumra osztjuk az
intervallumot
Ha 2, 4 vagy 8 különbözo érték szerepel a
legnagyobb helyi értékben, akkor 4 egyenlo részre
osztjuk az intervallumot
Ha 1, 5 vagy 10 különbözo értéke szerepel a
legnagyobb helyi értékben, akkor 5 egyenlo részre
osztjuk az intervallumot.

119
Példa a 3-4-5 szabályra
(-400 -5,000)
Step 4
120
Fogalmi hierarchia generálása

Szakértok, felhasználók adnak meg egy részben
rendezést séma szinten az attribútumokon
utca lt város lt régió lt ország
Explicit adatcsoportosítással is megadhatunk
hierarchiát
Budapest, Érd, Dabas lt Közép-Magyarország
Nem minden attribútum összehasonlítható
Automatikusan is generálható hierarchia a
különbözo elemek számának vizsgálatával
utca, város, régió, ország
például város ?? utca többértéku függoség teljesül

121
Automatikus fogalmi hierarchia generálása

Az legyen a hierarchiában magasabban, aminek
kevesebb különbözo értéke van

122
References

D. P. Ballou and G. K. Tayi. Enhancing data
quality in data warehouse environments.
Communications of ACM, 4273-78, 1999
W. Cleveland, Visualizing Data, Hobart Press,
1993
T. Dasu and T. Johnson. Exploratory Data Mining
and Data Cleaning. John Wiley, 2003
T. Dasu, T. Johnson, S. Muthukrishnan, V.
Shkapenyuk. Mining Database Structure Or, How to
Build a Data Quality Browser. SIGMOD02
U. Fayyad, G. Grinstein, and A. Wierse.
Information Visualization in Data Mining and
Knowledge Discovery, Morgan Kaufmann, 2001
H. V. Jagadish et al., Special Issue on Data
Reduction Techniques. Bulletin of the Technical
Committee on Data Engineering, 20(4), Dec. 1997
D. Pyle. Data Preparation for Data Mining. Morgan
Kaufmann, 1999
E. Rahm and H. H. Do. Data Cleaning Problems and
Current Approaches. IEEE Bulletin of the
Technical Committee on Data Engineering. Vol.23,
No.4
V. Raman and J. Hellerstein. Potters Wheel An
Interactive Framework for Data Cleaning and
Transformation, VLDB2001
T. Redman. Data Quality Management and
Technology. Bantam Books, 1992
E. R. Tufte. The Visual Display of Quantitative
Information, 2nd ed., Graphics Press, 2001
R. Wang, V. Storey, and C. Firth. A framework for
analysis of data quality research. IEEE Trans.
Knowledge and Data Engineering, 7623-640, 1995