Title: Knowledge Discovery from Data (KDD)
1Knowledge Discovery from Data (KDD)
- Het niet-triviale proces van het identificeren
van geldige, nieuwe, potentieel bruikbare en
uiteindelijk verstaanbare patronen in data. - kan worden gebruikt voor vele taken
classificatie, associatieregels opstellen, ... - en voor het uitvoeren van elke taak kunnen
meerdere technieken worden gebruikt
beslissingsbomen, neurale netwerken, a priori
algoritmen,...
2Architecture
SourceSystems
DataWarehouse
ERP
CRM
Data Marts
Legacy
Other Data
ExtractTransformLoad(ETL)
External
Metadata
3- Verification driven analysis
- (Analyst proposes possible patterns, Verification
by the analyst) - Query and basic reporting
- OLAP
- Automation of Enterprise Reporting
- Statistical techniques
- Discovery driven data mining
- (Automated search for patterns, Verification
partly automatic) - Classification
- Segmentation
- Associations
- Sequence analysis
4Data mining versus KDD
- Knowledge Discovery From Data (KDD) ...the
non-trivial process of identifying valid, novel,
potentially useful, and ultimately understandable
patterns in data. (Fayyad, 1996) - Data Mining stap van het KDD proces waarbij
patronen uit data geëxtraheerd worden door het
uitvoeren van computationele algoritmes - Computer gestuurde ontdekking van (onverwachte)
patronen in plaats van gestuurd door de
eindgebruiker (cf. OLAP)
5Het KDD traject
Interpretation and Evaluation
Data Transformation (Binning, alpha to numeric,
etc)
Data Mining
Dumps of operational data
?t
Data Cleaning
Understanding what data is needed for the
application
Data Selection
Patterns
Knowledge Application
Transformed Data
Preprocessed Data
Source Data
Data Mining Mart
6Data preprocessing
- Het nemen van een steekproef
- Credit scoring enkel informatie omtrent
goedgekeurde aanvragen, met andere woorden de
data is vertekend (reject inference) - Types van data
- Continu (inkomen)
- categorisch
- Nominaal huwelijksstatus
- Ordinaal credit rating (AAA, AA, A, BBB, BB, .,
D) - Binair geslacht
- Ontbrekende waarden (missing values)
- Hoe opvangen? Bijvoorbeeld door vervangen door
het gemiddelde - Extreme waarden (outliers)
- Bv. Leeftijd400 jaar (foute observatie) versus
inkomen 10000 Euro per maand (correcte
observatie) - Beslissing omtrent doelvariabele
- Credit scoring hoe definieer je een wanbetaler?
(bv. 90 dagen betalingsachterstand volgens Basel
II richtlijn) - Churn management hoe definieer je klantverloop?
(bv. Klant niet aangekocht gedurende vorige 3
maand)
7Data mining
- Een systeem waarmee het mogelijk is om op basis
van gegevens in het DW onvermoede patronen
(verbanden) op te sporen (data mining- tools). - Daarbij worden vooral diverse statistische
technieken aangewend (bv. beslissingsbomen voor
classificatie, associatieregels opstellen voor
associatie-analyse, ...). - Data mining is ontdekking-gebaseerd.
8Data mining taken
- Predictieve data mining voorspellen van een
doelvariabele op basis van andere variabelen - Classificatie
- Regressie
- Descriptieve data mining
- Associatie analyse
- Sequentie analyse
- Clustering
- ...
9Predictieve data mining classificatie
- Voorspellen van een discrete doelvariabele op
basis van andere variabelen - Voorbeelden
- Credit scoring, bankroetvoorspelling, OCR,
fraude-detectie, churn voorspelling, - Technieken
- Statistisch (Logistieke regressie)
- Beslissingsbomen
- Neurale netwerken
10Classificatie beslissingsbomen
- inkomen gt 50.000
- nee ja
- job gt 3 jaar hoge schuld
- ja nee ja nee
- weinig hoog hoog weinig
- risico risico risico risico
11Training set versus Test set
Classification algorithm
training data
Classifier (model)
if age lt 31 or Car Type Sports then Risk High
12Training set versus Test set
Classifier (model)
test data
13Prediction
Classifier (model)
new data
14Scorecard voor credit scoring
Let cut-off 500
So, a new customer applies for credit
AGE 32 120 points GENDER Female 180
points SALARY 1,150 160 points Total 460
points
REFUSE CREDIT
15Predictieve data mining regressie
- Doelvariabele is continu
- Voorbeelden
- Voorspellen van aandelenkoersen
- Voorspellen van verkoopscijfers
- Technieken
- Lineaire regressie
- Neurale netwerken
16Descriptieve data mining associatie-analyse
- Detecteren van frequent voorkomende patronen
tussen items - Voorbeeld
- If a customer buys spaghetti, then the customer
also buys red wine in 70 of the cases. - Toepassingen
- Market basket analysis
- Web usage mining
- Recommender systems
-
-
-
17Associatie-regels voorbeeld
- E.g. itemset Bread,Butter,Milk has support 3/7
- The rule Bread,Butter gt Milk has confidence3/4
18Market basket analyse
- Detecteren welke producten vaak samen aangekocht
worden - implicaties voor
- store layout
- shelve organisation
- target marketing
- product bundling
19Diapers and Beer example
- Some years ago Wal-Mart was using data mining
technology to analyse their sales figures. The
result of the analysis showed that diapers were
often purchased along with beers on Friday
nights. - After moving the beers next to the diapers, the
beer sales increased by 15 on Fridays. - Possible explanation Men, on their way home from
work, were asked to buy diapers, and since the
weekend was just about to start anyway, why not
buy some beers?
20Descriptieve data mining sequentie analyse
- Detecteren van temporele patronen
- Voorbeeld
- Klant koopt eerst product X, daarna, product Y,
daarna product Z - 60 of clients who placed an online order in
company/products/product1.html, also placed an
online order in /company1/products/product4
within 15 days.
21Web usage mining
- Web usage mining
- Minen van web logs voor het ontdekken van
navigatie-patronen van een web site - Implicaties voor
- Verbeteren van web site ontwerp
- Identificeren van prime advertisement locaties
- Voorbeelden
- 40 of clients who accessed the Web page with URL
/company/products/product1.html, also accessed
/company/products/product2.html - 30 of clients who accessed /company/announcements
/special-offer.html, placed an online order in
/company/products/product1
22Descriptieve data mining clustering
- Identificeren van homogene groepen van subjecten
- Maximaliseren van intra cluster similariteit en
inter cluster dissimilariteit - Voorbeeld
- marktsegmentatie
23Post processing
- Visualiseren van de patronen (bv. met behulp van
OLAP) - Interpreteren van de patronen
- Valideren van de patronen constrasteren van de
patronen met domeinkennis - Integreren van de patronen in nieuwe systemen
24Waarschuwing data mining
- Een bepaald verband wijst niet noodzakelijk op
causaliteit - (opletten voor transitiviteit!)
25Data Mining bloopers
- Everyone who ate pickles in the year 1743 is now
dead. Therefore, pickles are fatal ( from Ronny
Kohavi). - Explanation Correlation does not imply causality
! - A bank discovered that almost 5 of their
customers were born on 11 november 1911 (from
Ronny Kohavi). - Explanation The field was mandatory in the entry
systems and hitting 111111 was the easiest way to
get to the next field !
26Nieuwe data mining toepassingen bestrijden van
terrorisme
- Predict terrorist attacks by looking for
telltale patterns of activity in passport
applications, visas, work permits, driver's
licenses, car rentals, airline ticket purchases
and arrests, as well as credit transactions and
education, medical and housing records (CBS
News, Feb. 2004) - Some US initiatives and systems in development or
use - Total Information Awareness (TIA) program build
a centralized database containing private
transactional data on all Americans, including
records on credit-card purchases, plane flights,
e-mails websites and housing - A new government report reveals that federal
agencies have undertaken 199 data-mining efforts,
131 of which are already operational. A
surprising number resemble clones of the
controversial Total Information Awareness
project, which was intended to peruse exabytes of
data on Americans assembled from every source
possible as a means to snare terrorists (CNet
news, June 2004) - Computer Assisted Passenger Prescreening System
(CAPPS II) - Multistate Anti-terrorism Information Exchange
System (MATRIX) - Student and Exchange Visitor Information System
(SEVIS) - U.S. Visitor and Immigrant Status Indicator
Technology (US-VISIT) - Secure Collaborative Operational Prototype
Environment (SCOPE)
27Problemen en uitdagingen
- Civil liberties? Privacy?
- They that can give up essential liberty to
obtain a little temporary safety deserve neither
liberty nor safety. (Benjamin Franklin, 1759) - Technical challenges
- Integrate data from multiple sources
- Real-time applications
- Multimedia data mining
- Skewed distribution
- Misclassification costs?
- MATRIX system flagged 120,000 people in Florida
who had a statistical likelihood of being
terrorists, but five of the suspected September
11th hijackers were claimed to be among the top
80 people named. - How to create a testbed data set?
28Algemeen voorbeeld organisatie van
beslissingsproces
- Switch operationeel informatiesysteem voor het
beheren van de logistiek van een luchthaven.
gate allocation
air traffic control
flight data
Operationele DB
billing
bagage handling
airport security
catering
fuel
1
Interne informatie
Evolutie bagagevolumes
Evoluties aantal vluchten (land, bestemming,
periode, ...)
DW DB
Evolutie vertragingen
Externe informatie
Evoluties aantal passagiers (land, bestemming,
maatschappij, transit, ...)
Analoge gegevens van andere luchthavens
29DW DB
ter ondersteuning van beslissingen
2
maatschappij-profiel
DM DB
Bv. Grote delen van noord-Italië hebben geen
goede verbinding met vele grootsteden in
V.S. Verona Brussel met snelle
transit Brussel -gt V.S.