Knowledge Discovery from Data (KDD) - PowerPoint PPT Presentation

1 / 29
About This Presentation
Title:

Knowledge Discovery from Data (KDD)

Description:

Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare patronen in ... – PowerPoint PPT presentation

Number of Views:332
Avg rating:3.0/5.0
Slides: 30
Provided by: JanVANT4
Category:

less

Transcript and Presenter's Notes

Title: Knowledge Discovery from Data (KDD)


1
Knowledge Discovery from Data (KDD)
  • Het niet-triviale proces van het identificeren
    van geldige, nieuwe, potentieel bruikbare en
    uiteindelijk verstaanbare patronen in data.
  • kan worden gebruikt voor vele taken
    classificatie, associatieregels opstellen, ...
  • en voor het uitvoeren van elke taak kunnen
    meerdere technieken worden gebruikt
    beslissingsbomen, neurale netwerken, a priori
    algoritmen,...

2
Architecture
SourceSystems
DataWarehouse
ERP
CRM
Data Marts
Legacy
Other Data
ExtractTransformLoad(ETL)
External
Metadata
3
  • Verification driven analysis
  • (Analyst proposes possible patterns, Verification
    by the analyst)
  • Query and basic reporting
  • OLAP
  • Automation of Enterprise Reporting
  • Statistical techniques
  • Discovery driven data mining
  • (Automated search for patterns, Verification
    partly automatic)
  • Classification
  • Segmentation
  • Associations
  • Sequence analysis

4
Data mining versus KDD
  • Knowledge Discovery From Data (KDD) ...the
    non-trivial process of identifying valid, novel,
    potentially useful, and ultimately understandable
    patterns in data. (Fayyad, 1996)
  • Data Mining stap van het KDD proces waarbij
    patronen uit data geëxtraheerd worden door het
    uitvoeren van computationele algoritmes
  • Computer gestuurde ontdekking van (onverwachte)
    patronen in plaats van gestuurd door de
    eindgebruiker (cf. OLAP)

5
Het KDD traject
Interpretation and Evaluation
Data Transformation (Binning, alpha to numeric,
etc)
Data Mining
Dumps of operational data
?t
Data Cleaning
Understanding what data is needed for the
application
Data Selection
Patterns
Knowledge Application
Transformed Data
Preprocessed Data
Source Data
Data Mining Mart
6
Data preprocessing
  • Het nemen van een steekproef
  • Credit scoring enkel informatie omtrent
    goedgekeurde aanvragen, met andere woorden de
    data is vertekend (reject inference)
  • Types van data
  • Continu (inkomen)
  • categorisch
  • Nominaal huwelijksstatus
  • Ordinaal credit rating (AAA, AA, A, BBB, BB, .,
    D)
  • Binair geslacht
  • Ontbrekende waarden (missing values)
  • Hoe opvangen? Bijvoorbeeld door vervangen door
    het gemiddelde
  • Extreme waarden (outliers)
  • Bv. Leeftijd400 jaar (foute observatie) versus
    inkomen 10000 Euro per maand (correcte
    observatie)
  • Beslissing omtrent doelvariabele
  • Credit scoring hoe definieer je een wanbetaler?
    (bv. 90 dagen betalingsachterstand volgens Basel
    II richtlijn)
  • Churn management hoe definieer je klantverloop?
    (bv. Klant niet aangekocht gedurende vorige 3
    maand)

7
Data mining
  • Een systeem waarmee het mogelijk is om op basis
    van gegevens in het DW onvermoede patronen
    (verbanden) op te sporen (data mining- tools).
  • Daarbij worden vooral diverse statistische
    technieken aangewend (bv. beslissingsbomen voor
    classificatie, associatieregels opstellen voor
    associatie-analyse, ...).
  • Data mining is ontdekking-gebaseerd.

8
Data mining taken
  • Predictieve data mining voorspellen van een
    doelvariabele op basis van andere variabelen
  • Classificatie
  • Regressie
  • Descriptieve data mining
  • Associatie analyse
  • Sequentie analyse
  • Clustering
  • ...

9
Predictieve data mining classificatie
  • Voorspellen van een discrete doelvariabele op
    basis van andere variabelen
  • Voorbeelden
  • Credit scoring, bankroetvoorspelling, OCR,
    fraude-detectie, churn voorspelling,
  • Technieken
  • Statistisch (Logistieke regressie)
  • Beslissingsbomen
  • Neurale netwerken

10
Classificatie beslissingsbomen
  • inkomen gt 50.000
  • nee ja
  • job gt 3 jaar hoge schuld
  • ja nee ja nee
  • weinig hoog hoog weinig
  • risico risico risico risico

11
Training set versus Test set
Classification algorithm
training data
Classifier (model)
if age lt 31 or Car Type Sports then Risk High
12
Training set versus Test set
Classifier (model)
test data
13
Prediction
Classifier (model)
new data
14
Scorecard voor credit scoring
Let cut-off 500
So, a new customer applies for credit
AGE 32 120 points GENDER Female 180
points SALARY 1,150 160 points Total 460
points
REFUSE CREDIT
15
Predictieve data mining regressie
  • Doelvariabele is continu
  • Voorbeelden
  • Voorspellen van aandelenkoersen
  • Voorspellen van verkoopscijfers
  • Technieken
  • Lineaire regressie
  • Neurale netwerken

16
Descriptieve data mining associatie-analyse
  • Detecteren van frequent voorkomende patronen
    tussen items
  • Voorbeeld
  • If a customer buys spaghetti, then the customer
    also buys red wine in 70 of the cases.
  • Toepassingen
  • Market basket analysis
  • Web usage mining
  • Recommender systems

17
Associatie-regels voorbeeld
  • E.g. itemset Bread,Butter,Milk has support 3/7
  • The rule Bread,Butter gt Milk has confidence3/4

18
Market basket analyse
  • Detecteren welke producten vaak samen aangekocht
    worden
  • implicaties voor
  • store layout
  • shelve organisation
  • target marketing
  • product bundling

19
Diapers and Beer example
  • Some years ago Wal-Mart was using data mining
    technology to analyse their sales figures. The
    result of the analysis showed that diapers were
    often purchased along with beers on Friday
    nights.
  • After moving the beers next to the diapers, the
    beer sales increased by 15 on Fridays.
  • Possible explanation Men, on their way home from
    work, were asked to buy diapers, and since the
    weekend was just about to start anyway, why not
    buy some beers?

20
Descriptieve data mining sequentie analyse
  • Detecteren van temporele patronen
  • Voorbeeld
  • Klant koopt eerst product X, daarna, product Y,
    daarna product Z
  • 60 of clients who placed an online order in
    company/products/product1.html, also placed an
    online order in /company1/products/product4
    within 15 days.

21
Web usage mining
  • Web usage mining
  • Minen van web logs voor het ontdekken van
    navigatie-patronen van een web site
  • Implicaties voor
  • Verbeteren van web site ontwerp
  • Identificeren van prime advertisement locaties
  • Voorbeelden
  • 40 of clients who accessed the Web page with URL
    /company/products/product1.html, also accessed
    /company/products/product2.html
  • 30 of clients who accessed /company/announcements
    /special-offer.html, placed an online order in
    /company/products/product1

22
Descriptieve data mining clustering
  • Identificeren van homogene groepen van subjecten
  • Maximaliseren van intra cluster similariteit en
    inter cluster dissimilariteit
  • Voorbeeld
  • marktsegmentatie

23
Post processing
  • Visualiseren van de patronen (bv. met behulp van
    OLAP)
  • Interpreteren van de patronen
  • Valideren van de patronen constrasteren van de
    patronen met domeinkennis
  • Integreren van de patronen in nieuwe systemen

24
Waarschuwing data mining
  • Een bepaald verband wijst niet noodzakelijk op
    causaliteit
  • (opletten voor transitiviteit!)

25
Data Mining bloopers
  • Everyone who ate pickles in the year 1743 is now
    dead. Therefore, pickles are fatal ( from Ronny
    Kohavi).
  • Explanation Correlation does not imply causality
    !
  • A bank discovered that almost 5 of their
    customers were born on 11 november 1911 (from
    Ronny Kohavi).
  • Explanation The field was mandatory in the entry
    systems and hitting 111111 was the easiest way to
    get to the next field !

26
Nieuwe data mining toepassingen bestrijden van
terrorisme
  • Predict terrorist attacks by looking for
    telltale patterns of activity in passport
    applications, visas, work permits, driver's
    licenses, car rentals, airline ticket purchases
    and arrests, as well as credit transactions and
    education, medical and housing records (CBS
    News, Feb. 2004)
  • Some US initiatives and systems in development or
    use
  • Total Information Awareness (TIA) program build
    a centralized database containing private
    transactional data on all Americans, including
    records on credit-card purchases, plane flights,
    e-mails websites and housing
  • A new government report reveals that federal
    agencies have undertaken 199 data-mining efforts,
    131 of which are already operational. A
    surprising number resemble clones of the
    controversial Total Information Awareness
    project, which was intended to peruse exabytes of
    data on Americans assembled from every source
    possible as a means to snare terrorists (CNet
    news, June 2004)
  • Computer Assisted Passenger Prescreening System
    (CAPPS II)
  • Multistate Anti-terrorism Information Exchange
    System (MATRIX)
  • Student and Exchange Visitor Information System
    (SEVIS)
  • U.S. Visitor and Immigrant Status Indicator
    Technology (US-VISIT)
  • Secure Collaborative Operational Prototype
    Environment (SCOPE)

27
Problemen en uitdagingen
  • Civil liberties? Privacy?
  • They that can give up essential liberty to
    obtain a little temporary safety deserve neither
    liberty nor safety. (Benjamin Franklin, 1759)
  • Technical challenges
  • Integrate data from multiple sources
  • Real-time applications
  • Multimedia data mining
  • Skewed distribution
  • Misclassification costs?
  • MATRIX system flagged 120,000 people in Florida
    who had a statistical likelihood of being
    terrorists, but five of the suspected September
    11th hijackers were claimed to be among the top
    80 people named.
  • How to create a testbed data set?

28
Algemeen voorbeeld organisatie van
beslissingsproces
  • Switch operationeel informatiesysteem voor het
    beheren van de logistiek van een luchthaven.

gate allocation
air traffic control
flight data
Operationele DB
billing
bagage handling
airport security
catering
fuel
1
Interne informatie
Evolutie bagagevolumes
Evoluties aantal vluchten (land, bestemming,
periode, ...)
DW DB
Evolutie vertragingen
Externe informatie
Evoluties aantal passagiers (land, bestemming,
maatschappij, transit, ...)
Analoge gegevens van andere luchthavens
29
DW DB
ter ondersteuning van beslissingen
2
maatschappij-profiel
DM DB
Bv. Grote delen van noord-Italië hebben geen
goede verbinding met vele grootsteden in
V.S. Verona Brussel met snelle
transit Brussel -gt V.S.
Write a Comment
User Comments (0)
About PowerShow.com