DATA WAREHOUSE - DATA MINING - PowerPoint PPT Presentation

Loading...

PPT – DATA WAREHOUSE - DATA MINING PowerPoint presentation | free to view - id: 29b13a-ZDc1Z



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

DATA WAREHOUSE - DATA MINING

Description:

similaire aux r gles associatives mais l'ordre est important. exemple : achat de ... L'index bitmap est int ressant pour les r gles associatives ... – PowerPoint PPT presentation

Number of Views:270
Avg rating:3.0/5.0
Slides: 29
Provided by: burea9
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: DATA WAREHOUSE - DATA MINING


1
DATA WAREHOUSE - DATA MINING
  • Motivations et architecture
  • Le multidimensionnel
  • Le data mining
  • La recherche de règles associatives
  • Conclusion

2
1. OLTP versus OLAP
3
Explosion de l OLAP
  • Facteurs économiques technologiques

Milliards de

Années
4
Motivations des entreprises
  • Besoin des entreprises
  • accéder à toutes les données de lentreprise
  • regrouper les informations disséminées dans les
    bases
  • analyser et prendre des décisions rapidement
    (OLAP)
  • Exemples d'applications concernées
  • Bancaire suivi des clients, gestion de
    portefeuilles
  • mailing ciblés pour le marketing
  • Grande distribution marketing, maintenance, ...
  • produits à succès, modes, habitudes dachat
  • préférences par secteurs géographiques
  • Télécommunications pannes, fraudes, mobiles,
    ...
  • classification des clients, détection fraudes,
    fuites de clients, etc.
  • Médecine, Pharmacie, Bourse, Production,

5
L'approche entrepôt de données
  • Datawarehouse
  • Ensemble de données historisées variant dans le
    temps, organisé par sujets, consolidé dans une
    base de données unique, géré dans un
    environnement de stockage particulier, aidant à
    la prise de décision dans lentreprise.
  • Trois fonctions essentiels
  • collecte de données de bases existantes et
    chargement
  • gestion des données dans lentrepôt
  • analyse de données pour la prise de décision

6
Architecture type
Présentation
Datawarehouse
Analyse
Exploration
Client décisionnel
Client décisionnel
BD Entrepôt
Médiateur
Transformation, Fusion
Extraction, Filtrage
Moniteur/Adapteur
Moniteur/Adapteur
Moniteur/Adapteur
Source
BD Source
Données opérationnelles
BD source
Données externes
BD légataires
7
Datamart (Magasin de données)
  • sous-ensemble de données extrait du datawarehouse
    et ciblé sur un sujet unique

Bases multidimensionnelles
Data Warehouse
Bases de production
Data Marts
SGBD relationnel
Outils d extraction
Outils dalimentation
Bases relationnelles
Bases externes
8
Bilan Entrepôt
  • Le datawarehouse regroupe, historise, résume les
    données de l entreprise
  • Le concepteur définit schéma exportés et intégrés
  • des choix fondamentaux !
  • Ciblage essentiel !
  • Le datamart cest plus ciblé et plus petit.
  • Questions ?
  • Peut-on ajouter des données au niveau de
    l entrepôt ?

9
2. Modélisation multidimensionnelle
  • Dimensions
  • Temps
  • Géographie
  • Produits
  • Clients
  • Canaux de ventes.....
  • Indicateurs
  • Nombre dunités vendues
  • CA
  • Coût
  • Marge.....

10
Le data cube et les dimensions
Axe d'analyse La géographie (Pays - région
- ville)
Variables analysées Nb unités, CA, marge...
Axe d'analyse Les produits (classe,
produit)
Axes d'analyse dimensions Variables analysées
indicateurs
Axe d'analyse Le temps (Année, trimestre, mois,
semaine)
11
La granularité des dimensions
Années
Jours
Trimestres
Mois
Temps
Pays
Régions
Villes
Géographie
Gammes
Types
Numéros
Produits
Marques
12
La navigation multidimensionnelle
Projection en 2 dimensions
Coupe d un cube
Produits
Produits
pour une région donnée
CA
CA
Région
Temps en semaines
Réduction selon 1 dimension
Zoom selon une dimension
Produits
CA
Temps en mois
13
Les vues d'un cube
  • Partant d'un cube 3D, il est possible d'agréger
    selon une dimension tournante
  • On obtient un treillis de vues (calculable en SQL)

14
ROLAP versus MROLAP
SQLCube
SQLCube
Opérateurs décisionnels
Cache Cube
Analyseur Optimiseur
SQL
Analyseur Optimiseur
Opérateurs décisionnels
Opérateurs relationnels
Opérateurs relationnels
Cache SGBD
Cache SGBD
SGBD ROLAP
SGBD MROLAP
15
Bilan OLAP
  • La modélisation multidimensionnelle est adaptée à
    l analyse de données
  • Le datacube est au centre du processus
    décisionnel
  • transformation et visualisation 3D
  • une algèbre du cube
  • Slice, Dice, Rollup, Drilldown
  • Questions ?
  • Combien de datacubes à partir de N variables ?

16
3. Qu est-ce-que le data mining ?
  • Data mining
  • ensembles de techniques d'exploration de données
    afin d'en tirer des connaissances (la
    substantifique moelle) sous forme de modèles
    présentées à l utilisateur averti pour examen
  • Connaissances
  • analyses (distribution du trafic en fonction de
    l heure)
  • scores (fidélité d un client), classes (mauvais
    payeurs)
  • règles (si facture gt 10000 alors départ à 70)

Données entrepôt
Connaissances
Data mining
Découverte de modèles
Compréhension Prédiction
17
Domaines d'utilisation
  • De plus en plus de domaines
  • explosion des données historisées
  • puissance des machines support
  • Quelques domaines réputés
  • Analyse de risque (Assurance)
  • Marketing
  • Grande distribution
  • Médecine, Pharmacie
  • Analyse financière
  • Gestion de stocks
  • Maintenance
  • Contrôle de qualité

18
Mécanismes de base
  • Déduction base des systèmes experts
  • schéma logique permettant de déduire un théorème
    à partir d'axiomes
  • le résultat est sûr, mais la méthode nécessite la
    connaissance de règles
  • Induction base du data mining
  • méthode permettant de tirer des conclusions à
    partir d'une série de faits
  • généralisation un peu abusive
  • indicateurs de confiance permettant la pondération

19
Découverte de modèles
  • Description ou prédiction
  • Apprentissage sur la base
  • Utilisation pour prédire le futur
  • Exemple régression linéaire Y a X B

Confiance
Entrées
Sortie
20
Méthode SEMMA (SAS)
  • Sampling Échantillonner
  • tirer un échantillon significatif pour extraire
    les modèles
  • Exploration Explorer
  • devenir familier avec les données (patterns)
  • Manipulation Manipuler
  • ajouter des informations, coder, grouper des
    attributs
  • Modelling Modéliser
  • construire des modèles (statistiques, réseaux de
    neuronnes, arbres de décisions, règles
    associatives, )
  • Assessment Valider
  • comprendre, valider, expliquer, répondre aux
    questions

21
Principales Techniques
  • Analyse statistique
  • régression linéaire
  • régression logistique
  • réseaux baysiens
  • Découverte de modèles fonctionnels
  • fonctions probabilistes
  • réseaux de neurones
  • Segmentation
  • K-moyennes
  • Raisonnement à base de cas
  • Classification
  • arbres de décision
  • réseaux d'agents

22
Règles associatives
  • La découverte de règles
  • découverte de relations plus fines entre données
  • du style si X alors Y
  • si Achat(Vin) alors Achat(Boursin) (10, 15)
  • su Achat(Pain) Achat(Fromage) alors Achat(Vin)
    (70, 80)
  • Support probabilité absolue P(XY)
  • XY/ BD de transactions vérifiant la règle
  • Confiance probabilité conditionnelle P(Y/X)
  • XY/X de transactions vérifiant
    l'implication sup(XY) / sup(X)
  • Comment extraire les règles intéressantes ?
  • exemple Supp.gt 0.1 et Conf.gt 0.7
  • comment optimiser les calculs d'indicateurs sur
    des VLDB?

23
Recherche des règles intéressantes
  • Nécessité de calculer les supports
  • de tous les produits gt 1-ensemble fréquent
  • de tous les ensembles suceptibles d être
    fréquents
  • La confiance se déduit du support
  • conf (X--gtY) suup(X) / sup(XY)
  • Un ensemble de taille k est appelé un k-ensemble.
  • Un ensemble de support plus grand que minsup est
    fréquent.
  • Tout k-ensemble fréquent est composé de
    (k-1)-ensembles fréquents
  • en effet, un ensemble ne peut être fréquent si
    ses sous-ensembles ne le sont pas

24
Comment évaluer efficacement ?
  • Réduire le nombre de passes (I/O)
  • Réduire le temps CPU
  • Nombreux algorithmes
  • Apriori Agrawal Imielinski Swami
  • Apriori-tid Agrawal Srikant
  • PartitionSavasete Omseinski Navatgr
  • Dynamic Counting Brin Ullman Tsur
  • Bitmap Gardarin Pucheral Fei
  • ...

25
Des règles plus générales
  • Les règles multi-attributs
  • associent des valeurs d'attributs distincts
  • telephone Source "New-York" gt Cible "Paris"
    (5,30)
  • Les règles à attributs numériques
  • règles de la forme A???x,y gt C ou A est un
    attribut numérique et C une condition il faut
    trouver x et y.
  • exemple Age ??x,y gt Salaire gt 300 KF (5,30)
    x? y?
  • Les règles négatives et/ou disjonctives
  • Expr(Ci) gt Expr(Cj) avec ET, OU, NOT
  • Les règles avec généralisation
  • associée à une taxonomie

26
Les règles cycliques
  • Les règles cycliques
  • règles vérifiées périodiquement
  • ex tout les matins, café gt sucre, gâteaux
  • XgtYcycle (l,o) signifie que XgtY tous les l
    unités de temps en commençant au temps o.
  • Les patterns séquentiels
  • séquence ditems
  • similaire aux règles associatives mais lordre
    est important
  • exemple achat de chaussures, puis de pantalons,
    puis de chemises

27
5. Conclusion
  • De nombreuses techniques d'exploration
  • La plupart ne passe pas à l'échelle
  • limitées à quelques milliers d objets
  • échantillonner puis valider
  • Un bon outil doit proposer plusieurs techniques !
  • Les problèmes
  • Comment explorer de volumineuses bases de données
    ?
  • Lindex bitmap est intéressant pour les règles
    associatives
  • Trouver d autres structures d indexation
  • Maintenance incrémental des règles ?
  • Exploration de types de données complexes ?
  • Parallélisation des algorithmes ?

28
Quelques produits
  • DataMind de Datamind SA
  • classification, modèles fonctionnels (agents),
    statistiques
  • Knowledge Seeker d'Angoss
  • statistiques, classification, arbres de décision
  • SPSS Chaid et Neural Connection de SPSS
  • statistiques, classification, réseaux de
    neurones
  • MineSet de Silicon Graphics
  • classification, visualisation de règles
  • SAS de SAS
  • Statistiques, arbres de décision, réseaux de
    neurones
  • Intelligent Miner d'IBM, Clementine de Integral
    Solutions...

29
Les Data Trucs
  • Database
  • Datawarehouse
  • entrepôt des données historisées de l'entreprise
  • Datamart
  • magasin de données ciblé sur un ou plusieurs
    sujets
  • Data mining
  • exploration des données afin de découvrir des
    connaissances
  • Datacube
  • cube de présentation d'unités selon 3 dimensions
  • Datawebhouse
  • entrepôt des données collectées sur le web

30
Génération des règles
  • Il suffit de retrouver les plus grands ensembles
    de support gt MinSup
  • puis d'en extraire les règles de confiance gt
    MinConf ayant une condition maximale
  • S'il n'y en a pas on descend le semi-treillis des
    ensembles fréquents et on itère.
  • Possibilité de s'intéresser à un item particulier
    et d'explorer ses ancètres sur demande
  • ex AgtAB,ACgtABC

0,3
ABC AB AC BC BD A B
C D ??????????????????
0,6
0,4
0,7
0,5
1
2
2
1
Le semi-treillis des ensembles fréquents
About PowerShow.com