Fouilles de Donn - PowerPoint PPT Presentation

About This Presentation
Title:

Fouilles de Donn

Description:

Est-ce que vous saviez que les compagnies de cartes de cr dit peuvent suspecter un vol de ... des donn es li es au paiement (adresse, sexe...) D finition de profils des clients ... – PowerPoint PPT presentation

Number of Views:509
Avg rating:3.0/5.0
Slides: 49
Provided by: Scha89
Learn more at: http://www.csis.pace.edu
Category:
Tags: adresse | donn | fouilles

less

Transcript and Presenter's Notes

Title: Fouilles de Donn


1
Fouilles de DonnéesIntroduction à la fouille de
données
  • Christelle Scharff
  • IFI
  • Juin 2004

2
Exemples
  • http//www.amazon.fr
  • Le panier de la ménagère
  • Connaissez-vous?

3
Questions
  • Est-ce une bonne idée de faire de la publicité de
    musique rap dans des magazines pour personnes
    âgées?
  • Est-ce que vous saviez que les compagnies de
    cartes de crédit peuvent suspecter un vol de
    carte, même si le propriétaire de la carte nest
    pas encore au courant?
  • Est-ce que vous savez pourquoi les entreprises
    liées à la bourse sponsorisent les tournois de
    golfs télévisés?

4
Plan et objectifs
  • Comprendre ce quest la FDD?
  • KDD
  • Modèles
  • Applications de la FDD
  • Recherche en FDD

5
Données et information
  • Les entreprises produisent des quantités énormes
    de données
  • Sources affaires, science, géographie,
    environnement
  • Les données sont des ressources de valeur
  • Besoin de techniques pour analyser les données et
    extraire des informations / connaissances
    automatiquement
  • Données faits
  • Information modèle / motif (pattern) dans les
    données

6
Fouille de données (FDD)
  • Fouille / découverte de connaissances dans les
    données ou création dun modèle des données
  • Processus qui emploie des techniques
    dapprentissage automatiques et intelligentes
    pour analyser et extraire des connaissances, de
    grandes quantités de données
  • 98 de ce que les humains apprennent proviennent
    de reconnaissance des formes Kurzwell

7
Pourquoi la FDD maintenant?
  • Des machines plus puissantes
  • Existence dalgorithmes de fouille de données
  • Collections et sauvegardes des données améliorées
  • Domaine à la confluence de différents domaines
    base de données, statistiques, intelligence
    artificielle, visualisation, parallélisme
  • Domaine pluridisciplinaire

8
KDD
  • Découverte de connaissances dans les données
    (KDD)
  • Application de méthodes scientifiques à la
    fouille de données
  • Le processus de KDD est composé de
  • Sélection des données
  • Pré-traitement des données
  • Transformation des données
  • La fouille de données
  • Interprétation et évaluation des modèles

9
Modèles pour KDD
  • SEMMA
  • Échantillonner
  • Explorer
  • Modifier
  • Modeler
  • Évaluer
  • SAS

10
Systèmes pour la FDD
  • Composition
  • Bases de données, entrepôts de données
  • Serveurs de bases de données ou dentrepôts de
    données
  • Bases de connaissances
  • Engins de fouille de données
  • Modules dévaluation du modèle
  • Interfaces graphiques pour lutilisateur

11
Apprendre
  • Apprendre quelque chose de nouveau
  • Faits (vrais ou faux)
  • Concepts
  • Ensembles de symboles, objets et évènements
    groupés parce quils partagent les même
    caractéristiques
  • Procédures
  • Cours dactions réalisées étape par étape pour
    atteindre un but
  • Principes
  • Plus haut niveau dabstraction
  • Règles ou vérités qui sont les bases pour
    dautres vérités

12
Apprentissage supervisé
  • Modèle inductif où lapprenant considère un
    ensemble dexemples, et infère lappartenance
    dun objet à une classe en considérant les
    similarités entre lobjet et les éléments de la
    classe
  • Les classes sont étiquetées préalablement (sports
    et loisirs, art et culture)
  • La plupart des algorithmes (classification,
    estimation, prédiction) utilisent lapprentissage
    supervisé

13
Apprentissage non supervisé
  • Construction dun modèle et découverte des
    relations dans les données sans référence à
    dautres données
  • On ne dispose d'aucune autre information
    préalable que la description des exemples
  • La segmentation, le regroupement (cluster), la
    méthode des k-moyennes et les associations sont
    des méthodes dapprentissage non supervisées

14
Concepts / Modèles
  • Les concepts sont les résultats de la fouille de
    données
  • Ils montrent les relations dans les données ou
    groupent des éléments fondés sur leur
    ressemblance
  • Structures
  • Arbres de décision
  • Règles
  • Réseaux de neurones
  • Équations mathématiques
  • Parfois, pas de réelles structures
  • Exemples / Instances
  • Regroupements (clusters)

15
Exemples de modèles
  • Vue classique
  • Si salaire annuel gt 30,000 et années de service
    gt 5 et propriétaire vrai
  • alors risque de défaut de paiement faux
  • Age(X, jeune) et Salaire(X,élevé) ?
    Classe(X,A)
  • Vue probabilistique
  • La plupart des personnes qui ont un bon crédit
    sont propriétaires

16
Exemples de modèles
  • Vue exemplaire
  • Un exemple est déterminé comme une instance dun
    concept
  • Les exemples suivants sont considérés comme ayant
    un bon crédit
  • Salaire 32,000, années 6, propriétaire
  • Salaire 52,000, années 16, locataire

17
Exemples de modèles
  • Les exemples peuvent être présentés par des
    tables

Age Salaire Classe Total
Jeune Elevé A 1402
Jeune Bas B 1038
Agé Elevé C 786
18
Exemples de modèles
  • Diagrammes
  • Histogramme
  • Camembert
  • Arbre de décision
  • Cube de données

19
Applications Grande Distribution
Vente par correspondance Définition de profils des clients
Analyse du panier de la ménagère Analyse des données liées au paiement (adresse, sexe) Prédiction des taux de réponses à des listes de diffusions Optimisation des réapprovisionnements Propositions spécifiques de services à des individus profilés Élimination des mauvais clients
20
Application Assurances
Assurances Définition des profils des clients
Analyse des données personnelles (sexe, age, profession) Analyse des données sur les éléments à assurer (type de voiture, puissance) Analyse des sinistres Élimination des mauvais clients Tarification du contrat Évaluation des risques Détection des fraudes
21
Application Banques
Banques Définition des profils des clients
Analyse de la situation bancaire (solde, produits bancaires ) Analyse de données supplémentaires (sexe, profession, situation familiale) Élimination des mauvais clients Autorisation de crédits aux bons clients Propositions spécifiques de services
22
Application Banques
Banques Détection des évolutions de profils
Analyse de la situation bancaire (solde, produits bancaires possédés) Analyse des données supplémentaires (situation familiale, profession) Détection de la lassitude dun client (possibilité de trouver de nouvelles propositions plus adaptées) Détection de lamélioration ou de la détérioration de la situation bancaire
23
Application Banques
Banques Détection de comportements particuliers
Analyse de la situation bancaire (solde, produits bancaires possédés) Analyse des données supplémentaires (situation familiale, profession) Détection des fraudes (utilisation anormale des systèmes de paiement)
24
Application Bourse
  • Analyse du cours de la bourse pour pouvoir passer
    des ordres automatiques de transactions boursières

25
Application Production Industrielle
Production industrielle Prédiction et détection
Analyse du fonctionnement de la chaîne de production Analyse des produits Analyse des ventes Analyse de questionnaires (prospectifs, satisfaction) Optimisation de la production Adéquation au marché Anticipation des défauts Diagnostics de pannes
26
Application Internet
Internet Détermination dun thème, dun sujet
Analyse automatique de sites toile Analyse automatique du courrier électronique Aide à lorganisation des messages reçus Moteur de recherche évolué (design des systèmes) Décision de marketing Espionnage
27
Application Sport
  • Le système SCOUT dIBM analyse les matches de
    baskets de la NBA pour faire gagner les Knicks de
    New York

28
FDD Sur quelles données? (1)
  • Base de données relationnelles
  • Base de données transactionnelles
  • Base de données orientées objets
  • Base de données relationnelles objets
  • Base de données temporelles
  • Exemple Bourse

29
FDD Sur quelles données? (2)
  • Base de données spatiales
  • Exemples Images provenant de satellites, cartes
    géographiques
  • Base de données hétérogènes
  • Base de données héréditaires
  • Entrepôts de données
  • Base de données textuelles
  • Les données sont décrites par des mots
  • Exemples La toile, le courrier électronique, les
    pages html/xml

30
FDD Sur quelles données? (3)
  • Base de données multimédia
  • Des techniques de recherche et de stockage
    avancées sont nécessaires
  • La toile / Internet
  • Besoins de techniques particulières à chaque type
    de données pour la fouille de données

31
OLTP / OLAP / FDD / Systèmes Experts /
Statistiques
  • OLTP
  • OLAP
  • FDD
  • Données ? Technique de FDD ? Modèle(s)
  • Systèmes experts Programmes qui simulent les
    habilités de résolution de problèmes dans des
    domaines spécifiques
  • Expert (humain), ingénieur, scientifique ?
    Système Expert ? Modèle
  • Statistiques
  • Obtention de modèles paramétrés, les données pour
    les estimations et la validité des estimations
    sont les même, les données présentes sont les
    seules considérées

32
On ne peut pas tout faireet tout nest pas de
la FDD
  • La FDD offre des outils et des méthodologies qui
    peuvent aider à comprendre les données et faire
    des prédictions
  • Mais
  • Il ny a pas de solution générale et complètement
    automatique
  • Les techniques doivent être adaptées au problème
    considéré
  • La FDD doit être comprise
  • La FDD ne remplace pas les experts, mais les
    assiste

33
FDD Vrai ou faux?
  • Liste des produits vendus pendant le premier
    semestre 2003 par le supermarché AUCHAN
  • Total des ventes de produits de AUCHAN en 2003
  • Les personnes qui achètent un ordinateur achètent
    parfois une imprimante en même temps
  • Les hommes de moins de 25 ans répondent aux
    offres X avec une probabilité de 90

34
Classification des fonctions de la FDD
  • Les fonctions de la FDD sont classées en 2
    catégories
  • Les fonctions descriptives
  • Description des propriétés des données
  • Les fonctions prédictives
  • Inférence sur les données pour faire des
    prédictions

35
Les fonctions de la FDD Classification et
Prédiction
  • Classification et prédiction
  • Diviser / grouper les instances dans des classes
    spécifiques pour des prédictions futures
  • Prédire des valeurs (classes) inconnues ou
    manquantes
  • Exemples
  • Les clients loyaux / les clients non-loyaux
  • Les transactions frauduleuses / les transactions
    générales
  • Prédire les taux de réponses à une offre
  • Algorithmes
  • Arbres de décision, règles de classification,
    classification Bayésienne, algorithmes
    génétiques, algorithme des k plus proches
    voisins, lapproche Rough Sets, régression
    linéaire et non linéaire

36
Les fonctions de la FDD Regroupement (Cluster)
  • Regroupement déléments de proche en proche fondé
    sur leur ressemblance
  • Les classes sont inconnues, et sont donc créées
  • Exemple
  • Segmentation du marché
  • Algorithmes
  • K-moyennes
  • Réseaux neuronaux

37
Les fonctions de la FDDAssociations
  • Mise en relation des données
  • Exemples
  • Le panier de la ménagère
  • Les personnes qui achètent des chips achètent
    aussi du coca-cola
  • Age(X, 2029) et Salaire(X, 2000029000) ?
    Achete(X,PC) support 2, confidence 60
  • Lalgorithme A Priori pour obtenir des règles
    dassociation

38
Les fonctions de la FDD Caractérisation et
Discrimination
  • Caractérisation Généralise les données dune
    classe
  • Exemple
  • Général profil des régions pluvieuses
  • Discrimination Compare les données dune classe
    avec une ou plusieurs classes (de comparaison)
  • Gestion des anomalies
  • Exemple
  • Les ventes de logiciels qui ont augmenté de 10
    par rapport à celles qui ont augmente de 30

39
Évaluation des modèles (1)
  • Génération dun grand nombre de modèles
  • Le modèle est-il intéressant?
  • Mesures dintérêt dun modèle
  • Nouveau
  • Facile à comprendre
  • Valide sur de nouvelles données (avec une
    certaine mesure de certitude)
  • Utile
  • Confirme (ou infirme) les hypothèses dun expert

40
Évaluation des modèles (2)
  • Évaluation dun modèle
  • subjective (expert)
  • objective (statistiques et structure des modèles)
  • Peut-on trouver tous les modèles? (Complétude)
  • Peut-on générer seulement les modèles
    intéressants? (Optimisation)
  • Génération de tous les modèles et filtrage
    suivant certaines mesures et caractéristiques
  • Non réaliste
  • Générer seulement les modèles vérifiant une
    condition particulière

41
Mesure pour lévaluation des modèles
  • Exemple des règles dassociation X ?Y
  • Support (X ?Y ) P(X et Y)
  • Confidence ( X ?Y ) P (Y X) P (X et Y ) /
    P(X)
  • Exemple Age(X, 2029) et Salaire(X,
    2000029000) ? Achète(X,PC) support 2,
    confidence 60

42
Construction et évaluation dun modèle
  • Les données sont séparées en 3 ensembles
  • Ensemble dentraiment
  • Ensemble de validation
  • Ensemble test

43
Logiciels
  • Logiciels très sophistiqués
  • Weka (installé pour vous à l IFI)
  • Dbminer
  • Xlminer
  • SQL Server 2000

44
Recherche en FDD (1)
  • Méthodologies de FDD et interaction avec
    lutilisateur
  • Découvrir différentes sortes de connaissances
    dans les données
  • La FDD interactive
  • Incorporation dun ensemble de connaissances
    particulières
  • Langage de FDD (tel que SQL, DMQL)
  • Présentation et visualisation des résultats
  • Traitement du bruit et des données incomplètes
  • Évaluation du modèle

45
Recherche en FDD (2)
  • Performance
  • Efficacité et adaptabilité des algorithmes de FDD
  • Algorithmes incrémentaux et parallèles
  • Diversité des types de données
  • Données relationnelles et données complexes
  • Bases de données hétérogènes

46
Exercice (1)
  • Problème Améliorer le processus dacceptation et
    de rejet des crédits pour diminuer les pertes
    dues aux défauts de paiements
  • Les étapes
  • Les données
  • Définir les objectifs
  • Traduire le problème en un problème de fouille de
    données

47
Exercice (2)
  • Prédire si un client va être en défaut de
    paiement ou pas (Classification)
  • Prédire les profits escomptés résultant de
    lajustement des défauts de paiement (Estimation
    et prédiction)
  • Sont à prendre en compte
  • Le domaine dapplication
  • Les données considérées
  • Le(s) modèle(s) que lon veut générer
  • Les techniques que lon veut/doit utiliser

48
Références
  • J. Han, and M. Kamber. Data Mining Concepts and
    Techniques. Morgan Kaufmann.
  • http//depinfo.u-bourgogne.fr/DESS-BDIA/DataMining
    /DataMining.ppt
Write a Comment
User Comments (0)
About PowerShow.com