Le%20Data%20Mining:%20M - PowerPoint PPT Presentation

About This Presentation

Title:

Le%20Data%20Mining:%20M

Description:

Data Mining and Knowledge Discovery Journal (1997) Special Interest Group Knowledge Discovery in Databases (1999) de l'Association for Computing Machinery (ACM) ... – PowerPoint PPT presentation

Number of Views:167

Avg rating:3.0/5.0

Slides: 52

Provided by: Gard150

Category:

more less

Transcript and Presenter's Notes

Title: Le%20Data%20Mining:%20M

1
Le Data Mining Méthodologie

Définition et introduction
Principales applications
Méthodologie du DM
Exemples de fonctionnement

2
1. Emergence du domaine

Termes synonymes (ou presque)
Fouille de données (FD)
Exploration de données (ED)
Extraction de connaissances (ECD, KDD)
Workshops puis conf. internationales
Depuis 1991 puis 1994
August 24th-27th 2008 KDD '08 The 14th ACM
SIGKDD International Conference on Knowledge
Discovery and Data Mining, Las Vegas , NV
USA
Data Mining and Knowledge Discovery Journal
(1997)
Special Interest Group Knowledge Discovery in
Databases (1999) de lAssociation for Computing
Machinery (ACM)

3
Métaphore

Par analogie à la recherche des pépites d or
dans un gisement, la fouille de données vise
à extraire des informations cachées par analyse
globale
à découvrir des modèles (patterns) difficiles à
percevoir car
le volume de données est très grand
le nombre de variables à considérer est important
ces patterns sont imprévisibles (même à titre
d hypothèse à vérifier)

4
Définition

Data mining
ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la
signification profonde) sous forme de modèles
présentés à l utilisateur averti pour examen

Données entrepôt
Connaissances
Data mining
Découverte de modèles
Compréhension Prédiction
5
Découverte de modèles
x1
c
Confiance
x2
Entrées
y
x3
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
6
Découverte et Exploitation
Data to Predict
Mining Model
DM Engine
DM Engine
Mining Model
Predicted Data
Mining Model
7
Objectif connaissances

Knowledge Discovery in Databases (KDD)
Processus complet dExtraction de Connaissance
des Données (ECD)
Abouti à la génération de règles et daides à la
décision
Exemples
analyses (distribution du trafic en fonction de
l heure)
scores (fidélité d un client), classes (mauvais
payeurs)
règles (si facture gt 10000 et mécontent gt 0.5
alors départ à 70)

8
Mécanismes de base

Déduction base des systèmes experts
schéma logique permettant de déduire un théorème
à partir d'axiomes
le résultat est sûr, mais la méthode nécessite la
connaissance de règles
Induction base du data mining
méthode permettant de tirer des conclusions à
partir d'une série de faits
généralisation un peu abusive
indicateurs de confiance permettant la pondération

9
Le processus de KDD
10
Etapes du processus

1. Compréhension du domaine dapplication
2. Création du fichier cible (target data set)
3. Traitement des données brutes (data cleaning
and preprocessing)
4. Réduction des données (data reduction and
projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de
données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined
patterns)
9. Validation des connaissances extraites
(source Fayyat et al., 1996, p. 1-34)

11
Etapes daprès SPSS
12
2. Domaines d'application

De plus en plus de domaines
explosion des données historisées
puissance des machines support
nombreux datawarehouses
OLAP limité
nécessité de mieux comprendre
rapports sophistiqués, prédictions
aide efficace aux managers

13
Quelques domaines réputés

Analyse de risque (Assurance)
Marketing
Grande distribution
Médecine, Pharmacie
Analyse financière
Gestion de stocks
Maintenance
Contrôle de qualité

14
Exemples

Targeted ads
What banner should I display to this visitor?
Cross sells
What other products is this customer likely to
buy?
Fraud detection
Is this insurance claim a fraud?
Churn analysis
Who are those customers likely to churn?
Risk Management
Should I approve the loan to this customer?

15
Churn Analysis

Application de télécom
Bases de données des clients et des appels
Fichiers des réclamations
Qui sont les clients le plus susceptibles de
partir ?
Application de techniques de DM
Fichiers de 1000 clients les plus risqués
600 ont quittés dans les 3 mois

16
Trading Advisor

Application boursière
conseil en achat / vente d'actions
Données de base
historique des cours
portefeuille client
Analyse du risque
Analyse technique du signal
Conseils d'achat vente
Mise à disposition sur portail Web

17
3. Méthodologie -1

1. Identifier le problème
cerner les objectifs
trouver les sources
définir les cibles
vérifier les besoins

2. Préparer les données
préciser les sources
collecter les données
nettoyer les données
transformer les données
intégrer les données

18
Méthodologie - 2

3. Explorer des modèles
choisir une technique
échantillonner sur un groupe
valider sur le reste (5 à 1/3)
calculer le ? d erreurs
4. Utiliser le modèle
observer la réalité
recommander des actions

5. Suivre le modèle
bâtir des estimateurs
corriger et affiner le modèle

19
Explorer des modèles SEMMA

Sampling Échantillonner
tirer un échantillon significatif pour extraire
les modèles
Exploration Explorer
devenir familier avec les données (patterns)
Manipulation Manipuler
ajouter des informations, coder, grouper des
attributs
Modelling Modéliser
construire des modèles (statistiques, réseaux de
neuronnes, arbres de décisions, règles
associatives, )
Assessment Valider
comprendre, valider, expliquer, répondre aux
questions

20
Validation dun modèle

Matrice de confusion confronter le vrai au
prédit !
comparaison des cas observés par rapport aux
prédictions
exemple prédiction de factures impayées
Validité du modèle
nombre exacte (diagonale) / nombre totale
120/150 0.80

Observé Payé Retardé Impayé
Total Payé 80 15 5 100 Retardé
1 17 2 20 Impayé 5
2 23 30 Total 86 34
30 150
Prédit
21
Mesures en Recherche dinformation (IR)
22
Définition de Mesures

précision
Rapport du nombre de documents pertinents trouvés
au nombre total de documents sélectionnés. En
anglais precision.
rappel
Rapport du nombre de documents pertinents trouvés
au nombre total de documents pertinents. En
anglais recall.
Soient
S l'ensemble des objets qu'un processus considère
comme ayant une propriété recherchée,
V l'ensemble des objets qui possèdent
effectivement cette propriété,
P et R respectivement la précision et le rappel
du système
P S n V / S
R S n V / V

23
Mesures

Précision (Precision)
NbTrouvésCorrects/(1NbTotal)
Bruit (Noise)
NbTrouvésIncorrects/(1NbTotal)
1- Précision
Rappel (Recall)
NbTrouvésCorrects/(1NbValide)
F-mesure
2(précisionrappel)/(précisionrappel)

24
Autre mesure Le Lift

Population de clients pour le marketing
Division en décil
Mesure du ratio Réponse/Moyenne

25
Représentation du lift
26
Principales Techniques

Dérivées
des statistiques (e.g., réseaux bayésiens)
de l'analyse de données (e.g., analyse en
composantes)
de l'intelligence artificielle (e.g., arbres de
décision, réseaux de neurones)
des bases de données (e.g., règles associatives)
Appliquées aux grandes bases de données
Difficultés
passage à l'échelle et performance
fonctionnement avec échantillon gt qq milliers
présentation et validation des résultats

27
Origines des techniques
Daprès Labo. Eric, Lyon
28
4. Quelques produits

Intelligent Miner d'IBM
modélisation prédictive (stat.), groupage,
segmentation, analyse d'associations, détection
de déviation, analyse de texte libre
SAS de SAS
Statistiques, groupage, arbres de décision,
réseaux de neurones, associations, ...
SPSS de SPSS
statistiques, classification, réseaux de
neurones

Oracle ODM
Règles associatives, classification supervisée et
non supervisée, text mining
SQL Server DM
Règles associatives, classification supervisée et
non supervisée, séries temporelles, réseaux de
neurones,
Autres SPSS, Statistica Open source SIPINA,
WEKA

29
SAS
30
INPUT

Choix des variables

31
SAMPLING

Choix du type d'échantillon

32
INSIGHT

Analyse des données en 4D

33
TRANSFORM

Transformation pour préparer

34
PARTITION

Création de partition d'exploration parallèle

35
REGRESSION

Sélection de la méthode de régression

36
DECISION TREE

Construction d'un arbre par ?2

37
NEURONES

Spécification d'un réseau de neurones

38
ASSESSMENT

Validation des résultats

39
5. Méthodes statistiques

Quelques techniques de base
A la limite du DM
Calculs d'information sophistiqués

40
Méthodes d'analyse
Points dans Rn
Points dans Rp
41
Familles de méthodes
Nuage de points
Regroupement dans tout l'espace
Visualisation dans Le meilleur espace réduit
METHODES DE CLASSIFICATION, SUPERVISEE OU NON
METHODES STATISTIQUES ET FACTORIELLES
42
Fonctions Statistiques

Espérance
permet de calculer la moyenne pondérée d'une
colonne pi 1/N par défaut
Variance
traduit la dispersion de la distribution de la
v.a. autour de sa valeur moyenne.
Variable centrée réduite
Permet d'éliminer le facteur dimension

43
Diagrammes en bâtons

Comptage de fréquence
COUNT
Extension aux calculs d'agrégats
AVG, MIN, MAX,
Possibilité d'étendre au 3D
Apporte une vision synthétique

44
Tableaux croisés(Vision 2D du Datacube)
Effectif théorique calculé par une loi de
distribution (uniforme)
45
Corrélation

Covariance
La covariance peut être vue comme le moment
centré conjoint d'ordre 1 de deux v.a.
Si les deux v.a. sont indépendantes, alors leur
covariance est nulle (mais la réciproque n'est
pas vraie en général).
Coefficient de corrélation
Elimine le facteur dimension
mesure la qualité de la relation linéaire entre
deux variables aléatoires

46
Droite de régression
Y a X b
47
Test du ?2

Détermine l'existence d'une dépendance entre deux
variables
Exemple salaire d'embauche, niveau d'étude
Compare la distribution des variables par rapport
à une courbe théorique supposant l'indépendance

48
De nombreuses autres fonctions

Test t sur moyenne
ANOVA
Analyses de variance sophistiquées
Corrélation partielle
Régresion logistique
Séries chronologiques
Lissage exponentiel, Moyenne mobile,
Comparaison

49
Calculs en SQL

Introduction de fonctions d'agrégats
AVG moyenne
MAVG moyenne mobile
STDDEV écart type
VARIANCE variance
COVARIANCE covariance
Exemple
SELECT COVARIANCE(SALAIRE_ACTU, SALAIRE_EMB)
FROM EMPLOYEE
WHERE GRADE "ingénieur"
GROUP BY SEXE

50
Statistiques Conclusion

Calculs statistiques sur variables
Mono ou bi-variées
Résumé des données
Observation de dépendances
Peu de modèles prédictifs ...
La plupart sont faisables avec SQL OLAP
Extensions cube et rollup
Extensions avec fonctions d'agrégats

51
6. Conclusion

Le data mining vise à découvrir des modèles à
partir de grandes bases de faits connus
(datawarehouse)
Le processus de construction de modèles est
complexe
préparer les données
modéliser 1/3 de la base
valider sur 2/3
expérimenter plusieurs modèles