Introduction au datamining

About This Presentation

Title:

Introduction au datamining

Description:

Introduction au datamining Syst me d information d cisionnel DESS ACSI et SID Anne Boyer Ann e universitaire 2004-2005 Plan Introduction 1.G n ralit s 2. – PowerPoint PPT presentation

Number of Views:448

Avg rating:3.0/5.0

Slides: 191

Provided by: nat54Fre

Category:

more less

Transcript and Presenter's Notes

Title: Introduction au datamining

1
Introduction au datamining

Système dinformation décisionnel
DESS ACSI et SID
Anne Boyer
Année universitaire 2004-2005

2
Plan

Introduction
1.Généralités
2. Le processus de datamining
3. Les modèles du datamining
4. Exemples
5. Critères pour le choix dun logiciel
Conclusion et perspectives

3
Environnement de l'entreprise

Accroissement de la concurrence
Individualisation des consommateurs
Brièveté du cycle de vie des produits
? Anticiper le marché et pas seulement réagir
? Cibler au mieux la clientèle pour répondre à
ses attentes
? Connaissance du métier, des schémas de
comportement des clients et des fournisseurs

4
Un constat

La grande distribution a besoin d'apprendre à
connaître se clients
Créer des relations privilégiées sur le modèle du
commerce de quartier
Idéal du "1 à 1"
Apprendre à évaluer un client dans la durée
Déterminer lequel fidéliser par des attentions
particulières et lequel laisser partir à la
concurrence
Déplacement des centres d'intérêt des segments de
marché vers les individus
Petit commerce
Observe un client, se souvient de ses préférences
Apprend des contacts passés comment améliorer le
service futur

Introduction
5
Objectif

Faire la même chose avec une entreprise de grande
taille
le client peut ne jamais entrer en contact avec
un employé
le client voit chaque fois un employé différent
Exploiter les nombreuses traces enregistrées lors
de l'observation du client (enregistrements
transactionnels)

Introduction
6
Un potentiel

A disposition une masse importante de données
Explorer ses réservoirs de connaissances
Extraction de connaissances
Données provenant de nombreuses sources
À rassembler et à organiser selon un plan
cohérent et exploitable
À analyser, comprendre et transformer en
informations exploitables

Une solution le datamining
7
Intérêt du DM

"Trop de données tue linformation"
seuls 15 des données stockées sont analysées
150 dinfo disponibles chaque année
Objectif favoriser la prise de décision en
exploitant les tonnes dinformation disponibles
modéliser pour prédire
faciliter la décision mais ne prend pas de
décision
améliorer la réactivité dune entreprise / marché
Défi améliorer la productivité / volume
exponentiel de données
Extrapoler le passé pour prédire lavenir

Introduction
8
Découverte de connaissances dans les bases de
données

Intérêt scientifique
Processus daide à la décision où les
utilisateurs cherchent des modèles
dinterprétation dans les données
Extraction dinformations auparavant inconnues et
potentiellement utiles à partir des données
disponibles
Intérêt économique
Amélioration de la qualité des produits et des
services
Passage dun marketing de masse à un marketing
individualisé
Fidélisation des clients
Favoriser la différentiation stratégique de
lentreprise

Introduction
9
Datamining

Ensemble des outils permettant d'accéder et
d'analyser les données de l'entreprise
moyens destinés à détecter les associations entre
des données contenues dans dimportantes bases de
données
Outil qui facilite la mise en évidence de modèles
ou de règles à partir de lobservation des
données
Démarche ayant pour objet de découvrir des
relations et des faits à la fois nouveaux et
significatifs sur de grands ensembles de données
Un élément de la transformation de données en
connaissances

Introduction
10
Datamining

Restriction aux outils permettant de générer des
infos riches, de découvrir des modèles implicites
à partir de données historiques
Pertinence et intérêt conditionnées par les
enjeux de l'entreprise

Idées et techniques provenant des statistiques,
de la RO, de l'IA, de l'administration de bases
de données, du marketing
11
Connaissance versus donnée

Données ? Connaissances
Donnée description dun exemple ou dun
événement spécifique dont lexactitude peut être
vérifiée par rapport au monde réel
ex les achats dun client sur son ticket de
caisse
Connaissance ensemble de relations entre les
données
Règles, Tendances, Associations, Exceptions,
Décrit une catégorie abstraite pouvant couvrir
plusieurs exemples
Ex les bons et les mauvais clients
Connaissances ? synthèse des informations (DM)

Introduction
12
DM versus autres solutions

Outils relationnels et OLAP
Initiative à l'utilisateur
DM
Initiative au système
Pas nécessaire de poser d'hypothèses
Interprétation par un expert
Nécessité d'un outil ergonomique rendant
transparentes les techniques utilisées

13
Datamining et Décisionnel une solution

Archivage de données crée la mémoire d'entreprise
Datamining crée l'intelligence de l'entreprise
Analyse prédictive de comportement
Généralisation prédictive communauté
Automatisation de certaines phases de lanalyse
Rendre les utilisateurs moins dépendants des
spécialistes de lanalyse de données
Intégrer les résultats du DM dans linformatique
ou les procédures de lentreprise

Introduction
14
Etat des lieux

Les algorithmes existent (depuis des années voire
des décennies)
Les données sont produites
Nécessité de grands volumes pour l'apprentissage
Les données sont archivées
La puissance de calcul nécessaire est disponible
et financièrement abordable
Le contexte est ultra concurrentiels
Motivation commerciale
Des produits commerciaux pour le DM existent

Introduction
15
Contexte ultra concurrentiel

Renforcement du rôle des informations dans la
concurrence
Économie de plus en plus tournée vers les
services
Vente de voitures ou de solutions de transports ?
Compagnies aériennes en concurrence par les
services offerts
Apparition de la personnalisation massive
Levi-Strauss et ses jeans personnalisés
Peugeot et la voiture à la demande
Individual et la revue de presse qui s'améliore
avec le temps
Importance croissante de l'information comme
produit
Courtiers en information
IMS
Journal de l'IOWA

Introduction
16
Domaines d'application

Grande distribution, vente par correspondance ou
commerce électronique
Banques, assurance
Transports et voyagistes
Télécommunications, eau et énergie
Aéronautiques, automobiles, industrie
Laboratoires pharmaceutiques

? Retours sur investissement
Introduction
17
Exemples

La police américaine
Poseur de bombe d'Oklahoma City (par ex)
DM pour filtrer les milliers de rapports soumis
par les agents du FBI
Le département du Trésor américain pour traquer
les formes suspectes dans les transferts de fonds
internationaux
Les impôts américains (acheteurs d'outils de DM)
Les supermarchés
Collecte d'infos par le biais de la carte de
fidélité
Utilisation de la carte pour payer ou obtenir des
"points"
déterminer l'agencement des rayons,
Vente aux marques pour les bons de réduction à
adresser à 1 client

Introduction
18
Exemples

La banque (les premiers)
les cartes de crédit
Aux USA, prédire les changements de cille (et de
banque ?)
La vente croisée
Assurance USAA
Compagnie d'investissement Fidelity
Marketing direct guidé par l'analyse de
comportement
Portrait robot du client fidèle
Routage des réclamations en période de garantie
Fabricant de moteurs diesel
Fidélisation des bons clients
Compagnie du gaz de Californie du sud à la fin du
monopole
Eliminer les mauvais clients

Introduction
19
Plan

Introduction
1.Généralités
2. Le processus de datamining
3. Les modèles du datamining
4. Exemples
5. Critères pour le choix dun logiciel
Conclusion et perspectives

20
Exemple d'une grande banque

Constat
Perte de clients supérieure aux nouveaux clients
Nouveaux clients rapportent moins que les clients
partis
? les meilleurs clients s'en vont
Objectif augmenter la rentabilité globale
Garder les parts de marché
Trouver de nouveaux clients (à faible coût)

21
Solutions

Relever les taux d'épargne, diminuer les taux
d'emprunt,
Inutile pour les clients fidèles
Attraction des clients volages
solution chère
Suppression de services non rentables
Mais si ce sont ceux qui fidélisent la clientèle
?
Comprendre les clients et appliquer le modèle
trouvé
Utiliser les données disponibles
Les transformer en informations exploitables

22
Le problème

Départ de clients rentables affecte le résultat
financier
Comment identifier les clients pouvant partir ?
Enquête auprès d'anciens clients
Échantillon représentatif ? Coopératif ?
Réponses honnêtes ? Une ou plusieurs raisons ?
Analyse des infos sur les anciens clients et
comparaison avec les clients restants
Détermination de clusters
Transformation des résultats de l'analyse en
action
Mesure des résultats

23
Les grandes étapes

Identifier l'opportunité commerciale
Ex planification d'actions marketing,
établissement de prix de produits ou de services,
définition des cibles marketing, explication de
pertes de clientèles,
La longueur d'attente aux caisses est elle une
raison probable de la perte de clients ?
Transformer les données concrètes en informations
permettant des actions
collectes
Utilisation des techniques du DM
Agir
Mesurer les résultats

24
Les tâches du DM

Classification (affectation à une classe
prédéfinie)
Estimation
Prédiction
Groupement par similitudes
Analyse des clusters (détermination de classes)
Description

25
Classification

La classification consiste à examiner des
caractéristiques dun élément nouvellement
présenté afin de laffecter à une classe dun
ensemble prédéfini. BERRY97
Objectif affecter des individus à des classes
classes discrètes homme / femme, oui / non, ...
exemple de techniques appropriées
Ä les arbres de décision

26
Estimation

permet
obtenir une variable continue en combinant les
données en entrée
procéder aux classifications grâce à un "barème"
Exemple estimer le revenu dun ménage selon
divers critères
ensuite possible de définir des tranches de
revenus pour classifier les individus
intérêt
pouvoir ordonner les résultats pour ne retenir si
on le désire que les n meilleures valeurs
facile de mesurer la position dun élément estimé
dans sa classe
particulièrement important pour les cas
limitrophes
exemple de techniques appropriées
les réseaux de neurones

27
Prédiction

ressemble à la classification et à lestimation
mais dans une échelle temporelle différente
sappuie sur le passé et le présent mais son
résultat se situe dans un futur généralement
précisé
meilleure méthode pour mesurer la qualité de la
prédiction attendre !
exemple de techniques appropriées Lanalyse du
panier de la ménagère
Les arbres de décision
les réseaux de neurones

28
Regroupement par similitudes

consiste à grouper les éléments qui vont
naturellement ensembles
exemple de techniques appropriées
Lanalyse du panier de la ménagère

29
Clusterisation

segmenter une population hétérogène en
sous-populations homogènes
Contrairement à la classification, les sous
populations ne sont pas préétablies
exemple de techniques appropriées
Les K means

30
Description

décrire les données dune base complexe
engendre souvent une exploitation supplémentaire
en vue de fournir des explications
exemple de techniques appropriées
Lanalyse du panier de la ménagère

La classification
Déterminer le grade en fonction du sexe, de
l'âge, l'ancienneté, le salaire et les
affectations
Déterminer le sexe en fonction de l'âge,
l'ancienneté, le salaire et les affectations
Lestimation se fait sur des variables continues
Estimer l'âge en fonction du grade, sexe,
ancienneté et affectations
le salaire en fonction de l'âge, sexe,
ancienneté et affectations
La prédiction
quelle sera la prochaine affectation d'un
militaire

Le regroupement par similitudes
déterminer des règles de type le militaire qui
est sergent entre 25 et 30 ans sera lieutenant
colonel entre 45 et 50 ans (fiabilité de n )
La segmentation
segmenter les militaires en fonction de leurs
suivi de la carrière et affectations
La description
indicateurs statistiques traditionnels âge
moyen, femmes, salaire moyen

33
Deux démarches

Test d'hypothèses
Générer une idée
Déterminer les données permettant de la tester
Localiser les données
Préparer les données pour l'analyse
Construire les modèles informatiques sur la base
de données
Évaluer les modèles informatiques
La découverte de connaissances
Dirigée (expliquer une relation) ou non
(reconnaître une relation)

34
Plan

Introduction
1.Généralités
2. Le processus de datamining
3. Les modèles du datamining
4. Exemples
5. Critères pour le choix dun logiciel
Conclusion et perspectives

35
Gestion des connaissances
Statistiques et datamining
Compréhension du domaine
Utilisation de la connaissance
Identification de relations
Enrichissement des variables
Qualification des données
Sélection des données
Introduction
36
Les étapes du processusKnowledge Discovery

Phase 1 Poser le problème
Phase 2 La recherche des données
Phase 3 La sélection des données pertinentes
Phase 4 Le nettoyage des données
Phase 5 Les actions sur les variables
Phase 6 La recherche du modèle
Phase 7 Lévaluation du résultat
Phase 8 Lintégration de la connaissance
extraite

Le processus de datamining
37
(1) Poser le problème

Quel est le problème ?
Formulation du problème
Recherche des objectifs et recueil de la
connaissance existante
Typologie du problème recherche des objectifs
Explication dun phénomène précis ? ou approche
exploratoire ?
Influence sur les modèles ou techniques à
utiliser
Résultat attendu et moyens mis en œuvre pour le
mesurer
Exploitation des résultats (impacts sur
lorganisation)
Individus concernés

Le processus de datamining
38
(2) Recherche des données

Quelles données extraire ? Identifier les
variables
Rendre le processus de découverte performant et
efficace
Réduction des dimensions
Trop de variables nuit à la capacité de
généralisation
Ratio Nombres dexemplaires / Nombre de
variables

trop peu dexemples
Le processus de datamining
39
(2) Recherche des données

Sélection des variables
Fournies par les experts (explication dun
phénomène précis)
Recherche des facteurs déterminants par des
techniques danalyse (méthode de régression,
réseaux neuronaux...)
DM à lintérieur du DM
Mise en évidence
des associations triviales entre les données
de la sémantique, des regroupements de valeurs
des valeurs de seuil
des valeurs aberrantes
Eliminer les résultats triviaux et améliorer la
prédiction

Le processus de datamining
40
(3) Sélection des données pertinentes

Comment extraire ces données ?
Réaliser un plan dextraction des données
Constituer un fichier à plat
Identifier les applications ou systèmes concernés
Phase importante
ou - facilitée par lexistence dentrepôts de
données
Certaines études nécessitent un plan de collecte
(étude qualitative, interception de données
transitoires)
Avenir flux continu de données depuis les
systèmes transactionnels et traitement immédiat
du processus de DM

Le processus de datamining
41
(3) Sélection des données pertinentes

Exhaustivité ou non des données ?
Echantillon ?
Dépend des modèles utilisés
Fonction des objectifs de létude (Phase 1)
Equilibre entre les différentes classes
dindividus à appréhender
Stratification si une faible population a des
enjeux forts
Pondérations des individus

Le processus de datamining
42
(4) Nettoyage des données

La qualité des données extraites ?
Identifier
les valeurs aberrantes (histogramme, ctrl de
cohérence à la saisie des données, outils de
visualisation graphique)
Quantifier
les valeurs manquantes (exclusion des
enregistrements incomplets, remplacement par une
valeur)
les valeurs nulles

Le processus de datamining
43
(4) Nettoyage des données

Prévenir de la non-qualité des données
Intégration de bruit équilibrer la proportion
des données erronées par rapport à lensemble
extrait
Utiliser les modèles adaptés en fonction du
diagnostic processus dapprentissage flous,
introduction de probabilité
Revoir le processus d'extraction ou la saisie des
données dans les systèmes initiaux

Le processus de datamining
44
(5) Actions sur les variables

Quelles transformations opérées sur les données ?
Transformer les données en fonction de la nature
des données extraites et des modèles qui seront
utilisés
Exemple de transformation mono-variable
Modification de lunité de mesure (normalisation,
log())
cas de données numériques
Transformation des dates en durée
Modification des données géographiques
(géocodage)
Création de taxonomie de concepts

Le processus de datamining
45
(5) Actions sur les variables

Exemple de transformation multi-variables
Construction dagrégats de variables
Ratios (degré dimplication)
Fréquences (mesurer la répétitivité)
Tendances (évolution des échanges dans le temps -
équations linéaires ou non)
Combinaisons linéaires (construction
dindicateurs)
Combinaisons non linéaires

Le processus de datamining
46
(6) Recherche du modèle

Quel modèle découvrir ?
Quel type de techniques ?
Supervisé (interactivité, connaissance des
algorithmes)
Non supervisé (automatisé)
Fonction des phases précédentes (qualité des
données, objectif,)
Algorithme de calcul ? pouvoir prédictif du
modèle
Utilisation des méthodes statistiques nouveaux
outils de type inductif, Bayésiens, neuronaux

Le processus de datamining
47
(6) Recherche du modèle

Pour la recherche du modèle
2 bases de travail
base dapprentissage (80 de la population)
pour la découverte dun modèle
base de test (20 de la population)
pour évaluer le modèle découvert

Le processus de datamining
48
(7) Évaluation du résultat

Évaluation qualitative
Restitution de la connaissance sous forme
graphique
ou sous une forme interprétable
Évaluation quantitative
Notion dintervalle de confiance (indicateurs
pour la pertinence des règles, seuil de confiance
et intervalle de confiance fonction de la taille
de léchantillon)
Validation par le test (base de test)
matrice de confusion / éclairage métier

Le processus de datamining
49
(7) Évaluation du résultat

Évaluation quantitative - Matrice de confusion

Achats constatés
Oui
Non
Total
Oui
270
160
430
Achats Prédits
Non
30
540
570
Total
300
700
1000
Qualité globale du modèle 270 540 / 1000
(81) Forte capacité des non-acheteurs 540 /
570 (94) Acheteurs 270/430 (63) 160
prospects à contacter
Le processus de datamining
50
(8) Intégration de la connaissance

Conversion de la connaissance découverte en
décision action
Implanter le modèle ou ses résultats dans les
systèmes informatiques ou dans le processus de
lentreprise
Bilan des étapes précédentes
faible qualité des données collectées
Þ revoir le processus dalimentation du data
warehouse
détection dune donnée de fort pouvoir prédictif
Þ modification de la BD
agrégats construits constituant des dimension
intéressantes
Þ extension des tableaux de bord
connaissance extraite en contradiction avec la
connaissance existante
Þ mesure de communication

Le processus de datamining
51
Processus dextraction - Conclusion

Rôle primordial des utilisateurs et des experts
Sémantique donnée aux données (méta-données)
Orientation du processus dextraction
Valider ou infirmer les conclusions
Logiciels de DM orientés recherche de modèle
Une partie du processus
Tendance intégration de fonctions daide à tous
les stades du processus
Après le processus la diffusion et
lintégration de la connaissance

Le processus de datamining
52
Plan

Introduction
1.Généralités
2. Le processus de datamining
3. Les modèles du datamining
4. Exemples
5. Critères pour le choix dun logiciel
Conclusion et perspectives

53
Data Mining Cocktail de techniques

Évolution des techniques de statistique apports
des SGBD, de lIA et de lapprentissage
automatique
Mélange de plusieurs disciplines

ML
SGBD
Représentation de la Connaissance
Les modèles du datamining
54
Data Mining Utilisateur ou Statisticien

Logiciel Presse-Bouton
(apprentissage automatique non supervisé)
Interaction avec lutilisateur au niveau de
lapprentissage (paramètre) ou pendant la
recherche du modèle
Logiciel basé sur des techniques statistiques
experts requis
Þ les outils de DM intègrent des tests
statistiques et des algorithmes de choix des
meilleures techniques de modélisation en fonction
des caractéristiques du cas

Les modèles du datamining
55
Data Mining Lisibilité ou Puissance

Compromis entre clarté du modèle et pouvoir
prédictif

Les modèles du datamining
56
Quelques techniques

Associations
Raisonnement à partir de cas
K means
Arbres de décision
Réseaux neuronaux
Algorithmes génétiques
Réseaux Bayésiens

Les modèles du datamining
57
Recherche d'associations ou analyse du panier de
la ménagère

processus de découverte de connaissances non
dirigée
étudier quels articles ont tendance à être
achetés ensemble
issue du secteur de la distribution
applicable dès que plusieurs actions faites par
un même individu
utilisée pour découvrir des règles d'association
but principal descriptif
prédictive car résultats éventuellement situés
dans le temps
souvent départ d'une analyse
règles claires et explicites pour l'utilisateur
métier
ensuite mise en œuvre d'un processus de test
d'hypothèses ou de découverte dirigée

58
Les Associations

Construire un modèle basé sur des règles
conditionnelles à partir dun fichier de données
Le modèle
Règles de la forme
Si prédicat(x) et prédicat(y) alors prédicat(z)
Pondération par une probabilité ou par une
métrique de confiance
Éventuellement situées dans le temps
"Si action1 ou condition à l'instant t1 alors
action2 à l'instant t2"
Exemples de règles
Si achat de riz et de vin blanc, alors achat de
poisson (84)
Si achat de téléviseur alors achat de
magnétoscope dans les 5 ans (45)
Si présence et travail alors réussite à l'examen
(99,9)

Les modèles du datamining
59
Les Associations

Les domaines
Analyse des tickets de caisse
(mise en relation entre n produits, relation de
comportement de produits)
Analyse des séquences dachats
détection dassociation de ventes pour un même
client
Þ dimension temporelle et notion dantériorité
Les enjeux
optimisation des stocks, merchandising, ventes
croisées (bon de réduction, promotion)

Les modèles du datamining
60
Les Associations

Principes de construction dune association
transaction Û ticket de caisse
une transaction T contient le détail des articles
ou de leur famille
chaque article est une variable binaire
une association est une implication de la forme X
Y
avec X et Y Î T et X ÇY Æ
deux indicateurs pour apprécier une association
niveau de confiance Card(X Y) / Card(X)
niveau de support Card(X Y) / Card(X ou Y)
extraire les associations pertinentes

Les modèles du datamining
61
Les Associations
Les modèles du datamining
62
Les Associations
Les modèles du datamining
63
Les Associations

Domaines dapplication
Analyse dachats dans la grande distribution
Analyse des mouvements bancaires, des incidents
dans les assurances
Limites de lapproche
article code à barres une famille 100
références
volume de données (100 000 réf. élémentaires)
Þ hiérarchie de concepts
niveau élémentaire pour confirmer limpact de
marque X sur les ventes de Y
Þ vérifier les associations sur des concepts de
haut niveau

Les modèles du datamining
64
Mise en oeuvre

LA TAXINOMIE
Un supermarché gère environ 100 000 références
différentes
analyse sur tous les articles tableau de 10
milliards de cellules pour des associations de
deux articles !
des espaces disques importants (en téra-octets)
des temps de traitements en conséquence
aujourd'hui pas très raisonnable
Solution la taxinomie
regrouper les articles, les généraliser sous un
même terme générique, une même rubrique
Exemple le terme chocolat regroupe les
chocolats noirs, au lait, de différentes marques,
aux noisettes, allégés,

65
Mise en oeuvre

LES ARTICLES VIRTUELS
fréquent de rajouter des articles virtuels
pour améliorer la performance du système
pour représenter des informations transversales
pour regrouper les articles d'une autre manière
que la taxinomie
Exemple produits allégés, marque que l'on
trouve dans plusieurs rubriques
pour donner des indications supplémentaires sur
la transaction
donnée temporelle (jour de la semaine, heure,
mois, saison, ), mode de paiement, météo,
si possible des données sur le client
(satisfaction, type d'habitat, catégorie
socioprofessionnelle, âge, statut matrimonial, )
pour fournir des règles du type
"si printemps et jardin alors achat de gants de
jardinage"

66
Mise en oeuvre

LES REGLES DE DISSOCIATION
analogue à une règle d'association mais fait
apparaître la notion de "non"
dans une entreprise, 5 produits (A,B,C,D,E)
Si un client prend les produits A,B et D, alors
il générera la transaction A,B,non C,D et non E
Ce procédé génère des règles comme
"si achat du produit A et du produit C alors non
achat du produit E".
inconvénient majeur fournit des règles où tout
est nié
"si non A et non B alors non C"
connaissances générées peu exploitables

67
Mise en oeuvre

Le LES SERIES TEMPORELLES
L'analyse du panier de la ménagère
Objectif faire de la description et non de la
prévision
outil non optimal pour étudier les séries
temporelles
contrainte avoir une information de temps et
une clé d'identification de l'objet
(principalement le client)
difficulté transformer les données en
transactions
Plusieurs possibilités offertes
Ajouter à chaque article la notion de temps
avant, après, en même temps
Créer des fenêtres temporelles regrouper toutes
les transactions effectuées dans un même
intervalle de temps par un même individu
permet de dégager des profils, surtout associée à
des articles virtuels

68
Mise en oeuvre

plusieurs indicateurs complémentaires pour
évaluer
La fréquence
règle vraie pour deux clients sur cinq
fréquence 40
Le niveau (ou taux) de confiance
mesure de la probabilité dans la sous population
concernée par la condition de la règle (fréquence
sur une sous population)
Ex règle "si achat de jus d'orange, alors achat
d'eau minérale"
la population ayant acheté du jus d'orange (ex
4 individus)
le nombre de fois où la règle est respectée (ex
2)
La proportion obtenue (ici 2 sur 4, soit 50 )
niveau de confiance
permet de mesurer la force de l'association
Prudence n'intègre pas la notion d'effectif
Ex Si achat de lait, alors achat de nettoyant
vitres
effectif 1 individu très relatif malgré un très
bon taux de confiance !

LE NIVEAU DE SUPPORT
nombre de fois où l'association est respectée,
ramenée au nombre de fois où l'un des articles
est présent
permet de mesurer la fréquence de l'association.
Le taux d'amélioration
permet de mesurer la pertinence de l'association
Que vaut une règle si son taux de confiance est
inférieur à la fréquence du résultat sans
condition ?
ex règle "si achat d'eau minérale, alors achat
de jus d'orange"
règle vraie pour 2 clients sur 3 qui ont acheté
de l'eau
taux de confiance pour l'achat du jus d'orange
dans ces conditions de 2/3
Or 4 clients sur 5 achètent du jus d'orange, soit
80 !
règle inintéressante à exploiter car ajout de
condition pour un taux moins bon
Pour mesurer l'amélioration apportée par la
règle, on divise le taux de confiance par la
fréquence de l'événement
ici 0.66 / 0.80 83
Si le résultat est supérieur à 1, la règle
apporte une amélioration sur le résultat
sinon renoncer à l'exploiter

70
Conclusion

points forts de l'analyse du panier de la
ménagère
résultats clairs et explicites
adaptée à l'exploitation non dirigée des données
traite des données de taille variable
La technique et les calculs simples à comprendre
points faibles de l'analyse du panier de la
ménagère
Le volume de calculs croît au carré ou au cube du
volume de données
prend mal en compte les articles rares
difficile de déterminer le bon nombre d'articles
les attributs des articles (détails et quantités)
souvent ignorés

71
Conclusion

technique s'appliquant aux problèmes
d'exploitation des données non dirigée
contenant des articles bien définis, qui se
regroupent entre eux de manière intéressante
souvent analyse préalable
car elle génère des règles susceptibles de
soulever des interrogations ou des idées
débouchera sur d'autres analyses plus fines
test d'hypothèse ou découverte de connaissance
dirigée pour expliquer un phénomène révélé

72
Le raisonnement à partir de cas

technique de découverte de connaissances dirigée
utilisée dans un but de classification et de
prédiction
bien adapté aux bases de données relationnelles
mise en œuvre simple
équivalence de l'expérience chez l'homme
processus identification des cas similaires
puis application de l'information provenant de
ces cas au problème actuel
principe on présente un nouvel enregistrement,
il trouve les voisins les plus proches et
positionne ce nouvel élément
s'applique à tous les types de données.
pour estimer des éléments manquants, détecter des
fraudes, prédire l'intérêt d'un client pour une
offre, classifier les réponses en texte libre

73
ventes de voitures Renault ventilées en fonction
de l'âge et du nombre d'enfants de l'acheteur
74
(No Transcript)
75

La consultation du graphique
des zones bien nettes
permettant de déterminer, pour un nouveau client
dont on connaît l'âge et le nombre d'enfants, le
modèle susceptible de l'intéresser.
trois nouveaux clients
La notion de distance est la distance métrique
conseil au client 1 une Espace, au 2 une Clio, au
3 une Safrane

76
Fonction de distance

Pour les données numériques
La valeur absolue de la différence A-B
Le carré de la différence (A-B)²
La valeur absolue normalisée A-B /
(différence maximale)
avantage se trouve toujours entre 0 et 1,
supprime les problèmes d'échelles
libre de créer sa propre fonction.
Pour les autres types de données
à l'utilisateur de définir sa propre fonction de
distance
Exemple
pour comparer le sexe d'un individu, valeur 1
s'ils sont de sexe différent ou la valeur 0 s'ils
sont identiques
pour des communes, pourquoi ne pas prendre la
distance entre elles ou affecter une codification
en fonction du type (urbaine, périurbaine,
rurale) ou de la région
toujours préférable d'avoir le résultat entre 0
et 1

77
Fonction de combinaison

consiste à combiner les n voisins les plus
proches pour obtenir le résultat de la prédiction
souhaitée
exemple
soit une liste de clients ayant déjà répondu à
une offre commerciale (par oui ou non)
l'utilisateur métier estime que les critères les
plus déterminants sont le sexe, l'âge et le
salaire net du dernier semestre

78
(No Transcript)
79

soit un nouveau client une femme de 45 ans
ayant un revenu de 100000 Francs
cette cliente sera-t-elle intéressée par l'offre
?
La fonction de distance est définie ainsi
il s'agit d'une femme, donc la distance par
rapport aux clients connus sera de 1 avec les
hommes et de 0 avec les femmes
A ce chiffre, on ajoute la distance normalisée du
salaire et de l'âge
Tableau des distances
Les voisins les plus proches sont dans l'ordre
D C B E A

Utilisons maintenant la fonction de combinaison
nombre de voisins retenus ?

Si 3 voisins, réponse favorable avec une
probabilité (plutôt espérance) de 66
possible également de donner un poids à chaque
contribution
Ex 1er voisin a un poids de 3, 2ème poids de 2,
3ème un poids de 1
Possible de pondérer chaque variable utilisée
dans la fonction de distance

81
Quelques remarques

Complexité en fonction de la taille de la base de
cas
Technique d'optimisation
ajout d'expertise pour guider la recherche vers
les critères les plus pertinents
Exemple utilisation d'un arbre de décision
D'où principe
Collecte des données
Nombre d'exemples lié au nombre de variables et
de valeurs par variable
Recherche des facteurs pertinents
Par mots clés (mc)
dist(x,y)1-(nombre_mc_commun(x,y)/ nombre_mc(x
ou y)
Hiérarchisation de concepts
Indexation des données (plus proche voisin)

82
Conclusion

Les points forts
produit des résultats explicites
s'applique à tout type de données
capable de travailler sur de nombreux champs
facile à mettre en œuvre et à comprendre
Les points faibles
nécessite un grand volume de données pour être
performant
très dépendant des fonctions de distance et de
combinaison

83
Détection automatique de clusters

méthode de découverte de connaissances non
dirigée (ou apprentissage sans supervision)
ne nécessite aucun apprentissage
principe regrouper les éléments par similarités
successives
deux grandes catégories
la méthode des K-moyennes et les méthodes par
agglomération.
objectif procéder à une classification du type
regroupement par similitude
un groupe appelé cluster
utilisation classique clusteriser une
population puis étude
prévoir une fonction de distance qui mesure
l'écart entre deux enregistrements

84
K means

permet de découper une population en K clusters
K défini par l'utilisateur
principe de fonctionnement
on positionne les K premiers points (ou noyaux)
au hasard
Chaque enregistrement est affecté au noyau le
plus proche
A la fin de la première affectation, calcul de la
valeur moyenne de chaque cluster
Le noyau prend cette nouvelle valeur
répététition jusqu'à stabilisation des clusters

85
Exemple

Personnes d'âge 27- 51 - 52 - 33 - 45 - 22 - 28 -
44 - 40 - 38 - 20 - 57
Ex K3
Les 3 noyaux les trois premières valeurs
distance différence / (amplitude maximum)
différence / 37)

noyau 1 (27) 27 - 33 - 22 - 28 - 38 - 20 noyau
2 (51) 51 - 45 - 44 - 40 noyau 3 (52) 52 - 57
86

calcul des centroïdes moyenne arithmétique du
cluster
soit 28 pour noyau 1, 45 pour noyau 2 et 54.5
pour noyau 3
Ces valeurs positions des nouvelles noyaux
Recommençons le processus par rapport à ces
valeurs

L'affectation donne la répartition suivante
noyau 1 (28) 27 - 33 - 22 - 28 - 20 Moyenne
26 noyau 2 (45) 45 - 44 - 40 - 38 Moyenne
41.75 noyau 3 (54.5) 51 - 52 - 57 Moyenne
53.33 En réitérant le processus, aucune
modification des affectations Les clusters sont
finalisés Cluster 1 27 - 33 - 22 - 28 - 20
Jeunes majeurs - Centroïde 26 Cluster 2 45 -
44 - 40 - 38 Quadragénaires - Centroïde
41.75 Cluster 3 51 - 52 - 57 Quinquagénaires
- Centroïde 53.33
87
Classification hiérarchique ascendante

Calcul des distances 2à 2
Agglomération des plus proches vosins (inférieurs
à un seuil
Calcul des centroïdes
On itère ..

88
Exemple
89

seuil 10 (0.1) à chaque itération
fixé aléatoirement en fonction du niveau de
regroupement souhaité par l'utilisateur.
ensemble des valeurs ordonné en ordre croissant
valeurs ayant un seuil inférieur à 10, soit
0.03 (52-51), 0.03 (27-28), 0.03 (44-45),
0.05 (38-40), 0.05 (20-22)

Chaque cluster est représenté par son centroïde
(ici moyenne) 27.5 - 51.5 - 33 - 44.5 - 21 - 39 -
57
90

On recommence avec un seuil de 20

91
Conclusion

Les points forts
Les résultats sont clairs
plutôt facile à mettre en œuvre
Pas grosse consommatrice de ressources
application facile.
Les points faibles
difficile de trouver une bonne fonction de
distance
Certains clusters résultants peuvent être
difficiles à expliquer

92
Les arbres de décision

objectif classification et prédiction
fonctionnement basé sur un
enchaînement hiérarchique de
règles en langage courant
composé
Dun nœud racine
De questions
De réponses qui conditionnent la question
suivante
De nœuds feuilles correspondant à un classement
jeu de questions réponses itératif jusquà ce
arrivé à un nœud feuille
pour déterminer quelle variable affecter à chaque
nœud, application d'un algorithme sur chaque
paramètre et conservation du plus représentatif
pour un découpage

93
Les Arbres de décisions

Le modèle
Utiliser la valeur des attributs pour subdiviser
lensemble dexemples en sous-ensembles de plus
en plus fins
Réitérer la démarche jusquà obtenir une classe
avec un nombre majoritaire de n-uplets
appartenant à la même classe
Arbre nœud racine S exemples
Découpage successif par une séquence de décisions
Résultat un ensemble de règles
Règle si Xa et Yb et alors Classe 1
Parcours de larbre (liste dattributs dont la
valeur détermine une classe dappartenance)

Les modèles du datamining
94
Les Arbres de décisions

Algorithme - Quinlan 1979
Fabrication dun arbre minimal en recherchant à
chaque niveau le paramètre le plus discriminant
pour classifier un exemple
Þ chemin optimal pour une classification correcte
1. Sélection de lattribut le déterminant à
chaque nœud
Développement des branches pour chacune des
valeurs de lattribut
2. si tout élément dune branche appartient à la
même classe
alors la feuille est étiquetée avec la classe
sinon retour en 2.
3. si toutes les feuilles sont étiquetées ou plus
dattributs
alors fin
sinon retour en 1.

Les modèles du datamining
95
Amélioration C4.5

Utilisation de la notion dentropie pour le choix
de lattribut à chaque étape
Limiter le développement de larbre ( élagage )
Force gt Fréq. Classe / Fréq. Totale gt seuil
Statistiques pour mesurer lindépendance dun
attribut /classe (Chi 2)

96
Les Arbres de décisions

Traitements des infos bruitées ou corrompues
2 classes mais plus dattributs pour subdiviser
étiquetage par la classe majoritaire ou
probabilité
test statistique pour mesurer lindépendance
entre attribut et classe
Traitements des valeurs manquantes
Valeur majoritaire (renforce lentropie)
Ignorer lexemple
Probabilité sur chacune des branches

Les modèles du datamining
97
Les Arbres de décisions

Principes de calculs
Algorithme de détermination de variable
significative
Diminution du désordre apparent dans les données
Cas de descripteur qualitatif
Probabilité dappartenance
ex grand-moyen-petit - sur 100 observations
20 ont la valeur grand - 20
Mesure de lincertitude (désordre) théorème de
Shannon
- S Pi log2(Pi)
avec Pi dappartenance à la catégorie
Algorithme issus du Chi 2 qui permet de vérifier
la conformité dun phénomène aléatoire à une loi
de probabilité posée en hypothèse (algorithme de
CHAID)

Les modèles du datamining
98
Les Arbres de décisions

Principes de calculs
Cas des attributs à valeur (oui, non)
métrique de Hamming
Hd Nbre de non coïncidences entre deux
attributs
pseudo-métrique de Hamming
(facteur de la mesure du désordre)
Pm Min ((nbre ex - Hd), Hd)

Les modèles du datamining
99
Les Arbres de décisions
Exemple dapplication de la distance de Hamming
Oui
Non
Arbre obtenu après 2 itérations
Les modèles du datamining
100
Les Arbres de décisions

Principes de calculs
Cas de descripteur quantitatif
Méthode de grappe
partition sur la médiane pour deux classes, en
déciles pour plusieurs classes
pas de garantie pour obtenir un seuil optimal de
découpage mais la méthode est rapide
Méthode exhaustive
méthode qui détermine le seuil optimal de
découpage de la variable
parcours de toutes les valeurs numériques prises
par lattribut
calcul du pouvoir discriminant pour chaque
valeur, la valeur ayant le plus grand pouvoir
discriminant devient seuil

Les modèles du datamining
101
Les Arbres de décisions

Enjeux
La détection de variables importantes
(structuration du phénomène étudié et mise en
place de solutions correctrices)
La construction dun S.I.
(repérage des variables déterminantes,
amélioration des règles dalimentation dun Data
Warehouse, affinement dun processus
dhistorisation)
Data Mining de masse (formalisme très simple)

Les modèles du datamining
102
Les Arbres de décisions

Résoudre 2 types de problèmes
Segmentation dune population
Affectation dune classe à un individu
Domaines dapplication
Etude de marketing (critères prépondérants dans
lachat)
Marketing direct (isoler les meilleurs critères
explicatifs)
Ventes (analyse des performances)
SAV (détecter les causes de réclamation, les
défauts)
Contrôle de qualité (identifier les éléments du
processus)
Domaine médical...

Les modèles du datamining
103
Les Arbres de décisions

Avantages et limites
Simplicité dutilisation
Lisibilité du modèle règle Si ... alors ...
sinon
Pas adapté à un apprentissage incrémental (base
de test)
Taille de larbre
un arbre touffu perd son pouvoir de
généralisation et de prédiction
importance de lutilisateur métier
Perspectives intégrer ce type doutil à des
tableurs ou EIS

Les modèles du datamining
104
Les Algorithmes Génétiques

Définition
Travaux récent 1975 (J. Holland)
Système artificiel qui sappuie sur le principe
de sélection de Darwin et les méthodes de
combinaison de gènes de Mendel
Description de lévolution dune population
dindividus en réponse à leur environnement
Sélection survie du plus adapté
Reproduction
Mutation

Les modèles du datamining
105
Principe

Individus codés comme un ensemble de chromosomes
Chaque chromosome a sa vie propre
Travail sur une population nombreuse de solutions
potentielles toutes différentes
Élimination des plus faibles pour reproduire les
mieux adaptés
Individus les adaptés ont une forte chance
d'être sélectionnés et dexister à la génération
suivante
Reproduction par hybridation génétique des plus
forts
Donne des individus encore plus forts
La mutation dun gène permet de conserver une
certaine diversité dans la population

106
Remarque

La population initiale cherche à peupler l'espace
des solutions
Succès dans les problèmes doptimisation (proche
des techniques de recherche opérationnelle)
Lapplication successive du processus de
sélection mutation permet datteindre une
solution optimale

Les modèles du datamining
107
Codage

Codage sous forme de 0 et 1 (codage du
chromosome)
ex 1Ancienneté de la cde 1 si lt 6 mois et
0 sinon
2CA Annuel 1 si lt 1000 et 0 sinon
variable numérique transformée en entier puis
en binaire

108
Fonction d'évaluation

Dépendante du problème
Ex taux d'impayés constatés
Permet de sélectionner le taux de reproduction à
la génération suivante
Taille de la population constante
Tirage au hasard des candidats à la survie
Biaisé ceux qui ont une fonction d'évaluation
importante

109
Manipulation génétique

Hybridation
échange entre 2 chromosomes d'un "morceau"
mutation
changement de parité
inversion
inversion de 2 caractères successifs

110
Les Algorithmes Génétiques

Principes

Population Initiale
Non
Tri des solutions sur la fonction dévaluation
Oui
Solution acceptable ?
Solution retenue
Sélection des individus à conserver
Nouvelle génération
Hybridation Mutation
Les modèles du datamining
111
Exemple voyageur de commerce
Codage 8 villes donc 3 bits Ordre donne la
succession des villes traversées Fonction
d'évaluation Ville non visitée pénalité de
1000 Km distance entre 2 villes successives
112
3 chromosomes F(1) 5400 F(2) 4700 F(3)
2700 Reproduction de 2 (1 fois) et de 3 (3 fois)
113
Hybridation entre les chromosomes 3 et 4 échange
d'une portion de chaîne
114
F(1) 2700 F(2) 4700 F(3) 3600 F(4) 3200
115
Mutation du 1 changement de parité au hasard
F(0) 2200 On conserve 0, 1,4
116
(No Transcript)
117
Les Algorithmes Génétiques

Domaines dapplication
Domaine industriel
problème doptimisation ou de contrôle de
processus complexes (ex optimisation de la T
dun four, de la pression dun cylindre)
Domaine spatial et géomarketing
(ex optimisation de lemplacement dautomates
bancaires, optimisation dune campagne
daffichage)
Utiliser dautres techniques en complément
(RN modifier le poids des liaisons, arbre de
décision en isolant les variables qui expliquent
un comportement)

Les modèles du datamining
118
Les Algorithmes Génétiques

Avantages et limites
Capacité à découvrir lespace N Þ N3
Limite du codage (formé de 0 et 1)
complexe à mettre en place
pb pour représenter la proximité de valeurs
numériques
Dosage des mutations pb des sous-optimums
locaux
réglage subtil entre le mouvement et la
stabilité
taux dhybridation Þ recombinaison des chaînes
mais risque de détruire de bonnes solutions
taux de mutation Þ espace de solutions avec
des risques daltération