Rgles dassociation - PowerPoint PPT Presentation

1 / 60
About This Presentation
Title:

Rgles dassociation

Description:

Trouver: toutes les r gles qui expriment une corr lation entre la pr sence d'un ... Pour qu'un item soit fr quent il faut qu'il apparaisse 0,01 * 107 =105 fois. ... – PowerPoint PPT presentation

Number of Views:45
Avg rating:3.0/5.0
Slides: 61
Provided by: jiaw227
Category:

less

Transcript and Presenter's Notes

Title: Rgles dassociation


1
Règles dassociation
2
Recherche des Associations
  • Règles dassociation
  • Trouver les motifs fréquents, associations,
    corrélations, ou structures causales a partir
    dun entrepôt de données (BD, fichier, )
  • Exemples.
  • Forme Body Head support, confiance.
  • achète(x, cacahuètes) achète(x, bière)
    0.5, 60
  • Etant donnés (1) une base de transactions, (2)
    chaque transaction est une liste ditems
  • Trouver toutes les règles qui expriment une
    corrélation entre la présence dun item avec la
    présence dun ensemble ditems
  • Ex., 98 des personnes qui achètent des
    cacahuètes achètent de la bière

3
Mesures Support et Confiance
  • Trouver les règles X Y ? Z avec un support et
    une confiance gt s et gtc
  • support, s, probabilité quune transaction
    contienne X ? Y ? Z
  • confiance, c, probabilité conditionnelle quune
    transaction qui contient X ? Y contienne aussi Z

Clients achetant les deux
Clients achetant chips
Clients achetant bière
Soit support minimum 50, et confiance minimum
50, A ? C (50, 66.6) C ? A (50, 100)
4
Découverte des règles dassociation
  • associations Booléennes vs. quantitative (Basé
    sur les types des valeurs considérées)
  • achète(x, SQLServer) achète(x, DMBook)
    achète(x, DBMiner) 0.2, 60
  • age(x, 30..39) revenu(x, 42..48K)
    achète(x, PC) 1, 75
  • Associations à une dimension vs. plusieurs
    dimensions (voir ci_dessus)
  • Analyse sur un ou plusieurs niveaux
  • Quelles marques de bières sont associées à
    quelles marques de cacahuètes?
  • Extensions
  • Analyse de corrélation, causalité
  • Association nimplique pas corrélation ou
    causalité
  • Nextraire que les itemsets clos
  • Extraction avec contraintes
  • Ex., on ne veut que les règles portant sur pas
    plus de 4 produits

5
Extraction de règles Exemple
Min. support 50 Min. confiance 50
  • Pour A ? C
  • support support(A ?C) 50
  • confiance support(A ?C)/support(A) 66.6
  • Le principe dApriori
  • Chaque sous ensemble dun ensemble fréquent est
    fréquent

6
Extraction des itemsets fréquents
  • Trouver les itemsets fréquents ceux qui ont un
    support supérieur au min_support
  • Un sous ensemble dun ensemble fréquent est
    fréquent
  • i.e., si AB est fréquent alors A etB le
    sont
  • Si A nest pas fréquent alors AB ne peut pas
    lêtre
  • Itérativement, trouver les itemsets fréquents
    dont la cardinalise varie de 1 a k (k-itemset)
  • Utiliser les itemsets fréquents pour générer les
    règles dassociation

7
Lalgorithme Apriori
  • Join Step Ck est généré en joignant Lk-1avec lui
    même
  • Prune Step Chaque (k-1)-itemset qui nest pas
    fréquent ne pas être un sous ensemble dun
    k-itemset fréquent
  • Pseudo-code
  • Ck Itemset candidat de taille k
  • Lk itemset fréquent de taille k
  • L1 fréquent items
  • for (k 1 Lk !? k) do begin
  • Ck1 candidats générés à partir de Lk
  • for each transaction t dans la base do
  • incrémenter le nombre de candidats dans
    Ck1 qui sont
    dans t
  • Lk1 candidats dans Ck1 avec un
    support_min
  • end
  • return ?k Lk

8
Apriori Exemple
Avec support2
base D
L1
C1
Scan D
C2
C2
L2
Scan D
C3
L3
Scan D
9
Génération des Candidats
  • Supposons que les items de Lk-1 sont triés
  • Etape 1 self-join de Lk-1
  • Insert into Ck
  • select p.item1, p.item2, , p.itemk-1, q.itemk-1
  • from Lk-1 p, Lk-1 q
  • where p.item1q.item1, , p.itemk-2q.itemk-2,
    p.itemk-1 lt q.itemk-1
  • Etape 2 pruning (elagage)
  • Pour chaque itemset c dans Ck Faire
  • Pour chaque (k-1)-sous-ensemble s de c Faire
  • Si (s nest pas dans Lk-1) Alors supprimer c
    de Ck

10
Exemple de Génération de Candidats
  • L3abc, abd, acd, ace, bcd
  • Self-join L3L3
  • abcd à partir de abc et abd
  • acde à partir acd et ace
  • Pruning
  • acde est supprimé car ade nest pas dans L3
  • C4abcd

11
Exemple Règles dassociation
  • Supposons que les données soient dans une BD
    relationnelle avec la table Transaction(Tid,
    Item). On a 108 tuples concernant 107
    transactions et lon a 105 items différents. En
    moyenne chaque transaction concerne 10 items.
  • La requête suivante sélectionne les paires
    ditems fréquents
  • SELECT t1.item, t2.item
  • FROM transaction t1, transaction t2
  • WHERE t1.Tid t2.Tid AND t1.item lt t2.item
  • GROUP BY t1.item, t2.item
  • HAVING COUNT() gt seuiltaille de la base
  • Pour chaque transaction on a C(10, 2)45 paires à
    regarder ainsi la jointure a 45107 tuples

12
Exemple Règles dassociation
  • Remarque si item_1 nest pas fréquent alors
    certainement la paire item_1, item_i ne lest
    pas. Considérons la requête
  • SELECT
  • FROM transaction
  • GROUP BY item
  • HAVING COUNT() gt seuiltaille de la base
  • si seuil 0,01 alors au plus 1000 item seront
    dans le résultat.
  • Raison il y a 108 occurrences ditems. Pour
    quun item soit fréquent il faut quil apparaisse
    0,01 107 105 fois.
  • Pour chercher les paires fréquentes, utiliser le
    résultat de la requête précédente plutôt que la
    table initiale

13
Améliorations dApriori
  • Hash-based itemset counting Une technique qui
    permet daccélérer la phase de calcul des
    2_itemsets fréquents.
  • Transaction reduction Une transaction qui ne
    contient aucun k-itemset fréquent peut être
    supprimée pour ne pas être utilisée pour les
    prochaines phases
  • Partitioning Chaque itemset potentiellement
    fréquent dans la base D est  forcément 
    fréquent dans au moins une des partitions
  • Sampling Exploration dun sous-ensemble de la
    base. On considère une valeur du support
    inférieur. Pbme Trouver une méthode pour
    vérifier la complétude
  • Dynamic itemset counting ajouter de nouveaux
    itemsets candidats seulement si tous leurs
    sous_ensembles sont fréquents

14
Problèmes dApriori
  • Le principe de lalgorithme
  • Utiliser les (k 1)-itemsets fréquents pour
    générer les k-itemsets candidats
  • Scanner la base pour tester le support des
    candidats
  • Là où lalgo pèche génération des candidats
  • Beaucoup
  • 104 1-itemsets fréquent générant 107 2-itemsets
    candidats
  • Pour trouver les 100-itemsets on doit générer
    2100 ? 1030 candidats.
  • Plusieurs scans de la base
  • On doit faire (n 1 ) scans, pour trouver les
    n-itemsets fréquents

15
Variante de lalgo Hachage
  • Quand la base est scannée pour la génération de
    L1, on peut générer les 2-itemsets de chaque
    transaction.
  • Appliquer une fonction de hachage à ces 2-items
    sets pour les stocker dans le bon bloc.
  • En les stockant, incrémenter le count du bloc
    correspondant.
  • Un 2-itemset dont le COUNT de son bloc est lt
    min-sup nest certainement pas fréquent
  • Remarque Un 2-itemset dont COUNT de son bloc est
    gt min-sup nest pas nécessairement fréquent
  • Méthode permettant de réduire les candidats

16
Variante de lalgo Hachage
Base D
Table de hachage, h(I,J)(num(I)10 num(J)) mod
7
17
Exploration sans génération de candidats
  • Compresser la base, Frequent-Pattern tree
    (FP-tree)
  • Une représentation condensée
  • Evite les scans coûteux de la base
  • Développer une méthode efficace pour
    lexploration basée sur une approche
  • diviser-et-régner décompose le problèmes en
    sous-problèmes
  • Pas de génération de candidats test de la
    sous-base seulement !

18
FP-Trees Exemple
Supposons que min-support2. On construit la
liste  triée  L I27, I16, I36, I42,
I52 On parcourt une 2ème fois la base. On lit
les transactions selon lordre des items dans L,
i.e pour T100 on a I2,I1,I5. La lecture de T100
donne
Null
I21
I11
I51
19
FP-Trees exemple
La lecture de T200 va a priori générer une
branche qui relie la racine a I2 et I2 à I4. Or
cette branche partage un préfixe (i.e I2) avec
une branche qui existe déjà. Larbre obtenu après
lecture de T200 sera
Null
I22
I41
I11
I51
20
FP-Trees exemple
En lisant T300, lordre selon L est I1,I3. Ceci
nous amène à ajouter une branche Null?I1? I3.
Noter quelle na pas de préfixe commun avec ce
qui existe déjà. On obtient
Null
I11
I31
I22
I41
I11
I51
21
FP-Trees exemple
Finalement, le FP_tree obtenu est
Null
I27
I12
I32
I41
I14
I32
I51
I41
I32
I51
22
Phase de lexploration
  • Considérons I5. Il apparaît dans 2 branches.
    I2?I1?I51 et I2?I1?I3?I51
  • Ainsi, pour le suffixe I5, on a 2 chemins
    préfixes ltI2,I11gt et ltI2,I1,I31gt. Ils forment
    sa table conditionnelle
  • Le FP-tree conditionnel de I5 contient une
    seule branche I2?I1. I3 nen fait pas partie car
    son support est 1 qui est lt2
  • Ce chemin unique va générer toutes les
    combinaisons de I5 avec I1 et I2, i.e I1,I52,
    I2,I52, I1,I2,I52

23
Phase de lexploration
  • Considérons I4. Sa table conditionnelle est
    formée de ltI2,I11gt et ltI21gt.
  • Le FP-Tree conditionnel ne contient donc quun
    seul nud I2.
  • Nous obtenons donc un itemset fréquent qui est
    I2,I42

24
Phase de lexploration
Ce nest pas la peine de regarder I2 car ça va
donner les combinaisons avec les autres items qui
ont déjà été considérés
25
Exploration avec les FP-tree
  • Idée général (divide-and-conquer)
  • Récursivement, augmenter le chemin dun itemset
    fréquent en utilisant le FP-tree
  • Méthode
  • Pour chaque item, construire sa conditional
    pattern-base, ensuite son conditional FP-tree
  • Répéter le processus sur chaque FP-Tree
    conditionnel nouvellement créé
  • Jusquà ce que le FP-Tree résultant est vide, ou
    bien quil contient seulement un chemin (un
    chemin unique va générer toutes les combinaisons
    de ses sous-chemins chacun représentant un
    itemset fréquent)

26
Propriétés des FP-tree
  • Propriétés des Nuds et liens
  • Pour chaque item fréquent ai , tous les itemsets
    fréquents qui contiennent ai peuvent être
    obtenus en suivant les liens partants du nud ai
    en commençant par la table entête
  • Propriété des chemins de préfixe
  • Pour calculer les itemsets fréquents pour un nud
    ai sur une chemin P, seulement le sous-chemin
    préfixe de ai dans P doit être cumulé. Sa
    fréquence doit avoir la même valeur que celle du
    nud ai.

27
Algorithme de lexploration
  • Procédure FP_mine(Tree, nud)
  • Si Tree contient un chemin unique Alors
  • pour chaque combinaison B des nuds de P faire
  • générere litemset B ? nud avec
  • supportmin support des nuds de B
  • Sinon Pour chaque ai dans la table entête faire
  • générer B ai ? nud avec supportsupport(ai)
  • construire la base conditionnelle de B
  • construire le FP-Tree BF conditionnel de B
  • Si BF?? alors
  • Call FP_mine(BF, B)
  • Lexploration commence par appeler
    FP-mine(FP-Tree, Null)

28
FP-Tree vs. Apriori
Data set T25I20D10K
29
Règles dassociation multi-niveaux
  • Les items forment des hiérarchies.
  • Les items au niveau inférieur ont des supports
    inférieurs
  • Les bases de transactions peuvent prendre en
    compte les niveaux

30
Exploration multi-niveaux
  • Une approche progressive top_down
  • Dabord trouver les règles fortes sur les
    niveaux supérieurs
  • Produit_Laitier ? Pain
    20, 60.
  • puis, passer aux niveaux inférieurs pour des
    règles plus faibles
  • yaourt ? pain au seigle
    6, 50.
  • Variations
  • Croisement de niveaux
  • Produit_Laitier pain au seigle

31
Association-multiniveaux Support uniforme vs.
support réduit
  • Support uniforme le même support pour chaque
    niveau
  • Pas besoin de regarder les itemsets dont les
    ancêtres ne sont pas fréquents. Ex  Pain  pas
    fréquent donc Pain au seigle non plus
  • Les niveaux inférieurs napparaissent moins
    fréquemment donc possibilité de rater quelques
    règles
  • Support réduit on réduit le support aux niveaux
    inférieurs
  • 4 stratégies de recherche
  • Chaque niveau a un min-support indépendamment des
    autres
  • Level-cross filtering by k-itemset
  • Level-cross filtering by single item
  • Controlled level-cross filtering by single item

32
Support uniforme
Exploration multi-niveaux avec support uniforme
Produit_laitier support 10
niveau 1 min_sup 5
yaourt support 6
fromage support 4
niveau 2 min_sup 5
33
Support réduit
Exploration multi-niveaux avec support réduit
niveau 1 min_sup 5
Produit_laitier support 10
yaourt support 6
fromage support 4
Niveau 2 min_sup 3
34
Associations multi-niveaux Elimination des
règles redondantes
  • Certaines règles peuvent être redondantes à cause
    des relations de parenté entre items
  • Exemple
  • Produit_laitier ? pain_farine support 8,
    confiance 70
  • fromage ? pain_farine support 2, confidence
    72
  • On dit que la première règle est un ancêtre de la
    seconde
  • Une règle est redondante si son support est très
    proche du support prévu, en se basant de sa règle
    ancêtre

35
Approche progressive
  • Approche top-down
  • Explorer les items fréquents du niveau supérieur

  • Produit_laitier(15), Pain (10)
  • Puis passer au niveau inférieur
  • yaourt (5),
    pain_farine (4)
  • Si support uniforme alors on peut éliminer les
    items dont lancêtre nest pas fréquent
  • Si support réduit alors examiner les items dont
    lancêtre est assez fréquent

36
Associations Multi-Dimensionnelles Concepts
  • Règles uni-dimensionnelles
  • achète(X, lait) ? achète(X, pain)
  • Règles multi-dimensionnelles ? 2 dimensions ou
    prédicats
  • Règles inter-dimensions (pas de prédicats
    répétés)
  • age(X,19-25) ? occupation(X,étudiant) ?
    achète(X,Coca)
  • Règles hybrides (prédicats répétés)
  • age(X,19-25) ? achète(X, popcorn) ?
    achète(X, Coca)
  • Attributs de catégorie
  • Un nombre fini de valeurs, pas dordre entre les
    valeurs
  • Attributs quantitatifs
  • numériques, il existe un ordre (implicite) entre
    les valeurs

37
Techniques pour Associations MD
  • Chercher les ensembles à k-prédicats fréquents
  • Exemple age, occupation, achète est un
    ensemble à 3 prédicats.
  • Le seul attribut quantitatif est age. Les
    techniques peuvent être distinguées sur le mode
    de traitement de lattribut age.
  • 1. Discrétisation statique
  • Remplacer les valeurs dage par des intervalles
    0..20, 21..40, Chaque intervalle devient donc
    une catégorie.
  • 2. Règles quantitatives
  • Les attributs quantitatifs sont dynamiquement
    discrétisés par des bins en se basant sur la
    distribution des données.
  • 3. Règles basées sur une notion de Distance
  • Cest un processus de discrétisation dynamique
    basé sur la distance entre les données

38
1) Discrétisation statique
  • Discrétiser avant dexplorer en utilisant des
    hiérarchies de concepts.
  • Les valeurs numériques sont remplacées par des
    intervalles
  • Dans une base relationnelle, trouver les
    ensembles à K prédicats fréquents demande k ou
    k1 scans
  • Data-cube peut être mieux utilisé
  • pour lexploration
  • Les cellules dun cuboïdes
  • à n-dimensions correspond à
  • un ensemble de prédicats

39
2) Règles quantitatives
  • Les attributs numériques sont dynamiquement
    discrétisés de sorte à maximiser la confiance ou
    la compacité des règles sont maximisées
  • Considérons le cas des règles Aquan1 ? Aquan2 ?
    Acat1
  • Regrouper les règles
  • adjacentes pour former
  • des règles générales
  • en utilisant une grille 2-D
  • Exemple


age(X,34..35) ? revenu(X,31K..50K) ?
achète(X,TV grand écran)
40
3) Règles basées sur la notion de distance
  • Cest une sorte de regroupement. Ex la distance
    entre éléments dun groupe inférieure à 4
  • La discrétisation est ici basée sur la proximité
    des éléments dun intervalle en tenant compte des
    données réelles

41
Regroupements et mesures de distances
  • SX est un ensemble de N tuples t1, t2, , tN ,
    projetés sur lensemble dattributs X
  • Le diamètre de SX
  • distxmétrique de distance, ex. Distance
    euclidienne, ou de Manhattan

42
Regroupements et mesures de distances
  • Le diamètre, d, exprime la densité dun groupe
    CX , où
  • Exploration des règles basées sur la distance
  • Le minimum de densité, d0 , remplace la notion de
    support
  • Version modifiée de lalgorithme de regroupement
    BIRCH (à voir ultérieurement)

43
Mesures dintérêt
  • Mesures objectives
  • support et
  • confiance
  • Mesures subjectives
  • Une règle est intéressante
  • Si elle est inattendue et/ou
  • actionnable (lutilisateur peut faire quelque
    chose avec)

44
Critiques des notions de Support et de confiance
  • Exemple 1
  • Parmi 5000 étudiants
  • 3000 jouent au basket
  • 3750 prennent des céréales
  • 2000 jouent du basket et prennent des céréales
  • Jouer au basket ? prendre des céréales40,
    66.7 nest pas informative car il y a 75
    détudiants qui prennent des céréales ce qui est
    plus que 66.7.
  • jouer au basket ? pas de céréales20, 33.3
    est plus pertinente même avec un support et une
    confiance inférieurs

45
Critiques des notions de Support et de confiance
  • Exemple 2
  • X et Y positivement corrélés,
  • X et Z, négativement corrélés
  • Les support et confiance de
  • XgtZ dominent
  • Nous avons besoin dune mesure de corrélation
  • P(BA)/P(B) est aussi appelé le lift de A gt B

46
Autres mesures
  • Intérêt (corrélation, lift)
  • Prendre en compte P(A) et P(B)
  • P(A B)P(B)P(A), si A et B sont des événements
    indépendants
  • A et B négativement corrélés, si corr(A,B)lt1.

47
Exploration avec contraintes
  • Exploration interactive où lutilisateur pose des
    conditions en plus des minima de support et
    confiance
  • Quels types de conditions?
  • Type de connaissance recherchée classification,
    association, etc.
  • Contraintes sur les données
  • Trouver les paires de produits vendus à Bordeaux
    en Décembre 98
  • Contraintes sur les dimensions
  • En rapport à région, prix, marque, catégorie
    client
  • Contraintes sur les règles
  • Nombres de prédicats dans le corps

48
Exploration avec contraintes
  • Base (1) trans (TID, Itemset ), (2) itemInfo
    (Item, Type, Prix)
  • Une requête dassociation contrainte (RAC) est
    une expression de la forme (S1, S2 )C ,
  • où C est un ensemble de contraintes sur S1 et S2
    incluant la contrainte de fréquence
  • Une classification de contraintes (à une
    variable)
  • Contraintes de classe S ? A. ex. S ? Item
  • Contrainte de domaine
  • S ? v, ? ? ?, ?, ?, ?,
    ?, ? . ex. S.Prix lt 100
  • V ? S, ? est ? ou ?. ex.
    Produit_laitier ? S.Type
  • V ? S, ou S ? V, ? ? ?, ?, ?, ?, ?
  • ex. snacks, sodas ? S.Type (plusieurs types
    pour 1 item)
  • Contraintes dagrégation agg(S) ? v, où agg
    ?min, max, sum, count, avg, et ? ? ?, ?, ?,
    ?, ?, ? .
  • ex. count(S1.Type) ? 1 , avg(S2.Prix) ? 100

49
Optimisation en présence de contraintes
  • Soit une RAC (S1, S2) C , lalgorithme
    doit être
  • correcte Il ne trouve que les itemsets fréquents
    qui satisfont C
  • complet Il trouve tous les itemsets fréquents
    qui satisfont C
  • Solution naïve
  • Appliquer Apriori pour trouver les itemsets
    fréquents puis éliminer les itemsets ne
    satisfaisant pas C
  • Autre approche
  • Analyse des propriétés des contraintes pour les
    intégrer dans Apriori lors de la phase de
    lexploration des itemsets fréquents.

50
Contraintes Anti-monotones et Monotone
  • Une contrainte Ca est anti-monotone ssi pour
    chaque itemset S, si S ne satisfait pas Ca, alors
    aucun de ses sur-ensembles ne satisfait Ca
  • Cm est monotone ssi pour chaque S, si S satisfait
    Cm, alors chacun de ses sur-ensembles satisfait Cm

51
Propriétés des contraintes anti-monotones
  • Anti-monotonicité Si S viole la contrainte
    alors chaque surensemble de S viole aussi la
    contrainte
  • Exemples
  • sum(S.Prix) ? v est anti-monotone
  • sum(S.Prix) ? v nest pas anti-monotone
  • sum(S.Prix) v est partiellement anti-monotone
  • Application
  • Pousser la condition sum(S.prix) ? 1000 lors
    des itérations du calcul des ensembles fréquents

52
Contrainte Succincte
  • Un ensemble ditems Is est un ensemble succinct,
    sil peut être exprimé par ?p(I) où ? est un
    opérateur de sélection est p est une condition de
    sélection
  • SP?2I est un ensemble de parties (powerset)
    succinct, sil y a un nombre fixe densembles I1,
    , Ik ?I, t.q SP peut être exprimé en fonction
    des powersets de I1, , Ik en utilisant
    lunion et la différence
  • Une contrainte Cs est succincte si lensemble des
    éléments de I satisfaisant Cs (noté SATCs(I))
    est un powerset succinct

53
Propriétés des contraintes succintes
  • Contrainte succincte
  • Pour tous S1 et S2 satisfaisant C, S1 ? S2
    satisfait C
  • Soit A1 les ensembles de taille 1 satisfaisant C,
    alors chaque ensemble S satisfaisant C sont basés
    sur A1 , i.e., S contient un sous-ensemble de A1
    ,
  • Exemple
  • sum(S.Prix) ? v nest pas succincte
  • min(S.Price ) ? v est succincte
  • Optimisation
  • Si C est succincte, alors on peut générer
    statiquement tous les itemsets la satisfaisant
    (pre-counting prunable). La seule satisfaction de
    la contrainte nest pas affectée par le calcul
    itératif de support.

54
Caractérisation de contraintes Succinctes
S ? v, ? ? ?, ?, ? v ? S S ?V S ? V S ?
V min(S) ? v min(S) ? v min(S) ? v max(S) ?
v max(S) ? v max(S) ? v count(S) ? v count(S) ?
v count(S) ? v sum(S) ? v sum(S) ? v sum(S) ?
v avg(S) ? v, ? ? ?, ?, ? (contrainte de
fréquence )
oui oui oui oui oui oui oui oui oui oui oui faible
ment faiblement faiblement non non non non (non)
55
Contrainte Convertible
  • Supposer que tous les items dans les motifs sont
    triés selon lordre O
  • Une contrainte C est convertible anti-monotone
    ssi un motif S satisfait C implique que chaque
    suffixe de S (respectivement à O) satisfait aussi
    C
  • Une contrainte C est convertible monotone ssi un
    motif S satisfait C implique que chaque motif
    dont S est un suffixe (respectivement à O)
    satisfait aussi C

56
Exemple de contraintes Convertibles Avg(S) ? V
  • Soit S lensemble de valeurs (par ordre
    décroissant) 9, 8, 6, 4, 3, 1
  • Avg(S) ? v est monotone convertible
    respectivement à S
  • Si S est un suffixe de S1, avg(S1) ? avg(S)
  • 8, 4, 3 est un suffixe de 9, 8, 4, 3
  • avg(9, 8, 4, 3)6 ? avg(8, 4, 3)5
  • Si S satisfait avg(S) ?v, alors S1 aussi
  • 8, 4, 3 satisfait avg(S) ? 4, ainsi que 9, 8,
    4, 3

57
Relations entre catégories de contraintes
Succinctes
Anti-monotones
Monotones
convertibles
Inconvertibles
58
Résumé
  • Les règles dassociation sont générées en 2
    étapes
  • Les itemsets fréquents sont retournés
  • Les règles en sont induites
  • On distingues les associations selon plusieurs
    critères
  • Booléennes vs. Quantitatives
  • Uni. vs. multi-dimensionnelles
  • Mono. vs. multi-niveaux

59
Résumé (suite)
  • Apriori travaille par niveaux (levelwise)
    correspondants aux tailles des itemsets
  • Générer les candidats (réduction du nombre)
  • Tester les candidats
  • Optimisations (hachage, sampling, réduction de la
    base )
  • FP_trees génère après 2 passes sur la base un
    arbre résumant les données
  • Pas de génération de candidats
  • Pas de tests de fréquence sur la base

60
Résumé (suite)
  • Les règles multi-niveaux peuvent être générées
    selon différentes approches
  • Même vs. Différents supports selon les niveaux
  • Différents types de discrétisation
  • Tenir compte des corrélations pour ne pas prendre
    des décisions hâtives
  • Introduction des contraintes pour lextraction
    des règles.
  • Optimisation selon le type des contraintes.

61
Caractérisation de Contraintes anti-Monotones
S ? v, ? ? ?, ?, ? v ? S S ? V S ? V S ?
V min(S) ? v min(S) ? v min(S) ? v max(S) ?
v max(S) ? v max(S) ? v count(S) ? v count(S) ?
v count(S) ? v sum(S) ? v sum(S) ? v sum(S) ?
v avg(S) ? v, ? ? ?, ?, ? (contrainte de
fréquence)
oui non non oui partiellement non oui partiellemen
t oui non partiellement oui non partiellement oui
non partiellement convertible (oui)
62
Caractérisation de contraintes Succinctes
S ? v, ? ? ?, ?, ? v ? S S ?V S ? V S ?
V min(S) ? v min(S) ? v min(S) ? v max(S) ?
v max(S) ? v max(S) ? v count(S) ? v count(S) ?
v count(S) ? v sum(S) ? v sum(S) ? v sum(S) ?
v avg(S) ? v, ? ? ?, ?, ? (contrainte de
fréquence )
oui oui oui oui oui oui oui oui oui oui oui faible
ment faiblement faiblement non non non non (non)
Write a Comment
User Comments (0)
About PowerShow.com