Data Mining: Indu

About This Presentation

Title:

Data Mining: Indu

Description:

Title: No Slide Title Author: Jiawei Han Last modified by: radix Created Date: 6/19/1998 4:38:52 AM Document presentation format: Apresenta o na tela – PowerPoint PPT presentation

Number of Views:60

Avg rating:3.0/5.0

Slides: 50

Provided by: Jiaw176

Category:

more less

Transcript and Presenter's Notes

Title: Data Mining: Indu

1
Data Mining Indução de Regras de Associação

Leonardo Cole Neto
Rodrigo Teixeira Ramos

2
Minerando Regras de Associação em Grandes Bases
de Dados

Minerando regras de associação
Minerando regras de associação booleana
uni-dimensionais a partir de bancos transacionais
Minerando regras de associação multi-nível a
partir de bancos transacionais
Minerando regras de associação multi-dimencionais
a partir de bancos transacionais e data
warehouses
Da mineração de associações à análise de
correlação
Mineração de associações baseada em restrições
Resumo

3
Mineração de Regras de Associação

Definição
Achar padrões, associações, correlações
frequentes em conjuntos de itens ou objetos em
um banco de dados transacional, relacional ou
outros tipo de repositórios de informação.
Aplicações
Análise de compras, cross-marketing, design de
catálogos de produtos, clustering, classificação,
etc.
Exemplos.
Regra Body Head support, confidence.
buys(x, diapers) buys(x, beers) 0.5,
60
major(x, CS) takes(x, DB) grade(x, A)
1, 75

4
Regras de Associação Conceitos Básicos

Dados (1) conjunto de transações, (2) cada
transação é uma lista de itens (comprados por um
cliente em uma visita)
Achar todas as regras que correlacionam a
presença de um conjunto de itens com a presença
de outro conjunto de itens em uma mesma transação
E.g., 98 das pessoas que compram pneus e
auto-acessórios, também fazem algum serviço
automotivo.
Achar todas as regras X Y ? Z com um mínimo de
support e confidence
Suporte (support), s, probabilidade que uma
transação contenha X ? Y ? Z
Confidência (confidence), c, probabilidade
condicional que uma transação que contenha X ?
Y também contém Z

5
Minerando Regras de Associação em Grandes Bases
de Dados

Minerando regras de associação
Minerando regras de associação booleana
uni-dimensionais a partir de bancos transacionais
Minerando regras de associação multi-nível a
partir de bancos transacionais
Minerando regras de associação multi-dimencionais
a partir de bancos transacionais e data
warehouses
Da mineração de associações à análise de
correlação
Mineração de associações baseada em restrições
Resumo

6
Mineração de Regras de Associação

Associações booleanas vs. quantitativas (Baseadas
nos tipos de valores manuseados)
buys(x, SQLServer) buys(x, DMBook)
buys(x, DBMiner) 0.2, 60
age(x, 30..39) income(x, 42..48K)
buys(x, PC) 1, 75
Associações Uni-dimensionais vs.
Multi-dimensionais (Baseadas nas dimensões dos
dados envolvidos)
Análise de Nível único vs. Múltiplos níveis
(Baseadas nos níveis de abstração)
age(x, 30..39) buys(x, laptop computer)
age(x, 30..39) buys(x, computer)

7
Mineração de conjuntos de itens frequentes O
passo chave

Achar os conjuntos de itens frequentes (itemsets
frequentes) o conjunto de itens que tem um
mínimo de support
Um subconjunto de um itemset frequente, também
deve ser um itemset frequente
Se AB é um itemset frequente, ambos A e B
devem ser itemsets frequentes
Achar iterativamente itemsets frequentes com
cardinalidade de 1 à k (k-itemset)
Usar os itemsets frequentes para gerar as regras
de associação.

8
O algoritmo Apriori

Passo de união(join) Ck é gerado, unindo Lk-1com
ele mesmo
Passo de poda(prune) Qualquer (k-1)-itemset que
não seja frequente, não pode ser um subconjunto
de um k-itemset frequente
Pseudo-código
Ck itemset candidato de tamanho k
Lk itemset frequente de tamanho k
L1 items frequentes de tamanho 1
for (k 1 Lk !? k) do begin
Ck1 candidatos gerados a partir de Lk
for each transaction t in database do
incremente o contador de todos os
candidatos em Ck1 que
estão contidos em t
Lk1 candidatos em Ck1 com min_support
end
return ?k Lk

9
O algoritmo Apriori - Exemplo
Database D
L1
C1
Scan D
C2
C2
L2
Scan D
C3
L3
Scan D
10
Como gerar os candidatos?

Suponha que os itens em Lk-1 são listados em uma
ordem
Passo 1 auto-união Lk-1 (joining step)
insert into Ck
select p.item1, p.item2, , p.itemk-1, q.itemk-1
from Lk-1 p, Lk-1 q
where p.item1q.item1, , p.itemk-2q.itemk-2,
p.itemk-1 lt q.itemk-1
Passo 2 poda (prune step)
forall itemsets c in Ck do
forall (k-1)-subsets s of c do
if (s is not in Lk-1) then delete c from Ck

11
Exemplo da geração dos candidatos

L3abc, abd, acd, ace, bcd
Auto-união L3L3
abcd de abc e abd
acde de acd e ace
Poda
acde é removido pois ade não está em L3
C4abcd

12
Gargalos de performance no Apriori

O núcleo do algoritmo
Usa (k 1)-itemsets frequentes para gerar
k-itemsets candidatos
Usa iterações pelo BD e casamento de padrões para
coletar contadores para os itemsets candidatos
O gargalo do Apriori geração dos candidatos
Grandes conjuntos de candidatos
104 1-itemset frequentes gerarão 107 2-itemsets
candidatos
Para descobrir um padrão frequente de tamanho
100, é necessária a geração de 2100 ? 1030
candidatos.
Múltiplas iterações pelo BD
Necessita (n 1 ) iterações, onde n é o tamanho
do maior padrão

13
Métodos para melhorar a eficiência do Apriori

Contagem dos itemsets baseada em Hashes Um
k-itemset que tenha o contador do hashing bucket
abaixo de um limite, não pode ser frequente
Redução de transações Uma transação que não
contenha nenhum k-itemset frequente, é inútil
para as próximas iterações do algoritmo
Particionamento Qualquer itemset que é
potencialmente frequente no BD deve ser frequente
em pelo menos uma partição do mesmo
Amostragem Mineração em um subconjunto dos
dados, menor limite de support um método para
determinar a completude
Contagem dinâmica de itemsets Adicionar um novo
candidato somente quando todos os seus
subconjuntos são estimados como frequentes

14
Mineração de padrões frequentes sem a geração de
candidatos

Compactar uma grande base de dados na estrutura
compacta de uma árvore FP, Frequent-Pattern tree
(FP-tree)
Altamente condensada, mas completa para mineração
de padrões frequentes
Evita iterações custosas com o BD
Desenvolver um método eficiente, baseado em
FP-tree, para mineração de padrões frequentes
Dividir para conquistar decompor tarefas de
mineração
Evitar geração de candidatos

15
Construindo uma FP-tree a partir de um BD
transacional
TID Items bought (ordered) frequent
items 100 f, a, c, d, g, i, m, p f, c, a, m,
p 200 a, b, c, f, l, m, o f, c, a, b,
m 300 b, f, h, j, o f, b 400 b, c, k,
s, p c, b, p 500 a, f, c, e, l, p, m,
n f, c, a, m, p
min_support 0.5

Steps
Na primeira iteração com o BD, achar os 1-itemset
frequentes
Ordenar os itens frequentes em ordem descendente
Numa ova iteração com o banco, construir a árvore

16
Benefícios da FP-tree

Completude
Nunca quebra padrões longos em uma transação
Preserva completamente a informação para
mineração de padrões frequentes
Tamanho compacto
Reduz informação irrelevante itens infrequentes
somem
Ordenação descendente da frequencia quanto mais
frequentes, mais compartilhados ficam os itens
Nunca é maior que a base de dados original

17
Mineração de padrões frequentes usando FP-tree

Dividir para conquistar
Recursivamente, aumentar os padrões frequentes
usando FP-tree
Método
Para cada item, construir seu pattern-base
condicional, e então sua FP-tree condicional
Repetir o processo para cada nova FP-tree
condicional
Até que a FP-tree resultante seja vazia, ou
contenha somente um caminho (caminhos únicos
gerarão todas as combinações de seus
sub-caminhos, cada um dos quais é um padrão
frequente)

18
Passo 1 Da FP-tree para o Pattern-Base
Condicional

Começando pela tabela de frequencia da FP-tree
Atravessar a FP-tree seguindo o link de cada item
frequente
Acumular todos os prefixos de caminhos
transformados deste item apartir de um
pattern-base condicional

Pattern-bases condicionais item pattern-base
cond. c f3 a fc3 b fca1, f1, c1 m fca2,
fcab1 p fcam2, cb1
19
Passo 2 Construir a FP-tree Condicional

Para cada pattern-base
Construir a FP-tree para os itens frequentes do
pattern-base

m-conditional pattern base fca2, fcab1

Header Table Item frequency head
f 4 c 4 a 3 b 3 m 3 p 3
f4
c1
Todos os padrões frequentes relacionados com m m,
fm, cm, am, fcm, fam, cam, fcam
b1
b1
c3
p1
a3
b1
m2
p2
m1
20
Mineração de Padrões Frequentes Criando
Pattern-Bases Condicionais
21
Geração de caminhos únicos na FP-tree

Suponha que uma FP-tree T tenha um caminho único
P
O conjunto completo dos padrões frequentes de T
podem ser gerados através da enumeração de todas
as combinações dos sub-caminhos de P

Todos os padrões frequentes relacionados com m m,
fm, cm, am, fcm, fam, cam, fcam
f3
c3
a3
m-conditional FP-tree
22
Por que o crescimento do padrões frequentes é
rápido?

Estudos de performance mostram que
O crescimento FP é uma ordem de magnetude mais
rápido que o Apriori
Motivos
Não há geração ou teste de candidatos
Estrutura de dados compacta
Elimina iterações repetidas com o banco

23
Iceberg Queries

Icerberg query Computar agregações sobre um
atributo ou um conjunto de atributos somente para
aquelas com valor de agregação maior que um certo
limite
Exemplo
select P.custID, P.itemID, sum(P.qty)
from purchase P
group by P.custID, P.itemID
having sum(P.qty) gt 10
Computar iceberg queries eficientemente com
Apriori
Primeiro, computar as menores dimensões
Então computar as maiores dimensões somente
quando todas as menores estiverem acima do limite

24
Regras de associação de multiplos níveis

Itens sempre em hierarquias.
Itens em níveis mais baixos são esperados como
tendo o support mais baixo
Regras dizendo respeito a itemsets de um
determinado nível são muito úteis
BDs transacionais podem ser codificados,
baseados em dimensões e níveis
Podemos explorar mineração de múltiplos níveis
compartilhada

25
Minerando Regras de Associação em Grandes Bases
de Dados

Minerando regras de associação
Minerando regras de associação booleana
uni-dimensionais a partir de bancos transacionais
Minerando regras de associação multi-nível a
partir de bancos transacionais
Minerando regras de associação multi-dimencionais
a partir de bancos transacionais e data
warehouses
Da mineração de associações à análise de
correlação
Mineração de associações baseada em restrições
Resumo

26
Associações de Multiplos Níveis Suporte Uniforme
vs. Suporte Reduzido

Suporte uniforme mesmo valor de suporte mínimo
para todos os níveis
Um limite de suporte mínimo. Não há necessidade
de examinar itemsets contendo qualquer item cujos
antecessores não tenham o mínimo suporte.
Itens de níveis baixos não ocorrem com muita
frequencia. Se o limite do suporte é
Muito alto ? perda de associações em níveis
baixos
Muito baixo ? gera muitas associações de
alto-nível
Suporte reduzido reduz o míni,mo suporte em
níveis mais baixos
Existem 4 estratégias de busca
Independente nível-por-nível
Filtragem de níveis cruzados por k-itemset
Filtragem de níveis cruzados por item
Filtragem controlada de níveis cruzados por item

27
Suporte Uniforme
Mineração múltiplos níveis com suporte uniforme
Milk support 10
Nível 1 min_sup 5
2 Milk support 6
Skim Milk support 4
Nível 2 min_sup 5
28
Suporte Reduzido
Mineração de multiplos níveis com suporte reduzido
Nível 1 min_sup 5
Milk support 10
2 Milk support 6
Skim Milk support 4
Nível 2 min_sup 3
29
Associações de Multiplos Níveis Filtragem de
Redundâncias

Algumas regras podem ser redundantes devido à
relações antecessoras entre itens.
Exemplo
milk ? wheat bread support 8, confidence
70
2 milk ? wheat bread support 2, confidence
72
Dizemos que a primeira regra é uma antecessora da
segunda.
Uma regra é redundante se seu suporte é próximo
do valor esperado, baseado na regra antecessora.

30
Minerando Regras de Associação em Grandes Bases
de Dados

Minerando regras de associação
Minerando regras de associação booleana
uni-dimensionais a partir de bancos transacionais
Minerando regras de associação multi-nível a
partir de bancos transacionais
Minerando regras de associação multi-dimencionais
a partir de bancos transacionais e data
warehouses
Da mineração de associações à análise de
correlação
Mineração de associações baseada em restrições

31
Associação Multi-Dimensional Conceitos

Regras Uni-dimensionais ou Intra-dimensionais
buys(X, milk) ? buys(X, bread)
Regras Multi-dimensionais
Regras e Associação Inter-dimensionais (sem
repetencia de predicados)
age(X,19-25) ? occupation(X,student) ?
buys(X,coke)
Regras e Associação hibrido-dimensionais
(repetencia de predicados)
age(X,19-25) ? buys(X, popcorn) ? buys(X,
coke)
Atributos Categoricos
numero finito de possibilidade de valores, sem
ordenação.
Atributos Quantitativos
numericos, com ordem de valores implicitos

32
Técnicas para minerar Associações
Multi-Dimensionais

Busca pelo conjunto mais frequente de
k-predicados
Exemplo age, occupation, buys é um conjunto de
3-predicados.
Técnicas podem ser categorizadas por como tratam
cada predicado. ex age.
1. Usando discretização estática de atributos
quantitativos
Atributos quantitativos são discretizados
estaticamente usando conceitos hierárquicos
pré-definidos.
2. Regras de associação quantitativas
Atributos quantitativos são discretizados
dinamicamente em grupos baseados na distribuição
dos dados.
3. Regras de associação baseados em distancia
Processo de discretização dinâmica considerando a
distancia entre pontos de dados.

33
Discretização estática de atributos quantitativos

Discretização prévia na mineração usando
conceitos hierárquicos.
Valores numéricos são substituídos por intervalos
de valores (ranges).
Como em BDs relacionais, esta busca requer k
varreduras em suas tabelas, Cubos de dados são
preferíveis para mineração.

34
Regras de Associação Quantitativas

Atributos numéricos são dinamicamente
discretizados para satisfazer algum critério de
mineração.
como a confiança (confidence) ou a coesão
(compactness) das regras mineradas serem
maximizadas.
Regras de associação quantitativas 2-D Aquan1 ?
Aquan2 ? Acat
Exemplo

age(X,30-34) ? income(X,24K - 48K) ?
buys(X,high resolution TV)
35
Uma abordagem - ARCS (Association Rule Clustering
System)

Como o ARCS trabalha?
1. Particionar (Binning)
2. Encontrar conjuntos
de predicados
mais freqüentes
3. Clustering
4. Otimizar

36
Minerando regras de associação baseadas em
distancia

Métodos de Particionamento (Binning) não capturam
a semântica dos intervalos de dados
Particionamento baseado em distancia, criam
descretizações mais significantes considerando
densidade/numero de ponto em um intervalo
coesão (closeness) dos pontos em um intervalo

37
Minerando Regras de Associação em Grandes Bases
de Dados

Minerando regras de associação
Minerando regras de associação booleana
uni-dimensionais a partir de bancos transacionais
Minerando regras de associação multi-nível a
partir de bancos transacionais
Minerando regras de associação multi-dimencionais
a partir de bancos transacionais e data
warehouses
Da mineração de associações à análise de
correlação
Mineração de associações baseada em restrições

38
Medidas de Interesse

Medidas Objetivas
suporte (support) e confidencia (confidence)
Medidas subjetivas (Silberschatz Tuzhilin,
KDD95)
Uma regra (pattern) é interessante se
ela é inesperada (unexpected) e/ou
utilizável (actionable)
Medidas subjetivas variam de usuário para
usuário, assim medidas objetivas baseadas na
estatística

39
Critica ao Suporte e Confidencia

Exemplo 1
Entre 5000 estudantes
3000 jogam basquete
3750 comem cereal
2000 jogam basquete e comem cereal
joga basquete ? come cereal 40, 66.7 é
equivocado porque a porcetagem total de
estudante que comem cereal é 75 que é maior que
66.7.
jogam basquete ? não come cereal 20, 33.3 é
bem mais preciso, embora com menor suporte
(support) e confidencia (confidence)

40
Crítica ao Suporte e Confidência (Cont.)

Exemplo 2
X e Y positivamente correlacionado,
X e Z, negativamente relacionando
suporte e confidencia de
XgtZ domina
É necessária uma medida de dependência ou
correlação
P(BA)/P(B) é também chamada de lift da regra A
gt B

41
Outra medida de interesse

Interesse (correlação, lift)
Colocando ambos P(A) e P(B) em consideração
P(AB)P(B)P(A), se A e B são eventos
independentes
A e B são negativamente correlacionados, se o
valor e menor que 1 caso contrário A e B são
positivamente correlacionados

42
Minerando Regras de Associação em Grandes Bases
de Dados

Minerando regras de associação
Minerando regras de associação booleana
uni-dimensionais a partir de bancos transacionais
Minerando regras de associação multi-nível a
partir de bancos transacionais
Minerando regras de associação multi-dimencionais
a partir de bancos transacionais e data
warehouses
Da mineração de associações à análise de
correlação
Mineração de associações baseada em restrições

43
Mineração Baseada em Restrições

Mineração é executada sob a orientação de varias
restrições do usuário.
Tipos de restrições que podem ser usadas na
mineração
Knowledge type constraint classificação,
associação, etc.
Data constraint SQL-like queries
Find product pairs sold together in Vancouver in
Dec.98.
Dimension/level constraints
in relevance to region, price, brand, customer
category.
Rule constraints
small sales (price lt 10) triggers big sales
(sum gt 200).
Interestingness constraints
strong rules (min_support ? 3, min_confidence ?
60).

44
Regras de Restrição

Dois tipos de regras de restrição
Regra de restrição sintática (Rule form
constraints) meta-rule guided mining.
P(x, y) Q(x, w) takes(x, database
systems).
Regra de restrição por contexto (Rule content
constraint) constraint-based query optimization
(Ng, et al., SIGMOD98).
sum(LHS) lt 100 min(LHS) gt 20 count(LHS) gt 3
sum(RHS) gt 1000
Restrições com 1-variável vs. 2-
1-var Uma restrição confinada somente a um lado
(Dir/Esq) da regras, ex. como mostrada acima.
2-var Uma restrição confinada em ambos os lados.
sum(LHS) lt min(RHS) max(RHS) lt 5 sum(LHS)

45
Restrições Anti-monotonica and Monotonica

Uma restrição Ca é anti-monotonica, caso um
conjunto S violar a restrição Ca, nenhum
super-conjunto de S viola a restrição.
Uma restrição Ca é monotonica, caso um conjunto S
satisfaça a restrição Ca, todo super-conjunto de
S satisfaz restrição.
Exemplos
sum(S.Price) ? v é anti-monotonica
sum(S.Price) ? v é monotonica

46
Restrições Succinct

Uma restrição Ca é succinct, caso seja possível
enumerar todos os conjuntos que satisfazem a
restrição.
Exemplo
sum(S.Price ) ? v não é succinct
min(S.Price ) ? v é succinct

47
Restrições Convertiveis

Restrições que podem variar de acordo com a
ordenamento dos itemset.
Ex. Tendo R um conjunto de itens
Se o valores forem ordenados decrescentemente,
I9, 8, 6, 4, 3, 1, Avg(S) ? v é monotonica
Se o valores forem ordenados crescentemente,
I1, 2, 4, 6, 8, 9, Avg(S) ? v é
anti-monotonica

48
Relação entre categorias de restrições
Succinctness
Anti-monotonicity
Monotonicity
Convertible constraints
Inconvertible constraints
49
Caracterização de restrições
Constraint S ? v, ? ? ?, ?, ? v ? S S ? V S
? V S ? V min(S) ? v min(S) ? v min(S) ? v max(S)
? v max(S) ? v max(S) ? v count(S) ? v count(S) ?
v count(S) ? v sum(S) ? v sum(S) ? v sum(S) ?
v avg(S) ? v, ? ? ?, ?, ? (frequent
constraint)
Anti-Monotonicity yes no no yes partly no yes part
ly yes no partly yes no partly yes no partly conve
rtible (yes)
Succinct Yes yes yes yes yes yes yes yes yes yes y
es weakly weakly weakly no no no no (no)

Write a Comment

User Comments (0)

About PowerShow.com

Data Mining: Indu - PowerPoint PPT Presentation

Data Mining: Indu

Title: No Slide Title Author: Jiawei Han Last modified by: radix Created Date: 6/19/1998 4:38:52 AM Document presentation format: Apresenta o na tela – PowerPoint PPT presentation