Apresenta - PowerPoint PPT Presentation

About This Presentation

Title:

Apresenta

Description:

Title: Apresenta o do PowerPoint Author: Erivan Alves de Andrade Last modified by: eaa Created Date: 11/21/2001 11:16:35 AM Document presentation format – PowerPoint PPT presentation

Number of Views:40

Avg rating:3.0/5.0

Slides: 43

Provided by: ErivanAlv

Category:

Tags: apresenta

more less

Transcript and Presenter's Notes

Title: Apresenta

1
Seminário
Mineração de Exceções
Erivan A. Andrade (eaa_at_cin.ufpe.br) Jacques
Robin (jr_at_cin.ufpe.br)
2
Roteiro

Motivação
Métodos Baseados em Agrupamento
Métodos Baseados em Estatística
Métodos baseados em Distância
Métodos Baseados em Desvio
Conclusões
Referências

3
Motivação definição

O que é outlier?
É uma observação, num conjunto de dados, que é
suficientemente dissimilar ou aberrante do
restante dos dados para levantar suspeita de ser
causado por um mecanismo diferenciado
Equivalente a exceções
Causa dos outliers o que é esse mecanismo?
Erro de medida
Comportamento diferente do padrão
Dilema o ruído de uns é o sinal dos outros
Mineração de outliers
Detecção e análise de outliers

4
Motivação aplicações práticas

Detecção de Fraudes
Comportamento de gastos de consumidores
Em análises médicas (resultados não esperados de
tratamentos )
Pesquisa farmacêutica
Marketing
Coaching (hey Felipão, Romário é um outlier! ?)
Etc.

5
Técnicas de Mineração de Exceções

Classes de técnicas
Semi-automático
Visualização
Automático
Baseados em Clustering
Baseado em Estatística
Baseado em Desvio
Baseado em Distância

Características desejáveis
Escalável para alta dimensionalidade
Interpretabilidade dos resultados
Computacionalmente eficiente
Dá importância ao comportamento local dos dados
Ordenação dos outliers

6
Roteiro

Motivação
Métodos Baseados em Agrupamento
Métodos Baseados em Estatística
Métodos baseados em Distância
Métodos Baseados em Desvio
Conclusões
Referências

7
Mineração de exceção baseada em agrupamento

Idéia
Formar grupos de dados
Dados que não se encaixam em nenhum grupos são
considerados exceções

Inserir figura exemplo aqui
8
Mineração de exceção baseada em agrupamento

Vantagens
Reutiliza vasto leque de métodos de agrupamentos
Não requer conhecimento prévio de distribuição

Limitações
O que se busca é otimizar os agrupamentos, não a
detecção de exceções
O que é exceção para uma configuração pode não
ser para outra

9
Roteiro

Motivação
Métodos baseados em Agrupamento
Métodos baseados em Estatística
Métodos baseados em Distância
Métodos Baseados em Desvio
Conclusões
Referências

10
Mineração de Outliers Baseada em Estatística

Assume distribuição ou modelo probabilístico para
um conjunto de dados
Ex distribuição normal
Usa Teste de discordância (TD) ? identifica os
outliers com respeito ao modelo escolhido
Se um objeto for significativamente maior ou
menor que o modelo escolhido ele é uma exceção
O TD examina 2 hipóteses
Uma hipótese de trabalho
Uma hipótese alternativa

11
Mineração de Outliers Baseada em Estatística

Vantagens
Pode ser avaliado o nível de significância de uma
exceção
Usa métodos estatístico consolidados ao longo dos
tempos

Limitações
O modelo escolhido influencia a identificação dos
Outliers
Testa aberração ao longo de apenas uma única
dimensão
Dificuldade na escolha de uma distribuição

12
Roteiro

Motivação
Métodos baseados em Agrupamento
Métodos baseados em Estatística
Métodos Baseados em Desvio
Métodos baseados em Distância
Conclusões
Referências

13
Mineração de Outliers Baseada em Desvio

Não usa métodos estatísticos nem medidas de
distância
Define exceção como pontos cujo valor desviam da
maioria ao longo de algumas ou todas as dimensões
Exceções são equivalentes a Desvios de
comportamento

14
Mineração de Outliers Baseada em Densidade de
Distribuição

Características
Divide o espaço de dados em ? classe equi-depth
Cada classe contém uma fração f1/ ? dos
registros
Diferentes localidades dos dados são densas com
respeito a diferentes subconjuntos de atributos
Observa a densidade de distribuição da projeção
dos dados
Gera projeções dos dados sobre k dimensões
Identifica nessas projeções, regiões de densidade
anormalmente baixa
Pontos nessas regiões são considerados outliers
Suporta dados com alta dimensionalidade

15
Mineração de Outliers Baseada em Densidade de
Distribuição
Ideia
16
Mineração de Outliers Baseada em Densidade de
Distribuição

O número de pontos em um cubo pode ser
aproximando por uma distribuição normal e então
Fração esperada
Desvio padrão
Coeficiente de dispersão de um cubo D
n(D) número de pontos em um cubo k-dimensional
N número de pontos no conjunto de dados
S(D)lt0 indica cubos com numero de pontos
significativamente abaixo do esperado

17
Mineração de Outliers Baseada em Densidade de
Distribuição

Busca necessária para gerar as projeções
Busca exaustiva garante encontrar todas a
exceções mas com complexidade alta
Busca genética com função de seleção, crossover e
mutação específica para o problema permite
encontrar, a um custo muito menor, a maioria das
exceções

Comparativo de resultado
18
Mineração de Outliers em Cubos OLAP

Exploração dirigida a hipótese
O usuário interativamente busca por regiões de
anomalias
As regiões de anomalias representam áreas de
interesse
A busca das anomalias é feita com o uso das
operações de cubo OLAP
Dril-down, roll-up, seleção
Problemas da exploração dirigida a hipótese
Espaço de busca muito grande
As anomalias podem estar em níveis inferiores ao
ponto de partida da análise
Grande quantidade de agregados

19
Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta
O usuário busca por anomalias guiado por
indicadores pré-computados
Os indicadores permitem a observação de padrões
anormais em qualquer nível de agregação
Muito útil, especialmente, para grande numero de
dimensões
Um valor é uma exceção se ele difere
significativamente do seu valor antecipado
Valor calculado por um modelo estatístico
Considera o contexto da posição da célula no cubo
Combina as tendências ao longo das diferentes
dimensões a que uma célula pertence

20
Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta
Definição de exceção (yijk yijk)/ ?ijk gt (?
2.5)
Cálculo do valor antecipado yijk
Onde
? l... (média ao longo de todas as dimensões)
?irAr l...ir... - ?(média ao longo de uma
dimensão)
?irisArAs l...ir... is... - ?irAr -
?isAs ? (Média ao longo de duas dimensões)

21
Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta
Equação iterativa para cálculo do ? (desvio
padrão)

?2ijk (yijk)?

Onde ? é calculado por

22
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta

Os indicadores dão o grau de surpresa do valor da
célula
Os indicadores são 3
SelfExp valor surpresa da célula em relação a
outras células no mesmo nível de agregação
InExp Grau de surpresa em algum nível abaixo
desta célula
PathExp grau de surpresa para cada caminho de
drill-down a partir da célula.

23
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Destacar Exceções
24
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Exceção de Caminho
25
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Drill-Down por produto (PathExp)
26
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
Drill-Drown para Diet-S (InExp)
27
Mineração de Outliers em Cubos OLAP
Exploração dirigida a descoberta (Exemplo)
28
Roteiro

Motivação
Métodos baseados em Agrupamento
Métodos baseados em Estatística
Métodos Baseados em Desvio
Métodos baseados em Distância
Conclusões
Referências

29
Mineração de Outliers Baseada em Distância Dk(p)

Busca Resolver limitações do estatístico
Um outlier é determinado baseado na distancia
Dk(p)
Dk(p) distância de p ao seu k-esimo vizinho
Evita suposição sobre distribuição dos dados
Menor custo computacional
Pode, ás vezes, convergir para os métodos
estatísticos
Desvantagem
Não é escalável para mais que 5 dimensões

30
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Loop aninhado

Para cada ponto p no conjunto de dados calcula
Dk(p)
Para calcular cada Dk(p) varre todos os dados
Mantém uma lista de k vizinhos mais próximo para
cada ponto p
Os n pontos com maior valor de Dk(p) são os n
outliers
Para melhorar a eficiência pode-se considerar
blocos de pontos ao invés de pontos individuais

31
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo baseado em índice

O uso de estruturas de índices espaciais pode
diminuir substancialmente o calculo de distâncias
(R-tree, por exemplo)
É possível podar sub-arvores cujos nós não podem
conter outlier
A cada passo guarda-se os n outliers encontrados
Dnmin menor Dk entre os outlier
Dk(p)lt Dnmin P não pode ser um outlier

32
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições

Detecta os n outliers mais fortes
Os outliers são ordenados pela distância Dk(p)
Baseia se na distância dos vizinhos mais próximos
O conjunto de dados é divididos em partições por
meio de algoritmos de agrupamento
Poda partições que não são candidatas a conter
outlier
Acelera a identificação pois diminui a quantidade
de pontos

33
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições (passos)

Gerar partições
Através de clustering
Calcular limites Dk para os pontos em cada
partição
P.uppermax(Dk) e P.lowermin(Dk) dos pontos da
partição P
Identificar partições candidatas a conter
exceções
P.upper?minDkDistminPi.lower1? i ? l
Pi.lowergtPj.lowergt..gtPl.lower e o número de
pontos seja pelo menos n
Computar exceções com os pontos nas partições
candidatas
P.neighbors denota as partições vizinhas de P a
uma distância de P.upper

34
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições (passos)
O número total de pontos a ser examinado para
calcular outlier é o das partições candidatasos
de suas vizinhas
35
Detecção de Outliers Baseada em Distâncias Dk(p)
Algoritmo Baseado em partições
36
Detecção de Outliers Baseada em Distâncias Dk(p)
Comparativo de desempenho
37
Detecção de Outliers Baseada em Distâncias Dk(p)
Comparativo de desempenho
38
Roteiro

Motivação
Métodos baseados em Agrupamento
Métodos baseados em Estatística
Métodos Baseados em Desvio
Métodos baseados em Distância
Conclusões
Referências

39
Conclusões

Mineração de exceções
É de grande interesse
É custosa computacionalmente, principalmente para
grande quantidade de dimensões
Necessita de métodos robustos

40
Referências

Data Mining concepts and techniques, de Han, J.
Kamber, M., 2001, Morgan Kaufmann
Discovery-driven Exploration of OLAP Data Cubes,
de Sunita Sarawagi, Rakesh Agrawal, Nimrod
Megiddo, IBM Research Division
Efficient Algoritms for Mining Outliers from Data
sets. Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok
Shim. 2000
Outlier Detection for High Dimensional Data.
Charu C. Aggarwal e Philip S. Yu. 2001

41
Visão de Outliers
42
Comparativo Força bruta x algorotimo Evolutivo

Write a Comment

User Comments (0)