Avalia - PowerPoint PPT Presentation

About This Presentation
Title:

Avalia

Description:

Avalia o do Conhecimento Descoberto F bio Moura orientado por Francisco Carvalho Avalia o do Conhecimento Descoberto Motiva o Treinamento e teste Estimando ... – PowerPoint PPT presentation

Number of Views:91
Avg rating:3.0/5.0
Slides: 74
Provided by: Fabio67
Category:
Tags: avalia | curve

less

Transcript and Presenter's Notes

Title: Avalia


1
Avaliação do Conhecimento Descoberto
  • Fábio Moura
  • orientado por
  • Francisco Carvalho

2
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

3
Motivação
  • Avaliação a chave para o sucesso em data mining
  • Qual o grau de confiabilidade do modelo
    aprendido?
  • Performance no conjunto de treinamento não é um
    bom indicador de performance em dados futuros
  • Solução simples
  • Utilize um amplo conjunto de dados para
    treinamento e teste
  • Quando dados não são facilmente disponíveis
  • Utilização de técnicas mais sofisticadas
  • Ex. dados sobre consumo de energia dos últimos
    15 anos

4
Tópicos em Avaliação do Conhecimento Descoberto
  • Testes estatísticos para determinar a performance
    de diferentes esquemas de aprendizado de máquina
  • Escolha da medida de performance
  • Número de classificações corretas
  • Precisão da previsão de probabilidade em classes
  • Erros em previsões numéricas
  • Custos associados a diferentes tipos de erros
  • Muitas aplicações práticas envolvem custos

5
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

6
Treinamento e Teste
  • Medida natural para classificação de problemas
    taxa de erro
  • Acerto instância da classe é prevista
    corretamente
  • Erro instância da classe é prevista
    incorretamente
  • Taxa de erro proporção dos erros sobre todo o
    conjunto de instâncias
  • Erro de resubstituição taxa de erro obtida do
    conjunto de treinamento
  • Erro de resubstituição é (esperançosamente)
    otimista !

7
Treinamento e Teste
  • Conjunto de teste conjunto de instâncias
    independentes que não são utilizadas na formação
    do classificador
  • Suposição tanto o conjunto de dados para
    treinamento como o conjunto de dados para teste
    são exemplos representativos do problema em
    questão
  • Dados de teste e treinamento podem ser
    naturalmente diferentes
  • Exemplo classificadores construidos
    utilizando-se dados de duas cidades diferentes A
    e B
  • Estimar a performance de um classificador da
    cidade A e testá-lo utilizando-se dados da cidade
    B

8
Observações sobre Ajuste de Parâmetros
  • É importante que os dados de teste não sejam
    utilizados para criação do classificador
  • Alguns esquemas de aprendizado operam em dois
    estágios
  • Estágio 1 construção da estrutura básica
  • Estágio 2 otimização dos parâmetros
  • Os dados de teste não podem ser utilizados para
    ajuste dos parâmetros
  • Procedimentos apropriados utilizam três
    conjuntos dados de treinamento, validação e
    teste
  • Dados de validação são utilizados para otimização
    dos parâmetros

9
Aproveitando Melhor os Dados
  • Uma vez que a avaliação está completa, todos os
    dados podem ser utilizados na construção do
    classificador final
  • Geralmente, quanto maior o conjunto de dados para
    treinamento, melhor o classificador
  • Quanto maior o conjunto de dados para teste, mais
    precisa a estimativa de erro
  • Procedimento Holdout método para divisão dos
    dados originais nos conjuntos de treinamento e
    teste
  • Dilema idealmente queremos os dois, um grande
    conjunto de dados para treinamento e para teste

10
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

11
Estimando Performance
  • Assuma uma taxa de erro estimada de 25. O quão
    perto esta taxa está da taxa de erro real?
  • Depende do volume de dados para teste
  • Previsão é como jogar uma moeda viciada
  • Cara é um acerto, coroa é um erro
  • Em estatística, uma sucessão de eventos
    independentes como este é chamado de um processo
    Bernoulli
  • A teoria estatística nos provê com intervalos de
    confidência que mostra a proporção em que a
    verdade se fundamenta

12
Intervalos de Confidência
  • Nós podemos dizer p possui um certo intervalo
    especificado com uma certa confidência
    especificada
  • Exemplo S750 acertos em N1000 tentativas
  • Taxa de acerto estimada 75
  • O quão próximo esta taxa está da verdadeira taxa
    de acerto p?
  • Resposta com 95 de confidência p ? 73.3, 76.8
  • Outro exemplo S75 e N100
  • Taxa de acerto estimada 75
  • Com 95 de confidência p ? 70.0, 81.0

13
Média e Variância
  • Média e variância para um teste Bernoulli p,
    p(1-p)
  • Taxa de acerto esperada f S/N
  • Média e variância para f p, p(1-p)/N
  • Para um N suficientemente grande, f segue uma
    distribuição normal
  • c intervalo de confidência -z ? X ? z para uma
    variável aleatória com média 0 é dada por Pr-z
    ? X ? z c
  • Dando uma distribuição simétrica Pr-z ? X
    ? z 1 - (2PrX ? z)

14
Limites de Confidência
  • Limites de confidência para uma distribuição
    normal com média 0 e variância 1
  • Assim Pr-1,65 ? X ? 1,65 90
  • Para utilizar isto, temos que reduzir nossa
    variável aleatória f para que tenha média 0 e
    variância unitária

15
Transformando f
  • Valor transformado para f (i.e.
    subtração da média e divisão pelo desvio padrão)
  • Equação resultante
  • Resolvida para p

16
Exemplos
  • f75, N1000, c80 (então z1.28) p
    ?0.732, 0.767
  • f75, N100, c80 (então z1.28) p
    ?0.691, 0.801
  • Note que a suposição de distribuição normal
    somente é válida para um N grande (i.e. N gt
    100)
  • f75, N10, c80 (então z1.28) p
    ?0.549, 0.881

17
Estimativa Holdout
  • O que devemos fazer se a quantidade de dados é
    limitada?
  • O método holdout reserva uma certa quantidade de
    dados para teste e utiliza o restante para
    treinamento
  • Normalmente um terço para teste, o restante para
    treinamento
  • Problema os exemplos podem não ser
    representativos
  • Exemplo classe faltando nos dados de teste
  • A versão avançada utiliza estratificação
  • Garante que cada classe esteja representada com
    aproximadamente a mesma proporção em ambos
    conjuntos

18
Método Holdout Repetitivo
  • A estimativa holdout pode se tornar mais
    confiável se repetirmos o processo com diferentes
    subexemplos
  • Em cada iteração, uma certa proporção é
    aleatoriamente selecionada para treinamento
    (possivelmente com estratificação)
  • Um média das taxas de erro nas diferentes
    iterações é calculada para produção de uma taxa
    de erro geral
  • Continua não sendo ótimo diferentes conjuntos de
    teste se sobrepõem
  • Podemos prevenir sobreposição?

19
Cross-validation
  • Cross-validation evita sobreposição de conjuntos
    de teste
  • Primeiro passo os dados são divididos em k
    subconjuntos de tamanho igual
  • Segundo passo cada subconjunto, em fila, é
    utilizado para teste e o restante para
    treinamento
  • Este processo é chamado k-fold cross-validation
  • Geralmente os subconjuntos são estratificados
    antes que a validação cruzada seja realizada
  • Calcula-se a média dos erros estimados a fim de
    se produzir uma estimativa de erro geral

20
Cross-validation
  • Método padrão de avaliação ten-fold
    cross-validation estratificado
  • Por que dez? Experimentos extensivos mostraram
    que esta é a melhor escolha a fim de se conseguir
    uma estimativa precisa
  • Também existem algumas evidências teóricas
  • Estratificação reduz a variação da estimativa
  • Ainda melhor cross-validation estratificado
    repetitivo
  • Ten-fold cross-validation é repetido dez vezes e
    a média dos resultados é calculada

21
Leave-one-out Cross-validation
  • É uma forma particular de cross-validation
  • O número de folds é fixado com o número de
    instâncias para treinamento
  • Um classificador tem que ser construído n vezes,
    onde n é o número de instâncias para treinamento
  • Faz uso máximo dos dados
  • Não envolve o uso de subexemplos aleatórios
  • Computacionalmente muito caro

22
LOO-CV e Estratificação
  • Outra desvantagem do LOO-CV não é possível
    estratificação
  • Há apenas uma instância no conjunto de teste
  • Exemplo extremo conjunto de dados completamente
    aleatório com duas classes em igual proporção
  • Melhor indutor que prevê a classe majoritária
    (resulta em 50)
  • A estimativa LOO-CV para este indutor seria de
    uma taxa de erro de 100

23
Bootstrap
  • CV utiliza exemplos sem substituição
  • A mesma instância, uma vez selecionada, não pode
    ser selecionada novamente para um conjunto de
    treinamento/teste em particular
  • O bootstrap é um método de estimativa que utiliza
    exemplos com substituição para formar o conjunto
    de treinamento
  • Um conjunto de dados com n instâncias é utilizado
    n vezes a fim de formar um novo conjunto de dados
    com n instâncias
  • Estes dados são utilizados como conjunto de
    treinamento
  • As instâncias do conjunto de dados original que
    não ocorrem no novo conjunto de treinamento são
    utilizadas para teste

24
0.632 Bootstrap
  • Este método também é conhecido como 0.632
    bootstrap
  • Uma particular instância tem a probabilidade de
    1-1/n de não ser utilizada
  • Assim, sua probabilidade de terminar nos dados de
    teste é
  • Isto significa que o conjunto de dados para
    treinamento irá conter aproximadamente 63.2 das
    instâncias

25
Estimando Erro Com o Bootstrap
  • O erro estimado nos dados de teste será muito
    pessimista
  • Ele contém apenas 63 das instâncias
  • Assim, ele é combinado com o erro de
    resubstituição
  • O erro de resubstituição tem menor peso que o
    erro nos dados de teste
  • O processo é repetido várias vezes, com
    diferentes exemplos gerados, toma-se a média dos
    resultados

26
Observações sobre Bootstrap
  • É provavelmente a melhor maneira para estimativa
    de performance em conjuntos de dados muito
    pequenos
  • Entretanto, possui alguns problemas
  • Considerando o conjunto de dados aleatório
    anterior
  • Um perfeito memorizador alcançará 0 de erro de
    resubstituição e 50 de erro nos dados de teste
  • Bootstrap estimará para este classificador
    err 0.632 x 50 0.368 x 0 31.6
  • Verdadeira taxa de erro esperada 50

27
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

28
Comparando Esquemas de Aprendizado
  • Situação freqüente queremos saber entre dois
    esquemas de aprendizado qual o de melhor
    performance
  • Nota isto é dependente do domínio
  • Caminho óbvio compare estimativas 10-fold CV
  • Problema variação na estimativa
  • A variação pode ser reduzida utilizando-se CV
    repetitivo
  • Entretanto, ainda não sabemos se os resultados
    são confiáveis

29
Testes de Significância
  • Testes de significância nos diz o quão
    confidentes podemos ser que realmente existe uma
    diferença
  • Hipótese nula não há diferença real
  • Hipótese alternativa há uma diferença
  • Um teste de significância mede quanta evidência
    existe em favor de rejeitar-se a hipótese nula
  • Se estivermos utilizando 10-fold CV 10 vezes
  • Então nós queremos saber se as duas médias das
    estimativas do 10 CV são significantemente
    diferentes

30
Paired t-test
  • Students t-test nos diz se a média de dois
    exemplos são significantemente diferentes
  • Os exemplos individuais são tomados do conjunto
    de todos as estimativas cross-validation
    possíveis
  • Nós utilizamos o paired t-test porque os exemplos
    individuais são casados
  • O mesmo CV é aplicado duas vezes, uma para cada
    esquema
  • Fazendo x1, x2, ..., xk e y1, y2, ..., yk serem
    os 2k exemplos para um k ten-fold CV

31
Distribuição das Médias
  • Sendo mx e my as médias dos respectivos exemplos
  • Se existirem exemplos suficientes, a média de um
    conjunto independente de exemplos é normalmente
    distribuída
  • As variâncias estimadas das médias são ?x2/k e
    ?y2/k
  • Se ?x e ?y são as verdadeiras médias entãosão
    aproximações normalmente distribuídas com média 0
    e variância unitária

32
Distribuição Student
  • Com exemplos pequenos (k lt 100) a média segue a
    distribuição student com k -1 graus de liberdade
  • Limites de confidência para 9 graus de liberdade
    (esquerda), comparado a limites para uma
    distribuição normal (direita)

33
Distribuição das Diferenças
  • Seja md mx - my
  • A diferença das médias (md) também tem uma
    distribuição student com k-1 graus de liberdade
  • Seja ?d2/k a variância da diferença
  • A versão padronizada de md é chamada t-statistic
  • Nós utilizamos t para realizar o t-teste

34
Realizando o Teste
  • Fixe um nível de significância ?
  • Se a diferença está significantemente no nível ?
    há uma chance de (100 - ?) de que realmente
    exista uma diferença
  • Divida o nível de significância por dois já que o
    teste é two-tailed
  • A verdadeira diferença pode ser positiva ou
    negativa
  • Verifique o valor de z que corresponde a ?/2
  • Se t ? -z ou t ? z então a diferença é
    significante
  • A hipótese nula pode ser rejeitada

35
Observações
  • Se as CV estimadas forem de diferentes sorteios,
    não há mais casamento
  • Talvez nós ainda usemos k-fold CV para um esquema
    e j-fold CV para outro
  • Então devemos utilizar o t-teste unpaired com
    min(k,j)-1 graus de liberdade
  • A t-statistic se torna

36
Notas sobre a Interpretação do Resultado
  • Toda estimativa cross-validation é baseada no
    mesmo conjunto de dados
  • Portanto, o teste apenas nos diz quando um
    completo k-fold CV para este conjunto de dados
    irá mostrar uma diferença
  • Um k-fold CV completo irá gerar todas as
    possíveis partições dos dados em k conjuntos e
    calcular a média dos resultados
  • Idealmente, nós queremos conjuntos de dados de
    exemplo diferentes para cada estimativa k-fold CV
    usando o teste para julgar a performance através
    de diferentes conjuntos de treinamento

37
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

38
Predizendo Probabilidades
  • Medida de performance taxa de acerto
  • Também chamada função de perda 0-1
  • Muitos classificadores produzem classes de
    probabilidades
  • Dependendo da aplicação, nós podemos querer
    checar a precisão das estimativas de
    probabilidade
  • Perda 0-1 não é o modelo correto a ser utilizado
    nestes casos

39
Função de Perda Quadrática
  • p1, ..., pk são probabilidades estimadas para uma
    instância
  • Seja c o índice da classe atual da instância
  • a1, ..., ak 0, exceto para ac, que é 1
  • A perda quadrática é
  • Justificativa

40
Função de Perda Informacional
  • A informational loss function é log(pc), onde
    c é o índice da classe atual da instância
  • Número de bits necessários para comunicar a
    classe atual
  • Ex. cara ou coroa - log2 1/2 1
  • Sejam p1, ..., pk as probabilidades verdadeiras
    das classes
  • Então o valor esperado para a função de perda
    é
  • Justificativa minimizado para pj pj
  • Dificuldade problema da freqüência zero
  • Se a probabilidade é zero, o valor da função é -?

41
Observações
  • Qual função de perda deveríamos escolher?
  • A quadratic loss function leva em conta todas
    as probabilidades de classes estimadas para uma
    instância
  • A informational loss foca somente na
    probabilidade estimada para a classe atual
  • A quadratic loss é restringida por
  • Nunca poderá exceder a 2
  • A informational loss poderã ser infinita
  • A informational loss está relacionada ao
    princípio MDL

42
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

43
Contabilizando os Custos
  • Na prática, diferentes tipos de erros de
    classificação geralmente incorrem em diferentes
    custos
  • Exemplos
  • Decisões de empréstimo
  • Detecção de vazamento de óleo
  • Diagnóstico de falha
  • Cartas promocionais
  • enviar carta p/ família q ñ responderá x ñ enviar
    carta p/ família q responderá

44
Mantendo Custos em Conta
  • A matriz confusão
  • Há muitos outros tipos de custos
  • Custos de coleta de dados para treinamento

45
Lift Charts
  • Na prática, custos raramente são desconhecidos
  • Decisões são tomadas geralmente pela comparação
    de cenários possíveis
  • Exemplo cartas promocionais
  • Situação 1 classificador prevê que 0,1 de todos
    as famílias irão responder 1.000 respostas
  • Situação 2 classificador prevê que 0,4 das
    10.000 famílias mais promissoras irão responder
    400 respostas
  • Situação 3 classificador prevê que 0,2 de
    400.000 famílias irão responder 800 respostas
  • Um lift chart permite uma comparação visual

46
Gerando um Lift Chart
  • Instâncias são classificadas de acordo com suas
    probabilidades previstas de serem um true
    positive
  • Em um lift chart, o eixo x é o tamanho do exemplo
    e o eixo y é o número de true positives

47
Exemplo de um Lift Chart
48
ROC Curves
  • Curvas ROC são similares a lifit charts
  • ROC vem de receiver operating characteristic
  • Utiliza um sinal de detecção para mostrar o
    tradeoff entre a taxa de acerto (hit rate) e a
    taxa de alarme falso (false alarm rate) acima do
    canal de ruído (noisy channel)
  • Diferenças do lift chart
  • O eixo y mostra o percentual de true positives em
    um exemplo (em vez do valor absoluto)
  • O eixo x mostra o percentual de false positives
    em um exemplo (em vez do tamanho do exemplo)

49
Exemplo de uma ROC Curve
50
Cross-validation e Roc Curves
  • Método simples para criar uma curva Roc
    utilizando cross-validation
  • Coletar probabilidades de instâncias em conjuntos
    de teste
  • Classificar as instâncias de acordo com as
    probabilidades
  • Este método é implementado no WEKA
  • Entretanto, esta é apenas uma possibilidade
  • O método descrito no livro gera uma curva ROC
    para cada conjunto e calcula a média entre eles

51
Roc Curves para Dois Esquemas
52
Convex Hull
  • Dados dois esquemas de aprendizado, podemos
    alcançar qualquer ponto no convex hull
  • Taxas TP e FP para o esquema 1 t1 e f1
  • Taxas TP e FP para o esquema 2 t2 e f2
  • Se o esquema 1 é utilizado para prever 100 x q
    dos casos e o esquema 2 para o restante, então
    tomamos
  • Taxa TP para o esquema combinado q x t1 (1-q)
    x t2
  • Taxa FP para o esquema combinado q x f1 (1-q)
    x f2

53
Aprendizado Sensível ao Custo
  • A maioria dos esquemas de aprendizado não
    realizam aprendizado sensível ao custo
  • Eles geram o mesmo classificador não importando
    qual o custo associado a diferentes classes
  • Exemplo aprendizado de árvore de decisão padrão
  • Métodos simples para aprendizado sensível ao
    custo
  • Reutilização de instâncias de acordo com os
    custos
  • Utilização de pesos para instâncias de acordo com
    os custos
  • Alguns esquemas são sensíveis ao custo de forma
    inerente, ex. naive Bayes

54
Medidas de Retorno da Informação
  • Percentual dos documentos retornados que são
    relevantes precision TP/TPFP
  • Percentual dos documentos relevantes que são
    retornados recall TP/TPFN
  • A curva precision/recall tem a forma hiperbólica
  • Sumário das medidas precisão média de 20, 50 e
    80 recall (three-point average recall)
  • F-measure (2 x recall x precision)/(recall
    precision)

55
Sumário das Medidas
56
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

57
Avaliando Previsões Numéricas
  • Algumas estratégias conjunto de teste
    independente, cross-validation, testes de
    significância, etc.
  • Diferença medidas de erro
  • Valores alvo atuais a1, a2, ..., an
  • Valores alvo previstos p1, p2, ..., pn
  • Medida mais popular erro do quadrado da média
    (mean-squared error)
  • Fácil para manipulação matemática

58
Outras Medidas
  • A raiz do erro do quadrado da média
  • O erro médio absoluto é menos sensível a outliers
    que o erro do quadrado da média
  • Às vezes valores de erros relativos são mais
    apropriados que valores absolutos
  • 10 corresponde a um erro de 50 quando prevendo
    500
  • 10 corresponde a um erro de 0,2 quando prevendo 2

59
Aprimoramento da Média
  • Sempre queremos saber quanto o esquema é
    aprimorado simplesmente prevendo a média
  • O erro quadrado relativo é (a é a média)
  • O erro absoluto relativo é

60
O Coeficiente de Correlação
  • Mede a correlação estatística entre os valores
    previstos e os valores atuais
  • Escala independente, entre 1 e 1
  • Boa performance leva a grandes valores

61
Qual a melhor medida?
  • Melhor verificar todas elas
  • Geralmente não importa
  • Exemplo

62
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

63
Medidas de Avaliação do Conhecimento Descoberto
  • Piatetsky-Shapiros Rule-Interest Function
  • É usada para quantificar a correlação entre
    atributos em um classificador de regras simples
  • Uma regra de classificação simples é aquela em
    que os lados esquerdo e direito de uma implicação
    lógica (X ? Y) corresponde a um atributo simples
  • Quando RI 0, então X e Y são estatisticamente
    independentes e a regra não é interessante
  • Quando RI gt 0 (RI lt 0), então X é positivamente
    (negativamente) correlacionado a Y

64
Medidas de Avaliação do Conhecimento Descoberto
  • Smyth and Goodmans J-Measure
  • É utilizado para encontrar as melhores regras
    relacionando atributos de valores discretos
  • Major and Manganos Rule Refinement
  • É uma estratégia usada para induzir regras de
    classificação interessantes de um banco de dados
    de regras de classificação
  • Consiste em três fases identificar regras
    potencialmente interessantes, identificar regras
    tecnicamente interessantes, e remover regras que
    não sejam genuinamente interessantes
  • Agrawal and Srikants Itemset Measures
  • Utilizada para identificar regras de
    classificação que ocorrem com freqüência de
    conjuntos de itens em grandes bancos de dados

65
Medidas de Avaliação do Conhecimento Descoberto
  • Klemettinen et al. Rule Templates
  • Utilizada para descrever um padrão para os
    atributos que podem aparecer no lado esquerdo ou
    direito em uma regra de associação
  • Matheus and Piatetsky-Shapiros Projected Savings
  • Avalia o impacto financeiro dos custos de desvios
    de valores esperados
  • Hamilton and Fudgers I-Measures
  • Usadas para quantificar a significância do
    conhecimento descoberto, apresentadas na forma de
    relações generalizadas ou sumários
  • Baseada na estrutura das hierarquias conceituais
    associadas aos atributos na relação original não
    generalizada

66
Medidas de Avaliação do Conhecimento Descoberto
  • Silbershatz and Tuzhilins Interestingness
  • Determina a extensão em que uma crença suave é
    mudada como resultado da descoberta de uma nova
    evidência
  • Kamber and Shinghals Interestingness
  • Determina o nível de interesse de uma regra de
    classificação baseada na necessidade e
    suficiência
  • Hamilton et al. Credibility
  • Determina a extensão com que um classificador
    provê decisões para todos ou quase todos valores
    possíveis dos atributos de condição, baseada em
    evidência adequadamente suportada
  • Liu et al. General Impressions
  • Usada para avalia a importância de regras de
    classificação pela comparação das regras
    descobertas com uma descrição aproximada ou vaga
    do que é considerado ser interessante

67
Medidas de Avaliação do Conhecimento Descoberto
  • Gago and Bentos Distance Metric
  • Mede a distância entre duas regras e é usada para
    determinar as regras que provêm a mais alta
    cobertura para os dados fornecidos
  • Freitas Surprisingness
  • Medida que determina o interesse do conhecimento
    descoberto via detecção explícita de ocorrências
    do paradoxo de Simpson
  • Gray and Orlowskas Interestingness
  • Usada para avaliar o poder de associações entre
    conjuntos de intens em transações a varejo (i.e.,
    regras de associação)
  • Dong and Lis Interestingness
  • Usada para avaliar a importância de uma regra de
    associação por considerar sua não expectativa
    em termos de outras regras de associação em sua
    vizinhança

68
Medidas de Avaliação do Conhecimento Descoberto
  • Liu et al. Reliable Exceptions
  • Uma exceção confiável é uma regra frágil que
    tenha suporte relativamente pequeno e confidência
    relativamente alta
  • Zhong et al. Peculiarity
  • Usada para determinar a extensão com que um
    objeto de dado difere de outros objetos de dado
    similares

69
Avaliação do Conhecimento Descoberto
  • Motivação
  • Treinamento e teste
  • Estimando performance
  • Cross-validation
  • Leave-one-out cross-validation
  • Bootstrap
  • Comparando esquemas de aprendizado
  • Predizendo probabilidades
  • Contabilizando o custo de previsões erradas
  • Lift charts
  • ROC curves
  • Avaliando previsões numéricas
  • Medidas de avaliação do conhecimento descoberto
  • O princípio MDL

70
O Princípio MDL
  • MDL se origina de minimum description length
    (mínimo tamanho da descrição)
  • O tamanho da descrição é definido como
  • espaço necessário para descrever a teoria
  • espaço necessário para descrever os erros da
    teoria
  • Em nosso caso a teoria é o classificador e os
    erros da teoria são os erros nos dados de
    treinamento
  • Alvo queremos classificar com o mínimo DL
  • Princípio MDL é um critério para seleção do modelo

71
Critérios para Seleção do Modelo
  • O critério para seleção do modelo tenta encontrar
    um bom compromisso entre
  • A complexidade de um modelo
  • Sua precisão de predição nos dados de treinamento
  • Conclusão um bom modelo é um modelo simples que
    alcança alta precisão nos dados fornecidos
  • Também conhecido como Occams Razor a melhor
    teoria é a menor delas que descreve todos os fatos

72
Elegância x Erros
  • Teoria 1 muito simples, teoria elegante que
    explica a maioria dos dados perfeitamente
  • Teoria 2 uma teoria significantemente mais
    complexa que reproduz os dados sem erros
  • A teoria 1 é provavelmente a preferida
  • Exemplo clássico as três leis de Kepler no
    movimento planetário
  • Menos precisa que o último refinamento de
    Copérnico da teoria Ptolemaica de epicicles

73
Observações
  • Vantagem faz uso total dos dados de treinamento
    quando selecionando um modelo
  • Desvantagem 1 esquema de codificação apropriado/
    probabilidades prévias para as teorias são
    cruciais
  • Desvantagem 2 não há garantia de que a teoria
    MDL é aquela que minimiza os erros esperados
  • Nota Occams Razor é um axioma
  • Princípio de Epicuro de múltiplas explicações
    pegue todas as teorias que são consistentes com
    os dados
Write a Comment
User Comments (0)
About PowerShow.com