Aprendizado de M - PowerPoint PPT Presentation

About This Presentation
Title:

Aprendizado de M

Description:

Title: PowerPoint Presentation Author: JORGE Last modified by: JORGE Created Date: 10/2/2000 2:59:00 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:34
Avg rating:3.0/5.0
Slides: 46
Provided by: JORG54
Category:

less

Transcript and Presenter's Notes

Title: Aprendizado de M


1
Aprendizado de Máquinas
2
Aprendendo de Observações
A M B I E N T E
Sensores
Critica
Feedback
Performance
Aprendizado
Objetivos
de aprendizado
Gerador
Efectores
Modelo de Aprendizado
3
Aprendizado
  • A percepção pode ser usada para atuar e para
    melhorar a habilidade do agente no futuro.
  • O aprendizado ocorre como resultado da interação
    do agente e o mundo, e das observações deste
    agente.

4
Pesquisas em Aprendizado
  • Que componentes do elemento de performance devem
    ser melhorados.
  • Que representação é usada para estes componentes.
  • Que feedback esta disponivel.
  • Que informação a priori esta disponivel.

5
Componentes de Performance
  • Mapeamento do estado corrente para ações.
  • Um meio de inferir propriedades do mundo.
  • Informações de como o meio evolue
  • Informações das consequências das ações do agente
  • Estados desejaveis do mundo
  • Objetivos para atingir determinados estados.

6
Representação do componente
  • Diferentes formas de representar conhecimento
    levam a diferentes métodos de aprendizado.
  • Ex redes neurais, algoritmos géneticos, formulas
    lógicas....

7
Feedback Disponivel
  • E, S aprendizado supervisionado
  • E, S aprendizado reforçado
  • E aprendizado não supervisionado

8
Aprendizado Inductivo
9
Aprendizado Inductivo
  • Assumindo que o sistema é modelado por um uma
    função f, desconhecida
  • Dado uma coleção de exemplos de f, retornar a
    função h que se aproxima a f, a função h é
    denominada hipoteses.

10
Bias
11
Tarefa de Classificação
12
Árvores de Decisão
País
Inglaterra
Alemanha
Não
Sim
França
Idade
gt 25
lt 25
Sim
Não
13
Árvores de Decisão
  • Classificação baseado num conjunto de atributos
  • Cada nó interno corresponde a um teste sobre os
    valores dos atributos
  • Os arcos são rotulados com os valores possiveis
    do teste
  • Cada folha na árvore especifica a classificação.

14
Esperar por uma mesa num restaurante
  • Decidir que propriedades ou atributos estão
    disponiveis para descrever os exemplos do
    dominio
  • Existem alternativas?, existe um bar no local?,
    dia da semana, estado da fome, estado do
    restaurante, preço, chuva, reserva, tipo de
    comida, tempo de espera....

15
Esperar por uma mesa?
Estado rest.
Cheio
Espera
Medio
Vazio
30-60
0-10
Não
Sim
gt60
10-30
Sim
Alternativa
Fome
Não
Não
Sim
Sim
Não
Sim
Reservas
Dia
Alternat.
Não
Final
Sim
Semana
Não
Sim
Sim
Sim
Bar
Não
Sim
Chove
Não
Sim
Sim
Não
Não
Sim
Não
Sim
16
Expressividade das Árvores de decisão
  • Conjunto de implicações da raiz até uma folha
  • ex ?r Estado(r,cheio)? Espera(r,0-10) ?
    ?fome(r,não) gt Esperar.
  • As árvores de decisão estão limitadas a falar de
    um objeto único.
  • Linguagem proposicional, cada teste num atributo
    é uma proposição
  • ? rr, Perto(rr,r),Preço(r,p),Preço(rr,pp),Menor(pp
    ,p)

17
Inducindo Árvores a partir de Exemplos
  • Um exemplo é descrito pelo valor dos atributos e
    o valor do predicado objetivo (classificação).
  • Solução trivial uma folha para cada exemplo
  • memorização das observações sem extrair padrão
  • Extrair padrões significa descrever um grande
    número de casos de uma maneira concisa.
  • Ockham Razor A melhor hipoteses é a mais simples
    consistente com todas as observações.

18
Indução de Árvores
  • Encontrar a árvore de decisão menor é um problema
    intratavel
  • Solução Heuristicas simples, boas árvores
  • Ideia básica
  • Testar o atributo mais importante primeiro
  • Separar o maior número de casos, a cada vez.
  • Classificação correta com o menor número de teste.

19
Indução de Árvores
  • Uma árvore de decisão é construída de forma
    "top-down", usando o princípio de
    dividir-para-conquistar.
  • Inicialmente, todas as tuplas são alocadas à raiz
    da árvore.
  • Selecione um atributo e divida o conjunto.
  • Objetivo- separar as classes
  • Repita esse processo, recursivamente.

20
Conjunto de Treinamento
21
Seleção do Atributo
1 3 4 6 8 12 -2 5 7 9 10 11
Tipo
F
B
I
T
3 12 - 7 9
1 - 5
6 - 10
4 8 - 2 11
22
1 3 4 6 8 12 - 2 5 7 9 10 11
Estado
Cheio
Vazio
Medio
4 12 - 2 5 9 10
Fome
- 7 11
1 3 6 8 -
Sim
Não
- 5 9
4 12 - 2 10
23
Algoritmo
24
Árvore Gerada
Estado
Fome
Vazio
Cheio
Medio
Não
Sim
Sim
Não
Não
Tipo
B
Sim
F
I
T
Sim
Não
sex/sab
Sim
Não
Sim
Não
25
Árvore
  • Os dados do exemplo foram gerados com a árvore
    inicial
  • A árvore gerada é diferente da original
  • O algoritmo olha os exemplos!!!
  • Performance do algoritmo é bom se produz uma
    hipoteses que é boa para predizer a classificação
    de exemplos não vistos anteriormente. Conjunto de
    teste.

26
Métodologia de Aprendizado
  • Colecione um conjunto grande de exemplos
  • Divida em 2 conjuntos disjunto
  • conjunto de treinamento
  • conjunto de teste
  • Use o algoritmo de aprendizado com o conj.
    treinamento para gerar a hipoteses H.
  • Calcule a percentagem de exemplos no conjunto de
    teste que estão corretamente classificados por H.
  • Repita os passos 2 a 4 para diferentes conjuntos

27
Conjunto de treinamento
  • O resultado é um conjunto de dados que pode ser
    processado para dar a media da qualidade da
    predição.

28
Curva de Aprendizado
  • de corretos no conjunto de teste

100
Tamanho do conjunto de treinamento
29
Uso pratico de Árvores
  • Lógica proposicional
  • Tomada de decisões, classificação de objetos
  • Planos de vôos
  • Equipamentos para separação de gasolina e oleo.

30
Teoria da Informação
  • Escolha do melhor atributo?
  • Árvore de profundidade mínima
  • Atributo perfeito divide os exemplos em conjuntos
    que são e -.
  • ex estado do restaurante x tipo de restaurante
  • Quantidade de informação esperada de cada
    atributo (Shanon Weaver, 1949).

31
Teoria da Informação
  • Dada uma situação na qual há N resultados
    alternativos desconhecidos, quanta informação
    você adquire quando você sabe o resultado?
  • Resultados equiprováveis
  • Lançar uma moeda, 2 resultados, 1 bit de
    informação
  • 1 ficha dentre 8, 8 resultados, 3 bits de
    informação
  • 1 ficha dentre 32, 32 resultados, 5 bits de
    informação
  • N resultados equiprováveis Info log2N bits

32
Teoria da Informação
  • Probabilidade de cada resultado p1/N,
  • Info - log2 p bits
  • Resultados não equiprováveis
  • ex 128 fichas, 127 pretas e 2 branca. É quase
    certo que o resultado de extrair uma ficha será
    uma ficha preta.
  • Existe menos incerteza removida, porque há menos
    dúvida sobre o resultado.

33
Função de Shannon
  • Info - ?i1,N pi log2pi bits
  • Em vários algoritmos de árvore de decisão, a
    seleção de atributos é baseada nesta teoria.
  • Ex ID3, C4.5, C5.0 Quinlan93, Quinlan96.

34
Árvores e Teoria da Informação
  • Para um dado exemplo qual é a classificação
    correta?
  • Uma estimação das probabilidades das possiveis
    respostas antes de qualquer atributo ser testado
    é
  • Proporção de exemplos e - no conjunto de
    treinamento.
  • I(p/(pn),n/(pn))
  • -p/(pn)log2p/(pn)- n/(pn)log2n/(pn)

35
Árvores e Teoria da Informação
  • Testar atributo
  • Qualquer atributo A divide o conjunto E em
    subconjuntos E1,...,Ev de acordo com seus valores
    (v valores distintos).
  • Cada subconjunto Ei possui pi exemplos ( ) e ni
    exemplos (-),
  • I (pi/(pini),ni/(pini)) bits de informação
    adicional para responder.

36
Ganho de Informação
  • Um exemplo randomico possui valor i para o
    atributo com probabilidade (pini)/(pn)
  • Em media depois de testar o atributo A
    necessitamos
  • Resta(A)?i1,v (pini)/(pn)I(pi/(pini),ni/(pin
    i))
  • Ganho(A) I(p/(pn),n/(pn))- Resta(A)

37
Exemplo
  • Estado do restaurante
  • Valores possiveis (vazio, medio, cheio)
  • Ganho(Estado) 1-2/12 I(0,1)4/12I(1,0)6/12I(2/
    6,4/6) 0,541 bits
  • Ganho(tipo) 1-2/12I(1/2,1/2)1/12I(1/2,1/2)4/12
    I(2/4,2/4)4/12
  • I(2/4,2/4) 0
    bits

38
Outros Criterios
  • Há vários outros critérios que podem ser usados
    para selecionar atributos quando construindo uma
    árvore de decisão
  • Nenhum critério é superior em todas as
    aplicações. A eficácia de cada critério depende
    dos dados sendo minerados.

39
Ruido e Overfitting
  • Ex 2 ou mais exemplos com a mesma descrição e
    diferentes classificações.
  • Classificação segundo a maioria
  • Reportar a estimação das probabilidades de cada
    classificação.
  • Classificar considerando atributos irrelevantes
  • ex jogo de dados, considerar como atributo
    dia,cor..

40
Overfitting
  • Quando existe um conjunto grande de hipoteses
    possiveis, devemos ser cuidadosos para não usar a
    liberdade resultante para encontrar regularidades
    nos dados.
  • Sugere-se podar a árvore, prevenindo testar
    atributos que não são claramente relevantes.
  • Ganho de informação perto de zero
  • Teste de Significância Estatistica.

41
Teste de Significância
  • Assumir que não existe um padrão nos dados,
    hipoteses nula.
  • Os dados são analizados para calcular quanto eles
    desviam-se da ausência perfeita de padrão.
  • Se o grau de desviação é estatisticamente
    insignificante (5)
  • Existe uma boa evidência da presença de um padrão
    nos dados.

42
Teste de Significância
  • As probabilidades são calculadas de uma
    distribuição estandard da quantidade de desviação
    que se espera ver devido a uma amostra randomica.
  • Neste caso, a hipoteses nula é que o atributo é
    irrelevante, e o ganho de informação de uma
    amostra infinitamente grande seria zero.

43
Probabilidade de Hipotese Nula
  • Uma amostra de tamanho v exiba a desviação
    observada da distribuição esperada de exemplos
    e -.
  • Comparar o número de casos p, n dos esperados pi
    e ni
  • pi p(pini)/(pn)
  • nin(pini)/(pn)
  • D ? (pi-pi)2/pi(ni-ni)2/ni
  • baixo a hipóteses nula, D é distribuído de acordo
    a X2 com v-1 graus de liberdade.

44
Cross-Validação
  • A ideia é tentar estimar como a hipoteses atual
    predizirá.
  • Manter dados de teste, testar performance da
    predição.

45
Árvores de decisão
  • Falta de dados
  • Atributos multivalorados
  • Atributos continuos
Write a Comment
User Comments (0)
About PowerShow.com