Minera - PowerPoint PPT Presentation

About This Presentation
Title:

Minera

Description:

Title: Simple and Effective Classifiers to Model Biological Data Last modified by: Rogerio Salvini Document presentation format: Apresenta o na tela – PowerPoint PPT presentation

Number of Views:61
Avg rating:3.0/5.0
Slides: 39
Provided by: lnc1
Category:

less

Transcript and Presenter's Notes

Title: Minera


1
Mineração de Dados no Transtorno Afetivo Bipolar
  • Rogerio Salvini
  • rogeriosalvini_at_inf.ufg.br

2
Tópicos
  • Mineração de dados/KDD
  • Programação Lógica Indutiva (ILP)
  • Aplicações

3
KDD
  • Na realidade, Mineração de Dados é parte de um
    processo maior, chamado Descoberta de
    Conhecimento em Bases de Dados (KDD) - apesar de
    alguns autores utilizarem o termo
    intercambiavelmente.
  • KDD é o processo não-trivial de identificar em
    dados padrões que sejam válidos, novos
    (previamente desconhecidos), potencialmente úteis
    e compreensíveis, visando melhorar o entendimento
    de um problema ou um procedimento de tomada de
    decisão.

4
KDD
  • O processo de KDD é interativo, iterativo,
    cognitivo e exploratório, envolvendo vários
    passos com muitas decisões sendo feitas pelo
    analista (que é um especialista do domínio dos
    dados, ou um especialista de análise dos dados)
  • compreender o domínio
  • preparar o conjunto dos dados
  • descobrir padrões (mineração de dados)
  • pós-processar os padrões descobertos, e
  • implantação do conhecimento descoberto.

5
KDD
6
Mineração de Dados
  • Mineração de dados (DM) é a etapa responsável
    pela seleção dos métodos a serem utilizados para
    localizar padrões nos dados, seguida da efetiva
    busca por padrões de interesse numa forma
    particular de representação, juntamente com a
    busca pelo melhor ajuste dos parâmetros do
    algoritmo para a tarefa em questão.

7
Mineração de Dados
  • DM utiliza técnicas e algoritmos de diferentes
    áreas do conhecimento, principalmente
    Inteligência Artificial (especialmente
    Aprendizagem de Máquina), Banco de Dados
    (recursos para manipular grandes bases de dados)
    e Estatística.

8
Aprendizado de máquina
  • Área da Inteligência Artificial que estuda
    métodos computacionais para adquirir novos
    conhecimentos de forma automática
  • Um sistema de Aprendizado de Máquina (ML) é um
    programa de computador que toma decisões baseado
    em experiências acumuladas contidas em casos
    resolvidos com sucesso
  • Esses casos constituem o conjunto de exemplos de
    treinamento fornecidos ao algoritmo de aprendizado

9
Aprendizado supervisionado
  • No aprendizado supervisionado é fornecido ao
    algoritmo de aprendizado um conjunto de exemplos
    de treinamento descritos por um vetor de valores
    de características, ou atributos, e pelo rótulo
    da classe associada
  • Baseado no conjunto de treinamento o algoritmo de
    aprendizado induz a classificação de uma hipótese
    capaz de determinar corretamente a classe de
    novos exemplos ainda não rotulados

10
Linguagens de descrição
  • Ao solucionar problemas com o uso do computador,
    é importante definir como traduzi-los em termos
    computacionais
  • Linguagens de descrição são necessárias para
    descrever exemplos, hipóteses e conhecimento do
    domínio
  • Em geral, essas linguagens podem ser divididas em
    dois tipos
  • Baseada em atributo-valor ou proposicional
  • Relacional

11
Linguagens de descrição
  • O formato atributo-valor é a linguagem de
    descrição de objetos mais frequentemente
    utilizada em ML
  • Objetos, ou exemplos, são descritos em termos de
    atributos e valores desses atributos, por meio de
    um vetor, contendo valores para os atributos de
    um determinado exemplo e um rótulo que atribui
    uma classe ao exemplo

12
Linguagens de descrição
  • A descrição relacional é baseada na Linguagem de
    Primeira Ordem da Lógica Clássica
  • Objetos são descritos em termos de seus
    componentes e relações entre esses componentes
  • Principais características
  • Alta expressividade para representar conceitos
  • Capacidade de representação do conhecimento do
    domínio (background knowledge)
  • Sistemas de aprendizado relacional
  • Programação Lógica Indutiva (ILP)

13
Programação Lógica Indutiva
  • Programação Lógica Indutiva (ILP) é uma área de
    interseção de pesquisas entre Aprendizado de
    Máquina e Programação Lógica
  • ILP traz duas grandes vantagens
  • produz classificadores que são de fácil
    entendimento por especialistas
  • consegue resolver problemas de aprendizado
    multi-relacional

14
Programação Lógica Indutiva
  • Sistemas ILP têm sido usados com sucesso na
    extração de modelos relacionais de dados em áreas
    como
  • Bioinformática
  • Engenharia
  • Processamento de Linguagem Natural
  • Meio Ambiente
  • Engenharia de Software
  • Aprendizado de Padrões e Link Discovery
  • Alias Identification

15
Programação Lógica Indutiva
  • Dados
  • um conjunto de exemplos positivos,
  • um conjunto de exemplos negativos,
  • a descrição destes exemplos (BK), e
  • um conjunto de restrições que define a forma como
    um classificador deve ser construído
  • Produzir um classificador representado em Lógica
    de Primeira Ordem, que prove todos os exemplos
    positivos e nenhum exemplo negativo

16
Trens de Michalski
  • A tarefa é encontrar uma regra capaz de predizer,
    dada as propriedades dos seus vagões, se o trem
    está viajando para Leste

17
Trens de Michalski
  • Conhecimento prévio (BK)
  • has_car(east1,car_11).
  • shape(car_11,rectangle).
  • open_car(car_11).
  • long(car_11).
  • load(car_11,rectangle,3).
  • wheels(car_11,2).
  • has_car(east1,car_12).
  • short(car_12).
  • closed(car_12).
  • ...
  • short(car_14).

18
Trens de Michalski
  • Exemplos positivos
  • eastbound(east1)
  • eastbound(east2)
  • eastbound(east3)
  • eastbound(east4)
  • eastbound(east5)
  • Exemplos negativos
  • eastbound(west6)
  • eastbound(west7)
  • eastbound(west8)
  • eastbound(west9)
  • eastbound(west10)

19
Trens de Michalski
  • eastbound(A) -
  • has_car(A,B), short(B), closed(B).

20
Relação filha
  • Um exemplo relacional simples é o aprendizado da
    relação filha(A,B), que estabelece que uma pessoa
    A é filha da pessoa B, em termos do conhecimento
    prévio das relações feminino e progenitor.

21
Relação filha
Conhecimento prévio (BK) progenitor(ana,maria)
feminino(ana) progenitor(ana,jose)
feminino(maria) progenitor(jose,carol)
feminino(carol) progenitor(jose,carlos)
  • Exemplos positivos
  • filha(maria,ana)
  • filha(carol,jose)
  • Exemplos negativos
  • filha(jose,ana)
  • filha(carol,ana)

22
Relação filha
  • Assim, é possível induzir a seguinte hipótese
  • filha(A,B) -
  • feminino(A), progenitor(B,A).
  • que é interpretada como
  • A é filha de B se A é do sexo feminino e B é
    progenitor de A.

23
Protein
  • Predizer quais genes codificam para proteínas
    envolvidas no metabolismo.
  • Conhecimento prévio do gene G235580
  • chromosome('G235580','11')
  • complex('G235580','Respiration chain complexes')
  • essential('G235580','Non-Essential')
  • interaction('G235580','G236280','Physical',
    '0.342639674')
  • motif('G235580','PS00504')
  • phenotype('G235580','"Auxotrophies, carbon and"')

24
Protein
  • Cláusula saturada do exemplo
  • metabolism(G235580)
  • bottom clause
  • metabolism(A) -
  • essential(A,'Non-Essential'),
    complex(A,'Respiration chain complexes'),
    phenotype(A,'"Auxotrophies, carbon and"'),
    motif(A,'PS00504'),
  • chromosome(A,'11'), interaction(A,B,C,D),
    essential(B,'Non-Essential'), intertype(C,'Physica
    l'),
  • phenotype(B,'"Auxotrophies, carbon and"'),
    chromosome(B,'2'), interaction(B,E,C,G),
    interaction(B,A,C,D),
  • interaction(B,F,C,H), essential(E,'Non-Essentia
    l'), essential(F,'Non-Essential'),
    complex(E,'Respiration chain complexes'),
  • complex(F,'Respiration chain complexes'),
    phenotype(E,'"Auxotrophies, carbon and"'),
    motif(E,'PS00197'), motif(F,'PS01000'),
  • chromosome(E,'12'), chromosome(F,'11'),
    interaction(E,B,C,G), interaction(F,B,C,H).
  • literals 25

25
Protein
  • Regra gerada
  • metabolism(A) - phenotype(A,'"Auxotrophies,
    carbon and"'), interaction(A,B,_,_),
    essential(B,'Non-Essential'), chromosome(B,'4').
  • que pode ser interpretada como
  • O gene A está envolvido no metabolismo se
  • A tem fenótipo "Auxotrophies, carbon and" e
  • A interage com um gene B e
  • B não é essencial e
  • B está no cromossomo 4

26
Mamografias
  • Banco de dados relacional real de mamografias,
    extraída do "National Mammography Database" (NMD)
    americano em um trabalho conjunto com a
    Universidade de Wisconsin-Madison
  • 47669 exames de 18270 pacientes
  • 435 anormalidades malignas e 65365 anormalidades
    benignas num total de 65800 exemplos
  • Tarefa predizer se uma anormalidade é maligna

27
Breast Imaging Reporting and Data System(BI-RADS)
Categoria Significado
BI-RADS 0 Necessita imagem adicional
BI-RADS 1 Negativo
BI-RADS 2 Benigno
BI-RADS 3 Provavelmente benigno
BI-RADS 4 Suspeito
BI-RADS 5 Altamente sugestivo de malignância
28
Glossário BI-RADS(43 descritores organizados
hierarquicamente)
29
Mamografias
  • O sistema ILP gerou várias regras, de onde um
    radiologista especialista identificou duas
    potencialmente interessantes.
  • Estas regras foram

30
Regra 1
  • is_malignant(A) -
  • 'BIRADS_category'(A,b5), 'MassPAO'(A,present),
  • 'Age'(A,age6570),
  • previous_finding(A,B,C), 'MassesShape'(B,none),
  • 'Calc_Punctate'(B,notPresent),
  • previous_finding(A,C), 'BIRADS_category'(C,b3).

31
Regra 1
  • Esta regra declara que se um achado (A) era
  • classificado como BI-RADS 5,
  • tinha uma massa presente
  • em um paciente que
  • tinha idade entre 65 e 70
  • tinha duas mamografias anteriores (B, C)
  • e a mamografia anterior (B)
  • não tinha forma de massa descrita
  • não tinha calcificações pontuadas
  • e a mamografia anterior (C)
  • foi classificada como BI-RADS 3
  • então ele é maligno.

32
Regra 1
  • Esta regra é interessante pois ela acha um
    relacionamento entre um achado malígno em um
    paciente que teve uma anormalidade anterior
    julgada como provavelmente benigna.
  • Isto pode representar um atraso no diagnóstico se
    a anormalidade interpretada como provavelmente
    benigna corresponde à achada depois diagnosticada
    como câncer.

33
Regra 2
  • is_malignant(A) -
  • 'BIRADS_category'(A,b5),
  • 'MassPAO'(A,present),
  • 'MassesDensity'(A,high),
  • 'HO_BreastCA'(A,hxDCorLC),
  • in_same_mammogram(A,B),
  • 'Calc_Pleomorphic'(B,notPresent),
  • 'Calc_Punctate'(B,notPresent).

34
Regra 2
  • Esta regra declara que se o achado (A) era
  • classificado como BI-RADS 5,
  • tinha uma massa presente
  • tinha uma massa com alta densidade
  • em um paciente que
  • tinha um histórico anterior de câncer de mama
  • tinha um achado extra na mesma mamografia (B)
  • e o achado extra (B)
  • não tinha microcalcificações pleomórficas
  • não tinha calcificações pontuadas
  • então ele é maligno.

35
Regra 2
  • Esta regra é interessante pois ela acha um
    relacionamento entre malignância e alta densidade
    de massas.
  • Em geral, densidade de massa não tinha sido
    anteriormente pensada como sendo uma
    característica altamente preditiva.

36
Transtorno Afetivo Bipolar (TAB)
  • Projeto PROMAN
  • Dados longitudinais de 150 pacientes

Masculino Feminino TOTAL
TAB I 70 (88,6) 147 (89,1) 217 (88,9)
TAB II 9 (11,4) 18 (10,9) 27 (11,1)
Total 79 (100) 165 (100) 244 (100)
37
Transtorno Afetivo Bipolar (TAB)
  • Dados Iniciais 284 variáveis
  • sócio-demográficas
  • história clínica geral
  • história clínica TAB
  • SCID comorbidade psiquiátricas (atual e
    passado)
  • avaliação de estado do humor (depressão e mania)
  • qualidade de vida
  • Dados de Seguimento
  • 36 variáveis categóricas de estado de humor
    DSMV depressão, mania, categoria do episódio,
    medicamentos fármaco e dose
  • Escala de depressão do humor HAMILTON (17, 21 e
    31 itens escores de 0-4 0-2)
  • Escala de Mania YOUNG (11 itens 0-8 0-4)
  • Critérios do DSM-IV
  • Conduta

38
(No Transcript)
39
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com