Title: Data Mining: Ferramenta JAVA
1Data Mining Ferramenta JAVA
2JAVA para Data Mining
- Weka 3 Data Mining Software em Java
- http//www.cs.waikato.ac.nz/ml/weka/
- Coleção de algoritmos para as tarefas de data
mining - Free software.
3WEKA JAVA para Data Mining
- Os algoritmos podem ser aplicados diretamente a
um dataset ou chamados de um programa em Java - O Weka contém ferramentas para o
pré-processamento de dados, regras de associação,
classificação, regressão, agrupamento, e
visualização - Pode ainda ser utilizado para desenvolver novos
esquemas de aprendizagem de máquina.
4WEKA JAVA para Data Mining
- Arquivo .jar
- Uso em linha de comando
- Uso em ambiente de exploração
- Uso em ambiente de experimentação
- Entrada de dados arquivo no formato .arff
5WEKA JAVA para Data Mining
- Arquivo .arff
- Nome do dataset
- Descrição dos atributos e de seus domínios
- Apresentação das instâncias.
- Bases de dados clássicas (UCI)
- http//archive.ics.uci.edu/ml/
6WEKA JAVA para Data Mining
- _at_relation paoeleite
- _at_attribute leite yes, no
- _at_attribute cafe yes, no
- ...
- _at_data
- no, yes, no, yes, yes, no, no
- yes, no, yes, yes, yes, no, no
- no, yes, no, yes, yes, no, no
- yes, yes, no, yes, yes, no, no
- no, no, no, no, yes, no, no
- ...
7WEKA JAVA para Data Mining
- Carga do arquivo
- Análise dos atributos e seus valores
- Indicação de pré-processamento
- Escolha da tarefa de data mining
- Escolha do algoritmo a aplicar
- Acerto dos parâmetros
- Execução
- Análise dos resultados de saída.
8WEKA JAVA para Data Mining
- Run information
- Scheme weka.associations.Apriori -N 10 -T 0 -C
0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 - Relation paoeleite
- Instances 9
- Attributes 7
- leite
- cafe
- cerveja
- pao
- manteiga
- arroz
- feijao
- Associator model (full training set)
9WEKA JAVA para Data Mining
- Apriori
-
- Minimum support 0.6
- Minimum metric ltconfidencegt 0.9
- Number of cycles performed 8
- Generated sets of large itemsets
- Size of set of large itemsets L(1) 7
- Size of set of large itemsets L(2) 12
- Size of set of large itemsets L(3) 6
10WEKA JAVA para Data Mining
- Best rules found
- 1. leiteno 7 gt cervejano 7 conf(1)
- 2. manteigayes 5 gt arrozno feijaono 5
conf(1) - 3. manteigayes arrozno 5 gt feijaono 5
conf(1) - 4. manteigayes feijaono 5 gt arrozno 5
conf(1) - 5. paoyes 5 gt arrozno feijaono 5
conf(1) - 6. paoyes arrozno 5 gt feijaono 5
conf(1) - 7. paoyes feijaono 5 gt arrozno 5
conf(1) - 8. leiteno feijaono 5 gt cervejano 5
conf(1) - 9. leiteno arrozno 5 gt cervejano 5
conf(1) - 10. leiteno cafeno 5 gt cervejano 5
conf(1)
11WEKA JAVA para Data Mining
- Exemplo de classificação (arquivo weather)
- _at_relation weather
- _at_attribute outlook sunny, overcast, rainy
- _at_attribute temperature real
- _at_attribute humidity real
- _at_attribute windy TRUE, FALSE
- _at_attribute play yes, no
- _at_data
- sunny,85,85,FALSE,no
- sunny,80,90,TRUE,no
- overcast,83,86,FALSE,yes
- rainy,70,96,FALSE,yes
- ...
12WEKA JAVA para Data Mining
- Carga do arquivo
- Análise dos atributos e seus valores
- Indicação de pré-processamento
- Escolha da tarefa de data mining
- Escolha do algoritmo a aplicar
- Acerto dos parâmetros
- Execução
- Análise dos resultados de saída.
13WEKA JAVA para Data Mining
- Run information
- Scheme weka.classifiers.trees.J48 -C 0.25 -M 2
- Relation weather
- Instances 14
- Attributes 5
- outlook
- temperature
- humidity
- windy
- play
- Test mode split 66 train, remainder test
14WEKA JAVA para Data Mining
- Classifier model (full training set)
- J48 pruned tree
- ------------------
- outlook sunny
- humidity lt 75 yes (2.0)
- humidity gt 75 no (3.0)
- outlook overcast yes (4.0)
- outlook rainy
- windy TRUE no (2.0)
- windy FALSE yes (3.0)
- Number of Leaves 5
- Size of the tree 8
- Time taken to build model 0.07 seconds
15WEKA JAVA para Data Mining
- Evaluation on test split
- Summary
- Correctly Classified Instances 2 40
- Incorrectly Classified Instances 3 60
- Kappa statistic -0.3636
- Mean absolute error 0.6
- Root mean squared error 0.7746
- Relative absolute error 126.9231
- Root relative squared error 157.6801
- Total Number of Instances 5
-
16WEKA JAVA para Data Mining
- Detailed Accuracy By Class
- TP Rate FP Rate Precision Recall F-Measure
Class - 0.667 1 0.5 0.667 0.571
yes - 0 0.333 0 0 0
no - Confusion Matrix
- a b lt-- classified as
- 2 1 a yes
- 2 0 b no
17Uma aplicação do WEKA
- Análise de um procedimento de data-mining
- Descrição do problema alvo
- Objetivos da tarefa, caracterização
- Indicativos do pré-processamento
- Criação de base de teste
- Aplicação do algoritmo selecionado na base
- Avaliação dos resultados.
18Uso do WEKA
- Dowloads, tutoriais, documentação, faqs, how
tos - A partir de http//www.cs.waikato.ac.nz/ml/weka/
- Exemplo tutorial introdutório de Alex K.
Seewald - http//alex.seewald.at/WEKA/
19Uso do WEKA
- (No tutorial introdutório de Alex K. Seewald)
- Appendix A How to call WEKA from Java
-
20Uso do WEKA
- Ou ainda
- Weka API http//weka.sourceforge.net/doc/
-
21WEKA conclusão
22Ferramentas de Data Mining
- Modelo Comparativo
- Características relacionadas ao problema
- Acesso a fontes heterogêneas de dados
- Integração de conjuntos de dados.
23Ferramentas de Data Mining
- Modelo Comparativo
- 2) Características relacionadas aos recursos
- Facilidade para inclusão de novas operações
- Facilidade para inclusão de novos métodos
- Recursos para o planejamento de ações
- Processamento paralelo e distribuído
- Operações e métodos disponíveis.
24Ferramentas de Data Mining
- Modelo Comparativo
- 3) Características relacionadas aos resultados
- Estruturas para o armazenamento de modelos de
conhecimento - Estruturas para o armazenameno de históricos de
ações.
25Ferramentas de Data Mining
Nome Tarefas de KDD Fabricante
SPSS Clementine Classificação, regras de associação, sequências, deteção de desvios www.spss.com
PolyAnalyst Classificação, regressão, regras de associação, clusterização, sumarização, deteção de desvios www.megaputer.com
Weka Classificação, regressão, regras de associação, clusterização, www.cs.waikato.ac.nz
Darwin Classificação en.wikipedia.org/wiki/thinking_machines
Intelligent Miner Classificação, regras de associação, sequências, clusterização, sumarização www.ibm.com
26Ferramentas de Data Mining
Nome Tarefas de KDD Fabricante
WizRule Sumarização, classificação, deteção de desvios www.wizsoft.com
Bramining Classificação, regras de associação, regressão, sumarização www.graal-corp.com.br
SAS Interprise Miner Classificação, regras de associação, regressão, sumarização www.sas.com
Oracle Data Miner Classificação, regressão, associação, clusterização e mineração de textos www.oracle.com
27Metodologia para Data Mining
- Visão Geral
- O que fazer ?
- Levantamento inicial
- Definição dos objetivos.
- 2) Como fazer ?
- Planejamento de atividades
- Execução dos planos de ação
- Avaliação dos resultados.
28Metodologia para Data Mining
- Levantamento inicial
- Identificação de pessoas e áreas envolvidas
- Levantamento de hardware e software
- Inventário das bases de dados disponíveis
- Verificar a existência de datawarehouses
- Analisar significado e relevância de atributos
- Esboçar lista de necessidades e expectativas dos
usuários - Avaliar a quantidade de dados disponíveis
- Identificar e documentar o conhecimento
previamente existente e disponível.
29Metodologia para Data Mining
- Definição dos objetivos
- Exige forte interação entre o analista de KDD e
os especialistas no domínio - Deve-se identificar as expectativas identificadas
e validá-las com os especialistas - Em seguida deve-se analisar a tarefa de mineração
de dados. - Planejamento das Atividades
- Identificar os métodos disponíveis
- Escolha entre os métodos
- Analisar o pré-processamento necessário.
30Metodologia para Data Mining
- Execução dos planos de ação
- Execução dos método definido na etapa anterior
- Estudos de parâmetros e experimentação
- Avaliação dos resultados
- Avaliação da correção e demais medidas de
performance - Analise dos resultados frente aos objetivos
definidos e seu atendimento.
31Metodologia para Data Mining
- Exemplos de aplicação
- Telefonia
- Franquia de fast-food
- Ação social
- Educação
- Área médica
- Área financeira.