Title: TEORIA DA RESPOSTA AO ITEM: Conceitos, Modelos e Aplica
1TEORIA DA RESPOSTA AO ITEM Conceitos, Modelos e
Aplicações
- Dalton F. Andrade
- Departamento de Informática e Estatística UFSC
- dandrade_at_inf.ufsc.br
- www.inf.ufsc.br/dandrade
- IASI - X Seminario de Estadística Aplicada
Rosario 2006 - martes 11-13 y 14-16 miércoles 830-1030
2Tópicos
- Introdução
- Estatística em Avaliação Educacional
- Teoria da Resposta ao Item - TRI
- Conceitos
- Principais Modelos
- Aplicações em Educação e outras áreas
- Estimação na TRI e outros modelos
- Equalização
- Construção e interpretação da escala de
proficiência - Aspectos computacionais
3Referências iniciais TRI
- Lord, F.M., Norvick, M.R. (1968). Statistical
Theories of Mental Test Score. Reading
Addison-Wesley - Lord, F.M. (1980). Applications of Item Response
Theory to Practical Testing Problems. Hillsdale
Lawrence Erlbaum Associates - Hambleton, R.K., Swaminathan, H., Rogers, H.J.
(1991). Fundamentals of Item Response Theory.
Newburry Park Sage Publications. - Andrade, D.F., Tavares, H.R., Cunha, R.V. (2000).
Teoria da Resposta ao Item Conceitos e
Aplicações. São Paulo Associação Brasileira de
Estatística.
4Introdução Estatística em Avaliação Educacional
- Sistema Nacional de Avaliação da Educação Básica
SAEB (http//www.inep.gov.br/basica/saeb/ - Planejamento
- Amostragem
- Medida de Proficiência
- Estudo de Fatores Associados - HLM
-
5Introdução Estatística em Avaliação Educacional
- Foco nas gestões dos sistemas educacionais
- Realizado desde 1990. A partir 1995, passou a
fazer uso da TRI. - 1995, 1997, ..., 2003, 2005 (em análise).
- 4a. e 8a. séries do Ensino Fundamental e 3a.
Série do Ensino Médio. - Disciplinas Português, Matemática, ...
- Amostra de estudantes
- Proficiência do estudante
- Fatores Associados como características dos
estudantes, professores e escolas estão
relacionadas com a proficiências dos estudantes -
6Introdução Estatística em Avaliação
EducacionalProvas/Planejamento
- O número de itens (questões) requerido pelos
especialistas, para cada série e disciplina, é
maior do que um estudante pode responder em 2
horas. - Equalização obter resultados comparáveis (mesma
escala) para as 4a., 8a. and 3a. séries e também
ao longo do tempo. - Matemática, 3a. série 169 itens.
- - 13 conjuntos com 13 itens cada (169132)
- - Provas cadernos de provas com 3
conjuntos, total de 393x13
itens - - Total de 26 cadernos de provas
- - Itens de 8a. Série e também de anos
anteriores -
7Cadernos de Provas Planejamento em Blocos
Incompletos Balanceados - BIB
Estudantes de mesma série respondem diferentes
cadernos de provas, mas os cadernos de provas
possuem itens comuns
8Introdução Estatística em Avaliação
EducacionalAmostragem
- Dados de 2002
- Amostragem por conglomerado (escola) em dois
estágios, dentro de cada estrato - Estágio 1 escola
- Estágio 2 estudantes das escolas
selecionadas -
9Introdução Estatística em Avaliação Educacional
Medindo a Proficiência
- Medir a proficiência do estudante.
- Obter resultados comparáveis entre séries (4a.,
8a. EF e 3a. EM). - Obter resultados comparáveis entre anos para a
mesma série. - Diferentes provas entre anos, entre séries e
entre estudantes de uma mesma série. - Teoria Clássica (TC)
- Teoria da Resposta ao Item (TRI)
-
10Introdução Estatística em Avaliação Educacional
Análise de Fatores Associados
- Como as características dos estudantes,
professores e escola estão relacionadas com a
proficiência dos estudantes. - Modelos de regressão com estruturas especiais de
dependência. - Referências Básicas
- GOLDSTEIN, H. (2003). Multilevel
Statistical Models. 3a ed. London Edward
Arnold. - RAUDENBUSH, S. W. e BRYK, A. S. (2002).
Hierarchical Linear Models. 2a ed. Newbury Park
Sage. -
11Introdução Estatística em Avaliação Educacional
Análise de Fatores Associados
- Modelo de regressão
- Y f(X1, ..., Xp, W1, ..., Wq) Erro
- X características do estudante (gênero,idade,
anos de escolaridade dos pais, tempo
dedicado aos estudos fora da escola,...) - W características da escola (tipo de escola,
localização, práticas pedagógicas, atitudes do
diretor,...) - Erro independente, distribuição normal
-
12Introdução Estatística em Avaliação Educacional
Análise de Fatores Associados
- Modelagem hierárquica/multinível
- Model nulo
- Nível 1 estudante (i)
- proficij ?0j eij
- eij i.i.d. N(0,s2)
- Nível 2 escola (j)
- ?0j ?00 u0j
- u0j i.i.d. N(0,t00), independente de eij
- Variância total s2 t00 , Cov(proficij,
proficij) t00 -
13Introdução Estatística em Avaliação Educacional
Análise de Fatores Associados
- Alguns resultados do SAEB 2001
-
14Introdução Estatística em Avaliação Educacional
Análise de Fatores Associados
- Alguns resultados do SAEB 2001 Matemática
Grade
Fator 4th 8th 11th
Intercepto (ß0) 172,63 (1,75) 240,31 (1,48) 277,05 (2,07)
Gênero 3,86 (0,32) 14,27 (0,37) 18,93 (0,46)
Raça 1,04 (0,34) 3,16 (0,38) 2,52 (0,48)
Defasagem idade -4,15 (0,18) -6,72 (0,21) -8,25 (0,23)
Nível sócio-econômico 3,63 (0,21) 3,97 (0,25) 1,02 (0,30)
Tipo de escola 25,13 (1,10) 24,57 (1,23) 19,57 (1,46)
Nível sócio-econômico 13,62 (0,62) 14,27 (0,71) 20,77 (1,00)
Defasagem média -3,70 (0,49) -10,68 (0,49) -13,80 (0,70)
Procedimento seleção 3,27 (1,50) 12,89 (1,61) 17,28 (1,70)
15Teoria Clássica
- Baseada no escore total número de acertos
- Seus parâmetros dependem do grupo de respondentes
- Parâmetro de dificuldade proporção de acertos
- Correlação bisserial
- Parâmetro de discriminação
- proporção de acertos grupo superior grupo
inferior - Como comparar/representar proporção acertos aluno
4a. série com a proporção de acertos aluno 5a.
Série ? - Modelo
- X T Erro
-
16Teoria da Resposta ao Item (TRI)
- 1. O foco é no item e não no escore total, como
na Teoria Clássica. - 2. São modelos que relacionam um ou mais traços
latentes de um indivíduo, com a probabilidade
dele apresentar uma certa resposta ao item. - 3. Traço Latente proficiência/habilidade em
Matemática, Português, Ciências etc. - 4. Baseado nas respostas dadas por um ou mais
grupos de indivíduos, a um conjunto de itens,
desejamos - - estimar os parametros dos itens (processo
de calibração) - - estimar as proficiências dos indivíduos
- - estimar a proficiência média de um ou mais
grupos de indivíduos -
17Teoria da Resposta ao Item (TRI)
- 5. A probabilidade de uma certa resposta a um
item é modelada como função da proficiência do
indivíduo e os parâmetros que representam algumas
propriedades dos item. - 6. Modelo acumulativo quanto maior a
proficiência do indivíduo, maior a probabilidade
de uma resposta correta. - 7. Propriedade da invariância os parâmetros dos
itens e as proficiências são invariantes, exceto
pela escolha da escala (métrica). -
18Modelos da TRI
- Os modelos dependem do tipo do item
- Itens do tipo certo/errado (dicotômico) ou
corrigido como certo/errado (múltipla escolha,
aberto) - Modelo Logístico unidimensional, um grupo, com
1 (Rasch), 2 ou 3 parâmetros. -
19Modelo Logístico de 3 Parâmetros
- a parâmetro de discriminação
- b parâmetro de dificuldade (medido na mesma
escala da proficiência) - c parâmetro de acerto casual (probabilidade de
que um estudante com baixa proficiência responda
corretamente)
20Modelo Logístico de 3 Parâmetros
21Modelos da TRI
- Modelo Nominal modela todas as categorias de
resposta s1,2, ...,mi. - onde ais e bis são como no modelo logístico.
22Modelo Nominal
23Modelos da TRI
- Modelo de Resposta Gradual (categorias ordinais)
24Modelo de Resposta Gradual
25Outros Modelos da TRI
- Modelo de Crédito Parcial Modelo de resposta
gradual sem o parâmetro a (Rasch). - Modelo de Escala Gradual Modelo de resposta
gradual com bis bi ds - Modelo dos Grupos Múltiplos (dois ou mais
grupos). -
- Bock, R.D., Zimowski, M.F. (1997). Multiple group
IRT. In Handbook of Modern Item Response Theory.
W.J. van der Linden and R.K. Hambleton Eds. New
York Springer-Verlag
26Aplicações em Avaliação Educacional
- PISA Programme for International Student
Assessment (Programa Internacional de Avaliação
de Alunos) - - anos 2000(Leitura), 2003(Matemática),
2006(Ciências) - - alunos com 15 anos (independente da série)
- - itens de múltipla escolha e itens abertos
(corrigidos 0,1,2) - - modelo de 1 parâmetro (somente parâmetro b
dificuldade) - - esquema BIB
- - 32 países em 2000 OCDE convidados
- - http//www.inep.gov.br/internacional/pisa/
27Aplicações em Avaliação Educacional
- Públicas Estaduais/Municipais
- SARESP (São Paulo)
- SPAECE (Ceará)
- SAEPE (Pernambuco)
- Município do Rio de Janeiro
- Município de São Paulo
- Privadas
- SIMA Sistema Marista de Avaliação
- Fundação Bradesco
28Outras Aplicações da TRI em Educação
- Educação Estatística
- ? extensão do uso de estatística no local de
trabalho. - Questionário com 46 técnicas estatísticas e
métodos de pesquisa (itens). - Harraway, J.A. and Barker, R.J. (2005).
Statistics in the workplace a survey of use by
recent graduates with higher degrees. Statistics
Education Research Journal, 4(2), 43-58,
http//www.stat.auckland.ac.nz/serj - Harraway, J.A., Andrade, D.F.(2006). An item
response analysis of statistics use in the
workplace. (apresentado no ICOTS7, Salvador)
29Outras Aplicações da TRI em Educação
- Educação Médica
- Avaliar o desempenho do aluno de curso de
medicina - Prova realizada uma vez por ano por todos os
alunos (1a.-6a.) - Comissão de avaliação do curso de medicina da
UEL, PR - Sakai, M., Mashima, D., Ferreira Filho, O.F.,
Matsuo, T.
30Aplicações da TRI em outras áreas
- Qualidade de Vida
- Mesbah, M., Cole, B.F. and Lee, M.L.T.(2002). Ed.
Statistical methods for quality of life studies
design, measurements and analysis. Boston Kluwer
Academic Publishers
31Aplicações da TRI em outras áreas
- HIT (Headache Impact Test) medir o impacto
causado por dor de cabeça em diferentes situações
(no trabalho, em casa e em ocasiões sociais). - Ware, J.E., Bjorner, J. B., Kosinski, M. (2000).
Practical Implications of Item Response Theory
and Computerized Adaptive Testing. A Brief
Summary of Ongoing Studies of Widely Used
Headache Impact Scales. Medical Care, v.38. - www.amihealthy.com
32Aplicações da TRI em outras áreas
- Medir o Grau de Satisfação do Consumidor
- Costa, M.B.F. (2001). Técnica derivada da teoria
da resposta ao item aplicada ao setor de
serviços. Dissertação de Mestrado PPGMUE/UFPR - Bortolotti, S.L.V. (2003). Aplicação de um modelo
de desdobramento da teoria da resposta ao item
TRI. Dissertação de Mestrado. EPS/UFSC. - Bayley, S. (2001). Measuring customer
satisfaction. Evaluation Journal of Australasia,
v. 1, no. 1, 8-16.
33Aplicações da TRI em outras áreas
- Psiquiatria/Psicologia
- Escalas psiquiátricas
- Inventário de depressão de Beck (BDI)
- Escala de sintomas Depressivos (CES-D)
- Escala de rastreamento de dependência de sexo
(ERDS) - Schaeffer, N. C. (1988). An Application of Item
Response to the Measurement of Depression.
Sociological Methodology, 18, 271307. - Embretson, S. E. and Reise, S. P. (2000). Item
response theory for psychologists. New Jersey
Lawrence Erlbaum Associates, Inc., Publishers..
34Aplicações da TRI em outras áreas
- Psiquiatria/Psicologia
- Coleman, M. J., Matthysse, S., Levy, D. L., Cook,
S., Lo, J. B. Y.,Rubin, D. B. and Holzman, P. S.
(2002). Spatial and object working memory
impairments in schizophrenia patients a bayesian
item-response theory analysis. Journal of
Abnormal Psychology, 111, number 3, 425-435. - Hays, R., Morales, L. S. e Reise, S. P. (2000).
Item response theory and health outcomes
measurement in the 21st century, Medical Care,
v.38. - Kirisci, L., Hsu, T. C. e Tarter, R. (1994).
Fitting a two-parameter logistic item response
model to clarify the psychometric properties of
the drug use screening inventory for adolescent
alcohol and drug abusers, Alcohol Clin. Exp. Res
18 13351341.
35Aplicações da TRI em outras áreas
- Psiquiatria/Psicologia
- Langenbucher, J. W., Labouvie, E., Sanjuan, P.
M., Bavly, L., Martin, C. S. e Kirisci, L.
(2004). An application of item response theory
analysis to alcohol, cannabis and cocaine
criteria in DSM-IV, Journal of Abnormal
Psychology 113 7280. - Yesavage JA, Brink TL Rose TL et al. (1983).
Development and validation of a geriatric
depression screening scale a preliminary report.
J Psychiat Res, 1737-49.
36Aplicações da TRI em outras áreas
- Nutrição
- Diagnóstico de insegurança alimentar Escala
Brasileira de Medida de Segurança Alimentar -
EBIA. - Profa. Ana Maria Segall Corrêa Dep. Medicina
Preventiva e Social FCM/UNICAMP - Parke E. Wilde, Gerald J. and Dorothy R. Friedman
(2004). Differential Response Patterns Affect
Food-Security Prevalence Estimates for Households
with and without Children. J. Nutr.134
19101915.
37Aplicações da TRI em outras áreas
- Serviço Médico
- Jishnu Das, Jeffrey Hammer (2005). Which doctor?
Combining vignettes and item response to measure
clinical competence. Journal of Development
Economics 78, 348-383 - Genética
- Tavares, H. R. Andrade, D. F. Pereira, C.A.
(2004) Detection of determinant genes and
diagnostic via item response theory. Genetics and
Molecular Biology, v. 27, n. 4, p. 679-685.
38Aplicações da TRI em outras áreas
- Gestão pela Qualidade Total
- Alexandre, J.W.C., Andrade, D.F., Vasconcelos,
A.P. e Araújo, A.M.S.(2002). Uma proposta de
análise de um construto para a medição dos
fatores críticos da gestão pela qualidade através
da teoria da resposta ao item. Gestão Produção,
v.9, n.2, p.129-141
39Estimação na TRI
- Independência entre as respostas dos estudantes.
- Independência entre as respostas dadas aos itens,
para uma dada proficiência (local ou
condicional). - Baker, F.B., Kim, S-H.(2004). Item Response
Theory parameter estimation techniques. New
Yook Marcel Dekker, Inc. 2nd Edition.
40Estimação na TRI
- Uma população
- Máxima verossimilhança conjunta
-
- onde U(uij) é a matriz das respostas (NxI)
e ? é o vector(qIx1) dos parâmetros dos itens.
Para o modelo logístico de 3 parâmetros, q3.
41Estimação na TRI
- Máxima verossimilhança conjunta
-
- Precisamos encontrar os valores de ? and ?
que maximizam logL. - Técnica Iterativa Newton-Raphson.
- Precisamos das derivadas parciais de 1a. e
2a. de logL com respeito a ? e ?. - Indeterminação existem diferentes valores de
? e b que fornecem o mesmo valor de Pij. - Uma solução ?s com média 0 e desvio padrão
1, escala (0,1)
42Estimação na TRI
- Máxima verossimilhança marginal
- A idéia básica é libertar o processo de
estimação dos parâmetros dos itens de sua
dependência de ?. - Passo 1 estimação dos parâmetros dos itens.
- Passo 2 assumindo que as estimativas dos
parâmetros dos itens são seus verdadeiros
valores, estimamos os ?s.
43Estimação na TRI
- Máxima verossimilhança marginal
- g(??) é a distribuição de ?, com parâmetros
?(µ,s2). Em geral, consideramos a normal padrão
(µ 0 e s1).
44Estimação na TRI
- Máxima verossimilhança marginal
- As estimativas dos parâmetros dos itens são os
valores de ? que maximizam L(?,?). - Algoritmo EM U e ? são os dados completos,
e U é dado observado. - Assumindo ? conhecido, voltamos para
L(?,?) L(?) e maximizamos para ?.
45Estimação na TRI
- Estimação Bayesiana
- Distribution a priori para a Lognormal
- Distribution a priori para b Normal
- Distribution a priori para c Beta
- Fornece estimativas para todos os itens com
u1 or u0 para todos os respondentes. A
estimação por máxima verossimilhança não fornece. - O mesmo para todos os respondentes que
reponderam u1 or u0 para todos os itens.
46Estimação na TRI
- Duas ou mais populações
- Caso 1 Estimação para cada população em
separado. - requer uma equalização a posteriori
para termos todos os resultados na mesma
escala (métrica). - Caso 2 Estimação envolvendo todas as
populações ao mesmo tempo. - Enfoque de Grupos Múltiplos
Estabelecemos uma das populações (grupos)
como a referência, e obtemos todos os
resultados na mesma escala. Por exemplo,
estabelecemos a escala (0,1) para a população
1, e todos os resultados das outras
populações estarão na mesma escala.
47Resultados do SAEB
48Modelos mais recentes da TRI
- Modelos Longitudinais estudantes são
acompanhados ao longo do tempo. - Andrade, D.F. Tavares, H.R. ( 2005). Item
response theory for longitudinal data population
parameter estimation. Journal of Multivariate
Analysis 95,1 22. - Tavares, H.R., Andrade, D.F.(2006). Item response
theory for longitudinal data item and population
ability parameters estimation. Test 15(1),
97-123.
49Exemplo Dados Longitudinais
- International Project on Mathematical Attainment
- IPMA (Profa. Ednéia Consolin Poli UEL)
50Modelos mais recentes da TRI
- Modelando a Proficiência Média curva de
crescimento - µk f(tk,a)
- Tavares, H.R., Andrade, D.F.(2005). Growth curve
models for longitudinal item response data.
Presented at AERA2005 in Montreal.
51Modelos mais recentes da TRI
- Modelos de Desdobramento
- São modelos não acumulativos
- São bastante utilizados em estudos de
atitudes - Roberts, J. S., Laughlin, J. E. A.(1996)
Unidimensional item response model for unfolding
responses from a graded disagree-agree response
scale. Applied Psychological Measurement, 20, p.
231-255. - Roberts, J. S., Donoghue, J.R., Laughlin, J.
E.(2000) A general model for unfolding
Unidimensional polychromous responses using item
response theory. Applied Psychological
Measurement, 24, p. 3-32. - Roberts, J. S., LIN, Y., Laughlin, J. E.(2001)
Computerized adaptive testing with the
generalized graded unfolding model. Applied
Psychological Measurement, 25, p. 177-196.
52Modelos mais recentes da TRI
- Modelos Multidimensionais mais de uma dimensão
para representar o traço latente - Mislevy, R.J. (1986). Recent development in the
factor analysis of categorical data. Journal of
Educational Statistics, 11, 3-31. - Wood, R., Wilson, D., Gibbons, R., Schilling, S.,
Muraki, E., Bock, D. (2003). Testfact 4 Test
Scoring, Item Statistics and Item Factor
Analysis. Chicago scientific Software, Inc.
53Modelos mais recentes da TRI
- Modelos Multidimensionais mais de uma dimensão
para representar o traço latente - Reckase, M. D. (1997). A linear logistic
multidimensional model for dichotomous item
response data. In W. J. Linden R. K. Hambleton
(Eds.), Handbook of modern item response theory
(pp. 271-286). New York Springer. - Nojosa, R. T. (2001). Modelos Multidimensionais
para a Teoria da Resposta ao Item. Dissertação de
Mestrado. Departamento de Estatística.
Universidade Federal de Pernambuco.
54Modelos mais recentes da TRI
- Modelos Multivariados mais de um traço latente
para o mesmo aluno matemática e português. - Matos, G. S. (2001). Teoria da Resposta ao Item
Uma Proposta de Modelo Multivariado. Dissertação
de Mestrado. Departamento de Estatística.
Universidade Federal de Pernambuco. - Exemplo Projeto FUNDESCOLA / INEP-MEC
- Alunos de 4a. série (1999) acompanhados até a
8a. série (2003) - Longitudinal - Disciplinas matemática e Português - Bivariado
- Dados Incompletos alunos podem sair e entrar
55Equalização
- Resultados de diferentes provas em uma mesma
escala - Exemplo SAEB (entre séries e anos)
- Como obter resultados comparáveis?
- Itens comuns entre séries e anos
- Kolen, M.J., Brennan, R.L. (2004). Test Equating
Methods and Practices (2nd ed.). New York
Springer. -
56Equalização
- Calibração (estimação dos parâmetros dos itens)
em separado para cada uma das populações
envolvidas - Equalização pelo princípio da invariância a
posteriori - Exemplo dados do SARESP (estado de São Paulo)
- 3a. série 96 28 itens (abril)
- 4a. série 97 30 itens (abril)
- 3a. série 97 32 itens (novembro)
- 11 itens comuns entre 3a. 96 e 3a. 97
- 21 itens comuns entre 4a. 96 e 3a. 97
-
57Equalização
58Equalização
59Equalização
- Calibração simultânea Modelo dos Grupos
Múltiplos - Questões
- - Número e distribuição de itens comuns
- - Como posicionar novos grupos em uma escala
já construída - - Avaliações Estaduais e outras itens
calibrados itens novos - Andrade, D.F. (2001). Desempenhos de grupos de
alunos por intermédio da teoria da resposta ao
item. Estudos em Avaliação Educacional, no. 23,
31-70.
60Construindo e Interpretando Escala
- Beaton, A.E., Allen, N.L. (1992). Interpreting
scales through scale anchoring. Journal of
Educational Statistics, 17, 191-204. - Valle, R.C. (2001). Construção e interpretação de
escalas de conhecimento um estudo de caso.
Estudos em Avaliação Educacional, no. 23, 71-92.
61Construindo e Interpretando Escala
- Educação Estatística
- ? extensão do uso de estatística no local de
trabalho. - Questionário com 46 técnicas estatísticas e
métodos de pesquisa (itens). - Harraway, J.A. and Barker, R.J. (2005).
Statistics in the workplace a survey of use by
recent graduates with higher degrees. Statistics
Education Research Journal, 4(2), 43-58,
http//www.stat.auckland.ac.nz/serj - Harraway, J.A., Andrade, D.F.(2006). An item
response analysis of statistics use in the
workplace. (apresentado no ICOTS7, Salvador)
62Construindo e Interpretando Escala
63Construindo e Interpretando Escala
- Escala Nacional de Proficiência INEP/MEC
- Régua (métrica) criada a partir dos resultados
do SAEB - - Média 250 (rendimento médio dos alunos da 8a.
Série em 1997) - - Desvio padrão 50
- - http//www.inep.gov.br/download/saeb/2004/
resultados/BRASIL.pdf