Nutzen f - PowerPoint PPT Presentation

About This Presentation

Title:

Nutzen f

Description:

Title: Comparison of the NEO-FFI, EPP, 16PF-R, EPQ-R and TIPI Extraversion Scale: A new approach to proofing content validity by comparing the Rasch-scaled variance ... – PowerPoint PPT presentation

Number of Views:151

Avg rating:3.0/5.0

Slides: 62

Provided by: jmm56

Category:

more less

Transcript and Presenter's Notes

Title: Nutzen f

1
Nutzen für die psychologische Diagnostik aus der
Interpretation geschätzter raschskalierter
Personenparametervarianzen

J. M. Müller
Universität Tübingen

2
Gliederung

Theorie Variabilität in psychologischen
Eigenschaften
Daten Test-Meta-Analyse-Projekt
Methode Aspekte der Schätzung von Raschvarianzen
Anwendung Anwendungsgebiete

3
Personen Variabilität in psychologischen
Eigenschaften

Die psychometrisch basierte Persönlichkeitspsychol
ogie ging bislang davon aus, dass Personen in
verschiedenen Dimensionen vergleichbare
Variabilität aufweisen.

Dichte
Psychologische Dimension I
Die klassische Testtheorie kann
Variabilitätsunterschiede in verschiedenen
Dimensionen nicht darstellen. Innerhalb des
Raschmodels lässt sich hingegen ein Ansatz
ableiten.
4
Das Schach-Beispiel(aus Müller, 2002)
5
Das Schach-Beispiel
6
Transfer zum Rasch Model(Fienberg Larntz,
1976, Brogden, 1977 Andrich, 1978 Engelhard,
1984 Mellenbergh Vijn, 1981 Jansen, 1984 )

Spieler B wird zur Aufgabe b für Spieler A. Die
Differenz zwischen zwei Personen wird nun
definiert über die Differenz der
Wahrscheinlichkeit eine Aufgabe b zu lösen.

7
Interpretation einer Rasch Skalen Einheit
8
True Rasch Variances als Maß für die Variabilität
9
True Rasch Variances als Maß für die Variabilität
10
2. DATEN Das TEST-META-ANALYSE-PROJEKT
Anzahl psychologischer Dimensionen gt 92
Anzahl abgeschlossener IRT-Analysen gt 880
Anzahl der Personumfänge 150 lt n lt 3700
Item-Response-Software BilogMG, Parscale, Winmira, Bigsteps
SAS-Macros zum Auslesen der Programm-Codes und
des Outputs für BilogMG, PARSCALE Winmira und
bigsteps
11
Mein Dank an

und Studenten für die Analysen
Tina Fechter
Magnus Pagendarm
Mildred Girndt
Susana Ruiz
Daniel Kostatinov

Die Testauthoren und Verlage für die Daten
Paul Barrett EPQ-R English
Willibald Ruch EPQ-R German
Piotr Brzozowski EPQ-R Polish
Anton Aluja EPQ-R Spanish
Peter Borkenau NEO-FFI
Jochen Fahrenberg FPI-R
Peter Becker TIPI
Stephan Bulheller EPP
SWETS, SCHUHFRIED, HOGREFE
und weitere.

Foundation Strukturfond der Universität
Tübingen Kap. 1415
12
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen

SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
MESSFEHLER
IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
MODEL-FIT/ROBUSTHEIT
SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
LINK-FUNKTIONEN (Logit, Normal-Ogive)
BODEN-UND-DECKEN-EFFEKTE

13
Interaktionen zwischen den Einflussgrößen
SOFTWARE
ROBUSTHEIT
MESSFEHLER
TRV
SCHÄTZALGORITHMEN
IRT-MODEL
LINK-FUNKTIONEN
MODEL-FIT
BODEN-UND-DECKEN-EFFEKTE
14
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen

SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
MESSFEHLER
IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
MODEL-FIT/ROBUSTHEIT
SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
LINK-FUNKTIONEN (Logit, Normal-Ogive)
BODEN-UND-DECKEN-EFFEKTE

15
Einfluss der IRT-Software auf die Schätzung der
Personenparametervarianz
Liste von IRT-Software

A Fortran Program (Fischer Scheiblechner,
1970)
LOGISTIC (Wood, Wingersky Lord, 1976)
BMD (Dixon Brown, 1977)
ECTA (Goodman Fay, 1974)
BICAL (Wright Mead, 1977)
DICOT (Masters, 1984)
MULTIRA (Carstensen Rost, 1998)
ICL (Hanson, 2002)
XCALIBRE (Luecht, Gierl Ackermann, 1996)
LATENT GOLD (Vermunt Maqidson, 2000)
SAS-Macro (Christensen Bjorner, 2003)

WINSTEPS (Linacre Wright, 1999)
BIGSTEPS (Linacre Wright, 2003)
WINMIRA (Davier, 1998)
BILOG-MG (Zimowski, Muraki, Mislevy Bock,
2003)
PARSCALE (Muraki Bock, 2003)
QUEST (Adams Khoo, 2003)
ConQuest (Wu, Adams Wilson, 1997)
TESTFACT (Wood, 2003)
MULTILOG (Thissen, 2003)

16
Einfluss der IRT-Software-Optionen auf die
Schätzung der Personenparametervarianz am
Beispiel der Parscale- und BilogMG-Optionen
PARSCALE gtCALIB GRADED/PARTIAL, LOGISTIC/NORMAL,
SCALEn, NQPTn, DIST n, CYCLES (list), CRIT
(list), DIAGNOSIS n, QRANGE (list), ITEMFIT
n, FREE(list), RIDGE(list), NEWTON n,
POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR,
TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL,
NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER gtSCORE
NQPT n, DIST n, QRANGE (list), SMEAN n,
SSD n, NAME n, PFQ n, SCORING STANDARD /
CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE,
SAMPLE, RESCALE, NOADJ, FIT, NRATER Auszug aus
Parscale 4.0 Help
BILOGMG gtCALIB NQPTa, CYCLESb, NEWTONc,
PRINTd, CRITe, IDISTf, PLOTg, DIAGNOSISh,
REFERENCEi, SELECT(list), RIDGE(list),
ACCELn, NSDo, COMMON, EMPIRICAL, NORMAL, FIXED,
TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR,
NOGPRIOR, READPRIOR, NOFLOAT, FLOAT, NOADJUST,
GROUP-PLOT, RASCH, NFULL, CHI(list) Auszug aus
BILOGMG 3.0 Help
17
Einfluss der verwendeten Software
SimulationsstudieTRS 0.25 bis 4.00 (.25)
N1000 Items20
geschätze TRS_est
Bigsteps
ca. 1 RaschUnit
Winmira
BilogMG
Parscale
Wahre TRS
18
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen

SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
MESSFEHLER
IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
MODEL-FIT/ROBUSTHEIT
SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
LINK-FUNKTIONEN (Logit, Normal-Ogive)
BODEN-UND-DECKEN-EFFEKTE

19
Einfluss des Messfehlers auf die Rasch Varianz
(Lord, 1983)
Die empirische Varianz ist dann
Wir fassen eine Schätzung auf als
(2)
(1)
Wir korrigieren die ORV zur TRV
Wir kennen das Verhältnis...
(3)
(4)
ORV Observed Rasch Variance TRV True Rasch
Variance ERV Error Rasch Variance
20
Die Wahl des Reliabilitätsschätzer ist nicht
unerheblichZusammenhang zweier
Reliabilitätsschätzungen
21
Explizite Unterscheidung der Theoretische
Reliabilität vs. Empirische Reliabilität in
Bigsteps(ebenfalls in BilogMG) (Thissen
Wainer, 1982 Embretson, 1999 Linacre, 2003)
SUMMARY OF 1500 MEASURED VPNS -----------------
------------------------------- RAW
MODEL
SCORE COUNT MEASURE ERROR
-----------------------------------------------
- MEAN 34.4 58.8 .42 .29
S.D. 6.9 3.7 .55
.02 MAX. 53.0 61.0 2.15
.62 MIN. 4.0 13.0 -1.74
.28 ---------------------------------------
--------- REAL RMSE .30 ADJ.SD .46 VPN
RELIABILITY .70 MODEL RMSE .29 ADJ.SD .46
VPN RELIABILITY .71 ---------------------------
---------------------
Bigsteps Output
ORS
TRS
22
Die Reliabilität beeinflusst die ORV, aber nicht
die TRV Beispiel des SPM (N1500) (Anmerkung r
reli, cronbach 0.976)
Rasch Varianzen Personen
Zufällig Itemreduktion
ORV
TRV
0.5 1.0 1.5 2.0
Reliabilität
10 20 30 40 50
60 Anzahl an Items
23
Während die Reliabilität die ORV beeinflusst,
beeinflusst dagegen die TRV die Reliabilität
Simulationsstudie TRS 0.25 bis 4.00 (.25)
N1000 Items20
24
Konsequenz Variationsreiche Eigenschaften sind
,unter sonst gleichen Bedingungen reliableram
Beispiel der EPQ-R(S) Skalen (Itemanzahl
zwischen 15 und 25)
Cronbach Reliabilität, N40, rspear.71, sign.
Software Reliabilität N40, rspear. 44, sign.
0 0.25 .5 0.75 1.0
0 0.25 .5 0.75 1.0
0 1 2 0 1
2 TRV
25
Ohne Eingrenzung auf Skalen mit ca. 20 Itemsam
Beispiel aller EPQ-R(S) Skalen Deutsch,
Spanisch, Englisch, Polnisch
Cronbach Reliabilität, N87, r.60, sign.
Software Reliabilität N87, r.32, sign.
0 0.25 .5 0.75 1.0
0 0.25 .5 0.75 1.0
0 1 2 3 0 1
2 3 TRV
26
Erklärung Relativer Anteil des
Model-vorhergesagten Standardfehlers SE an der
wahren Raschvarianz TRV
TRV 2
TRV 1
SE1,2
27
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen

SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)
MESSFEHLER
IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
MODEL-FIT/ROBUSTHEIT
SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
LINK-FUNKTIONEN (Logit, Normal-Ogive)
BODEN-UND-DECKEN-EFFEKTE

28
Erklärung Variierender Trennschärfen auf das TRV

Lösungs-wahrscheinlichkeit
ß 1
Konstante Differenz
ß 0.5
q
q
q

C
B
A
29
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen

SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
MESSFEHLER
IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
MODEL-FIT/ROBUSTHEIT
SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
LINK-FUNKTIONEN (Logit, Normal-Ogive)
BODEN-UND-DECKEN-EFFEKTE

30
Wie robust sind TRV-Schätzungen gegenüber
Modellverletzungen?

Mögliche Modelverletzungen
Falsche Modellwahl (z.B. 1PL statt 2PL)
Differential-Item-Functioning (Items sind für
Subgruppen verschieden schwer)
Antworttendenzen in Subgruppen (testbar über
Mixed-Rasch-Modelle Rost Carstensen)
Verletzung der Annahme lokal stochastischer
Unabhängigkeit (Prüfung über T-Rasch, Ponocny
Residualanalysen, H. Müller, 2003, MethEval,
Wien)
Inhomogene Personen (Person-Fit)
Inhomogene Items (Item-Fit)

31
Wie robust sind TRV-Schätzungen gegenüber
Modellverletzungen?Am Beispiel vier
verschiedensprachiger EPQ-R(S) Skalen
Neurotizismus
Psychotizismus
Lügen
Extraversion
Deutsch
Spanisch
Polnisch
Englisch
32
Einfluss von Model-Verletzungenam Q-Index am
Beispiel der EPQ-R
Neurotizismus
Psychotizismus
Lügen
Extraversion
Items
Deutsch
8 5
10 10
6 5
9 12
32
25
22
23
102
Spanisch
1 0
3 2
3 2
3 3
12
12
12
12
48
Polnisch
90
1 13
5 6
6 8
6 13
23
32
14
21
Englisch
5 6
4 3
8 11
3 0
24
21
23
32
100
Q-Index
negativ positiv
33
Einfluss von Model-VerletzungenItemselektion
nach Q-Indexam Beispiel des EPQ-R Deutsch
Extraversion
Itemanzahl
34
Voraussetzungen zur Interpretation von TRVam
Beispiel des EPQ-R DeutschItemuntergrenze von 10
Neurotizismus
Extraversion
Lügen
Psychotizismus
35
Voraussetzungen zur Interpretation von
TRVItemuntergrenze von 10
Deutsch
Englisch
Spanisch
Polnisch
36
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen

SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
MESSFEHLER
IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
MODEL-FIT/ROBUSTHEIT
SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
LINK-FUNKTIONEN (Logit, Normal-Ogive)
BODEN-UND-DECKEN-EFFEKTE

37
Einfluss der Schätzalgorithmen

Schätzalgorithmen
MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB,
h-estimators, biweight and jackknifed
estimators/robustification
Direct Estimation (Mislevy 1984 Cohen Jiang,
2002 v. Davier, 2003) in ConQuest
Simulationsstudien
Samejima, 1993 Hoijtink Boomsma, 1993, 1995,
1996 Kim Nicewander, 1993 Warm, 1989 Rigdon
Tsatakawa, 1983)

38
Einfluss der SchätzalgorithmenMLE vs. WML
Mean Std Dev N Pr gt t 0.01
0.32 131 0.696
39
3. METHODE Aspekte der Schätzung
raschskalierter Personenparametervarianzen

SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)
MESSFEHLER
IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)
MODEL-FIT/ROBUSTHEIT
SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)
LINK-FUNKTIONEN (Logit, Normal-Ogive)
BODEN-UND-DECKEN-EFFEKTE

40
BODEN-UND-DECKEN Effekte auf die
STANDARDABWEICHUNG
41
BODEN-UND-DECKEN Effekte auf die SCHIEFE
42
BODEN-UND-DECKEN Effekte auf die KURTOSIS
43
Die Notwendigkeit eines Standards...

Der Messfehler 0 (TRV).
Die Link-Funktion ist der Logit.
Mindestens 10 Items.
Der Schätzalgorithmus über direct Estimation.
Die theoretische Verteilung ist normalverteilt?

44
4. Nutzen für die psychologische Diagnostik

Testkonstruktion
Testbeschreibung
Testanwendung
Neue Forschungsfelder

45
Nutzen für die psychologische Diagnostik
Testkonstruktion

Hohe Variabilität als Voraussetzung reliabler
Messung
Inhaltsvalidität
Konstruktvalidität

46
Inhaltsvalidität

als Konzept einer repräsentativen
Itemstichprobe aus dem Universum eines
theoretisch unendlichen Itempools
(Fitzpatrick, 1983 Klauer, 1984).

Hypothese Wir erwarten entsprechen vergleichbare
TRV bei verschiedenen Operationalisierung eines
Konstruktes
47
Variationsunterschiede am Beispiel des EPQ-R
Deutsch (mit Winmira vergleichbar mit Bigsteps)
Deutsch
0 1.0 2.0
Ex
Ne
Ps
Lü
Fehlerquellen Konstrukt, Methode and
Itemauswahl (Vijver Hambleton, 1996)
48
Vergleich von Variationsunterschieden zur
Überprüfung der Inhaltsvalidität am Beispiel des
EPQ-R(S)
?
49
EPQ-R(S)Inhaltsvalidität über Vergleiche der TRV
ohne inhomogene Items (Q-Index)(mit Winmira)
50
KonstruktvaliditätÜberprüfung theoretischer
Zusammenhänge zwischen Konstrukten

Problemstellung
Werden zwei Tests auf theoretische Zusammenhänge
überprüft, so werden hohe korrelative
Zusammenhänge erwartet.
Es besteht jedoch die Gefahr, dass
Item-Überschneidungen (Westmeyer) stattdessen die
Inhaltsvalidität prüfen.
Da beide Instrumente Verschiedenes messen
(sollen), kann dies über unterschiedliche Rasch
Varianzen belegt werden (als notwendige, aber
nicht hinreichende Voraussetzung von
Unterschiedlichkeit).

51
Testbeschreibung Illustration von
Variationsunterschiede am Beispiel des SPM
(N1500) und RIS (N147)
RIS
SPM
SPM Reliabilität
RIS Reliabilität
52
TestanwendungVerändertes diagnostisches
Schlussfolgern
RIS
SPM
Dichte
Testwert SPM
DSPM
Rasch Einheiten
Testwert RIS
DRIS
53
TestanwendungDiagnostik von Interventionseffekten
Ein neues Effektmaß in Ergänzung zu Cohens
Maße der Effektstärke
Standardisierung notwendig
Effektmaß d von Cohen
Keine Standardisierung notwendig
Effektmaß dR
54
Neue Forschungsfelder Veränderung der
Variabilität über die Lebensspanne
PP-Verteilung von 5 jährigen Kinder
Dichte
True Rasch Scores
Testwert eines Kindes
55
Neue ForschungsfelderPersönlichkeitstests als
Vektorraum Welche Tests umfassen mehr
Variabilität?
56
Zusammenfassung

Interpretation der wahren Raschskalierten
Personenparametervarianzen
Methodische Aspekte der Schätzung
Nutzen in der Diagnostik
Ausblick

57
Thank you for your attention.

More Information you can find under
www.psychological-tests.de
Send me your data!

58
A link to a previews presentation on the
European Congress of Personality in Jena, 2002
59
Bekannte Ansätze zur Überprüfung der
Inhaltsvalidität

Psychometrische Ansätze
... by correlations
... by structural equivalence
... by simple descriptives like
Variances in rasch-units

60
Differences between the approaches

Testing of relationsships
is a strategy that leads to
weak statistical testing (H1-hypothesis)
Testing of equivalence (deviation )
is a strategy that leads to
strong statistical testing (H0-hypothesis)

61
Influences of BOTTOM-AND-CEILING effects on the
TRV
Bottom-effect Look for Skewness!
Bottom-and-ceiling effect Look for Kurtosis!
You find a skewness of magnitude 1
You see that this is caused by an cutting-point
at 0.5
A cutting-point at 0.5 leads to an decreased
variability of 70

Write a Comment

User Comments (0)