Klassische Testtheorie

aus Wikipedia, der freien Enzyklopädie

Die Klassische Testtheorie (KTT) ist die meistverbreitete psychometrische Testtheorie. Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers. Daher wird sie oft auch als Messfehlertheorie bezeichnet. Die klassische Testtheorie versucht zu klären, wie, ausgehend von einem Testwert einer Person, auf die wahre Ausprägung des zu messenden Persönlichkeitsmerkmals geschlossen werden kann.

Axiome

  1. Jeder Testwert (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} ) ist zusammengesetzt aus einem wahren Merkmalsanteil (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle T} ) und einem zufälligen Messfehleranteil (): Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X = T + E} .[1]
  2. Der Erwartungswert der Fehler ist null: .
  3. Der Messfehler ist mit dem wahren Wert unkorreliert: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \rho (T,E) = 0 } .
  4. Wahrer Wert und Fehlerwert zweier verschiedener Tests sind unabhängig und damit unkorreliert: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \rho (T_{\text{Test1}}, E_{\text{Test2}}) = 0 } .
  5. Fehlerwerte von zwei verschiedenen Tests sind unabhängig und damit unkorreliert: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \rho (E_{\text{Test1}}, E_{\text{Test2}}) = 0 } .

Je größer der Messfehler, desto geringer ist der wahre Merkmalsanteil und desto weniger zuverlässig misst ein Test.

Aus den ersten beiden Axiomen folgt zudem:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbb{E}(T) = \mathbb{E}(X) }

Dies besagt, dass der Messfehler verschwindet, wenn entweder ein Test an vielen Individuen angewandt wird oder ein Test mehrfach bei ein und derselben Person angewandt wird.

Reliabilität

Das zentrale Konzept der klassischen Testtheorie ist die Reliabilität, das ist die Zuverlässigkeit bzw. Genauigkeit (Freiheit von Messfehlern), mit der ein Testwert den wahren Wert erfasst. Die Reliabilität wird theoretisch als das Verhältnis der Varianz der wahren Werte zur Varianz der Testwerte definiert:

[1]

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2_T} als Varianz des messfehlerfreien Testwerts und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2_E} als Varianz des Messfehlers.

Aus dieser Darstellung wird eine zunächst paradoxe Schlussfolgerung anschaulich: Eine Erhöhung der Variabilität systematischer Fehler (Verzerrungen) führt zu einer Erhöhung der Reliabilität, da sie nicht zu Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2_E} , sondern zu Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2_T} hinzugerechnet werden.

Schätzverfahren zur Ermittlung der Reliabilität

Die Reliabilität kann, da man die wahren Werte nicht kennt, nur geschätzt werden. Ein Verfahren ist die sogenannte Split-Half-Reliabilität, bei der der Test auf Itemebene in zwei gleich große Teile aufgespalten wird, die dann jeweils miteinander korreliert werden. Dieses Verfahren ist im Grunde genommen nur noch von historischer Bedeutung.[1]

Wesentlich geläufiger ist heutzutage eine Methode, die als Verallgemeinerung der Split-Half-Reliabilität beschrieben werden kann. Jedes Item wird als eigener Testteil aufgefasst und mit den anderen Items der Subskala korreliert. Man verwendet hierfür häufig das Cronbachsche Alpha, das auch als Maßzahl für die interne Konsistenz gilt. Der Alpha-Koeffizient gilt hierbei als Untergrenze der Reliabilitätsschätzung. Das Cronbachsche Alpha setzt Homogenität der Items voraus, ohne diese Annahme zu prüfen. Deswegen wird statt diesem Koeffizienten zunehmend die kongenerische Reliabilität bestimmt, die diese Homogenität nicht voraussetzt.

Ein weiteres wichtiges Schätzverfahren ist die Test-Retest-Reliabilität, die die Korrelation desselben Tests zu zwei unterschiedlichen Zeitpunkten darstellt. Die Test-Retest-Reliabilität ist wertlos, wenn nicht das Intervall zwischen den beiden Testzeitpunkten angegeben ist. Unsinnig ist die Anwendung der Retest-Reliabilität bei sich verändernden Konstrukten (so würde die Retest-Reliabilität eines Tests, der Hunger als Konstrukt erfasst nicht die Reliabilität des Tests erfassen, sondern nur die Flüchtigkeit des Hungergefühls). Dies führt zu einer Unterschätzung der Reliabilität. Problematisch sind ebenso zu kurze Zeiträume zwischen den Tests, da Erinnerungseffekte zu einer Überschätzung der Reliabilität führen können.

Ein weiteres Verfahren ist die Konstruktion von parallelen Tests. Das sind Tests, von denen man annimmt, dass sie die gleichen wahren Werte messen. Die Reliabilität kann dann durch die Korrelation zweier paralleler Tests X1 und X2 geschätzt werden. Man nennt dies auch Paralleltest-Reliabilität. Der Vorteil der Paralleltest-Reliabilität liegt darin, dass weder Item-Homogenität wie beim Cronbachschen Alpha, noch eine zeitliche Stabilität wie bei der Retest-Reliabilität vorausgesetzt wird, weshalb man sie von der Theorie her als Königsweg bezeichnen könnte. Praktisch gesehen ist es jedoch äußerst schwierig, parallele Testformen zu konstruieren, die voraussetzen, dass die korrespondierenden Items sich in Mittelwert, Itemschwierigkeit, Trennschärfe und sogar Fremdtrennschärfe nicht unterscheiden. Das trägt dazu bei, dass diese Form der Reliabilitätsschätzung recht selten angewandt wird. Bei gewissen Leistungstests wie z. B. IQ-Tests müssen jedoch aufgrund der Gefahr des Abschreibens ohnehin parallele Testformen vorliegen. Hier kann als günstiger Nebeneffekt die Paralleltest-Reliabilität mitberichtet werden.

Erwähnenswert ist noch die Interrater-Reliabilität. Sie wird insbesondere bei den Messverfahren Interview und Beobachtung zur Schätzung der Reliabilität eingesetzt. Für nominalskalierte Daten steht hierfür Cohens Kappa zur Verfügung. Für metrisch skalierte Daten wird die Intraklassen-Korrelation verwendet. Für ordinalskalierte Daten ist der Spearman’sche Rangkorrelationskoeffizient (Spearman’sches Rho) ein anwendbares Maß.

Objektivität

Die Objektivität spielt in der klassischen Testtheorie eine untergeordnete Rolle. Die KTT ist eine Theorie, deren Axiome sich hauptsächlich auf Messfehler beziehen. Sie ist damit eine Theorie der Messfehler – und damit indirekt eine Theorie der Reliabilität, die ja als Freiheit von (unsystematischen) Messfehlern definiert ist. Objektivität lässt sich hierbei als Unteraspekt von Reliabilität auffassen, da Objektivität das Ausmaß betrifft, in dem sich die Varianz des Testwerts nicht auf eine Varianz ausgehend vom Versuchsleiter bzw. den Testbedingungen zurückführen lässt (z. B. Versuchsleitereffekt). Objektivität schließt also Messfehler, die durch den Untersuchungsleiter und die -bedingungen zustande kommen aus (ebenso wie die Reliabilität) und lässt sich in verschiedene Aspekte unterteilen:

  • Durchführungsobjektivität - Testergebnisse variieren nicht aufgrund unterschiedlicher Untersuchungsbedingungen in verschiedenen Messgelegenheiten
  • Auswertungsobjektivität - Die Testscores bzw. Ergebnisse in einem Test variieren nicht aufgrund unterschiedlicher Auswerter
  • Interpretationsobjektivität - Die Schlussfolgerungen, die aus dem Testergebnis gezogen werden, variieren nicht aufgrund unterschiedlicher Auswerter

Besonders bei den letzten beiden Punkten wird die Verwandtschaft zur Reliabilität deutlich. Theoretisch ließen sich die beiden Aspekte durchaus quantitativ durch die Interrater-Übereinstimmung erfassen. In der Praxis werden jedoch überwiegend Bedingungen sichergestellt, von denen man ausgeht, dass sie Objektivität herbeiführen. So wird ein möglichst standardisierter Test mit festen Interpretationshilfen im Manual als Garant für Auswertungs- und Interpretationsobjektivität betrachtet. Standardisierte Untersuchungsbedingungen hingegen sollen Durchführungsobjektivität gewährleisten. Hier wird meist nur unterschieden zwischen gegeben und nicht gegeben.

Validität

Analog zur Reliabilität kann die Validität in der klassischen Testtheorie aufgefasst werden als der Anteil der Varianz, der ausschließlich auf das zu messende Konstrukt und nicht auf unsystematische, zufällige Fehler oder systematische Verzerrungen zurückgeht.

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \text{Validität} = \frac{\sigma^2_C}{\sigma^2_X} = \frac{\sigma^2_C}{\sigma^2_C + \sigma^2_B + \sigma^2_E} }

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2_C} als Varianz, die ausschließlich auf das zu untersuchende Konstrukt zurückzuführen ist, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2_B} als Varianz der systematischen Verzerrungen (englisch bias) und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2_E} als Varianz des Messfehlers.

Im Gegensatz zur Reliabilität führt hier eine Erhöhung des systematischen Fehlers zu einer Verminderung, was intuitiv nachvollziehbar ist.

Schätzverfahren zur Ermittlung der Validität

Die Validität eines Tests ist ungleich schwieriger zu schätzen als die Reliabilität. Das liegt zum einen daran, dass Validität anders als die Reliabilität ein sehr uneinheitlicher Begriff ist, der in der Praxis durch sehr viele verschiedene Arten von Kennziffern geschätzt werden kann. Auf der anderen Seite gibt es aber auch Aspekte der Validität, die sich quantitativ nicht erfassen lassen bzw. dies ist in der Praxis der Testkonstruktion so nicht üblich. Für die Testkonstruktion relevant sind drei Oberformen der (psychometrischen) Validität:

  • Inhaltsvalidität: Betrifft u. a. die Frage, ob Items wirklich dazu geeignet sind ein bestimmtes Konstrukt zu erfassen. Wird in der Praxis durch Expertenurteile entweder als gegeben oder nicht gegeben angenommen. Zumindest besteht die theoretische Möglichkeit, sie z. B. über Interrater-Übereinstimmungsmaße bezüglich Expertenurteile zu Items zu erfassen.
  • Konstruktvalidität: Ist verwandt mit der Inhaltsvalidität. Hier geht es jedoch mehr als bei der Inhaltsvalidität um intersubjektiv (empirisch-quantitativ) nachprüfbare Hinweise darauf, dass tatsächlich das relevante Konstrukt gemessen wird und kein anderes. Dies geschieht auf verschiedene Arten:
    1. Interne Struktur/Faktorielle Validität - Prüfbar mit EFA, CFA und SEM
    2. Diskriminante und Konvergente Validität mit artfremden/artverwandten Tests, die dasselbe/ein anderes Konstrukt messen. Ermittelbar z. B. durch bivariate Korrelationen. MTMM anwendbar, konfirmatorische Prüfung z. B. durch CFA.
  • Kriteriumsvalidität: In der Praxis mit das wichtigste Gütekriterium. Gibt an, wie gut sich beispielsweise Ergebnisse anderer Tests oder Verhaltensweisen durch das Testergebnis vorhersagen lassen und entspricht der Korrelation mit dem Außenkriterium (z. B. Korrelation zwischen Intelligenz und Berufserfolg). Dabei kann anhand der zeitlichen Relation zwischen Testergebnis und Kriterium unterschieden werden:
    1. Retrospektive Validität - Wie hoch korreliert eine aktuelle Messung mit Messungen in der Vergangenheit, die durch dasselbe Konstrukt bedingt sind
    2. Konkurrente Validität - Wie hoch korreliert eine aktuelle Messung mit aktuellen anderen Messungen, die durch dasselbe Konstrukt bedingt sind
    3. Prädiktive Validität - Wie hoch korreliert eine Messung mit Messungen, die später vollzogen worden sind und durch dasselbe Konstrukt bedingt sind

Vorteile

  • Die Annahmen der klassischen Testtheorie sind einfach gehalten und mathematisch recht anspruchslos im Gegensatz zur Probabilistischen Testtheorie
  • Die KTT wurde bereits in vielen Tests umgesetzt und hat sich dadurch praktisch bewährt.

Kritik

  • Möglicherweise ist die Annahme Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X = T + E} zu grob, da verschiedene Arten von Fehlern berücksichtigt werden müssten. Hier bietet das erweiterte Latent-State-Trait-Modell (Steyer und andere) einen weiterführenden Ansatz.
  • Die Stichprobenabhängigkeit von Reliabilität, Itemschwierigkeit und Itemtrennschärfe wird in der KTT nicht oder nur ungenügend beachtet.[2]
  • Die Homogenität von Items kann im Rahmen der KTT nicht geprüft werden.
  • Nach dem Verdünnungsparadox sinkt die kriterienbezogene Validität eines Tests mit wachsender Reliabilität von Kriterium und validiertem Test.[3]
  • Die klassische Testtheorie kann nur stabile Persönlichkeitsmerkmale messen. Würde sich nämlich der wahre Wert verändern, stünde dies im Widerspruch zum zweiten Axiom, dass Erwartungswert und Mittelwert der Fehler beziehungsweise die Summe über die Fehler gleich null sind.[4]
  • Es werden Daten auf dem Niveau einer Intervallskala vorausgesetzt, denn es werden Mittelwerte und Varianzen berechnet.[2]

Alternative psychometrische Modelle

Die Auswertung psychometrischer Daten kann auch durch Latent-Trait Theorien (z. B. Rasch-Modell) erfolgen. Diese können einige der Probleme, die mit der KTT einhergehen, lösen, schaffen aber auch neue (siehe auch Probabilistische Testtheorie).

Literatur

  • Gustav A. Lienert, Ulrich Raatz: Testaufbau und Testanalyse. 6. Auflage. Beltz-Verlags-Union, Weinheim 1998, ISBN 3-621-27424-3.
  • Helfried Moosbrugger, Augustin Kelava (Hrsg.): Testtheorie und Fragebogenkonstruktion. 2. aktualis. Auflage. Springer-Medizin-Verlag, Heidelberg 2012, ISBN 978-3-642-20071-7.
  • Frederic M. Lord, Melvin R. Novick: Statistical theories of mental test scores. Addison-Wesley, Reading MA u. a. 1968, ISBN 0-201-04310-6.

Weblinks

Einzelnachweise

  1. a b c Schmitz-Atzert, Amelang: Psychologische Diagnostik. 5., vollständig überarbeitete und erweiterte Auflage. Springer, Berlin/ Heidelberg 2012, ISBN 978-3-642-17000-3, S. 40 ff.
  2. a b Hermann-Josef Fisseni: Lehrbuch der psychologischen Diagnostik. 3., überarbeitete und erweiterte Auflage. Hogrefe, Göttingen 2004, ISBN 3-8017-1756-9, S. 81.
  3. Hermann-Josef Fisseni: Lehrbuch der psychologischen Diagnostik. 3., überarbeitete und erweiterte Auflage. Hogrefe, Göttingen 2004, ISBN 3-8017-1756-9, 4.3.3.4.
  4. Hermann-Josef Fisseni: Lehrbuch der psychologischen Diagnostik. 3., überarbeitete und erweiterte Auflage. Hogrefe, Göttingen 2004, ISBN 3-8017-1756-9, S. 50.