Cronbachsches Alpha
Das cronbachsche (Alpha) ist eine nach Lee Cronbach benannte Maßzahl für die interne Konsistenz einer Skala und bezeichnet das Ausmaß, in dem die Aufgaben bzw. Fragen einer Skala miteinander in Beziehung stehen (interrelatedness[1]). Es ist hingegen kein Maß für die Eindimensionalität einer Skala. Das cronbachsche Alpha wird vor allem in den Sozialwissenschaften bzw. in der Psychologie verwendet – insbesondere bei der Testkonstruktion und -evaluation. Es wird angewendet, um die interne Konsistenz eines psychometrischen Instruments zu schätzen. In der jüngeren Literatur wird der Begriff cronbachsches abgelehnt und stattdessen der Begriff tau-äquivalente Reliabilität () vorgeschlagen.[2] Die tau-äquivalente Reliabilität ist u. a. in der Psychometrie von Bedeutung.
Geschichte
Die erste Bezeichnung als Alpha geschah 1951 durch Cronbach, obwohl die Kuder-Richardsonsche Formel eine ältere Version für dichotome Items darstellt und Louis Guttman die gleiche Maßzahl bereits 1945 unter dem Namen Lambda-3[3] entwickelt hatte. In jüngster Zeit wird die Verwendung des cronbachschen Alphas und des Begriffes zunehmend kritisiert. Eunseong Cho (2016) schlägt vor, statt des cronbachschen Alphas konsequent von tau-äquivalenter Reliabilität zu sprechen; Cho verdeutlicht zudem, dass statt in vielen Fällen eine Verwendung der kongenerischen Reliabilität angebracht ist (s. dort).[2]
Definition
Geht man davon aus, dass eine Stichprobe hinsichtlich einer Gruppe von k Items untersucht wurde, dann ist das cronbachsche definiert als die durchschnittliche Korrelation zwischen diesen Items, nach oben korrigiert um k durch die Spearman-Brown-Formel. Deshalb wird das cronbachsche Alpha auch als Maß der internen Konsistenz einer Skala bezeichnet. Das cronbachsche hängt zusammen mit dem Ergebnis einer Varianzanalyse der Itemdaten hinsichtlich der Varianz zwischen den Testpersonen und der Varianz zwischen den Items. Je höher die proportionale Varianz zwischen den Testpersonen, desto höher ist auch das cronbachsche .
Interpretation
Bedeutung | |
---|---|
> 0,9 | exzellent |
> 0,8 | gut |
> 0,7 | akzeptabel |
> 0,6 | fragwürdig |
> 0,5 | schlecht |
0,5 | inakzeptabel |
kann Werte zwischen minus unendlich und 1 annehmen (obwohl nur positive Werte sinnvoll interpretierbar sind). Als Faustregel sollte ein beliebiges psychometrisches Instrument nur verwendet werden, wenn ein Wert für von 0,65 oder mehr erreicht wird. Als kritisch wird allerdings auch ein zu hoher Wert (z. B. 0,95) eingeschätzt, da dies darauf hindeutet, dass mehrere Items redundant sind.[5] Bei kleineren Werten kann mittels einer Faktorenanalyse geprüft werden, ob sich die Items auf mehrere Faktoren verteilen.
Sehr häufig findet sich in wissenschaftlichen Arbeiten ein Verweis auf Nunnally (1978), wonach dieser angeblich vorgeschlagen habe, dass ein Wert von 0,7 oder mehr als akzeptabel gelte. Tatsächlich hat Nunnally jedoch sehr sorgsam die Verwendung des Koeffizienten diskutiert und keineswegs eine strenge Vorgabe gemacht.[6] Für ist daher zu beachten, dass sich strenge Regeln, die Messmodelle unterhalb eines Schwellwertes automatisch ablehnen und oberhalb eines Schwellwertes automatisch annehmen, in der Regel verbieten.[7] Die Tabelle in diesem Abschnitt kann daher nur als Anhaltspunkt dienen. Insbesondere sollten Indikatoren aufgrund eines niedrigen Wertes nicht vorschnell entfernt werden, da dies auf Kosten der Inhaltsvalidität gehen könnte. Ein Ordnungsrahmen für die Eliminierung von Indikatoren aus Messskalen, der neben statistischen Kriterien wie auch bewertende Kriterien mit einbezieht, ist in Wieland et al. (2017) beschrieben.[8]
Problematisch an derartigen Vorgaben ist zudem, dass die Reliabilität eines Instruments sehr leicht zu Lasten der Bandbreite erreicht werden kann. Dieses Problem wird auch als Bandbreiten-Fidelitätsdilemma oder Reliabilitäts-Validitäts-Dilemma bezeichnet. Je breiter und allgemeiner ein Instrument misst, umso mehr Chancen bestehen in der Regel, auch breite und entfernte Kriterien vorherzusagen. Auf der anderen Seite leidet durch die Breite die Reliabilität. Eine Lösung dieses Problems bietet in der Regel nur die Verlängerung des Tests.
Das cronbachsche Alpha wird oft fälschlicherweise als Beleg für Eindimensionalität einer Skala interpretiert.[9] Eine Skala kann mehrdimensional sein und gleichwohl eine hohe innere Konsistenz, folglich also ein hohes cronbachsches Alpha, aufweisen.[1] Beispiel wäre eine Skala, die Items zu Depression und Ängstlichkeit vermischt darbietet, also zweidimensional ist, und doch eine hohe Konsistenz hat.
Formel
Die Formel zur Berechnung eines standardisierten cronbachschen lautet:
- ,
wobei die Anzahl der Komponenten (Items oder Subskalen) und die durchschnittliche Korrelation zwischen den Items bezeichnet. Alternativ ergibt sich das cronbachsche aus
- ,
wobei die Anzahl der Komponenten (Items oder Subskalen), die Varianz der beobachteten Gesamttestscores und der Varianz in Komponente (Item, Subskala) ist. Für Likert-Skalen gilt in der Regel .
Beispiel
Korrelation | Klassik | Jazz | Oper | Rap | Heavy Metal |
Blues/ R&B | |
---|---|---|---|---|---|---|---|
Klassik | 1 | 0,29 | 0,51 | 0,03 | 0,01 | 0,21 | |
Jazz | 1 | 0,21 | 0,22 | 0,09 | 0,54 | ||
Oper | 1 | 0,08 | −0,04 | 0,19 | |||
Rap | 1 | 0,30 | 0,17 | ||||
Heavy Metal | 1 | 0,09 | |||||
Blues/R&B | 1 |
Im General Social Survey 1993 wird mit nach verschiedenen Musikrichtungen gefragt mit den Antwortkategorien (1=Mag Musikrichtung, 2=Unentschieden, 3=Mag Musikrichtung nicht). Wird nun eine Skala Mag Musik als Summe der Einzelskalen für jede Musikrichtung gebildet, so ergibt sich
und
In diesem Fall wird die neue Skala meistens nicht als reliabel (zuverlässig) angesehen, wegen . Der Grund liegt darin, dass die Korrelationsmatrix mindestens zwei Subskalen zeigt: Klassik/Oper und Jazz/Blues/R&B, d. h., bei Anwendung des cronbachschen sollte man sicher sein, dass die Items wirklich nur eine Skala bilden (Überprüfung mit der Faktorenanalyse).
Alternative Formel
Cho (2016) schlägt eine alternative Formel zur Berechnung der tau-äquivalenten Reliabilität vor. Diese Formel ist äquivalent zur vorhergehenden, führt somit zum gleichen Ergebnis:
Hierbei ist die Anzahl der Indikatoren (englisch items) des Messmodells, die durchschnittliche Kovarianz zwischen den Indikatoren und die Varianz des Testergebnisses. Vorteil dieser Formel ist, dass sie in das von Cho (2016) vorgestellte System aus Formeln eingebettet ist und einen Vergleich zu anderen Koeffizienten, etwa für die kongenerische Reliabilität, erleichtert. Die zuvor fehlende Systematik bei der Benennung ist zudem der Grund, warum Cho auf den Begriff „cronbachsches “ verzichtet und stattdessen von „tau-äquivalenter Reliabilität “ spricht. Beide Begriffe sind jedoch Synonyme.
Ein Rechenbeispiel sowohl für die traditionelle als auch alternative Formel findet sich in Tabelle 9 in Cho (2016).[2]
Berechnung des cronbachschen α mit gängiger Statistiksoftware
Für die freie Statistiksoftware R gibt es mehrere Pakete, die Funktionen zur Berechnung des cronbachschen enthalten, z. B. multilevel::cronbach
, psy::cronbach
, psych::alpha
und psychometric::alpha
. Das R-Paket cocron[10] ist auch als freies Web-Interface verfügbar und erlaubt den statistischen Vergleich von zwei oder mehr abhängigen und unabhängigen cronbachschen Alphas.
In SAS lautet die Kommandozeile proc corr data=variable1 variable2 … variablen alpha plots;
.
In SPSS wählt man „Analysieren“, danach „Skalierung“ bzw. „Skala“, dann „Reliabilitätsanalyse“ an und wählt die gewünschten Variablen aus. Für diese wird dann das cronbachsche Alpha berechnet. Der Syntaxbefehl seit Programmversion 17.0 lautet RELIABILITY VARIABLES=[VARIABLES] /MODEL=ALPHA.
.
Mit dem Programmpaket Stata lässt sich das cronbachsche mit der Anweisung alpha varlist [if] [in] [, options]
berechnen. Die Item-Test und Item-Rest Korrelationen werden durch Auswahl der Option item
angegeben. Mit der Option generate(newvar)
wird die ermittelte Skala als Variable gespeichert. Sollen die Items der Skala zuvor (auf den Mittelwert 0 und Varianz 1) standardisiert werden, so ist die Option std
zusätzlich anzufügen.
Alternativen
Das cronbachsche , oder besser die tau-äquivalente Reliabilität (), geht von gleichen Faktorladungen aller Indikatoren aus. Diese Voraussetzung wird in der Realität jedoch selten erfüllt, wodurch die Reliabilität unterschätzt wird. Eine Alternative zu , die unterschiedliche Faktorladungen explizit berücksichtigt, ist die kongenerische Reliabilität (), welche traditionell auch als „composite reliability“ bezeichnet wurde, einem Begriff, der zuletzt jedoch kritisiert wurde.[2]
Siehe auch
- Durchschnittlich erfasste Varianz (DEV; englisch average variance extracted)
- kongenerische Reliabilität (englisch congeneric reliability, früher auch composite reliability)
Literatur
- L. J. Cronbach: Coefficient alpha and the internal structure of tests. (PDF; 2,1 MB) In: Psychometrika, 16, 1951, S. 297–334, doi:10.1007/BF02310555.
- K. Schermelleh-Engel, C. S. Werner: Methoden der Reliabilitätsbestimmung. In: Helfried Moosbrugger, Augustin Kelava (Hrsg.): Testtheorie und Fragebogenkonstruktion, 2., aktualisierte und überarbeitete Auflage. Springer, Berlin / Heidelberg 2012, ISBN 978-3-642-20071-7, S. 119–141, doi:10.1007/978-3-642-20072-4_6.
- Neal Schmitt: Uses and Abuses of Coefficient Alpha. (PDF; 435 kB) In: Psychological Assessment, 8(4), 1996, S. 350–353, doi:10.1037/1040-3590.8.4.350.
Weblinks
- Berechnung in der SPSS-Syntax
- Das freie Webinterface und R-Paket cocron erlaubt den statistischen Vergleich von zwei oder mehr abhängigen und unabhängigen cronbachschen Alphas.
- Handbook of Management Scales (englisch) von Wikibooks sammelt betriebswirtschaftliche Konstrukte, deren Indikatoren und gibt das cronbachsche Alpha an.
- RelCalc. Tools zur Berechnung der tauäquivalenten und kongenerischen Reliabilität sowie anderer Koeffizienten.
Einzelnachweise
- ↑ a b Jose M. Cortina: What is Coefficient Alpha? Examination of Theory and Applications. (PDF; 1,2 MB) In: Journal of Applied Psychology, 78(1), 1993, S. 98–104, doi:10.1037/0021-9010.78.1.98.
- ↑ a b c d Cho. 2016, doi:10.1177/1094428116656239
- ↑ Louis Guttman: A basis for analyzing test–retest reliability. In: Psychometrika. 10, 1945, S. 255–282. doi:10.1007/BF02288892.
- ↑ Darren George, Paul Mallery: SPSS for Windows Step by Step: A Simple Guide and Reference, 11.0 Update. 4. Auflage. Allyn & Bacon, 2002, ISBN 978-0-205-37552-3, S. 231.
- ↑ D. L. Streiner: Starting at the beginning: An introduction to coefficient alpha and internal consistency In: Journal of Personality Assessment Ban 80, 2003, S. 99–103. doi:10.1207/S15327752JPA8001_18
- ↑ J. C. Nunnally: Psychometric theory (2nd ed.). McGraw-Hill, New York 1978.
- ↑ Guide, Ketokivi. 2015, doi:10.1016/S0272-6963(15)00056-X
- ↑ A. Wieland, C.F. Durach, J. Kembro, H. Treiblmaier: Statistical and judgmental criteria for scale purification. In: Supply Chain Management: An International Journal, Vol. 22, No. 4, 2017, doi:10.1108/SCM-07-2016-0230
- ↑ K. Schermelleh-Engel, C. S. Werner: Methoden der Reliabilitätsbestimmung. In: H. Moosbrugger, A. Kelava (Hrsg.): Testtheorie und Fragebogenkonstruktion. Springer, Berlin / Heidelberg 2012, S. 119–141, doi:10.1007/978-3-642-20072-4_6
- ↑ comparingcronbachalphas.org