Benutzer:Frau Holle/fa
Die Faktorenanalyse dient dazu, aus empirischen Beobachtungen verschiedener manifester Variablen (Observablen) auf zugrunde liegende latente Variable ("Faktoren") zu schließen. Sie gehört somit zu den datenreduzierenden (auch dimensionsreduzierenden) statistischen Verfahren.
Hintergrund
Geschichte
Die Faktorenanalyse wurde vom Psychologen Charles Spearman für die Auswertung von Intelligenztests entwickelt. 1904 zeigte er, dass Testergebnisse zu einem guten Teil durch ein eindimensionales Persönlichkeitsmerkmal, den general factor (g-Faktor), erklärt werden konnten. Die Verallgemeinerung auf eine Analyse mit mehreren Faktoren wird J. C. Maxwell Garnett zugeschrieben (Steiger 1979); popularisiert wurde sie in den 1940er Jahren von Louis Leon Thurstone.
Maximum-Likelihood-Schätzmethoden wurden in den 1930er und 40er Jahren von Lawley und Barnett vorgeschlagen; ein stabiler Algorithmus wurde in den 1960ern von Jöreskog entwickelt (Krzanowski, S. 487).
Bis heute wird jedoch trotz schlechter Konvergenzeigenschaften auch eine iterative Variante der Hauptkomponentenanalyse zur Faktorenextraktion eingesetzt. Ungenauigkeiten bis hin zur völligen Gleichsetzung von Faktoren- und Hauptkomponentenanalyse sind weitverbreitet.
Anwendungen
Gelegentlich wird die Faktorenanalyse auch für naturwissenschaftliche Probleme eingesetzt. Die typischen Anwendungen sind aber nach wie vor in der Psychologie und Soziologie.
Zum Beispiel kann man aus einem Persönlichkeitstest, bei dem Probanden einen Fragebogen mit etwa 60 Fragen ausfüllen, 8 - 12 Faktoren bestimmen und als Extraversion, Introversion, Großzügigkeit, Konventionalität usw. interpretieren.
Mathematischer Rahmen
Lineares Faktorenmodell
Der Faktorenanalyse liegt stets ein lineares Modell zugrunde:
mit
- : Vektor der zu erklärenden Variablen,
- : Vektor mit konstanten Werten,
- : Matrix der "Faktorladungen",
- : Vektor der Faktorwerte,
- : Zufallsvektor mit Mittelwert 0.
Es wird gefordert, dass die Komponenten von z zentriert, normiert und untereinander sowie mit unkorreliert sind.
In der Regel wird außerdem gefordert, dass die Komponenten von ε nicht miteinander korreliert sind. Wird diese Forderung fallengelassen, ist das Modell invariant unter orthogonaler Transformation der , z und ε.
Das empirische Datenmaterial besteht aus Realisationen des Variablenvektors (z.B. Fragebögen mit p Fragen, die von n Probanden bearbeitet wurden). Zur Notationsvereinfachung kann angenommen werden, dass die Rohdaten in einem ersten Schritt der Auswertung zentriert wurden, so dass .
Im Rahmen einer Faktorenanalyse sind zu schätzen:
- die Anzahl der Faktoren,
- die Faktorladungen aus ,
- die p Varianzen der Residuen aus ,
- die Realisationen des Faktorvektors .
Die Schätzung erfolgt typischerweise in drei oder mehr Schritten:
- Es werden mögliche Faktoren identifiziert ("extrahiert");
- es wird entschieden, welche Anzahl q von Faktoren berücksichtigt werden soll;
- eventuell werden Faktoren rotiert, um ihre Interpretation zu vereinfachen;
- zuletzt werden die Faktorvektoren z für die einzelnen Realisationen von x (z.B. persönliche Werte für einzelne Probanden) geschätzt.
Hauptsatz
Aus den Modellannahmen folgt nach kurzer Rechnung der Hauptsatz der Faktoranalyse:
Für vereinfacht sich dieser Satz zu
Hier steht Var für die Varianz, Cov für die Kovarianz und T für Matrixtransposition.
Der Term ist derjenige Anteil der Varianz der Observablen , der durch das Faktorenmodell nicht erklärt wird. Der erklärte Anteil, , also die Summe der quadrierten Faktorladungen, heißt Kommunalität der Variablen .
Faktorenextraktion
Der erste Schritt der Faktorenanalyse, die Identifikation möglicher Faktoren, läuft auf die Schätzung der Faktorladungen und der residuellen Varianzen. Für eine solche Schätzung benötigt man ein Gütekriterium. Diese essentielle theoretische Grundlage wird in weiten Teilen der Literatur nicht klar benannt.
Faktoren- versus Hauptkomponentenanalyse
In der Hauptkomponentenanalyse wird ein p-dimensionaler Zufallsvektor x durch eine Linearkombination von Zufallsvektoren dargestellt, die so gewählt werden, dass der erste Summand einen möglichst großen Anteil der Varianz von x erklärt, der zweite Summand möglichst viel von der verbleibenden Varianz, und so weiter. Wenn man diese Summe nach q Gliedern abbricht, erhält man als Darstellung von x
mit dem Restterm
- .
Auf den ersten Blick sieht x wie das lineare Modell der Faktorenanalyse aus. Jedoch sind die Komponenten von e miteinander korreliert, da sie von denselben abhängen. Deshalb erhält man aus einer Hauptkomponentenanalyse kein korrektes Faktorenmodell; man modelliert nur die Varianzen, nicht aber die Kovarianzen der x (Krzanowski, S. 482).
Maximum-Likelihood-Schätzung
Die Parameterschätzung steht auf einer sicheren Grundlage, wenn man die Γ, die und die (in den vorigen Abschnitten nicht mitnotierten) μ so bestimmt, dass sie die Likelihood der beobachteten Realisationen von x maximieren.
Allerdings muss man bei diesem Schätzverfahren Annahmen über die Wahrscheinlichkeitsverteilung der manifesten Variablen x treffen, in der Regel also eine Normalverteilung annehmen.
Bestimmung der Faktorenzahl
Bei der Extraktion entstehen je nach Option und Verfahren sehr viele Faktoren. Nur wenige von ihnen erklären genug Varianz, um ihre weitere Verwendung rechtfertigen zu können. Die Auswahl der Faktoren dient in erster Linie der Gewinnung von aussagekräftigen, gut interpretierbaren Ergebnissen und ist damit nur eingeschränkt objektivierbar. Anhaltspunkte können folgende Kriterien liefern:
- Kaiser-Kriterium
- Scree-Test (auch Ellenbogenkriterium genannt)
- Parallelanalyse-Verfahren (Darstellung des Grundprinzips)
Grundsätzlich sollten mehrere Kriterien herangezogen werden. Insbesondere im Zweifelsfall bietet es sich an, mehrere Faktorenzahlen durchzurechnen und im Hinblick auf Ladungen und Interpretierbarkeit zu überprüfen.
Gibt die der Untersuchung zugrundeliegende Theorie eine bestimmte Faktorenanzahl vor, kann diese auch in der Faktorenanalyse verwendet werden. Auch kann seitens des Untersuchenden mehr oder minder willkürlich festgelegt werden, welcher Anteil der Gesamtvarianz erklärt werden soll, die hierfür erforderliche Faktorenzahl leitet sich dann daraus ab. Jedoch ist auch bei einer theorie- oder varianzgeleiten Festlegung die Faktorenzahl anhand der genannten Kriterien auf Plausibilität zu prüfen.
Faktorrotation
Die Rotation soll Faktoren inhaltlich interpretierbar machen. Zur Verfügung stehen verschiedene Verfahren, darunter:
- Varimax (orthogonal)
- Oblimin (schiefwinklig)
- Quartimax (orthogonal)
- Equamax (orthogonal)
- Promax (schiefwinklig)
Diese Verfahren nähern sich der Rotationslösung iterativ an und erfordern meist zwischen 10 und 40 Iterationsrechnungen.
Grundlage für die Berechnung ist eine Korrelationsmatrix.
Literatur
- Krzanowski, WJ: Principles of Multivariate Analysis. A User's Perspective (rev. ed.). New York: Oxford University Press (2000)
- Steiger, JH: Factor indeterminacy in the 1930's and the 1970's. Some interesting parallels. Psychometrika 44, 157-167 (1979).