Faktorenanalyse
Die Faktorenanalyse oder Faktoranalyse ist ein Verfahren der multivariaten Statistik. Es dient dazu, aus empirischen Beobachtungen vieler verschiedener manifester Variablen (Observablen, Statistische Variablen) auf wenige zugrundeliegende latente Variablen („Faktoren“) zu schließen. Die Entdeckung dieser voneinander unabhängigen Variablen oder Merkmale ist der Sinn des datenreduzierenden (auch dimensionsreduzierenden) Verfahrens der Faktorenanalyse.
Unterschieden wird zwischen explorativer und konfirmatorischer Faktorenanalyse. Letztere ist ein inferenz-statistisches Verfahren und kann als Spezialfall eines Strukturgleichungsmodells aufgefasst werden.
Hintergrund
Geschichte
Die Faktorenanalyse wurde vom Psychologen Charles Spearman für die Auswertung von Intelligenztests entwickelt. 1904 zeigte er, dass Testergebnisse zu einem guten Teil durch ein eindimensionales Persönlichkeitsmerkmal, den general factor (g-Faktor), erklärt werden konnten. Die Verallgemeinerung auf eine Analyse mit mehreren Faktoren wird James Clerk Maxwell Garnett zugeschrieben (Steiger 1979); popularisiert wurde sie in den 1940er Jahren von Louis Leon Thurstone.
Maximum-Likelihood-Schätzmethoden wurden in den 1930er und 40er Jahren von Lawley und Victor Barnett vorgeschlagen; ein stabiler Algorithmus wurde in den 1960ern von Gerhard Derflinger und Karl Gustav Jöreskog entwickelt[1].
Bis heute wird jedoch trotz schlechter Konvergenzeigenschaften auch eine iterative Variante der Hauptkomponentenanalyse zur Faktorenextraktion eingesetzt. Ungenauigkeiten bis hin zur völligen Gleichsetzung von Faktoren- und Hauptkomponentenanalyse sind weit verbreitet.
Anwendungen
Die Faktorenanalyse ist ein universell einsetzbares Werkzeug, um von den sichtbaren Erscheinungen auf die diesen Erscheinungen zugrunde liegenden unbeobachtbaren Ursachen zu schließen. So sind zum Beispiel Konstrukte wie „Intelligenz“ oder „Ehrgeiz“ nicht messbar, werden aber als Ursache vieler Verhaltensweisen angesehen. Allerdings setzt die Faktorenanalyse, um keine fehlerhaften Ergebnisse zu liefern, für die verwendeten Daten mindestens Intervallskalenniveau voraus. Sozialwissenschaftliche Daten erreichen ein solches Skalenniveau nur selten und sind meist nominal- oder ordinalskaliert.
Gelegentlich wird die Faktorenanalyse auch für naturwissenschaftliche Probleme eingesetzt. Es gibt Beispiele für die faktorenanalytische Bearbeitung von Klangsignalen (Spracherkennung), bei denen akustische Hauptfaktoren herausgezogen werden. Hiermit werden Sprachüberlagerungen (Flughafenansage, Konferenzmitschnitte) oder überlagerte Musikaufnahmen verständlicher gemacht (Blind Source Separation, Unabhängigkeitsanalyse (ICA), siehe auch Weblinks).
Die Faktorenanalyse verfolgt nach Markus Wirtz und Christof Nachtigall im Allgemeinen drei Ziele:[2]
- Reduktion der Variablenanzahl: Die Faktorenanalyse erkennt Variablengruppen, in denen jeweils alle Variablen ähnliche Informationen erfassen. Werden die Variablen innerhalb jeder homogenen Gruppe zusammengefasst, ergibt sich eine ökonomischere Darstellung der Gesamtinformation.
- Ermittlung verlässlicher Messgrößen: Werden die Variablen zu einem Faktor zusammengefasst, so besitzt dieser Faktor günstigere messtechnische Eigenschaften als die einzelnen Variablen.
- Analytische Zielsetzung: Die Faktorenanalyse ermöglicht es, von den manifesten Variablen (den Indikatorvariablen) auf übergeordnete latente Variablen (z. B. Intelligenz) zu schließen.
Die explorative Faktorenanalyse dient ausschließlich der Erkundung verdeckter Strukturen einer Stichprobe bzw. der Dimensionsreduktion. Sie ist nicht dazu geeignet, bereits vorhandene Theorien zu überprüfen. Das geeignete Verfahren hierzu stellt die konfirmatorische Faktorenanalyse dar.
Mathematischer Rahmen
Geometrische Bedeutung
Geometrisch gesehen, werden die in die Berechnung einbezogenen Items als Vektoren gesehen, die allesamt vom selben Ursprung ausgehen. Die Länge dieser p Vektoren wird durch die Kommunalität der jeweiligen Items und die Winkel zwischen den Vektoren werden durch deren Korrelation bestimmt. Die Korrelation r zweier Items Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_i} , und der Winkel Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \alpha} zwischen deren Vektoren hängen folgendermaßen zusammen
Eine Korrelation von 1 stellt also einen Winkel von 0°, eine Unkorreliertheit hingegen einen rechten Winkel dar. Ein Modell aus p Variablen spannt somit einen p-dimensionalen Raum auf. Ziel der Faktorenanalyse ist es, dieses Konstrukt geometrisch zu vereinfachen, also einen q-dimensionalen Unterraum zu finden (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle q < p} ). Es sollen durch das Extraktionsverfahren irrelevante Faktoren „ausgeblendet“ werden. Die Lösung dieses Verfahrens sind sogenannte „Punktwolken“ in einem q-dimensionalen Koordinatensystem. Die Koordinaten dieser Punkte stellen die sogenannten Faktorladungen dar. Durch ein Rotationsverfahren sollen die q extrahierten Faktoren so nahe wie möglich in diese Punktwolken gedreht werden.
Lineares Faktorenmodell
Der Faktorenanalyse liegt stets ein lineares Modell zugrunde:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x = \mu+\Gamma z+\epsilon}
mit
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} : Vektor der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p} zu erklärenden Variablen,
- : Vektor mit konstanten Werten,
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \Gamma} : Matrix der „Faktorladungen“,
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z} : Vektor der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle q} Faktorwerte,
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \epsilon} : Zufallsvektor mit Erwartungswert 0.
Es wird gefordert, dass die Komponenten von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z} zentriert, normiert und untereinander sowie mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \epsilon} unkorreliert sind.
In der Regel wird außerdem gefordert, dass die Komponenten von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \epsilon} nicht miteinander korreliert sind. Wird diese Forderung fallengelassen, ist das Modell invariant unter orthogonaler Transformation der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \Gamma} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \epsilon} .
Das empirische Datenmaterial besteht aus Realisierungen des Variablenvektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} (z. B. Fragebögen mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p} Fragen, die von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} Probanden bearbeitet wurden). Zur Notationsvereinfachung kann angenommen werden, dass die Rohdaten in einem ersten Schritt der Auswertung zentriert wurden, so dass Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mu=0} gilt.
Im Rahmen einer Faktorenanalyse sind zu schätzen:
- die Anzahl Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle q} der Faktoren,
- die Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p\times q} Faktorladungen aus ,
- die Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p} Varianzen der Residuen aus ,
- die Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n\times q} Realisierungen des Faktorvektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z} .
Die Schätzung erfolgt typischerweise in drei oder mehr Schritten:
- Es werden mögliche Faktoren identifiziert („extrahiert“);
- es wird entschieden, welche Anzahl Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle q} von Faktoren berücksichtigt werden soll;
- eventuell werden Faktoren rotiert, um ihre Interpretation zu vereinfachen;
- zuletzt werden die Faktorvektoren Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z} für die einzelnen Realisierungen von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} (z. B. persönliche Werte für einzelne Probanden) geschätzt.
Hauptsatz
Aus den Modellannahmen folgt nach kurzer Rechnung der Hauptsatz der Faktoranalyse:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Cov}\left(x_i,x_j\right) = \left(\Gamma\Gamma^{\top}\right)_{ij} + \operatorname{Cov}\left(\epsilon_i,\epsilon_j\right).}
Für vereinfacht sich dieser Satz zu
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Var}\left(x_i\right) = \sum_{k=1}^q\Gamma_{ik}^2 + \operatorname{Var}\left(\epsilon_i\right).}
Hier steht Var für die Varianz, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Cov}(\cdot)} für die Kovarianz und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \top} für Matrixtransposition.
Der Term Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Var}(\epsilon_i)} ist derjenige Anteil der Varianz der Observablen , der durch das Faktorenmodell nicht erklärt wird. Der erklärte Anteil, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Var}(x_i) - \operatorname{Var}(\epsilon_i)} , also die Summe der quadrierten Faktorladungen, heißt Kommunalität der Variablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_i} .
Beispiel
In einer Müllsortierungsanlage seien zur Trennung des Mülls ein Magnet mit vertikaler Wirkungsrichtung und ein Gebläse mit horizontaler Wirkungsrichtung installiert. Die geometrischen Koordinaten der Müllstücke beim Niederfallen mögen Teil der erhobenen Daten sein. Man findet Richtungskorrelationen bei Stücken ohne Metall und großer Windanfälligkeit sowie bei Stücken mit Metallgehalt und geringer Windanfälligkeit.
Mit der Faktorenanalyse kann man dann zunächst finden, dass es zwei orthogonale Einflüsse gibt, die die Bewegungsrichtung beeinflussen.
Die Applikation der Untersuchungsmethode mag dann sein,
- zunächst die Anzahl der Faktoren zu schätzen (s. u.): Es ist sicher nicht interessant, für jedes einzelne Stück die Flugbahn zu dokumentieren und für jedes Stück einen eigenen Faktor anzunehmen, sondern aus den Korrelationen der Daten wesentliche gemeinsame Faktoren zu extrahieren: sehr wahrscheinlich bilden sich zwei Faktoren aus dem Datenmaterial heraus,
- die Stärke und die Orientierung dieser Einflüsse zu bestimmen (noch ohne Theorie über die Art der Einflüsse) oder
- aus der Kenntnis der Stückeigenschaften (metallisch, kompakt vs nichtmetallisch, windanfällig) die Faktoren inhaltlich zu beschreiben und für die kontinuierlichen Eigenschaften „Metallanteil“ und „Windwiderstand“ die „Ladungen“ auf den Faktoren (deren Korrelationen mit der Magnetkraft und der Gebläsestärke) zu beschreiben.
Es wird an diesem Beispiel auch der Unterschied zwischen orthogonaler und schiefwinkliger Faktorenanalyse deutlich: vor allem in den Sozialwissenschaften wird in der Regel von nicht-orthogonalen Faktoren ausgegangen: die sozialwissenschaftlichen Analoge zu Gebläse und Magnet im Beispiel müssen nicht unbedingt im Winkel von 90 Grad zueinander angeordnet sein und entsprechend einwirken.
In einer explorativen Situation, in der man noch keine Hypothesen über die Gründe für das Auftreten korrelierter Auftreffpunkte hat, wird man sich mit dem Auffinden und Markieren von zwei Faktoren zufriedengeben, und versuchen einzugrenzen, worauf diese Richtungskorrelationen zurückzuführen sind. In einer konfirmatorischen Situation wird man untersuchen, ob die aufgefundenen Korrelationen tatsächlich mit zwei Faktoren (wie vielleicht aus einer Theorie her anzunehmen) zu erklären sind, oder ob man einen dritten Faktor annehmen muss (oder tatsächlich nur ein Faktor wirkt).
Explorative Faktorenanalyse
Die explorative Faktorenanalyse wird in vier Schritten durchgeführt
- Schätzung einer Korrelationsmatrix oder Kovarianzmatrix,
- Schätzung der Faktorladungen,
- Bestimmung der Zahl der Faktoren und
- Rotation der Faktorladungen zur Verbesserung der Faktorinterpretation.
Faktorenextraktion
Der erste Schritt der Faktorenanalyse, die Identifikation möglicher Faktoren, ist die Schätzung der Faktorladungen und der residuellen Varianzen. Für eine solche Schätzung benötigt man ein Gütekriterium. Diese essentielle theoretische Grundlage wird in weiten Teilen der Literatur nicht klar benannt.
Das „Gewicht“ eines Faktors wird daraus bestimmt, wie stark die Messvariablen mit ihm korrelieren, d. h. wie hoch sie „auf diesem Faktor laden“. Quantifiziert wird dies durch die Summe der Ladungsquadrate (dies stimmt im orthogonalen Fall mit den Eigenwerten der Ladungsmatrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \Gamma} überein). Hierbei kann man die Faktoren nach der Höhe der Ladungsquadratsumme (LQS) sortieren.
Findet man gut separierbar zwei Gruppen von Faktoren, einer mit hoher LQS und ein weiterer mit niedriger LQS, wird man die Anzahl der Faktoren des Modells mit der Anzahl der LQS-hohen Faktoren gleichsetzen. Die Separierbarkeit dieser Gruppen kann man sich an einem Linien-Plot über die LQS ansehen; gibt es einen erkennbaren Knick, kann dieser als Trennungskriterium dienen (Scree-Test).
Ein anderes Kriterium ist, dass die LQS eines gemeinsamen Faktors größer als die Varianz einer einzelnen Messvariablen sein sollte (sonst wäre er schlecht als „gemeinsamer“ Faktor zu verstehen). Dies meint dann i. d. R. LQS ≥ 1 (Kriterium nach Kaiser).
Hauptachsenmethode
Bei der Hauptachsenmethode werden zunächst die Kommunalitäten geschätzt: Entweder als Bestimmtheitsmaß der Regression der betrachteten Messvariablen auf alle anderen Messvariablen oder als das Maximum der Beträge der Korrelationen der betrachteten Messvariablen mit allen anderen Messvariablen. Danach wird ein iteratives Verfahren durchgeführt:
- Die Varianzen der Residuen werden geschätzt als Differenz der Varianz der Messvariablen und der entsprechenden Kommunalität.
- Für die reduzierte Kovarianzmatrix werden die Eigenwerte und -vektoren berechnet. Die reduzierte Kovarianzmatrix enthält im Gegensatz zur Kovarianzmatrix auf der Hauptdiagonalen die Kommunalitäten.
- Mit den Eigenvektoren der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle q} größten Eigenwerte wird die reproduzierte Korrelationsmatrix berechnet. Die Hauptdiagonale der reproduzierten Korrelationsmatrix ergibt eine neue Schätzung der Kommunalitäten.
- Die ersten drei Schritte werden wiederholt, bis sich die Schätzungen der Ladungen, Kommunalitäten und Varianzen der Residuen stabilisiert haben.
Bei der Hauptachsenmethode werden also erst die Kommunalitäten und Varianzen der Residuen geschätzt und danach die Eigenwertzerlegung durchgeführt. In der Hauptkomponentenanalyse wird erst die Eigenwertzerlegung durchgeführt und danach werden die Kommunalitäten und Varianzen der Residuen geschätzt. Für die Interpretation bedeutet das, dass bei der Hauptkomponentenanalyse die gesamte Varianz einer Messvariablen vollständig durch die Komponenten erklärt werden kann, während bei der Hauptachsenmethode ein Anteil der Varianz einer Messvariablen existiert, der nicht durch die Faktoren erklärt werden kann.
Ein Nachteil der Hauptachsenmethode ist, dass im Laufe des Iterationsprozesses die Varianz der Residuen negativ oder größer als die Varianz der Messvariablen werden kann. Das Verfahren wird dann ohne Ergebnis abgebrochen.[3]
Maximum-Likelihood-Schätzung
Die Parameterschätzung steht auf einer sicheren Grundlage, wenn man die Γ, die und die (in den vorigen Abschnitten nicht mitnotierten) μ so bestimmt, dass sie die Likelihood Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle L(x;\mu,\Gamma, \zeta)} der beobachteten Realisierungen von x maximieren.
Allerdings muss man bei diesem Schätzverfahren Annahmen über die Wahrscheinlichkeitsverteilung der manifesten Variablen x treffen, in der Regel also eine Normalverteilung annehmen.
Bestimmung der Faktorenzahl
Bei der Extraktion entstehen je nach Option und Verfahren sehr viele Faktoren. Nur wenige von ihnen erklären genug Varianz, um ihre weitere Verwendung rechtfertigen zu können. Die Auswahl der Faktoren dient in erster Linie der Gewinnung von aussagekräftigen, gut interpretierbaren Ergebnissen und ist damit nur eingeschränkt objektivierbar. Anhaltspunkte können folgende Kriterien liefern:
- Kaiser-Kriterium
- Scree-Test (auch Ellenbogenkriterium genannt)
- Parallelanalyse (eine Modifikation des Scree-Tests)
Grundsätzlich sollten mehrere Kriterien herangezogen werden. Insbesondere im Zweifelsfall bietet es sich an, mehrere Faktorenzahlen durchzurechnen und im Hinblick auf Ladungen und Interpretierbarkeit zu überprüfen.
Gibt die der Untersuchung zugrundeliegende Theorie eine bestimmte Faktorenanzahl vor, kann diese auch in der Faktorenanalyse verwendet werden. Auch kann seitens des Untersuchenden mehr oder minder willkürlich festgelegt werden, welcher Anteil der Gesamtvarianz erklärt werden soll, die hierfür erforderliche Faktorenzahl leitet sich dann daraus ab. Jedoch ist auch bei einer theorie- oder varianzgeleiten Festlegung die Faktorenzahl anhand der genannten Kriterien auf Plausibilität zu prüfen.
Faktorrotation
Die Rotation soll die Faktoren inhaltlich besser interpretierbar machen. Zur Verfügung stehen verschiedene Verfahren, darunter:
- orthogonale, d. h. die rotierten Faktoren sind weiterhin unkorreliert,
- Varimax
- Quartimax
- Equamax
- und schiefwinklige, d. h. die rotierten Faktoren sind korreliert,
- Oblimin
- Promax
Diese Verfahren nähern sich der Rotationslösung iterativ an und erfordern meist zwischen 10 und 40 Iterationsrechnungen. Grundlage für die Berechnung ist eine Korrelationsmatrix.
Faktoren- versus Hauptkomponentenanalyse
Die Faktorenanalyse und die Hauptkomponentenanalyse besitzen eine Reihe von Gemeinsamkeiten:
- Beide Verfahren dienen der Dimensionsreduktion.
- Beide Verfahren sind lineare Modelle zwischen den Komponenten/Faktoren und Variablen.
- Beide Verfahren können sowohl auf eine Kovarianz- als auch auf eine Korrelationsmatrix angewendet werden.
- Beide Verfahren ergeben oft ähnliche Resultate (wenn bei der Faktorenanalyse keine Rotation angewandt wird).
Jedoch gibt es auch eine Reihe von Unterschieden:
- Die Hauptkomponentenanalyse beginnt damit, dass sie einen niedrigdimensionalen linearen Unterraum sucht, der die Daten am besten beschreibt. Da der Unterraum linear ist, kann er durch ein lineares Modell beschrieben werden. Sie ist daher ein deskriptiv-exploratives Verfahren. Die Faktorenanalyse legt ein lineares Modell zugrunde und versucht die beobachtete Kovarianz- oder Korrelationsmatrix zu approximieren. Sie ist daher ein modellbasiertes Verfahren.
- In der Hauptkomponentenanalyse gibt es eine klare Rangfolge der Vektoren, gegeben durch die absteigenden Eigenwerte der Kovarianz- oder Korrelationsmatrix. In der Faktorenanalyse wird zunächst die Dimension des Faktorraums festgelegt und alle Vektoren stehen gleichberechtigt nebeneinander.
- In der Hauptkomponentenanalyse wird ein p-dimensionaler Zufallsvektor x durch eine Linearkombination von Zufallsvektoren Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z_k} dargestellt, die so gewählt werden, dass der erste Summand einen möglichst großen Anteil der Varianz von x erklärt, der zweite Summand möglichst viel von der verbleibenden Varianz, und so weiter. Wenn man diese Summe nach q Gliedern abbricht, erhält man als Darstellung von x
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_i=\sum_{k=1}^q G_{ik} z_k + e_i}
- mit dem Restterm
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle e_i=\sum_{k=q+1}^p G'_{ik} z_k} .
- Auf den ersten Blick sieht x wie das lineare Modell der Faktorenanalyse aus. Jedoch sind die Komponenten von e miteinander korreliert, da sie von denselben Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z_k} abhängen. Da dies die Voraussetzung der Faktorenanalyse verletzt, erhält man aus einer Hauptkomponentenanalyse kein korrektes Faktorenmodell.
- Die Hauptkomponentenanalyse modelliert nur die Varianzen, nicht aber die Kovarianzen der x.[4] Die totale Varianz, das Optimalitätskriterium der Hauptkomponentenanalyse, lässt sich schreiben als der aufsummierte Abstand zwischen den Beobachtungen und dem Mittelwert der Beobachtungen. Die genaue Anordnung der Beobachtungen im hochdimensionalen Raum, deren linearer Teil mit der Kovarianz- oder Korrelationsmatrix beschrieben wird, spielt jedoch keine Rolle.
Siehe auch
- Kaiser-Meyer-Olkin-Kriterium (KMK oder KMO, auch measure of sampling adequacy, MSA)
Literatur
- Dirk Revenstorf: Lehrbuch der Faktorenanalyse. Kohlhammer, Stuttgart 1976, ISBN 3-17-001359-9.
- Karl Überla: Faktorenanalyse. Springer Verlag, Berlin 1968.
- S. Mulaik: The foundations of factor analysis. 2. ed., CRC Press, Boca Raton [u. a.] 2010, ISBN 978-1-4200-9961-4.
- Klaus Backhaus et al.: Multivariate Analysemethoden. 14. Auflage, Springer Verlag, Heidelberg 2016, ISBN 978-3-662-46075-7, S. 385–452, doi:10.1007/978-3-662-46076-4_8.
- W. J. Krzanowski: Principles of Multivariate Analysis. A User’s Perspective (rev. ed. reprint). Oxford [u. a.]: Oxford University Press 2008, ISBN 978-0-19-850708-6.
- James H. Steiger: Factor indeterminacy in the 1930's and the 1970's. Some interesting parallels. Psychometrika 44, 1979, 157–167, doi:10.1007/BF02293967, (online).
Weblinks
- Explorative Faktorenanalyse – ausführliche Methodendarstellung
Einzelnachweise
- ↑ (Krzanowski, S. 487)
- ↑ Markus Wirtz und Christof Nachtigall: Deskriptive Statistik. 3. Auflage, Juventa Verlag, Weinheim 2004, S. 199 f.
- ↑ SPSS (2007), SPSS 16.0 Algorithms, SPSS Inc., Chicago, Illinois, S. 280.
- ↑ Krzanowski, W.J. (2000). Principles of multivariate analysis: a user's perspective, S. 482