Multikollinearität

aus Wikipedia, der freien Enzyklopädie

Multikollinearität liegt vor, wenn zwei oder mehr erklärende Variablen eine sehr starke Korrelation miteinander haben. Mit zunehmender Multikollinearität wird in der Regressionsanalyse die Schätzung der Regressionskoeffizienten instabil. Aussagen zur Schätzung der Regressionskoeffizienten sind zunehmend ungenau und die Modellinterpretation ist nicht mehr eindeutig. Dies ist das Problem nicht identifizierbarer Parameter.

Ein Symptom starker Multikollinearität ist ein hohes Bestimmtheitsmaß einhergehend mit niedrigen t-Werten für die einzelnen Regressionsparameter.

Probleme der Multikollinearität

Perfekte Kollinearität macht die rechnerische Durchführung der linearen Regressionsanalyse unmöglich und tritt meist als Folge der Fehlspezifikation des zu Grunde liegenden Modells (wahres Modell) auf. Im Falle von Multikollinearität kommt es zu nicht identifizierbarer Parametern.

Numerische Instabilität

Die Regressionsparameter werden korrekt geschätzt, falls und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X_2} unkorreliert sind (schwarz, wahre Parameter: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle b_1=a_1= 2,b_2=a_2=4} ). Falls Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X_1} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X_2} korreliert sind (rot), dann ist die Schätzung der Parameter kompromittiert.

Mathematisch lässt sich die, mittels der Methode der kleinsten Quadrate gewonnene, Lösung des multiplen linearen Regressionsproblems Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i = b_0 + b_1 x_{i1} + \ldots + b_k x_{ik}} für die Regressionskoeffizienten in Vektor-Matrix-Schreibweise darstellen als

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf b= \left( \mathbf{X}^{\top} \mathbf{X} \right)^{-1} \mathbf{X}^{\top} \mathbf{y}} .

Der Vektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{b}=(b_0, \dots, b_p)^{\top}} enthält die geschätzten Regressionskoeffizienten, den Vektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{y} = (y_1, \dots, y_n)^{\top}} und die Datenmatrix

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{X} = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1k} \\ \vdots & \vdots & & \vdots\\ 1 & x_{n1} & \cdots & x_{nk} \end{pmatrix}}

die Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n \times p} -dimensionalen Beobachtungswerte. Das Problem liegt in der Berechnung der Inversen von der Produktsummenmatrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{X}^{\top}\mathbf{X} } ; je stärker die Multikollinearität ist, desto mehr nähert sich Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{X}^{\top} \mathbf{X}} einer singulären Matrix an, d. h. es existiert keine Inverse.

Modellinterpretation

Wenn das Regressionsmodell Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y=b_0+b_1 x_1 + b_2 x_2} ist und perfekte Multikollinearität vorliegt, d. h.

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_2=c_0+c_1 x_1\,} oder umgestellt

und setzt beide Gleichungen jeweils in das Regressionsmodell ein, so erhält man

(1) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y = b_0+b_1 x_1 + b_2 (c_0+c_1 x_1) = (b_0 + b_2 c_0) + (b_1 +b_2 c_1) x_1\,}
(2) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y = b_0+b_1 \left(\frac{1}{c_1} x_2 - \frac{c_0}{c_1}\right) + b_2 x_2 = \left(b_0+\frac{b_1c_0}{c_1}\right) + \left(\frac{b_1}{c_1}+b_2\right) x_2}

Im Modell (1) hängt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} nur noch von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_1} ab und im Modell (2) hängt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} nur noch von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_2} ab. Es stellt sich nun die Frage, welches Modell ist das „Richtige“? In der Ökonomie spricht man von nicht identifizierbaren Modellen.

Identifikation von Multikollinearität

Weil empirische Daten immer einen gewissen Grad an Multikollinearität aufweisen, wurden Kennzahlen entwickelt, die Hinweise auf Multikollinearität liefern. Einen eindeutigen Richtwert gibt es jedoch nicht.

Korrelation

Zur Aufdeckung von Multikollinearität dient z. B. die Analyse der Korrelationskoeffizienten der Regressoren. Sehr hohe positive oder negative Korrelationskoeffizienten zeigen einen starken Zusammenhang zwischen den Regressoren und damit Multikollinearität an. Eine niedrige Korrelation zwischen den Regressoren bedeutet jedoch nicht automatisch die Abwesenheit von Multikollinearität (Beispiel [1]); auch lineare Kombinationen von Regressoren, die eine hohe positive oder negative Korrelation aufweisen, z. B. zwischen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle d_1 x_1 + d_2 x_2} und , führen zu den oben genannten Problemen. Eine hohe Korrelation zwischen den Regressoren kann durch die Korrelationsmatrix identifiziert werden.

Bestimmtheitsmaß

Ein hohes Bestimmtheitsmaß Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle R_i^2} der linearen Regressionen

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_i = d_{i0} + \sum_{j=1\atop j\neq i}^k d_{ji} x_j} ,

d. h. der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle i} -te Regressor wird durch alle anderen Regressoren gut vorhergesagt, zeigt Multikollinearität an.

Toleranz

Die Toleranz Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \text{Tol}_j = 1-R_j^2} wird zur Einschätzung der Multikollinearität benutzt. Ein Wert von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \text{Tol}_j < 0{,}2} deutet auf eine starke Multikollinearität hin.

Varianzinflationsfaktor (VIF)

Je größer der Varianzinflationsfaktor

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{VIF}_j = \frac{1}{1-R_j^2}=\frac{1}{\text{Tol}_j}\in [1; \infty)} , (mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle R_j} als Bestimmtheitsmaß der Regression von auf alle übrigen Einflussgrößen),

desto stärker sind die Hinweise auf Multikollinearitäten. Einen definitiven Wert, ab wann der VIF eine (zu) hohe Multikollinearität anzeigt, gibt es nicht. Als Daumenregel werden häufig VIF-Werte von über 10 als „zu hoch“ eingestuft.[2]

Konditionsindex

Die Produktsummenmatrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{X}^{\top} \mathbf{X}} ist positiv semidefinit, d. h. alle Eigenwerte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \lambda_i} der Matrix sind positiv oder Null. Wird die Matrix singulär, dann ist mindestens ein Eigenwert gleich Null. Ist der Konditionsindex

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \text{KI}_j = \sqrt{\frac{\lambda_j}{\min_i \lambda_i}}}

für ein Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \text{KI}_j} größer als 30 spricht man ebenfalls von starker Multikollinearität.

Siehe auch

Literatur

  • L. von Auer: Ökonometrie – Eine Einführung. 7. Auflage. Springer, Berlin 2016, ISBN 978-3-662-47868-4, S. 561–588.

Einzelnachweise

  1. https://www.sgipt.org/wisms/EWA/EWA0.htm#Unauffaellige%20Korrelationsmatrix
  2. Siehe für die Daumenregel und eine Diskussion dazu: Wooldridge, Introductory Econometrics:A Modern Approach, 2013, S. 98.