Regressionsanalyse

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Robuste Regression)

Die Regressionsanalyse ist ein Instrumentarium statistischer Analyseverfahren, die zum Ziel haben, Beziehungen zwischen einer abhängigen (oft auch erklärte Variable, oder Regressand genannt) und einer oder mehreren unabhängigen Variablen (oft auch erklärende Variablen, oder Regressoren genannt) zu modellieren. Die Durchführung einer Regression wird verwendet, um Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren.[1] Die häufigste Form der Regressionsanalyse ist die lineare Regression, bei der der Anwender eine Gerade (oder eine komplexere lineare Funktion) findet, die den Daten nach einem bestimmten mathematischen Kriterium am besten entspricht. Beispielsweise berechnet die gewöhnliche Methode der kleinsten Quadrate eine eindeutige Gerade (oder Hyperebene), die die Summe der Abweichungsquadrate zwischen den wahren Daten und dieser Linie (oder Hyperebene), d. h. die Residuenquadratsumme minimiert. Aus bestimmten mathematischen Gründen kann der Anwender den bedingten Erwartungswert der abhängigen Variablen schätzen, wenn die unabhängigen Variablen eine bestimmte Menge von Werten annehmen. Weniger gebräuchliche Formen der Regression verwenden geringfügig unterschiedliche Verfahren zum Schätzen alternativer Lageparameter (z. B. die Quantilsregression) oder zum Schätzen des bedingten Erwartungswertes für eine breitere Klasse nichtlinearer Modelle (z. B. nichtparametrische Regression).

Die Regressionsanalyse wird hauptsächlich zu zwei konzeptionell unterschiedlichen Zwecken verwendet. Erstens wird die Regressionsanalyse häufig für Schätzungen und Vorhersagen verwendet, bei denen sich ihre Verwendung erheblich mit dem Bereich des maschinellen Lernens überschneidet, siehe auch symbolische Regression. Zweitens kann in einigen Situationen eine Regressionsanalyse verwendet werden, um auf kausale Beziehungen zwischen den unabhängigen und abhängigen Variablen zu schließen. Wichtig ist, dass Regressionen für sich genommen nur Beziehungen zwischen einer abhängigen Variablen und einer oder mehrerer unabhängiger Variablen in einem gegebenen Datensatz aufzeigen. Um Regressionen für Vorhersagen zu verwenden oder Kausalzusammenhänge herzuleiten, muss der Anwender sorgfältig begründen, warum bestehende Beziehungen Vorhersagekraft für einen neuen Kontext haben oder warum eine Beziehung zwischen zwei Variablen eine Kausalzusammenhangsinterpretation hat (Korrelation und Kausalzusammenhang). Letzteres ist besonders wichtig, wenn Anwender mithilfe von Beobachtungsdaten kausale Zusammenhänge abschätzen möchten.

Durch die Ergänzung einer Entscheidungsregel wird eine Regression zu einem Klassifikationsverfahren.

Geschichte

Francis Galton
Datei:Carl Friedrich Gauss.jpg
Carl Friedrich Gauß

Die früheste Form der Regression war die Median-Regression, die um 1760 von Rugjer Josip Bošković (1711–1787) vorgeschlagen wurde.[2] Später wurde die Methode der kleinsten Quadrate (französisch méthode des moindres carrés) 1805 von Legendre[3] und 1809 von Gauß veröffentlicht.[4] Beide verwendeten die Methode, um die Umlaufbahnen der Planeten um die Sonne anhand von astronomischen Beobachtungen zu bestimmen. Gauß veröffentlichte eine Weiterentwicklung der Theorie der kleinsten Quadrate im Jahr 1821,[5] die eine theoretische Rechtfertigung seiner Methode der kleinsten Quadrate enthielt. Diese ist heute als Satz von Gauß-Markow bekannt.

Der Begriff Regression wurde im 19. Jahrhundert von Francis Galton, einem Cousin Charles Darwins, geprägt. Er beschrieb damit ein biologisches Phänomen, bekannt als Regression zur Mitte, wonach Nachfahren großer Eltern dazu tendieren, nur durchschnittlich groß zu werden.[6][7] Für Galton hatte Regression nur diese biologische Bedeutung.[8][9] Seine Arbeit wurde jedoch später durch Udny Yule und Karl Pearson in einen allgemeineren statistischen Kontext gesetzt.[10][11] In deren Arbeiten wurde davon ausgegangen, dass die gemeinsame Verteilung der unabhängigen und der abhängigen Variablen normalverteilt ist. Diese Annahme konnte von R. A. Fisher später abgeschwächt werden.[12][13][14] Dieser arbeitete mit der Voraussetzung, dass die bedingte Verteilung der abhängigen Variable normalverteilt ist, die gemeinsame Verteilung jedoch nicht notwendigerweise. In dieser Hinsicht war Fishers Ansatz ähnlicher zu Gauß’ Formulierung von 1821.

Regressionsverfahren sind weiterhin ein aktives Forschungsgebiet. In den letzten Jahrzehnten wurden in verschiedensten Bereichen Schätzmethoden entwickelt, etwa zur robusten Regression, zur nichtparametrischen Regression, im Bereich der bayesschen Statistik, bei fehlenden Daten und bei fehlerbehafteten unabhängigen Variablen.

Anwendungen

Regressionsverfahren haben viele praktische Anwendungen. Die meisten Anwendungen fallen in folgende Kategorien:[15]

  • Vorhersage: Schätzungen der einzelnen Regressionsparameter Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_0, \beta_1, \ldots, \beta_k} sind weniger wichtig für die Vorhersage, als der Gesamteinfluss der -Variablen auf die Zielgröße Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} . Dennoch sollten gute Schätzer eine hohe Vorhersagekraft haben.
  • Datenbeschreibung und Erklärung: Der Statistiker verwendet das geschätzte Modell, um die beobachteten Daten zusammenzufassen und zu beschreiben.
  • Parameterschätzung: Die Werte der geschätzten Parameter Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat\beta_0, \hat\beta_1, \ldots, \hat\beta_k} könnten theoretische Implikationen für das angenommene Modell haben.
  • Variablenauswahl: Es soll herausgefunden werden wie wichtig jede einzelne Prädiktorvariable Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_j} in der Modellierung der Zielgröße Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} ist. Die Prädiktorvariablen, von denen angenommen wird, dass sie einen wichtigen Anteil an der Erklärung der Variation in leisten werden beibehalten und diejenigen die wenig zur Erklärung der Variation in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} beitragen (oder redundante Information über Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} enthalten) werden ausgelassen.
  • Für die Ausgangsvariable kontrollieren: Es wird ein Ursache-Wirkung-Zusammenhang (d. h. ein kausaler Zusammenhang) zwischen der Zielvariable und den Prädiktorvariablen angenommen. Das geschätzte Modell kann dann verwendet werden, um für die Ausgangsvariable eines Prozesses zu kontrollieren, indem die Eingangsvariablen variiert werden. Durch systematisches Herumexperimentieren kann es möglich sein den optimalen Ausstoß zu erzielen.

Schema einer Regressionsanalyse

Datenaufbereitung

Am Beginn jedes statistischen Verfahrens steht die Aufbereitung der Daten, insbesondere

  • die Plausibilisierung. Hierbei wird geprüft, ob die Daten nachvollziehbar sind. Dies kann manuell oder automatisch anhand von Gültigkeitsregeln erfolgen.
  • der Umgang mit fehlenden Daten. Häufig werden unvollständige Datensätze weggelassen, mitunter werden die fehlenden Daten auch nach bestimmten Verfahren aufgefüllt.
  • die Transformation der Daten. Diese kann aus verschiedenen Gründen erfolgen. Sie kann beispielsweise zu einer besseren Interpretierbarkeit oder Visualisierbarkeit der Daten führen. Sie kann auch dazu dienen, die Daten in eine Form zu bringen, in der die Annahmen des Regressionsverfahrens erfüllt sind. Im Falle der linearen Regression werden etwa ein linearer Zusammenhang zwischen den unabhängigen und der abhängigen Variable sowie Homoskedastizität vorausgesetzt. Es gibt mathematische Hilfsmittel zum Finden einer geeigneten Transformation, im Beispiel der Linearisierung des Zusammenhanges etwa die Box-Cox-Transformation.
  • die Berücksichtigung von Interaktionen (bei linearer Regression). Hierbei wird neben dem Einfluss der unabhängigen Variablen auch der Einfluss mehrerer Variablen gleichzeitig berücksichtigt.

Modellanpassung

In der Praxis wählt der Anwender zuerst ein Modell aus, das er schätzen möchte, und verwendet dann die gewählte Schätzmethode (z. B. die gewöhnliche Kleinste-Quadrate-Schätzung), um die Parameter dieses Modells zu schätzen. Regressionsmodelle umfassen im Allgemeinen die folgenden Komponenten:

  • Die unabhängigen Variablen (auch Regressoren), für die Daten vorliegen und oft im Vektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{x}_i} zusammengefasst werden Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{x}^{\top}_i = ( x_{i0}, x_{i1}, \ldots , x_{ik})} (hierbei stellt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle i} eine Datenreihe dar).
  • Die abhängige Variable (auch Regressand), für die Daten vorliegen und die häufig mit dem Skalar Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i} angegeben wird. Man sagt, „Variable Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i} wird auf Variable und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_{ik}} regressiert“, oder „Regression von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i} auf und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_{ik}} “.[16][17]
  • Die unbekannten zu schätzenden Parameter Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_0, \beta_1, \ldots, \beta_k} , sie stellen Skalare dar.
  • Die unbeobachtbaren Störgrößen (statistisches Rauschen), die in nicht direkt beobachtet werden können und häufig als Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \varepsilon_i} angegeben werden.

In verschiedenen Anwendungsbereichen der Statistik werden unterschiedliche Terminologien anstelle von abhängigen und unabhängigen Variablen verwendet (siehe Einflussgröße und Zielgröße).

In den allermeisten Regressionsmodellen ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y_i } eine Funktion von und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta} , wobei diese Beziehung von einer additiven Störgröße Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \varepsilon_i} überlagert wird, die für nicht modellierte oder unbekannte Bestimmungsfaktoren von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y_i} stehen kann:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y_i = f (X_i, \beta) + \varepsilon_i} .

Ziel des Anwenders ist es, diejenige Funktion zu schätzen, die am ehesten zu den vorliegenden Daten passt. Um eine Regressionsanalyse durchzuführen, muss die funktionale Form der Funktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f(\cdot)} angegeben werden. Manchmal basiert die Angabe der Form dieser Funktion auf nicht datenbasierten Erfahrungswissen über die Beziehung zwischen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y_i} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X_i} (die Lineare Regression etwa betrachtet nur lineare Funktionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f} , logistische Regression betrachtet nur logistische Funktionen). Wenn kein solches Wissen vorhanden ist, kann eine flexiblere bzw. allgemeinere Form für gewählt werden. Beispielsweise kann eine einfache lineare Regression Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f (X_i, \beta) = \beta_0 + \beta_1 X_i } angewandt werden, was darauf hindeutet, dass der Forscher glaubt, dass Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i} eine angemessene Annäherung für den wahren datengenerierenden Prozess sein könnte.

Sobald der Anwender sein bevorzugtes statistisches Modell festgelegt hat, bieten verschiedene Formen der Regressionsanalyse Werkzeuge zur Schätzung des Parameters Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta} . Zum Beispiel findet die Kleinste-Quadrate-Schätzung (einschließlich seiner häufigsten Variante, der gewöhnlichen Kleinste-Quadrate-Schätzung) denjenigen Wert von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta} , der die Residuenquadratsumme Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sum( Y_i - f(X_i, \beta))^2 } minimiert. Eine gegebene Regressionsmethode liefert letztendlich eine Schätzung von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta} , die für gewöhnlich als Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat\beta} bezeichnet wird, um die Schätzung von dem wahren (unbekannten) Parameterwert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta} zu unterscheiden, der die Daten generiert hat. Mit dieser Schätzung kann der Anwender dann den angepassten Wert bzw. vorhergesagten Wert (englisch fitted value) zur Vorhersage oder zur Beurteilung verwendet werden, wie genau das Modell die Daten erklären kann. Ob der Anwender grundsätzlich an der Schätzung oder dem vorhergesagten Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{Y}_i } interessiert ist, hängt vom Kontext und den Zielen des Anwenders ab. Die gewöhnliche Kleinste-Quadrate-Schätzung wird oft verwendet, da die geschätzte Funktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{Y}_i = f (X_i, \hat{\beta})} eine Schätzung des bedingten Erwartungswertes Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{E}(Y_i \mid X_i) } darstellt. Alternative Varianten (z. B. sogenannte Robuste Schätzverfahren, die den Betrag der Abweichungen minimieren Methode der kleinsten absoluten Abweichungen oder die Quantilsregression). Sie sind jedoch nützlich, wenn Anwender andere Funktionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f (X_i, \beta)} z. B. nichtlinearer Modelle modellieren möchte.

Es ist wichtig zu beachten, dass genügend Daten vorhanden sein müssen, um ein Regressionsmodell zu schätzen. Angenommen, ein Anwender hat Zugriff auf Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} Datenzeilen mit einer abhängigen und zwei unabhängigen Variablen: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (Y_i, X_{1i}, X_{2i})} . Sei weiterhin angenommen, der Anwender möchte ein einfaches lineares Modell über die Kleinste-Quadrate-Schätzung schätzen. Das zu schätzende Modell lautet dann Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \varepsilon_i } . Wenn der Anwender nur Zugriff auf Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n = 2 } Datenpunkte hat, kann er unendlich viele Kombinationen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2)} finden, die die Daten gleich gut erklären: Es kann eine beliebige Kombination ausgewählt werden, die Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}} erfüllt, die alle zu Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sum_i \hat{e}_i^2 = \sum_i (\hat{Y}_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i}))^2 = 0} führen und ist daher eine gültige Lösung, die diejenige, die die Summe der Residuenquadrate (Residuenquadratsumme) minimiert. Um zu verstehen, warum es unendlich viele Möglichkeiten gibt, ist zu beachten, dass das System der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n = 2 } -Gleichungen für 3 Unbekannte gelöst werden muss, wodurch das System unterbestimmt wird. Alternativ kann man unendlich viele dreidimensionale Ebenen visualisieren, die durch Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n = 2 } Fixpunkte verlaufen.

Ein allgemeinerer Ansatz ist ein Kleinste-Quadrate-Modell mit unterschiedlichen Parametern zu schätzen. Dazu müssen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N \geq k } unterschiedliche Datenpunkte vorliegen. Wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N > k} ist, gibt es im Allgemeinen keinen Satz von Parametern, der perfekt zu den Daten passt. Die Größe erscheint häufig in der Regressionsanalyse und wird im Modell als Anzahl der Freiheitsgrade bezeichnet. Um ein Kleinste-Quadrate-Modell zu schätzen, müssen außerdem die unabhängigen Variablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (X_{1i}, X_{2i}, ..., X_{ki})} linear unabhängig sein, d. h. man muss keine der unabhängigen Variablen rekonstruieren können, indem man die verbleibenden unabhängigen Variablen addiert und multipliziert. Diese Bedingung stellt sicher, dass die Produktsummenmatrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathbf{X}^{\top}\mathbf{X}} eine invertierbare Matrix ist und daher eine Lösung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{\beta}} existiert.

Modellvalidierung

Ein wichtiger Schritt der Regressionsanalyse ist die Modellvalidierung. Hierbei wird überprüft, ob das Modell eine gute Beschreibung des Zusammenhangs ist. Die Modellvalidierung umfasst die

  • Residuenanalyse. Viele Regressionsverfahren treffen Annahmen über die Residuen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{\varepsilon}_i} des Modells. So wird z. B. eine bestimmte Verteilung, konstante Varianz oder fehlende Autokorrelation unterstellt. Da die Residuen Ergebnis des Verfahrens sind, kann die Prüfung der Annahmen erst im Nachhinein erfolgen. Typisches Hilfsmittel zur Überprüfung der Verteilung ist das Quantil-Quantil-Diagramm.
  • Überanpassung. Dieses Phänomen tritt auf, wenn zu viele unabhängige Variablen im Modell berücksichtigt werden. Ein Verfahren zum Testen auf Überanpassung ist das Kreuzvalidierungsverfahren.
  • Untersuchung der Daten auf Ausreißer und einflussreiche Datenpunkte. Hierbei wird überprüft, welche Datensätze nicht zur ermittelten Funktion passen (Ausreißer) und welche Daten die ermittelte Funktion stark beeinflussen. Für diese Datensätze empfiehlt sich eine gesonderte Untersuchung. Mathematische Hilfsmittel zur Ermittlung von Ausreißern und einflussreichen Punkten sind Cook- und Mahalanobis-Abstand.
  • Multikollinearität zwischen den unabhängigen Variablen (bei linearen Modellen). Wenn es einen linearen Zusammenhang zwischen den unabhängigen Variablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} gibt, dann kann das zum einen die numerische Stabilität des Verfahrens beeinträchtigen und zum anderen die Interpretation des Modells bzw. der angepassten Funktion erschweren. Hilfsmittel zum Quantifizieren der Kollinearität sind der Varianzinflationsfaktor und die Korrelationsmatrix.

Vorhersage

Das validierte Modell kann zur Vorhersage von Werten von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} bei gegebenen Werten von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} herangezogen werden. Häufig wird neben dem prognostizierten Wert von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} auch ein Vorhersageintervall angegeben, um so die Unsicherheit der Vorhersage abzuschätzen.

Bei Vorhersagen im Wertebereich der zur Modellanpassung verwendeten Daten spricht man von Interpolation. Vorhersagen außerhalb dieses Datenbereichs nennt man Extrapolation. Vor der Durchführung von Extrapolationen sollte man sich gründlich mit den dabei implizierten Annahmen auseinandersetzen.[18]

Variablenauswahl und Modellvergleich

Ist das Ziel der Analyse die Ermittlung derjenigen unabhängigen Variablen, die besonders stark in Zusammenhang mit der abhängigen Variablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} stehen, werden häufig mehrere Modelle mit jeweils unterschiedlichen unabhängigen Variablen erstellt und diese Modelle verglichen. Um zwei Modelle miteinander zu vergleichen, werden in der Regel Kennzahlen wie das Bestimmtheitsmaß oder Informationskriterien benutzt.

Es gibt automatisierte Verfahren wie die sogenannte schrittweise Regression, die sukzessive dasjenige Modell zu ermitteln versuchen, welches den gesuchten Zusammenhang am besten erklärt. Die Anwendung solcher Verfahren wird jedoch kontrovers diskutiert.

Des Weiteren gibt es in der bayesschen Statistik Verfahren, die aus mehreren Modellen ein neues Modell ableiten (durch sogenanntes averaging) und so versuchen, die aus der Modellwahl entstehende Unsicherheit zu verringern.

Einige Regressionsverfahren

Das folgende Beispiel wird zur Illustration der verschiedenen Verfahren benutzt. Analog zu Mincer (1974) wurden aus dem Current Population Survey 1985 zufällig 534 Beobachtungen mit folgenden Variablen gezogen:[19]

  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \text{lwage}} : natürlicher Logarithmus des Stundenlohns,
  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \text{educ}} : Berufsausbildung in Jahren,
  • : Berufserfahrung in Jahren (= Alter – Berufsausbildung – 6).

Mincer untersuchte mit Hilfe der nach ihm benannten Mincer-Einkommensgleichung den Zusammenhang zwischen dem Logarithmus des Stundenlohns (abhängige Variable) und der Berufsausbildung und -erfahrung (unabhängige Variablen). In den folgenden Grafiken findet sich links eine räumliche Darstellung der Regressionsfläche und rechts ein Kontourplot. Positive Residuen sind rötlich, negative Residuen sind bläulich gezeichnet und je heller die Beobachtung desto kleiner ist der Absolutbetrag des Residuums.

Grundlegende Verfahren

Lineare Regression

Bei der linearen Regression wird das Modell so spezifiziert, dass die abhängige Variable Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} eine Linearkombination der Parameter (=Regressionsparameter) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_j} ist, aber nicht notwendigerweise der unabhängigen Variablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} . Zum Beispiel modelliert die einfache lineare Regression die Abhängigkeit mit einer unabhängigen Variable :

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i=\beta_0 +\beta_1 x_i + \varepsilon_i\quad i=1,\ldots , n} .

Bei der multiplen linearen Regression werden mehrere unabhängige Variablen oder Funktionen der unabhängigen Variablen berücksichtigt. Wird zum Beispiel der Term Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (x_{i2})^2} zur vorigen Regression hinzugefügt, so ergibt sich:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i=\beta_0 +\beta_1 x_{i1} + \beta_2 (x_{i2})^2 + \varepsilon_i\quad i=1,\ldots, n} .

Obwohl der Ausdruck auf der rechten Seite quadratisch in der unabhängigen Variable Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_{i2}} ist, ist der Ausdruck linear in den Parametern , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_1} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_2} . Damit ist dies auch eine lineare Regressionsgleichung.

Zur Bestimmung der Modellparameter Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_j} wird die Methode der kleinsten Quadrate verwendet.

Nichtparametrische Regression

Bei nichtparametrischen Regressionsverfahren wird die Form des funktionalen Zusammenhangs f nicht vorgegeben, sondern weitestgehend aus den Daten hergeleitet. Bei der Schätzung der unbekannten Regressionsfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m(\cdot)} an der Stelle gehen die Daten nahe diesem Punkt mit größerem Gewicht ein als Datenpunkte, die weit entfernt von diesem liegen.

Zur Schätzung haben sich verschiedene Regressionsverfahren etabliert:

Datei:Mincer nadarayawatson.png
Nadaraya-Watson-Schätzer
Hierbei wird die Regressionsfunktion als gewichtete Summe der naheliegende Beobachtungswerte berechnet. Die Gewichte werden mittels Kerndichteschätzung bestimmt und dann eine
  • lokal konstante lineare Regression (Nadaraya-Watson-Schätzer),
  • lokal lineare Regression (lokal linearer Schätzer) oder
  • lokal polynomiale Regression (lokal polynomialer Schätzer)
durchgeführt.
Bei der Methode der multivariaten adaptiven Regressions-Splines (MARS) wird die abhängige Variable als Linearkombination von sogenannten Hockeystick-Funktionen (bzw. Produkten von Hockeystickfunktionen) dargestellt.

Semiparametrische Regression

Ein Nachteil der nichtparametrischen Regressionen ist, dass sie am Fluch der Dimensionalität leiden. D. h. je mehr erklärende Variablen es gibt, desto mehr Beobachtungen sind notwendig, um an einem beliebigen Punkt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (x_1,\dotsc,x_k)} die unbekannte Regressionsfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m(x_1,\dotsc,x_k)} zuverlässig zu schätzen. Daher wurde eine Reihe von semi-parametrischen Modellen etabliert, die die lineare Regression erweitern bzw. nutzen:

Hier wird die unbekannte Regressionsfunktion als Summe nichtparameterischer linearer Einfachregressionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle g_j} der Variablen dargestellt:
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m(x_1,\dotsc,x_k)=b_0+b_1g_1(x_1)+\dotsb+b_kg_k(x_k)}
Beim partiell linearen Modell geht ein Teil der Variablen linear ein, insbesondere binäre Variablen.
  • Index-Modelle

Hier wird die unbekannte Regressionsfunktion ebenfalls als Summe nichtparameterischer linearer Einfachregressionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle g_j} von Indices dargestellt:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m(x_1,\dotsc,x_k)=g_1\left(b_0^{(1)}+b_1^{(1)}x_1+\dotsb+b_k^{(1)}x_k\right)+\dotsb+g_M\left(b_0^{(M)}+b_1^{(M)}x_1+\dotsb+b_k^{(M)}x_k\right)}
Im Fall Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle M=1} spricht man vom Single-Index-Modell, für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle M>1} gibt es die Projection-Pursuit-Regression.

Robuste Regression

Regressionsverfahren, die auf der Kleinste-Quadrate-Schätzung oder der Maximum-Likelihood-Schätzung beruhen, sind nicht robust gegenüber Ausreißern. Robuste Regressionsverfahren wurden entwickelt, um diese Schwäche der klassischen Methode zu umgehen. So können zum Beispiel alternativ M-Schätzer eingesetzt werden.

Verallgemeinerte Verfahren

Verallgemeinerte lineare Modelle

Bei der klassischen linearen Regression wird vorausgesetzt, dass die Störgrößen normalverteilt sind. Die Modellannahme wird bei den verallgemeinerten Modellen abgeschwächt, wo die Störgrößen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \varepsilon_i} eine Verteilung aus der Verteilungsklasse der exponentiellen Familie besitzen können. Dies wird möglich durch die Verwendung

Ein Spezialfall der verallgemeinerten linearen Modelle ist die logistische Regression. Wenn die Antwortvariable Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} eine kategoriale Variable ist, die nur zwei oder endlich viele Werte annehmen darf, verwendet man häufig die logistische Regression.

Binäre logistische Regression: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle g(\mu) = \log\left(\frac{\mu}{1-\mu}\right)=\beta_0+\beta_1x_{i1}+\ldots+\beta_k x_{ik}+\varepsilon_i}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mu=P(Y=1\mid X=x)} (abhängig von Verteilungsklasse der Störgrößen). Eine Alternative wäre das Probit-Modell.

Verallgemeinerte semiparametrische Modelle

Diese Idee ist auch für die semiparametrischen Modelle übernommen worden:

  • Verallgemeinerte additive Modelle (englisch generalized additive models, kurz: GAM)
    Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle g(\mu) = \beta_0 + f_1(x_1)+ \dotsb +f_k(x_k)} .

Eine besondere Art der verallgemeinerten additiven Modelle stellen die sogenannten verallgemeinerten additiven Modelle für Lage-, Skalen- und Formparameter dar.

  • Verallgemeinerte partiell lineare Modelle (englisch generalized partial linear models, kurz: GPLM)
    Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle g(\mu) = \beta_0+\beta_1z_1+\dotsb+\beta_kz_k+f(x_1, \dotsc, x_q)} .
  • Verallgemeinerte additive partiell lineare Modelle (englisch generalized additive partial linear models, kurz: GAPLM)
    Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle g(\mu) = \beta_0+\beta_1z_1+ \dotsb+ \beta_kz_k + f_1(x_1)+ \dotsb +f_q(x_q)} .

Spezielle Verfahren

Autoregressive Modelle

Wenn die Datenpunkte geordnet sind (z. B. wenn es sich bei den Daten um eine Zeitreihe handelt), dann ist es etwa in autoregressiven Modellen und autoregressiven bedingt heteroskedastischen Modellen möglich, vorhergehende Daten als „unabhängige“ Variable zu verwenden.

Siehe auch

Literatur

  • Norman R. Draper, Harry Smith: Applied Regression Analysis. Wiley, New York 1998.
  • Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Modelle, Methoden und Anwendungen. Springer Verlag, Berlin / Heidelberg / New York 2007, ISBN 978-3-540-33932-8.
  • Dieter Urban, Jochen Mayerl: Regressionsanalyse: Theorie, Technik und Anwendung. 2., überarb. Auflage. VS Verlag, Wiesbaden 2006, ISBN 3-531-33739-4.
  • M.-W. Stoetzer: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung – Eine nichtmathematische Einführung mit SPSS und Stata. Berlin 2017, ISBN 978-3-662-53823-4.

Weblinks

Einzelnachweise

  1. Klaus Backhaus: Multivariate Analysemethoden eine anwendungsorientierte Einführung. Hrsg.: SpringerLink. Springer, Berlin 2006, ISBN 3-540-29932-7.
  2. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 105.
  3. A. M. Legendre: Nouvelles méthodes pour la détermination des orbites des comètes. 1805. “Sur la Méthode des moindres quarrés” erscheint als Anhang.
  4. C. F. Gauß: Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. 1809.
  5. C. F. Gauß: Theoria combinationis observationum erroribus minimis obnoxiae. 1821/1823.
  6. Robert G. Mogull: Second-Semester Applied Statistics. Kendall/Hunt Publishing Company, 2004, ISBN 0-7575-1181-3, S. 59.
  7. Francis Galton: Kinship and Correlation (reprinted 1989). In: Statistical Science. Band 4, Nr. 2, 1989, JSTOR:2245330.
  8. Francis Galton: Typical laws of heredity. In: Nature. 15, 1877, S. 492–495, 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
  9. Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton verwendet den Begriff "Regression" in diesem Artikel, welcher die Größe von Menschen untersucht.).
  10. G. Udny Yule: On the Theory of Correlation. In: J. Royal Statist. Soc. 1897, S. 812–54, JSTOR:2979746.
  11. Karl Pearson, G. U. Yule, Norman Blanchard, Alice Lee: The Law of Ancestral Heredity. In: Biometrika. 1903, JSTOR:2331683.
  12. R. A. Fisher: The goodness of fit of regression formulae, and the distribution of regression coefficients. In: J. Royal Statist. Soc. Band 85, 1922, S. 597–612.
  13. Ronald A. Fisher: Statistical Methods for Research Workers. 12. Auflage. Oliver and Boyd, Edinburgh 1954 (yorku.ca).
  14. John Aldrich: Fisher and Regression. In: Statistical Science. Band 20, Nr. 4, 2005, S. 401–417, JSTOR:20061201.
  15. Alvin C. Rencher, G. Bruce Schaalje: Linear models in statistics. (PDF; 5,6 MB) John Wiley & Sons, 2008, S. 2.
  16. Robert M. Kunst: Einführung in die Empirische Wirtschaftsforschung. University of Vienna and Institute for Advanced Studies Vienna, 2007 (univie.ac.at [PDF]).
  17. Universität Zürich: Einfache lineare Regression. 18. Februar 2021 (uzh.ch).
  18. C. L. Chiang: Statistical methods of analysis. World Scientific, 2003, ISBN 981-238-310-7 - page 274 section 9.7.4 "interpolation vs extrapolation".
  19. Jacob A. Mincer: Schooling, Experience, and Earnings. National Bureau of Economic Research, 1974, ISBN 978-0-87014-265-9 (nber.org [abgerufen am 3. Juli 2011]).