Kernregression

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Kernel-Regression)

Unter Kernregression (englisch kernel regression, daher auch Kernel-Regression) versteht man eine Reihe nichtparametrischer statistischer Methoden, bei denen die Abhängigkeit einer zufälligen Größe von Ausgangsdaten mittels Kerndichteschätzung geschätzt wird. Die Art der Abhängigkeit, dargestellt durch die Regressionskurve, wird im Gegensatz zur linearen Regression nicht als linear festgelegt. Der Vorteil ist eine bessere Anpassung an die Daten im Falle nichtlinearer Zusammenhänge. Abhängig davon, ob die Ausgangsdaten selbst zufällig sind oder nicht, unterscheidet man zwischen Random-Design- und Fixed-Design-Ansätzen. Das grundlegende Verfahren wurde 1964 unabhängig voneinander von Geoffrey Watson und Elisbar Nadaraia (englische Transkription: Elizbar Nadaraya) vorgeschlagen.

Eindimensionale Kernregression

Kerndichteschätzer

Ein Kerndichteschätzer zur Bandweite ist eine Schätzung der unbekannten Dichtefunktion einer Variablen. Ist eine Stichprobe, ein Kern, so ist die Kerndichteschätzung definiert als:

.

Wie die Grafik rechts zeigt, ist die Wahl der Bandbreite entscheidend für die Qualität der Approximation.

Typische Kerne mit
unbeschränktem Träger Träger
Kern Kern
Gauß-Kern Gleichverteilungs- oder Rechteckskern
Cauchy-Kern Dreieck-Kern
Picard-Kern Kosinus-Kern

Epanechnikov-Kern (p=1)
quartischer Kern (p=2)
Triweight-Kern (p=3)



Nadaraya-Watson-Schätzer

Lineare Regression (schwarz) und Nadaraya-Watson-Schätzer mit verschiedenen Bandweiten (rot: mittel, grün: groß und blau: klein)

Der Nadaraya-Watson-Schätzer schätzt eine unbekannte Regressionsfunktion aus den Beobachtungsdaten als[1][2]

mit und einem Kern und einer Bandweite . Die Funktion ist dabei eine Funktion, die Beobachtungen nahe Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} ein großes Gewicht und Beobachtungen weit entfernt von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} ein kleines Gewicht zuordnet. Die Bandweite legt fest, in welchem Bereich um Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} die Beobachtungen ein großes Gewicht haben.

Während die Wahl des Kerns meist recht frei erfolgen kann, hat die Wahl der Bandweite einen großen Einfluss auf die Glattheit des Schätzers. Die Grafik rechts zeigt, dass eine große Bandweite (grün) zu einer glatteren Schätzung führt als die Wahl einer kleinen Bandweite (blau).

Ableitung

Die Idee des Nadaraya-Watson-Schätzers beruht darauf, dass die unbekannte Regressionsfunktion

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y=m(X)}

mit Hilfe des bedingten Erwartungswertes durch die gemeinsame Dichte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f(x,y)} und die Randdichte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X(x)} dargestellt wird.

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m(x) = \operatorname{E}(Y\mid X=x) = \int y \frac{f(x,y)}{f_X(x)}\,\mathrm{d}y = \frac{\int yf(x,y)\,\mathrm{d}y}{f_X(x)}}

Die unbekannten Dichten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f(x,y)} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X(x)} werden mit Hilfe einer Kerndichteschätzung geschätzt. Zur Berechnung der gemeinsamen Dichte aus den Beobachtungen wird ein bivariater Kerndichteschätzer mit Produktkern Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle K(x,y)=K(x)K(y)} und Bandweiten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle g} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle h} genutzt:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \widehat{f_{g,h}}(x,y)=\frac{1}{n}\sum_{i=1}^n K_h(x-x_i)K_g(y-y_i)} .

Es folgt

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \int y K_h\left(x-x_i\right)\,\mathrm{d}y = \frac{1}{n}\sum_{i=1}^n y_i K_h(x-x_i)}

und mittels Kerndichteschätzung für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X(x)} der Nadaraya-Watson-Schätzer.

Eigenschaften

Gewichte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle W_{hi}(x)} für verschiedene Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle i} und Bandweiten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle h} .

1. Wie im Fall der linearen Regression kann der Nadaraya-Watson-Schätzer auch als Linearkombination der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i} mit Gewichtsfunktionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle W_{hi}} geschrieben werden:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}(x)=\sum_{i=1}^n y_i W_{hi}(x)} .

Damit ist der Nadaraya-Watson-Schätzer das (lokal) gewichtete Mittel der Beobachtungswerte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i} , es gilt

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sum_{i=1}^n W_{hi}(x)=1} .

Die Grafik rechts zeigt die Gewichte für verschiedene Werte von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} (blau: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x=10} , grün: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x=20} , rot: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x=30} ). Das Punktdiagramm unterhalb von Null zeigt die Daten der erklärenden Variable. Je größer die Bandweite ist (durchgezogene Linie vs. gestrichelte Linie), desto mehr Beobachtungen um Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} haben ein Gewicht ungleich null. Je weniger Daten zu Verfügung stehen (rechts), desto stärker müssen die verfügbaren Beobachtungen gewichtet werden.

2. Die mittlere quadratische Abweichung ergibt sich approximativ als

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MSE}(\hat{m}(x))\approx \underbrace{h^4 B^2}_{=\text{Verzerrung}^2} + \underbrace{\frac{1}{nh}V}_{=\text{Varianz}}}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle B} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle V} unabhängig von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle h} . Damit ist die Konvergenz langsamer als bei der linearen Regression, d. h. mit der gleichen Zahl von Beobachtungen kann der Vorhersagewert in der linearen Regression präziser geschätzt werden als beim Nadaraya-Watson-Schätzer.

Dabei ist die quadrierte Verzerrung (englisch bias) des Nadaraya-Watson-Schätzers

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Bias}^2(\hat{m}(x)) = \frac{h^4}{4}{\left(m''(x)+2\frac{m'(x)f'_X(x)}{f_X(x)}\right)}^2 \mu_2^2(K)}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m'(x)} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m''(x)} die erste bzw. zweite Ableitung der unbekannten Regressionsfunktion, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f'_X(x)} die erste Ableitung der Dichte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X(x)} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mu_2(K) = \int u^2 K(u) \mathrm{d}\,u} .

Und die Varianz des Schätzers

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Var}(\hat{m}(x)) = \frac{1}{nh}\frac{\sigma^2(x)}{f_X(x)}|K|_2^2}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2(x) = \operatorname{Var}(Y \mid X=x)} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle |K|_2 = \sqrt{\int K^2 (u)\,\mathrm{d}u)}} .

Bandweitenwahl

Resubstitution und Leave-One-Out Kreuzvalidierung für die Bandweite des Nadaraya-Watson Schätzers für das obige Beispiel. Die „optimale“ Bandweite ergibt sich für ca. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle h = 0{,}7} .

Das Hauptproblem bei der Kernregression ist die Wahl einer geeigneten Bandweite Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle h} . Als Basis dient die Minimierung der mittleren quadratische Abweichung

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MSE}(\hat{m}(x))=\operatorname{E}\left((\hat{m}(x)-m(x))^2\right)}

bzw. deren Approximation. Die Approximation enthält jedoch die zweite Ableitung der unbekannten Regressionsfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m''(x)} sowie die unbekannte Dichtefunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X(x)} und deren Ableitung. Stattdessen wird die datenbasierten gemittelte quadratische Abweichung

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{ASE}(\hat{m}(x))=\frac{1}{n}\sum_{i=1}^n (\hat{m}(x)-y_i)^2}

minimiert. Da zur Schätzung von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}(x)} der Wert von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i} genutzt wird, führt eine Bandweite Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle h=0} zu einem Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{ASE}(\hat{m}(x))=0} (Resubstitution Schätzung). Daher wird eine Leave-One-Out-Kreuzvalidierung durchgeführt, d. h. zur Berechnung des Schätzwertes Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}(x_i)} werden alle Beobachtungen herangezogen außer der i-ten. Damit wird der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{ASE}(\hat{m}(x))} für verschiedene Bandweiten berechnet. Die Bandweite, die einen minimalen ASE ergibt, wird dann zur Schätzung der unbekannten Regressionsfunktion genommen.

Konfidenzbänder

Nach der Schätzung der Regressionsfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}(x)} stellt sich die Frage, wie weit diese von der wahren Funktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m(x)} abweicht. Die Arbeit von Bickel und Rosenblatt (1973)[3] liefert zwei Theoreme für punktweise Konfidenzbänder und gleichmäßige Konfidenzbänder.

Neben der Information über die Abweichung zwischen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}(x)} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m(x)} liefern die Konfidenzbänder einen Hinweis darauf, ob ein mögliches parametrisches Regressionsmodell, z. B. eine lineare Regression, zu den Daten passt. Liegt der geschätzte Verlauf der Regressionsfunktion des parametrischen Regressionsmodells außerhalb der Konfidenzbänder, so ist dies ein Hinweis darauf, dass das parametrische Regressionsmodell nicht zu den Daten passt. Ein formaler Test ist mit Hilfe von Bootstrapping-Verfahren möglich.

Lineare Regression (schwarz) und Nadaraya-Watson-Schätzer (rot) mit optimaler Bandweite und punktweisen 95%-Konfidenzband.

Punktweise Konfidenzbänder: Unter bestimmten Voraussetzungen konvergiert in Verteilung

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n^{2/5}\left(\hat{m}(x)-m(x)\right)\longrightarrow \mathcal{N}(B(x), V(x))}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle h=c n^{1/5}} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle B(x) = c\mu_2(K)\left(\tfrac{m''(x)}{2} + \tfrac{m'(x)f'_X(x)}{f_X(x)}\right)} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle V(x) = \tfrac{\sigma(x)|K|^2_2}{cf_X(x)}} .

Wenn die Bandweite klein genug ist, dann kann die asymptotische Verzerrung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle B(x)} vernachlässigt werden gegen die asymptotische Varianz Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle V(x)} . Damit können approximative Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 1-\alpha} Konfidenzbänder berechnet werden

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}(x)\pm z_{1-\alpha/2} \sqrt{\frac{|K|_2^2 \hat{\sigma}^2(x)}{nh\hat{f}_X(x)}}}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z_{1-\alpha/2}} das Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 1-\alpha/2} Quantil der Standardnormalverteilung. Die unbekannte Dichte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_x(x)} wird dabei mit einer Kerndichteschätzung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{f}_X(x)} geschätzt und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma^2(x)} mit

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{\sigma}^2(x) = \frac1n \sum_{i=1}^n W_{hi}(x) \left(y_i-\hat{m}(x)\right)^2} .

Die Grafik rechts zeigt den Nadaraya-Watson-Schätzer mit punktweisen 95% Konfidenzband (rote Linien). Die schwarze lineare Regressionsgerade liegt in verschiedenen Bereichen deutlich außerhalb der Konfidenzbandes. Dies ist ein Hinweis darauf, dass ein lineares Regressionsmodell hier nicht angemessen ist.

Gleichmäßige Konfidenzbänder: Unter etwas stärkeren Voraussetzungen als zuvor und mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x\in[0;1]} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle h=n^{-\kappa}} mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 1/5<\kappa<1/2} und für Kerne mit Träger in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle [-1;1]} konvergiert

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P\left(|\hat{m}(x)-m(x)|\leq z_{n,\alpha} \sqrt{\frac{|K|_2^2 \hat{\sigma}^2(x)}{nh\hat{f}_X(x)}}\right) \longrightarrow 1-\alpha}

mit

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z_{n,\alpha}=\sqrt{ \frac{1}{\sqrt{2\kappa\log(n)}}\left(\log\left(\frac{1}{2\pi}\frac{|K'|_2}{|K|_2}\right)^{1/2}-\log\left(-\frac12\log(1-\alpha)\right)\right)+ \sqrt{2\kappa\log(n)}}} .

Die Bedingung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x\in[0;1]} ist keine Einschränkung, da die Daten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_i} erst auf das Intervall Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle [0; 1]} transformiert werden können. Danach wird das Konfidenzband berechnet und wieder zurücktransformiert auf die Originaldaten.

Gasser-Müller-Schätzer

Im Fixed-Design-Fall mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a=x_1\leq x_2\leq \dots \leq x_n=b} ist die Dichte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X(x)} bekannt, muss also nicht geschätzt werden. Dies vereinfacht sowohl die Berechnungen als auch die mathematische Behandlung des Schätzers. Für diesen Fall wurde der Gasser-Müller-Schätzer definiert als[4]

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}^{GM}(x)=\sum_{i=1}^n y_i W_{hi}^{GM}(x)}

mit

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle W_{hi}^{GM}(x)=n \int_{s_{i-1}}^{s_i} K_h(x-u)\,\mathrm{d}u}

und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_0=a} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_{n+1}=b} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_i=(x_i+x_{i-1})/2} .

Eigenschaften

1. Der Gasser-Müller Schätzer ist wie der Nadaraya-Watson-Schätzer ein linearer Schätzer und die Summe der Gewichtsfunktionen ist eins.

2. Für die mittlere quadratische Abweichung gilt:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MSE}(\hat{m}^{GM}(x)) \approx \underbrace{\frac{h^4}{4} \mu_2^2(K) (m''(x))^2}_{=\text{Verzerrung}^2} + \underbrace{\frac{1}{nh}\|K\|^2_2}_{=\text{Varianz}}} .

Lokal polynomiale Kernregression

Lokale Approximationen für den Nadaraya-Watson-Schätzer (lokal konstant) und den lokal linearen Schätzer an ausgewählten Datenpunkten. Die Grafik ist eingeschränkt auf Bereich Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle [1{,}5; 5]} der x-Werte (also linker Rand der Daten), die Berechnungen wurden jedoch mit allen Daten durchgeführt.

Der Nadaraya-Watson Schätzer kann als Lösung des folgenden lokalen Minimierungsproblem geschrieben werden:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \min_{\beta_0^{(0)}} \sum_{i=1}^n \left(y_i -\beta_0^{(0)}\right)^2 K_h(x-x_i)} ,

d .h. für jedes Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} wird ein lokal konstanter Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_0^{(0)}} bestimmt, der gleich dem Wert des Nadaraya-Watson Schätzer Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}(x)} an der Stelle Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} ist.

Anstelle einer lokalen Konstanten kann auch ein Polynom verwendet werden:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \min_{\beta_0^{(p)}, \dots,\beta_p^{(p)}} \sum_{i=1}^n (y_i -\beta_0^{(p)}-\beta_1^{(p)} (x_i-x) - \dots -\beta_p^{(p)} (x_i-x)^p)^2 K_h(x-x_i)} ,

d. h. der unbekannten Regressionswert wird durch ein lokales Polynom approximiert. Die lokal polynomiale Kernregression Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m_p(x)} ergibt sich an jeder Stelle durch

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m_p(x)=\hat{\beta}_0^{(p)}} .

Die Grafik rechts zeigt an ausgewählten Stellen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} die verwendeten lokalen Polynome. Der Nadaraya-Watson Schätzer (rot) nutzt lokal konstanten Funktionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_0^{(0)}} . Die lokal lineare Kernregression (blau) nutzt lokal lineare Funktionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_0^{(1)}+\beta_1^{(1)} (\tilde{x}-x)} an der Stelle Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} . Die ausgewählten Stellen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} sind in der Grafik mit Datenpunkten identisch. Die senkrechten grauen Linien verbinden die lokalen Polynome mit dem zugehörigen x-Wert (Datenpunkt). Der Schnittpunkt mit dem roten bzw. blauen Polynom ergibt den Schätzwert an der entsprechenden Stelle Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} für den Nadaraya-Watson Schätzer und die lokal lineare Kernregression.

Vorteile und Eigenschaften

Die lokal polynomiale Regression bietet gegenüber dem Nadaraya-Watson Schätzer einige Vorteile:

  • Im Allgemeinen wird das lokal konstante Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta_0^{(0)}} von Beobachtungswerten beeinflusst die sowohl links als auch rechts vom Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} liegen. An den Rändern funktioniert das jedoch nicht und dies führt zu Randeffekten (englisch boundary effects). Die lokal polynomiale Kernregression approximiert jedoch lokal mit einem Polynom und kann dieses Problem vermeiden.
  • Um die Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle v} te Ableitung zu schätzen, könnte man einfach den Nadaraya-Watson entsprechend oft ableiten. Mit der lokal polynomialen Kernregression ergibt sich jedoch ein deutlich eleganterer Weg:
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m_p^{(v)}(x)=v!\hat{\beta}_v^{(p)}}
Meist wird Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p=v+1} oder Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p=v+3} benutzt. Ungerade Ordnungen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p} sind besser als gerade Ordnungen.
  • Wie im Fall der linearen Regression und des Nadaraya-Watson-Schätzer kann auch die lokal polynomiale Kernregression auch als Linearkombination der Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i} mit Gewichtsfunktionen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle W_{hi}^{(p)}} geschrieben werden:
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}_p(x)=\sum_{i=1}^n y_i W_{hi}^{(p)}(x)} .

Schätzung der Regressionsparameter

Definiert man die folgenden Matrizen:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathcal{X}=\begin{pmatrix} 1 & (x_1-x) & \cdots & (x_1-x)^p \\ 1 & (x_2-x) & \cdots & (x_2-x)^p \\ \vdots & \vdots & & \vdots \\ 1 & (x_n-x) & \cdots & (x_n-x)^p \end{pmatrix} } , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathcal{Y}=\begin{pmatrix} y_1\\ y_2 \\ \vdots\\ y_n \end{pmatrix} }

und

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathcal{W}=\begin{pmatrix} K_h(x-x_1) & 0 & \cdots & 0\\ 0 & K_h(x-x_2) & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & K_h(x-x_n) \end{pmatrix} }

so ergeben sich die Schätzung der Regressionsparameter Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \beta=(\beta_0^{(p)}, \dots, \beta_p^{(p)})^T} als

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{\beta} = \left(\mathcal{X}^T\mathcal{W}\mathcal{X}\right)^{-1}\mathcal{X}^T\mathcal{W}\mathcal{Y}} .

Die für die Ableitung notwendigen Koeffizienten werden im Schätzverfahren also automatisch mit berechnet!

Um die Schätzung praktisch durchzuführen, berechnet man

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle S_j = \sum_{i=1}^n K_h(x-x_i) (x_i-x)^j}
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle T_j = \sum_{i=1}^n K_h(x-x_i) (x_i-x)^j y_i}

und berechnet

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{\beta}=\begin{pmatrix} S_0 & S_1 & \cdots & S_p\\ S_1 & S_2 & \cdots & S_{p+1} \\ \vdots & \vdots & \ddots & \vdots \\ S_p & S_{p+1} & \cdots & S_{2p} \end{pmatrix}^{-1}\begin{pmatrix} T_0\\ T_1 \\ \vdots\\ T_p \end{pmatrix} }

Lokal lineare Kernregression

Verschiedene lokale Regressionsmethoden: Nadaraya-Watson (rot), Lokal-linear (blau) und LOWESS (grün) und lineare Regression (schwarz).

Eines der bekanntesten lokal linearen Regressionsmodelle (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p=1} ) ist der lokal gewichtete Regression-Streudiagramm-Glätter, abgekürzt mit LOESS oder veraltet LOWESS (englisch für locally weighted scatterplot smoothing, deutsch lokal gewichtete Streudiagrammglättung).[5] Der LOWESS ist jedoch keine lokal-lineare Kernregression, denn

  • die Regressionsgewichte werden robust geschätzt und
  • die Bandweite variiert mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} .

Die Grafik rechts zeigt zwei verschiedene Methoden der Kernregression: Lokal konstant (rot, Nadaraya-Watson) und lokal linear (blau). Insbesondere an den Rändern approximiert die lokal lineare Kernregression die Daten etwas besser.

Die lokal lineare Kernregression ergibt sich als

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat{m}_1(x) = \frac{T_0S_2-T_1S_1}{S_0S_2-S_1^2}} .

Die mittlere quadratische Abweichung der lokal linearen Regression ergibt sich, wie beim Nadaraya-Watson-Schätzer, als

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MSE}(\hat{m}_1(x))\approx \underbrace{h^4 B^2}_{=\text{Verzerrung}^2} + \underbrace{\frac{1}{nh}V}_{=\text{Varianz}}}

mit

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Bias}^2(\hat{m}_1(x)) = \frac{h^4}{4}\left(m''(x)\right)^2 \mu_2^2(K)}

und die Varianz ist identisch zur Varianz des Nadaraya-Watson-Schätzers Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Var}(\hat{m}(x))} . Die einfachere Form der Verzerrung macht die lokal lineare Kernregression attraktiver für praktische Zwecke.

Einzelnachweise

  1. Elizbar A. Nadaraya: On estimating regression. In: Theory of Probability and its Applications. Band 9, Nr. 1, 1964, S. 141–142, doi:10.1137/1109020.
  2. Geoffrey S. Watson: Smooth Regression Analysis. In: Sankhyā: The Indian Journal of Statistics, Series A. Band 26, Nr. 4, Dezember 1964, S. 359–372.
  3. Bickel, Rosenblatt (1973) On some global measures of the deviations of density function estimators, Annals of Statistics 1, S. 1071–1095
  4. Theo Gasser, Hans-Georg Müller: Estimating Regression Functions and Their Derivatives by the Kernel Method. In: Scandinavian Journal of Statistics. Band 11, Nr. 3, 1984, S. 171–185.
  5. W.S. Cleveland: Robust Locally Weighted Regression and Smoothing Scatterplots. In: Journal of the American Statistical Association. Band 74, Nr. 368, Dezember 1979, S. 829–836, JSTOR:2286407.

Literatur

  • Jianqing Fan, Irene Gijbels: Local Polynomial Modelling and Its Applications. Chapman and Hall/CRC, 1996, ISBN 978-0-412-98321-4.
  • Wolfgang Härdle, Marlene Müller, Stefan Sperlich, Axel Werwatz: Nonparametric and Semiparametric Models. Springer Verlag, Berlin, Heidelberg 2004, ISBN 978-3-540-20722-1 (hu-berlin.de).
  • Tristen Hayfield, Jeffrey S. Racine: Nonparametric Econometrics: The np Package. In: Journal of Statistical Software. Band 27, Nr. 5, 2008 (jstatsoft.org).
  • M.P. Wand, M.C. Jones: Kernel Smoothing. Chapman and Hall/CRC, 1994, ISBN 978-0-412-55270-0.