Benutzer:VincentBosch/Baustelle:Variablenselektion
Die Variablenselektion (auch Variablenauswahl) befasst sich mit dem Finden einer sinnvollen Teilmenge der Variablen eines multivariaten Datensatzes.
Ausgangslage
Man betrachtet einen Datensatz mit Beobachtungen. Für jede Beobachtung ist eine Zielvariable und verschiedene erklärende Variablen erfasst. (Grundsätzlich können auch mehrere Zielvariablen existieren, dieser Umstand ist aber hier unbedeutend und wird daher im Folgenden nicht weiter behandelt.)
Die Werte der Zielvariable für alle Beobachtungen können als Vektor der Länge aufgefasst werden. Die Werte der erklärenden Variablen können zu einer Matrix der Dimension aufgefasst werden.
Man möchte den Zusammenhang zwischen und durch ein statistisches Modell darstellen. Gründe dafür sind vor allem:
- Interpretation: Man möchte aus den Daten lernen, nämlich vor allem über die Art und
Stärke des Zusammenhangs von und .
- Prognose: Man möchte Modelle finden, die es erlauben unbekannte -Werte
aufgrund von bekannten -Werte möglichst gut abzuschätzen.
Falls man dafür nicht alle erklärenden Variablen verwenden möchte oder kann, führt man Variablenselektion durch. (Es gibt Methoden, wie z. B. Ridge-Regression oder Hauptkomponentenanalyse, die keiner Variablenselektion bedürfen. Gründe, diese trotzdem durchzuführen sind z. B. die bessere Interpretierbarkeit oder wenn man zukünftig nicht mehr alle Variablen erheben möchte.)
Eigenschaften der Problemstellung
Um verschiedene Modelle vergleichen zu können, muss die Qualität eines Modells gemessen werden. Zu diesem Zweck dienen die verschiedenen Gütekriterien (Informationskriterien), die aber ihrerseits auch wieder nach verschiedenen Gesichtspunkten kritisch zu beurteilen sind. Die unterschiedlichen Gütemaße führen nämlich zu durchaus stark abweichenden Ergebnissen, und es hängt vom Zweck der Variablenselektion ab, welche Kriterien günstig sind.
Bei erkärenden Variablen gibt es mögliche Modelle. Bei kleinen Datensätzen kann man alle Möglichkeiten durchprobieren, bei großen Datensätze ist das, selbst wenn ein Branch-and-Bound-Algorithmus verwendet wird, unmöglich.
Gibt man die Größe der zu betrachtenden Modelle vor, und bezeichnet diese mit (), so gibt es noch immer mögliche Modelle. Bei großen Datensätzen ist das meistens noch immer zu viel um alle Möglichkeiten durchzurechnen.
Im Allgemeinen gibt es viele verschiedene, im Sinne des Gütekriteriums ähnlich gute Modelle (lokale Optima). Das ist für die Interpretation unangenehm. Außerdem neigen die meisten Heuristiken dazu, in lokalen Optima hängen zu bleiben, das heißt bessere Lösungen werden nicht gefunden wenn sie von der lokalen Optimallösung zu weit entfernt (zu verschieden) sind.
Methoden
Eine bekannte Methode ist die schrittweise Variablenauswahl (stepwise selection). Es existieren im Wesentlichen zwei Varianten:
Bei der schrittweisen Vorwärtsselektion (step forward) wird, beginnend mit dem leeren Modell, bei jedem Schritt genau die Variable dazugenommen, die nach dem verwendeten Gütekriterium zur größten Verbesserung führt. Wenn keine bzw. keine wesentliche Verbesserung mehr erreicht werden kann, ist der Algorithmus beendet.
Bei der Rückwärtselimination (step backward) wird, beginnend mit dem vollen Modell, bei jedem Schritt eine Variable entfernt, so dass das Gütekriterium optimiert wird. Analog zur Vorwärtsselektion ist der Vorgang beendet wenn keine bzw. keine wesentliche Verbesserung mehr erreicht werden kann,.
Dabei ist das leere Modell das Modell, das überhaupt keine der erklärenden Variablen enthält. Das volle Modell enthält alle erklärenden Variablen.