Unabhängigkeitsanalyse

aus Wikipedia, der freien Enzyklopädie

Die Unabhängigkeitsanalyse bzw. Independent Component Analysis (ICA) ist eine Methode der multivariaten Statistik. Sie wurde 1991 veröffentlicht[1] und dient der Berechnung unabhängiger Komponenten in einer Mischung statistisch unabhängiger Zufallsvariablen. Sie ist nahe verwandt mit dem Blind-Source-Separation-Problem (BSS).

Problemstellung

Es wird davon ausgegangen, dass der Vektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{s}} aus Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} statistisch unabhängigen Zufallsvariablen besteht. Damit die ICA angewendet werden kann, darf maximal eine der Zufallsvariablen gauß-verteilt sein. Die Zufallsvariablen werden mit einer Mischmatrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle A} multipliziert. Der Einfachheit halber wird davon ausgegangen, dass diese Mischmatrix quadratisch ist. Das Resultat sind gemischte Zufallsvariablen im Vektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{x}} , welcher die gleiche Dimension besitzt wie Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{s}} .

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{x} = A\vec{s}}

Das Ziel der ICA ist es, die unabhängigen Zufallsvariablen im Vektor möglichst originalgetreu zu rekonstruieren. Hierfür steht nur das Ergebnis der Mischung zur Verfügung und das Wissen, dass die Zufallsvariablen ursprünglich stochastisch unabhängig waren. Es ist eine geeignete Matrix gesucht, so dass

.

Da weder die Mischmatrix noch die unabhängigen Zufallsvariablen bekannt sind, lassen sich diese nur mit Abstrichen rekonstruieren. Die Varianz und damit die Energie der unabhängigen Zufallsvariablen lässt sich nicht bestimmen, da die unabhängigen Zufallsvariablen und der korrespondierende Spaltenvektor der Mischmatrix mit einer beliebigen Konstante so gewichtet werden können, dass sich die Skalierungen gegenseitig aufheben:

Zudem kann die Reihenfolge der Spaltenvektoren der Mischmatrix nicht rekonstruiert werden.[2]

Problemlösung

In der Regel wird davon ausgegangen, dass die gemischten Zufallsvariablen mittelwertfrei sind. Ist dies nicht der Fall, so kann dies durch Subtraktion des Mittelwerts erreicht werden.

Pre-Whitening

Das Pre-Whitening ist eine lineare Transformation, welche der Vorverarbeitung dient. Dazu wird eine Hauptkomponentenanalyse (PCA) durchgeführt. Das Ergebnis sind die Eigenwerte und die Eigenvektoren der Kovarianzmatrix der gemischten Zufallsvariablen. Die Eigenvektoren bilden die Zeilen der Drehmatrix , welche mit dem Vektor multipliziert wird. Die Eigenwerte entsprechen der Varianz der jeweiligen Hauptkomponente. Die Kehrwerte ihrer Quadratwurzeln werden zur Bildung der Diagonalmatrix benutzt, so dass

,

mit

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle D = \begin{pmatrix} e_1^{-\tfrac{1}{2}} & & & 0 \\ & . & & \\ & & . & \\ 0 & & & e_n^{-\tfrac{1}{2}} \end{pmatrix}.}

Durch das Multiplizieren mit der Diagonalmatrix wird die Varianz der Hauptkomponenten auf 1 normiert.

Bestimmung der unabhängigen Komponenten

Durch das Pre-Whitening sind die Zufallsvariablen noch nicht stochastisch unabhängig, aber das Problem wurde auf die Suche nach einer orthogonalen Drehmatrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle U} reduziert:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{y} = U\vec{z}}

Für die Suche nach Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle U} wird auf den Zentralen Grenzwertsatz zurückgegriffen. Dieser besagt, dass die Mischung normierter, zentrierter Zufallszahlen mit zunehmender Anzahl einer Normalverteilung ähnelt. Da die Zufallsvariablen in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{z}} diese Voraussetzung erfüllen, muss es eine Drehmatrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle U} geben, die möglichst nicht normalverteilte Zufallszahlen in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{y}} erzeugt. Für die konkrete Umsetzung dieser Suche gibt es mehrere Lösungsansätze.

Kurtosis

Die Kurtosis ist ein Maß für die Abweichung von einer Normalverteilung. Sie ist definiert durch

Da die Zufallsvariablen in ihrer Varianz normiert sind, wird Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle E(X^2)} gleich Eins. Die Kurtosis wird Null, wenn die Verteilung gauß-ähnlich ist. Ist die Kurtosis negativ, so ähnelt sie zunehmend einer Gleichverteilung. Ist sie positiv, so ist die Verteilung eher eine Laplace-Verteilung. Die Kurtosis muss demnach maximiert bzw. minimiert werden, um sich von einer Normalverteilung zu entfernen. Hierzu werden Gradientenverfahren verwendet, zum Beispiel in Anlehnung an die Lernregel von Oja.

Negentropie

Ein weiterer Ansatz ist die Maximierung der Negentropie.

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle J(X) = H(\mathcal N(\mu_X,\sigma_X^2))-H(X) \geq 0} ,

wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H} die Entropie bezeichne und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathcal N(\mu_X,\sigma_X^2)} diejenige Normalverteilung sei, deren Erwartungswert und Varianz denen von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} entsprechen.

Da Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H(X)} jedoch schwer zu bestimmen ist, verwendet man meist Näherungsformeln für die Negentropie.

Ein Beispiel hierfür ist die Berechnung über die – häufig empirisch bestimmte – Schiefe und Kurtosis der Verteilung vermöge:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle J(X) \approx \frac{1}{12}(\operatorname{skew}(X))^2 + \frac{1}{48}(\operatorname{kurt}(X))^2 }

Fast ICA

Fast ICA ist ein Fixpunktalgorithmus, der das Problem über ein Newton-Verfahren löst.

Literatur

Weblinks

Einzelnachweise

  1. Christian Jutten, Jeanny Herault: Blind Separation of Sources. Part 1: An Adaptive Algorithm Based on Neuromimetic Architecture. In: Signal Process. Band 24, Nr. 1, 1. August 1991, S. 1–10, doi:10.1016/0165-1684(91)90079-X.
  2. A. Hyvärinen, E. Oja: Independent component analysis: algorithms and applications. In: Neural Networks. Band 13, Nr. 4-5, 1. Juni 2016, S. 411–430, doi:10.1016/S0893-6080(00)00026-5.