Diskussion:Nächste-Nachbarn-Klassifikation

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 11. April 2007 um 17:14 Uhr durch imported>Chrislb(101069) (Erster Versuch für ein Abschnitt über die statistische Betrachtung).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)


euklidischer abstand

Warum wurdw denn im 2. Absatz der euklidischen Abstand festgelegt, wenn doch auch andere Abstandmaße möglich wären?

Erster Versuch für ein Abschnitt über die statistische Betrachtung

Ich habe mich einmal an einer statistischen Betrachtung für die Nächste-Nachbarn-Klassifikation versucht. Da der Abschnitt nicht fertig ist, will ich ihn erstmal hier einstellen. Vielleicht findet sich jemand um ihn zu ergänzen und einzubauen. --chrislb 问题 19:14, 11. Apr. 2007 (CEST)


Statistische Betrachtung

Als parameterfreies Verfahren eignet sich die Nächste-Nachbarn-Klassifikation für die Schätzung unbekannter Wahrscheinlichkeitsdichten oder Dichten, die sich nicht mit einfachen parametrischen Dichtefunktionen darstellen lassen.

Schätzung der Dichte

Bei dieser Schätzung handelt es sich um Überwachtes Lernen für eine Dichte der Klasse für .

Die Wahrscheinlichkeit, dass in die Region fällt, bestimmt sich wie folgt:

.

Da einer Glättung der Dichtefunktion entspricht, kann diese geglättete Version aus geschätzt werden.

Für die Wahrscheinlichkeit, dass von in die Region fallen gilt nun durch die Binomialverteilung:

und damit der Erwartungswert

.

Unter der Annahme, dass innerhalb stetig ist und A klein genug gewählt und damit näherungsweise konstant ist, lassen sich die folgenden Approximationen vornehmen:

für das Volumen von und
, da die Binomialverteilung ein ausgeprägtes Maximum am Erwartungswert annimmt.

Daraus resultiert:

für die jeweiligen .

Klassifikation durch Schätzung

Durch die Schätzung

lässt sich nun eine Klassifikation vornehmen: .