Attributsgewichtung
Die Attributsgewichtung (engl. attribute selection oder feature selection) wird auch als Sensitivitätsanalyse bezeichnet. Die englische Bezeichnung deutet darauf hin, dass sie Attribute danach auswählen, ob sie für das Ergebnis eines Versuchs oder Entscheidungsprozesses relevant waren, und wenn ja, in welchem Maße.
Grundidee
Im Data-Mining werden Datensätze oft als Beispiele oder Instanzen (engl. instance, Beispiel) bezeichnet. Sie sind durch eine Reihe von Größen gekennzeichnet, die Eigenschaften oder Attribute heißen. In einem Entscheidungsprozess führen die Ausgangsdaten zu einer Zielgröße, die im einfachsten Fall zwei Werte annehmen kann und nach denen die Instanz klassifiziert wird. Dabei ist oft interessant, welches der Attribute welchen Einfluss auf die Zielgröße, also den Klassenwert der Instanz hatte. Dies herauszufinden ist das Ziel der Sensitivitätsanalyse oder Attributsgewichtung. Zu deren Werkzeugen gehören die Relief-Algorithmen, zu denen auch ReliefF zählt. Für ihre Anwendung ist zunächst die Definition einer Entfernung zwischen den Instanzen erforderlich, die sich aus den Differenzen zwischen den Attributen ergibt. Häufig genügt dafür die so genannte Manhattan-Distanz, die Summe der Differenzbeträge zwischen den Attributwerten.
Beispiel
Nachfolgendes Beispiel soll ein intuitives Verständnis dafür liefern, was mit den einzelnen Begriffen gemeint ist:
Attribute: | Ausblick | Temperatur | Luftfeuchtigkeit | windig | Klasse: | Spieltag | |||||||
mögl. Werte: | sonnig | kühl | normal | nein | Kl.wert: | findet statt | |||||||
veränderlich | mild | hoch | ja | fällt aus | |||||||||
regnerisch | heiß |
In obigem Beispiel existieren vier Attribute, von denen zwei Attribute jeweils drei Werte, die anderen beiden Attribute nur zwei Werte annehmen können. Eine Instanz ist hierbei eine konkrete Wetterlage als Kombination der vier Attribute. Durch die Kombination der Attribute können verschiedene Wetterlagen in diesem Beispiel abgebildet werden. Jede Instanz kann dabei einer von zwei Klassen angehören, deren beide mögliche Klassenwerte durch die Entscheidung gegeben sind, ob unter den in der Instanz definierten Wetterbedingungen ein Spiel stattfindet oder ausfällt.