Merkmalsvektor
Ein Merkmalsvektor fasst die (numerisch) parametrisierbaren Eigenschaften eines Musters in vektorieller Weise zusammen. Verschiedene, für das Muster charakteristische Merkmale bilden die verschiedenen Dimensionen dieses Vektors. Die Gesamtheit der möglichen Merkmalsvektoren nennt man den Merkmalsraum. Merkmalsvektoren erleichtern eine automatische Klassifikation, da sie die zu klassifizierenden Eigenschaften stark reduzieren (statt eines kompletten Bildes muss zum Beispiel nur ein Vektor aus 10 Zahlen betrachtet werden). Häufig dienen sie als Eingabe für eine Clusteranalyse.
Beispiele
Spracherkennung
In der Spracherkennung ist die Energie des Sprachsignals ein häufig benutztes Merkmal. Weiterhin werden MFCCs oder die auf Linearer Vorhersage beruhenden LPCs, linear predictive coefficients (auch: linear predictive coding) eingesetzt, sowie die zeitliche Veränderung dieser Größen (erste und zweite Ableitung nach der Zeit).
Wenn die ersten 13 MFCCs, die zugehörigen Ableitungen und die Energie zu einem Merkmalsvektor zusammengefasst werden, erhält man 40 Dimensionen.
Prosodieerkennung
Zur automatischen Extraktion von suprasegmentalen Einheiten werden in der Prosodieerkennung u. a. folgende Basismerkmale eingesetzt:
- Die Grundfrequenz F0 bzw. der Grundfrequenzverlauf
- verschiedene Maße der Energie des Signals
- zeitliche Maße des Sprachsignals, z. B. Pausenlängen, Phonemlängen etc.
Bildverarbeitung
- Energie des Bildes
- Fourierkoeffizienten
- Grauwerte
Texterkennung und Textanalyse
- Buchstabenwahrscheinlichkeit
- Silbenwahrscheinlichkeit
- Wortwahrscheinlichkeit
Musterklassifikation
In der Musterklassifikation werden Muster anhand von ihren parametrisierbaren Eigenschaften, den Merkmalsvektoren, automatisch klassifiziert. Je besser die Merkmale gewählt wurden und je mehr Trainingsmaterial (also je größer die Stichprobe) vorhanden ist, desto besser gelingt eine Klassifikation. Eine größere Dimension in den Merkmalsvektoren bedeutet dabei einen größeren Bedarf an Trainingsmaterial, also auch einen größeren Trainingsaufwand und eine größere Trainingsdauer. Aber dafür erzielt man auch bessere Klassifikationsraten, also eine bessere Klassifikatorqualität. Eine geringe Anzahl von Dimensionen bedeutet dabei ein schnelleres Training und eine kleinere Stichprobe, aber auch geringere Qualität.
Funktionen auf Basismerkmalen als Einträge
Oftmals werden die Basismerkmale durch (gewichtete) Funktionen zu aussagekräftigeren Entscheidungswerten verrechnet. Diese Funktionen können Wahrscheinlichkeitsverteilungen berechnen oder Maximum Likelihood Werte, Prozentwerte, Verhältniswerte, ein Minimum, Maximum oder einen Durchschnitt bilden.