CHAID

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 1. Juli 2020 um 21:55 Uhr durch imported>Trustable(411728) (wikilinks).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

CHAID (Chi-square Automatic Interaction Detectors) ist ein Algorithmus, der zur Entscheidungsfindung dient. Er wird bei der Konstruktion von Entscheidungsbäumen eingesetzt.

Der CHAID-Algorithmus wurde 1964 erstmals von J.A. Sonquist und J.N. Morgan publiziert und ist somit der Älteste der gängigen Entscheidungsbaum-Algorithmen. Anderberg (1973) beschreibt ihn. J.A. Hartigan (1975) gibt eine Implementierung an.

Der Hauptunterschied von CHAID zu CART und C4.5 besteht darin, dass der CHAID-Algorithmus das Wachsen des Baumes stoppt, bevor der Baum zu groß geworden ist. Der Baum wird also nicht beliebig wachsen gelassen, um ihn danach mit einer Pruning-Methode wieder zu stutzen. Ein weiterer Unterschied besteht darin, dass CHAID mit kategorial skalierten Variablen wie Farbe (rot, gelb, grün) oder Bewertung (gut, mittel, schlecht) arbeitet anstatt mit metrisch skalierten Variablen wie zum Beispiel Körpergröße in cm.

Für die Wahl der Attribute wird beim CHAID-Algorithmus der Chi-Quadrat-Unabhängigkeitstest verwendet. CHAIDs kommen zur Anwendung, wenn eine Aussage über die Abhängigkeit zweier Variablen gemacht werden muss. Dazu wird eine Kennzahl, der Chi-Quadrat-Abstand berechnet. Dabei gilt: Je größer diese Kennzahl, desto größer die Abhängigkeit der betrachteten Variablen. Die Variable mit dem größten Chi-Quadrat-Abstand zur Zielgröße wird als Attributauswahl berücksichtigt. Um die Trennqualität zu erhöhen, können hier – wie auch beim C4.5-Algorithmus – mehr als zwei Verzweigungen pro Knoten vorgenommen werden. Dies hat zur Folge, dass die generierten Bäume kompakter sind als die CARTs. Dieselbe Methode wird zur Ermittlung der besten Unterteilungen verwendet. Da bei diesen Entscheidungsbäumen alle möglichen Kombinationen von Ausprägungen ausgewertet werden müssen, kann es bei großen Datenmengen zu Laufzeitproblemen führen. Deshalb ist es von Vorteil, wenn die numerischen Variablen in Variablen mit kategoriellen Ausprägungen umgewandelt werden, obwohl dies einen zusätzlichen Aufwand bedeutet. Dafür sollte das Ergebnis qualitativ besser sein.

Siehe auch

Literatur

  • Sonquist, J.A. and Morgan, J.N. (1964): The Detection of Interaction Effects. Survey Research Center, Institute for Social Research, University of Michigan, Ann Arbor.
  • Anderberg, M.R. (1973): Cluster Analysis for Applications. New York – Academic Press.
  • Hartigan, J.A. (1975): Clustering Algorithms. New York – Wiley.