Sequenzmuster
Ein Sequenzmuster ist die gleichförmige Abfolge von Elementen in Transaktionen. Das Suchen von Sequenzmuster ist eine Methode von Data-Mining. Um ein Beispiel zu nennen, wird bei Transaktionen mit Kundeneinkäufen die folgende Frage gestellt: „Welche Artikel werden nacheinander gekauft?“. Nicht zu verwechseln ist das Sequenzmuster mit der Assoziationsanalyse, welche die Frage stellt: „Welche Artikel werden zusammen gekauft?“.
Für die Untersuchung auf Sequenzmuster muss die Transaktions-Datenbank neben den Elementen der Transaktion auch die Transaktionszeit und ein Zusammengehörigkeitsmerkmal (z. B. Kundennummer) enthalten.
Prinzip Sequenzmuster-Erkennung
Der Algorithmus zum Finden von Sequenzmustern gliedert sich wie folgt:
- Sortierung der Datenbank
- Sortierung nach Zusammengehörigkeitsmerkmal (z. B. Kundennummer) als Primär- und Transaktionszeit als Sekundärschlüssel. Aufbau der Sequenzen sortiert nach Zusammengehörigkeitsmerkmal
- Finden der häufigen Itemmengen
- Transformation der Datenbank
- Nur noch die häufigen Itemmengen werden den Kunden zugeordnet (dient lediglich der Effizienzsteigerung).
- Finden der Sequenzmuster
- Häufige Itemmengen werden zu Sequenzmustern kombiniert und geprüft, ob sie den Mindestsupport erreichen (Analog zum Finden von Assoziationsregeln). Es muss beachtet werden, dass ein gefundenes Muster nicht in einem längeren enthalten ist.
Anwendungsgebiete
Bioinformatik: Proteinsequenzen in der DNA-Analyse. Die DNA besteht aus vier Basen (A, C, G, T) und 20 Aminosäuren. Die Aufgabe in vielen Bereichen der Bioinformatik besteht im Auffinden von möglichst langen gleichartigen Sequenzen.
Web-Mining: Sequenz von besuchten Internetseiten. Die Sequenz der besuchten Internetseiten, die zu einem erfolgreichen Einkauf in einem Shop oder zu einem Abbruch führen, kann zur Verbesserung des Webauftritts eingesetzt werden.
Quellen
- Data Mining und Data Warehousing – Prof. Andreas Reber (PDF-Datei; 27 kB)