Trie
Ein Trie oder Präfixbaum ist eine Datenstruktur, die in der Informatik zum Suchen nach Zeichenketten verwendet wird. Es handelt sich dabei um einen speziellen Suchbaum zur gleichzeitigen Speicherung mehrerer Zeichenketten. Dabei beinhalten Tries eine Art der Datenkompression, da gemeinsame Präfixe der Zeichenketten nur einmal gespeichert werden.
Ein Trie wird über eine Menge von beliebigen Zeichenketten aufgebaut. Jede ausgehende Kante eines Knotens innerhalb eines Tries ist mit einem einzelnen Zeichen versehen, sodass ein Pfad beginnend bei der Wurzel bis zu einem Blatt im Trie eine der Zeichenketten darstellt, aus denen der Baum konstruiert worden ist.
Tries finden ihre Anwendung im Bereich des Information Retrieval. Dort werden sie zur Indexierung von Texten verwendet, um effizient bestimmte Anfragen an den Text zu beantworten.
Kompakte Tries oder auch Patricia-Tries (eine spezielle Variante von kompakten Tries) sind im Bezug auf Speicherplatzverbrauch optimierte Varianten des Tries. Hier werden alle Knoten, von denen nur eine Kante ausgeht, mit ihrem jeweiligen Nachfolger zusammengefasst.
Der Ausdruck Trie wurde von Edward Fredkin in Anlehnung an den Begriff Information Retrieval vorgeschlagen. Dieser Autor spricht ihn wie den englischen Begriff
['triː] aus. Eine andere übliche Aussprache ist wie der englische Begriff
['traɪ], wodurch der Trie verbal von der Datenstruktur Tree unterschieden wird.[1][2] Diese zweite Variante hat sich mittlerweile durchgesetzt.
Definition
Sei eine Menge von Zeichenketten über dem Alphabet mit der Größe = . Ein Trie über ist ein Baum der Form , wobei die Menge der Knoten und die Menge der Kanten ist, der die folgenden Eigenschaften besitzt:[3]
- besitzt ein Label aus dem Alphabet ,
- alle ausgehenden Kanten des Knotens besitzen ein unterschiedliches Label ,
- es gibt einen Knoten , sodass ein Präfix der Konkatenation der Labels des Pfades beginnend bei der Wurzel bis zum Knoten ist (diese Knoten werden im Trie besonders ausgezeichnet, z. B. durch Setzen eines Bits),
- Blätter es gibt eine Zeichenkette , sodass der Pfad von der Wurzel zum Blatt genau buchstabiert.
Ein Beispiel für einen Trie über = {„Java“, „Rad“, „Rand“, „Rau“, „Raum“, „Rose“} ist dem Bild zu entnehmen, wobei die doppelt umrandeten Knoten die Zeichenketten aus darstellen. Man beachte insbesondere, dass das Wort „Rau“ Präfix des Wortes „Raum“ ist, d. h. eine Zeichenkette aus kann Präfix einer anderen sein.
Anwendungen
Mit Hilfe von Tries können unterschiedliche Anfragen an eine gegebene Menge verschiedener Zeichenketten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle S} gestellt werden. Beispielhafte Anfragen könnten sein:[3]
- Existenzanfragen der Art „Enthält Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle S} das Muster Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle M} ?“
- Präfixanfragen der Art „Welche Zeichenketten in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle S} beginnen mit dem Muster Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle M} ?“
- Nachfolger- und Vorgängeranfragen wie „Welche Zeichenketten in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle S} sind lexikographische Nachfolger bzw. Vorgänger des Musters Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle M} ?“
Eine mögliche Verwendung von Tries könnte beispielsweise die Realisierung von Suchanfragen innerhalb einer Kontakte- bzw. Telefonbuch-App für Smartphones sein. Mit Hilfe des Tries kann eine Personensuche nach Namen erfolgen (Existenzanfragen). Ebenso können bei Eingabe eines Namens bereits Kontakte angezeigt werden, deren Namen mit den bisher eingegebenen Buchstaben beginnen (Präfixanfragen). Des Weiteren können Kontakte gefunden werden, die im Telefonbuch hinter bzw. vor der angefragten Person stehen (Nachfolger- und Vorgängeranfragen).
Implementierungsarten
Zur Beantwortung von Anfragen an den Trie wird nach dem Top-Down-Prinzip, beginnend bei der Wurzel, ein Pfad zu einem Knoten gesucht, der dem angefragten Muster Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle M} entspricht. Die Laufzeiten, in der diese Anfragen durchgeführt werden können, sowie der Platzbedarf des Tries hängen somit stark davon ab, wie die Speicherung der ausgehenden Kanten implementiert ist. Im Folgenden werden einige der möglichen Implementierungsarten vorgestellt:[3]
- Eine einfache Variante ist die Speicherung aller ausgehenden Kanten pro Knoten in einer Liste. Dies resultiert in einer Laufzeit von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(| M| \cdot |\Sigma|)} . Der Platzbedarf dieser Lösung beträgt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(n)} , wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n = \sum_{i=1}^k |s_i|} die Gesamtlänge aller Strings in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle S} bezeichnet.
- In der nächsten Variante werden die ausgehenden Kanten, anstatt in einer Liste, in einem sortierten Array für jeden Knoten vorgehalten. Durch Verwendung der binären Suche zum Auffinden der Nachfolgerkante wird hierbei eine Laufzeit von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(|M| \cdot \log |\Sigma|)} erreicht. Der Platzbedarf entspricht dem von Variante 1 und beträgt somit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(n)} .
- Pro Knoten werden die ausgehenden Kanten in einem Array der Größe Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle |\Sigma|} abgelegt. Dadurch wird eine Laufzeit von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(|M|)} erreicht. Hierbei wächst jedoch der Platzbedarf des Tries auf Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(|\Sigma| \cdot n)} .
- Zur Speicherung der ausgehenden Kanten wird eine Hashtabelle verwendet. Diese kann pro Knoten oder global für den gesamten Trie angelegt werden. Mit beiden Varianten wird eine erwartete Laufzeit von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(|M|)} erreicht. Der Nachteil dieser Variante ist allerdings, dass hiermit keine Vorgänger- bzw. Nachfolgeranfragen beantwortet werden können (da Hashtabellen per se unsortiert sind). Diese Variante erreicht einen Platzbedarf von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(n)} .
Vergleich der Laufzeit und des Platzbedarfs
Variante | Laufzeit | Platzbedarf |
---|---|---|
1. | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(| M| \cdot |\Sigma|)} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(n)} |
2. | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(|M| \cdot \log |\Sigma|)} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(n)} |
3. | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(|M|)} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(|\Sigma| \cdot n)} |
4. | erwartet Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(|M|)} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle O(n)} |
Siehe auch
Literatur
- Rene de la Briandais: File Searching Using Variable Length Keys. Proceedings of the Western Joint Computer Conference, 1959, S. 295–298, doi:10.1145/1457838.1457895
- Edward Fredkin: Trie Memory. Communications of the ACM, 3(9): 490–499, Sept. 1960, doi:10.1145/367390.367400
- Donald E. Knuth: The Art of Computer Programming. Vol. 3, 2nd ed. Boston 1998. S. 492–512.
Weblinks
- NIST's Dictionary of Algorithms and Data Structures: Trie (englisch)
- Lloyd Allison: Tries (englisch)
- An Implementation of Double-Array Trie (englisch)
Einzelnachweise
- ↑ Paul E. Black: trie. In: Dictionary of Algorithms and Data Structures. National Institute of Standards and Technology. 16. November 2009. Archiviert vom Original am 19. Mai 2010. Abgerufen am 7. Dezember 2014.
- ↑ Donald Knuth: 6.3: Digital Searching. In: The Art of Computer Programming Volume 3: Sorting and Searching, 2nd. Auflage, Addison-Wesley, 1997, ISBN 0-201-89685-0, S. 492.
- ↑ a b c Johannes Fischer: Vorlesungsskriptum "Text-Indexierung und Information Retrieval". Wintersemester 2014/2015. Abgerufen am 28. November 2014.