Words (Unix)
words, eine Standarddatei unter Unix und unixoiden Betriebssystemen, ist eine einfache Liste von Wörtern (dictionary words). Diese Datei wird beispielsweise für automatische Rechtschreibkontrollen benutzt.[1]
Speicherort
Die Datei ist üblicherweise als /usr/share/dict/words
zu finden gelegentlich auch als /usr/dict/words
oder /usr/share/lib/dict/words
,[2] wobei es sich um symbolische Verknüpfungen handeln kann. Die konkrete Situation kann beispielsweise so aussehen:
/usr/share/dict/words
ist eine symbolische Verknüpfung zu /etc/dictionaries-common/words
, das wiederum eine symbolische Verknüpfung zu /usr/share/dict/british-english
ist. Das folgende Bild dokumentiert eine solche indirekte Adressierung über mehrere Verweise in einem Ubuntu-Derivat.
Aufbau der Datei
Jedes Wort steht in einer eigenen Zeile. Die Datei ist nach ASCII-Werten sortiert, das heißt, sie beginnt mit einer Liste von Wörtern, die mit einem Großbuchstaben (A-Z) beginnen, worauf die Wörter folgen, die mit einem der Kleinbuchstaben von a-z beginnen, gefolgt von den Wörtern, welche mit speziellen Buchstaben wie ä oder é beginnen, auch in diesem letzten Abschnitt stehen die mit Großbuchstaben beginnenden Wörter vor jenen, die mit Kleinbuchstaben beginnen.
Umfang
Der Umfang der Datei variiert stark, selbst bei Wortlisten für dieselbe Sprache.
Umfang | Jahr | Dateiname | Quelle |
---|---|---|---|
230.000 | 2009 | Knaster / Dalrymple | |
102305 | 2020 | american-english | Linux Lite 4.8 |
98.569 | 2012 | Schwartz, Zaitsev, Tkachenko |
Anwendung und Zweck
Die Datei wird in Unix- und Linux-Büchern oder in Anleitungen zum Programmieren oft benutzt, um Befehle zu demonstrieren oder zu üben, mit denen man beispielsweise Textdateien durchsuchen oder filtern kann.[3][4][5]
Programme, welche mit der Datei words arbeiten
- look, ein erstmals in Version 7 von AT&T UNIX erschienenes Hilfsprogramm, das in dieser Datei -- optional ohne zwischen Groß- und Kleinbuchstaben zu unterscheiden -- Wörter mit einem bestimmten Anfang sucht.
- xedit, ein Texteditor.
Installation unter Linux
Unter Debian und Ubuntu steht das virtuelle Programmpaket wordlist für die Datei words, konkret verwirklichen Pakete wie wbritish oder wamerican words. Unter Fedora und Arch kommt die Datei mit dem Paket words auf das System.
Distribution | Paketname | Installationsbefehl | Erläuterungen |
---|---|---|---|
Fedora | words | yum install words
|
|
Ubuntu | wordlist | sudo apt-get install wngerman sudo apt-get install wamerican sudo apt-get install wbritish
|
wordlist ist ein virtuelles Paket, also kein physisches Paket, sondern eine Abstraktion, eine Art Platzhalter für diverse spezielle Pakete, welche die Funktion von wordlist erfüllen. Installiert werden muss jeweils das spezielle physisch existierende Paket, also beispielsweise wngerman oder wbritish .
|
In neueren auf Debian beruhenden Linux-Distributionen, also auch neueren Ubuntu-Versionen, kann man statt des älteren Kommandos apt-get
das neuere und kürzere Kommando apt
benutzen.
Einzelnachweise
- ↑ Shantanu Tushar: Linux Shell Scripting Cookbook. Packt Publishing, Birmingham, UK. 2013, ISBN 978-1-78216-275-9, S. 219f (englisch, [1]).
- ↑ Harley Hahn: Harley Hahn's Guide to Unix and Linux. McGraw-Hill Education, 2008, ISBN 978-0-07-313361-4, S. 515.
- ↑ Emmett Dulaney: Novell Certified Linux Professional (Novell CLP) Study Guide. Novell, Indianapolis 2005, ISBN 0-672-32719-8 (englisch).
- ↑ Arnold Robbins: Effective awk Programming: Universal Text Processing and Pattern Matching. 4. Auflage. O'Reilly, 2015, ISBN 978-1-4919-0496-1 (englisch).
- ↑ Baron Schwartz, Peter Zaitsev, Vadim Tkachenko: High Performance MySQL: Optimization, Backups, and Replication. 3. Auflage. O'Reilly, Sebastopol 2012, ISBN 978-1-4493-1428-6, S. 156 (englisch): “[...] To illustrate this, we loaded all the words in /usr/share/dict/words into a table along with their CRC32() values, resulting in 98.569 rows.”