Words (Unix)

aus Wikipedia, der freien Enzyklopädie

words, eine Standarddatei unter Unix und unixoiden Betriebssystemen, ist eine einfache Liste von Wörtern (dictionary words). Diese Datei wird beispielsweise für automatische Rechtschreibkontrollen benutzt.[1]

Speicherort

Die Datei ist üblicherweise als /usr/share/dict/words zu finden gelegentlich auch als /usr/dict/words oder /usr/share/lib/dict/words,[2] wobei es sich um symbolische Verknüpfungen handeln kann. Die konkrete Situation kann beispielsweise so aussehen:

/usr/share/dict/words ist eine symbolische Verknüpfung zu /etc/dictionaries-common/words, das wiederum eine symbolische Verknüpfung zu /usr/share/dict/british-english ist. Das folgende Bild dokumentiert eine solche indirekte Adressierung über mehrere Verweise in einem Ubuntu-Derivat.

Aufbau der Datei

Sortierung

Jedes Wort steht in einer eigenen Zeile. Die Datei ist nach ASCII-Werten sortiert, das heißt, sie beginnt mit einer Liste von Wörtern, die mit einem Großbuchstaben (A-Z) beginnen, worauf die Wörter folgen, die mit einem der Kleinbuchstaben von a-z beginnen, gefolgt von den Wörtern, welche mit speziellen Buchstaben wie ä oder é beginnen, auch in diesem letzten Abschnitt stehen die mit Großbuchstaben beginnenden Wörter vor jenen, die mit Kleinbuchstaben beginnen.

Umfang

Der Umfang der Datei variiert stark, selbst bei Wortlisten für dieselbe Sprache.

Anzahl der Wörter in einer englischen /usr/share/dict/words
Umfang Jahr Dateiname Quelle
230.000 2009 Knaster / Dalrymple
102305 2020 american-english Linux Lite 4.8
98.569 2012 Schwartz, Zaitsev, Tkachenko

Anwendung und Zweck

Die Datei wird in Unix- und Linux-Büchern oder in Anleitungen zum Programmieren oft benutzt, um Befehle zu demonstrieren oder zu üben, mit denen man beispielsweise Textdateien durchsuchen oder filtern kann.[3][4][5]

Programme, welche mit der Datei words arbeiten

  • look, ein erstmals in Version 7 von AT&T UNIX erschienenes Hilfsprogramm, das in dieser Datei -- optional ohne zwischen Groß- und Kleinbuchstaben zu unterscheiden -- Wörter mit einem bestimmten Anfang sucht.
  • xedit, ein Texteditor.

Installation unter Linux

Unter Debian und Ubuntu steht das virtuelle Programmpaket wordlist für die Datei words, konkret verwirklichen Pakete wie wbritish oder wamerican words. Unter Fedora und Arch kommt die Datei mit dem Paket words auf das System.

Distribution Paketname Installationsbefehl Erläuterungen
Fedora words yum install words  
Ubuntu wordlist sudo apt-get install wngerman
sudo apt-get install wamerican
sudo apt-get install wbritish
wordlist ist ein virtuelles Paket, also kein physisches Paket, sondern eine Abstraktion, eine Art Platzhalter für diverse spezielle Pakete, welche die Funktion von wordlist erfüllen. Installiert werden muss jeweils das spezielle physisch existierende Paket, also beispielsweise wngerman oder wbritish.

In neueren auf Debian beruhenden Linux-Distributionen, also auch neueren Ubuntu-Versionen, kann man statt des älteren Kommandos apt-get das neuere und kürzere Kommando apt benutzen.

Einzelnachweise

  1. Shantanu Tushar: Linux Shell Scripting Cookbook. Packt Publishing, Birmingham, UK. 2013, ISBN 978-1-78216-275-9, S. 219f (englisch, [1]).
  2. Harley Hahn: Harley Hahn's Guide to Unix and Linux. McGraw-Hill Education, 2008, ISBN 978-0-07-313361-4, S. 515.
  3. Emmett Dulaney: Novell Certified Linux Professional (Novell CLP) Study Guide. Novell, Indianapolis 2005, ISBN 0-672-32719-8 (englisch).
  4. Arnold Robbins: Effective awk Programming: Universal Text Processing and Pattern Matching. 4. Auflage. O'Reilly, 2015, ISBN 978-1-4919-0496-1 (englisch).
  5. Baron Schwartz, Peter Zaitsev, Vadim Tkachenko: High Performance MySQL: Optimization, Backups, and Replication. 3. Auflage. O'Reilly, Sebastopol 2012, ISBN 978-1-4493-1428-6, S. 156 (englisch): “[...] To illustrate this, we loaded all the words in /usr/share/dict/words into a table along with their CRC32() values, resulting in 98.569 rows.”

Weblinks