Lateinische Zeichen in Unicode
Lateinische Buchstaben, also Schriftzeichen, die auf dem lateinischen Alphabet aufgebaut sind, sind in Unicode in verschiedenen Blöcken enthalten.
Die 26 Grundbuchstaben befinden sich – neben Ziffern, Satzzeichen und Steuerzeichen – im Unicodeblock Basis-Lateinisch, während die anderen Blöcke Erweiterungen des Grundalphabets enthalten:
- abgewandelte Buchstabenformen wie ð, ə oder ŋ
- Ligaturen wie æ, œ oder ƕ
- aus anderen Schriften entlehnte, aber in lateinischen Orthographien benutzte Zusatzbuchstaben wie þ oder ɛ
- diakritische Zeichen, die mit Grundbuchstaben kombiniert werden können
- aus Gründen der Kompatibilität mit älteren Codepages eine große Menge fertiger Kombinationen aus Grundbuchstabe und diakritischem Zeichen wie ä, ç, č oder ữ
- ebenfalls aus Gründen der Kompatibilität einzelne Digraphe wie ij, nj oder dz
- Darstellung der lateinischen Buchstaben für die CJK-Schriften (vollbreit und halbbreit)
- Zier- und Kalligraphische Varianten wie Ⓐ, ⒜,⒈, ℋ, ℳ, ℕ
- auf der Lateinschrift aufgebaute Symbole wie $, ℃, ℅, ™
Kodierte Zeichen
Buchstaben
Bis zum Codepunkt U+00FF folgt Unicode der Latin-1-Zeichenkodierung, und damit auch ASCII. Somit liegen die Grundbuchstaben des lateinischen Alphabets zusammen mit weiteren Zeichen im Unicodeblock Basis-Lateinisch, der folgende Block Lateinisch-1, Ergänzung enthält neben anderen Zeichen Buchstaben mit Diakritika und einige Sonderbuchstaben, insbesondere das deutsche ß. Im nächsten Block Lateinisch, erweitert-A befinden sich die weiteren lateinischen Buchstaben aus den ISO/IEC-8859-Kodierungen 2, 3, 4 und 9, sowie in ISO 6937 kodierte Buchstaben. Dieser Block enthält auch das lange s. Der Unicodeblock Lateinisch, erweitert-B enthält vor allem phonetische und außereuropäische Erweiterungen des lateinischen Alphabets, darunter die meisten noch fehlenden Zeichen des Afrika-Alphabets. Seit Unicode 3.0 sind auch die rumänischen Buchstaben Ș und Ț in diesem Block kodiert. Der Block Lateinisch, weiterer Zusatz enthält weitere lateinische Buchstaben, darunter die des vietnamesischen Alphabets sowie das große ß. Der Unicodeblock Lateinisch, erweitert-C deckt das Uighurische Alphabet und eine Erweiterung des lateinischen Alphabets durch Claudius ab. Weitere historische Buchstaben finden sich in den Unicodeblöcken Lateinisch, erweitert-D und Lateinisch, erweitert-E.
Der Unicodeblock Alphabetische Präsentationsformen kodiert zur Kompatibilität mit anderen Standards einige Ligaturen lateinischer Buchstaben.
Um Buchstaben mit diakritischen Zeichen darzustellen, die nicht in Unicode kodiert sind, können sie als Kombination eines Grundbuchstaben mit einem kombinierenden Zeichen geschrieben werden. Diese befinden sich in den Blöcken Kombinierende diakritische Zeichen, Kombinierende diakritische Zeichen, Ergänzung, Kombinierende halbe diakritische Zeichen und Kombinierende diakritische Zeichen, erweitert.
Lautschrift
Lautschriften wie das Internationale Phonetische Alphabet und das Uralische Phonetische Alphabet verwenden lateinische und griechische Buchstaben, sowie einige eigene Erweiterungen. Diese Erweiterungen gelten in Unicode meist ebenfalls als lateinische Buchstaben. Diese Zeichen finden sich in den Blöcken IPA-Erweiterungen, Spacing Modifier Letters, Phonetische Erweiterungen, Phonetische Erweiterungen, Ergänzung und Hoch- und tiefgestellte Zeichen.
Vollbreite Zeichen
Der Unicodeblock Halbbreite und vollbreite Formen enthält die lateinischen Grundbuchstaben in einer breiten Form, in der sie zusammen mit ostasiatischen Schriften in Unicode verwendet werden.
Symbole
Unicode kodiert auch eine Reihe von Symbolen, die aus lateinischen Buchstaben abgeleitet sind. Diese liegen in den Blöcken Buchstabenähnliche Symbole, Umschlossene alphanumerische Zeichen und Mathematische alphanumerische Symbole. Vor allem letztere sind zur Verwendung mit den weiteren mathematischen Zeichen in Unicode vorgesehen. Auch die Zeichen für römische Zahlen im Unicodeblock Zahlzeichen gelten als lateinische Zeichen.
Quellen
- Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 7.1: Latin. (online, PDF)
Weblinks
- Koordinierungsstelle für IT-Standards (KoSIT) Bremen: Lateinische Zeichen in Unicode (Datentyp „String.Latin“ in XML Schema; PDF; 812 kB)
- Projektgruppe der deutschen Innenministerkonferenz: Umstellung auf Lateinische Zeichen in Unicode – Vorgaben für Identifikationsverfahren (PDF; 2,6 MB), 17. Januar 2012
- DIN SPEC 91379 „Zeichen in Unicode für die elektronische Verarbeitung von Namen und den Datenaustausch in Europa“