Interpunktionszeichen in Unicode

aus Wikipedia, der freien Enzyklopädie

Interpunktionszeichen sind in Unicode für die Interpunktion meist zur Verwendung mit allen Schriftsystemen in Unicode kodiert. Anders als bei den Buchstaben und anderen Schriftzeichen wurden Satzzeichen nach ihrem Aussehen, nicht nach der Funktion kodiert. So hat der gewöhnliche Punkt etwa ganz verschiedene Funktionen: Er markiert das Ende eines Satzes, Abkürzungen, Ordnungszahlen, wird im Englischen als Dezimalpunkt, im Deutschen als Tausendertrenner verwendet. Das Semikolon wird im Griechischen als Fragezeichen verwendet. Je nach Kontext kann ein Satzzeichen auch unterschiedlich dargestellt werden. So wird in den meisten Sprachen der Punkt kreisförmig dargestellt, im Armenischen dagegen sollte er eine quadratische Form annehmen. Nur in einigen Fällen sind besondere Satzzeichen für bestimmte Schriften kodiert, diese befinden sich dann meist im selben Block wie die Zeichen der Schrift.

Blöcke mit Interpunktionszeichen

Die wichtigsten Satzzeichen liegen in den beiden Blöcken Basis-Lateinisch und Lateinisch-1, Ergänzung, die aus dem ASCII- und Latin-1-Standard übernommen wurden. Daneben gibt es eine Reihe von Blöcken, die nur Zeichen zur Interpunktion enthalten: Der Unicodeblock Allgemeine Interpunktion enthält Interpunktionszeichen für alle Schriftsysteme, der Unicodeblock Zusätzliche Interpunktion einige seltene und historische Satzzeichen. Der Unicodeblock CJK-Symbole und -Interpunktion enthält Satzzeichen, die mit den ostasiatischen Schriften in Unicode zusammen verwendet werden. Weitere Satzzeichen für diese Schriften, die zur Kompatibilität mit anderen Standards kodiert wurden, liegen in den Blöcken Vertikale Formen, CJK-Kompatibilitätsformen und Kleine Formvarianten.

Kodierte Zeichen

Unicode teilt die Interpunktionszeichen nach ihrer allgemeinen Kategorie in mehrere Klassen ein.

Horizontale Striche

Während im ASCII-Zeichensatz nur ein horizontaler Strich definiert war, kodiert Unicode eine Vielzahl solcher Striche mit unterschiedlichen Breiten und unterschiedlichem Verhalten beim Unicode-Zeilenumbruch-Algorithmus. Je nach Länge unterscheidet man zwischen Viertelgeviert-, Halbgeviert-, Geviert- und Doppelgeviertstrich.

Paarige Satzzeichen

Einige Satzzeichen treten im Normalfall paarweise auf, die Klammern und – in der Verwendung abhängig von der Sprache – die Anführungszeichen. Die meisten Klammern haben die Besonderheit, dass sie sich in Aussehen der Schreibrichtung anpassen, also bei Anwendung des Unicode-Bidi-Algorithmus in linksläufigem Text gespiegelt gegenüber der gewohnten Darstellung dargestellt werden.

Quellen

  • Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 6.2: General Punctuation. (online, PDF)