Liste der Unicode-Eigenschaften

aus Wikipedia, der freien Enzyklopädie

Der Unicode-Standard kodiert nicht nur eine sehr große Zahl von Zeichen, sondern legt zu jedem dieser Zeichen auch eine Reihe von Eigenschaften fest, die das Zeichen und sein Verhalten beschreiben. So kann man den Eigenschaften des Buchstaben Ä etwa entnehmen, dass es sich um einen Großbuchstaben handelt, dass der zugehörige Kleinbuchstabe das ä ist oder dass er sich in ein A mit Trema zerlegen lässt.

Allgemeines

Formal sind Unicode-Eigenschaften als Abbildungen von Codepunkten in einen bestimmten Wertebereich definiert. Die Daten werden in verschiedenen einfachen Textdateien sowie als XML-Datei zur Verfügung gestellt.

Werte

Je nach Eigenschaft sind verschiedene Wertebereiche möglich. Die meisten Eigenschaften sind aufzählende Eigenschaften, ihr Wertebereich besteht aus einer festgelegten Menge. Aufzählende Eigenschaften werden nochmals weiter unterteilt in Katalogeigenschaften und binäre Eigenschaften. Katalogeigenschaften zeichnen sich dadurch aus, dass mit neuen Unicode-Versionen die Menge der möglichen Werte schrittweise anwächst. Binäre Eigenschaften sind aufzählende Eigenschaften mit genau zwei Werten, wahr (Y) und falsch (N). Es wird also angegeben, ob die Eigenschaft auf dieses Zeichen zutrifft oder nicht.

Außerdem gibt es Stringeigenschaften, die jedem Zeichen eine Zeichenkette aus Unicode-Zeichen zuordnen, numerische Eigenschaften, die jedem Zeichen eine Zahl zuordnen und sonstige Eigenschaften, die sich keiner dieser Kategorien zuordnen lassen.

Standardwerte

Eigenschaften haben aus mehreren Gründen ein oder mehrere Standardwerte. Zum einen wird in den Tabellen oft der Standardwert ausgelassen, um diese übersichtlicher zu gestalten. Zum anderen müssen Programme auch mit Text umgehen können, der nach einer neueren Unicode-Version erstellt wurde, und daher auch Zeichen enthalten kann, die zu dem Zeitpunkt, als das Programm entwickelt wurde, noch nicht belegt waren. Für aufzählende Eigenschaften ist jeweils meist ein Wert festgelegt, der als Standard gilt, in wenigen Fällen gibt es mehrere Standardwerte, die je nach Block vergeben werden. Bei binären Eigenschaften ist der Standardwert immer N, also nicht zutreffend.

Bei Stringeigenschaften ist der Standardwert immer das Zeichen selbst.

Aliase

Viele Eigenschaften haben neben ihrem eigentlichen Namen auch einen oder mehrere Aliasnamen. Häufig handelt es sich dabei um Abkürzungen. Auch für die möglichen Werte aufzählender Eigenschaften sind oft kurze Aliase festgelegt.

Status

Viele Eigenschaften sind normativ, also verbindlich für Programme, die nach dem Unicode-Standard arbeiten und die Eigenschaft interpretieren. Andere Eigenschaften sind dagegen als informativ gekennzeichnet und dienen nur als Zusatzinformation ohne verbindlichen Charakter. Eine Gruppe von Eigenschaften ist als beisteuernd gekennzeichnet. Diese Eigenschaften sollten nicht für sich alleine verwendet werden, sondern wurden definiert, um andere Eigenschaften daraus abzuleiten. Sie kennzeichnen meist eine Ausnahmemenge von Zeichen, die ansonsten nicht erfasst würde. Als Letztes gibt es noch provisorische Eigenschaften, die zunächst unter Vorbehalt aufgenommen wurden, um zu sehen, ob sie sich in der Praxis bewähren.

Einige Eigenschaften sind zusätzlich als deprecated („überholt“) markiert, diese sollten aus unterschiedlichen Gründen nicht mehr verwendet werden, bleiben aber aus Gründen der Abwärtskompatibilität im Unicode-Standard vorhanden.

Stabilität

Um Abwärtskompatibilität zu gewährleisten, werden einige Eigenschaften, sobald sie einmal für ein Zeichen festgelegt sind, nicht oder nur in bestimmter vorher bekannter Weise geändert. So ist etwa festgelegt, dass der Name eines Zeichens nie geändert wird, selbst wenn er sich als falsch herausstellt.

Eigenschaften

Die folgenden Listen führen alle Unicode-Eigenschaften auf, gruppiert wie in der offiziellen Dokumentation, zum Stand Unicode 6.3. Angegeben ist jeweils der Name der Eigenschaft, ein abkürzender Alias-Name (falls vorhanden), der Status der Eigenschaft, die Art des Wertebereichs und eine Beschreibung.

Allgemein

Die allgemeinen Eigenschaften geben einen groben Überblick über das Zeichen. Verwendung finden sie unter anderem in regulären Ausdrücken, wenn diese etwa wie in Perl die Abfrage von Unicode-Eigenschaften unterstützen.[1]

Eigenschaft Kurz Status Werte Beschreibung
Name na normativ Sonstiges Name des Zeichens*
Name_Alias normativ Sonstiges Aliasnamen, vor allem für Kontrollzeichen verwendet, bei denen die Eigenschaft Name grundsätzlich leer bleibt
Block blk normativ Katalog Unicodeblock, in dem das Zeichen liegt
Age age normativ
informativ
Katalog Version, in der das Zeichen aufgenommen wurde
General_Category gc normativ aufzählend grobe Unterteilung aller Zeichen, siehe eigener Abschnitt
Script sc informativ Katalog Schriftsystem des Zeichens, also etwa Lateinisch, Griechisch, Kyrillisch, etc.; Common für Zeichen, die in mehreren Schriftsystemen verwendet werden
Script_Extensions informativ Sonstiges Schriftsysteme bei Zeichen, die in mehreren Systemen verwendet werden
White_Space WSpace normativ binär kennzeichnet ein Zeichen als Leerzeichen
Alphabetic Alpha informativ binär Zeichen aus Alphabeten
Hangul_Syllable_Type hst normativ aufzählend Bestimmung der Silbenblöcke im Koreanischen
Noncharacter_Code_Point NChar normativ binär reservierte Zeichen
Default_Ignorable_Code_Point DI normativ binär Zeichen, die bei der Darstellung ignoriert werden sollten, sofern das Programm sie nicht unterstützt
Deprecated Dep normativ binär missbilligte Zeichen, die nicht mehr verwendet werden sollten
Logical_Order_Exception LOE normativ binär Zeichen, die vor der Anwendung des Unicode Collation Algorithm mit dem folgenden Zeichen vertauscht werden müssen
Variation_Selector VS normativ binär Variantenselektoren, die zwischen verschiedenen Darstellungsvarianten des vorhergehenden Zeichens wählen
* Neben einzelnen Zeichen haben auch einige Zeichenfolgen einen eigenen Namen.[2]

Allgemeine Kategorie

Die Eigenschaft General_Category ist eine der grundlegenden Eigenschaften, die sowohl im Unicode-Standard selbst als auch in vielen anderen technischen Dokumentationen verwendet wird. Sie unterteilt alle Zeichen nach ihrer Hauptverwendung in Buchstaben, Zahlen, Interpunktion und weitere. Die folgende Tabelle listet die möglichen Werte auf.

Kategorie Code Bedeutung Beispiele
Buchstabe L
Großbuchstabe Lu Großbuchstabe A, Ä, Δ, DŽ
Kleinbuchstabe Ll Kleinbuchstabe a, ä, δ, dž
Titelbuchstabe Lt Zeichen, die in Titelschreibweise stehen. Dies sind nur einige wenige Zeichen, die einen Digraph kodieren Dž
Modifizierender Buchstabe Lm Buchstaben, die den vorangehenden Buchstaben modifizieren Buchstaben aus dem Unicodeblock Spacing Modifier Letters
Sonstiger Buchstabe Lo Buchstaben aus Alphabeten, die nicht zwischen Groß- und Kleinschreibung unterscheiden (etwa Hebräisch), CJK und sonstige ב, 丌
Kombinierendes Zeichen M
ohne Vorschub Mn Kombinierendes Zeichen, das auf oder unter das vorangehenden Zeichen gesetzt wird kombinierende diakritische Zeichen
mit Vorschub Mc Kombinierendes Zeichen, das selbst Platz beansprucht indische Vokalzeichen
umschließend Me Kombinierendes Zeichen, das das vorangehende Zeichen ganz umschließt Kombinierender umschließender Kreis
Zahl N
Ziffer Nd Ziffern 0, 1
Buchstabe Nl Buchstaben, die als Zahlen verwendet werden
Sonstiges Zahlzeichen No sonstige Zahlen, etwa hochgestellte, eingekreiste oder Brüche ², ½, ②
Interpunktion P
verbindend Pc Zeichen, die zwei Teile zu einem Wort verbinden Unterstrich
Strich Pd verschiedene Striche: Bindestrich, Gedankenstrich, etc. -, –, —
öffnend Ps öffnende Klammern (, [, {
schließend Pe schließende Klammern ), ], }
öffnendes Anführungszeichen Pi öffnende Anführungszeichen (kann je nach Sprache auch als schließendes verwendet werden) «
schließendes Anführungszeichen Pf schließendes Anführungszeichen (kann je nach Sprache auch als öffnendes verwendet werden) »
sonstige Interpunktion Po Satzzeichen und andere Interpunktion, die in keine der obigen Kategorien fallen ! . , : ; ? §
Symbol S
Mathematisches Symbol Sm Symbole, die in mathematischen Zusammenhängen verwendet werden +, <, >, ±
Währungssymbol Sc Symbole, die eine Währung kennzeichnen $, €
Modifizierendes Symbol Sk Symbole, die das vorangehende Zeichen modifizieren Symbole aus dem Unicodeblock Spacing Modifier Letters
Sonstiges Symbol So Symbole, die in keine der obigen Kategorien fallen ⛔, ©
Leerraum Z
Leerzeichen Zs Leerzeichen unterschiedlicher Breite Leerzeichen, geschütztes Leerzeichen
Zeilenumbruch Zl Zeilentrenner (U+2028)
Absatzumbruch Zp Absatztrenner (U+2029)
Sonstiges Zeichen C
Steuerzeichen Cc allgemeine Steuerzeichen BEL
Formatierung Cf Steuerzeichen zur Formatierung bedingter Trennstrich, bidirektionale Steuerzeichen
Surrogate Cs Surrogate
Privater Gebrauch Co Zeichen zum privaten Gebrauch U+F8FF
nicht zugewiesen Cn Codepunkte, denen (noch) kein Zeichen zugewiesen ist

Groß-/Kleinschreibung

Viele Eigenschaften beschäftigen sich mit der Groß-/Kleinschreibung. Sie legen fest, ob ein Zeichen ein Groß- oder Kleinbuchstabe ist, welches der Kleinbuchstabe zu einem gegebenen Großbuchstaben ist und umgekehrt und weiteres. Um Zeichenketten schreibweisenunabhängig zu vergleichen, wird eine als case fold bezeichnete Normalform definiert. Verwendet werden diese Eigenschaften unter anderem von den verschiedenen Unicode-Casing-Algorithmen.

Eigenschaft Kurz Status Werte Beschreibung
Uppercase Upper informativ binär kennzeichnet ein Zeichen als Großbuchstaben
Lowercase Lower informativ binär kennzeichnet ein Zeichen als Kleinbuchstaben
Cased informativ binär kennzeichnet alle Zeichen die ein Groß-, Klein- oder Titelbuchstabe sind
Simple_Lowercase_Mapping slc normativ String zugehöriger Kleinbuchstabe (falls es sich um ein Zeichen handelt)
Simple_Titlecase_Mapping stc normativ String zugehöriger Titelbuchstabe (falls es sich um ein Zeichen handelt)
Simple_Uppercase_Mapping suc normativ String zugehöriger Großbuchstabe (falls es sich um ein Zeichen handelt)
Simple_Case_Folding scf normativ String zugehöriger casefold-Buchstabe (falls es sich um ein Zeichen handelt)
Lowercase_Mapping lc informativ String entsprechende Zuordnungen, die auch komplexere Umwandlungen beinhalten
Titlecase_Mapping tc informativ String
Uppercase_Mapping uc informativ String
Case_Folding cf normativ String
Soft_Dotted SD normativ binär i, j und ähnliche Zeichen, deren Punkt bei der Großschreibung und im Zusammenhang mit diakritischen Zeichen entfernt wird
Case_Ignorable CI informativ binär Zeichen ohne Bedeutung für Fragen nach Groß-/Kleinschreibung
Changes_When_Lowercased CWL informativ binär Zeichen, die sich beim Umwandeln in Kleinschreibung ändern
Changes_When_Titlecased CWT informativ binär Zeichen, die sich beim Umwandeln in Titelschreibung ändern
Changes_When_Uppercased CWU informativ binär Zeichen, die sich beim Umwandeln in Großschreibung ändern
Changes_When_Casefolded CWCF informativ binär Zeichen, die sich beim Umwandeln in die casefold-Normalform ändern
Changes_When_Casemapped CWCM informativ binär Zeichen, die sich bei irgendeiner Änderung von Groß-/Kleinschreibung ändern

Numerisch

Die folgenden Eigenschaften beschäftigen sich mit numerischen Eigenschaften von Zeichen, besonders den Zahlzeichen in Unicode.

Eigenschaft Kurz Status Werte Beschreibung
Numeric_Value nv normativ numerisch numerischer Wert des Zeichens
Numeric_Type nt normativ aufzählend Art (Dezimal, Ziffer, Numerisch)
ASCII_Hex_Digit AHex normativ binär ASCII-Zeichen, die für Hexadezimalziffern verwendet werden, also 0 bis 9, a bis f und A bis F
Hex_Digit Hex informativ binär Zeichen, die für Hexadezimalziffern verwendet werden, einschließlich ihrer Varianten

Normalisierung

Eine Reihe von Eigenschaften behandelt die verschiedenen Arten der Normalisierung von Unicode-Texten.

Eigenschaft Kurz Status Werte Beschreibung
Canonical_Combining_Class ccc normativ aufzählend/numerisch gibt an, welche kombinierende Zeichen miteinander wechselwirken und in welcher Reihenfolge sie sortiert werden sollen
Decomposition_Mapping dm normativ String gibt die Zerlegung eines Zeichens an
Decomposition_Type dt normativ
informativ
aufzählend gibt die Art der Zerlegung (kanonisch, ändert die Schriftart/das Umbruchverhalten/etc.) an
Composition_Exclusion CE normativ binär Zeichen mit einer kanonischen Zerlegung, die in den kombinierten Normalformen nicht verwendet werden sollen
Full_Composition_Exclusion Comp_Ex normativ binär
FC_NFKC_Closure FC_NFKC normativ
deprecated
String zugehörige casefold-Normalform, falls das Zeichen erst in die casefold-Normalform und dann in NFKC überführt wird
NFC_Quick_Check NFC_QC normativ aufzählend Eigenschaften, die einen schnellen Test ermöglichen, ob eine Zeichenkette in einer bestimmten Normalform vorliegt
NFKC_Quick_Check NFKC_QC normativ aufzählend
NFD_Quick_Check NFD_QC normativ aufzählend
NFKD_Quick_Check NFKD_QC normativ aufzählend
Expands_On_NFC XO_NFC normativ
deprecated
binär Zeichen, die beim Umwandeln in die entsprechende Normalisierungsform zu mehreren Zeichen werden
Expands_On_NFD XO_NFD normativ
deprecated
binär
Expands_On_NFKC XO_NFKC normativ
deprecated
binär
Expands_On_NFKD XO_NFKD normativ
deprecated
binär
NFKC_Casefold NFKC_CF informativ String Zeichen nach Umwandlung in NFKC und anschließend die casefold-Normalform
Changes_When_NFKC_Casefolded CWKCF informativ binär Zeichen, die sich ändern, wenn sie erst in NFKC und dann in die casefold-Normalform überführt werden

Darstellung

Die folgenden Eigenschaften spielen eine Rolle bei der Darstellung von Text.

Eigenschaft Kurz Status Werte Beschreibung
Joining_Group jg normativ aufzählend legt fest wie bzw. ob sich ein Buchstabe mit seinen Nachbarn verbindet, siehe Arabisch in Unicode
Joining_Type jt normativ aufzählend
Join_Control Join_C normativ binär Steuerzeichen für Ligaturen und Buchstabenverbindungen
Line_Break lb normativ aufzählend legt das Umbruchverhalten für den Unicode-Zeilenumbruch-Algorithmus fest
Grapheme_Cluster_Break GCB informativ aufzählend werden in den Segmentierungsalgorithmen zur Bestimmung der Grenzen von Graphemen, Sätzen und Wörtern verwendet
Sentence_Break SB informativ aufzählend
Word_Break WB informativ aufzählend
East_Asian_Width ea informativ aufzählend gibt die Breite eines Zeichens an, die bei der Darstellung ostasiatischer Texte eine Rolle spielt
Prepended_Concatenation_Mark PCM informativ binär Zeichen, die nachfolgende Zeichen umspannen, etwa das syrische Abkürzungszeichen

Bidi

Für die Darstellung von bidirektionalem Text stehen folgende Eigenschaften zur Verfügung.

Eigenschaft Kurz Status Werte Beschreibung
Bidi_Class bc normativ aufzählend bestimmt die Schreibrichtung im Unicode-Bidi-Algorithmus
Bidi_Control Bidi_C normativ binär Bidirektionales Steuerzeichen
Bidi_Mirrored Bidi_M normativ binär gibt an, ob ein Zeichen im linksläufigen Text gespiegelt dargestellt werden muss
Bidi_Mirroring_Glyph bmg informativ Sonstiges mögliches Spiegelbild des Zeichens, etwa ( als Spiegelbild für ), in einigen Fällen existiert kein solches Zeichen
Bidi_Paired_Bracket bpb normativ Sonstiges Gegenstück einer Klammer
Bidi_Paired_Bracket_Type bpt normativ aufzählend kennzeichnet öffnende und schließende Klammern

Bezeichner

Die folgenden Eigenschaften sind eine Möglichkeit, die erlaubten Zeichen in Bezeichnern festzulegen. Im Gegensatz zu klassischen Programmiersprachen, die nur ASCII-Zeichen erlauben, sind in Sprachen, die diese Eigenschaften verwenden, ein Großteil der Unicode-Zeichen in Bezeichnern zulässig. Ein Beispiel für eine Sprache, deren Syntax weitgehend diesen Umfang zulässt, ist JavaScript.[3]

Eigenschaft Kurz Status Werte Beschreibung
ID_Start IDS informativ binär Zeichen, das am Anfang eines Bezeichners stehen kann
ID_Continue IDC informativ binär Zeichen, das an den folgenden Stellen in einem Bezeichner stehen kann
XID_Start XIDS informativ binär Zeichen, das am Anfang eines Bezeichners stehen kann
XID_Continue XIDC informativ binär Zeichen, das an den folgenden Stellen in einem Bezeichner stehen kann
Pattern_Syntax Pat_Syn normativ binär Zeichen, die in der Syntax verwendet werden können
Pattern_White_Space Pat_WS normativ binär Zeichen, die als Leerraum behandelt werden sollten

CJK

Einige Eigenschaften betreffen CJK-Zeichen. Zusätzlich gibt es noch eine Reihe weiterer Eigenschaften, siehe den Abschnitt Unihan.

Eigenschaft Kurz Status Werte Beschreibung
Ideographic Ideo informativ binär CJK-Zeichen
IDS_Binary_Operator IDSB normativ binär Ideographisches Beschreibungszeichen
IDS_Trinary_Operator IDST normativ binär
Unified_Ideographic UIdeo normativ binär chinesisches Schriftzeichen, das in ideographischen Beschreibungssequenzen verwendet werden kann
Radical normativ binär Radikal, das in ideographischen Beschreibungssequenzen verwendet werden kann

Sonstiges

Einige Eigenschaften dienen hauptsächlich der Information über ein Zeichen, ohne dass sie für spezielle Anwendungen vorgesehen sind.

Eigenschaft Kurz Status Werte Beschreibung
Math informativ binär Mathematische Zeichen in Unicode
Quotation_Mark QMark informativ binär Anführungszeichen
Dash informativ binär horizontale Striche verschiedener Länge
Hyphen informativ
deprecated
binär Bindestrich und ähnliche Zeichen, wurde ursprünglich für den Zeilenumbruch benutzt und dort durch die Line_Break-Eigenschaft abgelöst
STerm informativ binär Zeichen, die ein Satzende markieren
Terminal_Punctuation Term informativ binär Satzzeichen, die meist ein Satzende markieren
Diacritic Dia informativ binär Diakritisches Zeichen
Extender Ext informativ binär Zeichen, die den vorausgehenden Buchstaben erweitern, etwa Längenzeichen
Grapheme_Base Gr_Base normativ binär ältere Eigenschaften zur Bestimmung von Graphemen, siehe Grapheme_Cluster_Break im Abschnitt Darstellung für die neuere Methode
Grapheme_Link kann aus der Canonical_Combining_Class-Eigenschaft ermittelt werden
Grapheme_Extend Gr_Ext normativ binär
Grapheme_Link Gr_Link informativ
deprecated
binär
Unicode_1_Name na1 informativ Sonstiges alter Name in der Unicode-Version 1.0
ISO_Comment isc informativ
deprecated
Sonstiges ursprünglich für Kommentare in der ISO 10646 Namensliste benutzt, jetzt leer
Indic_Matra_Category provisorisch aufzählend bestimmt die Platzierung abhängiger Vokale in indischen Schriften
Indic_Syllabic_Category provisorisch aufzählend bestimmt die Struktur der Kategorien silbenbildender Komponenten in indischen Schriften

Beisteuernde Eigenschaften

Diese Eigenschaften werden nicht alleine verwendet, sondern werden benutzt, um andere Eigenschaften daraus abzuleiten. Meist handelt es sich um Ausnahmemengen, die durch die allgemeine Kategorie nicht abgedeckt werden.

Eigenschaft Kurz Status Werte Beschreibung
Other_Alphabetic OAlpha beisteuernd binär für Alphabetic
Other_Default_Ignorable_Code_Point ODI beisteuernd binär für Default_Ignorable_Code_Point
Other_Grapheme_Extend OGr_Ext beisteuernd binär für Grapheme_Extend
Other_ID_Start OIDS beisteuernd binär für Abwärtskompatibilität von ID_Start
Other_ID_Continue OIDC beisteuernd binär für Abwärtskompatibilität von ID_Continue
Other_Lowercase OLower beisteuernd binär für Lowercase
Other_Math OMath beisteuernd binär für Math
Other_Uppercase OUpper beisteuernd binär für Uppercase
Jamo_Short_Name JSN beisteuernd Sonstiges für Name koreanischer Silbenblöcke

Unihan

Für CJK-Zeichen, die im Zuge der Han-Vereinheitlichung in Unicode aufgenommen wurden, existiert eine eigene Datenbank, die Eigenschaften speziell für diese Zeichen bereitstellt. Die Angaben zur Quelle bezeichnen dabei die Zeichenkodierung in verschiedenen nationalen Zeichensätzen. Neben den hier aufgeführten Eigenschaften gibt es eine Reihe weiterer provisorischer Eigenschaften, die weitere Hinweise zur Aussprache, Bedeutung, alternativen Kodierungen etc. liefern.

Eigenschaft Status Werte Beschreibung
kAccountingNumeric informativ numerisch numerischer Wert für fälschungssichere Zahlzeichen
kOtherNumeric informativ numerisch numerischer Wert eines Zeichens, das selten als Zahlzeichen verwendet wird
kPrimaryNumeric informativ numerisch numerischer Wert eines gewöhnlichen Zahlzeichens
kCompatibilityVariant normativ String Normalisierung des Zeichens, sofern es sich um eine Kompatibilitätsvariante handelt
kIICore normativ Sonstiges Zeichen, das auf allen Systemen vorhanden sein sollte
kIRG_GSource normativ Sonstiges Quelle: China/Singapur
kIRG_HSource normativ Sonstiges Quelle: Hongkong
kIRG_JSource normativ Sonstiges Quelle: Japan
kIRG_KPSource normativ Sonstiges Quelle: Nordkorea
kIRG_KSource normativ Sonstiges Quelle: Südkorea
kIRG_MSource normativ Sonstiges Quelle: Macao
kIRG_TSource normativ Sonstiges Quelle: Taiwan
kIRG_USource normativ Sonstiges Quelle: USA
kIRG_VSource normativ Sonstiges Quelle: Vietnam
kRSUnicode informativ Sonstiges Radikal und Anzahl der weiteren Striche
kMandarin informativ Sonstiges Pinyin-Lesart
kTotalStrokes informativ Sonstiges Anzahl der Striche inklusive Radikal

Quellen

  • Mark Davis, Ken Whistler: Unicode Standard Annex #44: Unicode Character Database. (online)
  • John H. Jenkins, Richard Cook, Ken Lunde: Unicode Standard Annex #38: Unicode Han Database. (online)
  • Ken Whistler, Asmus Freytag: Unicode Technical Report #23: The Unicode Character Property Model. (online)
  • Eric Muller: Unicode Standard Annex #42: Unicode Character Database in XML. (online)

Einzelnachweise

  1. perlretut: More on characters, strings, and character classes. Perl-Dokumentation auf perldoc.perl.org
  2. Addison Phillips: Unicode Standard Annex #34: Unicode Named Character Sequences. (online)
  3. ECMAScript Language Specification, 5.1 Edition, 7.6 Identifier Names and Identifiers

Weblinks