Diskussion:Multibyte Character Set
Misnomer?
Vergleiche Einleitung im verlinkten englischen Artikel: 'A variable-width encoding is a type of character encoding scheme in which codes of differing lengths are used to encode a character set (a repertoire of symbols) for representation in a computer. Most common variable-width encodings are multibyte encodings, which use varying numbers of bytes (octets) to encode different characters. (Some authors, notably in Microsoft documentation, use the term multibyte character set, which is a misnomer since representation size is an attribute of the encoding, not of the character set.)' en:Variable-width_encoding
--Gms 11:27, 8. Nov. 2008 (CET)
- Ich sehe da 1. keine Falschbenennung und 2. sind Multibyte Character Sets keine variable-width encodings. MBCS meint Zeichensätze bei denen ein Zeichen durch mehr als ein Byte encodiert wird, die müssen auch nicht immer variabel sein, z.B. UTF-32. --Mps 15:05, 8. Nov. 2008 (CET)
Falsche Rechnung
in dem Satz "Würde man die ca. 90.000 − je nach Zählung − chinesischen Schriftzeichen nach Variante a kodieren müsste man jedes Zeichen mit 3 Bytes kodieren. Damit würden allerdings 99,5% des Speicherplatzes verschenkt werden, da so lediglich 0,5% von 224 ≈ 16,8 Mio., mit 3 Bytes möglichen, verschiedenen Zeichen genutzt werden." steckt folgender Fehler: Für 90000 Zeichen braucht man round_upper(log2(90000))=17 Bit. Gespeichert werden 24 Bit. Das bedeutet dass ca. 29% verschwendet werden. Aus meiner Sicht bringt die Variante b vor allem dann etwas, wenn häufige Zeichen mit weniger Bytes kodiert werden und damit der Durchschnitt der Bytes pro Zeichen unter 3 in diesem Fall fällt. -- 192.166.56.36 16:21, 10. Nov. 2009 (CET)
- Naja, kommt auf den Bezugspunkt an, also ob man mögliche Werte oder Bits verschenkt. M.m.n. ist beides gleich gerechtfertigt. Deine Bemerkung zur Variante b stimmt prinzipiell, der praktische Grund ist eher das es kompatibel zu ASCII bleibt, was bei stets mehr als 1 Byte/Zeichen nicht gegeben wäre, bei variabellangen MBCS schon, da das bei ASCII (7-bit) nicht verwendete MSB hier die Multibyte-Sequenzen markiert. --Mps 16:38, 10. Nov. 2009 (CET)
- Nichts desto trotz steht da, dass 99,5 % des Speicherplatzes verschenkt wird, und das ist Unsinn. Das würde nämlich bedeuten, dass man mit einer besseren Kodierung nur 0,5 % des Speicherplatzes brauchen würde. Um z.B. 100 Zeichen mit je 3 Byte zu kodieren brauche ich 300 Byte. Wenn 99,5 % davon vergeudet wären bräuchte man mit einer besseren Methode für 100 Zeichen nur ca. 1,5 Bytes. 213.23.199.58 15:10, 5. Aug. 2010 (CEST)
- Jetzt besser? --Mps 17:23, 5. Aug. 2010 (CEST)
- Nichts desto trotz steht da, dass 99,5 % des Speicherplatzes verschenkt wird, und das ist Unsinn. Das würde nämlich bedeuten, dass man mit einer besseren Kodierung nur 0,5 % des Speicherplatzes brauchen würde. Um z.B. 100 Zeichen mit je 3 Byte zu kodieren brauche ich 300 Byte. Wenn 99,5 % davon vergeudet wären bräuchte man mit einer besseren Methode für 100 Zeichen nur ca. 1,5 Bytes. 213.23.199.58 15:10, 5. Aug. 2010 (CEST)