Diskussion:Unicode Transformation Format/Archiv/1
Alte Versionsgeschichte
Versionsgeschichte des Abschnitts "Unicode Transformationsformate" bis zum 05.12.2004, 19:14 Uhr:
- 23:18, 4. Dez 2004 . . 217.235.235.203 (/* UTF-16 */)
- 23:14, 4. Dez 2004 . . 217.235.235.203 (/* UTF-16 */)
- 17:39, 4. Dez 2004 . . Pjacobi (/* UTF-8 */)
- 16:38, 4. Dez 2004 . . 80.139.43.250 (/* UTF-32 */)
- 16:37, 4. Dez 2004 . . 80.139.43.250 (/* UTF-32 */)
- 03:11, 4. Dez 2004 . . 217.235.227.250 (/* UTF-16 */)
- 03:10, 4. Dez 2004 . . 217.235.227.250 (/* UTF-16 */)
- 01:33, 4. Dez 2004 . . 217.235.227.250 (/* Unicode Transformation Formate */)
- 01:32, 4. Dez 2004 . . 217.235.227.250 (/* UTF-16 */)
- 01:29, 4. Dez 2004 . . 217.235.227.250 (/* UTF-32 */)
- 01:24, 4. Dez 2004 . . 217.235.227.250 (/* UTF-16 (UCS-2) */)
- 00:59, 4. Dez 2004 . . 217.235.227.250 (/* UTF-32 */)
- 00:38, 4. Dez 2004 . . 217.235.227.250 (/* UTF-32 (UCS-4) */)
- 00:37, 4. Dez 2004 . . 217.235.227.250 (/* UTF-32 (UCS-4) */)
- 17:45, 3. Dez 2004 . . 62.245.168.210 (/* UTF-32 (UCS-4) */)
- 17:41, 3. Dez 2004 . . 62.245.168.210 (/* UTF-32 (UCS-4) */)
- 17:27, 2. Dez 2004 . . 62.245.168.210 (/* Unicode Transformation Formate */)
- 17:24, 2. Dez 2004 . . 62.245.168.210 (/* Unicode Transformation Formate */)
- 01:21, 2. Dez 2004 . . 217.235.224.31 (/* Unicode Transformation Formate */)
- 19:58, 1. Dez 2004 . . Jan G (interwiki raus (kommt an falscher Stelle vor – in UTF bereits neu eingetragen).)
- 19:53, 1. Dez 2004 . . Jan G (/* UTF-7 (eingestellt) */ Anführungszeichen)
- 12:09, 26. Nov 2004 . . 80.134.167.8 (/* Unicode Transformation Formats */)
- 14:21, 18. Nov 2004 . . 141.71.1.191 (/* UTF-7 (eingestellt) */)
- 14:21, 18. Nov 2004 . . 141.71.1.191 (/* UTF-7 (eingestellt) */)
- 09:30, 29. Okt 2004 . . 194.77.39.25 ()
- 15:53, 27. Okt 2004 . . 145.253.32.3 (/* Unicode Transformation Formats */)
- 12:28, 26. Okt 2004 . . 195.138.51.10 (/* UTF-16 (UCS-2) */)
- 15:59, 23. Okt 2004 . . 80.130.54.77 (/* Unicode Transformation Formats */ typo)
- 16:42, 20. Okt 2004 . . 212.144.142.113 (/* Unicode Transformation Formats */)
- 02:40, 20. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 12:37, 19. Okt 2004 . . 80.128.103.237 (/* UTF-32 */ Kommentar vergessen sorry! Es muss "Das heißt" statt "Dass heisst" heißen.)
- 12:32, 19. Okt 2004 . . 80.128.103.237 (/* UTF-32 */)
- 17:25, 17. Okt 2004 . . 212.202.73.77 (Komma korrigiert)
- 15:24, 17. Okt 2004 . . Pjacobi (hallo anon, bitte beim nächstenmal auf die diskussion gucken)
- 15:12, 17. Okt 2004 . . Pjacobi (/* UTF-7 - UCS-2 */)
- 14:22, 17. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 13:10, 17. Okt 2004 . . 212.202.73.77 (/* UTF-8 - UCS-2 (UCS-4) */)
- 23:23, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 22:06, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 21:57, 16. Okt 2004 . . Pjacobi (/* Unicode Transformation Formats */)
- 21:21, 16. Okt 2004 . . 212.202.73.77 (/* UTF-16 - UCS-2 */)
- 20:29, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 20:10, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 20:01, 16. Okt 2004 . . 212.202.73.77 (/* UTF-8 */)
- 19:54, 16. Okt 2004 . . 212.202.73.77 (/* UTF-8 */)
- 19:48, 16. Okt 2004 . . 212.202.73.77 (/* Unicode Transformation Formats */)
- 19:10, 16. Okt 2004 . . 212.202.73.77 ()
- Was hat das auf einer Diskussionsseite zu suchen? --RokerHRO 07:56, 14. Dez 2005 (CET)
- Aus Lizenzgründen (GFDL) ist dies die alte Versionsgeschichte, aus einer Zeit, als dieser Artikel eine Vorlage war. --Pjacobi 19:10, 29. Mai 2006 (CEST)
- Das versteh wer will - mit den Artikel betreffender Diskussion hat es eigentlich trotzdem nichts zu tun. --Nihetsix 23:25, 27. September 2006
- Nihetsix, Pjacobi meint wohl, dass der Artikel zwischenzeitlich gelöscht wurde, weil über die Versionshistorie urheberrechtlich geschützte Texte erreichbar waren, deren Inhaber sich möglicherweise beschwert hat. Da wurde der Artikel kurzerhand gelöscht und mit dem zuletzt präsenten Inhalt neu eingestellt und die Versionsgeschichte hier festgehalten (was zugegebenermaßen wenig bringt, weil dort kaum Informationen vorhanden sind). So würde zumindest meine Theorie lauten, als ich das da sah. Überprüft hab ich sie allerdings nicht. --Benji 16:22, 14. Jun. 2007 (CEST)
Implementierung
Hinzugefügt, siehe Diskussion:Unicode Programmierung - Implementierung. Lehrig 21:12, 29. Mai 2006 (CEST)
- Das war jetzt nicht so nett, den Teil mit den ganzen bereits angesprochenen Fehlern reinzuklatschen. Ich habe mal so notdürftig überarbeitet, aber es gibt jetzt Doppelungen zum Hauptteil des Artikels.
- Und warum soll jetzt die Qt-Bibliothek einzeln herausgestellt werden? Als abschreckendes Beispiel wegen Nichtkonformität?
- Pjacobi 22:29, 29. Mai 2006 (CEST)
Mit dem jetzigen Artikel bin ich nicht so einverstanden, da wichtige Punkte einfach herausgestrichen wurden und andere für Programmierer weniger wichtige Details reingekommen sind. Ich dachte die Punkte wären in Unicode Diskussion besprochen worden.
- Austausch über Netzwerke
- Kompatibilität zu alten Programmen
- Verweise auf Implementierungen wie Qt (gerne auch mehr)
- Vergleich mit Escape Sequenzen, wie bei Druckern oder Terminals
- ...
Lehrig 07:58, 31. Mai 2006 (CEST)
- Es sollten auch einmal andere Stimmen, als die von Pjacobi hinzugezogen werden. Damit die Diskussion nicht in eine Schieflage kommt. Lehrig 08:04, 31. Mai 2006 (CEST)
- Wenn Du auf Implementierungen verweisen willst, musst Du auch etwas relevantes darüber aussagen können, z.B. ob es eine konformante oder eine nicht konformante Implementation ist.
- Der Vergleich zu Escape-Sequenzen ist weniger passend als der Wikilink zu Multibyte Character Sets.
- Im Artikel steht bereits Anwendungen, die ausschließlich den ASCII-Zeichensatz verwenden, funktionieren unverändert auch mit UTF-8 -- durch das Anklatschen des neuen Abschnitts sind Doppelungen entstanden und Du musst auch mal weiter oben schauen.
- Pjacobi 09:12, 31. Mai 2006 (CEST)
- Im Prinzip ist der ganze neue Abschnitt unten redundant zum bisherigen Artikel. --Pjacobi 09:13, 31. Mai 2006 (CEST)
Vorschlag UTF-8
Zeichen Codes mit einem Wert von weniger als 128 werden in UTF-8 als ASCII-Code dargestellt. ASCII-Zeichen benötigen also ein Octet. Alle weiteren Zeichen werden entsprechend eines relativ aufwendigen Verfahrens als Folge von 2 oder 4 Octets codiert. Alle Zeichen in dieser Folge haben einen Wert von 128-255. Das höchstwertige Bit ist also gesetzt. Der UTF-8 Code kann in UTF-16 bzw. UTF-32 Code verlustfrei ungewandelt werden bzw. aus diesen Codierungen in UTF-8 Code umgerechnet werden. Dazu gibt es entsprechende Bibliotheken. UTF-8 hat gegenüber den anderen Codierungsverfahren den Vorteil, daß er aus einem einfachen Character String besteht (Octet-Folge). Da viele ältere Programme mit solchen einfachen Strings arbeiten, können diese vergleichsweise einfach auf UTF-8 erweitert werden, wohingegen eine Umstellung auf UTF-16 bzw. UTF-32 wesentlich aufwändiger ist. Zusätzlich hat UTF-8 den Vorteil, daß dermassen codierte Strings einfach über Netzwerke übertragen werden können, ohne sich um möglicherweise unterschiedliche Byte Reihenfolge kümmern zu müssen.
"Implementierung" so wie es jetzt ist kann gestrichen werden. Die bisherigen Ausführungen zu Unicode sind aber sehr allgemein gehalten. Den obigen Absatz würde ich gerne irendwo an prominenter Stelle unterbringen, da er meiner Meinung nach für Programmierer mehr bringt. PS: Das war der letzte Vorschlag, bevor ich von eifrigen Admins vergrault werde. Lehrig 19:48, 31. Mai 2006 (CEST)
Könnte der bisherige UTF-8 Abschnitt hierdurch ersetzt werden ? Wie würdet Ihr den Abschnitt umarbeiten ? Lehrig 09:15, 1. Jun 2006 (CEST)
- Von reinen Geschmacks- oder Stilfragen abgesehen, möchte ich Dich bitten
- 2 oder 4 Octets
- zu korrigieren in
- 2 bis 4 Octets.
- An zweiter Stelle kämen Zweifel an:
- relativ aufwendigen Verfahrens
- aber das würde mir keine schlaflosen Nächte bereiten.
- Pjacobi 10:39, 1. Jun 2006 (CEST)
- OK, ich setze das jetzt rein. PS: 2 oder 4 ist eigentlich präsiser, denn 3 octets sind nicht definiert. Lehrig 12:32, 1. Jun 2006 (CEST)
- Aber ich bin lernfähig. Ein göttliches Wissen habe ich natürlich nicht. Aber was Programmierung angeht, ist es schon relativ gross. Siehe: [1]. Solche Details der internen UTF-8 Codierung sind für den Anwendungsprogrammierer übrigen total irrelevant. Schon mal was von "Information hiding" gehört ? Dru erweckst bei mir eher den Eindruck, ein wandelndes Lexikon selbst zu sein, das kann ich nicht. PS:Wir sollten achtungsvoll miteinander umgehen, nicht oberlehrerhaft. Lehrig 18:58, 1. Jun 2006 (CEST)
- In den Artikeln zu Unicode geht es aber auch über alle Details, die eventuell für einen Anwendungsprogrammierer ausser Acht zu lassen sind. Und wir müssen jetzt auch nicht aufrechnen, wer was in Anwendungsprogrammierung und wer was in der Programmierung Unicode-verarbeitender Bibliotheken geleistet hat. Ich glaube Dir gern und unbesehen die Erfahrung in der Anwendungsprogrammierung.
- Nur, warum tust Du Dir dann den Tort an, Dich in die Unicode-Details "einzumischen"? Wenn Du in Diskussionsseiten geschrieben hättest:
- Leute, ist das nicht ein bischen Elfenbeinturm hier? Die Sicht des normalen Anwendungsprogrammierers kommt zu kurz! Ich bin aber leider nicht der absolute Unicode-Experte und möchte daher nicht ungefragt etwas umschreiben
- Dann hätte das doch eine bessere Grundlage gehabt, oder? Niemand ist Experte für Alles.
- Pjacobi 20:57, 1. Jun 2006 (CEST)
- Ich rede doch vom aneinander vorbeireden. Ich habe ja nicht direkt was reingeschrieben, sondern einen Vorschlag auf der Diskussionsseite gebracht. Der jetzige Text sollte nach dem Wissen, was ich nach dieser Diskussion habe, aber OK sein. Reden wir doch nicht weiter aneinander vorbei. Lehrig 07:08, 2. Jun 2006 (CEST)
- Muss Pjacobi aber zustimmen, siehe wweblink: http://czyborra.com/utf/#UTF-8
- UTF-8 ist eine simple convertierung, vor allem gegenüber UTF-1.
Eine einfache folge von bitmaskier und shiftoperationen reicht aus. Die Anzahl der oktets ist auch länger (theoretisch bis 6 bytes, praktisch bis 4 byte). Da bisher aber die in 21bit kodierbaren zeichen wohl aus absehbare zeit für Unicode reichen werden wohl nie UTF-8 code folgen mit 5 oder 6 bytes auftauchen. 4 bytes sind aber sehr wohl für die 21bit von UTF-16 notwendig. Genaugenommen sollte der standart hier vollständig reflektiert werden, sonst ist das hier keine enzyclopedie ;-)) Peter
Kodierungsform vs. Kodierungsschema
Der Unicode-Standard lehnt mittlerweile den Begriff „Unicode Transformation Format“ ab:
For historical reasons, the Unicode encoding forms are also referred to as Unicode (or UCS) transformation formats (UTF). That term is, however, ambiguous between its usage for encoding forms and encoding schemes.
In diesem Artikel wird nicht zwischen Kodierungsform und Kodierungsschema unterschieden und unklare oder veraltete Begriffe wie „Format“ oder „Kodierungsverfahren“ verwendet. Der Einleitungssatz würde auf die Definition von Kodierungsschema passen, während sich der Rest des Artikels mit Kodierungsformen befasst. --Phst 22:53, 8. Okt. 2007 (CEST)
UTF-16 mit 32 Bits ?
"UTF-16 ist das älteste Kodierungsverfahren, bei dem 16 oder 32 Bit zur Kodierung eines Zeichens verwendet werden." - Warum denn 32 Bits? Eine genauere Erklärung wäre bestimmt hilfreich.
- UTF-16 heißt so, weil es Unicodezeichen in 16-Bit-Häppchen verpackt. Und es braucht halt für die Zeichen der BMP ein 16-Bit-Happen, für alle anderen Zeichen zwei, macht zusammen 32 Bit. --RokerHRO 21:35, 3. Apr. 2009 (CEST)
ASCII
... wird viermal so viel Speicherplatz benötigt wie bei einer Kodierung in ASCII ...
Nö, der ASCII Standard sind nur 7 Bit. Erst durch die üblichen Erweiterungen wird er zur einem 8 Bit Code. (nicht signierter Beitrag von 93.129.25.120 (Diskussion) 15:15, 20. Mär. 2014 (CET))
Nichtgenormte Kodierungen für Unicode, die sich UTF nennen oder nannten
Wäre es sinnvoll, den Artikel noch um UTF-1 und UTF-7,5 zu erweitern? Diese wurden zwar nie vom Unicode-Konsortium genormt, aber die Probleme, die der Vorschlag UTF-1 hatte, der dann zur Entwicklung von UTF-8 führte, wäre vielleicht wissenswert. Ebenso die Gedanken, die zu dem Vorschlag UTF-7,5 führten. --RokerHRO 11:19, 15. Sep. 2008 (CEST)
- Ich bin ähnlicher Meinung und meine entweder man nimmt UTF-1 und UTF-7,5 in den Artikel rein oder UTF-7 kommt raus. UTF-7 ist nicht im Unicode Standard definiert. (http://www.unicode.org/versions/Unicode6.1.0/ch03.pdf#G7404) --Wernfried (Diskussion) 09:31, 17. Aug. 2012 (CEST)