Wikiup:Meinungsbilder/Umstellung auf Unicode
Worum geht's
Die deutsche Wikipedia verwendet zur Zeit den Zeichensatz ISO 8859-1 (auch als Latin-1 bekannt). Da dieser Zeichensatz nur 256 Zeichen umfasst, müssen Sonderzeichen mit so genannten numerischen Zeichenreferenzen (fälschlich auch: HTML-Entities) kodiert werden (Details siehe Wikipedia:Sonderzeichen), dadurch wird der Quellcode schlecht lesbar.
Fast alle Wikipedias (außer da, de, en, nl und sv) setzen deshalb die Unicode-Zeichenkodierung UTF-8 ein, mit der quasi jedes Zeichen dargestellt werden kann. Es existiert auch ein Konvertierungsprogramm, mit dem ISO-8859-1-Wikis auf UTF-8 umgestellt werden können; es wurde im März 2004 erfolgreich auf der französischen Wikipedia eingesetzt (Details auf Französisch). Das Programm wandelt auch HTML-Entities in die entsprechenden Unicodezeichen um. Am 9. Mai 2004 wurde das erst am 1. Mai 2004 noch in iso-8859-1-Kodierung gestartete deutsche Wiktionary auf utf-8 umgestellt. (Die Vergleichbarkeit ist wegen dessen Winzigkeit natürlich eingeschränkt.) Vor kurzem wurde auch die spanische Wikipedia umgestellt.
Nachteile von Unicode
- Unicode wird von einigen älteren Browsern nicht oder nicht korrekt unterstützt, diese Browser können also utf-8-Seiten nicht schreiben und würden einen Artikel so zerstören. Dies betrifft vor allem Internet Explorer 5.1 unter MacOS, Netscape 4.x und iCab, sowie ältere Programme, die auf der deutschen Wikipedia überhaupt nicht vorkommen. Bei einigen Textbrowsern ist des weiteren eine Umstellung nötig, um keine Probleme zu bekommen. Alle Problembrowser machen zusammen derzeit etwa 1% der Benutzerschaft (inkl. der nur lesenden) aus, ein großer Teil davon entfällt auf Netscape 4, bei dem die Benutzer vermutlich schon nach der Startseite wieder verschwinden (diese ist damit aufgrund von Browserbugs schon unbenutzbar, da Inhalte übereinander stehen). Auf der französischen Wikipedia waren es zum Zeitpunkt der Umstellung 6,5% Problembrowser, bis heute hat die Zahl auf 2,5% abgenommen, was immer noch wesentlich mehr als hier ist. Dennoch beobachtete man dort nur etwa alle 2 Wochen mal eine zerstörte Seite.
- Während der Umstellung (einige Stunden) wäre die deutsche Wikipedia schreibgeschützt
und eine Zeit lang (<1 Std.) gar nicht erreichbar.Dieser Vorgang würde nachts erfolgen, wenn normalerweise kaum bis gar keine Bearbeitungen zu beobachten sind. UPDATE: das Update der spanischen Wikipedia hat ohne Downtime geklappt (nur ca. 1 Stunde Schreibschutz). - Es sind einige kleinere Nacharbeiten nach der Umstellung nötig.
Vorteile von Unicode
- Der Quellcode der Artikel ist deutlich besser lesbar, im Normalfalle sind alle Zeichen direkt auch in der Bearbeitungsansicht entzifferbar, die bekannten Zeichenfolgen der Art {Lj usw. werden durch Klartext ersetzt.
- Damit zusammen ist es möglich, jedes Zeichen direkt einzugeben, es ist nicht mehr nötig (aber durchaus möglich), mit HTML-Entities ({) zu arbeiten.
- Probleme mit Windows (deutsche Anführungszeichen, Eurozeichen) und Mac (km2 statt km²) erledigen sich.
- Sonderzeichen in Artikelnamen etwa für Lech Wałęsa, oder Vladimír Špidla werden möglich. (die interessanten Zeichen sind fett)
Fragen danach
Für Fragen, die sich danach noch für die Benutzer ergeben, existiert die Wikipedia:Browser-FAQ.
Meinungsbild (alias Abstimmung) zur Umstellung auf UTF-8
Die Modalitäten orientieren sich an der Adminwahl. Startzeit 12. Juli 2004, 23:37. Ende damit am 26. Juli um 23:37.
pro
- TheK 23:37, 12. Jul 2004 (CEST)
- Head 00:06, 13. Jul 2004 (CEST)
- Paddy 00:18, 13. Jul 2004 (CEST)
- Sansculotte ✏ 00:20, 13. Jul 2004 (CEST)
- Sicherlich 00:21, 13. Jul 2004 (CEST)
- TG 00:30, 13. Jul 2004 (CEST) 00:22, 13. Jul 2004 (CEST) (ich gehe mal davon, dass "Unicode" UTF-8 meint und nicht UCS-2?)
- Ilja 00:52, 13. Jul 2004 (CEST)
- Schusch 01:07, 13. Jul 2004 (CEST)
- एरिक(Eric) 06:22, 13. Jul 2004 (CEST)
- Henning.H 09:34, 13. Jul 2004 (CEST)
- sk 09:41, 13. Jul 2004 (CEST)
- Tkarcher 09:42, 13. Jul 2004 (CEST)
- --zeno 10:42, 13. Jul 2004 (CEST)
- “Remember me!” 12:25, 13. Jul 2004 (CEST)
- Wikinator (Diskussion) 17:02, 13. Jul 2004 (CEST)pro
- Schewek 17:13, 13. Jul 2004 (CEST)
- Raymond 19:13, 13. Jul 2004 (CEST)
- Dishayloo [ +] 19:24, 13. Jul 2004 (CEST)
- Elian Φ 19:59, 13. Jul 2004 (CEST)
- AndreasB 20:16, 13. Jul 2004 (CEST)
- igelball 20:21, 13. Jul 2004 (CEST)
- mrehker 22:46, 13. Jul 2004 (CEST)
- jed 02:13, 14. Jul 2004 (CEST)
- Tilman 08:10, 14. Jul 2004 (CEST) (trotz aller Probleme sicher die einzige sinnvolle Lösung, man denke nur an all die Diskussionen über nötige und noch nicht mögliche Sonderzeichen!)
- ° 10:02, 14. Jul 2004 (CEST)
- Darkone (¿!) 11:02, 14. Jul 2004 (CEST)
- Hoch auf einem Baum 11:47, 14. Jul 2004 (CEST) (auch weil ich hoffe, dass durch die Umstellung endlich die jetzigen Sonderzeichen-Probleme mit Opera behoben werden)
- Shannon 15:31, 14. Jul 2004 (CEST)
- Rudibak 15:49, 14. Jul 2004 (CEST)
- Rdb 18:15, 14. Jul 2004 (CEST)
- 1001 18:39, 14. Jul 2004 (CEST)
- Ansgar Berhorn 23:14, 14. Jul 2004 (CEST)
- Wotan 23:48, 14. Jul 2004 (CEST)
- da didi | Diskussion 12:17, 15. Jul 2004 (CEST)
- Tim Pritlove 17:04, 15. Jul 2004 (CEST) -- besser vorgestern als gestern. UTF-8 ist überfällig und mehr als nötig. Ich habe hier schon mehrere Artikel zerschossen, weil ich ihnen einen korrekten Namen geben wollte. Umstellen!
- Thommess 19:33, 15. Jul 2004 (CEST)
- Wirbelflaute 20:43, 15. Jul 2004 (CEST)
- Wmeinhart 22:37, 15. Jul 2004 (CEST)
- Stern 22:44, 15. Jul 2004 (CEST)
- Gebu 02:11, 16. Jul 2004 (CEST)
- ahz 00:30, 19. Jul 2004 (CEST)
- ASK 08:02, 16. Jul 2004 (CEST)
- Meph666 13:27, 16. Jul 2004 (CEST)
- stw (Talk) 18:11, 16. Jul 2004 (CEST)
- MFM 18:21, 16. Jul 2004 (CEST)
- pi~ 18:56, 16. Jul 2004 (CEST) (höchste Zeit! manche Quelltexte kann man schon kaum mehr lesen)
- Andim 09:52, 17. Jul 2004 (CEST)
- Langec 22:58, 17. Jul 2004 (CEST)
- Daniel Beyer 10:11, 18. Jul 2004 (CEST)
- tsor 10:24, 18. Jul 2004 (CEST)
- Q-collective 16:25, 18. Jul 2004 (CEST)
- Night Ink 16:54, 18. Jul 2004 (CEST)
- plasmagunman 18:01, 18. Jul 2004 (CEST)
- Pjacobi 23:55, 18. Jul 2004 (CEST)
- Kristjan' 00:39, 19. Jul 2004 (CEST)
- Papiermond 11:34, 19. Jul 2004 (CEST)
- Jensflorian 15:56, 19. Jul 2004 (CEST) --- Wozu noch bis zum 26. warten, lieber heute als morgen!
- --Ulrich Leipold 01:07, 20. Jul 2004 (CEST)
- Sebastian 02:13, 20. Jul 2004 (CEST) – Sehe keine Probleme, bei anderen Wikipedias hat's anscheinend auch geklappt
- Ninjamask 02:26, 20. Jul 2004 (CEST)
- Filzstift 07:33, 20. Jul 2004 (CEST) ---- Umstellung ist keine Diskussion für mich!
- Simi 19:38, 20. Jul 2004 (CEST)
- Unscheinbar 21:13, 20. Jul 2004 (CEST) - auch gut für Screenreader und Braille-Zeilen. Das hilft Sehbehinderten, in der WP klarzukommen.
- Krissl 22:04, 20. Jul 2004 (CEST)
- Crux 10:50, 21. Jul 2004 (CEST)
- Benpsycho 13:11, 21. Jul 2004 (CEST)
- DreadVenturous 11:13, 22. Jul 2004 (CEST)
- Baba66 21:48, 22. Jul 2004 (CEST)
- MikeKrueger 14:58, 23. Jul 2004 (CEST)
- Uli 16:41, 23. Jul 2004 (CEST) (Abstimmung ist zwar gelaufen, aber fürs Protokoll)
- Schrottie 23:34, 23. Jul 2004 (CEST)
- Müscha 14:20, 24. Jul 2004 (CEST)
- DErbaum Uli nur zustimmen
- plp 01:40, 26. Jul 2004 (CEST) (so schnell wie möglich)
- Monkeyhead 15:10, 26. Jul 2004 (CEST)
- Sloyment 15:55, 26. Jul 2004 (CEST)
- chb 21:26, 26. Jul 2004 (CEST)
- BEENDET
contra
- Dagegen.Noch gibt es zu viele ungeklärte Probleme, --DaB. 23:38, 12. Jul 2004 (CEST)
- Dem schließe ich mich an. -- Stechlin 07:40, 13. Jul 2004 (CEST)
- BEENDET
unentschlossen wegen Bedenken
- noch dagegen Das googlen zur UTF8-Migration der MySQL-DB (!!) verheist eher mehr Fragen als Antworten (P.S. ich betreibe selber eine UTF-8 DB mit Oracle wegen der Verwendung von Latin + sorbische Sonderzeichen - ist die MediaWiki Software und das Datenmodell auch UTF-8 fähig ? - aus 20 Byte in einem Zeichensatz können dann schon mal 20+x Bytes werden ) DMS 17:39, 25. Jul 2004 (CEST)
- HÄ? (Einwände sind ja ok, aber sie zu verstehen wäre besser) TheK 01:41, 26. Jul 2004 (CEST)
- @TheK - ja ich werde beim nächsten mal genauer lesen DMS 18:37, 26. Jul 2004 (CEST)
- (nicht mal die Einwände sind OK) -- @DMS: Erst nachdenken (bzw. aufmerksam alles durchlesen), dann erst den Rest der Welt mit den Hirnergüssen beglücken. Wenn du diese Seite erst gelesen hättest, bevor du dein Mitteilungbedürfnis befriedigt hättest, hättest du bestimmt nicht übersehen, dass fast alle Wikipedias (außer da, de, en, nl und sv) die Unicode-Zeichenkodierung UTF-8 einsetzten. Dann werden MediaWiki Software und das Datenmodell wohl kaum nicht UTF-8 fähig sein. Bist DU in etwa mit dieser Migration beauftragt worden? Ich glaube sie werden schon wissen was sie tun. Desweiteren steht unten, für diejenigen die nicht selbst draufkommen, dass die numerische HTML Entities der Art {, die man zur Zeit für nicht in ISO-8859-1 darstellbare Zeichen verwendedet werden, 3 Byte länger seien als das zugehörige UTF-8 Zeichen (sind es nicht eher 4 Byte: 6 - 2 oder noch mehr? siehe z.B. den Quelltext von Russische Sprache). Dann wird es wohl eher nicht aus 20 Byte 20+x Bytes werden, sondern des öfteren auch aus 20+y 20+x wobei y > x!? --Meph666 11:26, 26. Jul 2004 (CEST)
- Die Länge ist schwer abschätzbar, da die Zeichenlänge in utf-8 dynamisch ist. Aber selbst mit utf-8 ist der Code für ein Zeichen sicher nicht länger, als seine (hexadezimale) Kennziffer. Dafür wachsen aber auch die Umlaute von 1 auf 2 Byte... TheK 12:58, 26. Jul 2004 (CEST)
- @Meph666 - ja ich habe nun verstanden, das mySQl schon im "Unicode"-Mode läuft. Es bleibt also nur noch die Frage - das alle verwendetetn Editoren UNICODE/UFT8 fähig sind damit die Offlineautoren sich nicht ihre Texte zerrammeln. Nein ich bin nicht mit der Umstellung beauftragt :-). Ich dachte eher an die Verwendung von Funktionen die Byte- und nicht Zeichenweise arbeiten (also LENGTH anstelle von CHAR_LENGTH) bzw. Exporte-/Import als FLAT-File (in Erinnerung an das "Recovery-Kuddelmuddel" im letzen Monat ...DMS 18:37, 26. Jul 2004 (CEST)
- HÄ? (Einwände sind ja ok, aber sie zu verstehen wäre besser) TheK 01:41, 26. Jul 2004 (CEST)
Kommentare
- Schon mal eine Bitte an die Pro-Fraktion (die wahrscheinlich gewinnen wird): Bildet schon mal eine Task-Force, die sich um die ganzen Fragen von normalen User kümmert (a lá: "Da sind Kasten im Artikel", "Die Sonderzeichen sind hin" etc.) ;-) --DaB. 23:43, 12. Jul 2004 (CEST)
- diese gibt es (Head's Browser-FAQ!). Kästen bei Sonderzeichen, die vorher nicht da waren (!), wurden nicht gesichtet. TheK 23:44, 12. Jul 2004 (CEST)
- Die Fragen werden trotzdem auf Wikipedia:Ich brauche Hilfe gestellt werden. Und die sollten dann von Pro-Stimmern beantwortet werden. --DaB. 00:00, 13. Jul 2004 (CEST)
- Also ich bin dabei, wenn dafür die anderen Problem (Lesbarkeit der Artikelquellen!) behoben werden. 18:56, 16. Jul 2004 (CEST)
- Die Fragen werden trotzdem auf Wikipedia:Ich brauche Hilfe gestellt werden. Und die sollten dann von Pro-Stimmern beantwortet werden. --DaB. 00:00, 13. Jul 2004 (CEST)
- @DaB.: Du kannst Dich gerne in der Zeit bis zur Umstellung um die genannten Opera-Probleme kümmern.
- Was ich damit meine: Nur weil es Probleme bei der Umstellen geben kann und wird, muss doch nicht so polemisiert werden - und ich bin mir sowieso sicher, dass sich genug Leute finden werden, die helfen und Auskunft geben. War doch bis jetzt immer so. --zeno 15:29, 14. Jul 2004 (CEST)
- Sorry, du hast natürlich recht. Ich bin wohl etwas über das Ziel hinausgeschossen. Es ärgerte mich eben, dass wieder duzende Fragen kommen, warum das und das nicht geht, wie bei der WK-Umstellung. Was ich nicht bedacht habe: Auch jetzt gibt's schon Probleme und hier sind viel mehr Leute, die das abfangen können. Nochmals sorry. --DaB. 22:15, 15. Jul 2004 (CEST)
- diese gibt es (Head's Browser-FAQ!). Kästen bei Sonderzeichen, die vorher nicht da waren (!), wurden nicht gesichtet. TheK 23:44, 12. Jul 2004 (CEST)
Verschoben von der Abstimmung:
- Erhöter Speicherplatzverbrauch -- Maverick
- IPs dürfen nicht abstimmen und einen Benutzer:Maverick gibt es auch nicht. Falls ich falsch liege, bitte um Korrektur. --DaB. 10:45, 15. Jul 2004 (CEST)
- außerdem ist die Behauptung so pauschal falsch! Mehr Platz braucht es nur, wenn mehr als 3 normale ISO-8859-1-Zeichen, die nicht als Entity im Code stehen, auf ein bisher mit Entities codiertes Zeichen kommen. Numerische Entities sind idr (immer?) 3 Byte länger, als das dazugehörige utf-8-Zeichen. TheK 00:50, 16. Jul 2004 (CEST)
- Ich bin ebenfalls dagegen! Selbst ein zerstörter Artikel alle paar Stunden wäre zu viel -- Zenza 20:50, 20. Jul 2004 (CEST)
- auch diesen Benutzer gibt es nicht. TheK 20:57, 20. Jul 2004 (CEST)
- Joerg s 22:06, 22. Jul 2004 (CEST)
- Wenn es sich die Abstimmung an der Adminwahl orientiert, hat dieser Benutzer noch nicht genug Edits um abzustimmen. --AndreasB 16:35, 23. Jul 2004 (CEST)