Diskussion:Textdatei

aus Wikipedia, der freien Enzyklopädie
Zum Archiv
Wie wird ein Archiv angelegt?

Mutig

Ich war mutig und habe eine neue Einleitung verfasst und hoffe, dass sie "omatauglich" ist.-- Kölscher Pitter 10:47, 5. Mär. 2008 (CET)

Na ja, so ganz einig bin ich mit Deiner Einleitung nicht. Sie widerspricht einigen Teilen des Artikels. Gibst Du mir die Chance, diese (unter Berücksichtigung Deines Standpunkts) nochmal zu bearbeiten oder soll ich mich aus diesem Artikel zurückziehen?--Cactus26 11:24, 5. Mär. 2008 (CET)
Auf keinen Fall zurückziehen. Auch du sollst mutig sein.-- Kölscher Pitter 11:26, 5. Mär. 2008 (CET)
Mut ist nicht das Problem, ich bin nur ein wenig müde.... --Cactus26 11:28, 5. Mär. 2008 (CET)

OK. Ich war etwas respektlos. Aber auch das gehört zum Wiki-Prinzip. Das müssen wir alle ertragen. Und sollte etwas "gut" sein, dann kann es immer noch "besser" werden.-- Kölscher Pitter 11:39, 5. Mär. 2008 (CET)

Überarbeiten

Das Lemma muss überarbeitet werden, näheres siehe gescheiterte Lesenswertkandidatur.

Erfolgte Überarbeitungen am Introtext am 5. März sind sachlich falsch, ohne Quellenangabe und unenzyklopädisch in der Formulierung (Buchstabensalat).

Zu unterscheiden sind Textdatei als definierte Datenstruktur der Informatik (Fachbegriff) und umgangssprachliche Verwendungen.

Ob etwas ein "Buchstabensalat" ist oder nicht, hängt davon ab, ob der Auswerter die Grammatik der Sprache oder Notation kennt. Siehe mein Beispiel einer wohlgeformten Textdatei mit der FEN-Notation oben, die ohne diese Kenntnis "Buchstabensalat" ist.

Textdateien werden keineswegs nur mit dem Ziel erstellt, einem menschlichen Empfänger lesbaren Text zu präsentieren. Gegenbeispiele sind die CSV-Dateien oder INI-Dateien von Windows 98, die dem Datenaustausch zwischen Computerprogrammen dienen oder deren Datenversorgung mit z.B. Konfigurationseinstellungen.--Hgn-p 13:16, 5. Mär. 2008 (CET)

Informatik und Fachbegriffe? Das ist ein haariges Thema. Denn das ist zur Zeit alles im Fluss. Wir befinden uns mitten in einer Revolution. Ich glaube, ich schließe mich Cactus an und werde auch müde. Denn ich ahne so dunkel, dass aus dem Artikel zwar kein Buchstabensalat aber eine Textwüste wird, die niemanden interessiert.-- Kölscher Pitter 13:51, 5. Mär. 2008 (CET)
Ich denke, man sollte erst mal gelassen abwarten, wie Cactus26 die gescheiterte Lesenswertwahl auswertet und seine obige gute Idee, auf Grund der technischen Dokumente die Sache zu überarbeiten, umsetzt. Zumindest meine Kernkritik sehe ich in den Tecdoc's abgehandelt.--Hgn-p 22:41, 5. Mär. 2008 (CET)
Ich werde morgen eine Definition auf Basis der MIME-Definition für den Medientyp Text versuchen (@Hgn-p: Freut mich zu hören, dass eine solche Definition auch in Deinen Augen eine Chance hat). @Kölscher Pitter: Je länger ich über Deinen abstrahierenden Definitionsansatz nachdenke, um so mehr Zweifel kommen mir. Wenn Du Textverarbeitungen und PDF einbeziehst, stellt sich die Frage, ob und wie viele Bilder oder Grafiken enthalten sein dürften, damit das ganze noch als Textdatei durchgeht. Interessant ist schon, dass bislang keine zwei der an der Diskussion beteiligten, wirklich dieselbe Definition zu Grunde legen. Es gibt halt keine "offizielle". Die meisten liegen aber schon in der Richtung des MIME-Medientyps "Text".--Cactus26 07:04, 6. Mär. 2008 (CET)
Es gibt halt keine "offizielle". Völlig richtig. Es gibt aber auch keine exakte. Acrobat- und Word-Dateien sind keine "reinrassigen" Textdateien. Gemeinsam haben sie aber die Absicht der Ersteller, dass es "Kommunikationsdateien" sind. In Abgrenzung zu Programmdateien und Datenbanken. Die Verknüpfung mit einem Zeichenvorrat ist entscheidend. Ich bleibe dabei: IT hat nur wenige Begriffe, die exakt (und dauerhaft) definierbar sind. Mit demgleichen Prinzip (separate, genormte Zeichentabelle plus Anwenderdatei) kann man auch Musiknoten schreiben. Es kommt nur darauf an, wie die Pixel auf den Schirm oder Drucker kommen.-- Kölscher Pitter 09:48, 6. Mär. 2008 (CET)
Es ist sicher nicht so, dass ich Deinen Standpunkt nicht respektiere. Es gibt keine exakte Definition, aber es gibt einen gewissen Konsens der im Umlauf befindlichen Definitionen. Und zu dem steht Deine Definition im Widerspruch. Das denke ich, kann ich nach allem was ich mittlerweile recherchiert und auch sonst hinter mir habe durchaus behaupten. Hast Du ein Problem, wenn ich die Definition in diesem Sinne nochmals überarbeite?--Cactus26 11:14, 6. Mär. 2008 (CET)

Prinzipiell habe ich kein Problem damit. Wenn ich deine Version sehe, werde ich sie vielleicht kritisieren.-- Kölscher Pitter 11:47, 6. Mär. 2008 (CET)

Nur noch mal zur Klarheit: Wir sind keine Normierungsgremium für die Neudefinition des Begriffes Textdatei. Eine Enzyklopädie muß sich auf vorhandene, relevante Quellen stützen. Dabei muß man mit zwei Problemen umgehen a) eine unterschiedliche Definition/Verwendung des Begriffes in verschiedenen Bereichen und b) eine geschichtlich durch technischen Fortschritt bedingte Wandlung des Begriffes. Also Aufzählung der Bedeutungen, aber nicht Vereinheitlichung.

@Kölscher Pitter  : Ob etwas Buchstabensalat ist oder relevante Information, hängt davon ab, ob es aus den regulären Ausdrücken einer natürlichen oder formalen Sprache erzeugt wurde und ob der Rezipient die Grammatik kennt. Was für den einen wüster Buchstabensalat ist, erkennt der andere sofort als Notierung von Gensequenzen nach den Anfangsbuchstaben der Aminosäuren. Da z.B. digitalisierte Musik nicht aus den regulären Ausdrücken einer Sprache erzeugt wurde, wird man bei der Interpretation als Text auch nie einen Sinn festmachen können. Wenn du Textdateien mit sinnvollem Inhalt definieren willst, musst du nicht vom Ergebnis (Buchstabensalat), sondern von der Quelle her definieren: Erzeugt aus der erlaubten Zeichenmenge und Syntax einer natürlichen oder formalen Sprache oder einer Notationskonvention. Nur dann ist eine Zuordnung der Zeichen zu Bedeutung/Sinn möglich.--Hgn-p 12:28, 6. Mär. 2008 (CET)

Die Hersteller verwenden für .doc, .pdf - Dateien usw. völlig korrekt den Begriff "Dokumentdateien", denn es sind keine Textdateien. Die umgangssprachliche Falschverwendung des Begriffes Textdatei für diese Dateien kann man erwähnen, es steht uns aber nicht zu, diese Falschverwendung ohne externe Quellenstützung enzyklopädisch zu legitimieren.--Hgn-p 12:36, 6. Mär. 2008 (CET)

Zitat aus Wiki: Ein elektronisches Dokument wird in der Regel nur dann als wirksam behandelt, wenn der Aussteller eine qualifizierte elektronische Signatur angefügt hat, die ihn zweifelsfrei als Urheber des Dokuments legitimiert und die mit den übermittelten Daten so verknüpft ist, dass eine nachträgliche Veränderung des Dokuments erkannt werden kann. Viel Spaß damit.-- Kölscher Pitter 14:26, 6. Mär. 2008 (CET)

Ein neuer Versuch. Ein paar Anmerkungen zur Überarbeitung:

  • Ich habe darüber nachgedacht, die Reihenfolge der Abschnitte "Geschichte" und "Abgrenzung von Binär- und Textdateien zu tauschen". Was meint ihr?
  • den Abschnitt "Quelltext für Computerprogramme" habe ich entfernt, da das Entwicklern ohnehin klar ist und andere vermutlich nicht interessiert. Wenn jemand das anderes sieht, kann ich ihn gerne wieder ergänzen.
  • Abstraktere Definition (alles ist Textdatei, was Text präsentiert): Ich sehe es so, dass die "Glanzzeiten" des Begriffs Textdatei in seiner heutigen (im Artikel dargestellten Form) vorbei sind. Allerdings ist die abstrakte Definition keine rechte Alternative, diese scheint mir nutzlos. Die heutige Definition dagegen ist für den Endbenutzer relativ nutzlos bis unpraktisch (das ist wohl das, worauf K.P. hinweist), da der Benutzer per Doppelklick sowohl bei einer PDF- als auch bei einer TXT-Datei den Text sieht, der Rest ist ihm wurscht. Derzeit würde ich aber behaupten, dass der Begriff in seiner heutigen Form zumindest innerhalb der IT noch sehr präsent und auch notwenig ist. Aber auch das kann sich ändern, UTF-8 scheint mir schon so eine Art "Sargnagel" der "klassischen" Textdatei zu sein, eine solche Datei überschreitet nach meinem Gefühl schon die Grenze zur Binärdatei, sobald sie mehr als die ersten 127 Zeichen des ASCII verwendet. Vielleicht ist bald auch ein Acrobat Reader "on the chip", dann wird's immer schwieriger mit dem Begriff Textdatei, dass heißt, der Artikel wird immer länger um den Begriff überhaupt noch definieren zu können und irgendwann werfen wir ihn weg.
  • Codierung vs. Kodierung: Ich sehe das leidenschaftslos. Sollen wir auf "K" umsteigen?

--Cactus26 08:52, 7. Mär. 2008 (CET)

Cactus, weite Teile deiner Ausführungen sehe ich auch so. Meine Schlussfolgerung: wir müssen so weit wie möglich abstrahieren und so der Falle entgehen, dass die Begriffe sich ändern.-- Kölscher Pitter 10:42, 7. Mär. 2008 (CET)

Kritik

Habe ja verspochen Kritik zu üben:

  • Textdatei .....prinzipiell in Textform stilistisch nicht schön (Text ist Text)
geändert.--Cactus26 14:18, 7. Mär. 2008 (CET)
  • Stichwort Buchstabe oder Alphabet fehlt. Das ist das Element eines Textes.
Sind mMn zu einschränkend, finde dies durch Zeichen (alias Schriftzeichen) besser repräsentiert.--Cactus26 14:18, 7. Mär. 2008 (CET)
  • Stichwort Pixel fehlt. Hierdurch entstehen die "Elemente des Textes"
Ist mir viel zu weit weg von Textdatei, hat wegen mir noch einen Bezug Schriftart, aber selbst da gibt es Vektorgrafiken, die den Bezug doch sehr indirekt machen.--Cactus26 14:18, 7. Mär. 2008 (CET)
Einspruch. Allein wegen der Historie. Beim Senden von Bytewert 65 haut die Schreibmaschine den Buchstaben "A" ans Papier. Schirm und Drucker setzen das aus Pixeln zusammen. Gerade das ist ein wesentliches Computerprinzip. Alles zerhacken in die kleinstmöglichen Elemente und dann wieder zusammenpuzzeln.-- Kölscher Pitter 16:58, 7. Mär. 2008 (CET)
  • Gegenstück einer Textdatei..... Wieso "Gegen"?
Binär- und Textdatei sind Begriffe, die ohne einander nicht leben können. Beide Begriffe sind ohne das Gegenstück mehr oder weniger sinnlos. Wenn alle Dateien Binärdateien sind, wozu brauche ich dann noch den Begriff?--Cactus26 14:18, 7. Mär. 2008 (CET)
Alles wird binär gespeichert. Das Gegenstück (zu binär) wäre eine Speicherung mit mehrwertigen Einheiten. Vielleicht ist das in ferner Zukunft einmal technisch möglich. Binärdatei ist also ein Oberbegriff, kein Gegenstück (zu Text). Erst aus dem Zusammenhang wird klar: aha, das ist Text und aha, das ist Programm.-- Kölscher Pitter 17:12, 7. Mär. 2008 (CET)
Klar wird alles binär gespeichert, aber wozu der Begriff Binärdatei, wenn er ein Oberbegriff ist und alle Dateien somit Binärdateien sind? Dann wäre der Begriff Datei ausreichend, da dann Binärdatei=Datei. Mehrwertige Logik mit mehr als zwei Zuständen ist wohl irrelevant, zumindest in Verbindung mit Speicherformaten. --Cactus26 17:34, 7. Mär. 2008 (CET)
Nachtrag: Und die Darstellung im Artikel entspricht dem, wie die Begriffe verwendet werden und stellt obendrein den Widerspruch noch dar, dass alles eigentlich binär ist. Was willst Du mehr?--Cactus26 17:42, 7. Mär. 2008 (CET)
Ich hoffe jetzt sind wir zusammen. Das Vorwort "Binär" ist derzeit tatsächlich überflüssig. Auch das ist historisch zu sehen. Man dachte noch in "analogen" Kategorien. "Binär" hat nur was mit dem Speicherprinzip zu tun. Nichts aber mit Inhalt und Zweck.-- Kölscher Pitter 18:24, 7. Mär. 2008 (CET)
  • Spezifika wie .pdf usw. nicht in die Einleitung
geändert.--Cactus26 14:18, 7. Mär. 2008 (CET)

Mir fällt bestimmt noch mehr ein. -- Kölscher Pitter 10:29, 7. Mär. 2008 (CET)

Ich habe mal eine kleine Änderung am Introtext selbst angebracht. Den Rest schaue ich mir am Wochenende an.
Ich kann nicht zustimmen, das Textdateien ein auslaufendes Modell sind. Es gibt mehr davon den je als Logdateien, Protokolldateien, Scriptdateien, Spielständenotations usw. usf.. Und dann denke man an den HTML-Quellcode - alles Textdateien ! 95% des Internets (statische HTML-Seiten, Internet-Server-Scripts (PHP,...) , ...... sind Textdateien !!! Es ist das am weitesten verbreitete Dateiformat. --Hgn-p 11:20, 7. Mär. 2008 (CET)
Fällt schwer, aber andere Artikel verwenden auch die Schreibweise Kodierung, s. Ascii, Unicode --Hgn-p 11:40, 7. Mär. 2008 (CET)
Wie würdest du eine Datei "kategorisieren" die folgendes enthält:
sehr viel Text, Bilder, Noten, Hörbeispiele, interaktive Schaltflächen, technische Zeichnungen, Link-Infos usw. Willst du definieren: Eine Textdatei ist eine Datei die nur Text beinhaltet. Wenn ja, dann musst du dich damit abfinden: solche Dateien sterben aus. Es ist eindeutig ein Trend erkennbar zur Integration (alles in einem, keine Spezialisierung). -- Kölscher Pitter 11:42, 7. Mär. 2008 (CET)
Dein Beispiel ist nach der Definition des Artikels eindeutig keine Textdatei. Dennoch sterben die Textdateien nicht aus, eher ist eine Zunahme zu verzeichnen (wie Hgn-p oben schreibt), allerdings nicht auf der Endbenutzer-Ebene und deshalb reden wir aneinander vorbei. Auf technischer Ebene sind die Textdateien eindeutig mehr geworden in den letzten Jahren. Dennoch könnte es sein, dass der Begriff ausstirbt, nicht etwas, weil es keine mehr gibt, sondern weil die Grenzen verschwimmen. Auch wenn in 20 Jahren alle Dateien XML-Dateien sind, ist der Begriff "Textdatei" irgendwie sinnlos.--Cactus26 14:24, 7. Mär. 2008 (CET)
Der Intro-Text ist m.E. jetzt in Ordnung mit einer kleinen Ausnahme: Der Nachsatz mit den flat files gehört raus. Auch sequentielle Dateien, die beispielsweise aus den Indextabellen usw. einer Datenbank extrahiert sind, bezeichnet man als flat files im Unterschied zur Anordnung der Daten in der Datenbank. Das sind jedoch Binärdateien. Ein Kalenderdatum wird beispielsweise nicht in der druck- und lesebaren Form, sondern in der Binärdarstellung gespeichert. Auch komplexe Objekte wie Bildschirmforms mit Actionsbuttons, Menüs, diversen Dialogfeldern usw. können als binäre "flat file" sequentialisiert werden. Der Begriff sollte hier gar nicht auftauchen.
Die Einfachheit der Bearbeitung von Strings ( = Zeilen einer Textdatei), dafür vorhandene Klassen in allen Programmiersprachen und neue Techniken wie sich selbst beschreibende Strukturen (XML Textfile) werden Textfiles zur wichtigsten Datenstruktur überhaupt machen. Intelligente Qualitätssicherungssysteme haben als Input Textfiles: Den Quellcode von C++, PHP und sonstiges Files. Ich finde es grundsätzlich gut, dass du das Wikipedia-Mauerblümchen "Textfile" adoptiert hast. Vom Image dieser "readme" - Dateien muss man sich gedanklich mal entfernen. Die wichtigen Internet-Server und deren untergeordnete Interpreter für Script-Sprachen sind allein im Prinzip komplexe Programme, die hauptsächlich Textfiles verarbeiten, erzeugen oder weiterleiten. --Hgn-p 15:57, 7. Mär. 2008 (CET)
Uff, wir kommen uns näher. Ich denke, wir brauchen auch nicht weiter über die Zukunft von Textdateien und dem Begriff "Textdatei" philosophieren, wir sind uns einig, dass er derzeit eine Bedeutung hat, die zumindest nicht vernachlässigbar ist, und in dieser sind wir uns ja auch weitgehend einig. Zum Hinweis "Flat File": Wahrscheinlich hast Du da Recht, mir ist der Begriff Flat-File in letzter Zeit nicht in Verbindung mit binärem Inhalt begegnet, ich habe en:Flat file kurz überflogen, was Deine Aussage aber bestätigt.--Cactus26 16:33, 7. Mär. 2008 (CET)

Anmerkungen Kandidatur 2009/12

Benutzer:Succu

Aus der Kandidatur-Disk. übertragen:

  • Ein knackige Definition fehlt: Plain text in RFC 4288 wäre vielleicht ein guter Ansatz und vermeidet Aussagen wie „Das Gegenstück zur Textdatei stellt eine Binärdatei dar“.
  • „Eine Textdatei ist im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Software lesbar“ - das trifft lediglich für Plain text zu, aber nicht für Datenaustauschformate wie beispielsweise SYLK, da diese (wie auch XML) auch Semantik beinhalten.
  • „am gebräuchlichsten sind hierbei ASCII oder Unicode“. - Was ist mit EBCDIC oder ANSI?
  • „Umgangssprachlich werden gelegentlich alle Dateien als „Textdatei“ bezeichnet...“ - diese Abgrenzung (im Gegensatz zu Binärdateien) finde ich wesentlich wichtiger.
  • Der Geschichtsabschnitt ist mager. Sätze wie „In der Anfangszeit der elektronischen Datenverarbeitung war die Unterscheidung zwischen Text- und Binärdateien einfacher und von größerer Bedeutung als heute“ bedürfen eines Nachweises oder solche wie „Früher wurde dabei praktisch ausschließlich ein Zeichen immer direkt in ein Byte umgesetzt...“ sind ohne weiters nicht verständlich.
Was mir sonst noch so aufällt schreib ich auf die Disk des Artikels. Aber wahrscheinlich erst im nächsten Jahr. - Nix für ungut --Succu 21:52, 29. Dez. 2009 (CET)

Danke schon mal für Deine Anmerkungen. Im einzelnen:

  • Eine knackige Definition: Die gibt es halt nicht, das wäre einfach. Man kann sich hier nur darin versuchen zu beschreiben, was ist meist in etwa gemeint, wenn jemand von "Textdatei" spricht ("Schick mir das mal als Textdatei!"). Ich habe in der Zwischenzeit einige Definitionsversuche gesehen (in der Literatur, im Web, teilweise hier als Quelle verwendet). Es gibt da auch Widersprüche, aber es gibt doch eine deutliche Tendenz, die auch meiner persönlichen Erfahrung mit diesem Begriff entspricht. Schwammig bliebt es jeden Fall.
  • „Eine Textdatei ist im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Software lesbar“. Hier ist die Frage, was "lesbar" heißt. SYLK und XML ist schon lesbar, auch wenn man nicht ersteht, wozu es eigentlich gut sein soll (aber das ist ja häufig so...).
  • EBCDIC und ANSI kommen unten
  • „Umgangssprachlich werden gelegentlich alle Dateien als „Textdatei“ bezeichnet...“ : Verstehe ich Dich richtig, Du hältst die Definition "alles ist Textdatei, was in irgend einer Form dem Endbenutzer eine lesbaren Text präsentiert" für bedeutender?
  • Geschichte der Textdatei, mager. Na ja. In der Literatur beschäftigt sich kaum jemand mit so etwas profanem wie einer "Textdatei". In vielen Büchern wird der Begriff verwendet und nicht mal ansatzweise definiert. Mir ist auch noch nichts begegnet, das sich mit der Geschichte der Textdatei beschäftigt, außer vielleicht das, aber das ist in der Tat sehr eigenwillig und scheint nur eine sentimentale Aufarbeitung der früheren textbasierten BBS (wie auch http://www.textfiles.com/)
  • Nachweis für "früher war die Unterscheidung zwischen Text- und Binärdateien .... von größerer Bedeutung als heute, Nachweis. Schwierig, habe ehrlich gesagt schon vergeblich danach gesucht. Zweifelst Du an der Aussage an sich?
  • „Früher wurde dabei praktisch ausschließlich ein Zeichen immer direkt in ein Byte umgesetzt...“ Habe ich umformuliert, besser?

Freue mich auf Dein weiteres Feedback, vlt. kannst Du mich ja bei der Suche guter Quellen für den Geschichtsteil auch ein wenig unterstützen. Ich habe nur noch auf dem Speicher meine Uraltliteratur, verspreche mir aber von deren Sichtung nicht viel außer Staub. --Cactus26 11:11, 30. Dez. 2009 (CET)

Die Einleitung liest sich schon deutlich besser. Da du unter Geschichte schreibts „...warum sich in Textdateien Steuerzeichen wie „Zeilenvorschub“ oder „Wagenrücklauf“ finden können“ wäre es m.E. besser wenn der Begriff „Steuerzeichen“ dort auftauchen würde. Etwa so: Etwa so die durch Steuerzeichen, wie bespielsweise Zeilen- und Seitenwechsel, untergliedert sein kann. Da wären dann die gebräuchlichen TABs noch mit abgedeckt. Den Einschub „wie beispielsweise mit Notepad unter Microsoft Windows“ würde ich heraussnehmen, sonst ist die UNIX/LINUX-Fraktion möglicherweise verschnupft (Emacs).
Im Abschnitt Geschichte solltest du noch das Jahr der Einführung von Unicode erwähnen und den Zeitpunkt zu dem UTF Bestandteil der RFCs des Webkonsortiums wurde. Mal schaun ob ich noch etwas wichtes zu Geschichte finde. Vielleicht lohnt hier die Erwähnung von vi und EDLIN.
Ich würde die Bezeichnung "Textdatei" für ein Dateiformat stärker gewichtet im Artikel sehen wollen. Beispielsweise ist das Rich Text Format eine Textdatei in deinem Sinn, aber ohne einen Dateibetrachter nutzlos für den Benutzer.
Ich veruche mal im Laufe des Tages die restlichen Abschnitte genauer zu lesen.
Dir noch ein verspätetes "Gesundes Neues" --Succu 08:26, 2. Jan. 2010 (CET)

Wünsche Dir auch ein Gutes Jahr 2010! Zu Deinen Punkten:

  • Erwähnung "Steuerzeichen" in der Einleitung: Habe ich umgesetzt. Du hast Recht, sonst bleibt das vlt. zu nebulös. Das "beispielsweise" habe ich weggelassen, da das "wie" mMn allein schon ausreichend sein müsste
  • Erwähnung "notepad", Gefahr der Unix-Fraktions-Verschnupfung: Würde ich gerne drinlassen. Mein Argument (neben der Verbreitung von Windows): Wer Unix/Linux benutzt, weiß was ein Texteditor ist und braucht das Bsp. nicht, bei Windows gilt das nicht
  • Datum der Einführung von Unicode. Weiß nicht. Hier ist das mMn nicht so entscheidend . Wichtiger wäre, wann Unicode Einzug bei der Codierung für Textdateien gehalten hat. Das ist vermutlich einiges später und war schleichend. Für Windows wäre das wohl seit Windows 2000, da hat Notepad erstmals Unicode unterstützt.
  • "RTF ist eine Textdatei in meinem Sinne": Ist sie, aber das "meine" ist unangebracht, ich habe das nicht definiert (da überschätzt Du mich). Ich bin ein wenig zufällig zum Thema Textdatei gekommen, das war vor etwa einem Jahr, als der Artikel einen Redundanzbst. trug und ich ihn auf der ToDo-Liste hatte. Da YMS die Redundanz bereits erledigt hatte, als ich mich der Sache widmen wollte, habe ich den Artikel halt ausgebaut, um auch was beizutragen. Seitdem bin ich aber sensibilisiert und nehme die Verwendungen des Begriffs in Literatur und Web sehr bewusst zur Kenntnis. Ich möchte schätzen, dass 95% der Verwendungen des Begriffs der im Artikel dargelegten Definition entsprechen. Hier in der WP werde ich dagegen erstaunlich oft mit der Meinung konfrontiert, eine Textdatei sei alles, was dem Benutzer in irgend einer Form einen Text präsentiert, wie immer es gespeichert ist. Bei einer solchen Definition wäre der Begriff in der Tat genauso sinnvoll wie der Begriff "Liebesbriefdatei". Diese Definition findet sich meist in Büchern oder Webseiten der Art "Computer für Dummies", die es einfach machen wollen, indem sie es falsch machen.

Erstaunlich finde ich, welche kontroversen und teilweise emotionalen Diskussionen es hier beim Thema "Textdatei" gibt. Das soll aber nicht heißen, ich hätte keine Lust auf eine konstruktive Diskussion. Worauf ich allerdings keine Lust mehr habe, ist eine Diskussion bei der es nur um die Zurschaustellung des eigenen Wissens geht. Der Trieb dazu ist bei Informatikern weit verbreitet, das weiß ich, aber im RL reicht mir das eigentlich. Ich weiß aber, dass wir uns gut genug kennen, dass diese Gefahr bei Dir nicht besteht. Umso gespannter bin ich auf Dein Feedback.--Cactus26 13:45, 2. Jan. 2010 (CET)

Zum Glück bin ich kein Informatiker ;), aber technologielastige- und wenig lösungsbezogene Diskussionen kenne ich zu genüge aus meiner Arbeitsalltag. Also erstmal Asche auf mein Haupt, das ich den Artikel nicht eher komplett zu Ende gelesen habe.
Ich denke inhaltlich ist alles drin was für lesenswert rein muß.
Die Abgrenzung zu Textverarbeitungsdateien die zusätzlich die Textformatierung speichern (Textverarbeitungsformate wie RTF, PDF, PS, etc.) und Datenaustauschformaten (CSV u.a.) hast du dargestellt. Das mir die Abgrenzung wichtig erschien hat wohl eher mit meiner eigenen intensiveren Beschäftigung mit etlichen dieser Formate zu tun.
Das Stichwort „Fernschreiber“ wäre vielleicht im Geschichtsabschnitt noch sinnvoll. Nochmal zu Unicode: Eher was für die Exzellenz-Auszeichnung. Es brauchte ja erstmal Unicode-basierte Betriebssysteme (wie beispielsweise WinNT) bevor sich Textdateien auf dieser Grundlage etablieren konnten.
Im Abschnitt „Kennzeichnung mittels Steuerzeichen“ solltest du evtl. den Fallstrick gegen das weniger prosaische Wörtchen Problem o.ä, austauschen. Ich persönlich würde die beiden Abschnitte „Kennzeichnung des Zeilenendes“ und „Andere Steuerzeichen“ und einer gemeinsamen Überschrift, z.B. „Steuerzeichen“, zusammenfassen.
„Austausch zwischen unterschiedlichen Systemen“: da fallen mir noch die Stichworte Webbrowser (wg. Codierung) und Firewall im Zusammenhang mit der heutigen Bedeutung (XML) von Textdateien ein. Vielleicht läßt sich da noch etwas ergänzen.
Ich hoffe die paar Kleinigkeiten helfen noch ein wenig. Ich werde ganz sicher in der Zukunft genauer hinschauen, wenn in der Literatur von einer Textdatei die Rede ist. --Gruß Succu 18:03, 2. Jan. 2010 (CET)

Wenn Du über etwas interessantes in diesem Zusammenhang stößt, lass es mich wissen. Es ist in der Tat ungemein schwierig, bei diesem Thema gezielt zu suchen, weil es fast immer beiläufig abgehandelt wird, wenn überhaupt. Zu Deinen Punkten:

  • "Fernschreiber" habe ich im Geschichtsabschn. ergänzt und noch etwas weiter ausgeführt. Der Ursprung für CR/LF ist ja der Baudot-Code, diese Zeichen wurden dann in ASCII (und EBCDIC) übernommen.
  • Über die genaue Historie, wann Unicode welche Bedeutung hatte (insbesondere in Bezug auf Textdateien), kann ich im Moment nichts Detailliertes sagen. Werde da nochmal forschen..
  • "Fallstrick" ist wirklich für das CR/LF-Problem etwas übertrieben. Als ich das schrieb, dachte ich an die Implementierung der Funktion setpos der C-Runtime-Bibl. eines Windows-Compilers, die ich mal im Sourcecode bewundert habe. Welche Kurven die für den Textmodus fliegen muss, um den scheinbar korrekten Dateioffset zu ermitteln, ist beeindruckend. Aber dass das so kompliziert ist, liegt daran, dass man sich bei Implementierung der DOS- und Windows-Compilern entschieden hat, so zu tun, als hätte die Datei wie unter UNIX nur ein LF (damit es kompatibel ist). Aber beim normalen Austausch von Dateien spielt es heute fast keine Rolle mehr, die meisten Editoren kommen heute mit unpassenden CR/LF-Konstellationen ganz gut zurecht.
  • Webbrowser/Firewall: Der Zusammenhang zwischen Webbrowser und Dateien ist vielleicht doch etwas indirekt. Aber Firewalls sind möglicherweise durchaus ein zu erwähnender Aspekt, da diese wohl auch ein Grund sind, warum Textformate bei Dateien populär wurden. Ich suche mal, ob ich dazu eine Quelle findet, diese Vermutung bestätigt.

--Cactus26 15:45, 3. Jan. 2010 (CET)

Benutzer:Mnh

Aus der Kandidatur-Disk. übertragen:

Momentan noch ohne Wertung (nur ausschnittsweise gelesen), nur ein paar Punkte:
  • „Unter Windows wird dem Namen einer Textdatei in der Regel die Endung .txt angehängt.“ – Nö. Das trifft nur dann zu, wenn man Scripte, Quelltexte (HTML z.B.) und Co ignoriert, das sind jedoch auch „Textdateien“.
  • „Unter Unix, Linux und verwandten Systemen wird das Zeilenende alleine mittels LF gekennzeichnet.“ – Nö. Es werden ebenfalls CR+LF verwendet, das ist für diverse Protokolle nämlich nötig. Stichwort: rfc822. Spätestens mit „Auch eine im [PDF-Format] vorliegender Text ist keine Textdatei, weil diese binär codierte Formatinformationen enthält.“ wird das aber absurd (und hat'n Typo), eine gespeichterte Mail bleibt Text, auch wenn da uuencode/Base64-kodiertes Binärzeug drin ist. „Für den in einer Textdatei enthaltenen Text können keine besonderen Formatierungen wie beispielsweise Hervorhebungen durch Fettdarstellung festgelegt werden.“ stimmt übrigens auch nicht, einerseits gibt es Syntax-Highlighting, das ganz genau das macht, zum anderen gibt/gab es ANSI control codes (sowas wie ^[[1;32;40m wenn ich die Syntax noch richtig im Kopf hab), mit denen die Darstellung auf Textterminals aufgehübscht wurde.
  • „Der Medientyp text kennzeichnet dabei Textdateien.“ – Diese Aussage halte ich einfach für Mist. text/* kennzeichnet *Datenentitäten*, nicht Dateien. Letztere sind vom Filesystem bereitgestellte Datencontainer, deren Metadaten und Eigenschaften interessiert MIME nicht. Wesentlich ist einzig das Format der Daten darin. Böse mnhs behaupten gar, dass der Begriff „Textdatei“ deshalb im Grunde ziemlich fragwürdig ist, über „umgangssprachliche Bezeichnung für eine Datei mit Textdaten“ käme ich beim Schreiben nicht hinaus.
  • Fragen am Rande: Ist eine named pipe, hinter der ein Text schreibender daemon sitzt, eine Textdatei? Was ist mit /dev/mnhprint, der örtlichen Druckerdatei, die bei Leseversuchen „Hugo ist doof!<CR><LF>“ ausgibt, schreibend aber normal funktioniert? Textdatei?
Viele Grüße, —mnh•∇• 04:39, 30. Dez. 2009 (CET)

Danke für Dein Feedback. Im einzelnen:

  • Unter Windows nicht immer Endung ".txt": Stimmt, ich wollte hier keine (endlose) Auflistung aller möglichen Dateierweiterungen (insbes. wenn man die in Auszeichnungsprachen einbezieht) und nur eine (die repräsentativste) herausgreifen. Habe "in der Regel" durch "häufig" ersetzt.
  • Unter UNIX ebenfalls CRLF. Das wäre mir neu. Vorsicht: rfc822 bezieht sich auf Messages, nicht auf Dateien.
  • Eine in Base64 gespeicherte Mail bleibt Text. Hier hast Du im doppelten Sinne Recht. In der Einleitung steht, dass der Begriff verschwommen ist, weil er auf unterschiedlichen Abstraktionsebenen verwendet werden kann. Das ist hier der Fall. Meine ich den eigentlichen Mail-Inhalt oder meine ich das physische Speicherformat der Mail?. In diesem Fall ist es egal, weil beides Text ist, auch das Base64-Format besteht ja nur aus Zeichen.
  • ANSI control codes. Auch hier hast Du Recht, ich kann nur wiederholen, die Abgrenzung ist schwierig. Im Abschnitt "Andere Steuerzeichen" wird diese Problematik behandelt. Dieser Sachverhalt wird wie viele Aussagen des Artikels am Anfang etwas schwammig behandelt. Sie werden erst später konkretisiert. Dies scheint mir aber nötig, um Laien nicht gleich mit der vollen Breite aller Variationsmöglichkeiten zu überfordern.
  • „Der Medientyp text kennzeichnet dabei Textdateien.“ – Aussage ist Mist.
    Stimmt wohl. Habe Textdateien mal durch "Text" ersetzt. Mir ist durchaus klar, dass der Medientyp ein Konzept ist, dass nicht nur für Dateien angewandt wird. Wenn eine Datei als Anhang einer Mail verschickt wird, bezieht er sich aber auf die Datei. Der Medientyp beschreibt, wenn er in dieser Weise verwendet wird, recht präzise, was eine Textdatei ist. Da es an präzisen Definition mangelt, hielt ich es für nützlich, hier so ausführlich auf den Medientyp einzugehen.
  • "Der Begriff Textdatei ist fragwürdig": Ist er, ohne Frage. Aber es gibt ihn. Und ich wollte mich der Herausforderung stellen, hier einen Versuch zu unternehmen, dieses schwammige Ding zu beschreiben. Eine knackige Definition gibt es halt nicht, das wäre einfach. Man kann sich hier nur darin versuchen zu beschreiben, was ist meist in etwa gemeint, wenn jemand von "Textdatei" spricht ("Schick mir das mal als Textdatei!"). Ich habe in der Zwischenzeit einige Definitionsversuche gesehen (in der Literatur, im Web, teilweise hier als Quelle verwendet). Es gibt da Widersprüche (es gibt durchaus auch die Aussage, Dateien mit der Endung ".doc" seien Textdateien), aber es gibt doch eine deutliche Tendenz, die auch meiner persönlichen Erfahrung mit diesem Begriff entspricht. Der Artikel ist in Details immer angreifbar und die Diskussionen darüber führen zu wenig bis nichts, wenn sie in Rechthaberei ausarten.
Nachtrag: Bin gerade über eine neue Quelle gestolpert, die mich inspiriert hat, diesen Sachverhalt besser auf den Punkt zu bringen (letzter Absatz im Abschnitt Geschichte). Nach weiterer Literaturrecherche kann ich nur sagen, der Begriff wird massiv verwendet, es fehlt häufig an einer vernüftigen Definition, Dein obiges „umgangssprachliche Bezeichnung für eine Datei mit Textdaten“ triff die übliche Verwendung des Begriffs kaum.--Cactus26 15:21, 31. Dez. 2009 (CET)
  • Fragen am Rande: Mit diesen dehnst Du die Abgrenzungsproblematik auch noch darauf aus, was eigentlich eine Datei ist. Da möchte ich Dich zum Autor des Artikels "Datei" verweisen, dieser Frage möchte ich mich nicht auch noch stellen.

--Cactus26 10:09, 30. Dez. 2009 (CET)

Ein Byte = 8 Bit?

Früher, heißt es, wurden Zeichen immer in jeweils einem Byte abgebildet, und dass seien 8 Bit. Früher, so wie ich das weiß, war ein Byte definiert als die Anzahl der Bits, die ein Zeichen halten können, und es gab Maschinen mit 6-Bit-Bytes und auch solche mit 9-Bit-Bytes. --Joachim Pense (d) 14:54, 30. Dez. 2009 (CET)

Das ist mir tats. neu. Zwei mir verfügbare recht alte Lexika (1988 und 1989) behaupten zweifelsfrei 1 Byte = 8 Bit (ggf. ein zus, Prüfbit, das tut aber hier nichts zur Sache). Mal unabhängig davon, ob das nun für einen Artikel Textdatei überhaupt relevant ist: Hast Du eine Quelle dafür?--Cactus26 17:51, 30. Dez. 2009 (CET)
Erstmal den Artikel Byte. Da werden UNIVAC-Maschinen mit 9-Bit-Bytes erwähnt. Die englische WP schreibt Various implementations of C and C++ define a byte as 8, 9, 16, 32, or 36 bits und gibt auch Referenzen. hier kommen Bytes mit 6 und 7 Bit vor (die dann als 6-Bit-Byte etc. bezeichnet werden). Hier steht auch was. --Joachim Pense (d) 18:00, 30. Dez. 2009 (CET)
Deine Aussage stimmt wohl, wobei ich nicht alle Quellen hier ernst nehmen möchte. Aber die im engl. Artikel en:Byte angegebene Quelle (Buchholz 1962 (großes PDF)) ist eindeutig. Ich war nicht sicher, ob man die kleinste Adressierungseinheit damals schon Byte genannt hat, aber man hat es offensichtlich. Ich behaupte mal, dass das hier kaum relevant ist. Insbesondere die Aussage, dass verschiedene C und C++ Implementierungen unterschiedliche Byte-Längen verwenden, ist sonderbar, ich programmiere diese Sprachen nicht erst seit gestern und mir ist noch keine solche über den Weg gelaufen (auch nicht bei 64-Bit Compilern!), ANSI-C definiert obendrein das Byte als 8-Bit. Ich würde mal sagen, dass es in den Zeiten, in denen mit der Byte-Größe noch wirklich experimentiert wurde, noch kaum Dateien gab (eher Lochkartenstapel), geschweige denn den Begriff Textdatei. Das "früher" im Artikel bezieht sich also bereits auf Zeiten, in denen das 8-bitige Byte bereits Gesetz war. Ich habe die Aussage 1 Byte=8Bit nun relativiert. Weiter müssen wir dieses Fass hier nicht aufmachen, finde ich. Aber danke für diesen Hinweis, man lernt nie aus.--Cactus26 18:32, 30. Dez. 2009 (CET)
Die Texte bestanden halt aus Großbuchstaben, da haben 6 Bit ausgereicht. Viel Erfolg noch! --Joachim Pense (d) 18:42, 30. Dez. 2009 (CET)

Die Wiege war natürlich der Fernschreiber. Die Sekretärin fertigte einen Probeausdruck zusammen mit einem Lochstreifen an. Der Boss las Korrektur und mit sieben Bits ging es auf die Reise. Ein Byte (ein Zeichen) waren 7 Bits. Nicht lange. Die Fernschreiber auf den Schrott und die ersten Computer hatten einen "erweiterten" Zeichenvorrat mit 8 Bits.-- Kölscher Pitter 13:04, 7. Jan. 2010 (CET)

So hat es sich wohl abgespielt. Als die Computer in die "Domäne der Fernschreiber" vordrangen, war 1Byte=8bit schon etabliert. Dies war wohl eher durch technische Aspekte der ALU motiviert als durch Texte, da Rechner früher ja wirklich zum Rechnen verwendet wurden..--Cactus26 15:41, 7. Jan. 2010 (CET)
Richtig. Es musste eine Zweier-Potenz sein. Also 2 hoch 3.-- Kölscher Pitter 17:32, 8. Jan. 2010 (CET)

Zeichenkodierung

Ich habe ja leider keine Ahnung vom Thema, aber dennoch den Eindruck, dass der Abschnitt "Zeichenkodierung" etwas euro- bzw. lateinschriftzentrisch ist. Weltweit sind doch noch mehr Kodierungen als die genannten verbreitet, siehe z. B. Kategorie:Zeichenkodierung für die chinesische Schrift und Kategorie:Zeichenkodierung für die japanische Schrift-- Katakana-Peter 16:30, 6. Jan. 2010 (CET)

Da hast Du wohl recht. Eine gewisse lateinzentrierung finde ich allerdings auch angebracht. Im Abschnitt "Zeichenkodierung" selbst würde ich die älteren nicht-lateinischen Codierungen weiterhin eher nicht erwähnen, aber man könnte deutlicher darauf hinweisen, dass Unicode dies heute abdeckt (ich denke, dass sich bei nicht-lateinischen Systemen Unicode besonders schnell durchsetzen konnte). Im Abschnitt "Geschichte" könnte man vlt. aber hierzu auch etwas ergänzen, ich muss da aber erst ein wenig recherchieren. Danke für Dein Feedback.--Cactus26 11:47, 7. Jan. 2010 (CET)
Nachtrag: Habe jetzt mal das ergänzt. Was hälst Du davon? Mal schauen, ob ich noch an anderer Stelle darauf eingehe.--Cactus26 14:41, 7. Jan. 2010 (CET)

Kandidatur-Diskussion vom 29.12.2009 - 8.1.2010 (Lesenswert)

Ein in der IT nicht selten verwendeter Begriff, der jedoch sehr selten klar definiert wird, zudem wird der Begriff nicht zuletzt durch viele auf dem Textformat basierende Auszeichnungssprachen (z.B. XML) und die zunehmende Verbreitung von Unicode immer verschwommener. Dennoch scheint er (noch) eine gewissen Bedeutung zu besitzen, wie sie Zugriffszahlen zeigen (ein ausgeprägter "Werktagsartikel"). Der Artikel hat schon mal kandidiert, damals haben wir uns vielleicht in der Diskussion etwas verzettelt, woran ich sicher auch nicht unschuldig war. Ich habe den Artikel jetzt noch mal durchgesehen, etwas gestrafft und finde, dass er die mit diesem Thema zusammenhängenden Aspekte ganz gut darstellt. Es interessiert mich sehr, ob jemand etwas damit anfangen kann.--Cactus26 15:49, 29. Dez. 2009 (CET)

  • Für exzellent reicht es nicht, aber Lesenswert ist er. --Morten Haan 17:56, 29. Dez. 2009 (CET)
  • Die 7/8-Bit-Problematik fehlt nicht nur, sondern wird mit der Behauptung, früher wären es "praktisch ausschließlich immer" 8 Bit gewesen, direkt abgestritten. Tatsächlich sind viele Textdateien bis heute praktisch auf 7 Bit beschränkt. --84.151.14.225 19:21, 29. Dez. 2009 (CET)
Ja, ja, hatte ich rausgeworfen (gilt halt nur für ASCII, für EBCDIC galt das nie), nehme es reumütig wieder auf, zufrieden?--Cactus26
  • Lesenswert liest sich ganz nett und flüssig. Könnte aber ein paar Füllwörter weniger haben. Mir gefällt er, ohne Experte für Dateiformate zu sein, aber etwas Vorkenntnis zu haben. … blunt. 20:50, 29. Dez. 2009 (CET)
  • Lesenswert. Was mir gefällt: Der Artikel kommt ganz gut auch ohne Fachchinesisch aus. Selbst ich, als nicht ITler habe verstanden, um was es geht. Daher voll und ganz Lesenswert (als Laie). -- Grüße aus Memmingen 20:57, 29. Dez. 2009 (CET)
  • Abwartend Ich hab nur quer gelesen, aber einige Punkte sind mir aufgefallen (hauptsächlich aus der Einleitung):
  • Ein knackige Definition fehlt: Plain text in RFC 4288 wäre vielleicht ein guter Ansatz und vermeidet Aussagen wie „Das Gegenstück zur Textdatei stellt eine Binärdatei dar“.
  • „Eine Textdatei ist im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Software lesbar“ - das trifft lediglich für Plain text zu, aber nicht für Datenaustauschformate wie beispielsweise SYLK, da diese (wie auch XML) auch Semantik beinhalten.
  • „am gebräuchlichsten sind hierbei ASCII oder Unicode“. - Was ist mit EBCDIC oder ANSI?
  • „Umgangssprachlich werden gelegentlich alle Dateien als „Textdatei“ bezeichnet...“ - diese Abgrenzung (im Gegensatz zu Binärdateien) finde ich wesentlich wichtiger.
  • Der Geschichtsabschnitt ist mager. Sätze wie „In der Anfangszeit der elektronischen Datenverarbeitung war die Unterscheidung zwischen Text- und Binärdateien einfacher und von größerer Bedeutung als heute“ bedürfen eines Nachweises oder solche wie „Früher wurde dabei praktisch ausschließlich ein Zeichen immer direkt in ein Byte umgesetzt...“ sind ohne weiters nicht verständlich.
Was mir sonst noch so aufällt schreib ich auf die Disk des Artikels. Aber wahrscheinlich erst im nächsten Jahr. - Nix für ungut --Succu 21:52, 29. Dez. 2009 (CET)
Habe Dir schon mal hier geantwortet.--Cactus26 11:14, 30. Dez. 2009 (CET)
Für Lesenswert reicht es mir jetzt nach den vielen kleinen Änderungen, da inhaltlich alle wesentlichen Punkte behandelt werden. --Succu 18:10, 2. Jan. 2010 (CET)

Momentan noch ohne Wertung (nur ausschnittsweise gelesen), nur ein paar Punkte:

  • „Unter Windows wird dem Namen einer Textdatei in der Regel die Endung .txt angehängt.“ – Nö. Das trifft nur dann zu, wenn man Scripte, Quelltexte (HTML z.B.) und Co ignoriert, das sind jedoch auch „Textdateien“.
  • „Unter Unix, Linux und verwandten Systemen wird das Zeilenende alleine mittels LF gekennzeichnet.“ – Nö. Es werden ebenfalls CR+LF verwendet, das ist für diverse Protokolle nämlich nötig. Stichwort: rfc822. Spätestens mit „Auch eine im [PDF-Format] vorliegender Text ist keine Textdatei, weil diese binär codierte Formatinformationen enthält.“ wird das aber absurd (und hat'n Typo), eine gespeichterte Mail bleibt Text, auch wenn da uuencode/Base64-kodiertes Binärzeug drin ist. „Für den in einer Textdatei enthaltenen Text können keine besonderen Formatierungen wie beispielsweise Hervorhebungen durch Fettdarstellung festgelegt werden.“ stimmt übrigens auch nicht, einerseits gibt es Syntax-Highlighting, das ganz genau das macht, zum anderen gibt/gab es ANSI control codes (sowas wie ^[[1;32;40m wenn ich die Syntax noch richtig im Kopf hab), mit denen die Darstellung auf Textterminals aufgehübscht wurde.
  • „Der Medientyp text kennzeichnet dabei Textdateien.“ – Diese Aussage halte ich einfach für Mist. text/* kennzeichnet *Datenentitäten*, nicht Dateien. Letztere sind vom Filesystem bereitgestellte Datencontainer, deren Metadaten und Eigenschaften interessiert MIME nicht. Wesentlich ist einzig das Format der Daten darin. Böse mnhs behaupten gar, dass der Begriff „Textdatei“ deshalb im Grunde ziemlich fragwürdig ist, über „umgangssprachliche Bezeichnung für eine Datei mit Textdaten“ käme ich beim Schreiben nicht hinaus.
  • Fragen am Rande: Ist eine named pipe, hinter der ein Text schreibender daemon sitzt, eine Textdatei? Was ist mit /dev/mnhprint, der örtlichen Druckerdatei, die bei Leseversuchen „Hugo ist doof!<CR><LF>“ ausgibt, schreibend aber normal funktioniert? Textdatei?

Viele Grüße, —mnh·· 04:39, 30. Dez. 2009 (CET)

Danke für Dein Feedback. Habe hier versucht, Deine Fragen zu beantworten.--Cactus26 10:14, 30. Dez. 2009 (CET)
  • feste Zeilenlänge: Ergänzung, daß die Länge bekannt sein muß (übliche Werte?)
  • "... Inhalt wird nach einer für die jeweilige Datei fest vorgegebenen Regel in Text umgewandelt": Hier sollte erwähnt werden, daß der Leser der Datei diese Regel kennen muß, der Datei sieht man das ja nicht an.
  • Zeichencodierung: hier könnte die Anzahl der codierten Zeichen angegeben werden.
  • Zeichencodierung/Unicode: Den Hinweis zu UTF-8/16 in der Liste würde ich in den Absatz über Unicode verschieben (vielleicht auch den Absatz über falsche Codierung mit dem Unicode-Absatz tauschen). Außerdem könnte erläutert werden, daß die ersten 128 Zeichen bei UTF-8 wie in ASCII in einem Byte gespeichert werden und für weitere Zeichen zusätzliche Bytes verwendet werden.
  • Verwendung von Textdateien: Es könnte noch etwas mehr zum Datenaustausch (Ex-/Import) sowie zum Quellcode von Programmen geschrieben werden.
  • das "genaugenommen" hab ich ersetzt, da es ja keine "genaue" Definition gibt
  • ist PDF ein Nachfolger von PostScript? -- 80.146.127.214 15:14, 6. Jan. 2010 (CET)
Danke für Deine Verbesserungen und Deine Anregungen. Zu Deinen Punkten:
  • Feste Zeilenlänge, Zeilenlänge muss bekannt sein: Habe ich umgesetzt
  • "Leser muss die Regel kennen": "Der Leser (=Benutzer)" ist etwas unpräzise, meist ist es ja das System, dass die Codierung erkennt. Zudem werden dabei diverse Heuristiken verwendet, mit denen Editoren z.B. die Codierung "erraten", zum anderen gibt es seit Unicode die Byte Order Mark. Das an dieser Stelle zu erläutern, scheint mir aber zu ausufernd, der Hinweis weiter unten ("Wird eine Textdatei unter Verwendung einer falschen Zeichencodierung interpretiert") scheint mir ausreichend und ohne sich zu verzetteln auf diese Problematik hinzuweisen.
  • Angabe der Anzahl der codierten Zeichen angeben: Das würde ich hier lieber den verlinkten Artikeln überlassen, sonst muss man sich hier möglicherweise noch der Problematik Steuerzeichen/druckbare Zeichen u.ä. stellen.
  • Zeichencodierung/Unicode: Die Anregungen habe ich versucht umzusetzen, bitte prüfe es nochmal.
  • Mehr zum Import/Export, Quellcode: Spontan habe ich dazu keine tolle Idee, ich denke nochmal drüber nach.
  • "PDF Nachfolger von Postscript". Kann man so vlt. nicht sagen, obwohl PDF Postscript wohl verdrängen wird. Bin da kein Spezialist, meine (unfundierte) Meinung ist, dass Postscript "Drucker-fokussiert" ist, PDF hingegen einen eher interaktiveren Fokus hat, die Anwendungsgebiets-Überschneidung ist allerdings beträchtlich.
Viele Grüße --Cactus26 15:30, 7. Jan. 2010 (CET)
  • Lesenswert obwohl ich den Artikel nicht gerade für sehr spannend halte, aber das liegt wahrscheinlich am Thema Bei Bearbeiten und ansehen würde ich aufgrund des umfangreichen Themas schon einen Hinweis auf einen Hauptartikel setzen. Hauptartikel: Texteditor. Textdateien kann man auch verwenden, um reinen Text abzuspeichern. Beim Editieren ist man oft viel schneller und später kann man zb in Openoffice den Text schöner formatieren. Oder auch zum Vorbereiten von emails ist oft ein Texteditor gut geeignet. Aber nicht so wichtig und braucht im Artikel vielleicht gar nciht extra erwähnt werden. Sonst finde ich den Artikel solide. Vielleicht ein bisschen zuviel bezug zu Microsoft, aber das ist ja nach wie vor auch das verbreitetste Betriebssystem und wird wahrscheinlich auch so bleiben. --FrancescoA 15:29, 6. Jan. 2010 (CET)
Das mit dem "Hauptartikel" habe ich umgesetzt. Im übrigen teile ich viele Deiner Einschätzungen, aber für was sich Textdateien eignen, ist wohl zum großen Teil subjektiv.--Cactus26 15:30, 7. Jan. 2010 (CET)
Der Artikel in dieser Version ist Lesenswert. --Vux 01:39, 8. Jan. 2010 (CET)

Weitere Anmerkungen 80.146.x.x

Nachtrag zu meinen obigen Anmerkungen: Die Anzahl der codierten Zeichen wird im weiteren Artikel als bekannt vorrausgesetzt oder man kann indirekt darauf schließen ("da Unicode weit mehr als 256 verschiedene Zeichen definiert" -> die anderen Codierungen (vermutlich) maximal 256; "nicht Bestandteil der ersten 128 standardisierten Zeichen des ASCII" -> ASCII: 128, ISO 8859: 128+weitere). Ich fände es daher besser, wenn in der Liste wenigstens grob die Zeichenanzahl (128/7 Bit; 128+128/8 Bit; >>256) angegeben wird.

Zur Kenntnis der richtigen Codierung: auch das kann man - wie Du schreibst - indirekt aus dem Artikel lesen (s. Verwendung einer falschen Zeichencodierung und Austausch zwischen unterschiedlichen Systemen). Ich weiß jedoch nicht, ob es einem OMA-Leser bewußt ist, daß man die Codierung der Datei erstmal gar nicht ansehen kann. Und ist die Verwendung von Byte Order Marks schon Konvention oder nur eine Möglichkeit? Was hältst Du von einem Beispiel wie dem folgenden:

57 69 6B 69 70 65 64 69 61 0A   Dateiinhalt binär (HEX)
W  i  k  i  p  e  d  i  a  LF   ASCII und ISO 8859
ï  Ñ  ,  Ñ  ø  Á  À  Ñ  /  RPT  EBCDIC 500 und 273

Ich habe im Artikel noch etwas umgestellt, so daß in der Liste der Codierungen nur Unicode und im folgenden Absatz die Umsetzung Unicode<->Bytefolge behandelt wird. Der Einzelnachweis bezog sich doch auf die Verbreitung von UTF-8? 80.146.93.208 14:15, 8. Jan. 2010 (CET)

Zunächst: Deine Änderung im Artikel kann ich nachvollziehen, dass mit der Quelle war so gedacht und ich sehe Deine Version als Verbesserung an.
  • "Expliziter Hinweis bei den Codierungen, wie viel Zeichen möglich". Ich weiß nicht. Mir taucht die Zahl 256 ohnehin schon fast zu oft im Artikel auf, nicht an allen Stellen scheint es mir 100% korrekt, wenn man es pedantisch sieht. Die ersten 3 der Liste sind 7/8 Bit Codes. Das 8 Bit 256 Zeichen ermöglichen, wird mMn fast schon zu oft erwähnt (u.a. beim Unicode in diesem Abschnitt). Dass es bei 7-Bit die Hälfte ist, nun gut, das könnte man vlt. noch irgendwo unterbringen, wobei ich mich schwer tue einzuschätzen, ob das eine Information ist, die ein Laie tats. vermisst. Hättest Du eine Idee, wo man das sinnvoll ergänzen könnte?
  • "Kenntnis der richtigen Codierung". Wenn man weiter ausführen wollte, dass man einer Textdatei nicht unbedingt ansieht, wie sie codiert ist, würde ich es direkt beim bisherigen Hinweis tun wollen ("wenn man eine unter Verwendung der falschen Zeichencodierung..."). Vorziehen würde ich einen solchen Hinweis nicht wollen, dazu ist es mMn zu selten ein Problem. Bei Deinem Beispiel glaube ich, dass es ohnehin nur die verstehen, die das Beispiel gar nicht brauchen ("hex" wird meiner Erfahrung nach bei vielen Laien stigmatisiert, wo das auftaucht, geben sie auf). Interessanter wäre vielleicht ein Vergleich von UTF-8 interpretiert als Windows-1252 (das kann vorkommen, wenn die BOM fehlt oder vom verarbeitenden Programm nicht beachtet wird). Das wäre dann aber nichts für Laien, zudem sehr MS-lastig. Wie verbreitet die BOM wirklich ist, weiß ich nicht genau. In Unix ist sie offentsichtlich verpönt, Microsoft setzt sie sehr konsequent ein.
--Cactus26 15:01, 9. Jan. 2010 (CET)

Artikel des Tages

Ich habe diesen Artikel für den 12.02.2011 als Artikel des Tages vorgeschlagen. Gruß, --Gamma127 13:12, 5. Feb. 2011 (CET)

also entschuldigung, ich bin unter der email adresse haust48387@aol.com per email zu erreichen. eine seitenlange diskussion macht den inhalt eines artikels nicht besser. ich kann nur soviel dazu sagen: eine textdatei ist eine binärdatei, die durch spezielle programme auf "sichtgeräten" in menschenlesbare form gebracht wird. sie ist nicht mehr und nicht weniger als eine binärdatei. was wiederum die frage aufwirft was überhaupt dateien, bzw. bitblöcke in elektronischen speichermedien sind. (nicht signierter Beitrag von 89.204.137.253 (Diskussion) 14:58, 12. Feb. 2011 (CET))

Deine Defintion ist ja nicht grundsätzlich falsch, im Artikel steht nichts, was Deiner Aussage widersprechen würde. Ich vermute nur, dass keiner, der nicht schon vorher wusste, was eine Textdatei ist, mit Deiner Definition etwas anfangen kann. Was eine Datei ist, ist eine andere Frage und gehört nicht in den Artikel Textdatei.--Cactus26 16:13, 12. Feb. 2011 (CET)

Zeichensatz und Zeichencodierung

In dem Artikel werden die beiden Begriffe teilweise wieder vergewaltigt. Unicode ist immer noch keine Zeichenkodierung und wird es auch nie sein. Siehe auch: http://www.joelonsoftware.com/articles/Unicode.html --87.171.122.246 21:42, 12. Feb. 2011 (CET)

Wo stört Dich welche Formulierung?--Cactus26 09:51, 13. Feb. 2011 (CET)
Eine habe ich verbessert, in der Einleitung war es wirklich verfälschend verkürzt.--Cactus26 11:23, 13. Feb. 2011 (CET)

Kritik!!!

Eine Textdatei ist eine Datei (Binärdatei), deren Inhalt durch andere Dateien (Binärdateien), auch Programme genannt, als Text auf Sichtgeräten (Drucker, Monitor) dargestellt werden kann. -- h. aust 89.204.137.158 12:42, 13. Feb. 2011 (CET)

Zur Untemauerung dieser Aussage, dass eine Textdatei ein Dateiformat darstellt, möchte ich auf folgenden Link angeben: http://www.itwissen.info/uebersicht/lexikon/Text-Dateien.html?page=0

Falls sie weiterhin diesen Unsinn verbreiten, sollten sie zumindest das "in der Informationstechnologie" herausnehmen, Außer sie betrachten Buchdruck als Informationstechnologie und Bücher als Textdateien, das ist allerdings unwahrscheinlich, da sie auf den modernen Begriff Infomationstechnologie (früher EDV) verweisen! Ich halte es nachwievor für unangebracht und unverantwortlich diesen Begriff in dieser Weise zu "mißbrauchen"! -- h.aust (nicht signierter Beitrag von 89.204.137.182 (Diskussion) 12:36, 17. Apr. 2011 (CEST))

Troll? Wenn der erste Satz ein zu kritisierender Inhalt sein soll: Der kommt nicht vor. Wenn der erste Satz eine korrigierte Form der Definition einer Textdatei sein soll, dann ist die schlicht und ergreifend falsch, im Artikel wird es vollkommen korrekt dargestellt: Im engeren Sinn versteht man darunter Dateien, die nur direkt druckbare Zeichen enthalten, erst im erweiterten Sinn auch Binärdateien (.pdf, .doc usw.), die sich dann durch zusätzlichen Aufwand in eine Textwiedergabe umsetzen lassen können. Insofern erachte ich die Darstellung im angegebenen Link auch als nicht korrekt (bzw. von Ihnen als zu verkürzt interpretiert) und weiß mich darin mit den anderen hier beteiligten Autoren einig. --PeterFrankfurt 02:33, 18. Apr. 2011 (CEST)
gudn tach!
@h. aust: ich habe nicht verstanden (und anscheinend geht es PeterFrankfurt da aehnlich wie mir), was genau am artikel von Ihnen kritisiert wird. koennten Sie das bitte praezisieren? -- seth 00:57, 24. Apr. 2011 (CEST)

Abgrenzung Binärdatei/Textdatei in Einleitung

Zum Edit-War i.Z. mit der Aussage 'Auch Textdateien sind binär gespeichert': Es geht hier um die (sinnvolle) Aussage, dass auch Textdateien in einem Binärformat (oder 'binär') gespeichert werden. Der Leser soll dies wissen, sonst könnte bei ihm die Frage entstehen, wie denn nun Textdateien gespeichert aussehen; denn nur Binärdateien würde er mit 'binär' assoziieren. Zusätzlich wäre also auch ein Hinweis nützlich, warum eine Binärdatei 'Binärdatei' heißt. Was hier (siehe 18:53, 11. Jun. 2013) schon mal vorgeschlagen war.
--VÖRBY (Diskussion) 08:59, 13. Jun. 2013 (CEST);
Anlass als Präfix ergänzt: --VÖRBY (Diskussion) 09:58, 14. Jun. 2013 (CEST)

Ich hoffe, Du hast nichts dagegen, dass ich den Text der Absatzüberschrift geändert habe. Mein folgender Vorschlag, den ich parallel zu Deinem Beitrag entwickelt habe, dürfte Deine Anregungen beinhalten, wenn ich es richtig sehe.--Cactus26 (Diskussion) 09:25, 13. Jun. 2013 (CEST)

Ich hoffe, es ist möglich, hier noch mal zu einer sachlichen Auseinandersetzung zurückzukommen.

  1. zunächst: die Abgrenzung zur Binärdatei ist entscheidend und sollte in der Einleitung angesprochen werden.
  2. Es sollte auch vermittelt werden, dass der Begriff "Binärdatei" eigentlich eine Abstraktion darstellt, da das Speicherabbild aller Dateien binär ist (ich bin überzeugt, dass ist vielen nicht klar)
  3. Diese Abstraktion, die die Unterscheidung ermöglich, liegt in der Interpretation des Speicherabbilds
  4. der Begriff "physisch" mag fehlinterpretierbar sein. Ich glaube zwar kaum, dass der Begriff in Verbindung mit "Datei" falsch aufgefasst werden kann, da "Datei" eine Abstraktion ist, die unabhängig vom wirklichen physischen Speichermedium ist. Insofern wäre "physisch" hier in gewissem Sinne metaphorisch aufzufassen (was im IT-Slang üblich ist). Das Adjektiv wegzulassen ("Interpretation des Inhalts" macht die Erläuterung sinnlos, da die Abstraktionsebene dann nicht festgelegt wird und nahe liegend ist, sie mit dem Inhalt der Textdatei den Text zu assoziieren. Eine Alternative wäre "binär" ("Interpretation der Daten" ist keine Alternative, da hier ebenfalls die Abstraktionsebene nicht festgelegt wird
  5. Kausalität (die Begriffe Binär- und Textdatei werden komplementär verwendet, weil ... Interpretation ... im Vordergrund). Zugegeben, hier wird eine Ebene übersprungen und der bezug ist etwas unscharf. Da die Interpretation im Vordergrund steht, macht der Begriff "Binärdatei" überhaupt erst richtig Sinn und ermöglicht so erst eine Abgrenzung beider Typen (Lsg.vorschlag s.u.)
  6. Gedankenfaden wird unterbrochen. Ein Gedankenfaden besteht zweifellos, unterbrochen wird er nicht, da das Thema ja nicht gewechselt wird. Die Satzumstellung aufgrund "Kausalität" dürfte aber zudem auch hier für Verbesserung sorgen (siehe Vorschlag unten). (Man könnte den Faden sogar verstärken, indem man die vorige Aussage aufgreift. Allerdings ist etwas schwierig, dass das nicht zu kompliziert gerät (und wieder angreifbare Kausalitäten beinhaltet). Mir gelingt im Moment keine "druckreife" Formulierung, der Gedanke wäre, dass keine speziellen Programme erforderlich sind, weil die Interpretation als sequentielle Zeichenfolge vergleichsweise unkompliziert ist, weil sie von keinen (naja, fast) zusätzlichen Konventionen/Definitionen/Annnahmen abhängt.)

Also mein Vorschlag wäre folgender:

Im Grunde ist auch das Speicherabbild von Textdateien binär, allerdings steht die Interpretation des binären Inhalts im Vordergrund und die Begriffe werden meist komplementär verwendet.

Ganz überraschend ist es vielleicht nicht, dass zu diesem eigentlich ausgesprochen banalen IT-Begriff so viele Meinungen existieren. Etwas überraschend ist dann aber doch, dass sich die meisten der Richtigkeit ihres Meinung dann so sicher sind. Ich möchte bitten, dass ihr bei allen subjektiven Vorlieben bedenken solltet, dass der derzeitige Inhalt schon einen Kompromiss aus vielen Meinungen darstellt, er wurde schon an einigen Stellen repliziert, war bereits ADT. So ganz falsch kann er nicht sein. --Cactus26 (Diskussion) 09:25, 13. Jun. 2013 (CEST)

Liebe Mitdiskutanten,
Bitte mal ehrlich. Ist so eine spezielle Frage denn wirklich in der Einleitung zu klären?
Ich halte es für ziemliche Haarspalterei, die Frage, wie man den Speicherauszug einer Textdatei, die dazu in einem Editor geladen werden müsste, überhaupt hier zu klären. Darauf wird sich niemals eine zufriedenstellende Antwort finden lassen, die dazu noch der Belegpflicht standhält.
Überhaupt driftet das ganze in meinen Augen schon sehr in die Richtung der TF. Außerdem ist es gemäß WP:ART auch überhaupt nicht nötig, dermaßen ins Detail zu gehen.
Eine Unterscheidung zwischen Text- und anderen Datei ist durchaus wichtig, aber das lässt sich nicht durch diesen Spezialfall erläutern. Ich schlage vor, diesen Satz einfach herauszunehmen. Es spielt einfach keine Rolle. --Plankton314 (Diskussion) 11:11, 13. Jun. 2013 (CEST)
Bin auch der Meinung, dass wir hier um eine recht triviale Sache einen gigantischen 'Heckmeck' veranstalten. Im hier ursächlichen "Edit-War" ging es lediglich um die m.E. wichtige Aussage, dass auch Textdateien "als Bits und Bytes gespeichert sind". Vielleicht kann man das auch noch einfacher sagen?
Zusätzlich wäre (als 'Gedankenfortführung') eine Erklärung nützlich, weshalb nur diese anderen Dateien 'Binärdateien' genannt werden: in irgendeiner Disk wurde das auch mal gefragt. Antwort siehe oben (08:59, 13. Jun. 2013). --VÖRBY (Diskussion) 12:23, 13. Jun. 2013 (CEST)

Meine Vermutung ist mittlerweile, ihr stört Euch am "Speicherabbild". Meine Intention in der Verwendung dieses Begriffs lag darin, einen Begriff zu verwenden, der nicht festlegt, ob die Datei sich nun im Hauptspeicher oder auf einem Datenträger befindet. Ich wollte ihn als Synonym im Sinne von "Repräsentation im Speicher bzw. auf Datenträger" verstanden wissen (dieser Bergiff hat aber eine hier mgölciherweise irritierende andere Konnotation). Die Repräsentation im Speicher ist vermutlich wirklich nicht wichtig, "gespeichert" der urspr. Version war schon ausreichend. Die saubere Abgrenzung von der Binärdatei halte ich aber für essentiell (mir ist nicht klar, ob Euer Problem mit der Ersetzung des "Speicherabbilds" erledigt ist, wenn nein, dann begründe ich das noch).

Neuer Vorschlag:

Das Gegenstück zur Textdatei stellt eine Binärdatei dar. Im Grunde werden auch Textdateien binär gespeichert, allerdings steht die Interpretation des binären Inhalts im Vordergrund und die Begriffe werden meist komplementär verwendet.

Wenn es so formuliert ist, kann man das 2. binär auch weglassen, ohne das es missverstanden werden sollte.--Cactus26 (Diskussion) 14:40, 13. Jun. 2013 (CEST)

1. Satz kurz und gut.
2. Satz: Vielleicht unklar, ob "Die Interpretation des binären Inhalts" für Text oder Binär gelten soll? Wobei ich meine, der 'binäre Inhalt' wird doch immer interpretiert; meintest du damit vielleicht "alle Bitkombinationen"? Das 'allerdings' erscheint mir auch nicht ganz klar.
Mein Vorschlag, aus deinem abgeleitet:
Das Gegenstück zur Textdatei stellt eine Binärdatei dar. Im Grunde werden auch Textdateien binär gespeichert, doch können in Binärdateien alle Bitkombinationen auftreten; die Interpretation des binären Inhalts steht also im Vordergrund. Dementsprechend werden die Begriffe komplementär verwendet.
"Mühsam ernährt sich das Eichhörnchen." --VÖRBY (Diskussion) 17:23, 13. Jun. 2013 (CEST)
Den Hinweis, ob ich mit "binärem Inhalt" alle Bitkombinationen meine, verstehe ich nicht (meine ich nicht). Natürlich wird der Inhalt immer interpretiert, die Aussage soll nur klarmachen, dass das Interpretationsverfahren das Entscheidende ist (vlt. sollte man "steht im Vordergrund" in "ist entscheidend" ändern). Der Hinweis, dass in Binärdateien alle Bitkombinationen auftreten können, ist zwar prinzipiell richtig, wirft aber verschiedene Fragen/Probleme auf (1. für verschiedene Binärdateien muss das nicht gelten (z.B. BCD-Daten); 2. Es gibt Codierungen, bei denen auch in Textdateien alle Bitkombinationen auftreten können). Gegen das "deshalb" hätte ich nichts.--Cactus26 (Diskussion) 18:10, 13. Jun. 2013 (CEST)

Bezug: Erster Disk-Beitrag hier im Abschnitt: Am Ende des 'Lösch-Kriegs' verblieb ja nun im Artikel der Passus, dass auch Textdateien binär gespeichert sind. Das ist die Hauptsache, wenn auch das "Jedoch" sprachlich unpassend erscheint und zumindest aus meiner Sicht das "Speicherabbild" und die "Interpretation des physischen Inhalts im Vordergrund" einfacher ausgedrückt werden könnten. Besser ginge es in der Wikipedia immer irgendwie. --VÖRBY (Diskussion) 17:40, 14. Jun. 2013 (CEST)

Ich habe mir nochmal die Einleitung durchgelesen und fand dabei, dass bereits die einführende Definition - auch wenn sie scheinbar scharf klingt - vollkommen unscharf und dazu noch unbelegt ist. Ein Zeichensatz umfasst nicht notwendigerweise nur Zeichen aus denen Text (menschlicher Sprache) besteht. Auch wirft es Fragen auf, ob bspw. base64-kodierte Daten auf einmal eine Textdatei wären.
Überhaupt finde ich, dass die ganze Diskussion zwar berechtigt ist, aber leider etwas über das Ziel hinausschießt. Natürlich ist es legitim, sich zu überlegen, wie man eine Textdatei von anderen Dateien abgrenzen kann oder wie sich die Darstellung des Inhalts unterscheidet. Es ist jedoch nicht die Aufgabe von uns Wikipedia-Autoren, solche Definitionen und Unterscheidungen selbst zu fällen!
Ich fürchte, wir driften hier deutlich Richtung WP:TF ab. Natürlich verleitet ein scheinbar "einfaches" Thema, wie "Textdatei" dazu, einfach mal hinzuschreiben, was es ist. Das geht dann damit weiter, dass, darauf aufbauend, versucht wird, ebendiese Abgrenzungen zu machen. Quellenbasiert ist das Ganze jedoch bis jetzt nicht.
Die Belegpflicht greift erst ab einer gewissen Komplexität des Sachverhalts. Wie zB. im englischssprachigen Artikel en:Text file, zu schreiben, dass die Datei elektronischen Text enthält, fällt sicherlich noch unter "allgemeinkundig". Aber Deutungen darüber, wie eine bestimmte Darstellung von Textdateien nun genannt werden, sollten mE. dann doch so langsam belegt werden.
Wir sollten uns hier bei o. g. "Spezialitäten" nicht darum streiten, was man wie nennen kann, sondern höchstens darüber, wie verschiedene Quellen, diesen Begriff oder die Darstellung beschreiben. Alles darüber hinaus ist im Grunde nur Begriffsetablierung! Bis jetzt existiert - insbesondere zu Aussagen im zweiten Abschnitt - keine Quelle. Das für sich würde bereits eine Entfernung begründen. --Plankton314 (Diskussion) 17:21, 17. Jun. 2013 (CEST)
Hallo, wir sollten nicht nochmal von vorne anfangen. Du hast recht, dass da einiges unscharf definiert oder nicht belegt ist. Konkret zu zwei deiner Anmerkungen:
  • 'Zeichensatz' ist lediglich die Präzisierung für die Aussage, dass eine Textdatei nur Zeichen ... enthalten kann. Sonst könnte jemand fragen "was ist ein Zeichen"? Das halte ich also für trivial und nicht belegpflichtig.
  • Zweiter Absatz: Zumindest das 'Textdatei auch binär gespeichert' ist ein 'trivialer Sachverhalt' - der deshalb ebenfalls nicht belegpflichtig ist. Hier ist der Hinweis aber trotzdem wichtig.
Wenn man besser formulieren kkönne oder sogar Belege fände, wäre das natürlich super. In Anbetracht der vergangenen, unangemessen breiten Diskussion (alle hatten wohl einen guten Willen) sollten wir es aber ansonsten mal gut sein lassen. Grüße von --VÖRBY (Diskussion) 17:37, 17. Jun. 2013 (CEST)
Ein Zeichensatz beschränkt seine Zeichen nicht auf die Elemente eines Textes. Diese Beschreibung weicht den Begriff Textdatei auf, weil (gerade in Sachen Computer) jedes Zeichen zwangsläufig aus einem Zeichensatz stammt. Eine Textdatei beschränkt sich auch nicht (spezialisierend) auf Zeichen, sondern eben (verallgemeinernd) auf (idR. menschlich lesbaren) Text. Zeichen sind eine damit notwendige Bedingung, aber eben keine hinreichende.
Insofern kann man erstmal nicht mehr über eine Textdatei sagen, als dass sie (idR. menschlich lesbaren) Text enthält, ggf. dazu noch, dass es sich um E-Text handelt.
Diese Definition, die sich darüber hinaus noch auf Zeichensätze und sequentielle Folgen erstreckt, ist mMn. nicht mehr trivial. Ebenso der Satz "Im Grunde ist auch das Speicherabbild [...]".
Es bringt einfach nichts, hier über persönliche Auffassungen zu diskutieren, sondern es soll hier nur etabliertes Wissen wiedergegeben werden. Wir können nur zu dem Schluss kommen, dass, wenn es darüber bereits solche Diskussionen gibt, es wohl nicht mehr als trivial angesehen werden kann und demzufolge zu belegen ist. Kann es das nicht werden, müssen wir so ehrlich gegenüber dem Leser sein und solche Aussagen entfernen bzw. auf ein trivialeres Maß reduzieren. --Plankton314 (Diskussion) 18:58, 17. Jun. 2013 (CEST)
Im Text steht "darstellbare Zeichen eines Zeichensatzes", das sind also nicht nur "Zeichen". Auch mit "sequentielle Folge" ist das mMn noch 'trivial'. Mit dem "Speicherabbild" und der "Interpretation des physischen Inhalts" hatte ich auch leichtes Magengrummeln (wg. der OMA). Ich bin jetzt mal so frei, die Texte direkt zu ändern. Schau mal ob das aus deiner (eurer) Sicht besser ist. Aber Diskutieren führt nur in "schon durchlaufene Schleifen". --VÖRBY (Diskussion) 19:16, 17. Jun. 2013 (CEST)
Sorry, Lemma ist noch gesperrt. --VÖRBY (Diskussion) 19:18, 17. Jun. 2013 (CEST)
gudn tach!
du kannst die passagen herkopieren und abaendern. -- seth 22:15, 17. Jun. 2013 (CEST)

Ich schlage vor, zunächst auf die Version vom 6. Juni zurückzugehen. Diese Version ist das Ergebnis einiger Anregungen und Reviews, es sind zahlreiche Meinungen hier eingeflossen und diskutiert worden, sie ist als Basis insofern geeignet. Dann möchte ich in Ruhe auf die inzwischen vorgebrachten Anmerkungen, Anregungen und Kritikpunkte eingehen. Dazu brauche ich etwas Zeit, weil es ein wenig her ist, dass ich den Artikel geschrieben habe und mich intensiver mit dem Thema befasst habe. Ich bitte darum, mir diese einzuräumen.--Cactus26 (Diskussion) 07:48, 18. Jun. 2013 (CEST)

Einverstanden. Meine Ergänzung 'sequentielle Folge' vom 9.6. war sicher soweit sinnvoll und kann auch mit [1] (meine damalige Quelle war ungeeignet) belegt werden. Den (monierten) Hinweis auf Zeichensatz könnte man eliminieren, indem der Ausdruck 'darstellbare Zeichen' auf den von mir dort eingetragenen Anker Zeichensatz#darstellbar verlinkt wird. Ansonsten finden sich im Web überwiegend URLs, die den Ausdruck 'Textdatei' einfach und selbstverständlich (i.S. von 'nur Zeichen') benutzen, ohne ihn aber zu definieren, schon gar nicht eindeutig. Viel Erfolg! --VÖRBY (Diskussion) 09:25, 18. Jun. 2013 (CEST)

Einleitung überarbeiten

(direkte Fortsetzung der vorausgehenden Diskussion)

Mittlerweile sind Plankton und ich durch E-Mail-Korrespondenz zu einem gemeinsames Verständnis des Problems gekommen. Dabei ist uns klar geworden, dass nicht die Quellenlage das eigentliche Problem ist, sondern dass der Artikel die beiden Kategorien der Interpretation des Begriffs nicht klar genug herausarbeitet:

  • umgangssprachliche Interpretation, orientiert sich am Inhalt, wird im Artikel bisher durch den letzten Abschnitt der Einleitung ("...die mit dem Ziel erstellt wurden, dem Benutzer einen lesbaren Text zu präsentieren.") abgedeckt.
  • fachsprachliche Bedeutung, orientiert sich ausschließlich am Dateiformat, nur diese wird ansonsten im Artikel behandelt, diese ist gemeint, wenn man z.B. nach "als Textdatei speichern" googelt ([2]). Diese Definition ist wesentlich präziser, im Ggs. zur ugs. Interpretation gibt es hier ganz klar einen gemeinsamen Nenner der verschiedenen Quellen.

Sowohl Plankton als auch VÖRBY (erkennbar in der Disk. hier: [3]) lagen mit ihrer Einschätzung zuvor irgendwo zwischen beiden Interpretationen. Dies bewirkt offensichtlich, dass man den letzten Abschnitt der Einleitung nicht richtig wahrnimmt/einordnet und damit den ganzen Artikel infrage stellt. Beide Interpretationen haben eigentlich nichts miteinander zu tun, das wird offensichtlich nicht klar.

Für die fachsprachliche Bedeutung habe ich in den letzten Tagen einige recht brauchbare Quellen gefunden (scheint sich gegenüber dem Zustand vor 3 Jahren verbessert zu haben), für die ugs. Bedeutung ist dies schwieriger, insbesondere die Abgrenzung zw. beiden Interpretationen wird sich nur indirekt belegen lassen, da dies offensichtlich noch nicht sauber analysiert/ausgearbeitet/publiziert wurde.

Ich schlage vor, dass ich (nach Rücksetzen des Artikels wie besprochen) eine Einleitung ausarbeite, die versucht, wesentlich früher und klarer den Unterschied zw. diesen beiden Interpretationen herauszuarbeiten. Ich habe da schon ein paar Ideen, weiß aber nicht, ob ich das nicht vor meinem Urlaub (nächste Woche von So. bis So.) hinbekomme. Bitte also ein wenig um Geduld.--Cactus26 (Diskussion) 15:16, 19. Jun. 2013 (CEST)

Hallo und Danke für die Arbeit! Auch in diesem Lemma (wie so oft) gibt es unterschiedliche Interpretationen (umgangssprachlich/fachsprachlich); ich hatte es mal i.e.S vs. i.w.S. genannt. Diese Tatsache wird ja bereits mit "nicht in allen Fällen eindeutig" beschrieben. Das Problem scheint mir aber, dass
  1. diese Aussage selbst uneindeutig ist (was sagt sie wirklich aus?),
  2. die beiden Interpretationen nicht klar voneinander getrennt sind und
  3. sich die Kriterien zur Bestimmung des Lemmas über alle 4 Abschnitte der Einleitung verteilen. Ja, im letzten Absatz erwartet niemand mehr ein 'Kriterium'.
Ja, die Lösung besteht in der klaren Teilung der beiden Sichtweisen. Möglichst inkl. Belegen oder Hinweis auf fehlende oder unterschiedliche Definitionen in den Quellen. Unser 'Streitthema' "alles wird binär bespeichert" gilt für beide Varienten. ÜBERARBEITEN! --VÖRBY (Diskussion) 16:02, 19. Jun. 2013 (CEST)

Hallo zusammen,

Ich stelle hier einfach mal meinen Vorschlag zur Einleitung ein:

Als Textdatei wird in der Informationstechnik eine Datei bezeichnet, deren Inhalt nur aus den darstellbaren Zeichen eines Zeichensatzes besteht. Ihr Inhalt kann zusätzlich durch Steuerzeichen wie Zeilen- oder Seitenwechsel gegliedert sein.
Umgangssprachlich werden gelegentlich Dateien als „Textdatei“ bezeichnet, die ausschließlich lesbaren Text enthalten. Solche Dateien können mit einem einfachen Texteditor betrachtet und bearbeitet werden.
Das Gegenstück zur Textdatei ist die Binärdatei, die beliebige Werte enthalten kann und in einem bestimmten Dateiformat gespeichert ist. Die Klassifizierung von Dateien als Text- und Binärdateien ist nicht in allen Fällen eindeutig.
Die Menge der verfügbaren Zeichen wird durch die verwendete Zeichenkodierung bestimmt. Am gebräuchlichsten sind ASCII oder UTF8, eine Kodierung des Unicode. Häufig wird die Zeichenmenge zudem durch eine natürliche oder formale Sprache eingeschränkt, in welcher der Textinhalt verfasst ist. Sind zur Auswertung des Inhalts einer Textdatei weder besondere Verarbeitungsschritte noch die Kenntnis einer speziellen Notation erforderlich, wird der Inhalt als Plain text bezeichnet. Textdateien, die eine bestimmte Notation erfordern – wie beispielsweise HTML-Dateien – können zwar mit einem einfachen Texteditor bearbeitet werden, es gibt jedoch hierfür oft spezielle Programme, die die Bearbeitung erleichtern – beispielsweise durch besondere Syntaxhervorhebung oder automatische Formatierungen.

Es ist im Grund nur eine (sprachlich) gekürzte Version der bisherigen Einleitung.

Das Beispiel mit dem Textverarbeitungsprogramm habe ich ausgelassen, weil ich nicht wusste, wo man das einstellen sollte. --Plankton314 (Diskussion) 15:25, 21. Jun. 2013 (CEST)

Hallo ich hatte den Stand der Diskussion anders verstanden:
  • Die engere Definition ("fachsprachlich") sagt ~ das, was in deinem ersten Satz steht: nur darstellbare Zeichen + STZ gespeichert
  • Die Umgangssprache ("nicht in allen Fällen eindeutig") sagt auch dann "Textdatei" wenn dem Benutzer nur Texte präsentiert werden sollen - zum Beispiel mit Word, d.h. mit ganz anderen Bitkombinationen als in einem Zeichensatz als darstellbar definiert.
  • Die Aussage "binär gespeichert" gilt für beide Varianten ohne Unterschied.
Der Einleitungstext sollte entsprechend klare Aussagen bieten. Den Rest habe ich mir jetzt gar nicht angesehen, darum hatten wir nicht diskutiert. Grüße von --VÖRBY (Diskussion) 19:14, 21. Jun. 2013 (CEST)

Habe leider, wie bereits angekündigt, die nächsten Tage keine Zeit. Hoffe, ihr habt Geduld bis nach meinem Urlaub.--Cactus26 (Diskussion) 09:15, 22. Jun. 2013 (CEST)

Neue Einleitung

Habe nun die versprochene Überarbeitung gemacht. Durch die Disk. ist mir selbst vieles klarer geworden, v.a. dass die Interpretation das entscheidende ist (auch wenn das bei Euch bislang nicht auf Gegenliebe gestoßen ist, ich bin mir sicher und habe dafür ja nun auch explizite Quellen). Zudem dass sich der fachsprachliche Begriff am Dateiformat orientiert, der ugs. am Inhalt.

Zunächst ein paar Anm. zu Planktons Entwurf:

  • Als Textdatei wird in der Informationstechnik eine Datei bezeichnet, deren Inhalt nur aus den darstellbaren Zeichen eines Zeichensatzes besteht. Die Betonung des "darstellbaren" finde ich als ersten Satz sehr unglücklich. Man muss sich folgendes vergegenwärtigen: Dass der ASCII-Code (und somit alle Derivate) überhaupt nicht darstellbare Zeichen enthält, ist der Historie geschuldet, als Inhalte direkt über die Leitung an ein Terminal bzw. Drucker geschickt wurden. Für den Begriff Textdatei ist weniger entscheidend, dass sich der Inhalt auf darstellbare Zeichen beschränkt als vielmehr, dass der Inhalt als Zeichen eines Zeichensatzes zu interpretieren ist.
  • Umgangssprachlich werden gelegentlich Dateien als „Textdatei“ bezeichnet, die ausschließlich lesbaren Text enthalten. Solche Dateien können mit einem einfachen Texteditor betrachtet und bearbeitet werden. Das ist wohl ein Versehen, genau andersrum ist es richtig, fachsprachliche können mit einem Editor bearbeitet werden, umgangssprachliche nicht unbedingt.
  • Das Gegenstück zur Textdatei ist die Binärdatei, die beliebige Werte (=Byteinhalte) enthalten kann Wie oben. Auch eine Textdatei kann beliebige Werte enthalten (siehe z.B. UTF8), die Interpretation ist entscheidend.

Offen bleibt nun folgendes:

  • die ugs. Verwendung lässt sich nur indirekt belegen. Es ist schwer, nach solchen Verwendungen zu suchen. Zwei Fälle habe ich: [4], [5]
  • Hinweis, dass der Rest des Artikels sich nur auf die fachsprachliche Def. bezieht. Nötig? Wie?
  • Begriff "fachsprachlich": Einen besseren gelingt es mir nicht zu finden. "Technisch" finde ich etwas irreführend, so low level ist es ja nun auch wieder nicht.

--Cactus26 (Diskussion) 14:40, 2. Jul. 2013 (CEST)

Nach BK: Gut gworden!
Ich persönlich würde (noch) mehr auf die Zweckbestimmung abzielen: Eine Textdatei ist dazu gedacht, von einem Menschen gelesen zu werden, und ihr Inhalt ist so beschaffen, dass das mit minimalem Aufwand (auf dem jeweiligen System) geschehen kann. Typischerweise ist der Inhalt lesbarer Klartext einer menschlichen Sprache. Ein Binärformat ist vielleicht zufällig halbwegs lesbar, aber das ist nicht seine Bestimmung. Binärformate sind von Anfang an nicht als menschenlesbarer Text gedacht, sondern als Eingabe für ein Programm. Deshalb ist es allenfalls zufällig lesbar, weil bei der Spezifikation des Formates kein Gedanke an Lesbarkeit für Menschen berücksichtigt wurde. (Programme, die untereinander in Textdateien kommunizieren, gibt es natürlich auch. Primärer Adressat ist eine andere Maschine, aber das Format ist so spezifiziert, dass es auch von Menschen gelesen werden kann. Siehe XML und ähnliche.)
Noch eine Eigenschaft, die ich für bedeutend halte: pure Textdateien sind (immer nur auf ihrem nativen System) perfekt leicht lesbar, weil die nötigen Programme (typischerweise) schon mit dem Betriebssystem geliefert werden, oder sogar völlig verzichtbar sind.
(Unter MS-DOS konnte man mit Konsolbefehl eine Textdatei erezugen (C:\>COPY con: test.txt). Das geht sogar heute noch in einem CMD-Fenster von Windows. (Falls Du es Probieren willst: Strg-Z beendet den Eingabemodus und erzeugt die Datei). Der zugehörige "Lesebefehl" ist "c:\>Type test.txt")
Probleme gibt es nur, wenn man Textdateien zwischen Systemen austauscht: Z. B. sehen Unix/Linux-Dateien unter DOS immer doof aus, weil unter Linux das Zeilenende etwas anders codiert ist. Früher hätte es sogar noch weitere Probleme geben können, weil es Maschinen gab, die nicht nach ASCII, sondern nach EBCDIC codiert haben. --Pyrometer (Diskussion) 15:36, 2. Jul. 2013 (CEST)
Inhaltlich kommen jetzt die unterschiedlichen Defintionen klar zum Ausdruck. Passt also. Nur nochmal kurz zu 'Interpretation': Ob man "Textdatei" mit 'der Inhalt ist als Zeichen eines Zeichensatzes zu interpretieren' definieren muss? Ist mE (mind. für den Laien) zu kompliziert ausgedrückt. Es SIND (einfach gesagt) nur Zeichen (gem. Zeichensatz) drin, bei Binärdateien kann es Alles sein. Aber wir können das nun m.E. beenden. --VÖRBY (Diskussion) 20:53, 2. Jul. 2013 (CEST)
@Pyrometer: Danke für Dein Lob, freue mich sehr darüber verstanden zu werden, insbesondere da ich das Gefühl hatte, dass wir bislang alle ein wenig aneinander vorbeigeredet haben. Vlt. könnte tats. noch etwas mehr auf die Intention eingehen, allerdings würde ich das nicht in der Einleitung tun, die ist ohnehin schon sehr lang, der Hinweis zur Bearbeitbarkeit durch einen Texteditor sollte hier reichen. Am Ende des Geschichtsabschnitts steht schon eine Anmerkung in dieser Richtung. Weiterhin gibt es den Abschnitt "Verwendung von Textdateien", zum Austausch von Textdateien gibt es "Austausch zwischen unterschiedlichen Systemen". Wo siehst Du da noch Ergänzungsbedearf? Ich denke auch nochmal drüber nach, ob mir hier noch was einfällt (Ich bin im übrigen unter Kollegen als "Kommandozeilenfetischist" verschrien, insofern sagst Du mir mit dem COPY CON... nicht unbedingt was neues, "kein Programm" ist, wenn man pedantisch ist, vielleicht nicht ganz korrekt, der "Editor" ist in diesem Fall cmd.exe (bzw. früher command.com)).--Cactus26 (Diskussion) 08:02, 3. Jul. 2013 (CEST)
@VÖRBY: Gerade auch für den Laien kann man mMn nicht auf die Interpretation des binären Inhalts verzichten. Wenn man den Abstraktionsgrad offen lässt, würde eine PDF-Datei, die z.B. "Hallo" enthält, ebenfalls als Textdatei durchgehen, denn deren "Inhalt" besteht ja ausschließlich aus Text, in ihr sind nur Zeichen eines Zeichensatzes "drin".--Cactus26 (Diskussion) 08:02, 3. Jul. 2013 (CEST)
Ich glaube, du verstehst nicht was ich meine: Natürlich geht es um den Inhalt, aber muss man das "Interpretation des binären Inhalts" nennen? Genügt nicht "enthält nur ..."? Diese "Hallo-PDF" wäre nach umgangssprachlicher Definition eine Textdatei, ok. Wenn man ihren Inhalt aber mit einem Hex-Editor anschaut (ich sage bewusst nicht 'interpretiert'), erkennt man wohl sehr viele, nicht darstellbare Zeichen; 'fachsprachlich' ist das also eine Binärdatei.
Ergänzung: Wenn das 'identifiziert' heißen würde, könnte ich damit etwas anfangen: Die Bits werden als Zeichen identifiziert, und zwar gemäß einem bestimmten Zeichensatz. Aber 'interpretiert' kann ich hier nur schwer einordnen. Sorry, nochmal ein Versuch. --VÖRBY (Diskussion) 17:55, 3. Jul. 2013 (CEST)
Zum Problem mit den beiden Bezeichnungen: Ich denke, der Begriff wird aus der 'fachsprachlichen' Sicht definiert. Das muss man aber nicht explizit so nennen, es genügt wenn daneben gesagt wird, dass "umgangssprachlich" auch eine abweichende Definition verwendet wird.
Wenn niemand sonst Anstoß an der 'Interpretation'-Formulierung nimmt, soll es mir recht sein. Gruß von --VÖRBY (Diskussion) 09:18, 3. Jul. 2013 (CEST)
Interpretiert ist (im Ggs. zum mir hier völlig schleierhaften "identifiziert") genau das richtige Wort, beide Quellen verwenden es, auch die Betonung von "Bits" ist irreführend. Ein weiterer Versuch: Der binäre Inhalt "42C3A472" (hex) in einer mit UTF8 codierten Textdatei ist als "Bär" zu interpretieren (4 Byte entsprechen 3 Zeichen, da das "ä" zwei Byte beansprucht). Interpretiert man denselben binären Inhalt als Integer bei Unterstellung von Little Endian (höchstwertiges Byte hinten) ist der binäre Inhalt als die Zahl 1923400514 zu interpretieren. Sowohl für Textdateien (andere Codierungen) als erst recht für Binärdateien gäbe es viele weitere Interpretationsmöglichkeiten dieses binären Inhalts. Jetzt klarer?--Cactus26 (Diskussion) 16:40, 4. Jul. 2013 (CEST)
Man kann 'interpretiert' sagen und das ist auch korrekt. Es erschien mir nur komplizierter als "enthält". EOD, Danke für die Mühe.--VÖRBY (Diskussion) 17:29, 4. Jul. 2013 (CEST)
Im Großen und Ganzen halte ich die Neufassung der Einleitung für eine Verbesserung, ich persönlich finde sie verständlicher. (Wobei das jetzt auch daran liegen kann, dass ich weiß, was sie mir sagen will :) ). Und vor allem abstrahiert sie etwas mehr von den technischen Details.
Ein paar Sachen, sollte mE. dennoch mal überdacht/überarbeitet werden:
  • (wie VÖRBY) Die Unterscheidung in einerseits "binären Inhalt" im ersten Absatz und "Inhalt der Datei" ist etwas verwirrend bzw. unscharf. Soweit ich es sehe, ist mit dem Ersten der "rohe" Dateiinhalt (in Form von Bits und Bytes) gemeint und mit dem zweiten der "eigentliche" Inhalt, also die eher Information, die die Datei enthält. Das sollte irgendwie unterschieden werden, auch wenn mir gerade dazu nichts Sinnvolles einfällt.
  • Wenn das Dateiformat den ausschlaggebenden Unterschied macht, sollte dessen Nennung nicht erst im zweiten Absatz bei einem Vergleich zur weiteren Bedeutung auftauchen.
--Plankton314 (Diskussion) 16:46, 3. Jul. 2013 (CEST)
Ich kann Deine Punkte vollkommen nachvollziehen, denke ich.
  • Abstraktionsgrad von "Inhalt": Ich habe mal alle vorkommen von Inhalt in der Einleitung gesucht:
    • 1-3: "Interpretation des binären Inhalts". Darauf folgt nach dem Doppelpunkt noch zweimal "Inhalt" hier fände ich es schon etwas pedantisch das "binär" nochmal davorzusetzen, es sollte klar sein
    • "primär am Inhalt der Datei": Wirklich problematisch. Hier habe ich mal "für den Endbenutzer sichtbaren" vorne ergänzt, im Gegenzug im Folgesatz den Benutzer herausgenommen.
    • "beim Inhalt kann es sich beispielsweise auch um ASCII-Art": Hier habe ich Inhalt schlicht weggelassen, es ist nicht nötig, durch den vorausgehenden Halbsatz ohnehin klar, eher verwirrend
    • "und zur Auswertung des Inhalts" Wirklich schlecht formuliert, unnötig missverständlich, habe es durch "Verständnis der Bedeutung" ersetzt.
  • "Dateiformat" weiter vorne: Stimmt schon, wäre nicht schlecht. Anderseits fand ich es geschickt, es zu Beginn des 2. Absatzes zu nehmen, da es dort auf jeden Fall hin muss (als Gegenstück zur sich am "Nutzungsinhalt" der Datei orientierenden ugs. Verw.). Sonst hätte man es doppelt. Meinst Du wirklich, es muss unbedingt vor? Wenn ja, in welchen Satz würdest Du es unterbringen?
--Cactus26 (Diskussion) 17:06, 4. Jul. 2013 (CEST)