Diskussion:Buchstabenhäufigkeit

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 6. Juli 2022 um 15:41 Uhr durch imported>Anonym~dewiki(31560) (Neuer Abschnitt →‎Schriftzeichenhäufigkeit politisch belasteter Zeichen).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Diese Diskussionsseite dient dazu, Verbesserungen am Artikel „Buchstabenhäufigkeit“ zu besprechen. Persönliche Betrachtungen zum Thema gehören nicht hierher. Für allgemeine Wissensfragen gibt es die Auskunft.

Füge neue Diskussionsthemen unten an:

Klicke auf Abschnitt hinzufügen, um ein neues Diskussionsthema zu beginnen, und unterschreibe deinen Beitrag bitte mit Icondarstellung des Buttons zur Erzeugung einer Signatur oder --~~~~.

Umlaute

Umlaute als ae, oe usw. zu zählen ist unsachgemäß und ergibt außerdem eine zu hohe Häufigkeit für 'e'.

Fragen zu den Statistiken, Quellenangabe

Ich habe gesehen, daß es ebenfalls im Artikel Deutsches Alphabet um die Buchstabenhäufigkeit geht. Man sollte also beides irgendwie zusammenbringen. (Außerdem ist bei jedem Buchstabenartikel eine Häufigkeit des Buchstabens angegeben - leider ohne Quellenangabe. Das sollte miteinander verlinkt werden!) Wünschenswert wäre auch, daß Statistiken fürs Deutsche verwendet werden, die auch die Buchstaben ä, ö, ü, ß miteinbeziehen (oder aber daß gesagt wird, wie diese Buchstaben subsummiert sind - z.B. ä als a oder ä als ae? Außerdem tauchen in deutschen Texten auch andere Buchstaben auf, z.B. é. Was ist damit?). Wichtig wäre auch die Angabe, ob die Statistiken vor oder nach der Rechtschreibreform entstanden sind.--Martin Beesk 19:29, 26. Jan 2005 (CET)

bin ebenfalls der meinung das eine quellenangabe fehlt. aufgrund welcher quellen ist diese statistik entstanden? wurden nur die bibel durchsucht oder, wovon ich gerade lese, der Duden Korpus, was ein wenig standardisierter wäre. -- Qopep 20:25, 17. Sep 2005 (CEST)
könnte das die Quelle sein: «DU», Nr. 739? Nach .doc (2001?) ist ‚Kryptologie’ von A. Beutelspacher eine Quelle; Beutelspacher, Albrecht: Kryptologie, Vieweg Verlagsgesellschaft, ISBN 3-528-48990-1 (2000), ISBN 3834800147 (7. Aufl. 2005) -- Cherubino 12:50, 10. Nov 2005 (CET)
Ich bin dafür, dien Artikel zu löschen, dafür dann Deutsches Alphabet zu überarbeiten. --Fornax-Galaxies 16:56, 20. Nov 2005 (CET)

Ich finde diesen Artikel einfach nur cool (vorallem wenn man Geigenmännchen spielt) Ich habe gesucht und dieses dazu gefunden! --Schwalbe007 17:38, 2. Dez 2005 (CET)

ich fände häufigkeitsangaben für andere sprachen noch sehr interessant. anne, 19.1.06

Widerspruch in der Häufigkeitsauszählung

Die hier angegebenen Häufigkeiten stehen im Widerspruch zu dem verlinkten Bild:Alphabet_haufigkeit.png. Laut dem Diagramm kommt das D 9.270.289 mal vor, was bei 232.073.370 Zeichen 3,99% entspricht. Läßt man die Satzzeichen (Blanks, Punkt, Ruf- und Fragezeichen) weg, bleiben 197.687.534 Zeichen, was dann 4,69% entspricht. Der Artikel gibt demgegenüber 5,08% an. Es sollte also entweder die Quelle gefunden werden, die der Tabelle zu Grunde liegt, oder die Tabelle sollte an das Diagramm angepasst werde. Cool wäre natürlich, wenn jemand alle Wikipediaartikel herunterladen und auszählen könnte – alles in [[]], [] bzw {{}} müßte dabei natürlich ausgenommen werden. --89.204.139.128 17:19, 30. Sep. 2010 (CEST)

Ich sehe da keinen Widerspruch. Das Diagramm zeigt die Häufigkeit, die eine Forschungsgruppe bei einem Text gefunden hat. Die Quelle der Tabelle ist angegeben. Das die nicht identisch sind ist durch die normale statistische Abweichung erklärbar und absolut im Rahmen. --P.C. 17:24, 30. Sep. 2010 (CEST)
Bei einer Testbasis von 230 Millionen Zeichen würde ich erwarten, dass die Abweichung im Bereich von 1% höchstens 2% liegt. In diesem Fall beträgt sie mindestens 7,6%. Das scheint mir doch deutlich größer als die zu erwartende statistische Abweichung zu sein. Wie groß ist denn der Text auf den sich Beutelsbacher bezieht? --89.204.155.161 13:53, 1. Okt. 2010 (CEST)
"Scheint" ... WP:TF? Und wo steht die Textmenge die verwendet wurde um die Statistik im Bild zu erzeugen? --P.C. 12:15, 4. Okt. 2010 (CEST)

Häufigkeitsangaben ohne Sprachbezug

ich interessiere mich auch für Häufigkeitsangaben OHNE Sprachangabe, also alle texte mit (lateinischem?) Alphabet, finde aber leider nichts zu dem Thema. hanfi 22.12.06

Im Link andere Zahlen als im Artikel

in dem weblink werden amdere zahlen genannt als im artikel .luk.

Krüger

Im Bereich Anwendung steht folgender Satz: "Dabei werden die Häufigkeiten der einzelnen Zeichen im Krüger festgestellt, und dann". Was heißt denn in diesem Zusammenhang "Krüger" das wird nicht weiter erklärt und auch in der Wikipedia ließ sich sonst dazu nichts finden. --JensKohl 15:53, 3. Aug 2006 (CEST)

Komischer Satz-unvollständig?

Die Häufigkeit von Anfangsbuchstaben gibt an, wie häufig ein Buchstabe als erster Buchstabe eines Wortes vorkommt. Sie hängt relativ stark von der Textart ab. Für Fließtext sind die fünf häufigsten Anfangsbuchstaben

Und dann geht es leider nicht weiter. Welches sind denn nun die fünf häufigsten Anfangsbuchstaben??? Bitte ergänzen - oder ist der Abschnitt in Arbeit? --Bücherwürmlein 17:16, 8. Mär. 2007 (CET)

Darunter ist so eine Tabelle mit den 5 häufigsten Abfangsbuchstaben: D, S, E, I, W. Schon gesehen? --82.207.190.210 18:31, 14. Apr. 2007 (CEST)

P viel zu selten und anderes

Ich bekomme einfach nicht in den Kopf, dass das P so selten sein soll. Es ist doch bestimmt häufiger als ein Prozent in deutschen Texten, oder? Und überhaupt, das E ist doch nicht sooo häufig wie angegeben. Wie weiter oben schon erwähnt, labt sich das E an Ä, Ö und Ü, die im Gegensatz zu dem ß nicht aufgelistet sind, was mich sehr empört. Und kann man nicht die Buchstabenhäufigkeit einiger anderer Sprachen angeben (oder wenigstens Links dazu)? --82.207.190.210 18:43, 14. Apr. 2007 (CEST)

Das wär jetzt auch meine Frage gewesen, da hier seit dem 17.4. niemand geantwortet hat, gehe ich davon aus, dass "man" nicht kann.--Fecchi 21:05, 10. Sep. 2007 (CEST)
Liebe Leute! Eure Frage war mir irgendwie entgangen. Doch, es stimmt: "p" gehört zum letzten Drittel der Buchstaben. Die Zahlen schwanken je nach Text oder Textkorpus, aber "p" liegt in meinen Unterlagen nie besser als Platz 20. Sein Textanteil liegt fast immer deutlich unter 1%. "e" dagegen ist im Dt. immer der häufigste Buchstabe, egal welche Textgrundlage man nimmt. An "ä, ö, ü" kann das "e" sich kaum laben: die sind ebenfalls sehr selten. (vgl. Literaturangaben im Artikel)

Oben: Ihr Text enthält in fünf Zeilen sechs 'p', also sechs von grob geschätzt 350 Buchstaben (hab' nicht nachgezählt), knapp unter 2%. Soviel ist das nicht.

Was die Umlaute betrifft: gibt es keine Statistik, die die Umlaute normal zählt? Die Verzerrung zugunsten des 'e' ist nicht überwältigend, aber wenn die eingebundene Grafik halbwegs stimmt, werden dem 'e' von der benutzten Quelle immerhin 1,2% Häufigkeit zugeschustert, die im tatsächlichen Schriftbild eines deutschen Texts nicht vorhanden sind. Dazu wird durch die Fehlzählung des 'ä' der Buchstabe 'a' um einen Rang angehoben, was ich nicht mehr ganz so trivial finde. --77.22.105.42 21:53, 15. Nov. 2010 (CET)

Buchstabenstatistiken anderer Sprachen

Einen Link auf Buchstabenstatistiken anderer Sprachen habe ich leider nicht zur Hand. Grüß Euch! Dr. Karl-Heinz Best 21:52, 10. Sep. 2007 (CEST)

Siehe die anderssprachigen versionen dieses artikels. Entgegen verbreiteter vorurteile ist das "ü" nicht der häufigste buchstabe der türkischen sprache! Tobias b köhler 20:31, 1. Okt. 2007 (CEST)
Ich hab mal die Statistiken für ein paar andere Sprachen eingefügt. Vielleicht kann ja jemand (der sich damit besser auskennt als ich) eventuelle Fehler ausbessern. Gruß Alexkin 16:58, 13. Feb. 2008 (CEST)
Du solltest das Deutsche auch noch mit in die Tabelle nehmen, so dass man es einfacher vergleichen kann. --Thornard, Diskussion, 17:06, 13. Feb. 2008 (CET)
Gute Idee. Ich habe Deutsch eingefügt.--Alexkin 22:22, 21. Feb. 2008 (CET)
Da hat jemand im französischen œ (wie in cœur, sœur) nicht mitgezählt? Oder oe immer separat? Wie kommts sonst zu 0,00% ? Tobias b köhler 02:52, 23. Feb. 2008 (CET)
Ich habs ausgebessert. Die französische und die spanische Spalte waren bei dem Buchstaben (œ) vertauscht.--Alexkin 16:06, 23. Feb. 2008 (CET)

Silbenhäufigkeit

Gibt es da eigentlich auch Messungen zu? --Reiner Stoppok 18:01, 16. Okt. 2008 (CEST)

Gibt's garantiert. Schau mal in W.D. Ortmann, 1980. Sprechsilben im Dt. München nach. Ich vermute, da ist so was drin. Etwas Ähnliches sind Statistiken zu Lautverbindungen, z.B. In Helmut Meier (1967) Dt. Sprachstatistik, Hildesheim: Olms, S. 275. Grüße! Dr. Karl-Heinz Best 21:28, 16. Okt. 2008 (CEST)

Buchstabenhäufigkeiten in deutschsprachigen Texten

Die Summe der Einträge in der dritten Spalte der ersten Tabelle ergibt 100,32%, ohne das ß wären es 100,01% was ja durch Rundung möglicher wäre. Ist irgendwie unlogisch. Also wurde die ß-Ligatur doch nicht separat behandelt? -- 22:56, 20. Mär. 2009 (CET) (ohne Benutzernamen signierter Beitrag von 79.216.127.241 (Diskussion | Beiträge))

Im Duden, Band 1, 25. Auflage, steht eine andere Reihenfolge. Auch die Prozentzahlen stimmen nicht überein. -- Harry8 20:49, 27. Aug. 2009 (CEST)

Wo bekomme ich denn eine komplette Auflistung der Prozentzahlen(also auch für die Endbuchstaben komplett)? Vielen Dank im voraus! (nicht signierter Beitrag von 188.96.236.227 (Diskussion | Beiträge) 16:33, 20. Okt. 2009 (CEST))

Schau mal in die heute erweiterte Literaturliste im Artikel: Muthmann 1988. Gruß! Dr. Karl-Heinz Best 18:19, 20. Okt. 2009 (CEST)

Genial! Genau das hab ich gesucht! Vielen Dank! :-) (nicht signierter Beitrag von 188.96.236.227 (Diskussion | Beiträge) 18:47, 20. Okt. 2009 (CEST))

Schweden

Wie hast Du impportiert? Weil da ist eine Vorlage aus der sv:WP enthalten. Die gibt es NUR EBEN im de:WP nicht.--Paule Boonekamp - eine Silbersonne 13:07, 25. Jun. 2009 (CEST)

ï im Englischen

Das i mit Trema (i mit zwei Punkten) wird in der Liste für das Englische mit 0,01% Häufigkeit angegeben. Mal davon abgesehen, dass ich kein Wort kenne, dass diesen Buchstaben enthält, taucht er auch nicht in der angegebenen Quelle auf. Anscheinend ist das Trema ja ein legitimes Mittel, um mitzuteilen, dass ein Vokal ausgesprochen wird. Aber dass das ï im Englischen die größte Häufigkeit hat, macht micht schon etwas stutzig.

--94.218.8.199 14:51, 26. Nov. 2009 (CET)

"naïve" wäre ein Wort, das mir im Englischen einfiele (nicht signierter Beitrag von 95.223.228.160 (Diskussion | Beiträge) 12:48, 27. Feb. 2010 (CET))

Abhängigkeit der verwendeten Schreibweise im Englischen

Ich kann mir kaum vorstellen, dass das "z" im Englischen die geringste Häufigkeit hat (vom "ï" einmal abgesehen), wenn es sich um die amerikanische Schreibweise handelt, da hier Verben sehr häufig aus "-ize" enden (statt "-ise" im Britischen Englisch). Leider findet sich im Artikel kein Hinweis darauf, auf welches Englisch sich die Häufigkeit bezieht; hat jemand vielleicht weitere Informationen oder kann den Artikel um die verschiedenen Schreibweisen des Englischen erweitern? -- 95.223.228.160 12:48, 27. Feb. 2010 (CET)

Schweizerisches Hochdeutsch

Gibt es eigentlich Literatur, die auf die Unterschiede von "Deutschem-" und "Schweizer-" Deutsch eingeht? Wir Schweizer schreiben noch viele Wörter in ihrer ursprünglichen z.B. französischen Form und nicht in der eingedeutschten Version (bsp. Bureau→Büro, Portemonnaie→Portmonee (Brieftasche), Sauce→Sosse (Soße?), Trottoir→? (Bürgersteig) etc.) dabei ergeben sich doch ein paar Unterschiede in der Anzahl der Buchstaben. --Meldir 21:39, 23. Jun. 2010 (CEST)

welcher buchstabe ist der häufigste in der deutschen sprache ?

wer hat flügel und kann dennoch nicht fliegen ? (nicht signierter Beitrag von 83.215.53.239 (Diskussion) 15:11, 21. Sep. 2010 (CEST))

Fehler in der schwedischen Häufigkeitsstatistik?

Beim Überschlagen der Vokalhäufigkeiten kam mir das Schwedische verdächtig vokalarm vor, und tatsächlich komme ich nur auf eine Häufigkeitensumme von 94,257%. Kann es sein, daß die Zeichen ä,ö,å unterschlagen wurden? Mehr als 1,2% Rundungsfehler sollten eigentlich unmöglich sein (und die Vokalhäufigkeit im schwedischen läge dann nicht bei knapp unter 30, sondern bei realistischeren 35%). --77.22.105.42 22:01, 15. Nov. 2010 (CET)

Chapeau! Für diesen Artikel

Ich habe keine Ahnung, ob das WP-zulässig: einen Artikel einfach mal zu loben! Der Gedanke, als ich diesen Artikel gefunden habe: "Jetzt weiß ich, warum der Brockhaus zugemacht hat." Also, ich habe für die Ablage-Aufteilung die Verteilung der Anfangsbuchstaben gesucht und -- bin hier fündig geworden. --Delabarquera 15:39, 21. Sep. 2011 (CEST)

Fehler in Grafik

In der Grafik zu den TriGrammen kommt das "UND" 2x vor - mit unterschiedlichen (an)Zahlen... ...was soll das?

--91.113.238.20 14:48, 10. Jan. 2012 (CET)

Fehler in der Tabelle

Kopiert von Fragen zur Wikipedia, ich weiß dazu nichts: --mfb (Diskussion) 14:05, 24. Sep. 2013 (CEST)

Hallo,
mir ist aufgefallen das in dem Artikel Buchstabenhäufigkeit ein Fehler ist und zwar in der Tabelle wo die Buchstabenhäufigkeit angegeben ist kommt man auf 100,31%. Da ich nicht wusste wo der Fehler lag konnte ich das nicht :bearbeiten und ich wusste nicht wie ich sonst den Fehler melden kann.
Vielleicht liegt das an dem ß weil das hat genau die Häufigkeit 0,31 und ohne das würde es ja passen.
Mit freundlichen Grüßen
Felix
--87.78.46.185 13:58, 24. Sep. 2013 (CEST)

Buchstabenhäufigkeit im Artikel selbst

Ich bin eben mal den Quelltext der aktuellen Version des Artikels durchgegangen und habe da die Buchstaben gezählt. Neben den 26 Buchstaben des Alphabets habe ich nur noch ß mitaufgenommen. Hier das Ergebnis:

Buchstabe Relative Häufigkeit
a 6.14 %
b 2.97 %
c 3.25 %
d 3.22 %
e 14.01 %
f 2.05 %
g 3.26 %
h 4.55 %
i 7.63 %
j 0.17 %
k 1.63 %
l 3.78 %
m 1.86 %
n 9.16 %
o 2.88 %
p 2.62 %
q 0.15 %
r 5.24 %
s 8.33 %
t 8.77 %
u 3.67 %
v 0.92 %
w 1.23 %
x 0.40 %
y 1.13 %
z 0.87 %
ß 0.08 %

Vielleicht wäre das auch für den Artikel interssant. --Jobu0101 (Diskussion) 10:43, 15. Apr. 2014 (CEST)

Buchstabenhäufigkeiten der erweiterten lateinischen Alphabets

Was bringt es denn die Buchstaben vor allem beim Polnischen extra aufzuschreiben, wenn dann da nur steht man solle sich den ableitenden Buchstaben anschauen und dort dann trotzdem nur ein Wert steht oder habe ich was übersehen --89.183.64.167 19:33, 5. Nov. 2015 (CET)

Buchstabenhäufigkeit in ausgewählten Sprachen

In der Tabelle kommen alle möglichen Akzentformen der Buchstaben vor, aber nicht die deutschen Umlaute ä, ö und ü. Warum? Außerdem ist für ë für alle Sprachen 0,00 % angegeben, was zumindest für Französisch nicht stimmen kann? --88.217.57.219 00:49, 17. Aug. 2016 (CEST)

Zeichen- und Buchstabenhäufigkeit basierend auf einer Stichprobe von knapp 180 Milliarden Zeichen

Wir haben heute in den Abschnitt Weblinks einen Verweis auf die Zeichen- und Buchstabenhäufigkeitstabellen des Instituts für Deutsche Sprache in Mannheim eingefügt. Den Statistiken liegt eine Textstichprobe von 179617554197 (knapp 180 Milliarden) Zeichen aus dem Deutschen Referenzkorpus zugrunde, siehe Dokumentation. --(nicht signierter Beitrag von 193.196.8.105 (Diskussion) 11:16, 19. Mär. 2018 (CET))

Schriftzeichenhäufigkeit politisch belasteter Zeichen

Kann jemand bestätigen, dass in allen ostasiatischen Sprachen die Zeichen U+534D und U+5350 (zumindest wenn das Tempelzeichen in Stadtplänen und Landkarten nicht mitgezählt wird) deutlich seltener sind, als es die Buchstaben Z und z in den meisten EU-Amtssprachen tun? Oder habe ich mich geirrt? --2003:D2:4F1B:7FCB:740B:9DE:E0C5:FF9C 17:41, 6. Jul. 2022 (CEST)