Diskussion:N-Gramm

aus Wikipedia, der freien Enzyklopädie

Diskussion:N-Gramm

Artikel muß überarbeitet werden, da die Einschränkung von N-Gramm auf n Zeichen nicht richtig ist; es kann sich auch um Wörter u.a.m. handlen. Vgl. den englischen Wiki-Artikel zu N-Gramm :-)

Wieso? Es ist doch von Zeichen die Rede (mit Buchstaben als Beispiel). Wenn das zugrundeliegende Alphabet aus Wörtern besteht sind die zeichen eben Wörter, oder?
Das ist nicht richtig und zudem verwirrend. Außerdem wird in den Beispielen immer Einzelzeichen benutzt und nicht auf die anderen Deutungen hingewiesen. Im Google-Abschnitt werden dann plötzlich aber Wortgruppen benutzt. -- Philip

Besser wäre wohl so etwas wie 'Ein N-Gramm ist eine Folge aus N Einheiten, beispielsweise von N Buchstaben oder N Worten.' (nicht signierter Beitrag von 132.187.87.80 (Diskussion) 14:52, 23. Dez. 2010 (CET))


Hilfsymbole eingefügt bei der Dice-Koeffizient Berechnung, ist vielleicht etwas intuitiver.

cyriz(Der vorstehende, nicht signierte Beitrag stammt von 85.179.77.111 (DiskussionBeiträge) 8:31, 24. Mai 2007) -- PvQ 08:32, 24. Mai 2007 (CEST)

Autorenliste aus Trigrammstatistik

Ich habe den Artikel Trigrammstatistik hier eingearbeitet, hier die Autorenliste (die sich auch in einer Zwischenversion des Textes befindet):

11:06, 24. Jan. 2008 141.3.164.42 (Diskussion) (1.684 Bytes) (la) (rückgängig)

23:11, 8. Aug. 2007 Thornard (Diskussion | Beiträge) (1.286 Bytes) (rückgängig)

06:58, 31. Mär. 2007 PortalBot (Diskussion | Beiträge) K (Umsetzung "Prettytable", Bugs unter Vorlage_Diskussion:Prettytable/Bugs melden) (rückgängig)

17:10, 25. Mär. 2007 Trickstar (Diskussion | Beiträge) (neue kat) (rückgängig)

07:19, 8. Sep. 2006 OS (Diskussion | Beiträge) K (Link) (rückgängig)

06:50, 7. Sep. 2006 OS (Diskussion | Beiträge) (Trigramme sind auch in der Kryptologie wichtig! Als Beispiel eine Statistik angegeben.) (rückgängig)

10:21, 25. Aug. 2006 Chrislb (Diskussion | Beiträge) K (link) (rückgängig)

22:47, 15. Mär. 2006 Zwobot (Diskussion | Beiträge) K (Bot: Entferne Vorlage: Stub; kosmetische Änderungen) (rückgängig)

00:49, 29. Apr. 2005 Srbauer (Diskussion | Beiträge) (Kategorie:Linguistik) (rückgängig)

04:53, 13. Okt. 2004 Abendstrom (Diskussion | Beiträge) (rückgängig)

23:04, 12. Okt. 2004 Mwka (Diskussion | Beiträge) (neu angelegt)

-- Jesi 05:52, 29. Jan. 2008 (CET)

Verschwörungstheorie

Dieser Abschnitt ist im Sinne der Verschwörung absolut perfekt. Für Uneingeweihte ist absolut nicht ersichtlich, worin die Verschwörung bestehen soll ;-) --89.14.16.26 10:41, 15. Apr. 2008 (CEST)

Menge?

Ein N-Gramm ist eine Menge aus N Zeichen

Stimmt das so? Nicht, dass ich vom Fach wäre und Ahnung von N-Grammen hätte, aber aus dem übrigen Artikel scheint mir mehr hervorgehen, dass ein N-Gramm geordnet ist, Mengen sind generell nicht geordnet. --195.227.10.67 14:34, 11. Jul. 2008 (CEST)

Genau das habe ich mir auch gedacht, als ich den Artikel las. Das wuerde ja bedeuten, dass 'zu mir' das gleiche wie 'mir zu' ist. Das ist aber definitiv falsch. Im englischen Artikel ist uebrigens auch von sequence die Rede. Mangels anderer Meinungen aendere ich das jetzt. -- Covânt 06:20, 16. Jul. 2008 (EST)

Ihr seid alle Homos!

N, R und D sind keine Bigramme, sondern Monogramme! Wikipedia besteht wohl aus einem Haufen analphabetischer Dillettanten, die noch nicht bis 2 zählen können. (nicht signierter Beitrag von 87.189.109.8 (Diskussion) 08:58, 12. Mai 2015 (CEST))

Dice-Koeffizient

Mehrere Anmerkungen/Fragen: Gehört der Dice-Koeffizient wirklich hierher? Teilmenge durch Gesamtzahl zur Bestimmung eines relativen Wertes ist ja nun wirklich ein fast überall anwendbares (und angewandtes) Konzept und nach en:Sørensen–Dice_coefficient ist das tatsächlich viel Allgemeiner und nicht nur auf N-Gramme anzuwenden. Und Nummer zwei: Stimmt das Beispiel überhaupt? Wenn ich d(Work, Wirk) mit 1-Grammen durchreche, kommt 3/4 raus, trivial (genau 1 Buchstabe anders). Bei 2-Grammen käme 1/3 raus (Schnittmenge „rk“, Gesamt 2-Gramme = 2 mal 3, macht 2/6 = 1/3) und bei Trigrammen kommt 0 raus, weil keine Trigramme doppelt vorkommen. Die „§“-Notation wird auch nirgends erläutert. Wenn ich beliebig viele Leerzeichen vorne und hinten einfügen darf, kann ich mir ja viel konstruieren. Der genannte englische Artikel macht diesen Schritt auch gar nicht. Der en:N-gram erwähnt davon auch kein Wort. Er berücksichtigt zwar Leerzeichen innerhalb eines Strings, fügt aber keine nicht-existenten Leerzeichen vorne/hinten an.

Wenn das Beispiel tatsächlich so stimmt, würde ich mir wünschen, dass der Artikel dazu noch mehr erläutern würde. --Stefan 22:06, 28. Okt. 2015 (CET)

Ich stimme dem ersten Teil ("überall" anwendbar) zu; außerdem ist der Dice-Koeffizient nicht das einzige Ähnlichkeitsmaß für Mengen. Dafür wäre ein eigener Artikel hübsch. -- UKoch (Diskussion) 19:42, 19. Okt. 2021 (CEST)
Ich habe entsprechende Änderungen gemacht. Den oben erwähnten eigenen Artikel gibt es schon, wie ich gerade - verspätet - bemerkt habe. -- UKoch (Diskussion) 20:43, 29. Okt. 2021 (CEST)

Trigramme-Grafik richtig beschriftet?

Unter der Trigramm-Grafik steht: "[...]Die Tripel ER_ und EN_ sind am häufigsten („_“ steht für das Leerzeichen)." Hmmm, ich sehe aber kein "_" als Legende. Da könnte vielleicht jemand nacharbeiten? Grüße --Atc (Diskussion) 01:16, 19. Dez. 2015 (CET)

Nur der Form halber: Fernmeldegeheimnis

Verletzung des Fernmeldegeheimnis als Amtshandlung wird mit 3 Jahren Haftstrafe geahndet. 1 Jahre ohne Amtshandlung ausserdem lebenslange Untersagung von beamtetem Dienst.

Emails unterliegen zur Gänze dem Fernmeldegeheimnis.

Abhören, bzw. mitlesen und das Auswerten durch Datenverarbeitung von Emails in Massenfokus stellt einen direkten Angriff auf die demokratische Grundordnung dar.

Und stellt damit den Straftatbestand des Landeshochverrates dar.

Verfahrensweise darf nur sein, auf Verdacht gegen eine Einzelperson oder eine Organisation, deren Umfeld auf richterliche Anordnung hin zu belauschen, der Vorgang muss nach N-Zeit (<10 Jahre) ohne Ergebnis mitgeteilt werden, der Eingriff in die Intimssphäre bedarf der nachvollzogenen Begründung, die sich der Rechtsabhilfe stellt und darüber eine Rechtsbelehrung erteilt, das gegen das Vorgehen geklagt werden darf.

Entzug der Widerspruchoption stellt eine schwere Körperverletzung am demokratischen Ehrkörper dar, der Integrität der Person.

Recht hat sich selbst zu mässigen.

Geheimdienste müssen sich dabei klar sein, dass man von ihnen Straftaten verlangt im Rahmen ihrer Aufgabe. Straftaten bleiben es dennoch, die Abwägung zum Ermittlungserfolg gestellt werden müssen, um sie auf Ordnungswidrigkeit in Nothabe zu reduzieren.

Eine ProForma Erlaubnis darf mit der Erinnerung die Beichtmissbrauchsmethodik der Kirche oder das Dritte Reich nicht Einzug nehmen. Exzeption vom Schutz der Fernmeldegeheimnis kann nur im abwägenden Ermessen unter Hinnahme der Verantwortung erfolgen.

--Vidoc-die-Krähe_/()/) (nicht signierter Beitrag von 80.137.27.77 (Diskussion) 07:56, 3. Mär. 2017 (CET))

Bis ins letzte Detail alles völlig richtig, nur juckt das die Geheimdienste herzlich wenig, schon gar nicht die amerikanischen, russischen, britischen, französischen usw. Im Übrigen stehen alle Server der weltweit größten E-Mail-Provider sowieso in der USA genauso wie all die anderen großen Kommunikationsplattformen wie WhatsApp, facebook, Twitter etc. auf die das ja ebenfalls zutrifft.--Ciao • Bestoernesto 22:45, 17. Okt. 2021 (CEST)

Wahrscheinlichkeiten

„Die bedingten Wahrscheinlichkeiten für die Buchstaben des Alphabets in der englischen Sprache sind in absteigender Rangreihenfolge: a = 0,4, b = 0,00001, c = 0, … mit einer Gesamtsumme von 1.“ — Und was ist mit den übrigen Buchstaben? In der Form ist die Info eher verwirrend, oder? Es wäre schön, wenn einer der Beobachter antworten würde, da ich bei diesem Abschnitt etwas auf dem Schlauch stehe. Danke--Curc (Diskussion) 20:36, 26. Jun. 2017 (CEST)

Es geht nur um das Beispiel "for ex...". Dass der nächste Buchstabe a ist, ist sehr (0,4) wahrscheinlich (denn meist wird es mit for example weitergehen), b ist ziemlich unwahrscheinlich, c völlig unwahrscheinlich. Letzteres glaube ich unbelegt nicht, denn "for exceptional bravery", "for exclusive use" o. ä. scheinen mir keineswegs unmöglich; aber von meinen Zweifeln abgesehen wäre es müßig, jetzt die Wahrscheinlichkeiten aller Buchstaben des Alphabets durchzuexerzieren. Am Ende muss eins herauskommen, denn irgendein Buchstabe wird zwangsläufig folgen. Dumbox (Diskussion) 00:06, 27. Jun. 2017 (CEST)
Da ist auch nicht glatt Null gemeint, sondern die Nachkommastellen wurden getilgt, nur kaum erkennbar. Hier, Seite 2, da sieht man deutlicher, dass es sich um Auslassungspunkte handelt, eben weil der Rest für ein Beispiel müßig ist. Aber der gesamte Abschnitt ist nicht gut geschrieben. -ZT (Diskussion) 00:29, 27. Jun. 2017 (CEST)
@Dumbox, Zero Thrust: Danke euch für die Beteiligung! Für mich bleibt nun leider noch ein kleines Verständnisproblem: Dass bei dem Beispiel "for ex..." eine Fortsetzung des Fragmentes mit a deutlich wahrscheinlicher als für alle anderen Buchstaben ist, ist m. E. noch nicht evident, da ja die Aufzählung wie gesagt nicht vollständig ist – es könnte schließlich theoretisch noch ein Buchstabe existieren, dessen Wahrscheinlichkeit in der Nähe derer von a liegt, nicht?--Curc (Diskussion) 23:31, 28. Jun. 2017 (CEST)

"Indexierung"

Das Wort gibt es nicht. Es heißt "Indizierung". (Und Netzwerke sind Fabriken für Netze.) --78.51.137.148 08:18, 23. Nov. 2017 (CET)

   Das ist nicht richtig. Indexierung gibt es genauso: https://www.duden.de/rechtschreibung/Indexierung Beide können weitestgehend synonym benutzt werden. --Vankog (Diskussion) 13:05, 23. Nov. 2017 (CET)

Definitionsschwierigkeiten

Lieber Bestoernesto,

hier machst Du meine Änderung rückgängig und begründest:

"Änderung 216345999 von KaiKemmann rückgängig gemacht; Das war schon richtig so, da "Fragment" ein Oberbegriff darstellt unter dem (alphanumerische) Zeichen also auch bzw vor allem Buchstaben als kleinst mögliche Einheit zu sehen sind "

Das verstehe ich nun nicht.

In der Einleitung steht "N-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente."

Du erläuterst hierzu: "Die Fragmente können einzelne Kombinationen alphanumerischer Zeichen oder Tokens sein."

Warum sollte man sich in der näheren Darstellung der N-Gramme im ersten Abschnitt des Artikels dann auf einzelne Zeichen beschränken und die Zeichenkombinationen (Fragmente), mit denen sich die Einleitung beschäftigt, nun außen vor lassen? Scheint mir ein Widerspruch und erschwert neben der bereits erwähnten Verwirrung, die aus der nebeneinanderstehenden Verwendung von "Zeichen" und "Buchstaben" erwachsen kann, das Verständnis.

beste Grüße, Kai Kemmann (Diskussion) - Verbessern statt löschen - 09:43, 17. Okt. 2021 (CEST)

PS: Sehe gerade, dass sich die oberste Diskussion auf diese Seite auch bereits mit dieser Fragestellung befasst ..

Hallo Kai Kemmann,
  • Zum Einen ist der Begriff "Fragment" einfach nur so eine Art Allgemeinplatz und gefällt mir auch in der Einleitung nicht so besonders gut, klingt es doch so nach den meist unvollständigen Überresten von etwas Zerstörten. So sind die meisten Meteoriten Fragmente von Asteroiden, Scherben z.B. die Fragmente einer auf dem Boden zerschellten Blumenvase, Zähne oder nicht zerfallene Knochenteile sind Fragmente eines Skeletts aus der Grabstätte z.B. eines Neandertalers, nur bruchstückhaft überlieferte Texte sind Fragmente literarische Werke aus grauer Vorzeit, die Überreste oder Fragmente eines teilweise durch Brand zerstörten Gemäldes etc. p.p.
  • Unseren Leser*innen sollte jedoch durchgängig ins Auge stechen, dass es sich bei N-Grams immer und ausschließlich um alphanumerische Zeichenfolgen (ggf unter Einbeziehung von Sonderzeichen wie z.B. "€") handelt.
  • Ich kann nicht nachvollziehen, wo Du da eine Verwechslungs-Möglichkeit oder gar den Widerspruch zwischen den Begriffen "Buchstaben" und "Zeichen" siehst. Mal davon abgesehen, dass alle Beispiele im Artikel und den Diagrammen ausschließlich auf Buchstaben beruhen, handelt es sich bei letzteren so wie bei Ziffern(folgen) immer um (Schrift-)Zeichen.
  • Aber um irgendeinem möglichen Restmissverständnis vorzubeugen habe ich im ersten Abschnitt nochmals "alphanumerisch" hinzugefügt.
  • Abschließend sei bemerkt, dass in der Literatur-Wissenschaft der Begriff "Fragment" eine ganz andere Bedeutung hat als die hier gemeinte.
--Ciao • Bestoernesto 18:20, 17. Okt. 2021 (CEST)
Ich habe den Begriff "Fragment" ja in diesem Zusammenhang nicht eingeführt, finde ihn jedoch im Sinne des "Textfragments" durchaus verständlich, nachvollziehbar und angebracht.
Der Satzteil: "Das Monogramm besteht aus einem alphanumerischen Zeichen, beispielsweise nur aus einem einzelnen Buchstaben, ..." liest sich für mich jedoch ein wenig absurd und wirkt auf Anhieb so, als wäre da irgendetwas sprachlich Durcheinandergeraten.
Du verwendest ja oben einmal "Zeichenfolge", was mir zwar weniger ideal scheint als "Fragment", aber wenn man letzteres partout vermeiden wollte, so könnte man den verqueren Satz beispielsweise auf diese Weise retten:
"Das Monogramm besteht aus einer alphanumerischen Zeichenfolge oder auch nur aus einem einzelnen Buchstaben, das Bigramm aus zwei und das Trigramm aus drei Zeichenfolgen. .."
beste Grüße, Kai Kemmann (Diskussion) - Verbessern statt löschen - 02:20, 18. Okt. 2021 (CEST)
  • Statt "Fragmente" schreiben die Anglophonen "items", die Franzosen "éléments", die Spanier "elementos", die Italiener "elementi", die Polen "elementu", die Portugiesen "itens", die Norweger "elementer", die Tschechen "položek". Schnittmenge aller Übersetzungs-Varianten ins Deutsche nach PONS ist: Elemente, Bestandteile, Komponenten, Einheiten und Segmente. Finde ich allesamt zutreffender, passender, geeigneter.
  • In der Fachliteratur wird übrigens nicht selten statt oder parallel zu "Zeichenfolge" auch von "Zeichenkette" geschrieben, z.B.: hier, hier, hier oder hier
  • Was soll an dem Satzteil: "Das Monogramm besteht aus einem alphanumerischen Zeichen, beispielsweise nur aus einem einzelnen Buchstaben, ..." absurd oder sprachlich durcheinander geraten. sein? Er beschreibt exakt die Situation, wie sie in der ersten Beispielzeile der Tabelle am Ende des Abschnitts angeführt ist.
  • Dein vorgeschlagener Satz scheitert schon an dem Umstand, dass der Begriff "Zeichenfolge" (oder auch "Zeichenkette") mehr als nur ein einzelnes Zeichen, also mindestens zwei Zeichen voraussetzt, dass Monogramm aber nur aus einem einzelnen Zeichen besteht.
  • Aber vielleicht sollten wir nunmehr auch mal ein paar andere Benutzer, die schon mal am Artikel mitgearbeitet haben hier um ihre Meinung bitten: @MTheiler, Karl-Hagemann, Emeritus, UKoch, Kku: Leider sind die meisten nur noch sehr sporadisch WP-Aktiv, aber vlt gibt's wenigstens eine weitere Meinung
--Ciao • Bestoernesto 08:40, 18. Okt. 2021 (CEST)
Gerade hier noch aus alten Disk-Beiträgen gefischt: @Atc, Dumbox, Jesi:, mit Bitte um Meinung zum hiesigen Abschnitt.--Ciao • Bestoernesto 15:26, 18. Okt. 2021 (CEST)
Hmm, ich trete hier zwar als Diskutant auf, aber das war nur eine formale Sache. Ich hab nach dieser Löschdiskussion den früheren Artikel Trigrammstatistik hier eingearbeitet und eine WL eingerichtet. Sachlich/Inhaltlich kann ich dazu wohl nichts beitragen. -- Jesi (Diskussion) 15:42, 18. Okt. 2021 (CEST)
Danke für das Ping. Ich denke, am Anfang des Artikels muss klar gesagt werden, dass die Bestandteile eines N-Gramms einzelne Schriftzeichen (z.B. Buchstaben), aber auch Wörter (genauer: Wortformen) sein können. Von Alphanumerik zu reden ist hier m.E. unnötig. Weiter unten kann ich darum
Das Monogramm besteht aus einem alphanumerischen Zeichen
nicht nachvollziehen: Ein Monogramm kann auch aus einem Wort (genauer: einer Wortform) bestehen. -- UKoch (Diskussion) 19:18, 19. Okt. 2021 (CEST)
@UKoch, wenn wie Du behauptest, ein Monogramm kann auch aus einem ganzen Wort bestehen könnte, dann müsste logischer Weise ein Bigramm aus zwei ganzen Wörtern und ein Trigramm aus drei ganzen Wörtern usw bestehen können. Dies stünde aber im Widerspruch zum restlichen Text, der Beispieltabelle und den beiden Diagrammen. Nach der Beispiel-Tabelle wäre z.B. das ganze Wort "Haus" ein Tetragramm.
Aber ich habe nunmehr beschlossen mich hier aus der ganzen Angelegenheit zurück zu ziehen, da mir das alles etwas zu konfus ist und das Lemma mal abgesehen vom Google Books Ngram VIewer sowieso bei weitem nicht zu meinen Lieblingsthemen zählt. Euch viel Vergnügen weiterhin.--Ciao • Bestoernesto 04:10, 20. Okt. 2021 (CEST)
Ich muss zugeben, dass ich möglicherweise auf dem falschen Weg war und kann mich inzwischen Bestoernestos Sichtweise teilweise anschließen. Jedenfalls danke ich ihm sehr für das Heraussuchen der alternativen Begriffe.
Das einzige Problem, das ich bei den Begriffen Elemente, Bestandteile, Komponenten, Einheiten und Segmente sehe, ist, dass diese den Anschein erwecken, als spräche man lediglich über vollständige Wörter: Satz-Bestandteile oder Satz-Elemente eben. Da in den "Fragmenten" im Gegensatz dazu die Fraktur, also der Bruch steckt, weist dieser Begriff möglicherweise eher darauf hin, dass es um beliebige Zeichenfolgen innerhalb eines Textes geht.
Vielleicht könnten die bisherigen Hauptautoren Benutzer:Kku und Benutzer:Fg68at hier übernehmen und versuchen, aus dieser Diskussion hilfreiche Anregungen für eine noch klarere Darstellung ziehen ..
vielen Dank und beste Grüße, Kai Kemmann (Diskussion) - Verbessern statt löschen - 10:56, 20. Okt. 2021 (CEST)
Ja, wenn ein Monogramm aus einem Wort besteht, dann besteht ein Bigramm aus zwei Wörtern und ein Trigramm aus drei Wörtern. Das steht nicht im Widerspruch zum restlichen Text, sondern ergänzt diesen. Unter Analyse steht sogar:
Die N-Gramm-Analyse wird verwendet, um die Frage zu beantworten, wie wahrscheinlich auf eine bestimmte Buchstaben- oder Wortfolge ein bestimmter Buchstabe oder ein bestimmtes Wort folgen wird.
Hier wird also vorausgesetzt, dass die Bestandteile eines N-Gramms nicht notwendigerweise einzelne Buchstaben sind, sondern auch Wörter sein können. Genau so ist es in der (statistischen) Computerlinguistik. -- UKoch (Diskussion) 21:02, 20. Okt. 2021 (CEST)
Ich habe entsprechende Änderungen gemacht. Das ursprüngliche Anliegen, Fragment durch Element, Bestandteil oder Komponente zu ersetzen, ist davon m.E. unberührt; ich sinniere darüber nach. -- UKoch (Diskussion) 20:40, 29. Okt. 2021 (CEST)

Was fehlt

Mit Ausnahme des Google Books Ngram Viewer sind hier leider nur hochspezielle Einsatzgebiete wie Antiterror-Maßnahmen beschrieben mit denen Durchschnittsbürger*innen eher selten konfrontiert sind. Hingegen fehlen Beispiele wie der Duden, der vor jeder Neuauflage die Stichwortauswahl aus seinem Korpus an Hand von N-Grammen neu zusammen stellt, kaum noch genutzte Worte fallen raus, sich häufend genutzte werden hinzu gefügt. Darüber hinaus gewinnt der Duden seine, wenn auch nur in 5 Stufen unterteilte Häufigkeits-Angaben aus den NGrammen.

Auch die zumindest unter WP-Autoren sehr beliebten Wortverlaufskurven beim DWDS sollten vlt. als Einsatzbereich erwähnt werden.--Ciao • Bestoernesto 19:35, 17. Okt. 2021 (CEST)

Klingt sehr interessant, muss ich mal nachschauen. Vielen Dank! -- kakau (Diskussion) 12:26, 20. Okt. 2021 (CEST)