Diskussion:Elo-Zahl
Quellenangabe
Dieser Artikel ist eine (sinnvolle) Auslagerung aus Wertungszahlen im Schach. Die Autoren sind hier zu sehen. -- tsor 10:30, 19. Feb 2006 (CET)
Weiteres
Bei der FIDE liegt die Mindestelo bei 1600. D. h. Spieler die diese Zahl im Schach nicht erreichen, werden auch nicht aufgenommen und bekommen keine Elo. Irgenwo sollte das schon vermerkt werden, wenn man angibt dass ein Spieler mit Elo 1200 Kreisklasseniveau hat sollte man schon angeben dass diese Elo zur Zeit utopisch ist da jede Elo unter 1600 nicht erreichbar ist.
- Für die FIDE-Rangliste stimmt das (ich habe einen entsprechenden Satz in den Artikel eingefügt). Allerdings gibt es ja auch nationale Schachverbände, die das Elo-System anwenden, und die führen alle Spieler auf. Stefan64 01:42, 8. Okt 2005 (CEST)
Auf der Homepage der FIDE (www.fide.com) wird nicht mehr von ELO-Zahl, sondern nur noch von "FIDE-Rating" gesprochen.
Wie sollte der neue Eintrag heißen?
MiKe
Rating ist nur ein Allgemeinbegriff für sämtliche Wertungssysteme. So ist zum Beispiel auch das DWZ-System im internationalen Sprachgebrauch ein Ratingsystem. Das FIDE-Rating wird auch als FIDE-Elo bezeichnet. Elo sollte in Kleinbuchstaben geschrieben werden, weil es keine Abkürzung ist.
Frank Hoppe Referent der Zentralen Wertungsdatenbank des DSB
- Möglicherweise wird die Bezeichnung nach Elo vermieden, da die Berechnungsformel geändert wurde, siehe englischen Artikel. --80.129.109.156 11:20, 23. Nov. 2006 (CET)
absolute ELO-Eichung
Wer T-Rex 1.9 nie schlägt hat ELO 900, da dieser ELO 1500 hat. Ich habe einige Angaben nach unten korrigiert. Ich gewinne immer gegen T-Rex, weil man irgendwann seine Macken kennt, nur stärkere Engines sind als schwächere Gegner mit Aussage. Wer nicht im Verein spielt oder heimlich sehr viel übt muß wirklich verdammt gut sein, um wirklich 1600 oder mehr zu erreichen. Herzlichen Glückwunsch den zig Millionen in Deutschland. ;-) Natürlich kann man sich auf 1-min-Spiele oder das Ausschalten von psysisch schwächern Newbies auf Servern konzentrieren. Man muß seine Zahl auch gegen eine Spannweite von Gegnern verteidigen können, das gilt besonders auf Hobbyspielerniveau. Observer 09:24, 6. Nov 2004 (CET)
- Wer oder was ist T-Rex 1.9 und was hat das mit dem Artikel zu tun? --Frank. 09:45, 6. Nov 2004 (CET)
- T-Rex ist ein populärer chess-Engine für Schachprogramme, es ist der derzeit schwächste populäre, der menschlich spielt. Noch schwächere haben meist Macken, die man von Partie zu Partie mehr nutzen kann. Es gibt aber auch starke Programme, die gewollt Zufallsfehler machen.Observer 09:48, 6. Nov 2004 (CET)
Schachcomputer Hydra
Der Schachcompuer Hydra hat 3000 Elo und müsste mit in die Liste aufgenommen werden.
Eindeutig nein. Das ist eine geschätzte Zahl, um die Spielstärke des Computers anzugeben, aber keine bei gewerteten Turnieren erspielte Wertung. Eine solche erhalten nur menschliche Spieler. --Zamora1934 23:05, 30. Dez. 2011 (CET)
Rating menschlicher Spieler vs. Computerprogramme
In den Artikel sollte meiner Meinung nach in geeigneter Formulierung ein Hinweis, daß die Ratingzahlen von menschlichen Spielern und von Computerprogrammen nicht direkt miteinander vergleichbar sind, daß also ein Computer mit einem Rating von 2.800 nicht die Spielstärke eines menschlichen Spielers mit dem gleichen Rating besitzt. Ratingzahlen von Computerprogrammen beruhen meines Wissens nach auf Spielen gegen andere Computerprogramme, so daß die entsprechenden Ratings sich unabhängig von den Ratings für menschliche Spieler entwickeln. Hydra mit einem Rating von 3.000 müsste ansonsten Kasparow mit einem Rating von 2.812 relativ klar in einem Vergleichsmatch über mehrere Partien besiegen, was nicht der Fall sein dürfte, weil das Rating von Hydra auf Spielen gegen andere Computerprogramme beruht. Ein Vorsprung von fast 190 vom spielstärksten Computer auf den spielstärksten Menschen wäre, wenn das auf einem gemeinsamen (vergleichbaren) Rating beruhen würde, eine ziemlich düstere Vorstellung :o). Vielleicht kann das jemand, der von dem System mehr Ahnung hat, irgendwie in den Artikel einarbeiten. --Uwe 19:32, 25. Aug 2005 (CEST)
- Entsprechenden Satz eingefügt. Stefan64 01:42, 8. Okt 2005 (CEST)
Tausend-Partien-Problem 1
Kann jemand diesen Abschnitt - er war bisher sehr flapsig formuliert, ich habe nur ein paar stilistische Änderungen vorgenommen - ein wenig weiter ausführen? Roland Scheicher 16:54, 4. Jan. 2007 (CET)
Tausend-Partien-Problem 2
Behebt das Problem sich nicht automatisch, indem man folgende Änderungen durchführt:
1)Die Elos aktualisieren sich nach jeder Partie
2)Die 350-Punkte-Regel wird abgeschafft (die ohnehin nur relevant ist wenn in unserem Beispiel mehr als 90% der Punkte geholt werden)?
Dann werden in dem fiktiven Beispiel hier auch nach 1000 Partien die Zahlen anstellen, die den 80% entsprechen, also etwas um 2100 und 1900 (das wären 75%, habe jetzt die Tabelle nicht bei mir um für 80 anzugeben). Übrigens, selten trifft sich die Elite untereinander vielmals in einer Periode (also ohne zwischenzeitliche Elo-Aktualisierung), so dass ich gar keinen Grund für die Inflation sehe (nach der Aktualisierung der Elos kommt es ja dem EW näher). Auch ist es ein verbreiteter Irrtum, dass die Elite "zu oft" untereinander spielt - in der Wirklichkeit spielen die meist en 2700er nur 50% ihrer Partien gegen andere 2700er. Alle Begründungen für die Elo-Inflation/Deflation lassen sich eigentlich negieren, da es zu jedem Grund einen Gegengrund gibt...--Alexmagnus 21:37, 11. Apr. 2008 (CEST)
Scrabble
Ist die DE-Rangliste eine eigene oder mit der internationalen vergleichbar? Warum wird nicht einfach die internationale Rangliste für eine Bewertung herangezogen? --Constructor 11:11, 3. Jan. 2013 (CET)
Normung durch Computerprogramme
Benutzer 193.238.8.86 hat (versehentlich im Artikel) eine interessante Frage aufgeworfen, die hier diskutiert werden könnte Roland Scheicher (Diskussion) 12:53, 5. Jun. 2013 (CEST):
- Gibt es Überlegungen zur Normung der Spielstärke durch Computerprogramme, welche ja mittlerweile den gesamten Spielstärkebereich von Menschen abdecken (und konstant auf einem Niveau spielen können)? Wenn man z.B. zwischen 1200 und 2800 in zweihunderterschritten Programme gegen verschiedene Spieler mit ELO-Zahl spielen lassen würde, könnte man doch die Inflation/Deflation beobachten und z.B. durch geeignete Maßnahmen korrigieren? MV --193.238.8.86 11:40, 5. Jun. 2013 (CEST)
Spielstärken ausgewählter Schachspieler 1
Ich finde es vollkommen unsinnig, Chessmetrics-Elos in eine Schublade mit FIDE-Elos zu schieben ("...die höchste Elo hatte Kasparov mit 2851, nur Botwinnik und Aljechin hatten eine höhere historische Elo-Zahl..."). Erstens, die beiden Zahlen beruhen auf völlig unterschiedlichen Konzepten und sind nicht umrechenbar. Zweitens, nicht alle halten Chessmetrics für eine "bessere" Zahl (ich sogar für eine schlechtere, wegen der Unvollständigkeit der Daten und zu vielen geratenen Faktioren). Ich finde, im Artikel Elo-Zahl haben die Erwähnungen der historischen Elo-Zahl nichts zu suchen, außer als Verlinkung zu "siehe auch". Zumal das Wort "historisch" missverstanden wird. Man kann aus der Chesmetrics-Elo von, sagen wir, 2800, nicht mehr ablesen als aus der entsprechenden FIDE-El. Denn in beiden Fällen ist die Zahl gegen den verschiedenen Spielerpool erzielt. Sonas selbst schreibt, dass man (Chessmetrics)-Zahlen unterschiedlicher Generationen nicht vergleichen kann/darf. Er widerspricht zwar sich selbst, in dem er "Age Lists" erstellt, doch das ist eher eine populistische Liste. Übriegens, Elo und seine angebliche Inflation. Lasker hatte eine Höchst-Elo von 2720 (zurückberechnet von Arpad Elo selbst). Nach "Inflationstheoretikern" wären es heute fast 3200... Glaubt ihr nun wirklich, Lasker wäre stärker als Rybka?--Alexmagnus 20:59, 19. Apr. 2008 (CEST)
Spielstärken ausgewählter Schachspieler 2
Was soll eine Tabelle von Januar 2017. In ner Enzyklpädie würde doch nur was Bleibendes (Liste der jeweiligen Höchstwerte) reingehören.
Zuordnung der Titel nach Wertungszahl: Wo kommen die Bezeichnungen für Elo unter 2100 her? Zum Beispiel "Amateur Klasse D, durchschnittlicher Hobbyspieler". Noch nie gehört. Vermute, das ist Theoriefindung. (nicht signierter Beitrag von 88.130.166.103 (Diskussion) vom 9. Oktober 2018, 21:56 Uhr)
- Ich stimme zu. Hier geht es um das Verfahren und seine Bedeutung. Da hat eine ständig zu aktualisierende Rangliste von Schachspielern (und Tischtennisspielern womöglich auch??) nichts zu suchen. Im Artikel Rote Karte steht auch keine Statistik der aktuellen Bundesligasaison. Wenn kein zeitnaher Widerspruch kommt, nehme ich das raus. -- Wassermaus (Diskussion) 09:21, 8. Apr. 2022 (CEST)-
- Sehe ich auch so. Trotzdem sollte irgendwas im Artikel bleiben, dass omA auch ablesen kann, wie die Größenordnungen einzuschätzen sind, also etwa 2800 = absolute Weltspitze, 2600 = Top 100 (Plus/Minus) der Welt, 2500 Großmeister/Bundesliga-Niveau, >2000 hohes Amateur-Niveau, <2000 durchschnittliches Vereinsschach-Niveau. Das ist auch TF, ich weiß, aber irgendein Anhaltspunkt braucht omA schon. (Die Formeln helfen ihm/ihr wenig). --Pyrrhocorax (Diskussion) 13:42, 9. Apr. 2022 (CEST)
- Erledigt — Wassermaus (Diskussion) 16:39, 10. Apr. 2022 (CEST)
Anpassung mit Faktor
Mehrmals wird im Artikel erwähnt, dass zwei Spieler bei der Anpassung der Elo-Zahlen ihre Punkte tauschen, also was einer verliert, gewinnt der andere in gleicher Höhe hinzu. Was aber passiert, wenn die beiden Spieler verschiedene k-Faktoren haben? Sagen wir ein "normaler" Spieler (k=20) verliert gegen einen Anfänger (k=40). Bekommt der Anfänger dann doppelt so viel Punkte gutgeschrieben wie der normale Spieler verliert? Oder wird bei beiden dann der gleiche Faktor angewendet? Welcher? -- TZorn 17:03, 23. Nov. 2018 (CET)
Einteilung der Spieler in Klassen, Kategorien
frühere Klasseneinteilung
Vor Einführung der Elo-Zahl stufte man die Spieler beim Schach in neun Klassen oder Kategorien ein. Wo kommt das eigentlich her? Ich halte das für etwas fragwürdig, gemeint sind wohl die USA oder die Ostblockländer? --DaQuirin 16:05, 21. Sep. 2010 (CEST)
Wenn Garri Kasparows ELO Zahl die höchste bisher erreichte ist warum ist in der ELO Liste Magnus Carlsen an erster Stelle? Weil Kasparow nicht mehr spielt? Verstehe ich nicht, das muss genauer erklärt werden wer in die Liste aufgenommen wird und wer nicht sonst entstehen falsche Eindrücke. (nicht signierter Beitrag von 195.212.74.98 (Diskussion) 11:15, 23. Sep. 2011 (CEST))
- Kasparow erreichte die höchste jemals erreichte Elo (2851). Aufgehört zu spielen hat er mit einer niedrigeren Elo (2812). Nicht gelistet ist er, weil er inaktiv ist (d.h. seit mindestens einem Jahr - in Kasparows Fall sind es fast 7 Jahre - keine gewertete Partie gespielt hat).--Alexmagnus Fragen? 11:21, 23. Sep. 2011 (CEST)
- Ich habe es der Deutlichkeit halber ergänzt. --84.130.170.238 12:05, 23. Sep. 2011 (CEST)
- @DaQuirin: ich meine das mit den Klassen sogar mal im FIDE-Handbuch gesehen zu haben. Noch bevor dieses letztmals geändert wurde.--Alexmagnus Fragen? 11:24, 23. Sep. 2011 (CEST)
Schach: Kategorien, Quelle?
Im Artikel wird behauptet, dass vor Elo die Spieler in Kategorien eingeteilt wurden. Wo und von wem? In der DDR ja, aber Elo ist international. Die Tabelle suggeriert, dass Meistertitel für einen ganz genau definierten Elo-Bereich stehen. Das ist nicht so, schon allein weil Meistertitel auf Lebenszeit verliehen werden. Zweimal wird in dem Artikel diese 200-Elo-Punkte-Geschichte erwähnt. Die trifft zumindest auf den oberen Teil der Tabelle gar nicht zu. Selbst wenn sie korrekt wäre, stünde es doppelt da. Quellenangaben fehelen komplett. Ich bin geneigt, den kompletten Abschnitt zu löschen.--Pyrrhocorax (Diskussion) 10:40, 4. Feb. 2020 (CET)
Mathematischer Hintergrund
Hallo, beim Überarbeiten des Artikels sind mir beim mathematischen Hintergrund im Bereich der Intransitivität und insbesondere der Verteilungsannahme ein paar Unstimmigkeiten aufgefallen, die mir noch nicht geklärt scheinen (Logistische, Normal-, Gumbel-Verteilung, etc.). Dies zeigen auch einige verteilte Diskussionen zu dem Thema, die jedoch vom Bot automatisch archiviert wurden, weshalb ich sie wieder zurückgeholt und unter diesem Abschnitt hier gruppiert habe. Hoffe damit die weitere Diskussion etwas erleichtert zu haben. Bin allerdings kein Spezialist auf dem Gebiet. Grüße --W like wiki good to know 18:47, 19. Dez. 2021 (CET)
Intransitivität
Diesen Abschnitt habe ich herausgenommen, den kann man so nicht stehen lassen.
Ist Spieler A gegenüber Spieler B der Favorit und B gegenüber C, so besitzt A ein höheres Rating als B und B ein höheres als C. Damit besitzt A ein höheres Rating als C und müsste Favorit gegenüber C sein. Diese Folgerung ist aber keineswegs korrekt, da Wahrscheinlichkeitsrelationen i. A. nicht transitiv sind (vgl. "Chinesische Würfel" oder "Intransitive Würfel") – dieses Problem ist natürlich keine Besonderheit des Elo-Systems, sondern ein prinzipielles Problem aller Rating-Systeme.
- Sicher ist das ELO-Ratingsystem transitiv in dem Sinne, das A Favorit gegenüber C ist. Das zum Beleg der gegenteiligen Behauptung herangezogene "paradoxe" Beispiel taugt höchstens zur Aussage: Wenn A beser als B Schach spielt, B besser als C Dame spielt, kann durchaus C besser als A Go spielen.
Das Elo-System trifft nicht nur eine qualitative Aussage bezüglich des Verhältnisses von A zu C, sondern sogar eine quantitative. Lässt man einmal die Möglichkeit von Remis außer acht, so kann man die Grundidee des Elo-Systems an folgendem Beispiel erklären: Angenommen Spieler A ist gegenüber Spieler B ein 3:1-Favorit (d. h. A gewinnt 75 % der Partien gegen B), B sei gegenüber C ein 2:1-Favorit, so fordert bzw. folgt aus Elo's-Modell, dass A gegenüber C ein 6:1-Favorit ist (obwohl A nicht einmal der Favorit zu sein braucht, s. o.)
- Das ist einfach falsch, aus 3:1 und 2:1 6:1 zu berechnen. Es steht auch im Widerspruch zu weiter oben im Artikel erfolgten Angaben.
Allgemein: Ist A ein x:1-Favorit gegenüber B und B ein y:1-Favorit gegenüber C, so ist gemäß Elo's Modell A ein xy:1-Favorit gegenüber C. Dies kann man leicht nachrechnen
- Das sollte der Autor dann mal vorführen, es wird ihm schwerfallen.
diese Multiplikativität ist aber keine Konsequenz aus einer Normal-. Man liest zwar oft, dass das Elo-Modell von einer dieser Verteilungen ausgeht, doch genügen diese Verteilungen nur sehr grob näherungsweise der Forderung nach Multiplikativität; sodass die Forderung nach Multiplikativität den besseren Ausgangspunkt für die Entwicklung des Modells darstellt. (Der vorstehende, nicht signierte Beitrag stammt von Jhutsche (Diskussion • Beiträge) 21:59, 3. Okt. 2007)
- Bitte vor dem Löschen erst eine Chance zur Antwort lassen. Du hast ganz einfach unrecht, der Abschnitt ist sachlich in Ordnung. Meinst du mit „Das zum Beleg der gegenteiligen Behauptung herangezogene "paradoxe" Beispiel“ die intransitiven Würfel? Die eignen sich ausgezeichnet für den Vergleich. Was soll das mit Dame und Go zu tun haben? Ich bin zwar nicht der Autor des Abschnitts, kann dir aber die Rechnung, wenn es denn sein muss, vorführen: Es sei
- dann ist zu zeigen:
- Mit Hilfe von
- erhält man
- also das gewünschte Ergebnis. --80.129.95.222 22:39, 3. Okt. 2007 (CEST)
- Lieber 80.129.95.222! Als Autor des betreffenden Abschnitts möchte ich mich herzlich für Deine Berechnungen bedanken. Ich wollte all diese Formeln nicht in den Artikel einbauen, da sie meiner Meinung nach den Rahmen sprengen würden. Aber gerade die Löschung durch und der Betrag von Jhutsche zeigen wieder einmal wie wenig die Problematik von Ranking-Systemen verstanden wird. Roland Scheicher 09:02, 4. Okt. 2007 (CEST)
Oh, peinlich, die Multiplikation der Chancen ist bei dieser Verteilung rechnerisch tatsächlich richtig, da hätte ich doch mal nachrechnen müssen. Soweit bitte ich um Entschuldigung. Oben im Artikel sind 75%, also 3:1, bei 200 Differenz und 94%, also nicht 9:1, bei 400 Rating-Differenz angegeben, daraus schloss ich vorschnell auf einen Irrtum. Aber villeicht habe ich mich wieder verrechnet. Ich bleibe allerdings dabei, dass ansonsten der Abschnitt so nicht stehen bleiben kann. Das hat nichts mit der "Problematik von Ratingsystemen" zu tun, sondern etwas mit der Anwendung mathematischer Formeln auf praktische Probleme und mit völlig verdrehter Logik, die in mir eine gewisse Erregung verursacht hatte. Natürlich ist bei einem sinnvollen Ratingsystem der mit dem besseren Wert auch der Favorit. Das Würfelbeispiel ist völlig ungeeignet, irgendetwas in diesem Zusammenhang zu erklären. Es dürfte eben gerade eine konstruiertes Beispiel sein zu zeigen, dass man eben nicht kritiklos drauflosmultiplizieren kann, sondern erstmal aufpassen muss, was man eigentlich versucht, in Mathematik abzubilden. Und bei den Würfeln ergeben sich bei den drei möglichen Paarungen eben drei völlig eigenständige statistische Experimente, die nichts miteinander zu tun haben. Die Augen auf den Würfeln bilden eben nicht etwas wie die Spielstärke des Würflers ab. Das ist ja gerade der Trick an dem Beispiel. Daher mein Verweis auf Schach, Go und Dame. Beim Schach-Rating ist es aber immer das selbe Spiel, mit dem in gewissen Grenzen objektivierbaren, transitiven Erfolgsfaktor "Spielstärke". Und die lässt sich nun, sicher in gewissen Grenzen und Schönheitsfehlern, mit den angegebenen Formeln abbilden. Übrigbleiben sollte also von dem Abschnitt nur, dass solche Ratingsystem voraussetzen, dass "Spielstärke" auch transitiv ist. Die Problematik liegt nicht im Ratingsystem begründet, sondern ggf. bei der Anwendung eines Ratingsystems dort, wo es nicht verwendbar ist. Und wenn schon ein Gegenbeispiel, dann bitte ein Würfelturnier mit stets den selben Spielregeln. Dann sind statistich alle gleichstark und jedes berechnete Rating hat nichts mit der Erfolgswahrscheinlichkeit im nächsten Turnier zu tun.
Normalverteilung oder Logistische Verteilung
Wie man dem englischen Artikel und der Berechnungsformel entnehmen kann, wird statt einer Normalverteilung eine logistische Verteilung zugrundegelegt. --80.129.109.156 11:20, 23. Nov. 2006 (CET)
- Man liest zwar oft von der Annahme einer Normalverteilung, doch stimmt diese Annahme mit Elo's Modell nur sehr grob näherungsweise überein; die Grundlage von Elo's Modell ist vielmehr folgende: Lässt man remis außer acht, so gilt: Ist A ein x:1-Favorit gegenüber B und B ein y:1-Favorit gegenüber C, so ist gemäß Elo's Modell A ein xy:1-Favorit gegenüber C. Dies kann man leicht nachrechnen; diese "Multiplikativität" ist aber KEINE Konsequenz aus einer Normalverteilung. Werde das mal überarbeiten. -Roland Scheicher 13:50, 27. Nov. 2006 (CET)
- Zur Illustration sind im folgenden die Unterschiede zwischen einer Normalverteilungsannahme und dem Elo-Modell angeführt und mit den Werten des aktuellen FIDE-Handbuch (hier Tabelle (b) Spalten D und L) verglichen
Ratingdifferenz | Gewinnerwartung des schwächeren Spielers bei Normalverteilung | Gewinnerwartung des schwächeren Spielers nach Elo | Gewinnerwartung des schwächeren Spielers nach aktueller FIDE-Tabelle |
---|---|---|---|
0 | 0,5000 | 0,5000 | 0,50 |
10 | 0,4859 | 0,4856 | 0,49 |
20 | 0,4718 | 0,4712 | 0,47 |
30 | 0,4578 | 0,4569 | 0,46 |
40 | 0,4438 | 0,4427 | 0,44 |
60 | 0,4160 | 0,4145 | 0,42 |
80 | 0,3886 | 0,3869 | 0,39 |
100 | 0,3618 | 0,3599 | 0,36 |
200 | 0,2397 | 0,2403 | 0,24 |
300 | 0,1444 | 0,1410 | 0,15 |
400 | 0,0786 | 0,0909 | 0,08 |
600 | 0,0169 | 0,0307 | 0,02 |
800 | 0,0023 | 0,0099 | 0,00 |
1000 | 0,0002 | 0,0032 | 0,00 |
- NB:
- (1) Die Berechnung unter Annahme der Normalverteilung stützt sich auf die Hypothese, dass die die Spielstärke eines Spielers (abhängig von der Tagesverfassung etc.) um den Erwartungswert (=Elo-Zahl) mit einer Standardabweichung von 200-Punkten (eine Klassenbreite) streuen.
- Diese Annahme ist natürlich sehr problematisch, da die Streuung der individuellen Leistungen sicher nicht bei allen Spielern gleich groß ist.
- Es gibt nun einmal Spieler, die sehr beständig gut spielen, und solche, die immer wieder "schwache" Tage zeigen.
- (2) Bei einer Rating-Differenz von 200 Punkten unterscheidet sich das Elo-Modell von der Normalverteilungsannahme noch immer um weniger als einen Zehntel Prozentpunkt (0,0006), von der Annahme, dass der schwächere Spieler jedoch 0,25 Punkte erwarten dürfte, ist man jedoch um einen vollen Prozentpunkt entfernt. Das scheint zwar wenig, wenn man aber bedenkt, dass der Profit einer Roulettespielbank gerade auf einem vergleichbar kleinen Unterschied beruht, kann man erkennen, wie wesentlich so scheinbar kleine Unterschiede sind.
- (3) Bei großen Ratingdifferenzen schätzt das Elo-Modell die Chancen des schwächeren Spielers wesentlich größer ein, als das beim Normalverteilungsmodell der Fall ist: bei einem Unterschied von 800 Punkten darf der schwächere Spieler nach Elo noch ungefähr 0,01 Punkte erwarten, während er im Normalverteilungsmodell nicht einmal ein Viertel davon erwarten darf.
Nun zur Frage nach der logistischen Verteilung: in Elos Modell gilt: "Betrachtet man die Gewinnerwartung des schwächeren Spielers als Funktion der Punktedifferenz, so wird dieser Zusammenhang in Elos Modell durch eine logistische Funktion dargestellt."
Die zur Normalverteilungshypothese analoge Annahme, dass die Spielstärken der beiden Spieler logistisch verteilte Zufallsvariable sind, führt jedenfalls nicht zu Elos Modell. Überhaupt existiert keine plausible Verteilungsannahme für die Spielstärken als Zufallsvariable betrachtet, die mit Elos Formel bezüglich der Erwartungswerte konsistent ist.
Roland Roland Scheicher 19:12, 9. Jun. 2010 (CEST)
- Danke, sehr interessant. Ich wollte mir immer einmal Arpad Elos Buch (habe es in seinem Personenartikel nachgetragen) antiquarisch besorgen. Aber wenn die Aussage des englischen Artikels stimmen würde, dass erst nachträglich die Elo-Wahrscheinlichkeiten auf die logistische Verteilung umgestellt wurden, dann kann Arpad Elo dazu natürlich auch wenig schreiben. Das Buch von Glenz (Das Elo-System und DWZ-Verfahren) erläutert mir die Mathematik leider nicht sehr plausibel; u.a. erscheint mir die Glenz'sche Behauptung, dass nicht nur der Klassenabstand sondern auch die Standardabweichung der Turnierresultate eines Spielers genau diese 200 Punkte betragen müsste, fragwürdig: Hängt das nicht auch von der Anzahl der Partien in einem Turnier maßgeblich ab -- je mehr Partien desto näher am Erwartungswert? (zu mir: Ich habe einmal auch Mathematik studiert und abgeschlossen, bin aber sicherlich im Bereich der Statistik und Stochastik kein helles Licht.) -- Talaris 00:05, 10. Jun. 2010 (CEST)
Mit Spielstärken als Zufallsvariablen soll die Schwankung (aufgrund schwankender Form o.ä.) um eine fiktive derzeitige mittlere Spielstärke modelliert werden, ist das richtig? --91.32.42.192 22:06, 11. Jun. 2010 (CEST)
- Kurze Antwort: JA.
- Die Idee ist folgende: Zwei Spieler treten gegeneinander an, jeder von beiden hat eine gewisse (fiktive mittlere) Spielstärke, die sich durch eine reelle Zahl darstellen lässt (Punktezahl). Da Spieler aufgrund von Tagesverfassung manchmal besser, manchmal weniger gut spielen, nimmt man an, dass die Leistung (Qualität des Spiels, wie immer man das nennen mag) um einen gewissen Wert streut (so wie ein 10km-Läufer auch nicht jedesmal exakt gleich lange braucht, sondern manchmal ein paar Sekunden mehr, manchmal auch etwas weniger).
- Nun kann man modellieren: die Spielstärke von Spieler 1 sei eine xxxx-verteilte Zufallsvariable mit Erwartungswert m1 und Standardabweichung s1, die Spielstärke von Spieler 2 sei yyyy-verteilt mit Erwartungswert m2 und Standardabweichung s2. A priori ist nicht einmal klar, dass für Spieler 1 und Spieler 2 Verteilungen eines bestimmten Typs herangezogen werden können, geschweige denn: desselben Typs - aber irgendwo muss man bei einer Modellierung vereinfachen.
- Hat man entsprechende Annahmen getroffen und für m1, m2, s1 und s2 geeignete numerische Werte gewählt, kann man berechnen, wie groß die Wahrscheinlichkeit ist, dass Spieler 1 eine bessere Leistung als Spieler 2 erbringt (genau das wurde bei der Berechnung der obigen Tabelle getan, wobei s1=s2=200 angenommen wurde)
- Die Berechnung geht davon aus, dass es nur zwei mögliche Ausgänge gibt: Sieg oder Niederlage (bei stetigen Verteilungen ist die Möglichkeit der Gleichheit unbedeutend, die Modellierung von Remis ist zwar möglich, stellt aber nur eine Verkomplizierung des Modells dar, ohne dass man dadurch wirklich etwas gewinnt (siehe weiter unten die Frage eines Posters: Elo-Formel ohne Remis)
- So weit, so gut – ABER:
- (1) Welche Verteilung soll man nehmen? Beim 10 km-Läufer kann man die jeweilige Leistung objektiv messen, das Experiment (zumindest im Prinzip) beliebig oft wiederholen, erhält so eine empirische Verteilung und kann dann versuchen, eine analytische Verteilung anzupassen. Wenn aber - so wie beim Schach - dieser Zugang nicht möglich ist, dann versucht man es eben mit einer "plausiblen" Annahme: d.h. z.B. der Normalverteilung. Nur: Die Normalverteilungsannahme passt nicht zu Elos Formel bezüglich der Gewinnerwartung (E = 1/(1+10^(Diff/400)) ).
- (2) Wenn man schon meint, dass die Normalverteilung so einigermaßen passt, so ist außerdem die Annahme, dass alle Spieler dieselbe Standardabweichung (nämlich eine Klassenbreite, d.h. 200 Punkte) besitzen, also s1=s2=200 gilt, äußerst unrealistisch.
- LG Roland Roland Scheicher 09:53, 12. Jun. 2010 (CEST)
- Soweit ich weiß, ist die Formel im Artikel nur eine Näherung. Von der fide wird tatsächlich Normalverteilung benutzt. Vergleicht doch selbst die Gewinnerwartung, die die Formel für, sagen wir, 500 Punkte gibt, mit den im Handbuch der fide enthaltenen Tabellen. Sie sind nicht gleich.Alexmagnus 11:52, 12. Jun. 2010 (CEST)
- In der englischen Wiki steht die gleiche Formel ( E=1/(1+10^(Diff/400)) ). In Changes in the Rating Regulations from 1.7.2009 steht, dass bei der Ratingdifferenz maximal der Wert 400 verwendet wird. Über die aktuell verwendete Formel habe ich nichts gefunden.
- Aber immerhin eine Tabelle, nämlich hier
- Da die Tabelle der FIDE nur auf zwei Dezimalen gerundete Werte angibt, so ist schwer zu entscheiden, wie diese berechnet sind, da bei dieser Rundung ja meistens in dieselbe Richtung gerundet wird. Sieht man sich die obige Tabelle an, so ist aber die Rundung bei einer Differenz von 300 Punkten weder mit der Normalverteilung noch mit der Elo-Annahme (logistische Kurve für die Erwartungswerte) verträglich.
- LG Roland (Roland Scheicher 10:25, 13. Jun. 2010 (CEST))
- Habe nun beide Tabellen aus dem FIDE-Handbuch (hier) Tabellen (a) und (b) mit der Normalverteilungsannahme und der Elo-Annahme (logistische Kurve der Erwartungswerte) für alle Werte von 0 bis 1000 verglichen: die in den Tabellen vorgegebenen Werte stimmen WEDER mit der einen NOCH mit der anderen Annahme exakt überein - es ergeben sich hie wie da inkonsistente Rundungen.
- D.h. aufgrund der numerischen Werte ist nicht entscheidbar welche der beiden Hypothesen der aktuellen FIDE-Tabelle zugrundegelegt ist.
- Sieht irgendwie so aus, als ob man das logistische Modell ein bisschen mehr Richtung Normalverteilung "hingebogen" hätte ...
- LG Roland Roland Scheicher 13:11, 13. Jun. 2010 (CEST)
- Soweit ich weiß, ist die Formel im Artikel nur eine Näherung. Von der fide wird tatsächlich Normalverteilung benutzt. Vergleicht doch selbst die Gewinnerwartung, die die Formel für, sagen wir, 500 Punkte gibt, mit den im Handbuch der fide enthaltenen Tabellen. Sie sind nicht gleich.Alexmagnus 11:52, 12. Jun. 2010 (CEST)
Plausible Verteilungsannahme
"Das heißt jedoch nicht, dass die Spielstärken als logistisch verteilte Zufallsvariablen modelliert sind, dies ist nämlich nicht der Fall – die für Elos Modell charakteristische Eigenschaft der Erwartungswerte lässt sich aus keiner plausiblen Verteilungsannahme (wie etwa einer Normalverteilung) ableiten."
Was heißt "Spielstärke" hier genau und was "charakteristische Eigenschaft der Erwartungswerte"? Wenn "Spielstärke" die Performance der Spieler ist, kann, unter der Annahme, dass Performance Gumbel verteilt ist die Formel für die Erwartungswerte abgeleitet werden. [1] (nicht signierter Beitrag von Benutzer:Grüner Papagei (Diskussion | Beiträge) vom 9. April 2020, 00:53 Uhr)
- Mit der für Elos Modell "charakteristischen Eigenschaft der Erwartungswerte" ist gemeint, dass die Gewinnerwartung für einen Spieler aus der Punktedifferenz durch die Formel
- bestimmt ist.
- Nehmen wir einmal an, wir könnten die "Spielstärke" der beiden Spieler in Elo-Punkten messen. Nun spielen Schachspieler manchmal besser, manchmal weniger gut. Versuchen wir nun diese Größe als Zufallsvariable zu modellieren.
- Nehmen wir also an, die Leistung eines Spielers an einem bestimmten Tag sei 1800 +/- 200 Elo (ein Spieler mit stark schwankenden Leistungen) und die seines Gegners sei 1.750 +/- 10 Elo. Wie groß ist die Gewinnerwartung für Spieler 1?
- Wir müssen in Betracht ziehen, dass die Wahrscheinlichkeit von Remisen bei Spielen auf hohem Niveau größer ist als bei niedrigem Niveau. Die Annahme, dass die Gewinnerwartung ausschließlich von der Differenz 1800-1750 = 50 abhängt und nicht von der absoluten Höhe der beiden Zahlen (1800 bzw. 1750) scheint zumindest fragwürdig. Sicherlich hängt die Gewinnerwartung von den individuellen mittleren Schwankungen (einmal 200, einmal nur 10) ab, Wir könnten also versuchen die Spielstärke für jeden der beiden Spieler durch eine normalverteilte Zufallsvariable beschreiben, annehmen, und dann die Wahrscheinlichkeiten für X > Y+eps (d.h. Sieg X), Y-eps < X < Y+eps (Remis) und X < Y-eps (Sieg Y) berechnen und so den Erwartungswert bestimmen. und werden feststellen, dass dieser Wert von :: verschieden ist.
- Natürlich kann man quasi mit Gewalt eine Verteilung konstruieren, die die Elo-Eigenschaft aufweist, nur wird man kaum eine plausible Erklärung finden können, warum gerade dieser Zufallsmechanismus gelten soll.
- - zumal aufgrund der modellbedingten Transitivität ohnehin ein offenkundiges Problem aller Ratingsystem existiert.
- Roland Scheicher (Diskussion) 11:54, 9. Apr. 2020 (CEST)
- Es gibt Ratingsysteme, die eine Normalverteilung der Spielstärke annehmen.[1][2]
- Elo tat dies ursprünglich auch. Da kommt natürlich ein anderer Zusammenhang für den Erwartungswert heraus. Die gängie Form des Erwartungswerts setze sich durch, da sie für Schach exaktere Ergebnisse liefert.[2]
- Das ändert natürlich nichts daran, dass die Annahme solcher Verteilungen nicht unbedingt plausibel ist.
- Aber ich finde den oben zitierten Satz im Artikel dahingehend missverständlich formuliert, denn er suggeriert, dass solche Verteilungsannahmen nicht getroffen werden. Werden sie aber in verschiedenen Anwendungen - ob plausibel oder nicht.
- Besser fände ich dann etwas wie: "Ähnlich wie in anderen Ratingsysteme kann der Zusammenhang für den Erwartungswert aus einer Verteilungsannahme der Spielstärke (für Elo eine Gumbelverteilung) abgeleitet werden. Jedoch gibt es kein plausibles Argument warum Spielstärke einer solchen Verteilung folgen sollte." Also trennen zwischen was mathematisch möglich (wichtig, da solche Ansätze zumindest in anderen Ratingsystemen benutzt werden) und was plausibel ist.
- --Grüner Papagei (Diskussion) 17:16, 9. Apr. 2020 (CEST)
- Ich habe die Informationen aus den Abschnitten Erwartungswert und Intransitivität von Wahrscheinlichkeitsrelationen ein wenig umgruppiert und damit - hoffentlich - etwas verständlicher gemacht. Roland Scheicher (Diskussion) 14:24, 14. Apr. 2020 (CEST)
Bandbreite von Spielausgängen
Die Formulierung "Die erwartete Punktezahl [...] ist somit die Wahrscheinlichkeit, dass der Spieler gewinnt, plus die halbe Wahrscheinlichkeit für ein Remis.". -- das schlucke ich, ist auch allgemeinverständlich formuliert.
Anders aber ist es bei den darauf folgenden Sätzen: "Im Erwartungswert steckt somit eine gewisse Bandbreite an Spielausgängen. So bedeutet zum Beispiel zum einen eine Gewinnwahrscheinlichkeit von 50 %, eine Remiswahrscheinlichkeit von 0 % und eine Verlustwahrscheinlich von 50 %. Auf der anderen Seite bedeutet er aber auch eine Gewinnwahrscheinlichkeit von 0 %, eine Remiswahrscheinlichkeit von 100 % und eine Verlustwahrscheinlich von 0 % und natürlich alle Abstufungen dazwischen, etwa +10,=80,-10. Ein anderes Beispiel: kann sowohl bedeuten 75 % Sieg, 0 % Remis, 25 % Verlust als auch im anderen Extrem 50 % Sieg, 50 % Remis, 0 % Verlust." --- das ist ersten kompliziert formuliert, zweitens trägt es nichts zum besseren Verständnis bei, und drittens und vor allem ist es falsch. Bandbreite? In der Wahrscheinlichkeit stecken immer alle möglichen Spielausgänge - und das runterzubrechen auf unterschiedliche Wahrscheinlichkeiten (bei gleicher ELO-Differenz) ist sinnlos und realitätsfremd. Kein Mensch sagt: "bei A gegen B erwarten wir 75% Sieg und 25% Verlust, bei C gegn D hingegen 50% Sieg und 50% remis." Vermutlich hat der Schreiber dieser Sätze an Matheaufgaben aus der 10. Klasse gedacht, wo verschieden gestaltete Glücksräder zum selben Wert der Gewinnerwartung führen. Die Sätze müssen komplett raus (und das verbessert den Artikel!). -- Wassermaus (Diskussion) 14:30, 5. Apr. 2022 (CEST)
- Das ist wirklich sehr schräg. Sei mutig und nimm es raus. -- Reilinger (Diskussion) 07:20, 6. Apr. 2022 (CEST)
- gesagt - getan. -- Wassermaus (Diskussion) 23:32, 6. Apr. 2022 (CEST)
- Hallo, die Formulierungen stammen von mir. Kompliziert: Ansichtssache; falsch: nein! Viel zu oft wird der Erwartungswert mit der Gewinnwahrscheinlichkeit gleichgesetzt. Der Unterschied sollte erklärt werden. Ich hoffe, so verständlicher. --W like wiki good to know 23:54, 28. Sep. 2022 (CEST)
Auch ich halte es für falsch (oder zumindest für holprig) hier konkrete Zahlen zu nennen. Diese Änderung von mir versucht, den Sachverhalt auszudrücken, ohne extreme Beispiele nennen zu müssen. --Pyrrhocorax (Diskussion) 07:19, 29. Sep. 2022 (CEST)
- Gut, habe deine Erklärung um ein Beispiel ergänzt. Jeder Sachverhalt wird an einem Beispiel verständlicher. --W like wiki good to know 09:18, 29. Sep. 2022 (CEST)
- Ich bin anderer Ansicht. Ich glaube, dass der Sachverhalt ausreichend klar ohne Beispiel ist und dass das Beispiel ihn eher verschleiert als veranschaulicht, aber es geht ja nicht um meinen subjektiven Eindruck. Also: Wenn ein Beispiel gewünscht wird, bittesehr. Nur finde ich Deine Formulierung nicht gut. Sie suggeriert, dass es da noch eine weitere Bedeutungsebene gibt, die es tatsächlich nicht gibt. Vielleicht ist es so ja klarer, auch wenn ich die Notwendigkeit des Beispiels nach wie vor bezweifle. --Pyrrhocorax (Diskussion) 15:56, 30. Sep. 2022 (CEST)
Schwankungsbreite und Aussagekraft
Ich nehme mal den entsprechenden Abschnitt auseinander:
Die Wertungszahlen eines einzelnen Spielers sind intervallskaliert und annähernd normalverteilt und schwanken mit einer Standardabweichung von 200 um einen mittleren Wert.
Wie ist das gemeint? Wieso sollten die Wertungszahlen eines einzelnen Spielers intervallskaliert und normalverteilt sein und wieso sollte man eine Standardabweichung von genau 200 angeben können? Ich würde meinen, dass die Konstanz der spielerischen Leistungen sehr unterschiedlich sein kann: Der eine hat sehr schwankende Leistungen (wie z. B. ich), der andere spielt immer exakt auf demselben Niveau. Vielleicht ist es auch nur ein Schreibfehler und es ist gemient: Die Wertungszahlen der einzelnen Spieler .... Dann weiß ich aber ebensowenig, was mit der Standardabweichung von 200 gemeint ist? Ich nehme n zufällig ausgewählte Schachspieler und habe dann eine Standardabweichung von 200? Dann sollte das auch so gesagt werden. (Ich bin kein Statistik-Profi, weshalb ich diese Aussage nicht überprüfen kann...)
- das wird offenbar weiter oben #Normalverteilung oder Logistische Verteilung diskutiert. 200 soll wohl die angenommene Formschwankung des Standardspielers sein. -- Wassermaus (Diskussion) 13:01, 13. Apr. 2022 (CEST)
Es gibt viele Schachspieler mit Spielstärken unter 1200. Auf diesem Spielniveau ist das Elo-System in der Vorhersagesicherheit aber nur eingeschränkt anwendbar.
Hier fehlt eine Begründung.
Wichtig ist insbesondere auf Hobbyspielerniveau, dass ein Spieler seine Zahl auch gegen stärkere Gegner verteidigen kann, ohne sich auf besondere Eigenschaften wie unbewusste psychische Schwächen oder schlechtes Zeitmanagement von Neulingen konzentrieren zu müssen.
Was soll das denn heißen?
Utopisch hohe Werte werden durch Niederlagen schnell, exakt und zuverlässig korrigiert.
Gemeint ist hier wohl, dass ein Neuling durch eine Siegesserie kurzfristig eine sehr hohe Wertung erreichen kann, z. B. weil er eine Siegesquote von 100% gegen schwächere Spieler erreicht, der keine Niederlagen gegen gleichstarke oder stärkere Spieler entgegenstehen. So verstehe ich es zumindest, bin mir aber nicht sicher, weil die Bemerkung aus dem Zusammenhang gerissen erscheint.
Die recht stabile Elo-Zahl wird mit verschiedenen Verfahren ermittelt. Manche gehen von wenigen Spielen aus oder von ähnlich starken Turnierteilnehmern. Nach vielen Partien erreichen aber alle sehr ähnliche Gleichgewichte.
Die recht stabile Elo-Zahl... von wem? Gibt es auch "instabile Elo-Zahlen"? Wie kann man von "wenigen Spielen" oder "ähnlich starken Turnierteilnehmern" ausgehen? Für die Berechnung kann man doch nur die Zahlen verwenden, die man hat, abhängig davon, gegen wen, wie oft und wie erfolgreich ein Spieler gespielt hat.
Bei Computern ist die Verteilung nicht nur per 200-Punkte-Definition gleich, sondern auch vom Kurvenverhalten her darüber hinaus sehr ähnlich, allerdings gibt es bei ähnlich starken Maschinen eine weitere Spielstärkenspreizung in den verschiedenen Partiephasen.
Welche Kurve ist gemeint?
Wie gesagt: Ich bin kein Statistik-Profi, aber dieser Abschnitt ist nicht so geschrieben, dass er (außer vom Autor selbst) gut verstanden werden kann. --Pyrrhocorax (Diskussion) 13:15, 9. Apr. 2022 (CEST)
- Hallo Pyrrhocorax, ich stimme dir in jedem einzelnen deiner Punkte zu. Was da steht, ist unverständlich und nicht nachvollziehbar (zumindest kann ich es nicht, und ich halte mich nicht für einen Dummkopf). -- Wassermaus (Diskussion) 12:56, 13. Apr. 2022 (CEST)
- ↑ a b [1], Ruby C. Weng und Chih-Jen Lin, A Bayesian Approximation Method for Online Ranking. In: Journal of Machine Learning Research. 12, 2011, 267-300
- ↑ a b [2], Ralf Herbrich und Tom Minka und Thore Graepel, TrueSkill: A Bayesian Rating System In: Advances in Neural Information Processing Systems. 20, 2007