Benutzer:Don-kun/Statistik Löschungen
Diese Seite dient der Darstellung einiger Analysen, die sich aus der Auswertung des Lösch-Logbuchs und begleitender Auswertungen ergeben. Vorschläge, Anregungen und Mitwirkung ist erwünscht.
Untersuchungen 2009/2010
Im Folgenden die Darstellung einiger Ergebnisse der Analyse der Anzahl der Löschungen im Artikelnamensraum vom 2. November 2009 bis zum 24. Januar 2010.
Betrachtungszeitraum
Dabei wurden die Wochen vom 2. November bis 20. Dezember 2009, vom 4. bis 10. Januar sowie vom 18. bis 24. Januar betrachtet. Die anderen in diesen Zeitraum fallenden Wochen wurden nicht betrachtet, da in diesen aufgrund der Feiertage zum Jahresende eine außergewöhnlich niedrige Zahl an Löschungen stattfand. Außerdem fand in der zweiten Januarwoche am Mittwoch eine Massenlöschung statt, sodass diese ebenfalls herausfällt.
Ganglinien der Löschungen
Aus allen betrachteten neun Wochen ergab sich eine gemittelte Ganglinie der Löschungen über den Tag. Diese zeigt deutlich eine niedrige Zahl von Löschungen in der Nacht und einen Einbruch der Löschungen um die Mittagszeit. Im Diagramm ist zu jeder vollen Stunde die Zahl der in der darauf folgenden Stunde erfolgten Löschungen abgetragen.
Betrachtet man die Ganglinie für Werktage und Wochenenden getrennt, zeigt sich, dass der Einbruch um die Mittagszeit ausschließlich an Werktagen stattfindet. Zudem verschiebt sich die Kurve am Wochenende um ein bis zwei Stunden und verläuft deutlich flacher. Bereits in der Darstellung der Löschungen pro Tag lässt sich erkennen, dass an einem Sonn- oder Feiertag im Vergleich zu einem Werktag im Durchschnitt nur etwa 30 bis 40 % weniger gelöscht wird.
Diese Muster finden sich auch in den einzelnen gemittelten Ganglinien der betrachteten Wochen sowie in Ganglinien mit Darstellung der Löschungen für jede Viertelstunde.
Vergleich von Wochenenden und Wochentagen
- Diagramm Löschganglinie.png
gemittelte Ganglinie
Untersuchungen Oktober 2010
Im Oktober 2010 wurde die Zahl der Löschungen im Artikelnamensraum von Januar 2008 bis Oktober 2010 untersucht. Dazu wurden von Benutzer:Niabot mittels eines Bots die Logbücher abgefragt und die Anzahl der Löschungen für jede Viertelstunde jedes Tages im Zeitraum vom 1. Januar 2008 bis zum 31. Oktober 2010 ermittelt.
Zahl der Löschungen
Bei Betrachtung der Zahl der Löschungen über alle drei Jahre wurden diese im nebenstehenden Diagramm in einem gleitenden Wochendurchschnitt dargestellt. Das heißt, für jeden Tag wurde der Durchschnitt der vorherigen drei und folgenden drei Tage sowie des Tages selbst gebildet. So wird die Trendentwicklung unabhängig von einzelnen Spitzen im Diagramm deutlicher.
Es zeigt sich hier, dass die Anzahl der Löschungen stark schwankt und sich immer wieder auf unterschiedlichem Niveau einstellt. Dies geschieht dabei nicht immer im jahreszeitlichen Rhythmus. Erkennbar ist die niedrige Zahl zu den Sommermonaten und zwischen Weihnachten und Silvester. Insbesondere im Herbst und Winter sind die Entwicklungen aber sehr unterschiedlich. Während 2008 im Winter nicht viel mehr als im Sommer gelöscht wurde, liegt die Zahl im Januar bis März 2009 deutlich höher als im Vorjahr. Ein auch in der geglätteten Darstellung erkennbarer Peak im März rührt von einer Massenlöschung von Weiterleitungen am 17. März, durch die an einem Tag nahezu 4000 ANR-Seiten gelöscht wurden.
Während der Sommer 2009 etwa das Niveau des Vorjahres zeigt, ist die Zahl der Löschungen ab August bis in den Dezember gestiegen. Diese hohe Anzahl von 700 bis zu 1000 Löschungen pro Tag blieb bis Ende März 2010 bestehen. Innerhalb von zwei Wochen sank die Zahl, im April und Mai 2010 wurden etwa 500 ANR-Seiten am Tag gelöscht. Das ab Juni folgende Sommerloch reichte bis nur 220 Löschungen pro Tag Mitte August hinab. Bis Ende Oktober stieg die Zahl der Löschungen wieder leicht an auf etwa 350.
Ganglinien
Bei den Tagesganglinien der Löschungen, die einmal aus allen Tagen sowie einmal aus allen Werktagen des Septembers erzeugt wurden, zeigen sich kaum Auffälligkeiten im Mittagsbereich mehr, wie das noch Ende 2009 der Fall war. Stattdessen verläuft die Kurve flacher, es wird vor allem tagsüber weniger gelöscht (Tag: 70 zu 26, Nacht 3 zu 2; Löschungen pro Stunde 2009 zu 2010). Nach 17:00 lässt die Zahl der Löschungen stärker nach, ab 19:30 wird zunächst wieder mehr gelöscht, bis die Kurve auf das Nachtniveau fällt.
Vergleichende Betrachtung
Um die Frage zu klären, welche Ursachen die Schwankung der Löschungen hat, kann die Entwicklung anderer statistischer Größen herangezogen werden. Über Wikipedia:Statistik sind viele davon zugänglich. Darunter auch die durchschnittlich pro Tag dazukommenden Artikel, angegeben für jeden Monat. Zahlen zu den am Tag insgesamt angelegten Seiten im ANR oder der dazukommenden Weiterleitungen oder Begriffklärungen sind leider nicht verfügbar. Daher ist ein direkter Vergleich, welcher Anteil der angelegten Seiten im ANR gelöscht wird, nicht möglich.
Aber auch der Vergleich mit den dazukommenden Artikeln lässt bereits Schlüsse zu. Über den Betrachtungszeitraum ist diese Zahl etwa gleich geblieben bei knapp 400 bis 500 Artikeln pro Tag. Das bedeutet zunächst, dass die Zahl der Einstellungen in den ANR stark schwankt, und zwar etwa in dem Maße, wie die Zahl der Löschungen schwankt. Vorrausgesetzt, die Löschung von Artikeln findet ebenso unter konstanten Kriterien statt, folgt daraus, dass die Schwankungen fast ausschließlich die Einstellungen betreffen, die nach den Kriterien nicht erwünscht sind. Die liegt auch insofern nahe, da bewusste Veränderung der Kriterien auf Grund veränderter Anzahl an Artikeleinstellungen voraussetzt, dass deren Zahl bekannt ist. Doch dies ist, wie zuvor erwähnt, nicht der Fall. Ein bewusstes oder unbewusstes „Übriglassen“ von immer der gleichen Artikelzahl durch die Community relativ unabhängig von der Zahl der Einstellungen ist unwahrscheinlich.
So kann man aus diesem Vergleich folgern, dass die Zahl der aus Community-Sicht „wertigen“ Artikeleinstellungen relativ konstant bleibt, wogegen die Zahl von Vandalismus, Werbung und anderem starken Schwankungen unterworfen ist.
Betrachtet man die Darstellung von Löschungen und Zuwachs, fällt zudem auf, dass seit Juli 2010 erstmals deutlich mehr Artikel dazukommen als Seiten im ANR gelöscht werden. Aus dem Verhältnis lässt sich schließen, dass seitdem etwa 3/5 der Neuanlagen im ANR nicht gelöscht werden. Unabhängig davon kommt weiterhin die gleiche Zahl an Artikeln pro Tag dazu.