Wikiup Diskussion:Projekt Warnhinweise

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 26. März 2021 um 17:31 Uhr durch imported>TaxonBot(1824919) (Bot: Überarbeitung veralteter Syntax / HTML-Validierung).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Wie wird getestet?

Ich bin fasziniert, aber auch sehr verwirrt. Wie läuft das hier ab? Genauer gesagt, woher kommen die Testergebnisse? Sicher wird nicht die Zeit gestoppt, die die begrüßten Benutzer brauchen, um die Willkommensvorlage zu lesen. Was dann? Werden sie befragt? Wonach? Nach Zufriedenheit? Danach, ob sie inhaltlich verstanden haben, was ihnen mit dem Warnhinweis vermittelt werden sollte? Wenn ja, wo ist der Fragebogen dazu? --TMg 04:38, 4. Jan. 2012 (CET)

Ich habe es auch noch nie gemacht, aber soweit ich weiß, wird ein Skript benutzt, dass die Aktivität des Benutzers irgendwie misst und statistisch auswertet. Ich habe das Skript aber noch nicht, daher kann ich bisher nichts dazu sagen. Die Verantwortlichen sind allerdings in der Geschäftsstelle in San Francisco, daher muss die entsprechende Nachfrage bis heute Abend warten. ;) --Thogo 11:19, 4. Jan. 2012 (CET)
Das scheint mir nicht wirklich ideal, denn ich bezweifele den Zusammenhang zwischen Willkommensvorlage und tatsächlicher Aktivität. -- NyanDog 15:12, 4. Jan. 2012 (CET)
Naja, es ist ja auch erstmal ein Versuch, um das Testsystem zum laufen zu kriegen. Wir machen das dann eher mit den Warnhinweisen (daher auch der Name des Projekts ^^). Aber die Willkommen-Vorlage erschien mir ein gutes Testobjekt, weil die wirklich grottenschlecht war. Ich will nicht sagen, dass mein Vorschlag optimal ist (die Kurzfassung der Vorlage), aber ich denke, er hat zumindest die Probleme nicht, die bei einer Untersuchung (in der en-WP) durch Kommunikationswissenschaftler bei dieser Art Vorlagen festgestellt wurden, nämlich viel zu viel Text, zu viele WP-Fachbegriffe, zu viele Links etc. Da müssen wir dann mal sehen, wie die deutschsprachigen Neuautoren reagieren. Schauen wir einfach mal was dabei rauskommt. Letztlich werden jedenfalls die ganzen Warnhinweise (hoffentlich) so optimiert sein, dass sie ihren Zweck erfüllen, ohne Leute direkt zu vergraulen, die vielleicht nur aus Versehen was falsch gemacht haben. Denn das ist ja laut WMF einer der Hauptgründe warum viele Neuautoren nach sehr kurzer Zeit wieder verschwinden. --Thogo 17:48, 4. Jan. 2012 (CET)
Das ist ja alles gut und schön, aber wie soll man so etwas testen? Beschäftigt die Wikimedia Foundation ein paar amerikanische Kommunikationswissenschaftler, die hier bei uns die deutschsprachigen Benutzer fragen, von welchem Text sie sich eher angesprochen fühlen? Tut mir leid, ich versteh’s nicht. Mit A/B-Tests kann man vielleicht testen, welches Werbebanner mehr Klicks provoziert, aber man wird nie herausfinden, warum die Leute darauf geklickt haben, ob sie verstanden haben, worum es geht oder ob sie komplett in die Irre geleitet wurden.
Also noch einmal die Frage: Was genau wird gemessen? --TMg 22:08, 4. Jan. 2012 (CET)

What exactly is measured?

Please excuse my use of English, but if I understand correctly you are asking what is measured. The answer to that is that we don't directly ask people whether they like one message or another. That is not an A/B test, but a survey. We use data to determine whether changing a message has a positive impact on the encyclopedia by encouraging good edits. The data we usually measure is:
  1. Number of edits by the users before and after the message, for a period of 3 days, 30 days, and 60 days following. This tells us whether the current versions or new versions are better at encouraging participation.
  2. Edits by namespace, especially if the person receiving the message edits user talk pages. We have previously seen multiple tests increase the amount that new editors ask useful questions to improve their editing.
  3. How many articles the person creates and if they are deleted.
  4. How many files they upload and if they are deleted.
  5. Whether anyone is eventually blocked or not, or attains any userrights in that time.
If there is something you feel is missing and should be measured, please speak up and we can add it to the analysis notes in the project wiki pages. Last, I am not a "Kommunikationswissenschaftler". I am a Wikipedian. Steven (WMF) 20:08, 6. Jan. 2012 (CET)
Okay, but you think that there's a connection between the template and following edits of a user. I don't think so because I often put the template onto a talk page, but the user either ignores that or he doesn't edit anymore. Just in a few cases the user answers. That's the reason why I don't see a connection. Cheers, --NyanDog 20:27, 6. Jan. 2012 (CET)
This is exactly where the impact is assumed: the template is so appalling that the user stops editing forever (or ignores it). – Giftpflanze 20:39, 6. Jan. 2012 (CET)
[1]. -- NyanDog 20:51, 6. Jan. 2012 (CET)
Hehe :)
I should add that we also measure whether or not the user actually reads the message (which it looks like people do about 50% of the time). Maryana (WMF) 21:28, 6. Jan. 2012 (CET)

I'm sorry, but I don't belief in A/B testing. It may be nice to know sometimes, but in overall I think it's a misleading concept for what we want to do in the Wikipedia projects. Almost everything we do here is about quality. A/B testing doesn't tell you something about quality, it doesn't even care about quality. It's plain stupid numbers.

  • A/B testing can tell you which ad receives most clicks. But you will never know why people clicked a certain ad. That's OK because you don't care about peoples reasons, the only thing you care about is how much money they spend.
  • You are assuming a relation between choosing a specific template and what an user does. Even if such a relation exists, it's not clear and overlaid by many, many other things. You need many test cases (from what I know several 1000) to see something. And even with a large base the resulting numbers are probably something like 49 % and 51 %, as seen in the image filter referendum, for example.
  • I belief that deleting bad articles improves overall quality. You don't see this in A/B testing. The only thing you see are some decreasing numbers. Even worse, you see people leaving the project.
  • What if a user is so pissed-of by the template, he starts edit wars and tons of discussions? Your numbers will tell you it was a good template. You don't see a difference between a good question asked in a discussion namespace and a bad discussion where a lot of people are wasting their time. Even worse, a good question produces less edits compared to a bad discussion.
  • I belief it's more important to improve existing articles, not to create new. What a new user typically does is creating a single article and then stop editing because (besides other reasons) everything else he could create already exists. What we need are people to edit bad articles. This said, counting the number of edits may tell us something. But we already know these numbers (approximately). They are very low. From what I know only one of multiple hundred new users continues editing. That's why I said you need several 1000 users to get useful results. --TMg 18:09, 7. Jan. 2012 (CET)
    • So you just want to guess about everything then? Because if you don't have data about the human impact of different template messages, the only thing you can do to decide how it should be written is to guess. I think how we treat new Wikipedians is too important to rely on just anyone's personal opinion. Rather, it is useful to do an objective test.
    • The nice thing about doing a test this way is that everything is on wiki: if we don't want to just look at the numbers, we can go look at people's edit histories in the different tests. In fact, we've done a huge amount of qualitative coding before we do any statistical analysis. I'm happy to include that as a step here too, if you or other German speakers would be willing to help with the assessment. Steven (WMF) 19:11, 9. Jan. 2012 (CET)
I'm a human being, able to think, to argue and to do deductive reasoning. I don't have to guess. I can see that this is a horrible, horrible template. --TMg 21:56, 13. Jan. 2012 (CET)
Let's write a new version then. :) Steven (WMF) 20:11, 26. Jan. 2012 (CET)
What about this one?^^
Seriously, I think, it could be a good start for a new welcome template. In "warning" templates, there should be a hint that every edit is controlled, to show newbies they don't have to worry if they make a mistake or another, but also to warn vandals/trolls not to try to destroy too much, because it would not last for long. (only an idea) --DraGo†h±«» 20:00, 27. Jan. 2012 (CET)

Bitte mal hier reinschauen

Hallo liebe Mitarbeiter des Projektes, könnten ihr bitte einmal dort einen Blick werfen und uns sagen, ob ihr eine Möglichkeit seht einen solchen Warn-Hinweis zu erstellen? Nach Möglichkeit schon auf der Anmeldeseite. Hinweis auf Öffentlichkeit. Vielen Dank im Voraus. --Liebe Grüße, Lómelinde Diskussion 14:01, 9. Feb. 2012 (CET)

"wir" kann man wohl kaum sagen. Ziel ist hier nur, dass die Hinweise kurz und bündig werden. -- NyanDog ! 15:16, 12. Feb. 2012 (CET)
You actually can't say "we". Our goal is to get the messages brief. -- NyanDog ! 15:16, 12. Feb. 2012 (CET)
Sind wir denn nicht alle wir? Was muss man denn tun, um so etwas voranzubringen? Du weißt, dass ich da noch viel zu wenig Erfahrung habe. Und sag nicht frag mal die Admins, du weißt, was dabei rauskommen würde. Die sind nicht gerade gut auf mich zu sprechen fürchte ich. --Liebe Grüße, Lómelinde Diskussion 11:36, 13. Feb. 2012 (CET)