Benutzer:Pee86/Spielwiese

Die Randomized-Response-Technik (dt. Randomisierte-Antwort-Technik) ist eine Methode der Psychologie und der Sozialwissenschaften, bestimmte Verfälschungen von Interviewantworten zu verringern.

Bei manchen Befragungsthemen können ehrliche Antworten für die befragte Person peinlich oder inkriminierend sein, oder durch den Effekt der sozialen Erwünschtheit verfälscht werden. Dann bietet die Randomized-Response-Technik eine Möglichkeit, durch Anonymisierung das wahre Ergebnis der Befragung zu schätzen.

Verfahren

Bevor die „sensitive Frage“ beantwortet wird, entscheidet ein Zufallsgenerator, ob die befragte Person ehrlich antworten soll oder mit "Ja". Der Interviewer weiß nicht, was der Zufallsgenerator entschieden hat, wodurch die "Ja"-Antwort, also das Eingeständnis der peinlichen Eigenschaft, geschützt wird.

Beispiel

Man will den Anteil der Bevölkerung, der schon einmal unter Alkoholeinfluss Auto gefahren ist, bestimmen. Jeder Befragte (dieser wird rein zufällig aus der Bevölkerung ausgewählt) bekommt 3 Karten vom Befrager. Jede Karte ist mit einer Frage versehen, wobei zum Beispiel die erste Karte die Frage "Sind Sie schon einmal unter Alkoholeinfluss Auto gefahren? ", die zweite Karte die Frage " Ist hier ein schwarzes Dreieck zu sehen?" (wobei hier kein schwarzes Dreieck zu sehen ist) und die dritte Karte ebenfalls die Frage " Ist hier ein schwarzes Dreieck zu sehen?" (wobei hier auch in der Tat ein schwarzes Dreieck zu sehen ist) enthalten. Der Befragte bekommt alle drei Karten verdeckt ausgehändigt. Ohne dass der Fragende die Karten sieht, zieht der Befragte eine der Karten und beantwortet diese lediglich mit "Ja" oder "Nein". Der Interviewer weiß jetzt nicht, welche der Fragen der Befragte beantwortet hat. Somit hat der Befragte keinen Grund, bei dieser Umfrage unwahr zu antworten.
Angenommen, es werden 3000 Personen befragt, wobei davon 1200 Personen mit "Ja" geantwortet haben (auf welche Frage sich diese Antwort bezieht, spielt hier keine Rolle). Im Durchschnitt hat davon ein rund Drittel, also ungefähr 1000 Personen, die Karte mit dem schwarzen Dreieck gezogen und wahrheitsgemäß mit "Ja" darauf geantwortet.Weitere 1000 Personen wiederum zogen die Karte ohne Dreieck und ebenfalls ungefähr 1000 Personen die Karte mit der Alkoholfrage. Also haben von den 1200 "Ja"-Antworten etwa 200 die Alkoholfrage mit "Ja" beantwortet. Da etwa 1000 Leute die Alkoholfrage gezogen haben und davon also ca. 200 mit "Ja" geantwortet haben, kann man also sagen, dass 20% schon einmal unter Alkoholeinfluss Auto gefahren sind.

Anwendung

Diese Fragestellung wurde während des Vietnam-Krieges angewendet, als die US-Armeeführung wissen wollte, welcher Anteil der dort stationierten US Truppen Drogen konsumierte. Gerüchten zufolge war dieser Anteil sehr hoch, weshalb man dies empirisch überprüfen wollte. Bei einer direkten Fragemethode hätte man höchstwahrscheinlich ein sehr ungenaues Ergebnis erhalten, da Drogenkonsum ja immerhin strafbar ist.

Originalversion

In der Originalversion von Warner (1965) ist der Ablauf etwas anders: Die "sensitive Frage" wird in zwei komplementären Versionen formuliert, und der Zufallsgenerator entscheidet, welche der Fragen beantwortet werden soll (und zwar ehrlich). Der Interviewer bekommt also ein "Stimmt" oder "Stimmt nicht" zur Antwort, ohne zu wissen, auf welche Frage. Aus mathematischen Gründen darf die Wahrscheinlichkeitsverteilung nicht "fair" sein (½ zu ½). Ist p die Wahrscheinlichkeit, mit der die sensitive Frage beantwortet werden soll und $\Theta _{MM}$ der wahre Anteil der Befragten mit der peinlichen Eigenschaft, so setzt sich der Anteil der "Stimmt"-Antworten ${\tfrac {Y}{n}}$ , wobei $Y$ die Anzahl aller "Stimmt"-Antworten ist und $n$ die Gesamtanzahl der befragten Menschen, wie folgt zusammen:

${\tfrac {Y}{n}}=p\cdot \Theta _{MM}+(1-p)\cdot (1-\Theta _{MM})$ .

Aufgelöst nach $\omega _{MM}$ erhält man

$\Theta _{MM}={\frac {{\frac {Y}{n}}+p-1}{2\cdot p-1}}$

Mathematische Herleitung der Formel

Es wird vom Stichprobenraum {A,B} ausgegangen. Der Stichprobenraum besteht aus den Ereignissen

${\text{A}}={\text{Antwort lautet Ja}}$
und
${\text{B}}={\text{Antwort lautet Nein}}$
bestehen.

Die Zufallsvariablen $Y_{1},...,Y_{n}$ seien unabhängig und identisch verteilt. Jede dieser Zufallsvariablen kann man als eine befragte Person ansehen. Die jeweiligen Wahrscheinlichkeiten für die beiden Ereignisse seien $P(Y_{i}=A)=\Theta$ sowie $P(Y_{i}=B)=1-\Theta$ . Dieses $\Theta$ stellt also in unserem Beispiel den tatsächlichen Anteil an Personen dar, die schon einmal unter Alkoholeinfluss Auto gefahren sind. Die Wahrscheinlichkeit $\Theta$ ist jedoch unbekannt. Nun führt man ein Zufallsexperiment mit den Ausfällen A und B und den bekannten Wahrscheinlichkeiten $p$ und $1-p$ durch. Das Ergebnis dieses Zufallsexperiments wird allerdings nur vom Befragten beobachtet und nicht vom Fragenden. Der Befragte teilt dem Fragenden dann mit, ob das Ergebnis mit seiner Gruppenzugehörigkeit (also mit A oder B) übereinstimmt. Nun kann man eine neue Zufallsvariable wie folgt definieren:

X_{i}={\begin{cases}1,&{\text{falls Proband mit Ja antwortet}},\\0,&{\text{falls Proband mit Nein antwortet}}.\end{cases}}

Als Information bekommt man dann die Realisierungen der Zufallsvariablen $X_{1},...,X_{n}$ . Man kann nun die Wahrscheinlichkeit, dass $X_{i}=1$ , als bedingte Wahrscheinlichkeit wie folgt darstellen:

P(X_{i}=1)=P(Y_{i}=A)\cdot P(X_{i}=1|Y_{i}=A)+P(Y_{i}=B)\cdot P(X_{i}=1|Y_{i}=B)

=\Theta \cdot p+(1-\Theta )\cdot (1-p)

Entsprechend kann man auch die Wahrscheinlichkeit für $P(X_{i}=0)$ darstellen:

P(X_{i}=0)=P(Y_{i}=A)\cdot P(X_{i}=0|Y_{i}=A)+P(Y_{i}=B)\cdot P(X_{i}=0|Y_{i}=B)

=\Theta \cdot (1-p)+(1-\Theta )\cdot p

Sei nun Y die Anzahl der "Ja-Antworten", dann gilt für Y:

Y=\sum _{i=1}^{n}{X_{i}}

.

Da jedes $X_{i}$ nur die Werte 1 und 0 annehmen kann mit Wahrscheinlichkeit $P(X_{i}=1)$ und $P(X_{i}=0)=1-P(X_{i}=1)$ , sind die $X_{i}$ $B(1,P(X_{i}=1))$ -verteilt. Also ist $Y$ $B(n,P(X_{i}=1))$ -verteilt. Nun kann man $P(X_{i}=1)$ durch den Stichprobenanteil der Einser schätzen, also die Anzahl aller Einser in Bezug auf die Gesamtanzahl aller Ergebnisse. Somit ergibt sich:

P(X_{i}=1)={\frac {Y}{n}}

Man kann nun den Momentenschätzer für $\Theta$ mittels folgender Gleichung bestimmen:

${\frac {Y}{n}}=\Theta \cdot p+(1-\Theta )\cdot ((1-p)=\Theta \cdot (p-(1-p))+1-p=\Theta \cdot (2p-1)+(1-p)$

Durch Umformen erhält man dann den Momentenschätzer für $\omega$ :

$\Theta _{MM}={\frac {{\frac {Y}{n}}-(1-p)}{2p-1}}$ wobei man hieran sieht, dass diese Methode nur für $p\not ={\frac {1}{2}}$ gilt.

Man kann nun noch den Erwartungswert dieses Schätzers bestimmmen:

$E(\Theta _{MM})={\frac {1}{2p-1}}\cdot (E({\tfrac {Y}{n}}-(1-p))={\frac {1}{2p-1}}\cdot [\Theta \cdot p+(1-\Theta )(1-p)-(1-p)]=\Theta$

Also ist $\displaystyle {\Theta _{MM}}$ ein erwartungstreuer Schätzer für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \displaystyle \Theta } .

Beispiel

Alternative 1: "Ich bin schon einmal unter Alkoholeinfluss Auto gefahren."
Alternative 2: "Ich bin noch nie unter Alkoholeinfluss Auto gefahren."

Die Befragten würfeln verdeckt und sollen nur bei einer 6 die erste Frage beantworten, sonst die zweite Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (p = \tfrac{1}{6})} . Der Anteil der "Stimmt"-Antworten setzt sich nun zusammen aus denen, die schon einmal unter Alkoholeinfluss Auto gefahren sind und eine 6 gewürfelt haben und denen, die noch nie unter Alkoholeinfluss Auto gefahren sind und eine andere Zahl gewürfelt haben. Von 100 Befragten mögen 75 mit "Stimmt" antworten (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \tfrac{Y}{n} = \tfrac{3}{4}} ). Einsetzen in die Formel ergibt

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \Theta_{MM} =\frac{\tfrac{3}{4} + \tfrac{1}{6} - 1}{2\cdot \tfrac{1}{6} - 1} = \frac{1}{8} }

Wenn alle Befragten ehrlich waren, beträgt der wahre Anteil von Menschen, die schon einmal unter Alkoholeinfluss Auto gefahren sind Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \Theta_{MM} = \tfrac{1}{8}} , also 12,5 %.

Literatur

C. Hesse (2009). Das kleine Einmaleins des klaren Denkens. Beck'sche Reihe S. 284-303.
Vorlesungsskript "Mathematische Statistik" SS 2010 von Christian Hesse, Universtität Stuttgart.
Warner, S. L. (1965). Randomized response: a survey technique for eliminating evasive answer bias. Journal of the American Statistical Association 60, S. 63-69.
Greenberg, B. G., et al. (1969). The Unrelated Question Randomized Response Model: Theoretical Framework. Journal of the American Statistical Association 64(326), S. 520-539.
Arijit Chaudhuri, Rahul Mukerjee: Randomized response: theory and techniques
M. Ostapczuk, M. Moshagen, Z. Zhao & J. Musch (2009). Assessing sensitive attributes using the randomized-response-technique: Evidence for the importance of response symmetry. Journal of Educational and Behavioral Statistics 34, S. 267-287.
M. Ostapczuk, J. Musch & M. Moshagen (2009). A randomized-response investigation of the education effect in attitudes towards foreigners. European Journal of Social Psychology 39, S. 920-931.

Siehe auch

Anonym

Suche

Benutzer:Pee86/Spielwiese

Namensräume

Mehr

Seitenaktionen

Inhaltsverzeichnis

Verfahren

Beispiel

Anwendung

Originalversion

Mathematische Herleitung der Formel

Beispiel

Literatur

Siehe auch

Navigation

Navigation

Mitmachen

Wikiwerkzeuge

Wikiwerkzeuge

Anonym

Suche

Benutzer:Pee86/Spielwiese

Verfahren

Beispiel

Anwendung

Originalversion

Mathematische Herleitung der Formel

Beispiel

Literatur

Siehe auch

Navigation

Wikiwerkzeuge

Seitenwerkzeuge

Weitere Projekte

Versteckte Kategorien