Instrumentelle und operante Konditionierung

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Operante Konditionierung)
Konsequenzen
positive und negative Verstärkung
positive und negative Bestrafung
SR-Modell
SOR-Modell
SORKC-Modell
Methoden
klassische Konditionierung
Gegenkonditionierung
operante Konditionierung
Extinktion
Shaping
Chaining
Fading
Time-out-Technik
Response-Cost
Token-System
Premack-Prinzip
Diskriminationslernen
Stimuluskontrolle
Kontingenzmanagement
Theorien
Verstärker-Verlust-Theorie
Zwei-Faktoren-Theorie
Zwangsprozess

Instrumentelle und operante Konditionierung, auch Lernen am Erfolg genannt,[1] sind Paradigmen der behavioristischen Lernpsychologie und betreffen das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response) aus ursprünglich spontanem Verhalten. Die Häufigkeit eines Verhaltens wird durch seine angenehmen (appetitiven) oder unangenehmen (aversiven) Konsequenzen nachhaltig verändert. Das bedeutet, dass erwünschtes Verhalten durch Belohnung verstärkt und unerwünschtes Verhalten durch Bestrafung unterdrückt wird.

Man unterscheidet diese Art des Lernens von der klassischen Konditionierung, die ausgelöstes Verhalten betrifft (der lernende Organismus hat keine Kontrolle über den Reiz oder seine Reaktion).

Geschichte

Thorndikes Modell

Die Erforschung der instrumentellen Konditionierung beginnt mit den Tierversuchen von Edward Lee Thorndike, die er im Rahmen seiner Doktorarbeit (1898) an der Columbia University machte. Er setzte Hühner, Katzen und Hunde in selbstgebaute Rätselkäfige (puzzle boxes) verschiedener Schwierigkeitsgrade und maß die Zeit, die die Versuchstiere zur Selbstbefreiung benötigten. Als Anreiz legte er, für die Tiere sichtbar, Futter neben den Käfig. Nachdem das Tier Erfolg hatte und mit Futter belohnt worden war, setzte er das Tier zurück in den Käfig und maß erneut die Zeit bis zur Käfigöffnung (sog. discrete trial procedure). Eine durchschnittliche Katze benötigte bei einer einfachen puzzle box anfangs 160 Sekunden, wurde jedoch immer schneller und benötigte nach 24 Versuchen nur noch 7 Sekunden. Die Ergebnisse seiner Versuche fasste Thorndike in seinem „Gesetz der Wirkung“ (law of effect) zusammen:

“Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur.”

„Von allen Reaktionen in einer gegebenen Situation werden […] jene Reaktionen, die für das Tier von Befriedigung begleitet oder gefolgt werden, stärker mit der Situation verbunden, sodass, wenn die Situation erneut eintritt, auch jene Reaktionen erneut auftreten; solche Reaktionen, die für das Tier […] von Unbehagen begleitet oder gefolgt wurden, verlieren ihre Bindung an die Situation, sodass diese Reaktionen, wenn die Situation erneut eintritt, seltener auftreten.“

Edward Lee Thorndike: „Gesetz der Wirkung“ (law of effect), Doktorarbeit, 1898

Thorndikes Reiz-Reaktions-Modell legte, mit Pawlows Experimenten zur Klassischen Konditionierung, die Grundlage für den von John B. Watson begründeten Behaviorismus, der jahrzehntelang die psychologische Forschung beherrschen sollte.

Geprägt wurde die behavioristische Forschung von niemandem so sehr wie von Burrhus Frederic Skinner, der Thorndikes und Watsons Arbeit fortsetzte und weiterentwickelte. Seine Käfige, die Skinner-Boxen, enthalten die Möglichkeit, das Zielverhalten (z. B. einen Hebel zu drücken) jederzeit auszuführen (sog. free operant procedure). Nach einem festgelegten Verstärkerplan hat dieses Verhalten für das Tier bestimmte Konsequenzen.

Unterschied zwischen instrumenteller und operanter Konditionierung

Obwohl die Bezeichnung instrumentelle Konditionierung meistens mit operanter Konditionierung gleichgesetzt wird, ist diese Gleichsetzung nicht korrekt:[2][3]

  • Bei der instrumentellen Konditionierung betrachtet man das Verstärken oder Abschwächen von instrumentellem Verhalten. Das Verhalten wird also als Instrument (= Mittel, Werkzeug) eingesetzt, um etwas herbeizuführen. Damit bezweckt dann ein Lebewesen ein bestimmtes Ziel zu erreichen und hat entweder Erfolg oder nicht. Je nach dem Resultat (outcome) wird es beim nächsten Mal wieder dasselbe oder eher ein anderes Verhalten an den Tag legen.
  • Bei der operanten Konditionierung betrachtet man beliebiges spontanes Verhalten, das vom Lebewesen auch unbeabsichtigt oder rein zufällig gezeigt werden kann und ohne weitere Bedingungen (wie z. B. das Vorhandensein eines Problems) wiederholt werden kann.

Grundbegriffe

Da Behavioristen sich auf Beobachtbares beschränken, fassen sie alle inneren Zustände – zum Beispiel Wahrnehmungen, Emotionen und Gedanken – in einer sogenannten Black Box zusammen. Auf diese Black Box wirken der behavioristischen Theorie zufolge Umweltreize („Stimuli“) in der Weise ein, dass Verhalten (Response) hervorgerufen wird. Diese Antwort hat eine Konsequenz. Wenn in einem bestimmten Kontext (Stimulus) ein beliebiges Verhalten gezeigt wird, kann es sein, dass dieses Verhalten künftig (unter gleichen Umständen) häufiger ausgeführt wird (dann kann man schließen, dass die Konsequenz „angenehm“ war), oder es wird seltener (dann war die Konsequenz „unangenehm“). Im ersten Fall spricht man von „Verstärkung“, im zweiten Fall von „Bestrafung“.

Die Zuordnungen „angenehm/unangenehm“ bzw. „appetitiv/aversiv“ sind nicht als subjektiv erlebte Zustände zu verstehen – als solche hätten sie in einer behavioristischen Theorie keinen Platz –, sondern als Ausdruck dafür, ob diese Zustände gesucht oder gemieden werden. Thorndike definierte wie folgt: „Mit angenehmer Zustand ist ein Zustand gemeint, den das Tier nicht vermeidet, oft sogar aufsucht und aufrechterhält. Unangenehm bezeichnet einen Zustand, den das Tier normalerweise meidet oder verlässt.“[4]

Verstärkung geschieht, wenn die Konsequenz des Verhaltens ein angenehmer Reiz („positive Verstärkung“) oder der Wegfall eines unangenehmen Reizes ist („negative Verstärkung“). Entsprechend geschieht Bestrafung, wenn die Konsequenz ein unangenehmer Reiz („positive Bestrafung“) oder der Wegfall eines angenehmen Reizes ist („negative Bestrafung“, omission training oder „DRO“ = Differential Reinforcement of Other behavior).

Diskriminative Hinweisreize (Signalreize) sind Reize, die bestimmte Verhaltenskonsequenzen signalisieren. Beispiel: Eine Ratte erhält nur dann eine Belohnung (Futter), wenn vorher eine Lampe aufleuchtete.

Kontingenzschema

Vier Fälle des operanten Konditionierens: positive Verstärkung, negative Verstärkung, Bestrafung Typ I und Bestrafung Typ II

In der Lerntheorie ist Kontingenz (spätlat. contingentia „Möglichkeit“) die unmittelbare und regelmäßige Konsequenz (lat. consequi „folgen, erreichen“), d. h. Folge von Verhalten. In der operanten Konditionierung gibt es die vier klassischen Grundformen der Kontingenz:

  1. Positive Verstärkung ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine angenehme (appetitive) unmittelbare Konsequenz auslöst (z. B. Anerkennung, Achtung, Nahrung, Geld).
  2. Negative Verstärkung ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine unangenehme (aversive) unmittelbare Konsequenz verhindert oder beendet (z. B. jeweils das Entfernen von Lärm, grellem Licht, Hitze oder Kälte).
  3. Positive Bestrafung ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine unangenehme (aversive) unmittelbare Konsequenz auslöst (z. B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag).
  4. Negative Bestrafung ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine angenehme (appetitive) unmittelbare Konsequenz verhindert oder beendet (z. B. Wegnahme von Futter, Wärme, Weihnachtsgeld). Negative Verstärkung und Bestrafung werden häufig miteinander verwechselt. Das Wort negativ steht hier nur für das Entfernen eines Reizes.
Kontingenzschema der instrumentellen & operanten Konditionierung
Konsequenz dargeboten Konsequenz fällt weg
Angenehme Konsequenz positive Verstärkung negative Bestrafung

(Entzugsbestrafung)

Unangenehme Konsequenz positive Bestrafung

(Präsentationsbestrafung)

negative Verstärkung

Negative Verstärkung hat klinisch die größte Bedeutung, da sie zur Aufrechterhaltung von Vermeidungsverhalten z. B. bei phobischen Störungen und Zwangsstörungen massiv beiträgt: Die Patienten unternehmen alles, um einen als aversiv empfundenen Zustand (enge Räume, ungewaschene Hände) zu meiden, sodass sie niemals die Erfahrung machen, ob sie den Zustand inzwischen aushalten bzw. die Situation meistern können.

Wenn weder positiv noch negativ verstärkt wird, kommt es zu einer Löschung des Verhaltens. Die Löschung darf nicht mit dem Entzug eines positiven Verstärkers (negative Bestrafung) verwechselt werden.[5][6]

Primäre und sekundäre Verstärker

Verstärker sorgen beim operanten Konditionieren dafür, dass das Auftreten einer bestimmten Reaktion (sog. instrumentelle oder operante Reaktion) begünstigt oder erschwert wird. Verstärker können recht unterschiedliche Dinge sein, sie können z. B. von etwas Schokolade oder Geld zu Lächeln, Schulterklopfen oder Kopfnicken (sozialer Verstärker) reichen. Was letztendlich als Verstärker funktioniert, bestimmt die Person, bei der eine bestimmte Verhaltensweise verstärkt wird bzw. werden soll. Relevant ist, ob die Verstärker kontingent (also unmittelbar, erkennbar, regelhaft) und motivationsadäquat sind und Bedürfnisse (z. B. Hunger, Aktivitätsbedürfnis) befriedigen. Bei einem Verstärker, der erst Stunden oder gar Monate nach der gewünschten Reaktion eintritt, ist u. U. nicht mehr erkennbar, wofür er vergeben wurde, und er hat deshalb oft keine Wirkung (vgl. indes: jährlich ausgezahlte Bonuszahlungen). Auch wird eine satte Ratte zum Erwerb einer Futterpille nichts mehr unternehmen – die Bedürfnisspannung fehlt. Um einer Verfettung von Laborratten vorzubeugen, benutzt man in der Forschung Erkenntnisse der Klassischen Konditionierung: Der Reiz „Verstärker“ (hier: Futter) wird mit einem anfangs neutralen Reiz (z. B. einem Pfiff) gekoppelt, wodurch der Pfiff durch klassische Konditionierung zum bedingten Reiz wird, der dann – wie Futter – ebenfalls die Wirkung einer Belohnung hat (diskriminativer Hinweisreiz). Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: primäre Verstärker und sekundäre Verstärker.

Primäre Verstärker sind jene Verstärker, die bereits von Geburt an wirken. Laut Miller und Dollard wirkt jede Reduktion eines allzu intensiven Reizes als primäre Verstärkung. Primäre Verstärker sind beispielsweise Essen und Trinken, da sie Hunger und Durst reduzieren, aber auch Körperkontakt ist primärer Verstärker.

Sekundäre Verstärker (siehe auch Token-System) dagegen sind gelernte Verstärker. Sie sind also zunächst neutrale Reize, die durch die wiederholte Kopplung mit primären Verstärkern sekundäre Verstärkerqualität erhalten. Beispiele für sekundäre Verstärker sind beispielsweise Geld, denn die Funktion wird erst gelernt. Zunächst ist Geld ein komplett neutraler Reiz, bis gelernt wird, dass es zur Bedürfnisbefriedigung herangezogen werden kann.

Token-Konditionierung

Ähnlich wie bei sekundären Verstärkern gibt es das Prinzip, für eine Verstärkung sogenannte Token zu vergeben. Diese können dann später – nach ausreichender Akkumulation von Token – gegen andere Dinge, Handlungen, Dienstleistungen usw. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.

Premack-Prinzip

„Die Gelegenheit zu wahrscheinlicherem Verhalten kann weniger wahrscheinliches Verhalten verstärken.“ (David Premack, 1962[7]) Verhalten, das wir gerne und häufig tun, hat eine verstärkende Wirkung auf Verhalten, das wir weniger gern und häufig tun. Nehmen wir als Beispiel ein Kind mit einem Nachmittag zur freien Verfügung. Wenn wir es vollkommen frei vor die Wahl zwischen „Fernsehen“, „Hausaufgaben machen“ und „Zimmer aufräumen“ stellen, wird es mutmaßlich die meiste Zeit mit Fernsehen verbringen, etwas Hausaufgaben machen und das Zimmer unaufgeräumt lassen. Nun können wir das Verhalten mit der jeweils höheren Auftretenswahrscheinlichkeit als Verstärker benutzen: Das Kind wird mehr Zeit mit Hausaufgaben verbringen, wenn es erst danach fernsehen darf, und es wird mehr Zeit mit Aufräumen verbringen, wenn es erst danach Hausaufgaben machen darf.

In Ergänzung zum Premack-Prinzip konnte in Tierversuchen mit Ratten nachgewiesen werden, dass auch ein Verhalten, das eine niedrigere Auftretenswahrscheinlichkeit besitzt, als Verstärker dienen kann: Nehmen wir an, eine Ratte, die eine Stunde in einem Käfig sitzt, verbringt ohne äußere Zwänge 50 Minuten damit, an einem Wasserspender zu lecken und zehn Minuten damit, in einem Laufrad zu rennen. Man kann nun nach dem Premack-Prinzip ohne Probleme das längere Rennen im Laufrad durch das Lecken verstärken. Es geht jedoch auch andersherum. Wenn die Ratte zwei Minuten lecken muss, um danach eine Minute im Laufrad zu rennen, wird dies nicht als Verstärker wirken, da die Ratte nach diesem Verstärkerplan leicht auf ihre Basis-Verhaltenshäufigkeit von 10 Minuten Rennen in der Stunde kommt. Wenn die Ratte aber fünfzehn Minuten lecken muss, um eine Minute rennen zu dürfen, wirkt dieses Verhalten als Verstärkung für das Lecken. Somit kann auch ein Verhalten mit einer niedrigeren Auftretenshäufigkeit als Verstärker dienen.

Kontinuierliche Verstärkung

Hier wird bei jeder gewünschten Reaktion verstärkt. Dies führt zu einem starken Anstieg der Lernkurve. Die Versuchsperson lernt also schnell, vergisst aber auch ebenso schnell wieder, wenn nicht mehr verstärkt wird. Dieser Verstärkerplan ist optimal in der Akquisitionsphase, also beim ersten Erlernen des Zielverhaltens.

Um einer Extinktion vorzubeugen, muss die Kopplung gelegentlich wiederholt werden. Dabei haben sich die folgenden, unterschiedlich erfolgreichen Verstärkerpläne herauskristallisiert.

Quotenverstärkung

Die Quotenpläne sind in fixierte (fixed-ratio) und variable (variable-ratio) Quotenpläne unterteilt. Bei den fixierten Quotenplänen wird der Verstärker nach einer bestimmten Anzahl der gewünschten Reaktionen gegeben, bei den variablen Quotenplänen nach einer durchschnittlichen Anzahl der gewünschten Reaktionen. Beispiel: Bei jedem fünften (FR-5-Plan) oder durchschnittlich jedem fünften (VR-5-Plan) Auftreten des Zielverhaltens erfolgt eine Verstärkung.[8]

Die meisten Reaktionen erfolgen auf variable Quotenpläne (variable ratio), da die Verstärkergabe nicht vorauszusehen ist. Gleichzeitig sind die hierbei erlernten Reaktionen auch am resistentesten gegenüber einer Löschung.

Siehe auch intermittierende Verstärkung.

Intervallverstärkung

Bei dieser Methode wird nach dem letzten verstärkten Verhalten frühestens wieder nach einem konstanten oder variablen Zeitintervall verstärkt, sobald das erwünschte Verhalten auftritt. Beispiel: Für die Dauer von 20 Sekunden (fixed interval) oder durchschnittlich 20 Sekunden (variable interval) wird kein Verhalten verstärkt.

Ratenverstärkung

Verstärkt wird, wenn das Zielverhalten mit hoher Frequenz oder niedriger Frequenz gezeigt wird. Die Verstärkung hoher Frequenzen führt zum selben Ergebnis wie Verhältnispläne, die Verstärkung niedriger Frequenzen führt zum selben Ergebnis wie Intervallpläne.

Neues Verhalten: Shaping, Chaining und die Skinner-Box

Durch positive oder negative Verstärkung und Methoden wie Shaping und Chaining können auch komplexe Abfolgen von Verhaltensweisen gefördert werden. Eine elegante Methode, auf gleichermaßen anschauliche wie reproduzierbare Weise einem Testtier neue Verhaltensweisen beizubringen, stellt das Lernen mit Hilfe einer so genannten Skinner-Box dar.

Beim Shaping (auch Approximation genannt) wird nicht erst die vollständige Abfolge der erwünschten Verhaltensweisen verstärkt, sondern bereits jede Annäherung an die gewünschten Verhaltensweisen. Soll eine Taube etwa auf einen roten Punkt auf einer Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik dem Erlernen komplexerer Verhaltensweisen. Auf diese Weise können auch recht unnatürliche Bewegungsabfolgen bei Tieren konditioniert werden, wie sie etwa im Zirkus zu sehen sind.

Kritik

Die Erforschung des Lernens durch Konditionierung beschränkt sich rigoros auf beobachtbares Verhalten und spekuliert nicht über Konstrukte, die dem Verhalten eventuell zugrunde liegen. Daher klärt sie nicht, wie Lernen durch intrinsische Motivation (z. B. Neugier) funktioniert. Erst theoretische Modelle – z. B. Albert Banduras sozialkognitive Lerntheorie, welche insbesondere über das Lernen am Modell spekulieren – lieferten Hypothesen bzw. spekulative Aussagen zu diesen Verhaltensmustern, die jedoch nicht ausreichend den Wirkmechanismus der Klingelmatte gegen Enuresis erklären können.

Auch aus ethischer Sicht gibt es Kritik: Die erzieherischen Konsequenzen des Behaviorismus in der instrumentellen und operanten Konditionierung werden als problematisch beim Menschen angesehen, sofern sie in einer Weise eingesetzt werden, die an Dressur und Gehirnwäsche erinnert. Die operante und klassische Konditionierung sollte in einer ethisch vertretbaren Weise eingesetzt werden. Dazu ist erforderlich, dass den Lernenden der Konditionierungsprozess ausführlich erklärt wird, soweit diese Menschen verstehen können, und sie sich bewusst dafür oder dagegen entscheiden können. Dazu gehört auch, dass die Lernenden die Lernziele selbst bestimmen. Dies kann zum Beispiel bei Kindern, geistig Behinderten und Alten nicht der Fall sein. Ebenso ist es nicht der Fall, wenn die Konditionierung von bestimmten Empfindungen als Reaktion auf das Darbieten bestimmter Produkte in der Werbung eingesetzt wird.

Siehe auch

Weblinks

Belege

  1. Wilhelm F. Angermeier: Kontrolle des Verhaltens. Das Lernen am Erfolg. 2., neubearb. Auflage. Springer, Berlin, Heidelberg, New York 1976, ISBN 978-3-540-07575-2.
  2. Philip G. Zimbardo: Psychologie. Springer, 2013, ISBN 978-3-662-22364-2, S. 275 (eingeschränkte Vorschau in der Google-Buchsuche).
  3. Martin Wiegand: Prozesse Organisationalen Lernens. Springer, 2013, ISBN 978-3-322-89128-0, S. 343 (eingeschränkte Vorschau in der Google-Buchsuche).
  4. Im Original: „By a satisfying state of affairs is meant one which the animal does nothing to avoid, often doing such things as attain and preserve it. By a discomforting or annoying state of affairs is meant one which the animal commonly avoids and abandons.“
  5. Carsten Vollmer: Mediengestütztes Lernen: Status und Potentiale in der betrieblichen Bildungsarbeit. diplom.de, 2014, ISBN 978-3-8324-4687-1, S. 10 (eingeschränkte Vorschau in der Google-Buchsuche).
  6. Franz Petermann, Andreas Maercker, Wolfgang Lutz, Ulrich Stangier: Klinische Psychologie – Grundlagen. Hogrefe Verlag, 2017, ISBN 978-3-8409-2160-5, S. 45 (eingeschränkte Vorschau in der Google-Buchsuche).
  7. Im Original: „An opportunity to engage in more probable responses will reinforce a less probable response.“
  8. Richard J. Gerrig: Psychologie. Hrsg.: Tobias Dörfler, Jeanette Roos. 21. Auflage. Pearson, Hallbergmoos 2018, ISBN 978-3-86894-323-8.