Wie Lernen funktioniert

Svenja
Nov 6, 2022
5 min read

Updated: Nov 14, 2022

... oder "Warum 'Clickertraining' bzw. Training mit positiver Verstärkung keine 'Trainingsmethode' ist."

Verstärker und Strafe

Jedes Individuum tut Dinge, die lohnenswert sind. Zum Beispiel weil sich etwas gut anfühlt oder ein akutes Bedürfnis erfüllt, wie etwa ein Buch in der Badewanne lesen oder mit dem Pferd über ein Stoppelfeld galoppieren. Oder auch, weil man etwas Unangenehmes vermeiden möchte - etwa den Gang ins Chefbüro oder eine Person die uns wiederholt auf die Schulter tippt, um unsere Aufmerksamkeit zu bekommen.

Die Konsequenzen die auf ein gezeigtes Verhalten folgen bestimmen, ob dieses Verhalten in Zukunft häufiger oder weniger häufig gezeigt wird. Erstrebenswerte Konsequenzen führen zu einem häufigeren Zeigen des Verhaltens. Unangenehme Konsequenzen führen dazu, dass ein Verhalten seltener gezeigt wird. Wir sprechen über Verstärkung und Strafe - und damit über "Konditionierung". Denn unter welchen Konditionen (also Bedingungen) ein Verhalten stattfindet bestimmt, wie wir es bewerten und in Zukunft einsetzen.

Dabei entscheidet das Individuum, was es als Belohnung oder als Strafe empfindet. Nur weil der Reiter z.B. wenig Druck ausübt heißt es nicht, dass dieser nicht so unangenehm für das Pferd ist, dass es diesen vielleicht als Strafe empfindet.

Hilft dir die Badewanne beim Entspannen, wirst du nach einem stressigen Arbeitstag häufiger mit deinem Buch in die Badewanne steigen da du gelernt hast, dass dies zum erwünschten Zustand der Entspannung führt. (Spoiler: Wenn du dich hier nicht wiederfindest weil du nicht gern badest, ist dies einfach nur ein Hinweis auf deine individuellen Vorlieben, die bei jedem Lernvorgang eine Rolle spielen).

Wenn mich jemand wiederholt auf die Schulter tippt und mich nicht in Ruhe lässt bis ich zur Seite gehe verbinde ich damit keine angenehmen Gefühle. Aber ich lerne, dass ich beim nächsten Mal vielleicht schon beim dritten Mal Antippen zur Seite gehe, um das unangenehme Gefühl schneller zu beenden.

Operante Konditionierung - das universelle Grundprinzip

Die vier Quadranten der Lerntheorie sind eine Verfeinerung der Betrachtung von Verstärkung und Strafe. Belohnt werden kann auf zwei Arten, indem etwas Angenehmes hinzugefügt wird (das Verhalten wird positiv verstärkt) oder indem etwas Unangenehmes entfernt wird (das Verhalten wird negativ verstärkt). In beiden Fällen wird das gezeigte Verhalten in Zukunft häufiger gezeigt werden, weil es sich lohnt.

Bestraft werden kann ebenfalls auf zwei Arten: Indem etwas Unangenehmes hinzugefügt wird (positive Strafe) oder etwas Angenehmes entfernt wird (negative Strafe).

Vier Quadranten der Lerntheorie - Operante Konditionierung

Diese Grundprinzipien gelten in jeder Situation des Lebens und finden immer und überall statt. In einer Trainingssituation, in der wir unserem Tier ein bestimmtes Verhalten beibringen möchten (egal ob entspanntes Stillstehen auf der Stallgasse oder ein gymnastizierendes Schulterherein auf dem Zirkel), machen wir uns diese Prinzipien zunutze um eine gemeinsame Kommunikationsgrundlage zu schaffen. Wir bringen dem Tier bei wann wir etwas toll finden und mehr davon sehen wollen oder was wir nicht gut finden und daher weniger sehen wollen.

Hierfür müssen wir gezielt Konsequenzen einsetzen, die auf ein bestimmtes Verhalten des Pferdes folgen. Dann beobachten wir, was das Pferd tut und stimmen die nächste Konsequenz auf dieses Verhalten ab. Es entsteht ein Feedback-Loop den wir für unser weiteres Training verwenden:

Feedback Loop (Beispiel positive Verstärkung)

Verfügbare Konsequenzen - die vier Quadranten der Lerntheorie

Lernen findet immer statt, aber in unseren Trainingseinheiten mit dem Pferd geht es um das Erlernen bestimmter Verhaltensweisen in einer für diesen Zweck optimierten Umgebung.

(1) Möchte ich mit positiver Verstärkung und dem Gefühl der Freude trainieren bietet es sich an, Futter zu nutzen.

Belohne ich nun ein Verhalten (z.B. Stillstehen) mit Futter und sehe in Zukunft immer öfter und länger, dass mein Pferd still steht, habe ich positive Verstärkung angewendet. Ich habe etwas Angenehmes hinzugefügt, dem Pferd ein Gefühl der Freude beschert und so ist es in Zukunft motiviert, häufiger das von mir gewünschte Verhalten zu zeigen.

(2) Arbeite ich mit Futter, kann ich meinem Pferd auch Rückmeldung geben, wenn ich ein Verhalten weniger häufig sehen möchte. In diesem Fall entferne ich die mögliche angenehme Konsequenz (mich und das Futter) aus der Situation.

(2) Positive Verstärkung und negative Strafe: zwei Seiten einer Medaille

Stimmt mein Timing und wiederhole ich diese Konsequenz passgenau zu dem Verhalten das ich nicht mehr sehen möchte, wird das Pferd das von mir unerwünschte Verhalten in Zukunft seltener zeigen - es ist durch das Entfernen des Futters von mir negativ bestraft worden. Häufig führt dies zu Gefühlen wie Enttäuschung (durch nicht erfüllte Erwartungen), Frustration oder Ärger.

Wichtig: In einer Trainingssituation muss ich zuerst etwas Angenehmes hinzugefügt haben (z.B. Futter), damit ich es auch wieder entfernen kann.

(3) Möchte ich nicht mit Futterbelohnung arbeiten, kann ich die negative Verstärkung nutzen um erwünschtes Verhalten häufiger zu sehen. Hierfür muss ich etwas Unangenehmes hinzufügen, damit ich es im passenden Moment entfernen kann um dem Tier beizubringen "mach das beim nächsten Mal wieder".

Oben habe ich als Beispiel gewählt, dass mir jemand auf die Schulter tippt bis ich einen Schritt zur Seite mache. Beim nächsten Mal werde ich vermutlich nicht 10x Antippen abwarten, mich verwirrt umdrehen und dann zur Seite treten, sondern schon beim 3. Mal Antippen ausweichen. Es geht hier also nicht etwa um Schmerzreize oder gesteigerten Druck. Es muss nur unangenehm genug sein, dass sich ein Gefühl der Erleichterung einstellt wenn man es entfernt.

(4) Die vierte Möglichkeit ist, positive Strafe zu verwenden. Der Begriff "positiv" bedeutet, dass etwas hinzugefügt wird - in diesem Fall etwas Unanenehmes. Dies geschieht, um unerwünschtes Verhalten weniger häufig zu sehen.

Etwa wenn ich mit der Bürste nach dem scharrenden Pferd werfe. Oder auch wenn es Stillstehen lernen soll und ich es immer wieder korrigiere, wenn es sich bewegt. Ob mein Pferd etwas als Strafe empfunden hat kann ich leicht beobachten, indem das unerwünschte Verhalten weniger wird. Bleibt scharrt es z.B. in Zukunft munter weiter war die von mir gewählte Konsequenz nicht unangenehm genug, um in Zukunft das unerwünschte Verhalten zu vermeiden.

Positive Strafe führt in der Regel zu einem Gefühl der Angst oder Unwohlseins. Sie ist die Voraussetzung dafür, dass negative Verstärkung funktioniert. Nur indem ich systematisch etwas Unangenehmes hinzufüge kann ich im Nachgang und zeitlich angemessen unangenehme Reize aus der Umgebung entfernen um das von mir erwünschte Verhalten zu verstärken.

Fazit

Um ein Pferd systematisch trainieren zu können und ihm gezielt Verhalten und Bewegungsabläufe beizubringen, muss ich unterschiedliche Konsequenzen im Trainingskontext anwenden. Dies bedeutet die gezielte Anwendung operanter Konditionierung. Je nachdem welche Gefühle ich bei meinem Pferd vornehmlich erzeugen möchte, wähle ich die Konsequenzen für meinen Schüler im Training.

Trainingsmethoden

Eine "Methode" zeichnet sich dadurch aus, wie die beschriebene operante Konditionierung im Training eingesetzt wird. Sie bedient sich bestimmter Techniken (z.B. "freies Formen" oder "Modellieren") und Hilfsmittel (z.B. Targets oder Gerten) und nutzt eine spezielle Auswahl von Grundbausteinen (Basisverhalten), die zum Formen komplexerer Trainingsinhalte genutzt werden. Jeder Trainer hat außerdem grundsätzliche Normen und Werte, die sich in jeder Entscheidung während des Trainings wiederfinden lassen.

Alle Trainingsmethoden dieser Welt nutzen (operante) Konditionierung, um gewünschtes Verhalten nachhalting zu formen, unserem Pferd Rückmeldung zu geben was gewünscht ist. Egal ob wir uns über "akademische Reitkunst", "Horsemanship", "Reward based art of riding", "Dualaktivierung", "Longieren als Dialog" oder "Kurland-Arbeit" unterhalten: Die lerntheoretischen Grundprinzipien gelten immer und überall - egal ob im täglichen Miteinander oder einer expliziten Trainingssituation. Wir als Trainer haben die Macht zu entscheiden, wie sich unser Schüler fühlt - und wir sollten sie nutzen um gute Gefühle zu erzeugen.