dimanche 30 juin 2013

Puis-je combiner le renforcement positif et le renforcement négatif?


Le renforcement positif, en particulier quand il est utilisé avec le clicker, est communément combiné avec l'utilisation du renforcement négatif. et ou avec la punition. Typiquement le stimulus aversif (ex appliquer une pression) dans ce cas, va être léger et cette approche combinée, est utilisée pour clarifier ou hâter l'entrainement. Y a-t-il un problème avec ça? Ceux qui répondent oui, sont il juste dogmatique et puriste dans leur approche du renforcement positif? Ou avons-nous tous besoins, de prendre du recul et de réfléchir davantage pour savoir à quel point notre entrainement avec le renforcement positif, est si positif que ça?
Si vous allez utiliser dans la même cession, ou pour enseigner un même comportement, la combinaison du renforcement négatif et du renforcement positif, des choses variées peuvent arriver.

Si un cheval expérimente deux renforcements différents à peu près en même temps, le cheval va être renforcé davantage par l'un des renforcements. Il y a un terme pour expliquer ça, ça s'appelle la "salience", et c'est effectivement la valeur relative des renforcements, du point de vue du cheval. Est qu'il y aura plus de valeur dans le relâchement de la pression ou dans la récompense? Leurs valeurs n'est probablement pas identiques. Dans le clicker training, la présence du click et de la récompense, peut aider le cheval à mieux comprendre, et confirmer qu'il effectue le bon comportement. Si vous utilisez en même temps du renforcement négatif, le cheval peut encore chercher à changer de comportement, parce qu il cherche le relâchement de la pression et non à gagner une récompense. L'ajout de récompense ne rend pas votre entrainement positif. Tout se résume à la perception qu'a votre cheval vis-à-vis de son entrainement, et les raisons qu'ils l'ont poussé à changer de comportement.

Une autre objection concerne le terme, "signal empoisonné" par Karen Pryor. À cause du conditionnement classique (ex pavlovien) si vous utilisez la pression , alors le niveau de pression que le cheval ressent lors de ses entrainements, va être associer à vous, à l'endroit ou se passe l'entrainement, et à votre équipement. C'est un peu comme recevoir un appel téléphonique de quelqu'un à qui vous ne voulez par parler, vous commencez à redouter le moment ou le téléphone sonne. Donc si vous combinez la pression avec une forme de renforcement positif, la valeur du renforcement positif va diminuer ( comme quand vous recevez votre chèque à la fin du mois, mais que vous savez déjà qu'il va disparaître pour régler toutes les factures)jusqu'au point de devenir sans importance... .

Si un animal vit une véritable expérience de renforcement positif, alors si on en croit les études en neurosciences, une région particulière du cerveau est activée et il y a libération de dopamine. C'est un opioïde qui nous fait nous sentir bien, quand quelque chose de bien arrive. Au fil du temps cette libération de dopamine peut avoir lieu même en l'absence de récompense réelle. Donc si nous travaillons beaucoup a l'aide de récompense qui déclenchent la dopamine, alors juste notre arrivée pourra déclencher la même chose, que nous ayons ou non des récompenses pour eux. Les chevaux ne nous veulent pas que pour avoir des récompenses. Nous faisons le cheval se sentir bien. C'est la base neurologique, c'est le résultat pour les expériences de Pavlov et de ses chiens. Nous nous sentons heureux quand notre fiche de paye arrive, non pas parce que c'est une simple feuille de papier, mais pour ce qu'elle représente.

Si nous utilisons les techniques basées sur la pression, ou même un entrainement neutre, alors il n'y a pas de libération de dopamine même si on relâche cette pression. Un circuit différent dans le cerveau est stimulé, et en fonction de la pression que vous utilisez il peut y avoir une libération d’adrénaline ex une réponse de stress.

Si on combine le renforcement positif et le renforcement négatif, la réponse dopaminergique risque d'être supplantée par l’adrénaline. Même si vous utilisez habituellement le renforcement négatif (en fonction du degré de pression physique ou émotionnel) et que vous décidez d'utiliser occasionnellement seulement du renforcement positif, vous n'êtes pas sûr d'obtenir une libération de dopamine, à cause de ce que vous représentez normalement pour votre cheval. Ainsi dans les meilleurs des cas, il se peut que vous ne renforcez pas du tout positivement votre cheval. Vous lui donnez peut-être des récompenses, mais ce n'est pas la même chose qu'un cheval qui se sent renforcé positivement. Cela ne veut pas dire que c'est mauvais, cela peut vous aider dans vos entraînements si votre timing est bon, mais ça peut vous aider à donner du sens à ce que vos faites et éviter les faux fuyants....

L'utilisation du renforcement positif, peut encourager un cheval à proposer des comportements dans le but de gagner une récompense, ce qui met le cheval dans une position très vulnérable émotionnellement (ce qui explique pourquoi une bonne session de shaping en liberté à l'aide du renforcement positif peut rassurer le cheval, en lui montrant que ce qu'il fait est bien et qu'il n'y a pas de conséquence négative si il donne une mauvaise réponse). Si la pression est susceptible d'être utilisé quand le cheval donne le mauvais comportement, alors, cela peut créer un conflit majeur dans l'esprit du cheval, augmentant encore plus le stress. Si beaucoup de pression est utilisée, alors la meilleure chose a faire pour le cheval est de faire comme ce qui a été demandé, afin d'éviter la pression. Mais s'il est encouragé à proposer spontanément des comportements, le cheval est dans une position très difficile. C'est comme quand vous êtes à l'école et que vous devez avoir le courage de prendre la parole devant la classe, puis que votre professeur vous dit que vous êtes stupide. Ce n'est pas une «mauvaise formation», techniquement cela peut être bon, mais c'est sans empathie et c'est quelque chose que j'ai vu chez différents entraineurs qui (peut-être par inadvertance)ont donné la priorité à la réalisation de certains comportements sans tenir compte des sentiments du cheval. Un cheval que j'ai pu observer, se distingue en particulier , il était formé par une combinaison d'une méthode de Natural Horsemanship et de CT (clicker training). La pression était à niveau relativement faible, mais cela n'a pas empêché le cheval d'être très stressé à propos de ce qu'il était censé faire. Il savait clairement le coût d'une réponse fausse, mais il était incapable de simplement éteindre son cerveau et de répondre aux signaux car le CT exigeait qu'il propose des comportements. La différence dans l'attitude d'un cheval dans ce genre de conflit et un cheval ayant une véritable session libre de shaping, représente des mondes tellement à part qu'il est très difficile de rendre justice sur un clavier ....

Mais si vous ne recevez pas de dopamine, vous ne serez pas idéalement placé pour développer pleinement vos émotions. Chez l'être humain nous appelons ça la «dépression». Le cheval n'a pas la possibilité d'effectuer de choix psychologique simples, ni même d'apprécier le travail. Il répond simplement à des signaux et essaye d'éviter les ennuis. L'idéal est que le cheval utilise son cerveau et pense," que diriez-vous si je fais un pas en arrière" plutôt que " je dois reculer pour éviter la pression), le shaping en liberté est plus une histoire d'exercice pour le cerveau qu'un entrainement physique...

Source: (Traduction partielle) http://equilibrehorses.wordpress.com/2012/03/14/combining-positive-and-negative-reinforcement/

Aucun commentaire:

Enregistrer un commentaire