负加固：如何替换对象？

18

我的Beauce Shepherd现在已经9个月大了，我们在私人教练的陪伴下进行了一些行为教育课程，并且一切进展顺利。在狗会按自己的意愿做现在之前，他只是在听真正的好声音！

在培训师的建议下，一些行为得到了积极的加强，而一些消极了。我们现在面临的问题是我们负面强化的行为。我们使用金属盒发出声音，狗讨厌它并听从。它总是在“否”之后用作第二种制裁。一切工作正常，现在，由于他的行为正确，我们不再需要使用该框。

问题在于我们认为我们需要用其他东西代替盒子，因为他现在知道如果没有盒子，就不会有声音，因此他会做出不想要的行为。由于我们现在需要将箱子搬到任何地方，这已经成为一个问题，因为如果我们没有箱子，他将使用机会。

有没有办法通过用我们的身体或其他东西代替盒子来纠正这一问题？

注意：一个月前他已经绝望了，他对我们的勇敢程度有所降低，但是当我们没有手提包时仍然会这样做。

谢谢

dogs behavior training

— Salketer
source

1

也许您应该问您的教练这个问题，但是一旦负强化（金属盒）抑制了他的不良行为，您现在不应该开始强化良好的行为吗？例如，如果我的狗一直在沙发上上去，我可能（1）摇动金属盒以阻止它，然后一旦他知道不要在沙发上上床，我就会（2）每当他在沙发上时都要表扬并慷慨对待放在沙发或类似物品附近的地板上。

— 史蒂夫·D

1

:)我喜欢狗经过一些观察后如何自己学习这些东西。:) :) :)

— woliveirajr

10

每当讨论操作符条件时，都有助于说相同的语言：

强化：旨在增加行为频率的动作
惩罚：旨在减少行为频率的动作
正面：存在刺激
负面：缺乏刺激

这些术语可以形成四个不同的组合（注意：括号中的示例为示例，而非建议！）：

积极强化：提出刺激以增加行为发生的频率（例如，当狗坐在命令位置时给予治疗）
负面增强：消除刺激以增加行为发生的频率（例如，邮递员在狗吠叫之后就消失了）
积极惩罚：提出刺激措施以减少行为发生的频率（例如，在地毯上撒尿时打狗）
负面惩罚：消除刺激以减少行为发生的频率（例如，当狗跳上你时离开房间）

在实践中，这些可能会变得混乱。例如，用盒子制造噪音是一种旨在降低行为频率的刺激措施，因此从技术上讲，这是积极惩罚的一个例子，但是，如果狗一旦执行正确的行为就停止了噪音的产生，那么您也可以去除刺激措施。增加正确行为的频率，嘿，负增强。

但这以您的狗有正确的行为为前提。您没有指定不希望的行为是什么，或者没有指定您想要强化的替代行为。如果您对噪音的所有处理都试图阻止他做某事，那么您是在提供惩罚而不是消极的强化。

在这两种情况下，部分问题可能是您只使用了主要的强化和惩罚者，即狗不需要学习的强化和惩罚者。例如，食物是主要的补强剂。狗知道食物是一件好事，而无需学习。通过扩展，噪音是主要的惩罚者，因为狗听不舒服。相比之下，次要补强者和惩罚者是那只狗学到的东西。

最典型的例子是巴甫洛夫的钟声，他每次给狗提供食物时都会响。通过始终将主增强器与刺激配对，刺激可以开始充当辅助增强器。也就是说，狗知道铃铛发出食物到达的信号，并会做出相应的反应。

您提到过，当您将狗叫出时，会使用“ no”（希望用严厉的声音，狗非常擅长辨别语调）以及噪音。“不”应该充当次要惩罚者，赞美也可以充当次要强化者。但是您可能无法逐步消除实际的噪声，因为有时只说“不”而不是噪声。

问题是，到现在为止，您的狗已经意识到“没有”没有框的意思是没有主要惩罚者，也就是说，两者没有关系，因此，他不在的时候就可以保存。

我建议您打开一个新问题，描述要阻止的实际行为，我们可能会更好地帮助您找到一种使用整个操作条件范围的方法，以使您的狗了解您想要的东西去做。

— 托马斯·H
source

5

@ThomasH是一个很好的答案，它以非常精确的方式触及了使用辅助惩罚器的问题。

在这里，我仅对问题的两个方面添加一些评论。

惩罚错误行为与强化正确行为

即使“理论”在“强化者”和“惩罚者”方面作用相同，并且效果可能一样有效，我们也不要忘记抑制行为不会教狗如何做，而主要专注于训练的“否”部分导致了微观管理：您经常需要教狗不应该做的事情。即使狗知道在给定的情况下他不应该执行X，他仍然可以自由执行Y，Z等。如果您积极地教他（加强他）做W，这可能会阻止某种恶性循环，让每个人都开心。

变率强化/惩罚

@ThomasH解释了辅助补强或惩罚的概念。

要记住的一个方面是，与主要补强/处罚相反，必须使用可变的进度表（以一种或另一种方式）对辅助补强/惩罚。

食物是主要的补强剂。每次狗得到一份食物，他都会得到强化。

但是，诸如“是”或点击之类的关键字可以成为辅助手段。它链接到后续的主增强器。关键在于它之所以有效，是因为狗知道次要补强者会受到主要补强者的奖励。一旦了解到这一点，就必须保持链接的实际奖励。在开始时（培训期间），每次都会获得奖励，然后可以通过可变的时间表对其进行奖励。可变的时间表实际上加强了联系，因为狗无法预计主要奖励何时到达。

请注意，这通常适用于第三级增强器：提示“ sit”实际上是增强器，因为它可能导致另一个增强器（例如单击），然后导致实际的回报。

我们通常从不将辅助补强器（点击）与主要补强器（例如食物奖励）分离。这样就使两者之间的联系非常牢固，并且在提示（三级增强器）和点击之间应用了可变速率。

但是，在惩罚的情况下，您没有真正的“三次惩罚”，因此“强化”（在这种情况下被理解为惩罚）的可变比率介于您的次要惩罚（“否”）和实际惩罚（盒子）。

— 塞德里克·H。
source