【笔记6】养狗前的功课——正向训练的原理和细节《别毙了那只狗》摘抄1
正增强的理论和正向反馈的思路在我自己的教学工作当中其实用得是很熟练的了,今天仔细看了另一本随心群里大佬推荐的书 ,发现还有很多细节值得摘抄和反复复习,开肝!
【资料图】
【笔记】这是我自己的笔记,不是经验干货,全是我云的,未经验证,可能有错,慎重参考。我以后验证了也许会回来复盘和修正。
正增强正增强物:指训练对象希望获得的事物,如食物、玩具、抚摸或称赞。
适用范围:只要是原本就会出现的行为,无论它多么罕见,你无法增强 一个从不发生的行为。
时机:增强物必须和的行为一起出现,过早或过晚增强都会导致出现其他问题。
增强物的大小和数量:食物越小越好,方便快速吃掉,让狗狗保持兴趣。
训练的基本法则是,如果每天只训练一次,在满足每日给食份量的四分之一前,动物的训 练反应都会很好,等训练结束后再给牠其余的份量。如果每天训练达到三至四次,你可以把平 常份量分为约八十等份,每次训练用二十至三十份。八十份增强物似乎是任何动物维持学习兴 趣的每日最高量。报酬要和训练内容的难度相匹配。
意外的大奖:大奖是指非常大的增强物, 万至可能比平常大上十倍,而且训练对象没料到它会出现。用来标定突破性的意外进步。遇到动物不听话、害怕或抗拒而完全不出现好行为时,偶尔给一次大奖也可能有效 改善动物的反应。
制约增强物制约增强物:是指一个原本不具意义的讯号,可能是声音、光线或动作,刻意让它在增 强物出现之前或出现期间出现。(好狗!/真棒!/响片)。
注意:制约增强物一旦建立起来了,便必须谨慎的使用它,以免减低了它的效用。
响片:可以提高学习效率,精准的标记正确的行为,但可能让狗狗过于兴奋,一个技能学会了就可以尽量少用,换用“好棒!”夸奖、逐步转换到以平和的口吻去夸奖狗。目前我只准备在遇到特别难学会的事情上使用响片,比如定点小便。
建立制约增强物:,在正式展开训练前,趁动物尚未刻意出现行为,先教导牠制约增强物的重要性。
做法是:让这个「制约增强物」与食物、 拍抚或其它真正的增强物产生联结,随后你可以在动物身上看出牠们是否已经理解这是你示意 「很好!」的讯号,通常牠们接收到制约增强物时会表现出停格一下的反应,然后开始寻找真正 的增强物。有了制约增强物,你将拥有一个能够真正与动物沟通的方式,告知牠你到底喜欢牠的哪一点行为。
继续加油:我们可以多次使用「制约增强物」但不给予真正的「增强物」,直到最后再给予即可。在训练狗狗出现长时性行为或连锁行为时会这么做。
我们事实上使用了(至少)两种的制约增强物(或标定 讯号)一种是正常音量的哨音,代表「这就对了! 食物随后就到,过去那边取食,完毕了!」另 一种则是较轻的哨音,代表「这就对了,但是还没达到目标!」,「继续加油!」的讯号并不需要直接联结初级增强物,只要在响片终结声出现之 前插入这个讯号即可,学习者很快就可以理解到,它只是一个引领至最终增强物的讯号。
负增强负增强物:则指训练对象希望走避的事物,如被猛击、皱眉 的表情或不悦耳的声音,如上车后没系上安全带时一直哔哔作响的警告声即是负增强物。
习得厌恶刺激:No!是一种警告讯号。它告诉接收者的讯息是「你现在的行为不好,你要是不停止这 个行为的话,不好的事就会发生。」
让「No! 」产生效果的诀窍在于必须让它成为制约负增强物,举例来说,如果你觉得有必要使用 P 字链(收缩链),你便应该在狗儿犯错的同 时说出「不!」,然后在拉扯链子之前稍等一会儿,给牠机会修正行为以避免处罚。如果你只是 直接拉扯 P 字链但没给牠警告,这个拉扯的动作就只是纯粹沦为处罚,将无可预期它对未来行 为的影响,而且这个处罚的累积效应可能会影响狗儿的工作饮望。另一个常犯错误是,当狗儿回到位置上时依然继续猛扯链子,这使牠的两个行为都受到处罚。
无奖励标定(确定)讯号:如果你的狗已经 知道很多塑型完成的行为和指示讯号,以平淡语气说出「错!」这个字,概念是当狗儿表现不同行为试图猜测你想要什么时,你可以 利用一个表示「那个行为不会得到增强」的讯号告诉牠哪些行为没用。
也就是说,牠对训练极富经验--你便可以利用「错!」这 个口令作为要牠改变行为的讯号,意思是:「省省力气,那么做没用,试试别的。」 要让这个作法奏效必须符合以下条件: 训练对象过去为了获得响片声而变化行为或主动 尝试新行为时常获得增强的经验。
意外增强变化性增强时制(随机增强):无法预料的奖励更具吸引力,为了使学成的行为维持一定的可靠程度,非但没有必要每次都增强这个行为,而且极为重要的是,不可以经常增强这个行为,而要改为偶尔增强,而且是随机性(无法预测)的增强。在行为学成后不应该采用变化性增强的情况只有一种,那就是当这个行为牵涉到解答问题 的时候。
固定增强时制:这意谓动物必须在预定时间内持续某项行为,或者必须完成预定次数的行为 之后才会获得增强。如海豚连跳这种复杂动作。但这种方式会让刚开始的动作变得敷衍,建议在行为刚开始时即给予一些增强物。
迷信行为要避免:现实生活中无时无刻都会出现增强,而通常都是碰巧发生的。
在行为至少完成了部分训练之后,随即在进行训练时变化所有你不认为重要的情境变量,以免发展出一些日后可能成为阻碍的意外制约行为。避免动物可能出现牠似乎必须待在某处、面朝特定方向或出 现特定坐姿时才能获得增强的样子。最重要的是,要注意不经意时形成的增强间隔模式。动物和人类对时间的间隔都很敏锐。 有一次,我十分确信自己已训练两只鼠海豚依讯号跳跃(看我的手势),直到一位来访的科学家 拿着秒表告诉我,只要每隔二十九秒牠们就会跳跃一次;果真没错,无论我是否给讯号,牠们都 会每二十九秒跳一次,我给讯号的行为意外被制约得极为规律,而鼠海豚是因为发觉了这个规 律性而跳跃,并非依照我所给予的讯息而动作。