ПОДКРЕПЛЕНИЕ и НАКАЗАНИЕ
Стимулов написать эту маленькую статью у меня несколько.
Главный из них, конечно же, лень. Зимы на Урале морозные. Занятия
с аджилитистами на площадке часто приходится заменять теоретическими.
А спортсмены мало того, что болеют или домашним хозяйством занимаются,
так еще и материал с разной скоростью усваивают. Кто-то сразу поймет,
а другому нужно повторять и повторять. Изучение конспекта - способ
малопродуктивный. Если человек, ведущий конспект, материал не понимает,
то и напишет в конспект не то, что говорит преподаватель, а то,
что он сам ожидает услышать. А теперь - пусть статью читают! Хоть
сто раз! И горло у педагога не заболит.
Второй стимул - терминологическая разноголосица, которая царит
в отечественной публицистике, затрагивающей тематику "бихейвористских"
методов обучения.
Третий стимул - автор на собственной шкуре почувствовал, что разобраться
в этой терминологии непросто (если, конечно, не профессионал). Даже
в авторитетных книгах о кликер-тренинге (вроде фундаментального
труда М.Спектора) иногда приводится два варианта терминологии. Назовем
их условно "классический" и "бытовой". И попробуем
разобраться в обеих.
Любая терминология приемлема - если четко определена! Еще несколько
месяцев назад я считал, что для понимания процесса обучения достаточно
"бытового" варианта. Я и сам им пользовался в статье об
обучении шелти. Однако, педагогическая практика заставила меня изменить
точку зрения. Лучше потратить больше времени на разучивание базовых
терминологических определений, но затем говорить на одном языке
и иметь возможность корректно описать любое последствие поведения
собаки. Итак, к делу!
"Бытовой" вариант терминологии
Этот вариант рассматривает только три последствия поведения животного:
- Происходит что-то приятное.
- Ничего не происходит.
- Происходит что-то неприятное.
Если животное ведет себя желательным образом, то применяется положительное
подкрепление. Может и "ничего не происходить" - если применяется
вариабельный режим подкрепления - но рассмотрение такого режима
за рамками данной статьи. Здесь никакой терминологической путаницы
не возникает. Все понимают, что положительное подкрепление - это
"происходит что-то приятное" для собаки, что-то, к чему
она стремится. И будет стараться повысить вероятность получения
такого подкрепления.
Оно может быть безусловным (подозвали - прибежала - получила
кусок мяса). А может быть и условным (подозвали - прибежала
- условный сигнал - еда). Во втором случае возможны варианты:
время подачи условного сигнала может быть разным. Например, когда
начала бежать к хозяину. Или, наоборот, когда уже подбежала и села.
Это зависит от того, какие цели преследует дрессировщик на данном
этапе обучения. Общепринято, что, после подачи условного сигнала,
собака может прекратить поведение и бежать за своим безусловным
кусочком (игрушкой).
"Положительное подкрепление" полагается отличать от "поощрения".
Обычно подчеркивают, что положительное подкрепление - воздействие
очень точное по времени. Положительное подкрепление "отмечает"
фрагмент желательного поведения собаки. Поощрение же - это что-то,
повышающее собаке настроение, но не дающее конкретной информации
о причинах радости хозяина. Потому что оно к времени не привязано.
Собаку можно поощрить просто, чтоб подбодрить, до урока. Можно после.
Кроме того, условное положительное подкрепление, как было сказано
выше, позволяет собаке прекратить поведение. Что делает такой сигнал
гораздо более значимым для собаки, чем поощрение. Ведь условный
сигнал поощрения чаще всего дается в значении "молодец,
продолжай дальше", что собаке приятно, но откладывает реализацию
ее гастрономических (или игровых) амбиций на неопределенный срок.
Т.е. положительное подкрепление является непосредственным результатом
того или иного поведения животного. А поощрение, строго говоря,
таким следствием не является, а несет собаке лишь информацию о том,
что дрессировщик рад тому, что "процесс пошел".
Все, что пока написано, справедливо для обоих вариантов терминологии.
А дальше начинается разнобой.
Если животное ведет себя нежелательным образом, то возможны варианты:
- либо нежелательное поведение игнорируется дрессировщиком - то
есть, как следствие такого поведения "ничего не происходит"
- либо вследствие нежелательного поведения "происходит что-то
неприятное" для собаки. Вероятность такого происшествия в
будущем собака постарается снизить
В большинстве статей отечественных авторов-практиков, а также
в некоторых зарубежных (иногда с предупреждением, что терминология
- "бытовая") именно это неприятное событие называют отрицательным
подкреплением. То есть в "бытовом" варианте терминологии
собака стремится избежать отрицательного подкрепления. Позже мы
убедимся, что в "классическом" варианте - все наоборот.
Итак, в "бытовом варианте" (подозвали - не бежит -
рывок поводком - побежала) отрицательным подкреплением считают
рывок. Отрицательное подкрепление также, как и положительное, может
быть безусловным или условным. Цель введения условного сигнала понятна
- дать собаке информацию о точном времени совершения ошибки.
По аналогии с парой "положительное подкрепление - поощрение",
рассматривают пару "отрицательное подкрепление - наказание".
Наказание отличается "размытостью" во времени и "неотвратимостью".
То есть собака может благодаря изменению поведения избавиться от
отрицательного подкрепления, а вот наказания ей никак не избежать.
В том же примере с подзывом собаки можно прекратить рывки, как только
собака двинется в нужном направлении. И собака будет знать, что
движение в направлении дрессировщика поможет ей избежать рывка или,
в данной терминологии, отрицательного подкрепления.
А можно поводком подтащить собаку к себе и наказать за "непослушание".
Даже, если наказание будет только словесным, последствия такого
горе-обучения могут быть тяжелыми, процесс может развиваться лавинообразно.
Подчеркну, что термин "наказание" также имеет разный
смысл в "упрощенном" и "классическом" вариантах
терминологии.
"Классический" вариант терминологии
Такой вариант рассматривает все возможные последствия поведения
животного. Всего их пять:
- Начинается что-то приятное.
- Заканчивается что-то приятное.
- Начинается что-то неприятное.
- Заканчивается что-то неприятное.
- Ничего не происходит.
Теперь определим две пары понятий.
Первая: "положительное - отрицательное"
Положительным назовем то, что начинается,
независимо от того - приятное или неприятное это воздействие.
Отрицательным назовем то, что заканчивается,
независимо от того - приятное или неприятное это воздействие.
Вторая: "подкрепление - наказание"
Подкрепление - то событие, вероятность которого собака стремится
увеличить, которого старается достичь.
Наказание - то событие, вероятность которого собака стремится
уменьшить, которого старается избежать.
Такая схема абсолютно логична, хотя ее запоминание и требует некоторого
времени. Но как только понятия "положительный" и "отрицательный"
перестают ассоциироваться в сознании дрессировщика с понятиями "хороший"
и "плохой", дело начинает двигаться вперед семимильными
шагами.
Тогда четыре из пяти вариантов последствий поведения собаки "обретают
имена":
- Начинается что-то приятное = положительное подкрепление, П+
- Заканчивается что-то приятное = отрицательное наказание, Н-
- Начинается что-то неприятное = положительное наказание, Н+
- Заканчивается что-то неприятное = отрицательное подкрепление,
П-
- Ничего не происходит.
Тогда, в примере с подзывом на поводке, начало рывка - положительное
наказание. Прекращение рывков - отрицательное подкрепление.
Подчеркну, что значение слова "наказание" - абсолютно
отлично от описанного в предыдущей главе. Для "старого"
наказания нужен новый термин, например, "возмездие". Ну,
а пара "Положительное подкрепление - поощрение" остается
без изменений.
При занятиях "самоподкрепляющими" видами деятельности
(такими, как задержание или преодоление препятствий) эффективно
может применяться отрицательное наказание. Иногда в случае ошибки
достаточно прекратить выполнение любимого собакой упражнения, и
в следующий раз собака постарается избежать ошибок.
В своей работе я обуславливал четыре из пяти вариантов последствий
поведения - чтобы четко указывать собакам момент удачи или ошибки.
Например:
П+ = клик
Н- = "Нельзя"
Н+ = "Фу!"
ничего не происходит = "Нет"
Надеюсь, что эта статья поможет нам с вами одинаково понимать терминологию,
встречающуюся в литературе. Если же Вы обнаружите в "бихейвористской
литературе" знакомые термины в каком-либо значении, не рассмотренном
в этой статье, пожалуйста, дайте мне знать. Страсть коллекционера
проснулась…
М.А.Рудашевский, 15 января 2002
|