Анна
Бондарева
|
ВВЕДЕНИЕАктуальность темы
|
|
Кликер-тренинг - это вид обучения не только собак, но и других живых существ включая людей. Настоящий доклад основан на материалах обучения нескольких собак и одной кошки.
Зародился кликер-тренинг в среде дрессировщиков дельфинов. При обучении и аттестации кликер-тренеров в США работают с цыплятами.
При кликер-тренировке используется методика положительного подкрепления, о которой будет сказано ниже.
Теория кликер-тренинга основана на трёх источниках:
Положительное подкрепление - это то, к чему собака стремится, вероятность чего она старается повысить своим поведением. Особенность метода положительного подкрепления в том, что правильное поведение поощряется, а неправильное игнорируется.
Следующий источник кликер-тренинга - оперантный метод научения. Оперантный метод научения основан на выработке оперантного рефлекса. Оперантным он назван от слова "oперант", что означает "действие". Главные особенности оперантного метода научения:
И наконец, третий источник кликер-тренинга - это сигнал.
Выбирая сигнал, нужно прежде всего думать о выборе значения сигнала
и о выборе звука сигнала.
Поговорим сначала о выборе значения сигнала. Основных значений сигнала всего два: сигнал = "молодец, продолжай дальше" и сигнал = "молодец, можешь закончить". При работе с кликером нам безусловно подходит вариант сигнал = "молодец, можешь закончить", потому что сочетание условного подкрепления с безусловным подкреплением должно быть постоянным и без отсрочки по времени, иначе ослабевает значение сигнала условного положительного подкрепления.
Далее о выборе звука сигнала. Мы выбрали сигнал кликера, потому что он по нескольким параметрам лучше других источников сигнала. Вот главные из достоинств кликера:
|
Главными "конкурентами" кликера являются: пищащая игрушка, свисток и голосовой сигнал, но все же кликер превосходит их в скорости воспроизведения звука. Свисток и голосовой сигнал - наиболее распространенные и удобные "конкуренты" кликера. Но у них имеются следующие недостатки: медленная скорость произведения звука, звуковой сигнал подается неодинаково. Если Вам, кроме точной отметки желательного поведения кликером, потребуется поощрить или поддержать обучаемого голосом, то Вы не сможете этого сделать, потому что у Вас будет занят рот.
При дрессировке экстра-класса "на послушание" некоторые дрессировщики иногда одинаково обуславливают два разных сигнала в качестве сигналов условного положительного подкрепления: сигнал кликера и вербальный (словесный, голосовой). Это может пригодиться на случай, если будут заняты обе руки дрессировщика.
Например: многие дрессировщики знают, как трудно добиться от молодой собаки надежной выдержки в положении "стоять". Эффективно применять для стабилизации выдержки метод "провокации". В этом случае, дрессировщик одной рукой слегка надавливает на спину собаки, а другой потягивает ее вниз за лапы. Как только мышцы собаки напрягаются, оказывая сопротивление "провоцирующему" воздействию, нужно очень точное по времени условное положительное подкрепление. Так как руки заняты, точную по времени отметку желательного мускульного усилия, можно сделать только вербально.
Игрушка, в общем, не хуже голосового сигнала и свистка. Но у нее есть еще один минус: если Вы захотите позаниматься с собакой на дрессировочной площадке, то высока вероятность, что при первом же звуке Вы окажетесь в кольце желающих поучиться именно у Вас собачек, сбежавших от своих дрессировщиков.
Как обучение поведению с помощью кликер-тренинга осуществляется на практике, описано в следующей главе.
Этот процесс происходит постоянно. Подробное рассмотрение иерархии не является предметом данной работы. Отметим два момента:
Это подкрепление условного раздражителя безусловным, например,
пищей. При такой работе образуется классический условный рефлекс
"по Павлову", т.е. безусловное подкрепление дается после
условного сигнала вне зависимости от действий обучаемого. Длится
два-три дня, в качестве безусловного подкрепления применяется чаще
всего пища, причем основной рацион собаки, а не дополнительная подкормка.
Самая типичная ошибка при обуславливании сигнала - когда обучающий
не избегает единообразного поведения обучаемого (в момент подачи
сигнала).
Применение подсказки (в частности "мишени") при обучению
новому поведению ускоряет обучение, но снижает "творческую
активность" собаки, она не так охотно предлагает новые варианты
поведения, ожидая подсказки.
Повышение критериев идет по двум направлениям:
Окончание повышения критериев можно начинать только тогда, когда все фрагменты поведения собраны в единую картину и поведение по качеству в основном удовлетворяет требованиям дрессировщика.
Взятие поведения под стимульный контроль может происходить только после окончания повышения критериев по складыванию поведения из фрагментов. Дело в том, что каждый фрагмент является в глазах обучаемого отдельным независимым поведением. Выполнение каждого из них (фрагмента или суммы фрагментов) по одному и тому же стимулу является тяжелейшей нагрузкой на нервную систему ученика. Повышение критериев по качеству выполнения поведения может продолжаться всю жизнь. |
Другими словами, это привязка поведения к команде. Когда дрессировщик решил взять поведение под стимульный контроль, он перестает подкреплять это поведение без команды. А поведение, предложенное после команды, подкрепляется
Крайне важно правильно определить правильно момент времени для взятия поведения под стимульный контроль. Типичная ошибка новичка - делать это преждевременно. Нужный момент для взятия поведения под стимульный контроль определяется по двум параметрам. Во первых, обучаемый начинает часто и регулярно предлагать данное поведение. Во вторых, должно быть закончено последовательное формирование поведения из фрагментов. Подробнее об этом было рассказано выше.
Поведение, взятое под стимульный контроль, можно включать в репертуар. Репертуар - это комплекс поведений, взятых под стимульный контроль. Поведение, не взятое под стимульный контроль, отрабатывается отдельно.
Это - когда правильное поведение подкрепляется не каждый раз. Основано на том же психологическом механизме, который привлекает играющих с "однорукими бандитами" - эффект неожиданности выигрыша.
Вариабельный режим подкрепления нельзя применять в ситуациях, когда собака делает выбор между несколькими несовместимыми поведениями (например, выборка вещи по запаху).
Обучение новому поведению происходит сначала без отвлечений. Потом вводят все больше и больше отвлечений и усложнений, стабилизируют выполнение навыка в их присутствии. Насколько сложны отвлечения зависит от цели обучения данному навыку. Например, если мы обучаем проводника слепого, то отвлечения максимально усложнены и стабильности добиваемся предельной, так как от работы собаки напрямую зависит жизнь человека. Если отвлечение по силе воздействия сравнимо с подкреплением, то нежелательное поведение самоподкрепляется и корректировать такое поведение кликером затруднительно, если вообще возможно. |
Это - повышение критериев по качеству, которое может происходить всю жизнь. Для навыков, не предполагающих выбор между несовместимыми поведениями, обычно сочетается с вариабельным режимом подкрепления.
Включение очень редкого вариабельного подкрепления на практике означает, что элемент разучен. Кликер применяется эпизодически, только для того, чтобы поведения не угасало. Каждое применение кликера сопровождается усиленной порцией безусловного подкрепления ("Джек Пот"). Обычно стараются эпизодически подкреплять наиболее успешные по качеству, "выдающиеся" демонстрации поведения.
На основании опыта применения кликер-тренинга в нашей группе мы можем сделать следующие выводы: