Оперантное обусловливание

Читайте также:

Теория инструментального или оперантного обусловливания связана с именами Э.Торндайка (E.L. Thorndike) и Б.Скиннера (В.F. Skinner). В отличие от принципа классического обусловливания (S®R), они разработали принцип оперантного обусловливания (R®S), согласно которому поведение контролируется его результатами и последствиями. Основной путь воздействия на поведение, исходя из этой формулы, — влияние на его результаты.

Например, собака научается “служить”, чтобы получить угощение; ребенок научается говорить “пожалуйста”, чтобы получить конфетку. Эти реакции являются инструментами для получения какой-то награды. Инструментальное обусловливание — это процедура научения, при которой реакции приводят к награждению или желаемому эффекту.

Принципы инструментального научения открыл американский психолог Э.Торндайк (Edward Thomdike) примерно в то время, когда И.П.Павлов проводил эксперименты в России.

Рис. 4. Эдуард Торндайк, американский психолог.

Э. Торндайк (1874-1949), амери-канский психолог и педагог. Внес большой вклад во внедрение объективного метода в исследование процесса научения, подготовил возникновение бихевиоризма.

Э.Торндайком был открыт тип научения, при котором индивидуум, встретившись с каким-либо препятствием, совершает попытки преодолеть его и при этом, постепенно отказываясь от неэффективных действий, находит, в конце концов, решение задачи.

В своих опытах Э.Торндайк использовал так называемые проблемные клетки, в которые он помещал голодных кошек.

Рис. 5. “Проблемная клетка”, разработанная Торндайком в 1911 году.

Животное, обычно голодная кошка, помещалась в специальную клетку и должна была научиться какой-то реакции — например, наступить на маленький рычаг для того, чтобы открыть дверь (либо дернуть за веревку) и выйти наружу. Когда кошке это удавалось, она награждалась пищей и вновь возвращалась в ящик. После нескольких проб кошка спокойно подходила к рычагу, нажимала на него лапой, выходила через открытую дверь и ела.

Наблюдая за животными, Торндайк заметил, что сначала их действия были чисто случайными, но, в конце концов, кошка “нечаянно” освобождалась и получала вознаграждение. Однако по мере увеличения числа попыток действия животных все больше сосредотачивались вокруг “ключевого” участка клетки, и число ошибок, а также и время, проведенное в клетке, быстро сокращалось.

Э.Торндайк подсчитывал, сколько попыток и сколько времени требовалось кошке для того, чтобы решить стоящую перед ней задачу – выйти из клетки и получить пищу, помещенную снаружи. Э.Торндайк представил эти результаты в виде кривых и вывел закономерности, позволяющие объяснить эффективность такого метода “проб и ошибок”.

Формирование реакции происходило путем проб и ошибок, как результат выбора нужного эталона поведения и последующего его закрепления. Научение, согласно Э.Торндайку, управляется законом эффекта. Согласно этому закону, поведение контролируется его результатами и последствиями. Поведение, которое приводит к достижению положительного результата, удовлетворению, закрепляется, и наоборот: не приводящее к положительному результату стирается или ослабляется.

Рис. 6. Кривые научения методом проб и ошибок.

Однако научение путем проб и ошибок само по себе не очень эффективно. Если бы новые формы поведения удавалось “изобрести” лишь случайным образом, было бы трудно объяснить быстрое приобретение новых навыков людьми и домашними животными. Без сомнения, вполне вероятно, что на протяжении миллионов лет именно такой процесс приводил к выработке различных навыков у наших предков. Но не менее очевидно и то, что по мере совершенствования этих навыков и упрочения власти человека над окружающей средой постепенно складывались способы формирования и передачи новых типов поведения.

Спустя несколько десятилетий после опубликования работ Э. Торндайка другой американский психолог, Б. Скиннер (В.Skinner), систематизировал теорию Торндайка, пытаясь объяснить, каким образом в структурированной среде формируется множество различных типов поведения. При этом Скиннер вскрыл принципы оперантного обусловливания и формирования реакций путем последовательных приближений.

Б. Скинер (1904 — 1990), американский психолог, представитель современного бихевиоризма. Выдвинул концепцию “оперантного” научения, согласно которой организм приобретает новые реакции благодаря тому, что сам подкрепляет их, только после этого внешний стимул вызывает реакции.

Рис. 7. Американский психолог Б.Ф.Скиннер.

Для различения стимула классического условного рефлекса и стимула инструментального условного рефлекса Скиннер предложил обозначать первый как Sd (дискриминантный стимул), а второй — Sr (респондентный стимул). Sd — стимул, по времени предшествующий определенной поведенческой реакции, Sr — стимул, подкрепляющий определенную поведенческую реакцию и по времени следующий за ней. Хотя в повседневной жизни эти стимулы часто совмещены в одном объекте, они могут быть разделены путем анализа с целью систематизации и определения последовательности мер воздействия на модифицируемое поведение. При использовании оперантных методов управление результатами поведения осуществляется для воздействия на самоповедение. Поэтому здесь очень важен этап функционального анализа или поведенческой диагностики. Задача этого этапа состоит в определении подкрепляющей значимости окружающих пациента объектов, установлении иерархии их подкрепляющей силы. Это делается путем прямого наблюдения за поведением человека и установления связи между частотой и интенсивностью проявляемого поведения (зависимая переменная) и, имеющимися в это время, объектами и событиями, происходящими в окружении (независимая переменная).

При сравнении классических и оперантных условных рефлексов видно, что, во-первых, классическое обусловливание требует повторного парного предъявления нейтрального стимула (звонок) и стимула, вызывающего врожденную, безусловную реакцию (пища). Обеспечение такого предъявления достигается участием экспериментатора. В экспериментах же с оперантным обусловливанием животное само осуществляет перебор стереотипов поведения, и выбор стереотипа, приводящего к достижению результата, протекает активнее.

Во-вторых, оперантные рефлексы контролируются их результатом; в экспериментах же с классическим обусловливанием появление условной реакции контролируется предъявлением предшествующего стимула. В реальной жизни большая часть обучения осуществляется по законам формирования оперантных условных рефлексов.

Скиннер подчеркивал, что при инструментальном обусловливании животное оперирует со средой, производит какое-нибудь движение, воздействует на среду. Поэтому процесс научения этим реакциям он назвал оперантным обусловливанием.

Оперантное обусловливание – это процедура научения, при которой искомые реакции приводят к награждению или желаемому эффекту, благодаря чему и закрепляются.

Скиннер полагал, что в целом поведение животных и человека нельзя объяснять в терминах классического обусловливания. Напротив, он делал акцент на поведении, не связанном с какими-либо известными стимулами.

Пример для иллюстрации: рассматривая поведение, вы непосредственно сейчас занимаетесь чтением. Определенно, это не рефлекс, и стимул, управляющий этим процессом (экзамены и оценки), не предшествует ему. Наоборот, в основном на ваше поведение чтения воздействуют стимульные события, которые наступят после него, а именно — его последствия. Так как этот тип поведения предполагает, что организм активно воздействует на окружение с целью каким-то образом изменить события, Скиннер определил его как оперантное поведение. Он также называл его обусловливание типа Р, чтобы подчеркнуть воздействие реакции на будущее поведение.

Оперантное поведение (вызванное оперантным научением) определяется событиями, которые следуют за реакцией. То есть за поведением идет следствие, и природа этого следствия изменяет тенденцию организма повторять данное поведение в будущем.

Например, катание на роликовой доске, игра на фортепиано, метание дротиков и написание собственного имени — это образцы оперантной реакции, или операнты, контролируемые результатами, следующими за соответствующим поведением. Это произвольные приобретенные реакции, для которых не существует стимула, поддающегося распознаванию. Скиннер понимал, что бессмысленно рассуждать о происхождении оперантного поведения, так как нам неизвестны стимул или внутренняя причина, ответственная за его появление. Оно происходит спонтанно.

Если последствия благоприятны для организма, тогда вероятность повторения операнта в будущем усиливается. Когда это происходит, говорят, что последствия подкрепляются, и оперантные реакции, полученные в результате подкрепления (в смысле высокой вероятности его появления) обусловились. Сила позитивного подкрепляющего стимула, таким образом, определяется в соответствии с его воздействием на последующую частоту реакций, которые непосредственно предшествовали ему.

И напротив, если последствия реакции не благоприятны и не подкреплены, тогда вероятность получить оперант уменьшается. Например, вы скоро перестанете улыбаться человеку, который в ответ на вашу улыбку всегда бросает на вас сердитый взгляд или вообще никогда не улыбается. Скиннер полагал, что оперантное поведение контролируется негативными последствиями. По определению, негативные или аверсивные последствия ослабляют поведение, порождающее их, и усиливают поведение, устраняющее их. Если человек постоянно угрюм, вы, вероятно, попытаетесь совсем избегать его. Подобным же образом, если вы паркуете свою машину в том месте, где есть надпись “Только для президента”, и в результате на ветровом стекле машины находите штрафной талон, вы, несомненно, скоро прекратите парковаться там.

Для того чтобы изучать оперантное поведение в лаборатории, Скиннер придумал, на первый взгляд, простую процедуру, названную свободным оперантным методом. Полуголодную крысу поместили в пустую “свободно-оперантную камеру” (известную как “ящик Скиннера”), где были только рычаг и миска для еды. Сначала крыса демонстрировала множество оперантов: ходила, принюхивалась, почесывалась, чистила себя и мочилась. Такие реакции не вызывались никаким узнаваемым стимулом; они были спонтанны. В конце концов, в ходе своей ознакомительной деятельности крыса нажимала на рычаг, тем самым, получая шарик пищи, автоматически доставляемый в миску под рычагом. Так как реакция нажатия рычага первоначально имела низкую вероятность возникновения, ее следует считать чисто случайной по отношению к питанию; то есть мы не можем предсказать, когда крыса будет нажимать на рычаг, и не можем заставить ее делать это. Однако лишая ее пищи, скажем на 24 часа, мы можем убедиться, что реакция нажима рычага приобретет, в конце концов, в такой ситуации высокую вероятность. Это делается при помощи метода, называющегося научение через кормушку, посредством которого экспериментатор дает шарики пищи каждый раз, когда крыса нажимает на рычаг. Потом можно увидеть, что крыса проводит все больше времени рядом с рычагом и миской для пищи, а через соответствующий промежуток времени она начнет нажимать рычаг все быстрее и быстрее. Таким образом, нажатие рычага постепенно становится наиболее частой реакцией крысы на условие пищевой депривации. В ситуации оперантного научения поведение крысы является инструментальным, то есть оно действует на окружающую среду, порождая подкрепление (пищу). Если далее идут неподкрепляемые опыты, то есть пища не появляется постоянно вслед за реакцией нажатия рычага, крыса, в конце концов, перестает нажимать его, и происходит экспериментальное угасание.

Оперантное обусловливание подчеркивает, что поведение есть функция его последствий. Поведение усиливается позитивным или негативным подкреплением; оно ослабляется наказанием.

Подкрепление – безусловный раздражитель, вызывающий биологически значимую реакцию, при сочетании которой с предваряющим ее действием индифферентного стимула вырабатывается классический условный рефлекс.

Позитивное подкрепление — это предъявление стимулов, которые усиливают реакцию. Иными словами, это — награждение. Примером может служить учитель, который хвалит ребенка за прилежную учебу.

Негативное подкрепление — это процесс усиления поведения путем изъятия, удаления негативных стимулов, таких, как боль, скука, избыток тепла или холода и т. п. Примером может служить прием таблетки анальгина при головной боли. Другой пример: пациент, испытывающий страх в метро, может избежать этого переживания, оставшись дома.

Наказание. И позитивное и негативное подкрепление усиливают частоту реакции. Наказание уменьшает частоту реакции. Часто путают наказание и негативное подкрепление, они совершенно различны. Подкрепление усиливает поведение, а наказание ослабляет его. Если ток выключается, когда крыса нажимает на рычаг, — это негативное подкрепление; оно увеличивает вероятность того, что крыса нажмет на педаль, когда ток снова включат. Но если ток включается, когда крыса нажимает на рычаг, то это наказание; менее вероятно, что крыса снова нажмет на рычаг.

Дискриминационное научение имеет место тогда, когда реакция награждается (или наказывается) в одной ситуации, но не награждается (не наказывается) в другой. В таком случае говорят, что реакция (поведение) находится под “контролем стимула”. Этот процесс особенно важен в объяснении гибкости поведения в различных социальных ситуациях. Дискриминация (различение) стимулов позволяет научиться тому, что является подходящим (подкрепляемым) и неподходящим (неподкрепляемым) в данной ситуации. Например, ворчливая жена вряд ли будет бранить мужа в присутствии гостей.

Генерализация состоит в том, что поведение обнаруживается в иных ситуациях, а не только тех, в которых оно было приобретено. Например, терапевт может помочь пациенту стать более уверенным и экспрессивным во время терапии. Но цель терапии в том, чтобы пациент стал более уверенным в реальных жизненных ситуациях, другими словами, очень важно, чтобы произошла генерализация.

Б. Скиннер разработал способ формирования поведения путем последовательных приближений, составляющий основу оперантного обусловливания. Этот способ состоит в том, что весь путь от исходного поведения (еще до начала обучения) до конечной реакции, которую исследователь стремится выработать у животного, разбивается на несколько этапов. В дальнейшем остается лишь последовательно и систематически подкреплять каждый из этих этапов и таким образом подводить животное к нужной форме поведения. При таком способе обучения животное вознаграждают за каждое действие, приближающее его к конечной цели, и у него постепенно вырабатывается заданное поведение.

Допустим, что нам нужно обучить голубя ударять клювом по маленькому светящемуся кружку, когда он захочет получить вознаграждение в виде зернышка. Вначале мы будем давать ему зернышко каждый раз, когда он зайдет в ту половину клетки, где находится светящийся кружок. Далее мы будем вознаграждать его лишь в том случае, если он не только зашел в эту половину клетки, но еще и повернулся головой к стенке, на которой находится кружок. На третьем этапе можно, например, давать зернышко при сочетании этих двух условий, и вдобавок если клюв животного направлен в сторону кружка. Затем постепенно можно заставить голубя касаться клювом кружка и, наконец, ударять по нему с целью получить вознаграждение. Как мы видим, при таком методе обучения к очередному этапу переходят лишь тогда, когда уже сформировалась поведенческая реакция, необходимая на предыдущем этапе.

По мнению Скиннера и других бихевиористов, именно так происходит выработка большинства поведенческих реакций у человека. Действительно, можно привести множество примеров, как будто бы частично подтверждающих это.

С позиций Скиннера можно объяснить очень быстрое обучение ребенка первым словам (не распространяя, однако, эту концепцию на освоение языка в целом). Вначале, когда ребенок еще только начинает произносить какие-то членораздельные звуки, лепет “ме – ме - ме” уже вызывает восторг окружающих, и особенно счастливой мамы, которой уже кажется, что дитя зовет именно ее. Однако вскоре энтузиазм родителей по поводу таких звуков остывает до тех пор, пока младенец ко всеобщей радости не выговорит “мо... мо”. Потом и эти звуки для новорожденного перестают подкрепляться, пока не появится сравнительно членораздельное “мо - мо”. В свою очередь это слово по тем же причинам вскоре сменится сочетанием “мома”, и, наконец, ребенок отчетливо выговорит свое первое слово - “мама”. Все же остальные звуки будут восприниматься окружающими лишь как “детский лепет” в буквальном смысле слова, и они постепенно исчезнут из “лексикона” новорожденного.

Таким образом, в результате избирательного поощрения со стороны членов семьи младенец отбрасывает те неправильные реакции, за которые он не получает социального подкрепления, и сохраняет лишь те, которые наиболее близки к ожидаемому результату.

Формирование реакции играет роль не только в воспитании ребенка, но также в отношениях между супругами и в различных аспектах социальной жизни. Каждый раз, когда индивидуум или социальный институт хочет добиться той или иной поведенческой реакции от партнера или от группы населения, он вполне может запланировать и реализовать такие подкрепляющие факторы, которые повышали бы вероятность желательного поведения. Однако ясно, что подобные методы часто находятся на грани манипулирования личностью и не всегда практикуются исключительно для ее блага.

Можно рассмотреть пример ситуации, встречающейся почти в каждой семье, где есть маленькие дети, а именно — оперантное научение поведению плача. Как только маленькие дети испытывают боль, они плачут, и немедленная реакция родителей — выразить внимание и дать другие позитивные подкрепления. Так как внимание является подкрепляющим фактором для ребенка, реакция плача становится естественно обусловленной. Однако плач может возникать и тогда, когда боли нет. Хотя большинство родителей утверждают, что они могут различать плач от расстройства, и плач, вызванный желанием внимания, все же многие родители упорно подкрепляют последний.

Бихевиористы предложили множество различных сфер применения методов обусловливания в различных областях человеческой деятельности. Чаще всего реактивное и оперантное научение используется в психотерапии, когда врач пытается применить соответствующие принципы для помощи определенным больным.

В области образования Скиннер выдвинул, в частности, концепцию программированного обучения. По его мысли, такое обучение может освободить ученика и преподавателя от скучного процесса простой передачи знаний: учащийся будет постепенно продвигаться в освоении той или иной темы в собственном ритме и маленькими шажками, каждый из которых подкрепляется; из этих шажков и состоит процесс последовательного приближения (Skinner, 1969). Однако очень скоро обнаружилось, что такое обучение быстро достигает своего “потолка”, и это связано именно с тем, что от учащегося требуются лишь минимальные усилия и поэтому подкрепление вскоре становится неэффективным. В результате учащемуся такое обучение быстро надоедает. Кроме того, для постоянного поддержания мотивации у учащегося и упорядоченной передачи знаний, видимо, необходим личный контакт с учителем. Все это, вероятно, можно объяснить с помощью принципов, лежащих в основе социального научения, и, в частности, научения путем наблюдения.

Оперантные методы могут быть использованы для решения ряда задач.

1. Формирование нового стереотипа поведения, которого до этого не было в репертуаре поведенческих реакций человека (например, кооперативное поведение ребенка, поведение самоутверждающего типа у пассивного ребенка и т. д). Для решения этой задачи может быть использовано несколько стратегий выработки нового поведения.

Под шейпингом понимается поэтапное моделирование сложного поведения, которое не было свойственно ранее индивиду. В цепи последовательных воздействий важным является первый элемент, который, хотя и отдаленно, связан с конечной целью шейпинга, однако с большой степенью вероятности направляет поведение в нужное русло. Этот первый элемент должен быть точно дифференцирован, а критерии оценки его достижения четко определены. Для облегчения проявления первого элемента желательного стереотипа должно быть выбрано условие, которое может быть достигнуто быстрее и легче всего. Для этого используется разнообразное варьирующее подкрепление, от материальных предметов до социального подкрепления (одобрение, похвала и др.). Например, при обучении ребенка навыкам самостоятельного одевания первым элементом может быть привлечение его внимания к одежде.

В случае “сцепления” используется представление о поведенческом стереотипе как о цепи отдельных поведенческих актов, при этом конечный результат каждого акта является дискриминантным стимулом, запускающим новый поведенческий акт. При реализации стратегии сцепления следует начинать с формирования и закрепления последнего поведенческого акта, находящегося ближе всего к самому концу цепи, к цели. Рассмотрение сложного поведения как цепи последовательных поведенческих актов позволяет понять, какая часть цепи хорошо сформирована, а какая должна быть создана с помощью шейпинга. Тренинг должен продолжаться до того момента, пока желательное поведение всей цепи не осуществляется с помощью обычных подкрепляющих стимулов.

Фейдинг — это постепенное уменьшение величины подкрепляющих стимулов. При достаточно прочно сформированном стереотипе пациент должен реагировать на минимальное подкрепление прежним образом. Фейдинг играет важную роль при переходе от тренировок с психотерапевтом к тренировкам в повседневном окружении, когда подкрепляющие стимулы исходят от других людей, замещающих психотерапевта.

Побуждение является вариантом вербального или невербального подкрепления, который повышает у обучающегося уровень внимания и фокусировки на желательном стереотипе поведения. Подкрепление может выражаться в демонстрации этого поведения, прямых инструкциях, центрированных или на нужных действиях, или на объекте действия, и т. д.

2. Закрепление, уже имеющегося в репертуаре индивида, желательного стереотипа поведения. Для решения этой задачи могут использоваться положительное подкрепление, отрицательное подкрепление, контроль стимула.

3. Уменьшение или угашение нежелательного стереотипа поведения. Достигается с помощью методик наказания, угашения, насыщения.

4. Лишение всех положительных подкреплений.

5. Оценка ответа.

Дата добавления: 2015-07-11; просмотров: 573 | Нарушение авторских прав

Читайте в этой же книге: ЮНИТА 1 | ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПОВЕДЕНЧЕСКОЙ ПСИХОТЕРАПИИ | Бихевиоризм как психологическая парадигма | ОБЩИЕ ХАРАКТЕРИСТИКИ ПОВЕДЕНЧЕСКОЙ ТЕРАПИИ | Модель научения в бихевиоральной терапии | Объективный метод диагностики расстройств поведения | Коррективный опыт как цель активного лечебного научения. Цели поведенческой терапии | Применение поведенческой терапии. Преодоление дезадаптивных стереотипов и деструктивных эмоциональных конфликтов | Функциональный анализ проблемы | Систематическая десенсибилизация |

<== предыдущая страница	\|	следующая страница ==>
Классическое обусловливание	\|	Социальное научение

mybiblioteka.su - 2015-2025 год. (0.012 сек.)