Обучение в условиях вероятностного подкрепления и его роль в адаптивном и дезадаптивном поведении человека

Г.Л. Козунова

doi:10.17759/jmfp.2016050409

Козунова Г.Л., кандидат психологических наук, старший научный сотрудник, Центр нейрокогнитивных исследований (МЭГ-центр), ФГБОУ ВО МГППУ, Москва, Россия, chukhutova@gmail.com

В статье рассматривается обучение человека в условиях частично неопределенного исхода собственных действий, моделирующее один из механизмов адаптивного поведения в естественной среде. Базовые механизмы обучения детально изучены на модели условного рефлекса у животных в экспериментах, где определенное поведение подкреплялось одинаково, немедленно и многократно. В то же время нейрофизиологические основы возможности обучения у человека в условиях нерегулярного или отсроченного подкрепления, несмотря на возросший в последние годы интерес к ним, остаются малоизвестными. Значительный вклад в разработку этой проблемы внесли исследования психических и психоневрологических расстройств. Так, специфические изменения отдельных аспектов в обучения с вероятностным подкреплением обнаружены у пациентов с болезнью Паркинсона, синдромом Туретта, шизофренией, депрессией, тревожными расстройствами. В частности, показано, что восприимчивость к положительному и к отрицательному подкреплению могут нарушаться независимо друг от друга. Исходя из патогенетических механизмов этих состояний, можно сделать вывод о том, что ключевой структурой для этого типа обучения является поясная и орбитофронтальная кора, вовлеченная в двустороннее взаимодействие с нижележащими структурами стрио-паллидарного комплекса, лимбической системы и ядер ретикулярной формации ствола мозга.

Введение

Фундаментальным свойством психики, общим для человека и для животных, на котором базируется адаптация к меняющимся условиям, является способность устанавливать статистическую или причинную связь между событиями, которые совпадают по времени или следуют одно за другим с коротким временным интервалом [Alloy, 1984]. Это позволяет организму сформировать оптимальный моторный или вегетативный ответ в соответствии не только с наблюдаемым, но и с ожидаемым событием - т. е., обучаться.

Зачаточные формы обучения с подкреплением обнаруживают себя у животных с очень простой организацией нервной системы, например, у кольчатых червей [Robinson, 1953]. Особенность обучения высших животных состоит в том, что они воспринимают избыточное количество сигналов, некоторые из которых стабильно сопряжены друг с другом во времени и пространстве, другие - не встречаются вместе никогда, а часть из них сочетаются между собой с некоторой долей неопределенности. При этом, несмотря на свою избыточность, воспринимаемые сигналы могут быть противоречивыми и недостаточными для однозначного прогноза последующего события.

Типичными примерами адаптации к естественной неопределенности исхода является восприятие объектов в затрудненных условиях, а также - что особенно важно для человека - социальное взаимодействие. Действительно, внутренние состояния и намерения другого субъекта принципиально недоступны непосредственному наблюдению: о них можно только судить по совокупности противоречивых внешних признаков [Ma, 2014].

В настоящей статье под обучением подразумевается поведенческая адаптация к условиям частично неопределенного исхода. Его механизмы наиболее отчетливо можно продемонстрировать на моделях нарушенной поведенческой адаптации - т. е., психических и психоневрологических расстройств [Dimensional psychiatry: Mental, 2016].

Виды обучения с подкреплением

В общем значении процесс образования связи между нейтральными событиями - внешними сенсорными стимулами или собственными действиями субъекта с безусловно или субъективно значимыми событиями (непосредственно связанными с наградой или наказанием) называют обучением с подкреплением.

В зависимости от природы связываемых событий различают два основных взаимно влияющих друг на друга вида обучения с подкреплением: классическое павловское обусловливание и инструментальное (опе- рантное) обучение [Cartoni, 2013]. В случае классического павловского обусловливания связь образуется между нейтральным сенсорным стимулом и следующим за ним субъективно значимым событием, например, подачей пищи или электрическим ударом. Установление связи можно наблюдать по вегетативной/моторной реакции (слюноотделение, замирание, поворот головы), упреждающей появление значимого стимула. Такое обучение лежит в основе оценки объектов или событий как привлекательных или отталкивающих, в зависимости от того, были ли они связаны в предыдущем опыте с положительным или отрицательным подкреплением. Предполагают, что аномально усиленный механизм классического обусловливания лежит в основе посттравматического стрессового расстройства (ПТСР). ПТСР характеризуется неконтролируемыми приступами страха и агрессии при столкновении с событиями, напоминающими те обстоятельства (условные сигналы), которые сопутствовали острым травматическим переживаниям в прошлом опыте (безусловный биологически значимый раздражитель), но в настоящий момент больше не указывают на опасность [From Pavlov to, 2014]. Например, для ветерана, участвовавшего в боевых действиях за пределами страны, таким сигналом может быть иностранная речь.

Другой вид обучения с подкреплением - инструментальное или оперантное обучение, которое также называют обучением методом проб и ошибок. Основное отличие оперантного обусловливания от классического состоит в том, что первым из событий является не внешний сигнал, а собственное действие субъекта, а вторым - значимое событие. Подкрепление при таком типе обучения является результатом собственного действия и служит для субъекта показателем соответствия выполненного действия цели поведения, т. е. обратной связью. Классические эксперименты по формированию инструментальных навыков проведены Э. Торндайком. Он помещал кошек в клетку, предоставляя им свободно действовать до тех пор, пока они не совершали то действие, которое приводило к открытию клетки. Впоследствии, когда этих животных снова помещали в эту клетку, они немедленно воспроизводили те эмпирически обнаруженные ими формы поведения, которые приводили к желаемому освобождению [Thorndike, 1965]. Закрепление форм поведения, которые приводят к желаемому результату, Э. Торндайк назвал законом эффекта. Преимуществом этого типа обучения, по сравнению с павловским обусловливанием, является то, что субъект имеет возможность не только заранее подготовиться к значимому событию, но и активно на него повлиять, повышая для себя вероятность желательных событий и минимизируя опасные и неприятные последствия.

Возможно, в силу этого преимущества в поведении животных отмечается стойкая тенденция формировать инструментальный ответ на условный сигнал, даже если он не влияет на подкрепление. Данный феномен описан в литературе как перенос условия на операцию (PIT - Pavlovian-to-instrumental transfer) [Cartoni, 2013]. Например, в одной ситуации крыса привыкла получать пищевое подкрепления после звукового сигнала (павловское обусловливание). В другой ситуации та же крыса научилась нажимать на рычаг для того, чтобы получать пищу (инструментальное обучение). Если же во втором случае крыса услышит звук, который в другом контексте предупреждал о подаче пищи, она начинает нажимать на рычаг значительно чаще (перенос условия на операцию).

Аналогичные формы поведения у человека можно наблюдать в повседневных ситуациях. Например, проходя мимо вывески буфета (условный стимул), в котором он перекусывал раньше (первичное пищевое подкрепление), человек может решить зайти туда и что- нибудь себе купить (инструментальное действие). Изначально действие не входило в его планы, и он не был голоден. Формирование подобных форм поведения смоделировано в экспериментальной компьютерной игре с денежным вознаграждением [Assessment of reward, 2013].

Аномальный перенос условия на операцию может рассматриваться как возможный патогенетический механизм формирования рецидивирующей алкогольной зависимости [Pavlovian-to-instrumental transfer in, 2014]. Так, если после лечения обстановка, в которой живет пациент, существенно не меняется, он склонен возвращаться к прежним формам поведения, в том числе к приему алкоголя.

Таким образом, классическое павловское обусловливание и инструментальное обучение являются принципиально сходными процессами, в обоих случаях центральным компонентом ассоциации является эмо- ционально/биологически значимое событие (подкрепление) и формируется опережающая его моторная или вегетативная реакция.

Условия формирования и распада ассоциативных связей

Образование и поддержание ассоциаций у человека и животных требует ряда условий, при невыполнении которых связь не формируется или уже сформированная связь распадается.

Следует отметить, что блокировка неактуальных ассоциаций и их распад являются такими же важными процессами для адаптивного поведения, как и их формирование. Так, например, установление связей между случайно или единично совпавшими событиями, не подтвержденное достаточным количеством повторений, может приводить к необоснованному и неадаптивному принятию решения (jumping to conclusion), что является характерной проблемой пациентов с шизофренией [19, 25].

С другой стороны, распад сформированных в прежнем опыте ассоциаций, которые со временем утратили свою актуальность (событие-сигнал перестало свидетельствовать о крайне значимом событии) нарушается при ПТСР, а также фобических, тревожных и обсессивно-компульсивных расстройствах, при которых у людей годами могут сохраняться оборонительные реакции на совершенно неопасные стимулы. Однако в типичных случаях оптимальный баланс между образованием и распадом условных связей достигается тремя основными условиями: временно-пространственной сопряженностью событий, их повторяемостью и фактором мотивации и внимания.

Прежде всего, ассоциация образуется между теми событиями, которые совпадают друг с другом по времени или следуют одно за другим с очень коротким временным интервалом. Эта простая идея, сформулированная еще в IV веке до нашей эры Аристотелем и получившая свое дальнейшее развитие в трудах британских философов-ассоцианистов XIX века, стала аксиомой, которая легла в основу современной экспериментальной психологии обучения [Kirkpatrick, 2016].

Более того, как показывают экспериментальные исследования, временная сопряженность не только является непременным условием для связывания событий, но и детально кодируется как неотъемлемая часть психической репрезентации этой связи. В число кодируемых характеристик ассоциации входят длительность каждого события, порядок их следования, и временной интервал между ними [Balsam, 2002]. Действительно, если события происходят с большими временными интервалами или нарушается их последовательность, то ассоциация не формируется [Molet, 2014]. Например, в большинстве экспериментов на крысах максимальным временным интервалом, достаточным для образования условной связи, было время не более 32-62 секунд, причем, чем короче этот временной интервал, тем эффективнее животные обучались [Dickinson, 1992]. Эти данные легли в основу гипотезы о том, что в процессе обучения связываются, по сути, не события А и В, а сенсорный след события А (stimulus trace) и события В [Gershman, 2015].

Кроме временно-пространственной сопряженности событий, для формирования связи необходим достаточный уровень мотивации субъекта, поэтому в классических экспериментах на животных используются пищевые или болевые подкрепления [Bourgeois, 2016]. Например, одной из стандартных процедур подготовки к эксперименту с пищевым подкреплением является лишение животного пищи до снижения массы тела на 20 % от обычного веса [Holroyd, 2002], чем обеспечивается высокий уровень его восприимчивости к сигналам окружающей обстановки.

Следует отметить, что ключевым фактором обучения является не непосредственная биологическая значимость события, а его субъективная ценность для испытуемого с учетом его актуального состояния. Только в таком случае это событие можно назвать подкреплением или в психологической терминологии - мотивом [Holroyd, 2002].

Действительно, показано, что биологически необходимая пища выступает в качестве эффективного подкрепления поведения для голодной крысы только в том случае, если она ощущает ее вкус, но перестает выполнять эту функцию, когда пищу вводят непосредственно в желудок, минуя вкусовые рецепторы [Cytawa, 1976]. Наоборот, угрожающая здоровью инъекция наркотического вещества, приносящая при этом удовольствие, является крайне эффективным подкреплением поведения. Более того, одно и то же событие может выступать и подкреплением, и блокиратором поведения в зависимости от функционального состояния животного^[I] [Dayan, 2014].

Ввиду основной роли субъективной значимости подкрепления, эксперименты с участием людей позволяют использовать в качестве подкреплений денежные, социальные (надпись «Правильно!», изображение улыбающегося лица) или сенсорные знаки (красный цвет). При этом обычно воспроизводятся те же эффекты обучения, которые получены на животных.

Подкрепление включает в себя три относительно независимых компонента: эмоциональный (удовольствие), мотивационный (желание) и когнитивный (обучение), причем каждый из этих компонентов может нарушаться независимо от других [Assessment of reward, 2013]. Так, нарушения мотивационной системы при эндогенной депрессии характеризуются преимущественно утратой удовольствия при достижении результата, что снижает возможности обучения на основе положительной обратной связи. Феноменологически похожие трудности наблюдаются и у пациентов с болезнью Паркинсона, однако у них нарушается другой - мотивационный компонент подкрепления, т. е. само стремление выигрывать, в то время как эмоциональный компонент удовольствия остается сохранным [цит. по: 5].

Третьим необходимым для формирования ассоциативной связи фактором является повторяемость сочетающихся событий, что проиллюстрировано многими экспериментами на животных и людях в виде характерных «кривых научения» [Gallistel, 2004]. Так, количество повторений, наряду с временным интервалом между событиями, позволяет рассматривать ассоциируемость событий как некую количественно измеримую величину, которая тем сильнее, чем короче интервал между событиями, чем больше количество сочетаний стимулов (и меньше их встречаемость отдельно друг от друга) и чем больше степень актуальной потребности субъекта и интенсивность стимулов.

В большинстве естественных ситуаций условие однозначного совпадения событий часто нарушается, поэтому происходит имплицитная статистическая оценка вероятности значимого события - фактически, Байесовская оценка вероятности. В 1970-х гг. появилось несколько многофакторных математических моделей обучения, рассматривающих его как постоянно обновляющуюся ассоциацию, которая по мере накопления типового опыта асимптотически стремится к максимально возможному предсказанию ожидаемых событий и контролю ситуации [The processing of, 2012].

Наиболее важные выводы из этих моделей можно обобщить следующим образом: ассоциация формируется только с тем из множества окружающих стимулов, который наилучшим образом позволяет предсказать мотивационно значимое событие, обучение происходит лишь тогда, когда событие, наблюдаемое субъектом, не соответствует его ожиданиям [Dayan, 2014]. В этом случае имеет место некоторая конкурентная борьба между актуальной информацией и информацией, накопленной в предыдущем индивидуальном опыте взаимодействия с объектами. Механизм байесовской оценки вероятности позволяет животным и человеку формировать прогноз последующего события, в том числе в таких условиях, когда совпадение событий носит вероятностный либо отсроченный характер, или в меняющихся условиях, требующих гибкой перестройки стратегии адаптивного поведения.

Поведенческая адаптация к условиям вероятностного подкрепления

Принципиальная возможность животных и человека адаптировать поведение в соответствии с частотностью событий неоднократно показана в ряде экспериментов. Например, в одном из экспериментов испытуемым предъявляли световую вспышку, которая с разной вероятностью могла появиться или слева, или справа, и предлагали угадать, с какой стороны появится следующая вспышка. Оказалось, что прогнозы большинства испытуемых соответствовали частотности событий, т. е. если вспышка появлялась в 70% случаев справа, испытуемые примерно в 70% случаев «делали ставку» на правую сторону. Более того, когда экспериментатор без предупреждения начинал подавать вспышку в точном соответствии с прогнозом испытуемого, так чтобы он всегда «угадывал», испытуемые не замечали никакой перемены и продолжали ожидать в 70% случаев вспышку справа, а в 30% случаев - слева [Yellott, 1969]. Однако, как несложно посчитать, в реальности такая стратегия поведения не является оптимальной для успешного прогнозирования событий: если человек в 70% случаев выбирает стимул, при котором вероятность подкрепления составляет 70% (а в остальных 30% случаев выбирает альтернативу), тогда его прогноз окажется верным лишь в 58% случаев ((0.7 * 0.7) + (0.3 * 0.3)). Более выгодной стратегией было бы каждый раз выбирать только более частотное событие - прогноз был бы верен в 70% случаев (0.7 * 1). Именно такие выгодные стратегии вырабатывают животные (крысы) в подобных соотношениях вероятностей событий [Hinson, 1983].

Объяснить природу этого различия, которое, как кажется, делает сравнение не в пользу человека, можно с позиции главного специфически человеческого фактора - адаптации к речевой среде.

Речевая среда, в отличие от предметной, характеризуется последовательным разворачиванием иерархической структуры. Например, глаголы используются вместе с существительными, наречия - с глаголами, предлоги сопутствуют существительным, обозначающим объект, а не субъект, и т. д. Благодаря этому по мере поступления естественного речевого материала и соответственно накопления лексических и грамматических признаков круг возможных вариантов последующего элемента сужается.

Эта особенность речи создает условия для непрерывного прогнозирования каждого последующего элемента речи, который предопределяется не только как наиболее часто встречающееся в этом контексте сочетание, но и как недостающее звено в имплицитно воспринимаемой иерархии.

По-видимому, прогнозирование на основе имплицитной иерархической структуры распространяется из сферы речевой коммуникации и на поведенческую адаптацию к любым чередующимся событиям, последовательность которых подчинена закономерности. Например, экспериментально показано, что у детей успешность в имплицитном освоении повторяющегося паттерна чередования зрительных стимулов является предиктором уровня вербальных способностей (особенно в сфере грамматической компетентности), а у детей с нарушениями речи такое обучение происходит значительно медленнее. Сходные трудности имплицитного обучения последовательности зрительных стимулов описаны при патологическом состоянии, для которого характерно нарушение грамматической организации речи - аграмматической афазии, связанной с поражением зоны Брока [Conway, 2001].

Интересно, что на ранних, дограмматических этапах освоения речи ребенок опирается не на иерархическую структуру языка, а преимущественно на частотные характеристики его элементов, позволяющие сегментировать поток речи на отдельные слова [Saffran, 1996]. Иначе говоря, с точки зрения частотности слова могут быть представлены как наиболее часто встречающиеся в речи сочетания слогов.

В одном из обзоров приводится такой пример: сочетания, образующие слова «смешной» и «робот» встречаются в речи значительно чаще, чем сочетание «нойроб», образованное соединением последнего слога первого словаипервогослогавторогослова[Saffran, 1996].Экспериментально показано, что способность сегментировать речь на основе частотности звукосочетаний в зачаточном виде присуща и животным. Так, обезьяны обнаружили способность узнавать часто повторяющиеся псевдослова в 20-минутной аудиозаписи. Однако животным, по-видимому, недоступно восприятие иерархической структуры языка. Можно предполагать, что дограммати- ческий уровень освоения речи обеспечивается преимущественно структурами правого полушария, которое может быть более чувствительно к частотности событий, а прогнозирование на основе иерархической структуры языка - левого, что может дать ключ к разгадке разных стратегий поведения человека и животных в условиях вероятностного подкрепления.

Системные механизмы обучения в условиях вероятностного подкрепления

Механизм, по-видимому, специфически человеческой тенденции адаптировать поведенческий ответ в соответствии с ожидаемой частотностью событий может заключаться в особенностях функциональной специализации левого и правого полушарий. Разделение функций между полушариями мозга ярко проявляется лишь в патологических случаях, когда одно из полушарий повреждено, или когда межполушарные связи разрушаются оперативно (при лечении фармакорезистентной эпилепсии).

Возможности обучения в условиях вероятностного подкрепления у пациентов с повреждением межполушарных связей изучались группой исследователей под руководством Майкла Газзанига. Оказалось, что такие пациенты используют разные стратегии поведенческой адаптации к вероятностным событиям в зависимости от того, на какое из полушарий приходится функциональная нагрузка. Так, если обработка вероятностной информации протекает в правом полушарии, испытуемые постоянно ожидают события, которое они наблюдали чаще всего (оптимальная стратегия максимизации выигрыша, как у животных). Если аналогичная задача выполняется левым полушарием, происходит подстройка ожиданий к наблюдаемой частотности альтернативных событий [Wolford, 2000].

Такие особенности поведенческой адаптации к условиям вероятностного подкрепления наблюдались не только при разрушении межполушарных связей. Сходные стратегии максимизации выигрыша присутствовали у пациентов с локализованными поражениями префронтальной коры правого или левого полушария. Эти наблюдения согласуются с многочисленными данными о ключевой роли орбитофронтальной и дорзальной префронтальной коры в вероятностном обучении [The processing of, 2012].

Действительно, во время выполнения задач на вероятностное обучение регистрируется выраженная функциональная активация латеральной префронтальной и передней поясной коры в ответ на получение обратной связи о последствиях собственного действия [Neural mechanisms supporting, 2008]. Электрофизиологическим коррелятом мониторинга эффективности собственного поведения считается негативный компонент вызванного потенциала, возникающий примерно через 250 миллисекунд после получения подкрепления или момента ожидаемого, но не поступившего подкрепления (FRN - feedback related negativity), который регистрируется на центральных лобных отведениях, предположительно соответствующих области передней поясной коры, преимущественно ее дорсальной части [Reinforcement-related brain potentials, 2004]. Чем более неожиданной, т. е. маловероятной с точки зрения индивидуального опыта субъекта, является полученная обратная связь, тем больше выражен по амплитуде этот компонент. Амплитуда FRN модулируется не только неожиданностью подкрепления, но и его величиной [The processing of, 2012].

Также известно, что значительная часть нейронов передней поясной коры по-разному реагирует на пози- тивнуюинанегативнуюобратнуюсвязь. Действительно, амплитуда ответа передней поясной коры зависит от знака ошибки предсказания: отсутствие ожидаемого подкрепления (негативная ошибка предсказания) обычно вызывает больший по амплитуде ответ, чем когда результат превосходит ожидания субъекта [Walsh, 2011].

Нейромодуляторные механизмы вероятностного обучения

Анатомически и функционально связи фронтальной коры с подкорковыми структурами, несомненно участвующими в кодировании подкрепления, имеют двусторонний характер.

К фронтальной коре подходят обширные восходящие проекции нейромодуляторных систем, которые оказывают влияние на функции исполнительного контроля: дофаминовой (от прилежащего ядра и вентральной тегментальной области), серотониновой (от ядра шва и миндалины), норадреналиновой (от голубого пятна) и ацетилхолиновой системы.

За последние десятилетия накоплен ряд доказательств главенствующей, хотя не исключительной, роли дофаминовой нейромодуляторной системы стриатума и прилежащего ядра в обеспечении обучения с подкреплением [Weismüller, 2016].

Так, активность дофамин-чувствительных нейронов прилежащего ядра и стриатума отражает все возможные виды ошибки предсказания [Schultz, 1998]. Если вероятность подкрепления высока и предсказуема и субъект контролирует ситуацию, эти нейроны поддерживают неизменно высокий тонический (фоновый) уровень активности [A causal link, 2013]. Если же неожиданно результат превосходит прогноз с точки зрения вероятности подкрепления, его величины или времени появления, они отвечают резким фазическим (функциональным) повышением активности [Bayer, 2005]. Если произошла негативная ошибка предсказания, т. е. наблюдаемый результат оказался «хуже», чем ожидал субъект, активность таких нейронов временно подавляется, в их тонической активности увеличиваются временные интервалы между разрядами [Bayer, 2007].

По-видимому, такая разноплановая система кодирования для положительных и отрицательных ошибок предсказания является наиболее метаболически экономной [Maia, 2011].

Небольшая часть дофамин-чувствительных нейронов дает фазический ответ не только на положительное, но и на отрицательное подкрепление, а также на любые новые, неожиданные, интенсивные, привлекающие внимание сенсорные стимулы безотносительно к наличию подкрепления. Это дает основания полагать, что основная часть этих нейронов кодирует положительный или отрицательный знак события (valence), а другая часть - его интенсивность и/или неожиданность (salience) [The processing of, 2012].

Интересно, что искусственная стимуляция обеих групп нейронов у животных может способствовать формированию у них условного рефлекса даже в тех условиях, в которых ассоциативные связи, как правило, не формируются, как бы имитируя неожиданность полностью предсказуемого подкрепления [The processing of, 2012].

Так, обычно животные не устанавливают ассоциативной связи между подкреплением и стимулом В, если оно полностью предсказуемо другим условным сигналом А, даже если В всегда следует за сигналом А. При такой последовательности событий сигнал B не имеет никакого прогностического значения, чем оправдан эффект блокировки обусловливания [A glutamatergic reward, 2014]. Однако при электрической стимуляции дофамин-чувствительных нейронов в момент появления стимула В условный рефлекс все же формируется.

Стимуляции нейронов стриатума за счет неожиданности или новизны события обеспечивается взаимодействием между дофаминовой и серотониновой ней- ромодуляторными системами: возбуждающие проекции от серотонинэргических нейронов ядра шва в вентральную тегментальную область опосредованно могут вызывать активацию дофамин-чувствительных нейронов прилежащего ядра [A glutamatergic reward, 2014].

Однако функции серотониновой системы в регуляции механизмов подкрепления этим не ограничиваются. Ядро шва содержит около 65% серотонинэргических нейронов, которые также проявляют фазическую активность в ответ на обратную связь и посылают восходящие проекции в регуляторные области коры (префронтальную и переднюю поясную), а также миндалину.

Отличительной особенностью серотонинэргиче- ских нейронов является то, что уровень их тонической активности повышается в ответ на сигнал о последующем подкреплении пропорционально величине подкрепления и не снижается весь период его ожидания [Dorsal raphe neurons, 2014]. По достижении подкрепления серотонинэргиче- ские нейроны дают фазический ответ вне зависимости от фактора предсказуемости.

Влияние серотониновой нейромодуляторной системы на поведение определяется свойствами тонической и фазической активности этих нейронов. Тонический уровень серотонина, повышение которого сопровождает ожидание подкрепления, напрямую связан с положительным эмоциональным настроем, и его выраженное снижение наблюдается при эндогенной депрессии [Maia, 2011]. Фазическая модуляция этой системой функций фронтальной коры может лежать в основе механизма поддержания мотивации субъекта в условиях отсроченного подкрепления.

Действительно, блокировка этого нейромодулятор- ного пути приводит к импульсивному поведению у людей и животных: отсроченное подкрепление утрачивает для них привлекательность, они предпочитают только те действия, которые дают немедленный результат, даже если величина отсроченного подкрепления несопоставимо выше [Homberg, 2012].

Вторая важнейшая функция серотониновой нейро- модуляторной системы - участие в психических процессах, требующих когнитивной гибкости [Maia, 2011].

Основной парадигмой для исследования гибкости поведения является задача на реверсивное обучение [The neural basis, 2016]. Человек или животное учится выбирать из двух стимулов тот, который чаще другого приносит подкрепление (обычно в 80% случаев > 20%). Затем этот стимул перестает так часто приносить подкрепление (вероятность подкрепления снижается до 20%), в то время как альтернативный стимул начинает подкрепляться чаще.

Показано, что уровень серотонина в орбитофронтальной коре, как у крыс, так и у людей, предопределяет индивидуальные различия в выполнении задачи на реверсивное обучение. Субъекты с низким уровнем серотонина демонстрировали множественные персеверации. После смены условий подкрепления они инертно продолжали выбирать прежний стимул, который уже перестал давать желаемый результат [Hofmeister, 2015].

Изложенные выше свойства серотонина привели к появлению гипотезы о том, что функциональный уровень этого нейромодулятора определяет взаимные переходы между двумя основными формами инструментального поведения. Переход от привычных действий к целенаправленному поведению требует повышения фазической активности серотониовой системы, тогда как закрепление нового паттерна поведения и превращение его в привычку, наоборот, сопровождается ее снижением [Homberg, 2012].

Третьей нейромодуляторной системой, от которой зависит процесс обучения, являются норадренэргиче- ские нейроны голубого пятна (locus coeruleus), регулирующие общий уровень возбуждения нервной системы (arousal) и внимания [Aston-Jones, 2005].

Общая восприимчивость организма к сигналам окружающей среды (готовность к обучению) зависит от уровня тонической активности НА-нейронов, но не линейно, а по типу колоколообразной кривой в соответствии классическим законом Йеркса-Додсона. Так, крайне низкий уровень норадреналина сопровождается невнимательностью и сонливостью, а очень высокий, наоборот, приводит к хаотичному возбуждению и отвлекаемости [Corbetta, 2008]. Фазический ответ норадре- нэргических нейронов наблюдается при целенаправленном поведении в ответ на появление условных сигналов о подкреплении и имеет два разнесенных во времени пика активности [Holroyd, 2002]. Первый пик может отражать переход от непроизвольного «автоматического» внимания, привлекаемого новизной и интенсивностью внешних стимулов, к произвольному вниманию, направляемому внутренними мотивами субъекта [Corbetta, 2008].

Поскольку в норадренэргических нейронах голубого пятна первый пик активности возникает позже, чем в орбитофронтальной коре, можно предполагать, что активность этой нейромодуляторной системы усиливается напрямую через нисходящие проекции орбитофронтальной коры. Особенностью второго пика активности является то, что его амплитуда прямо зависит от ожидаемой величины подкрепления, и ее увеличение сопровождается повышением скорости и точности реагирования субъекта [Bouret, 2015]. Модуляция второго пика активности этих нейронов может обеспечиваться через обширные структурно-функциональные связи голубого пятна с вентральной тегментальной областью, которая играет ключевую роль в «кодировании» величины подкрепления [Schultz, 1998].

По-видимому, второй пик фазической активности норадрегергических нейронов голубого пятна может отражать соотнесение степени мобилизации сенсорных, моторных и регуляторных ресурсов мозга с силой мотивации субъекта [Hofmeister, 2015].

Таким образом, нейрофизиологические механизмы обучения с вероятностным подкреплением имеют сложную многокомпонентную организацию, в основе которой лежит петля реципрокного взаимодействия поясной и орбитофронтальной коры и распределенных нейромо- дуляторных систем. Различные пути этого взаимодействия вносят собственный вклад в оценку текущей и долгосрочной значимости событий, регуляцию уровня внимания и мотивации. Эти же системы мозга играют ключевую роль в патогенезе большинства психических и психоневрологических расстройств [Maia, 2011]. Неудивительно, что для всех этих патологических состояний характерны нарушения обучения, специфика которых в каждом конкретном случае будет подробнее рассмотрена ниже.

Нарушения обучения при психических и психоневрологических расстройствах

Наиболее показательной моделью для исследования роли дофаминэргической системы в кодировании положительного подкрепления может служить болезнь Паркинсона, так как характерная для этого состояния обширная потеря дофамин-чувствительных нейронов является его несомненным патогенетическим механизмом и основным метаболическим нарушением. Эксперименты, направленные на сравнительное изучение обучения на основе положительного и отрицательного подкрепления с участием пациентов с болезнью Паркинсона, показали, что эти две системы подкрепления могут нарушаться независимо друг от друга. Так, у пациентов с болезнью Паркинсона страдает способность обучаться на основе положительного подкрепления, в то время как чувствительность к негативному подкреплению у них остается такой же, как у здоровых людей того же возраста.

Более того, лечение болезни Паркинсона препаратами, приводящими к подъему уровня дофамина в стрио- паллидарной системе мозга, могут менять эти особенности обучения на противоположные. То есть агонисты дофамина способны настолько повысить чувствительность к положительному подкреплению, что под влиянием лечения пациенты с болезнью Паркинсона превосходят здоровых людей того же возраста по способности учиться на положительном опыте. Одновременно с этим повышенный уровень дофамина снижает чувствительность человека к отрицательной обратной связи [Frank, 2004].

Противоположный болезни Паркинсона патогенетический механизм лежит в основе синдрома Туретта, при котором причиной характерных тиков, навязчивых движений и вокализаций является аномальное повышение уровня дофамина в стриатуме.

Показательно, что в обучении с вероятностным подкреплением у этой группы пациентов и у пациентов с болезнью Паркинсона до терапии наблюдаются противоположные психологические особенности. Первые эффективнее обучаются на основе положительного подкрепления (также как больные болезнью Паркинсона после лечения). Лечение пациентов с синдромом Туретта блокаторами рецепторов дофамина (типа D2) делает их более чувствительными к отрицательному подкреплению, чем к положительному (как у пациентов с болезнью Паркинсона до лечения) [Pharmacological modulation of, 2009].

По-видимому, болезнь Паркинсона и синдром Туретта являются крайними вариантами отклонения уровня дофамина, в то время как сбалансированный уровень дофамина у здоровых людей обычно отражается в одинаковой успешности обучения на основе положительного и отрицательного подкрепления [Frank, 2004].

Однако уровень дофамина в стрио-паллидарной системе не всегда однозначно определяет его в префронтальной коре. Например, у пациентов с шизофренией на фоне повышенного количества рецепторов к дофамину в стриатуме понижен уровень дофамина на уровне префронтальной коры [Frank, 2004]. Кроме того, у них отмечаются спонтанные повышения активности дофамин-чувствительных нейронов безотносительно к подкреплению, что как бы имитирует эффект «неожиданности» стимула или позитивную ошибку предсказания, способствуя формированию избыточных связей [A dynamic developmental, 2005].

Примером неадаптивного установления ассоциаций при шизофрении может послужить экспериментально обнаруженный у них феномен аберрантного обучения. При выполнении задачи на вероятностное обучение пациенты ошибочно связывали подкрепление с второстепенным признаком стимулов, который в действительности не имел отношения к подкреплению [Do patients with, 2009].

В силу этих особенностей пациенты с шизофренией в условиях вероятностного подкрепления часто меняли стратегию принятия решения, и как следствие у них были снижены показатели обучения на основе как положительного, так и отрицательного подкрепления [Probabilistic reversal learning, 2016].

Еще одним патологическим состоянием, для которого также характерны аномалии дофаминовой и норадреналиновой нейромодуляторных систем, является синдром гиперактивности с дефицитом внимания (СДВГ). У этой категории пациентов снижен уровень как тонической, так и фазической активности дофаминэргических нейронов как в стриатуме, так и в префронтальной коре, однако повышен уровень норадреналина [A dynamic developmental, 2005]. Характерной поведенческой особенностью этих детей и молодых людей является отвлекаемость и импульсивность, понимаемая как нечувстивительность к отсроченным подкреплениям. Фактически пациенты с СДВГ могут эффективно обучаться только на основе немедленного подкрепления, что может быть обусловлено сниженным уровнем дофамина в орбитофронтальной коре. Сходные тенденции в поведении отмечаются и у людей с наркотической и игровой зависимостью [Maia, 2011].

Приведенный обзор особенностей обучения с вероятностным подкреплением при различных психических и психоневрологических расстройствах демонстрирует роль распределенных нейромодуля- торных систем мозга в обеспечении оптимального функционирования высших регуляторных областей мозга. При этом следует отметить, что наиболее подробно изучена петля двустороннего взаимодействия лобной коры с системой дофамин-чувствительных нейронов стриатума. Однако несомненный вклад остальных нейромодуляторных систем в процессы обучения, а также их взаимодействие между собой до настоящего времени остаются недостаточно изученными и спорными вопросами, которые требуют дальнейшего экспериментального исследования.

Благодарности

Работа выполнена при базовом финансировании МЭГ-центра Министерством образования и науки РФ.

Выражаю признательность Татьяне Александровне Строгановой за помощь в подготовке статьи.

^[I] Ярким примером такой переоценки события может послужить один из недавних экспериментов на крысах. Крысы помещались в клетку, в разных частях которой находились три металлических рычага. Случайное нажатие животным одного из них приводило к насильственному впрыскиванию в рот высококонцентрированного раствора соли, контакт со вторым рычагом приводил к подаче раствора сахара, а третий (контрольный) рычаг не был связан с каким-либо последующим событием. В скором времени крысы стали сторониться первого рычага настолько, насколько им позволяло пространство клетки, и при этом многократно подходить ко второму рычагу, чтобы получить сладкий раствор, а третий - игнорировали. Однако разовая инъекция препаратов (деоксикостерона и фуросемида), имитирующих гормоны (ангиотестин II и альдостерон), сигнализирующие о недостатке в организме соли, необычным образом меняло поведение животных. Без какого-либо дополнительного обучения в той же самой клетке крысы начинали грызть и лизать тот рычаг, которого избегали ранее, несмотря на то, что рычаг был сделан из металла, и не обладал соленым вкусом, и на нем не оставалось никаких следов соли.

Обучение в условиях вероятностного подкрепления и его роль в адаптивном и дезадаптивном поведении человека

Резюме

Общая информация

Полный текст

Введение

Виды обучения с подкреплением

Условия формирования и распада ассоциативных связей

Поведенческая адаптация к условиям вероятностного подкрепления

Системные механизмы обучения в условиях вероятностного подкрепления

Нейромодуляторные механизмы вероятностного обучения

Нарушения обучения при психических и психоневрологических расстройствах

Литература

Информация об авторах

Метрики

Просмотров web

Скачиваний PDF

Всего