Особенности взаимодействия рефлекторного агента со средой: модельное исследование

Крылов А.К.; Александров Ю.И.

Экспериментальная психология
2009. Том 2. № 1. С. 5–22
ISSN: 2072-7593 / 2311-7036 (online)

Особенности взаимодействия рефлекторного агента со средой: модельное исследование

708

Аннотация

Данная работа посвящена эмпирической оценке различий между категорией методик предъявления стимулов и категорией методик погружения в среду. Экспериментальное исследование проведено на компьютерной модели рефлекторного агента. Показано, что категория методик погружения в среду позволяет исследовать более широкий класс феноменов, по сравнению с методиками предъявления стимулов, например: проследить зависимость наличной ситуации от предшествующей ситуации, предшествующего действия, опыта испытуемого; оценить способность испытуемого путем взаимодействия со средой реструктурировать ее и влиять на сложность задач. Однако полученные данные не исключают возможности применения методик предъявления стимулов для исследования таких форм взаимодействия испытуемого со средой, в которых он не способен влиять на ситуацию.

Общая информация

Ключевые слова: методика, среда, экспериментальные исследования, предъявление, стимул, погружение, взаимодействие, подкрепление, обучение, модель, исследование

Рубрика издания: Психофизиология

Для цитаты: Крылов А.К., Александров Ю.И. Особенности взаимодействия рефлекторного агента со средой: модельное исследование // Экспериментальная психология. 2009. Том 2. № 1. С. 5–22.

Полный текст

Введение¹

Постановка исследовательских задач, выбор оборудования, методик проведения эксперимента и способов анализа результатов зависят от парадигмы² (Кун, 1975), которой исследователь явно или неявно придерживается. «С точки зрения С. Л. Рубинштейна, генеральной линией развития психологии (и смежных с ней наук) является... более глубокая разработка специфически психологических методик исследования, основанных на философски фундированной методологии» (Брушлинский, 1979, с. 48). В настоящей работе рассматриваются две категории экспериментальных методик, связанные с различными научными парадигмами: методики, основанные на предъявлении стимулов, и методики, основанные на погружении в среду. В то время как межпарадигмальные различия рассматриваются философией науки, различия между используемыми ими методиками, с нашей точки зрения, могут быть предметом экспериментального анализа.

В соответствии с парадигмой реактивности (критику которой с позиций парадигмы активности см. в (Бернштейн, 1966; Анохин, 1978; Швырков, 1995; Александров, 1999; Александров, Крылов, 2005), основанной на редукционизме, поведение испытуемого рассматривается как реакции на стимулы; адекватной категорией экспериментальных методик считается предъявление стимулов с регистрацией последующего действия испытуемого, выбранного им из ограниченного набора действий, заданных экспериментатором. При этом очередной стимул не зависит, как правило, от предшествующего действия испытуемого: стимулы предъявляются в порядке, выбранном экспериментатором, который задает и фиксирует вероятности предъявления каждого стимула. Принципиально, что при этом испытуемый на каждом шагу оказывается в ситуации, формируемой экспериментатором, и не может самостоятельно выбрать ее или создать. При планировании эксперимента и трактовке результатов в этой парадигме основным объяснительным принципом является наличие внешней причины, находящейся в прошлом (Кругликов, 1982). Лексически такой тип атрибуции часто выражается связкой «потому что».

^{¹ Работа поддержана фондом РГНФ (грант № 08-06-00250а), Советом по грантам Президента Российской Федерации ведущим научным школам Российской Федерации (проект № НШ-602-2008.6).
^{²В статье используется устоявшийся в отечественной литературе термин Т. Куна «парадигма» (Кун, 1975). Его можно сопоставить с терминами «исследовательская программа» И. Лакатоса (Лакатос, 1995) и «метатеория» А. В. Юревича (Юревич, 2001), а термин «парадигма активности» (см. ниже) с понятием «принцип активности» Н. А. Бернштейна (Бернштейн, 1966), С. Л. Рубинштейна и др.}}

Парадигма реактивности является основой объектного подхода в психофизике, в котором специфика методики предъявления стимулов заключается в предъявлении стимулов в случайном порядке (Гусев, 2004) при использовании ограниченной одномерной, однозначной сенсорной задачи, с которой работает хорошо тренированный испытуемый (Гусев, 2004), и типичной относительно стационарной среды типовой ситуации (Асмолов, 1985). В нейронауке методика предъявления стимулов часто сочетается с использованием обездвиженных животных. Так, методика классического обусловливания, разработанная И. П. Павловым и позволяющая формировать у испытуемого классический условный рефлекс, принадлежит категории методик предъявления стимулов.

Проведенный анализ исторического развития парадигмы реактивности позволил нам выделить «жесткое ядро» – термин И. Лакатоса (Лакатос, 1995), соответствующей «исследовательской программы» (Александров, Крылов, 2005), и мы считаем, что его выражают представленные Декартом аналогии между живыми организмами и механическими объектами. Декарт говорил об отраженном действии как о законе мироздания, проявляющемся и в механизмах, и в живых существах. В концепции отраженного действия ведущей причиной поведения им было постулировано влияние внешней среды, а само действие рассматривалось как объективное отражение компонентов внешней среды, действующих на организм. Декарт выдвинул также положение о постоянстве отраженного действия в ответ на приложение определенных стимулов, которое мы можем трактовать как утверждение однозначности детерминации поведения внешней средой и отрицание каких-либо прочих детерминант (см. в (Судаков, 1997)). В качестве примера в те времена проводили аналогию между живым организмом и механическими часами. В дальнейшем на основе этих общефилософских материалистических представлений была развита теория рефлекса (Павлов И. П., 1949). В ней аналогичные представления были выражены постулатом о детерминации внешним стимулом последующего поведения (называемого реакцией).

Таким образом, суть концепции реагирования, с нашей точки зрения, можно определить следующим образом: индивид в своем действии и состоянии объективно отражает предшествующий внешний сигнал (Александров, Крылов, 2005). Согласно такому определению, рефлексом f является отражение сенсорной ситуации в действии: выход(t+ô) = =f(вход(t)), т > 0³. Применение концепции «рефлекс» к какому-либо явлению означает, что его причины ищутся в прошлом и вовне данного явления, т. е. что оно порождается, вызывается другим внешним явлением, имевшим место в прошлом. Невнимание к этой сущности «рефлекса» порождает нечеткость терминологии и эклектику (см. в (Александров, 1999)). Несмотря на все попытки модификации рефлекторной теории (см. (Кругликов, 1982; Батуев, 1991; Судаков, 1997)), ее существо остается неизменным (Меницкий, 1975; Швырков, 1978; Анохин, 1980; Кругликов, 1982; Судаков, 1997; Александров, 1999; Василюк, 2003; Александров, Крылов, 2005).

^{³ Частным случаем такой формализации является модель рефлекса по Е. Н. Соколову (Соколов, Вайткявичюс, 1989).}Редукционизм, присущий парадигме реактивности, отрицает необходимость учета всей комплексной схемы детерминант, движущих субъектом, разрешая исследователю рассматривать детерминанты по отдельности. Поэтому, опираясь на модификации исходного варианта теории рефлекса, исследователь, работающий в рамках этой теории, имеет право апеллировать к опыту, состоянию индивида, а также к его потребностям и пр. Право, но не обязанность брать их всегда в рассмотрение. Учитывать ли состояние и/или опыт, и/или потребности индивида, решает сам исследователь, сообразуясь с тем, достаточен ли для него в данном случае классический вариант теории. Такая «гибкость» говорит о нечеткости теории рефлекса, во всяком случае, применительно к упомянутым переменным.

С целью выявления стратегий, применяемых агентом (человеком, животным, моделью) для решения различного рода задач, исследователи используют тестовые задачи разного уровня сложности. С позиций редукционизма предполагается, что сложная стратегия – комбинация простых. Поэтому считается правомерным использование упрощенных тестовых задач. Однако тестируемый агент может пользоваться гораздо более сложной, чем кажется экспериментатору, стратегией, которая в простых задачах не отличима наблюдателем от простой. Неправомерно распространять гипотезу об используемой агентом стратегии решения задачи с редуцированным набором факторов на случай задачи с полным набором факторов. Поэтому наиболее адекватными для исследования стратегий агента представляются именно задачи, для успешного решения которых испытуемый должен проявить полный набор детерминант своего поведения. Л. С. Выготский подчеркивал ограниченность рефлекторного подхода, поскольку такой подход не учитывает способности живого организма влиять на среду: «... вы упускаете из виду за игрой стимулов – реакций то, что реально произошло: активное вмешательство человека в ситуацию, его активную роль, его поведение, состоявшее во введении новых стимулов⁴... Разлагая операцию на части, вы потеряли самую главную часть ее...» (Выготский, 1996, с. 300).

Более полная и более сложная схема учитываемых детерминант рассматривается в имеющем антиредукционистскую направленность системном подходе. Системный подход связан с парадигмой активности, в разработку которой инновационный вклад внес Аристотель, сформулировав представления о комплексной схеме детерминант поведения и главенствующей роли среди них causa finalis – целенаправленности (Lombrozo, Carey, 2005). Принцип активности утверждает, что действие индивида направлено в будущее, имеет свою цель и ею обусловлено. Детерминация действия имеет внутреннюю по отношению к индивиду природу и связана с будущим событием. Принцип активности применим не только к анализу индивида, но и к анализу отдельной клетки многоклеточного организма (Шеррингтон, 1969; Анохин, 1978; Швырков, 1995; Александров, 2004).

Н. А. Бернштейн, роль которого в утверждении принципа активности в психологии и физиологии трудно переоценить, считал, что активность – важнейшая черта всех живых систем, и что именно она является самой главной и определяющей, а постановка понятия активности в качестве отправной точки ведет к глубокому переосмыслению тех физиологических понятий, которые отживают и уходят в прошлое вместе со своей платформой старого механистического материала (Бернштейн, 1990).

^{⁴ Здесь под «введением новых стимулов» автор, судя по остальному тексту, имеет в виду конструирование ситуации самим субъектом.}

Центральным пунктом теории деятельности, развитой в отечественной психологии, является представление об активном, а не реактивном субъекте (Петровский А. В., Ярошевский М. Г., 1998; Петренко В. Ф., 1999).

В соответствии с парадигмой активности поведение испытуемого рассматривается как целенаправленное, а каждая ситуация, возникающая в результате его предшествующего действия, описывается в терминах соотношения субъекта и среды. Алфавит таких соотношений – набор имеющихся у субъекта возможностей по достижению своих целей в данных обстоятельствах. Оптимальная организация экспериментов на животных в этом случае – «свободное поведение»: эксперименты проводятся на свободно подвижных животных, тестовая среда приближена к естественной. Испытуемые погружаются в тестовую среду, и экспериментатор лишь задает закономерности функционирования объектов тестовой среды. Обязательно учитывается мотивационная сфера и последовательность обучения (Горкин, Шевченко, 1993; Александров и др., 1997; Созинов и др., 2007; Александров и др., 2007). При планировании эксперимента и трактовке данных основным объяснительным принципом является движение к цели. Лексически такой тип атрибуции часто выражается связкой «для того, чтобы». Принцип активности оказывается ключевым для всех представителей теории деятельности, и они противопоставляют его принципу реактивности (Асмолов, 1983). Парадигма активности – основа субъектного подхода в психофизике (Скотникова, 2003; Гусев, 2004).

Стержневое значение принципа активности для системного подхода связано с антиредукционистским характером последнего. Эта связь проявляется в антиредукционистской направленности психологических теорий, включающих идею активности (см., например, работу А. Р. Лурии (1977), названную В. П. Зинченко «антиредукционистским манифестом»; Леонтьев, 1975; и мн. др.). Она обнаруживается и у Аристотеля, в трудах которого согласованы утверждение целенаправленности поведения и признание непригодности редукционизма для понимания живого (Mirus, 2004).

«История психологической науки во многом выступает как история поиска альтернатив атомистической, по существу асистемной, точке зрения на природу психики и поведения. ... Следствием такого подхода стало распространение редукционизма... Собственно преодоление этого кризиса и связано с освоением (большей частью неосознанно) системного взгляда на предмет психологического познания» (Барабанщиков, 2002, с. 41).

В современных представлениях понятие активности и целенаправленности связано с понятием опережающего отражения (Анохин, 1978). Опережающее отражение появилось с зарождением на Земле жизни и является отличительным свойством последней. Опережающее отражение связано с активным отношением живой материи к пространственно-временной структуре мира и состоит в опережающей, ускоренной подготовке к будущим изменениям среды. В когнитивной психологии опережающий характер отражения ярко представлен, например, в концепции У. Найссера (1981), который считает, что образы – это не «картинки в голове», появляющиеся после действия сенсорных стимулов, а «предвосхищения будущего».

Б. Ф. Ломов специально подчеркивал значение теории функциональных систем П. К. Анохина для развития системного подхода в психологии (Ломов, 1996). Основываясь на системном подходе, мы учитываем набор детерминант принятия решения, экспериментально выявленный в теории функциональных систем (ТФС) (Анохин, 1978): мотивация (что делать), память (как делать), обстановочная афферентация (в каких условиях действие будет успешно), пусковая афферентация (когда начинать действие). Можно показать, что в совокупности они образуют «полную причину» (Алексеев, Панин, 1996). Также, в соответствии с ТФС, действия разворачиваются по принципу обратной связи, и ключевой особенностью этого процесса является возникающее по ходу действия несоответствие между запланированным результатом и реально полученным. Поэтому мы считаем, что тестовая задача минимально необходимой сложности должна обладать следующими характеристиками (Крылов, 2005а): действия требуют контроля правильности своего исполнения, задача решается последовательностью действий, и результаты промежуточных действий не представлены непосредственно в среде (“forgetful environment” (Colombetti, Dorigo, 1994), например, испытуемый уже нажал на педаль, но она возвращается в исходное положение, и по ее внешнему виду он не может определить, нажимал он ее уже или еще нет, он должен это запомнить, т. е. присутствует полимотивация (Seth, 1998; Baldassarre, 2000).

Таким образом, различия в двух рассматриваемых методиках так или иначе связаны с двумя разными парадигмами в психологии и нейронауке, двумя типами процедур обучения, двумя отличающимися один от другого подходами в психофизике, разработках искусственного интеллекта и когнитивной науке.

При этом можно наблюдать тенденцию перехода от редукционизма к системному подходу в психологии вообще (см. выше), и, в частности, от объектной психофизики к субъектной (Скотникова, 2003; Гусев, 2004), а в нейронауке обнаруживаются тенденция перехода от парадигмы реактивности к парадигме активности и рост числа исследований второго типа (Александров, Крылов, 2005). Аналогично и в развитии когнитивной науки поначалу превалировала вычислительная метафора, но в 90-х гг. появилось новое направление – динамический подход, в котором рассматривается непрерывное взаимодействие нервной системы с телом, и тела, погруженного в среду⁵, с внешней средой (Beer, 1998, 2000).

В методическом отношении в психологии большое значение придается категории взаимодействия: в определении психического – «психическое есть специфическое для субъекта взаимодействие с объектом»; в детерминации – «Узловой причиной поступков человека, его поведения, ... является ... его взаимодействие с окружающим». Даже ключевая для психологии категория отражения приводится к категории взаимодействия – «рассмотрение отражения как элемента взаимодействия и есть его конкретно-научный анализ» (Пономарев, 1999, с. 123, 113, 75). Исследование взаимодействия со средой с использованием методики погружения в среду, как отмечено выше, является неотъемлемым компонентом в парадигме активности и системном подходе.

Однако взаимодействие со средой рассматривается не только в парадигме активности, но и в некоторых версиях рефлекторной теории: «рефлекторный акт – это прежде всего практическое взаимодействие между организмом и средой» (Шингаров Г. Х., 1982, с. 31). Методика погружения в среду (в форме оперантного обусловливания) используется, например, в бихевиоризме, основанном на парадигме реактивности, – «проблемные ящики Скиннера». Поэтому предпринятое нами исследование, результаты которого представлены в данной статье, правомерно рассматривать как экспериментально-теоретическую разработку представлений об особенностях взаимодействия рефлекторного агента со средой.

⁵ При этом допустимо погружение в модельную среду: экспериментатор задает зависимость модификации сенсорной ситуации от действий испытуемого или животного (Brembs, Heisenberg, 2000). Например, используется компьютерный тренажер вождения автомобиля, в котором испытуемый совершает поездку по виртуальному городу (Velichkovsky, 2002).

Теоретическая значимость экспериментального исследования понятия «взаимодействия со средой» обусловлена еще тем, что предмет и метод психологического исследования сводятся к категории взаимодействия: «продукты процесса взаимодействия субъекта с объектом выражаются... в видоизменениях как субъекта, так и объекта. ... Анализ обоих видов продуктов психического взаимодействия и следует относить к предмету психологи; ческого исследования», «продукты на полюсе субъекта... и есть психика», «принцип взаимодействия субъекта с объектом определяет... и основной метод психологических исследований» (Пономарев, 1999, с. 126, 127, 127).

Практическая значимость экспериментально-теоретического исследования взаимодействия при погружении в среду подтверждается особыми практическими результатами применения этого типа методик в исследованиях. Имеются данные о том, что оперантное обусловливание, реализуемое взаимодействием со средой, является более эффективной процедурой обучения, чем классическое, реализуемое предъявлением стимулов (Brembs, Heisenberg, 2000). В области искусственного интеллекта основой реально созданных роботов стали концепции «погруженности в среду» («embodiment») и «взаимодействия со средой» («situatedness») (Brooks, 1991а, 1991б).

Экспериментальная часть

Ранее был проведен теоретический анализ методологических различий между парадигмами активности и реактивности (Василюк, 2003). В нашем исследовании проверялось предположение о возможности эмпирического выявления различий между категориями методик предъявления стимулов и погружения в среду. При этом использовался междисциплинарный подход (Журавлев, 2003) и учитывались ограничения на применение математического моделирования в психологии (Ломов и др., 1976; Крылов, 2000). В исследовании мы применили к агенту, адекватно описываемому парадигмой реактивности, исследовательскую методику парадигмы активности, основанную на погружении в среду. Поскольку применимость парадигмы реактивности для описания живого организма является дискуссионной (Бернштейн, 1966; Анохин, 1978; Кругликов, 1982; Швырков, 1995; Александров, 1999; Александров, Крылов, 2005), мы использовали компьютерную модель рефлекторного агента. Таким образом, заведомо известно, что наш «испытуемый» полностью описывается рефлекторной теорией и является адекватным парадигме реактивности.

Парадигма реактивности предполагает, что такой агент исчерпывающе изучается с помощью предъявления стимулов и не должен демонстрировать феномены, не изучаемые этой категорией методик. Данная гипотеза проверялась в настоящей работе. Альтернативная гипотеза состояла в том, что некоторые закономерности взаимодействия испытуемого со средой могут быть выявлены лишь погружением в среду, даже если он адекватно описывается рефлекторной теорией. Иначе говоря, в соответствии с альтернативной гипотезой предполагалось, что такой агент, созданный в соответствии с рефлекторной теорией, при его погружении в среду проявит также и феномены, не предусмотренные рефлекторной теорией.

Выбор модельного исследования обсуловлен также тем, что на модели мы можем зарегистрировать, как выглядит тестовая задача с точки зрения испытуемого (агента) при его взаимодействии с ней (т. е. «актуальная задача»), и затем сопоставить, как выглядит тестовая задача с точки зрения экспериментатора. Только модель позволяет провести регистрацию всех внутренних переменных.

Задачей исследования являлось определение динамики актуальной тестовой задачи при взаимодействии рефлекторного агента со средой.

Понятие взаимодействия со средой раскрывается следующим образом: «продукты процесса взаимодействия субъекта с объектом выражаются... в видоизменениях как субъекта, так и объекта» (Пономарев, 1999, с. 126), «процесс взаимодействия есть обмен изменениями» (Корнилова, Смирнов, 2007, с. 165). Следовательно, для исследования взаимодействия необходимо регистрировать изменения в среде и изменения внутри агента. Поэтому для раскрытия понятия взаимодействия со средой следует провести анализ зависимости внутренних переменных агента от влияния среды и зависимости среды от влияния на нее агента. В частности, для нашей модели описание взаимодействия совпадает с описанием поведенческого акта (Александров, 2006) и включает в себя «тройку»: описание исходной ситуации, описание совершенного в ней действия, описание результирующей ситуации.

При этом хотя «категории взаимодействия и развития ... составляют неразрывное единство», однако «развитие растянуто по времени – в принципе до бесконечности; взаимодействие сжато во времени – в принципе до предела (оно представляет собой натуральные единицы времени)», и поскольку «развитие... дробится на отдельные акты психического взаимодействия и осуществляется путем постоянных переходов процесса взаимодействия в его продукт и обратно – продукта в процесс» (Пономарев, 1999, с. 100, 105, 127), будем считать единицей модельного времени время одного взаимодействия, т. е. тройки: < ситуация в момент t, действие в момент t, ситуация в момент t+1>, а развитие опишем последовательностью таких троек во времени.

Таким образом, целью исследования стало выявление динамики ситуаций, в которых оказывается агент, в зависимости от его собственных действий и опыта (фазы научения). В качестве тестовой среды использовалась модель фуражирования в открытом поле, положительно зарекомендовавшая себя в модельных психологических исследованиях (Baldassarre, 2000, 2001; Krylov, 2004) и удовлетворяющая перечисленным выше критериям (Крылов, 2005а), которые предъявляются нами к тестовой поведенческой задаче минимально необходимой сложности, пригодной для межпарадигмального исследования. По нашему мнению, полученные результаты могут дать более строгое формальное описание понятию «взаимодействие со средой», а также установить область применения обеих категорий методик: погружение в среду и предъявление стимулов.

Методика

Модель индивида, поведение которого обеспечивается рефлексами, будем называть рефлекторным агентом. Рефлекторный агент обучается каждой сенсорной ситуации ставить в соответствие некоторое действие, которое он будет в ней совершать. Точнее, такой агент может в одной ситуации выполнять различные действия с некоторыми вероятностями.

Определение этих вероятностей для каждой ситуации и составляет задачу научения рефлекторного агента. Эти величины задаются не экспериментатором, они определяются самим агентом благодаря алгоритму обучения, имитирующему работу его «мозга».

Далее приводим описание конкретного варианта использованной нами модели рефлекторного агента (Baldassarre, 2000). В каждый такт времени агент получает информацию о текущем состоянии среды на свои сенсоры (аналог стимула в РТ) и совершает одно из следующих действий: захват пищи, поворот вправо, поворот влево, ожидание (аналог реакции в РТ). Повороты осуществляются на фиксированный угол в 22,5 градусов. Агент имеет несколько визуальных сенсоров, каждый из которых детектирует наличие пищевого объекта в соответствующем секторе зрительного поля. В данной реализации (Krylov, 2004) таких сенсоров три: «область захвата», «область слева», «область справа».

Ограниченные рецептивные способности агента имитируют неопределенность реальной биологической среды (Салтыков и др., 1996; Гусев, 2004; Крылов, 2005б).

В качестве управляющего алгоритма и алгоритма обучения был выбран Actor/Critic (Sutton, Barto, 1998; Baldassarre, 2000; Krylov, 2004) парадигмы обучения с подкреплением (reinforcement learning) (Sutton, Barto, 1998). Этот алгоритм, по мнению многих исследователей, имитирует работу базальных ганглиев головного мозга (Houk et al., 1995; Baldassarre, 2000, 2002) – отдела мозга, который в рамках парадигмы реактивности рассматривается как центр принятия решений (Redgrave et al., 1999). В соответствии с этим алгоритмом агент обучается набору рефлексов: каждой возможной сенсорной ситуации (из восьми возможных ситуаций в данной модели) агент ставит в соответствие действие из заранее заданного набора возможных действий (четыре возможных действия в данной модели). Таким образом, построенная модель полностью отвечает представлениям РТ и парадигмы реактивности.

Рис. 1. Реструктуризация среды собственными действиями агента (пример одной из реализаций модели):

1 – области низкого и 2, 3 – высокого скопления объектов (точки). По траектории движения агента видна длительность безуспешного поиска очередного объекта в области 1

Использовалась тестовая задача фуражирования – агент движется на плоскости, «поедая» пищевые объекты (рис. 1) (Крылов, 2005а). В среде изначально равномерно разбросано 42 пищевых объекта. После «поедания» агентом одного объекта в случайном месте появляется новый объект. Поедание происходит, когда агент совершает действие «захват» при условии наличия объекта в области захвата.

Регистрировались поведение и динамика внутренних переменных агента в процессе научения при погружении его в тестовую среду. Отмечались ситуации, в которых оказывается агент в зависимости от его собственных действий и предшествующей ситуации. Это позволило описать, как выглядит тестовая задача с точки зрения агента. Сложность субзадачи поиска очередного объекта оценивалась как время, затрачиваемое на ее решение, т. е. на обнаружение объекта, подход к нему и захват. Момент окончания обучения оценивался по выходу кривой научения на плато, он также сопровождался завершением формирования рефлексов. Для данной версии модели момент окончания обучения составил 200 000 тактов. Статистику «в конце обучения» получали по 190 000–200 000 тактов, а «в начале обучения» по 0–10 000 тактов. Для агента, не обучающегося и действующего равномерно случайно, статистику получали по 190 000–200 000 тактов. Достоверность различий распределений до и после обучения оценивалась по критерию ÷² (p < 0.001), а различий средних значений признака – по ϕ- критерию Фишера (p < 0.001).

Результаты и их обсуждение

Агент успешно решает данную тестовую задачу, обучаясь набору рефлексов типа «если объект справа, то поворот вправо», «если объект в области захвата, то захват». Действия агента в модели определялись исключительно предшествующей ситуацией, поэтому известный «эффект последовательности» (Безденежных, 2004), заключающийся в зависимости действия от цепочки предшествующих ситуаций и от предшествующего действия, не моделировался и не наблюдался. Напротив, заложенная в основу модели зависимость действия от предшествующей ситуации полностью описывает содержание сформированных рефлексов (рефлекс – связь ситуация-действие). Она может быть адекватно выявлена предъявлением стимулов, поэтому здесь не представлена (см. подробнее (Крылов, 2004, 2006)).

Далее представим феномены, не выявляемые предъявлением стимулов.

Тестовая среда такова, что вероятность появления нового объекта в любом месте среды одинакова, поэтому объекты возникают в среде равномерно. Однако обнаруживается, что в результате действий агента объекты оказываются распределены в среде неравномерно (см. рис. 1). Благодаря действиям агента, работающего с задачей, происходит реструктуризация среды.

Как следствие, агент, собрав объекты на одном локальном участке, может потратить немало времени в поисках следующего объекта, что реально означает «поиск нового участка» (см. рис. 1). Время, затрачиваемое агентом на поиск очередного объекта, показано на рис. 2. Примерно в 40 % случаев агент был вынужден затрачивать дополнительное время на поиск очередного объекта, оказываясь в области низкой плотности пищи (см. область 1 на рис. 1). Это случаи повышенной сложности задачи (см. рис. 2, справа), порожденной собственными действиями агента, его взаимодействием со средой. С точки зрения РТ этот график означал бы, что испытуемому предъявляются задачи, сложность которых имеет экспоненциальный характер роста, в то время как в методиках, основанных на предъявлении стимулов, принято предъявлять задачи примерно одинаковой сложности для последующего усреднения результатов.

Рис. 3. Влияние агента на вероятность попадания в различные ситуации:

по оси абсцисс S2 – два объекта в области видимости; S0+ – объект в области захвата; S1+ – объект в области захвата и еще один объект в области видимости; S2+ – объект в области захвата и еще два объекта в области видимости. По оси ординат – вероятность возникновения данной ситуации (усреднение по 500 реализациям модели). Заштрихованные столбцы – для необучающегося агента, светлые – для обучающегося агента в начале обучения, темные – для обучающегося агента в конце обучения. Распределения до и после обучения достоверно различаются (÷², p < 0.001)

Рис. 4. Пример зависимости последующей ситуации от текущей и от опыта агента. Показаны вероятности возникновения соответствующей ситуации после ситуации «объект справа» (усреднение по 100 реализациям модели). Светлые столбцы – в начале обучения, темные – в конце обучения:

S0 – нет объекта в области видимости; S1L – объект слева; S1R – объект справа; S2 – два объекта видны; S+ – есть объект в области захвата. Распределения до и после обучения достоверно различаются (÷², p < 0.001)

Вероятность оказаться в той или иной ситуации меняется вследствие обучения (рис. 3), даже несмотря на неизменные закономерности тестовой задачи. Например, вероятность оказаться в ситуации «видны два объекта» (см. рис. 3, S2) увеличивается в процессе обучения более чем в 1,5 раза. В терминах РТ это означает, что рефлекторный агент в свободном поведении способен до некоторой степени определять, какие стимулы он «получит»⁶. Как уже отмечалось, возможность влияния действий испытуемого на то, какие он стимулы получит, обычно не допускается в методике предъявления стимулов.

На рис. 4 показано, что возникновение какой-либо ситуации зависит от предшествующей ситуации и опыта агента. Например, вероятность того, что объект окажется в области захвата (ситуация S+), если до этого он был справа (ситуация S1R), составляет 4 % в начале обучения. В конце обучения эта величина достигает более 15 % (см. рис. 4, ситуация S+). Обучение агента приводит к тому, что следующая ситуация, в которой он окажется, существенно определяется предыдущей ситуацией и его опытом. В терминологии РТ это означает, что очередной стимул зависит от предыдущего и от опыта испытуемого. Такая зависимость исключается в методике, основанной на предъявлении стимулов, поскольку их принято предъявлять в случайном порядке.

^{⁶ В другой модельной работе это свойство названо self-selecting of input stimuli (Nolfi, Parisi, 1993).}

Подпись:
SO S1 S2 S
Рис. 5. Пример зависимости последующей ситуации от текущей ситуации, от действия агента и его опыта. Показана вероятность возникновения соответствующей ситуации действием «поворот влево» (неверным) в ситуации «объект виден справа». Светлые столбцы – в начале обучения, темные – в конце (усреднение по 100 реализациям модели):
S0 – нет объекта в области видимости; S1 – один объект в области видимости; S2 – два объекта в области видимости; S+ – есть объект в области захвата. Различия достоверны (ϕ-критерий Фишера, p < 0.001)

На рис. 5 показано, что возникновение какой-либо ситуации зависит от предшествующей ситуации, выбранного агентом действия и его опыта. Например, вероятность того, что объект окажется в области захвата (ситуация S+), если до этого он был справа (ситуация S1R) и совершается действие «поворот влево» (неверное), составляет около 5 % в начале обучения. В конце обучения эта величина уже около 10 % (см. рис. 5, ситуация S+). Вероятность потерять объект из видимости снижается аналогично в процессе обучения с 30 до 16 % (см. рис. 5, ситуация S0). Таким образом, успешность действия «поворот влево» в ситуации «объект справа» повышается при обучении в 2 раза в данном случае.

На рис. 4 и 5 показаны возможные последующие ситуации при рассмотрении конкретной текущей ситуации. На рис. 6, наоборот, показаны вероятности возникновения конкретной ситуации в зависимости от предшествующей ситуации или предшествующего действия. Эти зависимости меняются в процессе обучения, имеют закономерный характер. В совокупности эти данные показывают, что обучение агента приводит к тому, что следующая ситуация, в которой он окажется, в значительной степени определяется предыдущей ситуацией, действием агента и его опытом. В терминологии РТ это означает, что очередной стимул зависит от предыдущего стимула, предыдущей реакции испытуемого и его опыта. Такая зависимость не исследуется с помощью методики предъявления стимулов.

Рис. 6. Вероятность возникновения ситуации «объект виден слева» в зависимости от предшествующей ситуации А или предшествующего действия Б (усреднение по 100 реализациям модели). Светлые столбцы – в начале обучения, темные – в конце обучения:

S0 – нет объекта в области видимости; S1L – объект слева; S1R – объект справа; S2 – два объекта видны; G – захват; LW – поворот влево; RW – поворот вправо; w – ожидание. Распределения до и после обучения достоверно различаются (÷², p < 0.001)

Подпись: Рис. 7. Пример нелинейной детерминации возника¬ющей ситуации. По оси ординат – вероятность возник¬новения ситуации «объект виден слева»; по оси абс¬цисс – время; одному делению соответствует 10 000 тактов:
А – при совершении действия «поворот вправо»; Б – после ситуации «объект виден слева»; В – при совершении действия «поворот вправо» в ситуации «объект виден слева»

На рис. 7 показан пример нелинейной детерминации возникающей ситуации при взаимодействии со средой. В процессе обучения вероятность возникновения ситуации «объект слева» после действия «поворот вправо» – растет (см. рис. 7, кривая А) до 0,6, после ситуации «объект виден слева» – падает до 0,4 (см. рис. 7, кривая Б), а при совместном действии этих двух детерминант падает почти до 0 (см. рис. 7, кривая В), т. е. не оказывается их суммой. Таким образом, детерминация при взаимодействии со средой является нелинейной и динамичной, а для исследования такой детерминации уместен системный подход (Барабанщиков, 2002).

Следует отметить, что поскольку использованные сенсоры не позволяют агенту получить информацию о точном местоположении объекта, то восприятие местоположения объекта разворачивается как процесс – осуществляется в процессе деятельности – подхода к объекту.

Выводы

Методики предъявления стимулов дают возможность определить зависимость действия испытуемого от предшествующей ситуации, в которой он оказался.

Методики погружения в среду дополнительно к этому позволяют выявить:

– способность испытуемого перераспределить объекты в среде, реструктуризовать среду собственными действиями;

– влияние испытуемого на сложность задач, с которыми он сталкивается; неравномерность распределения сложности задач, порожденную взаимодействием испытуемого со средой;

– зависимость вероятности возникновения какой-либо ситуации от предыдущей ситуации, от предыдущего действия и опыта испытуемого (в терминологии РТ – зависимость вероятности предъявления данного стимула от типа предыдущего стимула, реакции на него испытуемого и его опыта);

– закономерности взаимодействия со средой, выражающиеся в объективных зависимостях последующей ситуации от текущей и в способности испытуемого влиять на вероятность попадания в различные ситуации;

– нелинейный характер детерминации соотношений испытуемого со средой и ее динамику в процессе научения.

Гипотеза о том, что рефлекторный агент способен продемонстрировать только те феномены, которые описываются методикой, основанной на предъявлении стимулов, отвергнута. Показано, что взаимодействие рефлекторного агента, находящегося в условиях свободного поведения, со средой подчиняется иным закономерностям, нежели в случае, когда стимульный паттерн задается экспериментатором.

Результаты нашего исследования показывают, что категория методик погружения в среду позволяет изучать более широкий класс феноменов и зависимостей по сравнению с категорией методик предъявления стимулов. Полученные данные не исключают возможности применения методики, основанной на предъявлении стимулов для исследования таких форм взаимодействия испытуемого со средой, в которых он не способен влиять на ситуацию. Возможно, к такому классу задач относится случай беспомощного субъекта.

Литература

Александров И. О. Формирование структуры индивидуального знания. М.: ИП РАН, 2006.
Александров Ю. И. Теория функциональных систем и системная психофизиология // Системные аспекты психической деятельности / Под ред. К. В. Судакова. М.: Эдиториал УРСС, 1999. С. 96–152.
Александров Ю. И. Введение в системную психофизиологию // Психология XXI века. Под. ред. В. Н. Дружинина. М.: Пер Се, 2004. С. 39–85.
Александров Ю. И., Греченко Т. Н., Гаврилов В. В., Горкин А. Г., Шевченко Д. Г., Гринченко Ю. В., Александров И. О., Максимова Н. Е., Безденежных Б. Н., Бодунов М. В. Закономерности формирования и реализации индивидуального опыта // Журнал высш. нервн. деят. 1997. Т. 47. № 2. С. 243–260.
Александров Ю. И., Крылов А. К. Системная методология в психофизиологии: от нейронов до сознания // Идея системности в современной психологии / Под ред. В. А. Барабанщикова. М.: ИП РАН, 2005. C. 119–157.
Александров Ю. И., Созинов А. А., Аверкин А. Г., Лаукка С. Феномен проактивной интерференции: связь с эмоциями и возможные мозговые основы // Труды научного совета по экспериментальной и прикладной физиологии. Т. 14. Морфофункциональные основы системной деятельности. М., 2007. C. 150–166.
Алексеев П В., Панин А. В. Философия. М.: Проспект, 1996.
Анохин П. К. Философские аспекты теории функциональной системы. М.: Наука, 1978.
Анохин П. К. Из тетрадей П. К. Анохина // Психологический журнал. 1980. Т. 1. № 4. С. 185–188.
Асмолов А. Г. Основные принципы психологической теории деятельности // А. Н. Леонтьев и современная психология / Под ред. А. В. Запорожца. М.: Изд-во Моск. ун-та, 1983.
Асмолов А. Г. Принципы организации памяти человека. М.: Изд-во Моск. ун-та, 1985.
Барабанщиков В. А. Восприятие и событие. СПб.: Алетейя, 2002.
Батуев А. С. Высшая нервная деятельность. М.: Высшая школа, 1991.
Безденежных Б. Н. Динамика взаимодействия функциональных систем в структуре деятельности. М.: Изд-во «Институт психологии РАН», 2004.
Бернштейн Н. А. Очерки по физиологии движений и физиологии активности. М.: Медицина, 1966.
Бернштейн Н. А. Физиология движений и активность. М.: Наука, 1990.
Брушлинский А. В. Мышление и прогнозирование. М.: Мысль, 1979.
Василюк Ф. Е. Методологический анализ в психологии. М.: МГППУ; Смысл, 2003.
Выготский Л. С. Психология развития как феномен культуры. М.: Издательство «Институт практической псхологии»; Воронеж: НПО «Модэк», 1996.
Горкин А. Г., Шевченко Д. Г. Отражение истории обучения в активности нейронов лимбической коры кроликов // Журн. высш. нервн. деят. 1993. Т. 43. № 1. С. 172–175.
Гусев А. Н. Психофизика сенсорных задач: Системно-деятельностный анализ поведения человека в ситуации неопределенности. М.: Изд-во Моск. ун-та: УМК «Психология», 2004.
Журавлев А. Л. Особенности междисциплинарных исследований в психологической науке // Материалы конференции «Психология: Современные направления междисциплинарных исследований». М.: Изд-во «Институт психологии РАН», 2003. С. 7–20.
Корнилова Т. В., Смирнов С. Д. Методологические основы психологии. СПб.: Питер, 2007.
Кругликов Р. И. Детерминизм, активность, рефлекс // Методологические проблемы физиологии высшей нервной деятельности. М.: Наука, 1982. С. 47–85.
Крылов А. К. Оценка применимости рефлекторной модели нейронной сети к поведенческой задаче // Труды VI Всероссийской научно-технической конференции «Нейроинформатика-2004». М.: МИФИ, 2004.
Крылов А. К. Тестовая поведенческая задача минимально необходимой сложности: скрытая динамика // Труды международной научно-технической конференции «Интеллектуальные системы» (AIS’05). М.: Физматлит, 2005а. Т. 1. С. 237–244.
Крылов А. К. Неопределенность результата действия в парадигме Reinforcement Learning // Труды III международного научно-практического семинара «Интегрированные модели и мягкие вычисления в искусственном интеллекте». М.: Физматлит, 2005б. С. 238–243.
Крылов А. К. Предъявление стимулов или погружение в среду: модельное исследование парадигм в психофизиологии // Материалы итоговой научной конференции ИП РАН (1–2 февраля 2006 г.). М.: Изд-во «Институт психологии РАН», 2006. С. 111–120.
Крылов В. Ю. Методологические и теоретические проблемы математической психологии. М.: Янус-К, 2000.
Кун Т. Структура научных революций. М.: Прогресс, 1975.
Лакатос И. Фальсификация и методология научно-исследовательских программ. М.: Медиум, 1995.
Леонтьев А. Н. Деятельность. Сознание. Личность. М.: Политиздат, 1975.
Ломов Б. Ф. Системность в психологии. М.-Воронеж, 1996.
Ломов Б. Ф., Николаев В. И., Рубахин В. Ф. Некоторые вопросы применения математики в психологии // Психология и математика. М.: Наука, 1976.
Лурия А. Р. О месте психологии в ряду социальных и биологических наук // Вопросы философии. 1977. № 9. С. 68–76.
Меницкий Д. Н. Некоторые методологические вопросы условно-рефлекторной теории // Методологические вопросы теоретической медицины. Л., 1975. С. 70–86.
Найссер У. Познание и реальность. М.: Прогресс, 1981.
Павлов И. П. Избранные произведения. М.: Изд. АНСССР, 1949.
Петренко В. Ф. Школа А.Н.Леонтьева в семантическом пространстве психологической мысли. Традиции и перспективы деятельностного подхода в психологии: школа А. Н. Леонтьева. М.: Смысл, 1999. С. 11–37.
Петровский А. В., Ярошевский М. Г. Основы теоретической психологии. М.: Инфра-М, 1998.
Пономарев Я. А. Психология творения. М.: Московский психолого-социальный институт; Воронеж: НПО «МОДЭК», 1999.
Салтыков А. Б., Толокнов А. В., Хитров Н. К. Поведение и неопределенность среды. М.: Медицина, 1996.
Скотникова И. Г. Современное состояние субъектной психофизики // Материалы конференции «Психология: Современные направления междисциплинарных исследований». М.: Изд-во «Институт психологии РАН», 2003. С. 433–442.
Созинов А. А., Лаукка С., Аверкин Р. Г., Александров Ю. И. Условия и мозговое обеспечение интерференции при формировании системной структуры индивидуального опыта // Тенденции развития современной психологической науки // Отв. ред. А. Л. Журавлев, В. А. Кольцова. М.: «Институт психологии РАН», 2007. Ч. 2. С. 343–346.
Соколов Е. Н., Вайткявичюс Г. Г. Нейроинтеллект: от нейрона к нейрокомпьютеру. М.: Наука, 1989.
Судаков К. В. Рефлекс и функциональная система. Новгород: НовГУ, 1997.
Швырков В. Б. Нейрофизиологическое изучение системных механизмов поведения. М.: Наука, 1978.
Швырков В. Б. Введение в объективную психологию: Нейрональные основы психики / Под ред. Ю. И. Александрова. М.: Институт психологии РАН, 1995.
Шингаров Г. Х. Теория и метод познания И. П. Павлова // Методологические проблемы физиологии высшей нервной деятельности // Отв. ред. Р. И. Кругликов. М.: Наука, 1982.
Шеррингтон Ч. Интегративная деятельность нервной системы. Л.: Наука, 1969.
Юревич А. В. Методологический либерализм в психологии // Вопросы психологии. 2001. № 5. С. 3–18.
Baldassarre G. Needs and motivations as mechanisms of learning and control of behaviour: Interference problems with multiple tasks // Cybernetics and Systems 2000 – Proceedings of the Fifteenth European Meeting on Cybernetics and Systems Research / Ed. R. Trappl. Vienna, 2000. P. 677–682.
Baldassarre G. Cultural evolution of “guiding criteria” and behavior in a population of neural-networks agents // Journ. of memetics – Evolutionary models of Information Transmission. 2001. V. 4. Online journal.
Baldassarre G. A modular neural-network model of the basal ganglia’s role in learning and selecting motor behaviours // Journ. of Cognitive Systems Research. 2002. V. 3. P. 5–13.
Beer R. D. Framing the debate between computational and dynamical approaches to cognitive science (commentary on The dynamical hypothesis in cognitive science by Tim van Gelder) // Behavioral and Brain Sciences. 1998. V. 21(5). P. 630.
Beer R. D. Dynamical approaches to cognitive science // Trends in Cognitive Sciences. 2000. V. 4(3). P. 91–99.
Brembs B., Heisenberg M. The Operant and the Classical in Conditioned Orientation of Drosophila melanogaster at the Flight Simulator // Learning&Memory. 2000. V. 7. № 2. P. 104–115.
Brooks R. A. Intelligence without representation // Artificial Intelligence. 1991а. V. 47. P. 139–159.
Brooks R. A. New approaches to robotics // Science. 1991б. V. 253. P. 1227–1232.
Colombetti M., Dorigo M. Training agents to perform sequential behavior. Adaptive behavior. MIT Press, 1994. 2(3). P. 247–275.
Houk C. J., Davis L. J., Beiser G. D. (eds.). Models of Information Processing in the Basal Ganglia. Cambridge, Mass.: The MIT Press, 1995.
Krylov A. K. The smartest agent is not optimal in a motivationally driven actor/critic model //Proceedings of the International Scientific Conferences Intelligent Systems (IEEE AIS’04) and Intelligent CAD’s (CADJ2004), 2004. P. 21–26.
Lombrozo T., Carey S. Functional explanation and the function of explanation // Cognition. 2005. Jun 4. P. 1–38.
Mirus C. V. Aristotle’s teleology and modern mechanics. Ph.D. thesis, 2004.
Nolfi S., Parisi D. SelfJselection of input stimuli for improving performance // Neural Networks and Robotics / Ed. G. A. Bekey. Kluwer Academic Publisher, 1993. P. 403–441.
Redgrave P., Prescott T. J. and Gurney K. The basal ganglia: a vertebrate solution to the selection problem? // Neuroscience. 1999. V. 89. P. 1009–1023.
Seth A. K. Evolving action selection and selective attention without actions, attention, or selection // Proceedings of the Fifth International Conference on the Simulation of Adaptive Behaviour. Cambridge, MA. MIT Press, 1998. P. 139–147.
Sutton R., Barto A. Reinforcement Learning: An introduction. MIT Press, 1998.
Velichkovsky B. M. Heterarchy of cognition: The depths and the highs of a framework for memory research // Memory. 2002. V. 10 (5/6). P. 405–419.

Информация об авторах

Крылов Андрей Константинович, кандидат психологических наук, научный сотрудник, Институт психологии РАН, Москва, Россия, e-mail: neuru@mail.ru

Александров Юрий Иосифович, доктор психологических наук, профессор, член-корреспондент РАО, заведующий лабораторией психофизиологии имени В.Б. Швыркова, Институт психологии РАН (ФГБУН ИП РАН), зав. лабораторией нейрокогнитивных исследований индивидуального опыта, Московский государственный психолого-педагогический университет (ФГБОУ ВО МГППУ), Член-корреспондент РАО. Член редакционной коллегии научного журнала «Экспериментальная психология», Москва, Россия, ORCID: https://orcid.org/0000-0002-2644-3016, e-mail: yuraalexandrov@yandex.ru

Метрики

Просмотров

Всего: 3378
В прошлом месяце: 8
В текущем месяце: 3

Скачиваний

Всего: 708
В прошлом месяце: 1
В текущем месяце: 0