Особенности взаимодействия рефлекторного агента со средой: модельное исследование

708

Аннотация

Данная работа посвящена эмпирической оценке различий между категорией методик предъявления стимулов и категорией методик погружения в среду. Экспериментальное исследование проведено на компьютерной модели рефлекторного агента. Показано, что категория методик погружения в среду позволяет исследовать более широкий класс феноменов, по сравнению с методиками предъявления стимулов, например: проследить зависимость наличной ситуации от предшествующей ситуации, предшествующего действия, опыта испытуемого; оценить способность испытуемого путем взаимодействия со средой реструктурировать ее и влиять на сложность задач. Однако полученные данные не исключают возможности применения методик предъявления стимулов для исследования таких форм взаимодействия испытуемого со средой, в которых он не способен влиять на ситуацию.

Общая информация

Ключевые слова: методика, среда, экспериментальные исследования, предъявление, стимул, погружение, взаимодействие, подкрепление, обучение, модель, исследование

Рубрика издания: Психофизиология

Для цитаты: Крылов А.К., Александров Ю.И. Особенности взаимодействия рефлекторного агента со средой: модельное исследование // Экспериментальная психология. 2009. Том 2. № 1. С. 5–22.

Полный текст

Введение1

Постановка исследовательских задач, выбор оборудования, методик проведения экспе­римента и способов анализа результатов зависят от парадигмы2 (Кун, 1975), которой ис­следователь явно или неявно придерживается. «С точки зрения С. Л. Рубинштейна, гене­ральной линией развития психологии (и смежных с ней наук) является... более глубокая разработка специфически психологических методик исследования, основанных на фило­софски фундированной методологии» (Брушлинский, 1979, с. 48). В настоящей работе рассматриваются две категории экспериментальных методик, связанные с различными на­учными парадигмами: методики, основанные на предъявлении стимулов, и методики, осно­ванные на погружении в среду. В то время как межпарадигмальные различия рассматрива­ются философией науки, различия между используемыми ими методиками, с нашей точки зрения, могут быть предметом экспериментального анализа.

В соответствии с парадигмой реактивности (критику которой с позиций парадигмы ак­тивности см. в (Бернштейн, 1966; Анохин, 1978; Швырков, 1995; Александров, 1999; Алек­сандров, Крылов, 2005), основанной на редукционизме, поведение испытуемого рассмат­ривается как реакции на стимулы; адекватной категорией экспериментальных методик считается предъявление стимулов с регистрацией последующего действия испытуемого, выбранного им из ограниченного набора действий, заданных экспериментатором. При этом очередной стимул не зависит, как правило, от предшествующего действия испытуемого: стимулы предъявляются в порядке, выбранном экспериментатором, который задает и фиксирует вероятности предъявления каждого стимула. Принципиально, что при этом испытуемый на каждом шагу оказывается в ситуации, формируемой экспериментатором, и не может самостоятельно выбрать ее или создать. При планировании эксперимента и трактовке результатов в этой парадигме основным объяснительным принципом является наличие внешней причины, находящейся в прошлом (Кругликов, 1982). Лексически такой тип атрибуции часто выражается связкой «потому что».

1 Работа поддержана фондом РГНФ (грант № 08-06-00250а), Советом по грантам Президента Российской Федерации ведущим научным школам Российской Федерации (проект № НШ-602-2008.6).
2 В статье используется устоявшийся в отечественной литературе термин Т. Куна «парадигма» (Кун, 1975). Его можно сопоставить с терминами «исследовательская программа» И. Лакатоса (Лакатос, 1995) и «метатеория» А. В. Юревича (Юревич, 2001), а термин «парадигма активности» (см. ниже) с понятием «принцип активности» Н. А. Бернштейна (Бернштейн, 1966), С. Л. Рубинштейна и др.


Парадигма реактивности является основой объектного подхода в психофизике, в кото­ром специфика методики предъявления стимулов заключается в предъявлении стимулов в случайном порядке (Гусев, 2004) при использовании ограниченной одномерной, однознач­ной сенсорной задачи, с которой работает хорошо тренированный испытуемый (Гусев, 2004), и типичной относительно стационарной среды типовой ситуации (Асмолов, 1985). В нейронауке методика предъявления стимулов часто сочетается с использованием обез­движенных животных. Так, методика классического обусловливания, разработанная И. П. Павловым и позволяющая формировать у испытуемого классический условный ре­флекс, принадлежит категории методик предъявления стимулов.

Проведенный анализ исторического развития парадигмы реактивности позволил нам выделить «жесткое ядро» – термин И. Лакатоса (Лакатос, 1995), соответствующей «иссле­довательской программы» (Александров, Крылов, 2005), и мы считаем, что его выражают представленные Декартом аналогии между живыми организмами и механическими объек­тами. Декарт говорил об отраженном действии как о законе мироздания, проявляющемся и в механизмах, и в живых существах. В концепции отраженного действия ведущей при­чиной поведения им было постулировано влияние внешней среды, а само действие рассма­тривалось как объективное отражение компонентов внешней среды, действующих на орга­низм. Декарт выдвинул также положение о постоянстве отраженного действия в ответ на приложение определенных стимулов, которое мы можем трактовать как утверждение однозначности детерминации поведения внешней средой и отрицание каких-либо прочих детерминант (см. в (Судаков, 1997)). В качестве примера в те времена проводили аналогию между живым организмом и механическими часами. В дальнейшем на основе этих общефилософских материалистических представлений была развита теория рефлекса (Павлов И. П., 1949). В ней аналогичные представления были выражены постулатом о детерминации внешним стимулом последующего поведения (называемого реакцией).

Таким образом, суть концепции реагирования, с нашей точки зрения, можно опреде­лить следующим образом: индивид в своем действии и состоянии объективно отражает предшествующий внешний сигнал (Александров, Крылов, 2005). Согласно такому опреде­лению, рефлексом f является отражение сенсорной ситуации в действии: выход(t+ô) = =f(вход(t)), т > 03. Применение концепции «рефлекс» к какому-либо явлению означает, что его причины ищутся в прошлом и вовне данного явления, т. е. что оно порождается, вызывается другим внешним явлением, имевшим место в прошлом. Невнимание к этой сущности «рефлекса» порождает нечеткость терминологии и эклектику (см. в (Александ­ров, 1999)). Несмотря на все попытки модификации рефлекторной теории (см. (Кругликов, 1982; Батуев, 1991; Судаков, 1997)), ее существо остается неизменным (Меницкий, 1975; Швырков, 1978; Анохин, 1980; Кругликов, 1982; Судаков, 1997; Александров, 1999; Василюк, 2003; Александров, Крылов, 2005).

3 Частным случаем такой формализации является модель рефлекса по Е. Н. Соколову (Соколов, Вайткявичюс, 1989).

Редукционизм, присущий парадигме реактивности, отрицает необходимость учета всей комплексной схемы детерминант, движущих субъектом, разрешая исследователю рассматривать детерминанты по отдельности. Поэтому, опираясь на модификации исход­ного варианта теории рефлекса, исследователь, работающий в рамках этой теории, имеет право апеллировать к опыту, состоянию индивида, а также к его потребностям и пр. Пра­во, но не обязанность брать их всегда в рассмотрение. Учитывать ли состояние и/или опыт, и/или потребности индивида, решает сам исследователь, сообразуясь с тем, доста­точен ли для него в данном случае классический вариант теории. Такая «гибкость» гово­рит о нечеткости теории рефлекса, во всяком случае, применительно к упомянутым пере­менным.

С целью выявления стратегий, применяемых агентом (человеком, животным, моделью) для решения различного рода задач, исследователи используют тестовые задачи разного уровня сложности. С позиций редукционизма предполагается, что сложная стратегия – комбинация простых. Поэтому считается правомерным использование упрощенных тесто­вых задач. Однако тестируемый агент может пользоваться гораздо более сложной, чем кажется экспериментатору, стратегией, которая в простых задачах не отличима наблюдате­лем от простой. Неправомерно распространять гипотезу об используемой агентом страте­гии решения задачи с редуцированным набором факторов на случай задачи с полным на­бором факторов. Поэтому наиболее адекватными для исследования стратегий агента пред­ставляются именно задачи, для успешного решения которых испытуемый должен про­явить полный набор детерминант своего поведения. Л. С. Выготский подчеркивал ограни­ченность рефлекторного подхода, поскольку такой подход не учитывает способности жи­вого организма влиять на среду: «... вы упускаете из виду за игрой стимулов – реакций то, что реально произошло: активное вмешательство человека в ситуацию, его активную роль, его поведение, состоявшее во введении новых стимулов4... Разлагая операцию на части, вы потеряли самую главную часть ее...» (Выготский, 1996, с. 300).

Более полная и более сложная схема учитываемых детерминант рассматривается в име­ющем антиредукционистскую направленность системном подходе. Системный подход свя­зан с парадигмой активности, в разработку которой инновационный вклад внес Аристо­тель, сформулировав представления о комплексной схеме детерминант поведения и гла­венствующей роли среди них causa finalis – целенаправленности (Lombrozo, Carey, 2005). Принцип активности утверждает, что действие индивида направлено в будущее, имеет свою цель и ею обусловлено. Детерминация действия имеет внутреннюю по отношению к индивиду природу и связана с будущим событием. Принцип активности применим не только к анализу индивида, но и к анализу отдельной клетки многоклеточного организма (Шеррингтон, 1969; Анохин, 1978; Швырков, 1995; Александров, 2004).

Н. А. Бернштейн, роль которого в утверждении принципа активности в психологии и физиологии трудно переоценить, считал, что активность – важнейшая черта всех живых систем, и что именно она является самой главной и определяющей, а постановка понятия активности в качестве отправной точки ведет к глубокому переосмыслению тех физиоло­гических понятий, которые отживают и уходят в прошлое вместе со своей платформой ста­рого механистического материала (Бернштейн, 1990).

4 Здесь под «введением новых стимулов» автор, судя по остальному тексту, имеет в виду конструирование ситуации самим субъектом.

Центральным пунктом теории деятельности, развитой в отечественной психологии, яв­ляется представление об активном, а не реактивном субъекте (Петровский А. В., Ярошев­ский М. Г., 1998; Петренко В. Ф., 1999).

В соответствии с парадигмой активности поведение испытуемого рассматривается как целенаправленное, а каждая ситуация, возникающая в результате его предшествующего действия, описывается в терминах соотношения субъекта и среды. Алфавит таких соотно­шений – набор имеющихся у субъекта возможностей по достижению своих целей в данных обстоятельствах. Оптимальная организация экспериментов на животных в этом случае – «свободное поведение»: эксперименты проводятся на свободно подвижных животных, те­стовая среда приближена к естественной. Испытуемые погружаются в тестовую среду, и экспериментатор лишь задает закономерности функционирования объектов тестовой сре­ды. Обязательно учитывается мотивационная сфера и последовательность обучения (Гор­кин, Шевченко, 1993; Александров и др., 1997; Созинов и др., 2007; Александров и др., 2007). При планировании эксперимента и трактовке данных основным объяснительным принципом является движение к цели. Лексически такой тип атрибуции часто выражает­ся связкой «для того, чтобы». Принцип активности оказывается ключевым для всех пред­ставителей теории деятельности, и они противопоставляют его принципу реактивности (Асмолов, 1983). Парадигма активности – основа субъектного подхода в психофизике (Скотникова, 2003; Гусев, 2004).

Стержневое значение принципа активности для системного подхода связано с антире­дукционистским характером последнего. Эта связь проявляется в антиредукционистской направленности психологических теорий, включающих идею активности (см., например, работу А. Р. Лурии (1977), названную В. П. Зинченко «антиредукционистским манифес­том»; Леонтьев, 1975; и мн. др.). Она обнаруживается и у Аристотеля, в трудах которого со­гласованы утверждение целенаправленности поведения и признание непригодности ре­дукционизма для понимания живого (Mirus, 2004).

«История психологической науки во многом выступает как история поиска альтерна­тив атомистической, по существу асистемной, точке зрения на природу психики и поведе­ния. ... Следствием такого подхода стало распространение редукционизма... Собственно преодоление этого кризиса и связано с освоением (большей частью неосознанно) систем­ного взгляда на предмет психологического познания» (Барабанщиков, 2002, с. 41).

В современных представлениях понятие активности и целенаправленности связано с понятием опережающего отражения (Анохин, 1978). Опережающее отражение появилось с зарождением на Земле жизни и является отличительным свойством последней. Опере­жающее отражение связано с активным отношением живой материи к пространственно-временной структуре мира и состоит в опережающей, ускоренной подготовке к будущим изменениям среды. В когнитивной психологии опережающий характер отражения ярко представлен, например, в концепции У. Найссера (1981), который считает, что образы – это не «картинки в голове», появляющиеся после действия сенсорных стимулов, а «предвос­хищения будущего».

Б. Ф. Ломов специально подчеркивал значение теории функциональных систем П. К. Анохина для развития системного подхода в психологии (Ломов, 1996). Основываясь на системном подходе, мы учитываем набор детерминант принятия решения, эксперимен­тально выявленный в теории функциональных систем (ТФС) (Анохин, 1978): мотивация (что делать), память (как делать), обстановочная афферентация (в каких условиях действие будет успешно), пусковая афферентация (когда начинать действие). Можно показать, что в совокупности они образуют «полную причину» (Алексеев, Панин, 1996). Также, в соответ­ствии с ТФС, действия разворачиваются по принципу обратной связи, и ключевой особен­ностью этого процесса является возникающее по ходу действия несоответствие между запланированным результатом и реально полученным. Поэтому мы считаем, что тестовая задача минимально необходимой сложности должна обладать следующими характеристи­ками (Крылов, 2005а): действия требуют контроля правильности своего исполнения, зада­ча решается последовательностью действий, и результаты промежуточных действий не представлены непосредственно в среде (“forgetful environment” (Colombetti, Dorigo, 1994), например, испытуемый уже нажал на педаль, но она возвращается в исходное положение, и по ее внешнему виду он не может определить, нажимал он ее уже или еще нет, он должен это запомнить, т. е. присутствует полимотивация (Seth, 1998; Baldassarre, 2000).

Таким образом, различия в двух рассматриваемых методиках так или иначе связаны с двумя разными парадигмами в психологии и нейронауке, двумя типами процедур обуче­ния, двумя отличающимися один от другого подходами в психофизике, разработках искус­ственного интеллекта и когнитивной науке.

При этом можно наблюдать тенденцию перехода от редукционизма к системному подходу в психологии вообще (см. выше), и, в частности, от объектной психофизики к субъ­ектной (Скотникова, 2003; Гусев, 2004), а в нейронауке обнаруживаются тенденция перехо­да от парадигмы реактивности к парадигме активности и рост числа исследований второго типа (Александров, Крылов, 2005). Аналогично и в развитии когнитивной науки поначалу превалировала вычислительная метафора, но в 90-х гг. появилось новое направление – ди­намический подход, в котором рассматривается непрерывное взаимодействие нервной си­стемы с телом, и тела, погруженного в среду5, с внешней средой (Beer, 1998, 2000).

В методическом отношении в психологии большое значение придается категории вза­имодействия: в определении психического – «психическое есть специфическое для субъек­та взаимодействие с объектом»; в детерминации – «Узловой причиной поступков челове­ка, его поведения, ... является ... его взаимодействие с окружающим». Даже ключевая для психологии категория отражения приводится к категории взаимодействия – «рассмотре­ние отражения как элемента взаимодействия и есть его конкретно-научный анализ» (По­номарев, 1999, с. 123, 113, 75). Исследование взаимодействия со средой с использованием методики погружения в среду, как отмечено выше, является неотъемлемым компонентом в парадигме активности и системном подходе.

Однако взаимодействие со средой рассматривается не только в парадигме активности, но и в некоторых версиях рефлекторной теории: «рефлекторный акт – это прежде всего практическое взаимодействие между организмом и средой» (Шингаров Г. Х., 1982, с. 31). Методика погружения в среду (в форме оперантного обусловливания) используется, на­пример, в бихевиоризме, основанном на парадигме реактивности, – «проблемные ящики Скиннера». Поэтому предпринятое нами исследование, результаты которого представле­ны в данной статье, правомерно рассматривать как экспериментально-теоретическую раз­работку представлений об особенностях взаимодействия рефлекторного агента со средой.

5 При этом допустимо погружение в модельную среду: экспериментатор задает зависимость модификации сенсорной ситуации от действий испытуемого или животного (Brembs, Heisenberg, 2000). Например, используется компьютерный тренажер вождения автомобиля, в котором испытуемый совершает поездку по виртуальному городу (Velichkovsky, 2002).


Теоретическая значимость экспериментального исследования понятия «взаимодей­ствия со средой» обусловлена еще тем, что предмет и метод психологического исследова­ния сводятся к категории взаимодействия: «продукты процесса взаимодействия субъекта с объектом выражаются... в видоизменениях как субъекта, так и объекта. ... Анализ обоих видов продуктов психического взаимодействия и следует относить к предмету психологи; ческого исследования», «продукты на полюсе субъекта... и есть психика», «принцип взаимо­действия субъекта с объектом определяет... и основной метод психологических исследова­ний» (Пономарев, 1999, с. 126, 127, 127).

Практическая значимость экспериментально-теоретического исследования взаимодей­ствия при погружении в среду подтверждается особыми практическими результатами при­менения этого типа методик в исследованиях. Имеются данные о том, что оперантное обус­ловливание, реализуемое взаимодействием со средой, является более эффективной проце­дурой обучения, чем классическое, реализуемое предъявлением стимулов (Brembs, Heisenberg, 2000). В области искусственного интеллекта основой реально созданных робо­тов стали концепции «погруженности в среду» («embodiment») и «взаимодействия со сре­дой» («situatedness») (Brooks, 1991а, 1991б).

Экспериментальная часть

Ранее был проведен теоретический анализ методологических различий между парадиг­мами активности и реактивности (Василюк, 2003). В нашем исследовании проверялось предположение о возможности эмпирического выявления различий между категориями методик предъявления стимулов и погружения в среду. При этом использовался междис­циплинарный подход (Журавлев, 2003) и учитывались ограничения на применение мате­матического моделирования в психологии (Ломов и др., 1976; Крылов, 2000). В исследова­нии мы применили к агенту, адекватно описываемому парадигмой реактивности, исследо­вательскую методику парадигмы активности, основанную на погружении в среду. Посколь­ку применимость парадигмы реактивности для описания живого организма является дис­куссионной (Бернштейн, 1966; Анохин, 1978; Кругликов, 1982; Швырков, 1995; Александ­ров, 1999; Александров, Крылов, 2005), мы использовали компьютерную модель рефлек­торного агента. Таким образом, заведомо известно, что наш «испытуемый» полностью опи­сывается рефлекторной теорией и является адекватным парадигме реактивности.

Парадигма реактивности предполагает, что такой агент исчерпывающе изучается с по­мощью предъявления стимулов и не должен демонстрировать феномены, не изучаемые этой категорией методик. Данная гипотеза проверялась в настоящей работе. Альтернатив­ная гипотеза состояла в том, что некоторые закономерности взаимодействия испытуемого со средой могут быть выявлены лишь погружением в среду, даже если он адекватно описы­вается рефлекторной теорией. Иначе говоря, в соответствии с альтернативной гипотезой предполагалось, что такой агент, созданный в соответствии с рефлекторной теорией, при его погружении в среду проявит также и феномены, не предусмотренные рефлекторной теорией.

Выбор модельного исследования обсуловлен также тем, что на модели мы можем заре­гистрировать, как выглядит тестовая задача с точки зрения испытуемого (агента) при его взаимодействии с ней (т. е. «актуальная задача»), и затем сопоставить, как выглядит тесто­вая задача с точки зрения экспериментатора. Только модель позволяет провести регистра­цию всех внутренних переменных.

Задачей исследования являлось определение динамики актуальной тестовой задачи при взаимодействии рефлекторного агента со средой.

Понятие взаимодействия со средой раскрывается следующим образом: «продукты процесса взаимодействия субъекта с объектом выражаются... в видоизменениях как субъекта, так и объекта» (Пономарев, 1999, с. 126), «процесс взаимодействия есть обмен изменения­ми» (Корнилова, Смирнов, 2007, с. 165). Следовательно, для исследования взаимодействия необходимо регистрировать изменения в среде и изменения внутри агента. Поэтому для раскрытия понятия взаимодействия со средой следует провести анализ зависимости внутренних переменных агента от влияния среды и зависимости среды от влияния на нее агента. В частности, для нашей модели описание взаимодействия совпадает с описанием поведенческого акта (Александров, 2006) и включает в себя «тройку»: описание исходной ситуации, описание совершенного в ней действия, описание результирующей ситуации.

При этом хотя «категории взаимодействия и развития ... составляют неразрывное един­ство», однако «развитие растянуто по времени – в принципе до бесконечности; взаимодействие сжато во времени – в принципе до предела (оно представляет собой натуральные единицы времени)», и поскольку «развитие... дробится на отдельные акты психического взаимодействия и осуществляется путем постоянных переходов процесса взаимодействия в его продукт и обратно – продукта в процесс» (Пономарев, 1999, с. 100, 105, 127), будем считать единицей модельного времени время одного взаимодействия, т. е. тройки: < ситуация в момент t, действие в момент t, ситуация в момент t+1>, а развитие опишем последовательностью таких троек во времени.

Таким образом, целью исследования стало выявление динамики ситуаций, в которых оказывается агент, в зависимости от его собственных действий и опыта (фазы научения). В качестве тестовой среды использовалась модель фуражирования в открытом поле, положительно зарекомендовавшая себя в модельных психологических исследованиях (Baldassarre, 2000, 2001; Krylov, 2004) и удовлетворяющая перечисленным выше критериям (Крылов, 2005а), которые предъявляются нами к тестовой поведенческой задаче минимально необходимой сложности, пригодной для межпарадигмального исследования. По нашему мнению, полученные результаты могут дать более строгое формальное описание понятию «взаимодействие со средой», а также установить область применения обеих категорий методик: погружение в среду и предъявление стимулов.

Методика

Модель индивида, поведение которого обеспечивается рефлексами, будем называть ре­флекторным агентом. Рефлекторный агент обучается каждой сенсорной ситуации ставить в соответствие некоторое действие, которое он будет в ней совершать. Точнее, такой агент может в одной ситуации выполнять различные действия с некоторыми вероятностями.

Определение этих вероятностей для каждой ситуации и составляет задачу научения реф­лекторного агента. Эти величины задаются не экспериментатором, они определяются са­мим агентом благодаря алгоритму обучения, имитирующему работу его «мозга».

Далее приводим описание конкретного варианта использованной нами модели рефлек­торного агента (Baldassarre, 2000). В каждый такт времени агент получает информацию о текущем состоянии среды на свои сенсоры (аналог стимула в РТ) и совершает одно из сле­дующих действий: захват пищи, поворот вправо, поворот влево, ожидание (аналог реакции в РТ). Повороты осуществляются на фиксированный угол в 22,5 градусов. Агент имеет не­сколько визуальных сенсоров, каждый из которых детектирует наличие пищевого объекта в соответствующем секторе зрительного поля. В данной реализации (Krylov, 2004) таких сенсоров три: «область захвата», «область слева», «область справа».

Ограниченные рецептивные способности агента имитируют неопределенность реаль­ной биологической среды (Салтыков и др., 1996; Гусев, 2004; Крылов, 2005б).

В качестве управляющего алгоритма и алгоритма обучения был выбран Actor/Critic (Sutton, Barto, 1998; Baldassarre, 2000; Krylov, 2004) парадигмы обучения с подкреплением (reinforcement learning) (Sutton, Barto, 1998). Этот алгоритм, по мнению многих исследова­телей, имитирует работу базальных ганглиев головного мозга (Houk et al., 1995; Baldassarre, 2000, 2002) – отдела мозга, который в рамках парадигмы реактивности рассма­тривается как центр принятия решений (Redgrave et al., 1999). В соответствии с этим алго­ритмом агент обучается набору рефлексов: каждой возможной сенсорной ситуации (из восьми возможных ситуаций в данной модели) агент ставит в соответствие действие из за­ранее заданного набора возможных действий (четыре возможных действия в данной моде­ли). Таким образом, построенная модель полностью отвечает представлениям РТ и пара­дигмы реактивности.

Рис. 1. Реструктуризация среды собственными действиями агента (пример одной из реализаций модели):

1 – области низкого и 2, 3 – высокого скопления объектов (точки). По траектории движения агента видна длительность безуспешного поиска очередно­го объекта в области 1

Использовалась тестовая задача фура­жирования – агент движется на плоскости, «поедая» пищевые объекты (рис. 1) (Кры­лов, 2005а). В среде изначально равномерно разбросано 42 пищевых объекта. После «поедания» агентом одного объекта в слу­чайном месте появляется новый объект. Поедание происходит, когда агент совер­шает действие «захват» при условии нали­чия объекта в области захвата.

Регистрировались поведение и динами­ка внутренних переменных агента в про­цессе научения при погружении его в тес­товую среду. Отмечались ситуации, в кото­рых оказывается агент в зависимости от его собственных действий и предшествую­щей ситуации. Это позволило описать, как выглядит тестовая задача с точки зрения агента. Сложность субзадачи поиска оче­редного объекта оценивалась как время, затрачиваемое на ее решение, т. е. на обнаружение объекта, подход к нему и захват. Момент окончания обучения оценивался по выходу кривой научения на плато, он также сопровож­дался завершением формирования рефлексов. Для данной версии модели момент оконча­ния обучения составил 200 000 тактов. Статистику «в конце обучения» получали по 190 000–200 000 тактов, а «в начале обучения» по 0–10 000 тактов. Для агента, не обучающегося и действующего равномерно случайно, статистику получали по 190 000–200 000 тактов. Достоверность различий распределений до и после обучения оценивалась по критерию ÷2 (p < 0.001), а различий средних значений признака – по ϕ- критерию Фишера (p < 0.001).

Результаты и их обсуждение

Агент успешно решает данную тестовую задачу, обучаясь набору рефлексов типа «если объект справа, то поворот вправо», «если объект в области захвата, то захват». Действия агента в модели определялись исключительно предшествующей ситуацией, поэтому изве­стный «эффект последовательности» (Безденежных, 2004), заключающийся в зависимо­сти действия от цепочки предшествующих ситуаций и от предшествующего действия, не моделировался и не наблюдался. Напротив, заложенная в основу модели зависимость дей­ствия от предшествующей ситуации полностью описывает содержание сформированных рефлексов (рефлекс – связь ситуация-действие). Она может быть адекватно выявлена предъявлением стимулов, поэтому здесь не представлена (см. подробнее (Крылов, 2004, 2006)).

Далее представим феномены, не выявляемые предъявлением стимулов.

Подпись:  
Рис. 2. Вариативность сложности субзадачи «поиск и захват одного объекта», порожденная действиями агента (пример одной из реализаций модели):
по горизонтали – решенные субзадачи, пересортированные в порядке возрастания времени решения. По оси вертикали – время, затрачиваемое на решение. Светлым показано решение субзадачи «превентивным поведением» (Крылов, 2004), быстрым и энергетически выгодным, темным – случаи вынужденного перехода на долгую и невыгодную стратегию решения субзадачи из-за ее усложнения
Тестовая среда такова, что вероятность появления нового объекта в любом месте среды одинакова, поэтому объекты возни­кают в среде равномерно. Однако обнару­живается, что в результате действий аген­та объекты оказываются распределены в среде неравномерно (см. рис. 1). Благода­ря действиям агента, работающего с зада­чей, происходит реструктуризация среды.

Как следствие, агент, собрав объекты на одном локальном участке, может по­тратить немало времени в поисках сле­дующего объекта, что реально означает «поиск нового участка» (см. рис. 1). Вре­мя, затрачиваемое агентом на поиск оче­редного объекта, показано на рис. 2. При­мерно в 40 % случаев агент был вынуж­ден затрачивать дополнительное время на поиск очередного объекта, оказываясь в области низкой плотности пищи (см. область 1 на рис. 1). Это случаи повышенной сложности задачи (см. рис. 2, справа), порожденной собственными действиями агента, его взаимодействием со средой. С точки зрения РТ этот график означал бы, что испытуемому предъявляются зада­чи, сложность которых имеет экспоненци­альный характер роста, в то время как в методиках, основанных на предъявлении стимулов, принято предъявлять задачи примерно одинаковой сложности для по­следующего усреднения результатов.

Рис. 3. Влияние агента на вероятность попадания в различные ситуации:

по оси абсцисс S2 – два объекта в области видимости; S0+ – объект в области захвата; S1+ – объект в области захвата и еще один объект в области видимости; S2+ – объект в области захвата и еще два объекта в области видимости. По оси ординат – веро­ятность возникновения данной ситуации (усреднение по 500 реализациям модели). Заштрихованные столбцы – для необучающегося агента, светлые – для обучающегося агента в начале обучения, темные – для обучающегося агента в конце обучения. Распре­деления до и после обучения достоверно различаются (÷2, p < 0.001)

Рис. 4. Пример зависимости последующей ситуации от текущей и от опыта агента. Показаны вероятности возникновения соответствующей ситуации после ситуации «объект справа» (усреднение по 100 реализациям модели). Светлые столбцы – в начале обучения, темные – в конце обучения:

S0 – нет объекта в области видимости; S1L – объект слева; S1R – объект справа; S2 – два объекта видны; S+ – есть объект в области захвата. Распределения до и после обучения достоверно различаются (÷2, p < 0.001)


Вероятность оказаться в той или иной ситуации меняется вследствие обучения (рис. 3), даже несмотря на неизменные за­кономерности тестовой задачи. Например, вероятность оказаться в ситуации «видны два объекта» (см. рис. 3, S2) увеличивает­ся в процессе обучения более чем в 1,5 ра­за. В терминах РТ это означает, что реф­лекторный агент в свободном поведении способен до некоторой степени опреде­лять, какие стимулы он «получит»6. Как уже отмечалось, возможность влияния действий испытуемого на то, какие он сти­мулы получит, обычно не допускается в методике предъявления стимулов.

На рис. 4 показано, что возникновение какой-либо ситуации зависит от предшес­твующей ситуации и опыта агента. На­пример, вероятность того, что объект ока­жется в области захвата (ситуация S+), если до этого он был справа (ситуация S1R), составляет 4 % в начале обучения. В конце обучения эта величина достигает более 15 % (см. рис. 4, ситуация S+). Обу­чение агента приводит к тому, что следую­щая ситуация, в которой он окажется, существенно определяется предыдущей ситуацией и его опытом. В терминологии РТ это означает, что очередной стимул за­висит от предыдущего и от опыта испытуе­мого. Такая зависимость исключается в методике, основанной на предъявлении стимулов, поскольку их принято предъ­являть в случайном порядке.

6 В другой модельной работе это свойство названо self-selecting of input stimuli (Nolfi, Parisi, 1993).

Подпись:  
SO	S1	S2	S
Рис. 5. Пример зависимости последующей ситуации от текущей ситуации, от действия агента и его опыта. Показана вероятность возникновения соответствующей ситуации действием «поворот влево» (неверным) в ситуации «объект виден справа». Светлые столбцы – в начале обучения, темные – в конце (усреднение по 100 реализациям модели):
S0 – нет объекта в области видимости; S1 – один объект в области видимости; S2 – два объекта в области видимости; S+ – есть объект в области захвата. Различия достоверны (ϕ-критерий Фишера, p < 0.001)

На рис. 5 показано, что возникнове­ние какой-либо ситуации зависит от предшествующей ситуации, выбранного агентом действия и его опыта. Напри­мер, вероятность того, что объект ока­жется в области захвата (ситуация S+), если до этого он был справа (ситуация S1R) и совершается действие «поворот влево» (неверное), составляет около 5 % в начале обучения. В конце обучения эта величина уже около 10 % (см. рис. 5, си­туация S+). Вероятность потерять объект из видимости снижается аналогично в процессе обучения с 30 до 16 % (см. рис. 5, ситуация S0). Таким образом, успешность действия «поворот влево» в ситуации «объект справа» повышается при обучении в 2 раза в данном случае.

На рис. 4 и 5 показаны возможные последующие ситуации при рассмотрении конкретной текущей ситуации. На рис. 6, наоборот, показаны вероятности возникновения конкретной ситу­ации в зависимости от предшествующей ситуации или предшествующего действия. Эти зави­симости меняются в процессе обучения, имеют закономерный характер. В совокупности эти данные показывают, что обучение агента приводит к тому, что следующая ситуация, в которой он окажется, в значительной степени определяется предыдущей ситуацией, действием агента и его опытом. В терминологии РТ это означа­ет, что очередной стимул зависит от преды­дущего стимула, предыдущей реакции ис­пытуемого и его опыта. Такая зависимость не исследуется с помощью методики предъ­явления стимулов.

Рис. 6. Вероятность возникновения ситуации «объект виден слева» в зависимости от предшествующей ситуации А или предшествующего действия Б (усреднение по 100 реализациям модели). Светлые столбцы – в начале обучения, темные – в конце обучения:

S0 – нет объекта в области видимости; S1L – объект слева; S1R – объект справа; S2 – два объекта видны; G – захват; LW – поворот влево; RW – поворот вправо; w – ожидание. Распределения до и после обучения достоверно различаются (÷2, p < 0.001)

  Подпись: Рис. 7. Пример нелинейной детерминации возника¬ющей ситуации. По оси ординат – вероятность возник¬новения ситуации «объект виден слева»; по оси абс¬цисс – время; одному делению соответствует 10 000 тактов:
А – при совершении действия «поворот вправо»; Б – после ситуации «объект виден слева»; В – при совершении действия «поворот вправо» в ситуации «объект виден слева»

 

 

 

На рис. 7 показан пример нелинейной детерминации возникающей ситуации при взаимодействии со средой. В процес­се обучения вероятность возникновения ситуации «объект слева» после действия «поворот вправо» – растет (см. рис. 7, кривая А) до 0,6, после ситуации «объект виден слева» – падает до 0,4 (см. рис. 7, кривая Б), а при совместном действии этих двух детерминант падает почти до 0 (см. рис. 7, кривая В), т. е. не оказывается их суммой. Таким образом, детермина­ция при взаимодействии со средой явля­ется нелинейной и динамичной, а для исследования такой детерминации уместен систем­ный подход (Барабанщиков, 2002).

Следует отметить, что поскольку использованные сенсоры не позволяют агенту получить информацию о точном местоположении объекта, то восприятие местоположения объекта раз­ворачивается как процесс – осуществляется в процессе деятельности – подхода к объекту.

Выводы

Методики предъявления стимулов дают возможность определить зависимость действия испытуемого от предшествующей ситуации, в которой он оказался.

Методики погружения в среду дополнительно к этому позволяют выявить:

– способность испытуемого перераспределить объекты в среде, реструктуризовать среду собственными действиями;

– влияние испытуемого на сложность задач, с которыми он сталкивается; неравномерность распределения сложности задач, порожденную взаимодействием испытуемого со средой;

– зависимость вероятности возникновения какой-либо ситуации от предыдущей ситу­ации, от предыдущего действия и опыта испытуемого (в терминологии РТ – зависимость вероятности предъявления данного стимула от типа предыдущего стимула, реакции на не­го испытуемого и его опыта);

– закономерности взаимодействия со средой, выражающиеся в объективных зависимо­стях последующей ситуации от текущей и в способности испытуемого влиять на вероят­ность попадания в различные ситуации;

– нелинейный характер детерминации соотношений испытуемого со средой и ее дина­мику в процессе научения.

Гипотеза о том, что рефлекторный агент способен продемонстрировать только те фено­мены, которые описываются методикой, основанной на предъявлении стимулов, отвергнута. Показано, что взаимодействие рефлекторного агента, находящегося в условиях свобод­ного поведения, со средой подчиняется иным закономерностям, нежели в случае, когда стимульный паттерн задается экспериментатором.

Результаты нашего исследования показывают, что категория методик погружения в среду позволяет изучать более широкий класс феноменов и зависимостей по сравнению с категори­ей методик предъявления стимулов. Полученные данные не исключают возможности приме­нения методики, основанной на предъявлении стимулов для исследования таких форм взаимо­действия испытуемого со средой, в которых он не способен влиять на ситуацию. Возможно, к такому классу задач относится случай беспомощного субъекта.

Литература

  1. Александров И. О. Формирование структуры индивидуального знания. М.: ИП РАН, 2006.
  2. Александров Ю. И. Теория функциональных систем и системная психофизиология // Системные аспекты психической деятельности / Под ред. К. В. Судакова. М.: Эдиториал УРСС, 1999. С. 96–152.
  3. Александров Ю. И. Введение в системную психофизиологию // Психология XXI века. Под. ред. В. Н. Дружинина. М.: Пер Се, 2004. С. 39–85.
  4. Александров Ю. И., Греченко Т. Н., Гаврилов В. В., Горкин А. Г., Шевченко Д. Г., Гринченко Ю. В., Александров И. О., Максимова Н. Е., Безденежных Б. Н., Бодунов М. В. Закономерности формирования и реализации индивидуального опыта // Журнал высш. нервн. деят. 1997. Т. 47. № 2. С. 243–260.
  5. Александров Ю. И., Крылов А. К. Системная методология в психофизиологии: от нейронов до сознания // Идея системности в современной психологии / Под ред. В. А. Барабанщикова. М.: ИП РАН, 2005. C. 119–157.
  6. Александров Ю. И., Созинов А. А., Аверкин А. Г., Лаукка С. Феномен проактивной интерференции: связь с эмоциями и возможные мозговые основы // Труды научного совета по экспериментальной и прикладной физиологии. Т. 14. Морфофункциональные основы системной деятельности. М., 2007. C. 150–166.
  7. Алексеев П В., Панин А. В. Философия. М.: Проспект, 1996.
  8. Анохин П. К. Философские аспекты теории функциональной системы. М.: Наука, 1978.
  9. Анохин П. К. Из тетрадей П. К. Анохина // Психологический журнал. 1980. Т. 1. № 4. С. 185–188.
  10. Асмолов А. Г. Основные принципы психологической теории деятельности // А. Н. Леонтьев и современная психология / Под ред. А. В. Запорожца. М.: Изд-во Моск. ун-та, 1983.
  11. Асмолов А. Г. Принципы организации памяти человека. М.: Изд-во Моск. ун-та, 1985.
  12. Барабанщиков В. А. Восприятие и событие. СПб.: Алетейя, 2002.
  13. Батуев А. С. Высшая нервная деятельность. М.: Высшая школа, 1991.
  14. Безденежных Б. Н. Динамика взаимодействия функциональных систем в структуре деятельности. М.: Изд-во «Институт психологии РАН», 2004.
  15. Бернштейн Н. А. Очерки по физиологии движений и физиологии активности. М.: Медицина, 1966.
  16. Бернштейн Н. А. Физиология движений и активность. М.: Наука, 1990.
  17. Брушлинский А. В. Мышление и прогнозирование. М.: Мысль, 1979.
  18. Василюк Ф. Е. Методологический анализ в психологии. М.: МГППУ; Смысл, 2003.
  19. Выготский Л. С. Психология развития как феномен культуры. М.: Издательство «Институт практической псхологии»; Воронеж: НПО «Модэк», 1996.
  20. Горкин А. Г., Шевченко Д. Г. Отражение истории обучения в активности нейронов лимбической коры кроликов // Журн. высш. нервн. деят. 1993. Т. 43. № 1. С. 172–175.
  21. Гусев А. Н. Психофизика сенсорных задач: Системно-деятельностный анализ поведения человека в ситуации неопределенности. М.: Изд-во Моск. ун-та: УМК «Психология», 2004.
  22. Журавлев А. Л. Особенности междисциплинарных исследований в психологической науке // Материалы конференции «Психология: Современные направления междисциплинарных исследований». М.: Изд-во «Институт психологии РАН», 2003. С. 7–20.
  23. Корнилова Т. В., Смирнов С. Д. Методологические основы психологии. СПб.: Питер, 2007.
  24. Кругликов Р. И. Детерминизм, активность, рефлекс // Методологические проблемы физиологии высшей нервной деятельности. М.: Наука, 1982. С. 47–85.
  25. Крылов А. К. Оценка применимости рефлекторной модели нейронной сети к поведенческой задаче // Труды VI Всероссийской научно-технической конференции «Нейроинформатика-2004». М.: МИФИ, 2004.
  26. Крылов А. К. Тестовая поведенческая задача минимально необходимой сложности: скрытая динамика // Труды международной научно-технической конференции «Интеллектуальные системы» (AIS’05). М.: Физматлит, 2005а. Т. 1. С. 237–244.
  27. Крылов А. К. Неопределенность результата действия в парадигме Reinforcement Learning // Труды III международного научно-практического семинара «Интегрированные модели и мягкие вычисления в искусственном интеллекте». М.: Физматлит, 2005б. С. 238–243.
  28. Крылов А. К. Предъявление стимулов или погружение в среду: модельное исследование парадигм в психофизиологии // Материалы итоговой научной конференции ИП РАН (1–2 февраля 2006 г.). М.: Изд-во «Институт психологии РАН», 2006. С. 111–120.
  29. Крылов В. Ю. Методологические и теоретические проблемы математической психологии. М.: Янус-К, 2000.
  30. Кун Т. Структура научных революций. М.: Прогресс, 1975.
  31. Лакатос И. Фальсификация и методология научно-исследовательских программ. М.: Медиум, 1995.
  32. Леонтьев А. Н. Деятельность. Сознание. Личность. М.: Политиздат, 1975.
  33. Ломов Б. Ф. Системность в психологии. М.-Воронеж, 1996.
  34. Ломов Б. Ф., Николаев В. И., Рубахин В. Ф. Некоторые вопросы применения математики в психологии // Психология и математика. М.: Наука, 1976.
  35. Лурия А. Р. О месте психологии в ряду социальных и биологических наук // Вопросы философии. 1977. № 9. С. 68–76.
  36. Меницкий Д. Н. Некоторые методологические вопросы условно-рефлекторной теории // Методологические вопросы теоретической медицины. Л., 1975. С. 70–86.
  37. Найссер У. Познание и реальность. М.: Прогресс, 1981.
  38. Павлов И. П. Избранные произведения. М.: Изд. АНСССР, 1949.
  39. Петренко В. Ф. Школа А.Н.Леонтьева в семантическом пространстве психологической мысли. Традиции и перспективы деятельностного подхода в психологии: школа А. Н. Леонтьева. М.: Смысл, 1999. С. 11–37.
  40. Петровский А. В., Ярошевский М. Г. Основы теоретической психологии. М.: Инфра-М, 1998.
  41. Пономарев Я. А. Психология творения. М.: Московский психолого-социальный институт; Воронеж: НПО «МОДЭК», 1999.
  42. Салтыков А. Б., Толокнов А. В., Хитров Н. К. Поведение и неопределенность среды. М.: Медицина, 1996.
  43. Скотникова И. Г. Современное состояние субъектной психофизики // Материалы конференции «Психология: Современные направления междисциплинарных исследований». М.: Изд-во «Институт психологии РАН», 2003. С. 433–442.
  44. Созинов А. А., Лаукка С., Аверкин Р. Г., Александров Ю. И. Условия и мозговое обеспечение интерференции при формировании системной структуры индивидуального опыта // Тенденции развития современной психологической науки // Отв. ред. А. Л. Журавлев, В. А. Кольцова. М.: «Институт психологии РАН», 2007. Ч. 2. С. 343–346.
  45. Соколов Е. Н., Вайткявичюс Г. Г. Нейроинтеллект: от нейрона к нейрокомпьютеру. М.: Наука, 1989.
  46. Судаков К. В. Рефлекс и функциональная система. Новгород: НовГУ, 1997.
  47. Швырков В. Б. Нейрофизиологическое изучение системных механизмов поведения. М.: Наука, 1978.
  48. Швырков В. Б. Введение в объективную психологию: Нейрональные основы психики / Под ред. Ю. И. Александрова. М.: Институт психологии РАН, 1995.
  49. Шингаров Г. Х. Теория и метод познания И. П. Павлова // Методологические проблемы физиологии высшей нервной деятельности // Отв. ред. Р. И. Кругликов. М.: Наука, 1982.
  50. Шеррингтон Ч. Интегративная деятельность нервной системы. Л.: Наука, 1969.
  51. Юревич А. В. Методологический либерализм в психологии // Вопросы психологии. 2001. № 5. С. 3–18.
  52. Baldassarre G. Needs and motivations as mechanisms of learning and control of behaviour: Interference problems with multiple tasks // Cybernetics and Systems 2000 – Proceedings of the Fifteenth European Meeting on Cybernetics and Systems Research / Ed. R. Trappl. Vienna, 2000. P. 677–682.
  53. Baldassarre G. Cultural evolution of “guiding criteria” and behavior in a population of neural-networks agents // Journ. of memetics – Evolutionary models of Information Transmission. 2001. V. 4. Online journal.
  54. Baldassarre G. A modular neural-network model of the basal ganglia’s role in learning and selecting motor behaviours // Journ. of Cognitive Systems Research. 2002. V. 3. P. 5–13.
  55. Beer R. D. Framing the debate between computational and dynamical approaches to cognitive science (commentary on The dynamical hypothesis in cognitive science by Tim van Gelder) // Behavioral and Brain Sciences. 1998. V. 21(5). P. 630.
  56. Beer R. D. Dynamical approaches to cognitive science // Trends in Cognitive Sciences. 2000. V. 4(3). P. 91–99.
  57. Brembs B., Heisenberg M. The Operant and the Classical in Conditioned Orientation of Drosophila melanogaster at the Flight Simulator // Learning&Memory. 2000. V. 7. № 2. P. 104–115.
  58. Brooks R. A. Intelligence without representation // Artificial Intelligence. 1991а. V. 47. P. 139–159.
  59. Brooks R. A. New approaches to robotics // Science. 1991б. V. 253. P. 1227–1232.
  60. Colombetti M., Dorigo M. Training agents to perform sequential behavior. Adaptive behavior. MIT Press, 1994. 2(3). P. 247–275.
  61. Houk C. J., Davis L. J., Beiser G. D. (eds.). Models of Information Processing in the Basal Ganglia. Cambridge, Mass.: The MIT Press, 1995.
  62. Krylov A. K. The smartest agent is not optimal in a motivationally driven actor/critic model //Proceedings of the International Scientific Conferences Intelligent Systems (IEEE AIS’04) and Intelligent CAD’s (CADJ2004), 2004. P. 21–26.
  63. Lombrozo T., Carey S. Functional explanation and the function of explanation // Cognition. 2005. Jun 4. P. 1–38.
  64. Mirus C. V. Aristotle’s teleology and modern mechanics. Ph.D. thesis, 2004.
  65. Nolfi S., Parisi D. SelfJselection of input stimuli for improving performance // Neural Networks and Robotics / Ed. G. A. Bekey. Kluwer Academic Publisher, 1993. P. 403–441.
  66. Redgrave P., Prescott T. J. and Gurney K. The basal ganglia: a vertebrate solution to the selection problem? // Neuroscience. 1999. V. 89. P. 1009–1023.
  67. Seth A. K. Evolving action selection and selective attention without actions, attention, or selection // Proceedings of the Fifth International Conference on the Simulation of Adaptive Behaviour. Cambridge, MA. MIT Press, 1998. P. 139–147.
  68. Sutton R., Barto A. Reinforcement Learning: An introduction. MIT Press, 1998.
  69. Velichkovsky B. M. Heterarchy of cognition: The depths and the highs of a framework for memory research // Memory. 2002. V. 10 (5/6). P. 405–419.

Информация об авторах

Крылов Андрей Константинович, кандидат психологических наук, научный сотрудник, Институт психологии РАН, Москва, Россия, e-mail: neuru@mail.ru

Александров Юрий Иосифович, доктор психологических наук, профессор, член-корреспондент РАО, заведующий лабораторией психофизиологии имени В.Б. Швыркова, Институт психологии РАН (ФГБУН ИП РАН), зав. лабораторией нейрокогнитивных исследований индивидуального опыта, Московский государственный психолого-педагогический университет (ФГБОУ ВО МГППУ), Член-корреспондент РАО. Член редакционной коллегии научного журнала «Экспериментальная психология», Москва, Россия, ORCID: https://orcid.org/0000-0002-2644-3016, e-mail: yuraalexandrov@yandex.ru

Метрики

Просмотров

Всего: 3378
В прошлом месяце: 8
В текущем месяце: 3

Скачиваний

Всего: 708
В прошлом месяце: 1
В текущем месяце: 0