Особенности взаимодействия рефлекторного агента со средой: модельное исследование

А.К. Крылов; Ю.И. Александров

Введение¹

Постановка исследовательских задач, выбор оборудования, методик проведения эксперимента и способов анализа результатов зависят от парадигмы² (Кун, 1975), которой исследователь явно или неявно придерживается. «С точки зрения С. Л. Рубинштейна, генеральной линией развития психологии (и смежных с ней наук) является... более глубокая разработка специфически психологических методик исследования, основанных на философски фундированной методологии» (Брушлинский, 1979, с. 48). В настоящей работе рассматриваются две категории экспериментальных методик, связанные с различными научными парадигмами: методики, основанные на предъявлении стимулов, и методики, основанные на погружении в среду. В то время как межпарадигмальные различия рассматриваются философией науки, различия между используемыми ими методиками, с нашей точки зрения, могут быть предметом экспериментального анализа.

В соответствии с парадигмой реактивности (критику которой с позиций парадигмы активности см. в (Бернштейн, 1966; Анохин, 1978; Швырков, 1995; Александров, 1999; Александров, Крылов, 2005), основанной на редукционизме, поведение испытуемого рассматривается как реакции на стимулы; адекватной категорией экспериментальных методик считается предъявление стимулов с регистрацией последующего действия испытуемого, выбранного им из ограниченного набора действий, заданных экспериментатором. При этом очередной стимул не зависит, как правило, от предшествующего действия испытуемого: стимулы предъявляются в порядке, выбранном экспериментатором, который задает и фиксирует вероятности предъявления каждого стимула. Принципиально, что при этом испытуемый на каждом шагу оказывается в ситуации, формируемой экспериментатором, и не может самостоятельно выбрать ее или создать. При планировании эксперимента и трактовке результатов в этой парадигме основным объяснительным принципом является наличие внешней причины, находящейся в прошлом (Кругликов, 1982). Лексически такой тип атрибуции часто выражается связкой «потому что».

^{¹ Работа поддержана фондом РГНФ (грант № 08-06-00250а), Советом по грантам Президента Российской Федерации ведущим научным школам Российской Федерации (проект № НШ-602-2008.6).
^{²В статье используется устоявшийся в отечественной литературе термин Т. Куна «парадигма» (Кун, 1975). Его можно сопоставить с терминами «исследовательская программа» И. Лакатоса (Лакатос, 1995) и «метатеория» А. В. Юревича (Юревич, 2001), а термин «парадигма активности» (см. ниже) с понятием «принцип активности» Н. А. Бернштейна (Бернштейн, 1966), С. Л. Рубинштейна и др.}}

Парадигма реактивности является основой объектного подхода в психофизике, в котором специфика методики предъявления стимулов заключается в предъявлении стимулов в случайном порядке (Гусев, 2004) при использовании ограниченной одномерной, однозначной сенсорной задачи, с которой работает хорошо тренированный испытуемый (Гусев, 2004), и типичной относительно стационарной среды типовой ситуации (Асмолов, 1985). В нейронауке методика предъявления стимулов часто сочетается с использованием обездвиженных животных. Так, методика классического обусловливания, разработанная И. П. Павловым и позволяющая формировать у испытуемого классический условный рефлекс, принадлежит категории методик предъявления стимулов.

Проведенный анализ исторического развития парадигмы реактивности позволил нам выделить «жесткое ядро» – термин И. Лакатоса (Лакатос, 1995), соответствующей «исследовательской программы» (Александров, Крылов, 2005), и мы считаем, что его выражают представленные Декартом аналогии между живыми организмами и механическими объектами. Декарт говорил об отраженном действии как о законе мироздания, проявляющемся и в механизмах, и в живых существах. В концепции отраженного действия ведущей причиной поведения им было постулировано влияние внешней среды, а само действие рассматривалось как объективное отражение компонентов внешней среды, действующих на организм. Декарт выдвинул также положение о постоянстве отраженного действия в ответ на приложение определенных стимулов, которое мы можем трактовать как утверждение однозначности детерминации поведения внешней средой и отрицание каких-либо прочих детерминант (см. в (Судаков, 1997)). В качестве примера в те времена проводили аналогию между живым организмом и механическими часами. В дальнейшем на основе этих общефилософских материалистических представлений была развита теория рефлекса (Павлов И. П., 1949). В ней аналогичные представления были выражены постулатом о детерминации внешним стимулом последующего поведения (называемого реакцией).

Таким образом, суть концепции реагирования, с нашей точки зрения, можно определить следующим образом: индивид в своем действии и состоянии объективно отражает предшествующий внешний сигнал (Александров, Крылов, 2005). Согласно такому определению, рефлексом f является отражение сенсорной ситуации в действии: выход(t+ô) = =f(вход(t)), т > 0³. Применение концепции «рефлекс» к какому-либо явлению означает, что его причины ищутся в прошлом и вовне данного явления, т. е. что оно порождается, вызывается другим внешним явлением, имевшим место в прошлом. Невнимание к этой сущности «рефлекса» порождает нечеткость терминологии и эклектику (см. в (Александров, 1999)). Несмотря на все попытки модификации рефлекторной теории (см. (Кругликов, 1982; Батуев, 1991; Судаков, 1997)), ее существо остается неизменным (Меницкий, 1975; Швырков, 1978; Анохин, 1980; Кругликов, 1982; Судаков, 1997; Александров, 1999; Василюк, 2003; Александров, Крылов, 2005).

^{³ Частным случаем такой формализации является модель рефлекса по Е. Н. Соколову (Соколов, Вайткявичюс, 1989).}Редукционизм, присущий парадигме реактивности, отрицает необходимость учета всей комплексной схемы детерминант, движущих субъектом, разрешая исследователю рассматривать детерминанты по отдельности. Поэтому, опираясь на модификации исходного варианта теории рефлекса, исследователь, работающий в рамках этой теории, имеет право апеллировать к опыту, состоянию индивида, а также к его потребностям и пр. Право, но не обязанность брать их всегда в рассмотрение. Учитывать ли состояние и/или опыт, и/или потребности индивида, решает сам исследователь, сообразуясь с тем, достаточен ли для него в данном случае классический вариант теории. Такая «гибкость» говорит о нечеткости теории рефлекса, во всяком случае, применительно к упомянутым переменным.

С целью выявления стратегий, применяемых агентом (человеком, животным, моделью) для решения различного рода задач, исследователи используют тестовые задачи разного уровня сложности. С позиций редукционизма предполагается, что сложная стратегия – комбинация простых. Поэтому считается правомерным использование упрощенных тестовых задач. Однако тестируемый агент может пользоваться гораздо более сложной, чем кажется экспериментатору, стратегией, которая в простых задачах не отличима наблюдателем от простой. Неправомерно распространять гипотезу об используемой агентом стратегии решения задачи с редуцированным набором факторов на случай задачи с полным набором факторов. Поэтому наиболее адекватными для исследования стратегий агента представляются именно задачи, для успешного решения которых испытуемый должен проявить полный набор детерминант своего поведения. Л. С. Выготский подчеркивал ограниченность рефлекторного подхода, поскольку такой подход не учитывает способности живого организма влиять на среду: «... вы упускаете из виду за игрой стимулов – реакций то, что реально произошло: активное вмешательство человека в ситуацию, его активную роль, его поведение, состоявшее во введении новых стимулов⁴... Разлагая операцию на части, вы потеряли самую главную часть ее...» (Выготский, 1996, с. 300).

Более полная и более сложная схема учитываемых детерминант рассматривается в имеющем антиредукционистскую направленность системном подходе. Системный подход связан с парадигмой активности, в разработку которой инновационный вклад внес Аристотель, сформулировав представления о комплексной схеме детерминант поведения и главенствующей роли среди них causa finalis – целенаправленности (Lombrozo, Carey, 2005). Принцип активности утверждает, что действие индивида направлено в будущее, имеет свою цель и ею обусловлено. Детерминация действия имеет внутреннюю по отношению к индивиду природу и связана с будущим событием. Принцип активности применим не только к анализу индивида, но и к анализу отдельной клетки многоклеточного организма (Шеррингтон, 1969; Анохин, 1978; Швырков, 1995; Александров, 2004).

Н. А. Бернштейн, роль которого в утверждении принципа активности в психологии и физиологии трудно переоценить, считал, что активность – важнейшая черта всех живых систем, и что именно она является самой главной и определяющей, а постановка понятия активности в качестве отправной точки ведет к глубокому переосмыслению тех физиологических понятий, которые отживают и уходят в прошлое вместе со своей платформой старого механистического материала (Бернштейн, 1990).

^{⁴ Здесь под «введением новых стимулов» автор, судя по остальному тексту, имеет в виду конструирование ситуации самим субъектом.}

Центральным пунктом теории деятельности, развитой в отечественной психологии, является представление об активном, а не реактивном субъекте (Петровский А. В., Ярошевский М. Г., 1998; Петренко В. Ф., 1999).

В соответствии с парадигмой активности поведение испытуемого рассматривается как целенаправленное, а каждая ситуация, возникающая в результате его предшествующего действия, описывается в терминах соотношения субъекта и среды. Алфавит таких соотношений – набор имеющихся у субъекта возможностей по достижению своих целей в данных обстоятельствах. Оптимальная организация экспериментов на животных в этом случае – «свободное поведение»: эксперименты проводятся на свободно подвижных животных, тестовая среда приближена к естественной. Испытуемые погружаются в тестовую среду, и экспериментатор лишь задает закономерности функционирования объектов тестовой среды. Обязательно учитывается мотивационная сфера и последовательность обучения (Горкин, Шевченко, 1993; Александров и др., 1997; Созинов и др., 2007; Александров и др., 2007). При планировании эксперимента и трактовке данных основным объяснительным принципом является движение к цели. Лексически такой тип атрибуции часто выражается связкой «для того, чтобы». Принцип активности оказывается ключевым для всех представителей теории деятельности, и они противопоставляют его принципу реактивности (Асмолов, 1983). Парадигма активности – основа субъектного подхода в психофизике (Скотникова, 2003; Гусев, 2004).

Стержневое значение принципа активности для системного подхода связано с антиредукционистским характером последнего. Эта связь проявляется в антиредукционистской направленности психологических теорий, включающих идею активности (см., например, работу А. Р. Лурии (1977), названную В. П. Зинченко «антиредукционистским манифестом»; Леонтьев, 1975; и мн. др.). Она обнаруживается и у Аристотеля, в трудах которого согласованы утверждение целенаправленности поведения и признание непригодности редукционизма для понимания живого (Mirus, 2004).

«История психологической науки во многом выступает как история поиска альтернатив атомистической, по существу асистемной, точке зрения на природу психики и поведения. ... Следствием такого подхода стало распространение редукционизма... Собственно преодоление этого кризиса и связано с освоением (большей частью неосознанно) системного взгляда на предмет психологического познания» (Барабанщиков, 2002, с. 41).

В современных представлениях понятие активности и целенаправленности связано с понятием опережающего отражения (Анохин, 1978). Опережающее отражение появилось с зарождением на Земле жизни и является отличительным свойством последней. Опережающее отражение связано с активным отношением живой материи к пространственно-временной структуре мира и состоит в опережающей, ускоренной подготовке к будущим изменениям среды. В когнитивной психологии опережающий характер отражения ярко представлен, например, в концепции У. Найссера (1981), который считает, что образы – это не «картинки в голове», появляющиеся после действия сенсорных стимулов, а «предвосхищения будущего».

Б. Ф. Ломов специально подчеркивал значение теории функциональных систем П. К. Анохина для развития системного подхода в психологии (Ломов, 1996). Основываясь на системном подходе, мы учитываем набор детерминант принятия решения, экспериментально выявленный в теории функциональных систем (ТФС) (Анохин, 1978): мотивация (что делать), память (как делать), обстановочная афферентация (в каких условиях действие будет успешно), пусковая афферентация (когда начинать действие). Можно показать, что в совокупности они образуют «полную причину» (Алексеев, Панин, 1996). Также, в соответствии с ТФС, действия разворачиваются по принципу обратной связи, и ключевой особенностью этого процесса является возникающее по ходу действия несоответствие между запланированным результатом и реально полученным. Поэтому мы считаем, что тестовая задача минимально необходимой сложности должна обладать следующими характеристиками (Крылов, 2005а): действия требуют контроля правильности своего исполнения, задача решается последовательностью действий, и результаты промежуточных действий не представлены непосредственно в среде (“forgetful environment” (Colombetti, Dorigo, 1994), например, испытуемый уже нажал на педаль, но она возвращается в исходное положение, и по ее внешнему виду он не может определить, нажимал он ее уже или еще нет, он должен это запомнить, т. е. присутствует полимотивация (Seth, 1998; Baldassarre, 2000).

Таким образом, различия в двух рассматриваемых методиках так или иначе связаны с двумя разными парадигмами в психологии и нейронауке, двумя типами процедур обучения, двумя отличающимися один от другого подходами в психофизике, разработках искусственного интеллекта и когнитивной науке.

При этом можно наблюдать тенденцию перехода от редукционизма к системному подходу в психологии вообще (см. выше), и, в частности, от объектной психофизики к субъектной (Скотникова, 2003; Гусев, 2004), а в нейронауке обнаруживаются тенденция перехода от парадигмы реактивности к парадигме активности и рост числа исследований второго типа (Александров, Крылов, 2005). Аналогично и в развитии когнитивной науки поначалу превалировала вычислительная метафора, но в 90-х гг. появилось новое направление – динамический подход, в котором рассматривается непрерывное взаимодействие нервной системы с телом, и тела, погруженного в среду⁵, с внешней средой (Beer, 1998, 2000).

В методическом отношении в психологии большое значение придается категории взаимодействия: в определении психического – «психическое есть специфическое для субъекта взаимодействие с объектом»; в детерминации – «Узловой причиной поступков человека, его поведения, ... является ... его взаимодействие с окружающим». Даже ключевая для психологии категория отражения приводится к категории взаимодействия – «рассмотрение отражения как элемента взаимодействия и есть его конкретно-научный анализ» (Пономарев, 1999, с. 123, 113, 75). Исследование взаимодействия со средой с использованием методики погружения в среду, как отмечено выше, является неотъемлемым компонентом в парадигме активности и системном подходе.

Однако взаимодействие со средой рассматривается не только в парадигме активности, но и в некоторых версиях рефлекторной теории: «рефлекторный акт – это прежде всего практическое взаимодействие между организмом и средой» (Шингаров Г. Х., 1982, с. 31). Методика погружения в среду (в форме оперантного обусловливания) используется, например, в бихевиоризме, основанном на парадигме реактивности, – «проблемные ящики Скиннера». Поэтому предпринятое нами исследование, результаты которого представлены в данной статье, правомерно рассматривать как экспериментально-теоретическую разработку представлений об особенностях взаимодействия рефлекторного агента со средой.

⁵ При этом допустимо погружение в модельную среду: экспериментатор задает зависимость модификации сенсорной ситуации от действий испытуемого или животного (Brembs, Heisenberg, 2000). Например, используется компьютерный тренажер вождения автомобиля, в котором испытуемый совершает поездку по виртуальному городу (Velichkovsky, 2002).

Теоретическая значимость экспериментального исследования понятия «взаимодействия со средой» обусловлена еще тем, что предмет и метод психологического исследования сводятся к категории взаимодействия: «продукты процесса взаимодействия субъекта с объектом выражаются... в видоизменениях как субъекта, так и объекта. ... Анализ обоих видов продуктов психического взаимодействия и следует относить к предмету психологи; ческого исследования», «продукты на полюсе субъекта... и есть психика», «принцип взаимодействия субъекта с объектом определяет... и основной метод психологических исследований» (Пономарев, 1999, с. 126, 127, 127).

Практическая значимость экспериментально-теоретического исследования взаимодействия при погружении в среду подтверждается особыми практическими результатами применения этого типа методик в исследованиях. Имеются данные о том, что оперантное обусловливание, реализуемое взаимодействием со средой, является более эффективной процедурой обучения, чем классическое, реализуемое предъявлением стимулов (Brembs, Heisenberg, 2000). В области искусственного интеллекта основой реально созданных роботов стали концепции «погруженности в среду» («embodiment») и «взаимодействия со средой» («situatedness») (Brooks, 1991а, 1991б).

Экспериментальная часть

Ранее был проведен теоретический анализ методологических различий между парадигмами активности и реактивности (Василюк, 2003). В нашем исследовании проверялось предположение о возможности эмпирического выявления различий между категориями методик предъявления стимулов и погружения в среду. При этом использовался междисциплинарный подход (Журавлев, 2003) и учитывались ограничения на применение математического моделирования в психологии (Ломов и др., 1976; Крылов, 2000). В исследовании мы применили к агенту, адекватно описываемому парадигмой реактивности, исследовательскую методику парадигмы активности, основанную на погружении в среду. Поскольку применимость парадигмы реактивности для описания живого организма является дискуссионной (Бернштейн, 1966; Анохин, 1978; Кругликов, 1982; Швырков, 1995; Александров, 1999; Александров, Крылов, 2005), мы использовали компьютерную модель рефлекторного агента. Таким образом, заведомо известно, что наш «испытуемый» полностью описывается рефлекторной теорией и является адекватным парадигме реактивности.

Парадигма реактивности предполагает, что такой агент исчерпывающе изучается с помощью предъявления стимулов и не должен демонстрировать феномены, не изучаемые этой категорией методик. Данная гипотеза проверялась в настоящей работе. Альтернативная гипотеза состояла в том, что некоторые закономерности взаимодействия испытуемого со средой могут быть выявлены лишь погружением в среду, даже если он адекватно описывается рефлекторной теорией. Иначе говоря, в соответствии с альтернативной гипотезой предполагалось, что такой агент, созданный в соответствии с рефлекторной теорией, при его погружении в среду проявит также и феномены, не предусмотренные рефлекторной теорией.

Выбор модельного исследования обсуловлен также тем, что на модели мы можем зарегистрировать, как выглядит тестовая задача с точки зрения испытуемого (агента) при его взаимодействии с ней (т. е. «актуальная задача»), и затем сопоставить, как выглядит тестовая задача с точки зрения экспериментатора. Только модель позволяет провести регистрацию всех внутренних переменных.

Задачей исследования являлось определение динамики актуальной тестовой задачи при взаимодействии рефлекторного агента со средой.

Понятие взаимодействия со средой раскрывается следующим образом: «продукты процесса взаимодействия субъекта с объектом выражаются... в видоизменениях как субъекта, так и объекта» (Пономарев, 1999, с. 126), «процесс взаимодействия есть обмен изменениями» (Корнилова, Смирнов, 2007, с. 165). Следовательно, для исследования взаимодействия необходимо регистрировать изменения в среде и изменения внутри агента. Поэтому для раскрытия понятия взаимодействия со средой следует провести анализ зависимости внутренних переменных агента от влияния среды и зависимости среды от влияния на нее агента. В частности, для нашей модели описание взаимодействия совпадает с описанием поведенческого акта (Александров, 2006) и включает в себя «тройку»: описание исходной ситуации, описание совершенного в ней действия, описание результирующей ситуации.

При этом хотя «категории взаимодействия и развития ... составляют неразрывное единство», однако «развитие растянуто по времени – в принципе до бесконечности; взаимодействие сжато во времени – в принципе до предела (оно представляет собой натуральные единицы времени)», и поскольку «развитие... дробится на отдельные акты психического взаимодействия и осуществляется путем постоянных переходов процесса взаимодействия в его продукт и обратно – продукта в процесс» (Пономарев, 1999, с. 100, 105, 127), будем считать единицей модельного времени время одного взаимодействия, т. е. тройки: < ситуация в момент t, действие в момент t, ситуация в момент t+1>, а развитие опишем последовательностью таких троек во времени.

Таким образом, целью исследования стало выявление динамики ситуаций, в которых оказывается агент, в зависимости от его собственных действий и опыта (фазы научения). В качестве тестовой среды использовалась модель фуражирования в открытом поле, положительно зарекомендовавшая себя в модельных психологических исследованиях (Baldassarre, 2000, 2001; Krylov, 2004) и удовлетворяющая перечисленным выше критериям (Крылов, 2005а), которые предъявляются нами к тестовой поведенческой задаче минимально необходимой сложности, пригодной для межпарадигмального исследования. По нашему мнению, полученные результаты могут дать более строгое формальное описание понятию «взаимодействие со средой», а также установить область применения обеих категорий методик: погружение в среду и предъявление стимулов.

Методика

Модель индивида, поведение которого обеспечивается рефлексами, будем называть рефлекторным агентом. Рефлекторный агент обучается каждой сенсорной ситуации ставить в соответствие некоторое действие, которое он будет в ней совершать. Точнее, такой агент может в одной ситуации выполнять различные действия с некоторыми вероятностями.

Определение этих вероятностей для каждой ситуации и составляет задачу научения рефлекторного агента. Эти величины задаются не экспериментатором, они определяются самим агентом благодаря алгоритму обучения, имитирующему работу его «мозга».

Далее приводим описание конкретного варианта использованной нами модели рефлекторного агента (Baldassarre, 2000). В каждый такт времени агент получает информацию о текущем состоянии среды на свои сенсоры (аналог стимула в РТ) и совершает одно из следующих действий: захват пищи, поворот вправо, поворот влево, ожидание (аналог реакции в РТ). Повороты осуществляются на фиксированный угол в 22,5 градусов. Агент имеет несколько визуальных сенсоров, каждый из которых детектирует наличие пищевого объекта в соответствующем секторе зрительного поля. В данной реализации (Krylov, 2004) таких сенсоров три: «область захвата», «область слева», «область справа».

Ограниченные рецептивные способности агента имитируют неопределенность реальной биологической среды (Салтыков и др., 1996; Гусев, 2004; Крылов, 2005б).

В качестве управляющего алгоритма и алгоритма обучения был выбран Actor/Critic (Sutton, Barto, 1998; Baldassarre, 2000; Krylov, 2004) парадигмы обучения с подкреплением (reinforcement learning) (Sutton, Barto, 1998). Этот алгоритм, по мнению многих исследователей, имитирует работу базальных ганглиев головного мозга (Houk et al., 1995; Baldassarre, 2000, 2002) – отдела мозга, который в рамках парадигмы реактивности рассматривается как центр принятия решений (Redgrave et al., 1999). В соответствии с этим алгоритмом агент обучается набору рефлексов: каждой возможной сенсорной ситуации (из восьми возможных ситуаций в данной модели) агент ставит в соответствие действие из заранее заданного набора возможных действий (четыре возможных действия в данной модели). Таким образом, построенная модель полностью отвечает представлениям РТ и парадигмы реактивности.

Рис. 1. Реструктуризация среды собственными действиями агента (пример одной из реализаций модели):

1 – области низкого и 2, 3 – высокого скопления объектов (точки). По траектории движения агента видна длительность безуспешного поиска очередного объекта в области 1

Использовалась тестовая задача фуражирования – агент движется на плоскости, «поедая» пищевые объекты (рис. 1) (Крылов, 2005а). В среде изначально равномерно разбросано 42 пищевых объекта. После «поедания» агентом одного объекта в случайном месте появляется новый объект. Поедание происходит, когда агент совершает действие «захват» при условии наличия объекта в области захвата.

Регистрировались поведение и динамика внутренних переменных агента в процессе научения при погружении его в тестовую среду. Отмечались ситуации, в которых оказывается агент в зависимости от его собственных действий и предшествующей ситуации. Это позволило описать, как выглядит тестовая задача с точки зрения агента. Сложность субзадачи поиска очередного объекта оценивалась как время, затрачиваемое на ее решение, т. е. на обнаружение объекта, подход к нему и захват. Момент окончания обучения оценивался по выходу кривой научения на плато, он также сопровождался завершением формирования рефлексов. Для данной версии модели момент окончания обучения составил 200 000 тактов. Статистику «в конце обучения» получали по 190 000–200 000 тактов, а «в начале обучения» по 0–10 000 тактов. Для агента, не обучающегося и действующего равномерно случайно, статистику получали по 190 000–200 000 тактов. Достоверность различий распределений до и после обучения оценивалась по критерию ÷² (p < 0.001), а различий средних значений признака – по ϕ- критерию Фишера (p < 0.001).

Результаты и их обсуждение

Агент успешно решает данную тестовую задачу, обучаясь набору рефлексов типа «если объект справа, то поворот вправо», «если объект в области захвата, то захват». Действия агента в модели определялись исключительно предшествующей ситуацией, поэтому известный «эффект последовательности» (Безденежных, 2004), заключающийся в зависимости действия от цепочки предшествующих ситуаций и от предшествующего действия, не моделировался и не наблюдался. Напротив, заложенная в основу модели зависимость действия от предшествующей ситуации полностью описывает содержание сформированных рефлексов (рефлекс – связь ситуация-действие). Она может быть адекватно выявлена предъявлением стимулов, поэтому здесь не представлена (см. подробнее (Крылов, 2004, 2006)).

Далее представим феномены, не выявляемые предъявлением стимулов.

Тестовая среда такова, что вероятность появления нового объекта в любом месте среды одинакова, поэтому объекты возникают в среде равномерно. Однако обнаруживается, что в результате действий агента объекты оказываются распределены в среде неравномерно (см. рис. 1). Благодаря действиям агента, работающего с задачей, происходит реструктуризация среды.

Как следствие, агент, собрав объекты на одном локальном участке, может потратить немало времени в поисках следующего объекта, что реально означает «поиск нового участка» (см. рис. 1). Время, затрачиваемое агентом на поиск очередного объекта, показано на рис. 2. Примерно в 40 % случаев агент был вынужден затрачивать дополнительное время на поиск очередного объекта, оказываясь в области низкой плотности пищи (см. область 1 на рис. 1). Это случаи повышенной сложности задачи (см. рис. 2, справа), порожденной собственными действиями агента, его взаимодействием со средой. С точки зрения РТ этот график означал бы, что испытуемому предъявляются задачи, сложность которых имеет экспоненциальный характер роста, в то время как в методиках, основанных на предъявлении стимулов, принято предъявлять задачи примерно одинаковой сложности для последующего усреднения результатов.

Рис. 3. Влияние агента на вероятность попадания в различные ситуации:

по оси абсцисс S2 – два объекта в области видимости; S0+ – объект в области захвата; S1+ – объект в области захвата и еще один объект в области видимости; S2+ – объект в области захвата и еще два объекта в области видимости. По оси ординат – вероятность возникновения данной ситуации (усреднение по 500 реализациям модели). Заштрихованные столбцы – для необучающегося агента, светлые – для обучающегося агента в начале обучения, темные – для обучающегося агента в конце обучения. Распределения до и после обучения достоверно различаются (÷², p < 0.001)

Рис. 4. Пример зависимости последующей ситуации от текущей и от опыта агента. Показаны вероятности возникновения соответствующей ситуации после ситуации «объект справа» (усреднение по 100 реализациям модели). Светлые столбцы – в начале обучения, темные – в конце обучения:

S0 – нет объекта в области видимости; S1L – объект слева; S1R – объект справа; S2 – два объекта видны; S+ – есть объект в области захвата. Распределения до и после обучения достоверно различаются (÷², p < 0.001)

Вероятность оказаться в той или иной ситуации меняется вследствие обучения (рис. 3), даже несмотря на неизменные закономерности тестовой задачи. Например, вероятность оказаться в ситуации «видны два объекта» (см. рис. 3, S2) увеличивается в процессе обучения более чем в 1,5 раза. В терминах РТ это означает, что рефлекторный агент в свободном поведении способен до некоторой степени определять, какие стимулы он «получит»⁶. Как уже отмечалось, возможность влияния действий испытуемого на то, какие он стимулы получит, обычно не допускается в методике предъявления стимулов.

На рис. 4 показано, что возникновение какой-либо ситуации зависит от предшествующей ситуации и опыта агента. Например, вероятность того, что объект окажется в области захвата (ситуация S+), если до этого он был справа (ситуация S1R), составляет 4 % в начале обучения. В конце обучения эта величина достигает более 15 % (см. рис. 4, ситуация S+). Обучение агента приводит к тому, что следующая ситуация, в которой он окажется, существенно определяется предыдущей ситуацией и его опытом. В терминологии РТ это означает, что очередной стимул зависит от предыдущего и от опыта испытуемого. Такая зависимость исключается в методике, основанной на предъявлении стимулов, поскольку их принято предъявлять в случайном порядке.

^{⁶ В другой модельной работе это свойство названо self-selecting of input stimuli (Nolfi, Parisi, 1993).}

Подпись:
SO S1 S2 S
Рис. 5. Пример зависимости последующей ситуации от текущей ситуации, от действия агента и его опыта. Показана вероятность возникновения соответствующей ситуации действием «поворот влево» (неверным) в ситуации «объект виден справа». Светлые столбцы – в начале обучения, темные – в конце (усреднение по 100 реализациям модели):
S0 – нет объекта в области видимости; S1 – один объект в области видимости; S2 – два объекта в области видимости; S+ – есть объект в области захвата. Различия достоверны (ϕ-критерий Фишера, p < 0.001)

На рис. 5 показано, что возникновение какой-либо ситуации зависит от предшествующей ситуации, выбранного агентом действия и его опыта. Например, вероятность того, что объект окажется в области захвата (ситуация S+), если до этого он был справа (ситуация S1R) и совершается действие «поворот влево» (неверное), составляет около 5 % в начале обучения. В конце обучения эта величина уже около 10 % (см. рис. 5, ситуация S+). Вероятность потерять объект из видимости снижается аналогично в процессе обучения с 30 до 16 % (см. рис. 5, ситуация S0). Таким образом, успешность действия «поворот влево» в ситуации «объект справа» повышается при обучении в 2 раза в данном случае.

На рис. 4 и 5 показаны возможные последующие ситуации при рассмотрении конкретной текущей ситуации. На рис. 6, наоборот, показаны вероятности возникновения конкретной ситуации в зависимости от предшествующей ситуации или предшествующего действия. Эти зависимости меняются в процессе обучения, имеют закономерный характер. В совокупности эти данные показывают, что обучение агента приводит к тому, что следующая ситуация, в которой он окажется, в значительной степени определяется предыдущей ситуацией, действием агента и его опытом. В терминологии РТ это означает, что очередной стимул зависит от предыдущего стимула, предыдущей реакции испытуемого и его опыта. Такая зависимость не исследуется с помощью методики предъявления стимулов.

Рис. 6. Вероятность возникновения ситуации «объект виден слева» в зависимости от предшествующей ситуации А или предшествующего действия Б (усреднение по 100 реализациям модели). Светлые столбцы – в начале обучения, темные – в конце обучения:

S0 – нет объекта в области видимости; S1L – объект слева; S1R – объект справа; S2 – два объекта видны; G – захват; LW – поворот влево; RW – поворот вправо; w – ожидание. Распределения до и после обучения достоверно различаются (÷², p < 0.001)

Подпись: Рис. 7. Пример нелинейной детерминации возника¬ющей ситуации. По оси ординат – вероятность возник¬новения ситуации «объект виден слева»; по оси абс¬цисс – время; одному делению соответствует 10 000 тактов:
А – при совершении действия «поворот вправо»; Б – после ситуации «объект виден слева»; В – при совершении действия «поворот вправо» в ситуации «объект виден слева»

На рис. 7 показан пример нелинейной детерминации возникающей ситуации при взаимодействии со средой. В процессе обучения вероятность возникновения ситуации «объект слева» после действия «поворот вправо» – растет (см. рис. 7, кривая А) до 0,6, после ситуации «объект виден слева» – падает до 0,4 (см. рис. 7, кривая Б), а при совместном действии этих двух детерминант падает почти до 0 (см. рис. 7, кривая В), т. е. не оказывается их суммой. Таким образом, детерминация при взаимодействии со средой является нелинейной и динамичной, а для исследования такой детерминации уместен системный подход (Барабанщиков, 2002).

Следует отметить, что поскольку использованные сенсоры не позволяют агенту получить информацию о точном местоположении объекта, то восприятие местоположения объекта разворачивается как процесс – осуществляется в процессе деятельности – подхода к объекту.

Выводы

Методики предъявления стимулов дают возможность определить зависимость действия испытуемого от предшествующей ситуации, в которой он оказался.

Методики погружения в среду дополнительно к этому позволяют выявить:

– способность испытуемого перераспределить объекты в среде, реструктуризовать среду собственными действиями;

– влияние испытуемого на сложность задач, с которыми он сталкивается; неравномерность распределения сложности задач, порожденную взаимодействием испытуемого со средой;

– зависимость вероятности возникновения какой-либо ситуации от предыдущей ситуации, от предыдущего действия и опыта испытуемого (в терминологии РТ – зависимость вероятности предъявления данного стимула от типа предыдущего стимула, реакции на него испытуемого и его опыта);

– закономерности взаимодействия со средой, выражающиеся в объективных зависимостях последующей ситуации от текущей и в способности испытуемого влиять на вероятность попадания в различные ситуации;

– нелинейный характер детерминации соотношений испытуемого со средой и ее динамику в процессе научения.

Гипотеза о том, что рефлекторный агент способен продемонстрировать только те феномены, которые описываются методикой, основанной на предъявлении стимулов, отвергнута. Показано, что взаимодействие рефлекторного агента, находящегося в условиях свободного поведения, со средой подчиняется иным закономерностям, нежели в случае, когда стимульный паттерн задается экспериментатором.

Результаты нашего исследования показывают, что категория методик погружения в среду позволяет изучать более широкий класс феноменов и зависимостей по сравнению с категорией методик предъявления стимулов. Полученные данные не исключают возможности применения методики, основанной на предъявлении стимулов для исследования таких форм взаимодействия испытуемого со средой, в которых он не способен влиять на ситуацию. Возможно, к такому классу задач относится случай беспомощного субъекта.

Особенности взаимодействия рефлекторного агента со средой: модельное исследование

Резюме

Общая информация

Полный текст

Литература

Информация об авторах

Метрики

Просмотров web

Скачиваний PDF

Всего