Инвариантность зрительного восприятия

Ю.Е. Шелепин; В.Н. Чихман; О.А. Вахрамеева; С.В. Пронин; Н. Фореман; П. Пэсмор

* Работа поддержана грантами РФФИ 06-07-89137-а, РГНФ 06-06-00252а.

Введение

Зрительному восприятию присуща фундаментальная дихотомия. Так, возможность восприятия индивидуальных особенностей изображений наблюдаемого объекта сочетается со способностью инвариантного восприятия при изменении освещенности объекта, изменении его размера, ориентации, разворота по осям и ракурса. Находить инвариантные характеристики – это вообще важнейшее свойство интеллекта (Bohm, 1967). В частности, было установлено, что способность к инвариантному опознанию у живых организмов возникает на относительно ранних стадиях онто- и филогенеза (Sutherland, 1960, 1968, 1979; Fraisse, Piaget, 1978). Предположили, что информация о существенных свойствах изображения объекта, определяющих его принадлежность к определенному классу и не зависящих от его размера и ориентации, активирует один и тот же нейронный ансамбль, вызывая один и тот же отклик на выходе зрительной системы, представляющий собой код зрительного образа (Hebb, 1949, 1959a,1959b).

Восприятие во многом базируется на возможности мозга находить в окружающем мире инвариантные характеристики. Психофизические исследования инвариантности распознавания человеком объектов были начаты в связи с созданием искусственных распознающих систем (Глезер, Цуккерман, 1961; Глезер и др., 1975; Sutherland, 1960, 1968, 1979). Именно решение практических задач потребовало проведения измерений количества информации, которое зрительная система способна обработать за определенный промежуток времени. Было показано, что объем информации за счет увеличения количества изображений в алфавите приводит к возрастанию времени опознания, однако увеличение количества стимулов в алфавите за счет варьирования их размера или ориентации не меняет этого времени, так как преобразования подобия не изменяют величину алфавита стимулов (Стефанова, 1964; 1970; Stefanova, 1974). Инвариантность к масштабным преобразованиям объясняют две взаимодополняющие модели – модель лог-полярного преобразования на уровне сетчатка–зрительная кора и модель пирамиды, описывающая процессы на уровне проекционных областей зрительной коры.

В повседневной жизни мы наблюдаем и узнаем изображения объектов не только разного размера, но и при разных углах наблюдения. Широкую известность получила гипотеза (Marr, 1987), согласно которой на этапе обучения зрительная система по двумерным проекциям на сетчатку глаз предъявляемых объектов строит в мозгу наблюдателя представления трехмерных объектов, которые и запоминает как шаблоны. При распознавании трехмерных объектов информация, содержащаяся в их двумерных проекциях на сетчатку глаз, используется для сравнения с хранящимися в памяти наблюдателя представлениями трехмерных объектов, сформированными на этапе обучения. Сложность зрительной задачи усугубляется тем, что вследствие варьирования угла наблюдения, масштаба, освещенности объекта, его проекции на сетчатку глаз составляют множество различающихся между собой двумерных изображений.

В связи с этим представляет существенный интерес исследование диапазонов инвариантного восприятия, т.е. таких диапазонов для различных параметров изображений объектов (угловых размеров, углов разворота и т. п.), при которых количественные характеристики процесса их восприятия остаются неизменными.

В частности, отсутствие данных о диапазоне инвариантности зрительной системы человека к различным преобразованиям вынуждает инженеров задавать заведомо избыточные параметры для искусственных распознающих систем.

В данной работе в качестве меры оценки инвариантного восприятия мы выбрали пороги распознавания неполных изображений. Приводятся количественные измерения порогов распознавания, позволяющие предположить наличие механизмов, обеспечивающих инвариантное распознавание неполных двумерных изображений трехмерных объектов при изменениях масштаба и поворотах.

Методика

Метод измерения порогов распознавания фрагментированных изображений был предложен Е. С. Голлином в 1960 г. (Gollin, 1960) и под его именем вошел в практику нейропсихологии. Мы применяли компьютеризированную версию Голлин-теста, предложенную Н. Фореманом (Foreman, 1991; Foreman, Hemmimgs, 1987) и модернизированную С. В. Прониным. В наших измерениях мы использовали набор из

75 контурных изображений общеизвестных объектов. В процессе измерений программа разбивает исходные контурные изображения на фрагменты заданного размера, которые выводятся в случайном порядке на экран монитора, постепенно формируя полный контур объекта. На рис. 1 показан принцип формирования неполных изображений при случайном предъявлении фрагментов. Число случайно расположенных в маске окон в процессе предъявления стимула нарастает. На рисунке показано конечное число фрагментов в определенный момент времени. Перед испытуемым ставили задачу как можно быстрее распознать предъявляемый стимул. Ответ при правильном распознавании объекта фиксирует пороговую суммарную площадь этих фрагментов (в % от полной площади контура).

Величину порога вычисляли по формуле

T
_hr = (V_fr/V_tot) х 100%,

где V_fr – количество пикселей контура, при котором произошло узнавание, а V_tot – количество пикселей в полном контуре объекта.

Были проведены две серии измерений. В первой серии испытуемые были незнакомы с алфавитом стимулов, а во второй серии – знакомы. Первая серия состояла из двух частей, которые отличались способом предъявления стимулов – с помощью проекции изображений на экран и с помощью электронно-лучевого дисплея. К обработке приняли данные, полученные на 22 испытуемых. Возраст испытуемых 18–25 лет. Все испытуемые обладали остротой зрения от 1,0 до 2,0.

Угловые размеры изображений, пороги распознавания которых мы изучали, составляли 0,19; 0,35; 0,71; 1,44; 13; 25 и 50 угл. град. Изображения и их фрагменты не выходили за пределы разрешающей способности зрительной системы испытуемых. Изображения предъявляли на экране размером 2,5 х 3 м с помощью мультимедийного проектора (BENQ MP720p), разрешение 1152 х 864, частота обновления кадра 74 Гц. Измерения проводили в помещении длиной 20 м. Равномерное слабое (10 св/м2) освещение создавала только люминесцентная лампа вне поля зрения на высоте 3,5 м. Угловой размер изображений варьировали следующим образом: проектор располагался на расстоянии 60 см от экрана, испытуемый садился перед экраном на разные расстояния, начиная с 15,5 м и заканчивая 2 м. Размер изображения на экране при этом не менялся. Таким способом получали размеры изображений в диапазоне от 0,19 до 1,44 угл. град. Затем стойку с проектором передвигали на расстояние 12,3 м от экрана. Испытуемый располагался перед экраном на разных расстояниях, начиная с 5 м и заканчивая 70 см. Этим способом получали угловые размеры изображений от 1,44 угл. град до 50 угл. град.

На рис. 2 показаны примеры предъявляемых фрагментированных изображений разного размера. Изменения яркости изображения при удалении проектора от экрана не оказывали существенного влияния на пороги распознавания, так как яркость оставалась в том диапазоне значений, при которых пороги распознавания изменяются мало (Van Nes, Bouman, 1967). В добавочной серии исследований для измерений значений порогов при малых размерах изображений мы предъявляли стимулы на дисплее высокого разрешения (17 Professional Sony Trinitron G200 PST).

Во второй серии измерений мы работали с опытными испытуемыми, знакомыми с задачей и набором стимулов. Условия проведения исследований (диапазон размеров, освещение) были такими же, как и в первой серии измерений с неопытными испытуемыми. С обученными испытуемыми мы провели несколько опытов, которые отличались друг от друга последовательностью предъявления стимулов разного размера. Это было сделано для того, чтобы проверить, будет ли меняться зависимость порогов восприятия неполных изображений от масштаба стимула, если стимулы разного размера будут предъявляться в различной последовательности.

В третьей серии исследований для измерения порогов распознавания фрагментированных двумерных изображений трехмерных объектов при различных разворотах была реализована новая методика, представляющая собой еще одну модификацию Голлин-теста. Для генерации изображений-стимулов были использованы двумерные изображения-прототипы шести известных трехмерных объектов – «пчела», «парусник», «стул», «свинья», «чайник» и «водопроводный кран». Для синтеза изображений-стимулов Голлин-теста выбирались объекты, хорошо знакомые большинству людей в их повседневной жизни. При создании двумерных изображений-стимулов использовали параллельную, а не перспективную проекцию, чтобы исключить перспективные искажения изображений при поворотах (ракурс). При повороте размер изображения не меняли. Для каждого объекта синтезировали подмножество двумерных изображений, начиная с прототипа. В качестве прототипа был выбран вид в профиль (сбоку). Для каждого объекта было создано два ряда изображений. Первый ряд включал последовательность двумерных изображений объекта после поворота на 15° вокруг оси Y по направлению к наблюдателю (от 0 до 60°). Второй ряд состоял из двумерных изображений объекта после поворота каждый раз на 15° одновременно вокруг двух осей – Y и X. Имя файла соответствующего изображения включало имя объекта, величину поворота в градусах вокруг оси Y и X.

Линии, составляющие контурное двумерное изображение трехмерного объекта, в соответствии с методикой Голлин-теста формировались на экране дисплея в режиме прогрессивного накопления путем случайного добавления блоков пикселей. Предварительно изображения bitmap-формата, полученные с помощью 3D Studio, разбивались специальной программой на блоки 4 х 4 пикселя. Блоки в процессе выполнения программы измерения случайно выбирались и выводились на экран дисплея в режиме накопления. На рис. 3 показаны примеры фрагментированных дувумерных изображений трехмерных обектов с разных точек наблюдения. При формировании двумерных изображений в нашем случае был использован прием антиэлайзинга – использование пикселей с градацией серого при прорисовке кривых, что позволяет добиться уменьшения эффекта ступенчатости на их краях.

Программа предъявления после старта начинает вывод в режиме накопления фрагментов первого случайно выбранного изображения последовательности. После того как испытуемый правильно идентифицирует изображение, накопление фрагментов останавливается и фиксируется количество пикселей в выведенных фрагментах, а также время формирования изображения до момента узнавания. Темп вывода фрагментов для формирования полного контура изображения задается перед началом измерений. Время формирования полного изображения составляло 120 сек.

Измерения проводили с не знающими данный алфавит (набор) стимулов испытуемыми, которые были организованы в две группы по пять испытуемых в каждой. Измерения с каждой группой проводили многократно, 5 раз с интервалом в один день. Первая группа испытуемых наблюдала изображения объектов в каждом измерении в одном и том же ракурсе, т. е. без поворота трехмерного объекта. Вторая группа испытуемых в одной серии опытов наблюдала изображения объектов в каждом последующем опыте с поворотом трехмерных объектов вокруг оси Y на 15°, во второй серии – с поворотом на 15° одновременно вокруг двух осей – Y и X. То есть в течение серии опытов предъявлялись двумерные изображения, имитирующие поворот трехмерного объекта от 0 до 60°. Каждое изображение в одном опыте предъявляли в случайном порядке три раза на мониторе Mitsubishi Diamondtron 230 с разрешением 1024 х 768, частотой вертикальной развертки 100 Гц. Расстояние наблюдения 1,2 м.

Все испытуемые, принимавшие участие в нашем исследовании, обладали нормальным или скорректированным до нормы зрением. Острота зрения, измеренная по стандартной методике с использованием колец Ландольта, у всех испытуемых была не меньше единицы.

Результаты

Пороги восприятия неполных изображений мы анализировали как функцию от размера изображения. В этой серии измерений каждое изображение было предъявлено испытуемому только один раз. Зависимость, представленная на рис. 4, построена на основании усредненных данных по всем испытуемым. Для дальнейшей обработки результаты были поделены на три группы в соответствии с остротой зрения испытуемых. В первую группу попали данные, полученные на испытуемых с остротой зрения [1,0–1,4], во вторую группу попали данные, полученные на испытуемых с остротой зрения [1,4–1,7], к третьей группе были отнесены данные, полученные на испытуемых с остротой зрения [1,7–2,0].

Распределение данных в группах не соответствовало нормальному, поэтому мы использовали непараметрические критерии Вилкоксона (Wilcoxon) и Крускал-Валли (Kruskal-Wallis). Оба критерия позволяют сравнивать медианы групп. Критерий Вилкоксона позволяет сравнивать медианы двух групп; анализ Крускал-Валли является непараметрическим аналогом ANOVA и позволяет сравнивать медианы трех и более независимых выборок. Нулевая гипотеза для обоих критериев: все выборки взяты из одной генеральной совокупности. Альтернативная гипотеза: хотя бы одна из медиан отличается от остальных.

Последовательно сравнили медианы порогов восприятия изображений близких размеров. Например, 50° и 25°, 25 и 13; 13 и 1,44 и т. д. Для этого использовали критерий Вилкоксона. Чтобы выяснить, существуют ли области размеров, в которых пороги восприятия неполных изображений не меняются, мы применили анализ КрускалВалли. Нулевая гипотеза принималась при р > 0,05.

В итоге для каждой из трех групп испытуемых получили диапазоны размеров изображений, в пределах которых медианы порогов восприятия неполных изображений не менялись. В группе испытуемых с остротой зрения [1,0–1,4) значение медианы оказалось одинаковым при размерах стимулов 13–50 угл. град. (р = 0,4469). В группе испытуемых с остротой зрения [1,4–1,7) медианы порогов восприятия неполных изображений не отличались при размерах стимулов 13–25 угл. град. (р = 0,4517, или 1,44–25, р = 0.0186); и, наконец, в группе с остротой зрения [1,7–2,0] медианы оказались одинаковыми при размерах стимулов 1,44–13 угл. град. (р = 0,7036 или 1,44–25, р = 0,0314).

В специальной серии исследований с дробным изменением малых размеров стимулов и в меньшем диапазоне масштабов (0,19–13 угл. град.) стимулы предъявляли на электронно-лучевом дисплее (17 Professional Sony Trinitron G200 PST). Результаты представлены на рис. 5.

В этой работе нам удалось показать, что при малых размерах стимулов (0,19 и 0,35 угл. град.) острота зрения влияет на пороги восприятия неполных изображений. Испытуемым с более высокой остротой зрения требовалось меньшее количество фрагментов контура для его распознавания.

При малых размерах стимулов резко увеличивается количество изображений, не распознанных даже при предъявлении нефрагментированного контура объекта. Мы ввели параметр, учитывающий количество нераспознанных изображений: это отношение количества нераспознанных изображений к общему количеству предъявленных изображений одного размера, выраженное в процентах. Этот коэффициент равен нулю или принимает очень низкое значение при средних и больших размерах стимула. Однако при размере стимула 0,19 угл. град., т. е. меньшем, чем размер центральной области фовеолы, коэффициент увеличивается.

У людей с более низкой остротой зрения таких нераспознанных изображений по критерию Вилкоксона достоверно больше, чем у людей с самой высокой остротой зрения как при размере стимула 0,19 угл. град. (a = 0,01), так и при размере стимула 0,35 угл. град. (a =0 ,05).

Во второй серии измерений мы изучали влияние знакомства испытуемого с алфавитом стимулов. Результаты этой серии измерений представлены на рис. 6; отдельно представлены зависимости порогов восприятия неполных изображений от размеров стимулов для каждого из испытуемых. С каждым из двух испытуемых было проведено три блока измерений. Зависимости, полученные в результате проведения каждого блока измерений для одного испытуемого, представлены на одном графике. Напомним, что блоки измерений отличались между собой последовательностью предъявления групп стимулов определенного размера.

В целом пороги узнавания неполных изображений у опытных испытуемых ниже, чем у неопытных. Ранее другими исследователями, а также в наших собственных исследованиях было показано, что при обучении пороги восприятия неполных изображений снижаются, а в определенный момент значения порогов выходят на плато и их величина уже не меняется (Foreman, 1991; Foreman, Hemmings, 1987). Форма кривой зависимости порога распознавания неполных изображений от количества повторений каждого изображения характерна для здоровых испытуемых всех возрастов. Изменяется ее абсолютное значение. Поэтому и форма кривых, представленных на рис. 6, аналогична форме кривой зависимости порогов восприятия неполных изображений от размеров стимулов, полученной при анализе данных от неопытных испытуемых. То есть как и в первой серии, имеется область размеров стимулов, при которых медианы порогов не меняются с изменением размера, а за пределами этой области пороги восприятия неполных изображений возрастают. Абсолютные значения порогов у опытных наблюдателей по сравнению с наивными меньше.

Для сравнения групп данных снова применили критерий Вилкоксона, а для определения интервала размеров изображений, в котором пороги восприятия неполных изображений не меняются, использовался анализ Крускал-Валли.

Пороги восприятия неполных изображений у испытуемых в первом блоке измерений были достоверно выше, чем в последующих блоках при всех размерах стимула, за небольшим исключением. При этом размере пороги восприятия в третьем блоке были достоверно ниже, чем в первом и втором блоках. Значения этих порогов между собой не различались (α = 0,01, критерий Вилкоксона). При размерах стимулов 13; 25 и 50 угл. град. пороги восприятия во втором и третьем блоках не различались и были достоверно ниже, чем в первом блоке измерений.

Таким образом, видно, что от первого к третьему блоку происходило снижение порогов восприятия, несмотря на то, что испытуемые уже имели опыт в выполнении данной задачи. Однако динамика уменьшения была различна у двух испытуемых.

Имеются незначительные различия между испытуемыми. Достоверными они были только в первом блоке измерений. Подробно результаты этих измерений описаны нами в другой статье (Вахрамеева и др., 2008).

В третьей серии исследований в психофизических исследованиях измеряли пороги фрагментации контурных двумерных изображений, достаточные для распознавания трехмерных объектов, при имитации изменения углов их наблюдения. В результате измерений была получена зависимость порогов распознавания фрагментированных двумерных изображений (в процентах от величины предъявляемого контура) от повторения наблюдения при варьировании углов наблюдения трехмерного объекта.

На рис. 7 представлены результаты измерений порогов восприятия для первой группы испытуемых, наблюдавших изображения объектов при одном и том же значении угла наблюдения. На графиках представлены данные, усредненные как для всех испытуемых, так и для всех предъявляемых объектов. При первом предъявлении изображений порог составляет разную величину для различных объектов и разных испытуемых. При втором предъявлении распознавание резко улучшается и держится при последующих предъявлениях примерно на одном и том же уровне – ниже 20 % от величины контура. Этот минимальный уровень фрагментации инвариантен при третьем, четвертом и пятом предъявлениях. Таким образом, можно предположить, что шаблон (образ наблюдаемого объекта) вырабатывается сразу после первого предъявления стимулов.

На рис. 8 показаны результаты измерений, полученные для второй группы испытуемых, наблюдавших изображения объектов при изменении угла их наблюдения путем поворота вокруг оси Y каждый раз на 15°. Также показаны данные, усредненные как для всех испытуемых этой группы, так и для всех предъявляемых объектов. Кривые аналогичны кривым, представленным на рис. 7, за исключением того, что наблюдается незначительное повышение порога при пятом предъявлении стимула, когда поворот объекта достиг величины 6°.

На рис. 9 показаны результаты наблюдения изображений при повороте объекта одновременно вокруг двух осей – X и Y – с шагом 15°. Кривые ведут себя аналогично предыдущему случаю. Наблюдается незначительное повышение порогов от второго к пятому предъявлению стимулов. Незначительные колебания порогов для разных объектов объясняются спецификой их двумерного представления.

Из рисунков видно, что выработанный шаблон обладает свойствами инвариантности, так как пороги восприятия не зависят от поворота объекта на угол от 15 до 60 угл. град.

Обсуждение

До наших исследований не был известен диапазон угловых размеров, при которых наблюдается инвариантность. При исследовании влияния размера изображения на пороги восприятия неполных изображений нам удалось установить диапазон размеров изображений, в котором пороги восприятия неполных изображений не зависят от их масштабов. Вне этого диапазона – при уменьшении размера изображения менее 1 угл. мин. и при увеличении размера стимулов более 50 угл. град. происходит увеличение порогов восприятия неполных изображений. Минимальные значения порога восприятия неполных изображений соответствуют области инвариантности восприятия (Вахрамеева и др., 2008).

Нарушение инвариантности восприятия, как следует из полученных нами данных, наступает тогда, когда размер изображения приближается к угловым размерам фовеа, а пороги зависят от сложности изображения. Ряд авторов уже давно обращали внимание на особенности восприятия изображений на таких дистанциях до объекта, при которых его угловые размеры согласованы с фовеа (Кемпбелл, Шелепин, 1990; Шелепин и др. 1995; Ross et all., 1980). В настоящей работе мы показали, что диапазон инвариантности, т. е. диапазон размеров, при которых пороги восприятия достоверно не отличаются друг от друга, простирается до очень малых размеров стимулов, при которых угловые размеры стимула приближаются к размерам фовеа. Нарушение инвариантности при малых размерах обусловлено тем, что при таких размерах изображений на процесс распознавания существенное влияние начинает оказывать острота зрения. Повышение порогов и появление нераспознанных изображений для размеров стимулов 0,19 угл. град. можно объяснить влиянием внутреннего шума зрительной системы (в частности, шумом дискретизации изображения на сетчатке). В соответствии с фактором магнификации и моделью лог-полярного картирования центральная область поля зрения, представляющая фовеолу, имеет максимальное представительство в коре. Однако на изображения объектов, наблюдаемых на пределе разрешения, начинают оказывать существенное влияние, во-первых, размытие их оптикой глаза и, во-вторых, воздействие шумов дискретизации. В результате значительная часть информации, содержащаяся в этих изображениях, может быть утеряна.

Результаты проведенных измерений позволили установить диапазон угловых размеров, при котором имеет место инвариантное опознание. Понятны и условия, при которых эта инвариантность нарушается. При наблюдении больших изображений (более 50 угл. град.) могут возникнуть условия, когда распознавание без прослеживающих движений глаз и головы невозможно. При малых же угловых размерах шум дискретизации не позволяет улучшить распознавание даже при наблюдении нефрагментированных изображений.

Диапазоны инвариантного восприятия, как у наивных испытуемых, так и у опытных, выучивших данный алфавит стимулов, одинаковы. Следовательно, инвариантное опознание обеспечивают либо врожденные механизмы, либо выработанные в младенчестве на ранних этапах онтогенеза.

Распознавание объектов, инвариантное к их размеру, является важнейшей особенностью зрительного анализатора человека, во многом определяющего эффективность его поведения в реальном мире. Механизм инвариантности не мешает работе механизма оценки размера – они работают как параллельные каналы (Глезер, Цуккерман, 1961; Глезер и др., 1975; Стефанова, 1964, 1970; Stefanova, 1974).

Но каковы механизмы инвариантного описания размера? Рассмотрим две основные модели инвариантного описания воспринимаемых изображений в зрительной системе человека. Это так называемая модель «лог-полярного картирования» и «модель пирамиды». Обе модели используются в компьютерных программах для распознавания различных классов объектов.

Модель лог-полярного картирования учитывает геометрию проекции сетчатки в зрительную кору. Известно, что разные области сетчатки проецируются в кору неодинаково, что находит отражение в значениях фактора магнификации (Hubel, Wiesel, 1974). Преобразование координат сетчатки в проекцию ее зон в кору хорошо описывается механизмом так называемого лог-полярного картирования (Dow et all., 1981; Mehanian, 1991; Schwartz, 1980, 1983; Weiman, 1990; Zokai, Wolberg, 2005). В модели лог-полярного картирования ретинотопика стриарной коры представлена сложным логарифмическим отображением. Выход сигнала из стриарной коры после такого топографического преобразования подвергается обработке в больших рецептивных полях экстрастриарной коры.

Другая модель – это так называемая модель пирамидальной обработки информации (Александров, Горский, 1985; Шелепин и др., 1995; Burt, Adelson, 1983; Cantoni, Petrosino, 2002). Имеются различные пирамидальные модели обработки изображений. Обычно пирамидное представление формируется путем последовательной свертки изображения с неким ядром (например, гауссианом), причем для формирования n-го уровня пирамиды масштаб этого ядра берется пропорциональным 2n, а частота дискретизации – обратно пропорциональной 2n. В результате каждый уровень пирамиды содержит в себе подвергнутую пространственной фильтрации копию исходного изображения в масштабе, пропорциональном 2n. Существует множество видов пирамидных представлений, отличающихся друг от друга в основном типом используемого ядра.

Предположим, что у нас имеется ряд изображений одного и того же объекта в различных масштабах. Если представить каждое из этих изображений в виде пирамиды, то при любом масштабе объекта на исходном изображении можно будет найти такой уровень пирамиды (зависящий от масштаба), на котором данный объект будет иметь приблизительно один и тот же размер. Это свойство пирамидного представления с успехом применяется, например, в базах данных для поиска изображений по образцу или в системах машинного зрения.

Пример работы рецептивных полей одного слоя пирамиды представлен на рис. 10. На этом рисунке изображены круглые рецептивные поля низших отделов зрительной системы. Ориентационная составляющая возникает в результате конвергенции близлежащих рецептивных полей. Однако если предположить, что пирамида – это второй, корковый механизм, обеспечивающий инвариантность восприятия формы, то конфигурация рецептивных полей будет иной. Интересно попытаться определить локализацию в коре механизма инвариантного описания. Ранее нами были проведены исследования по локализации инвариантного глобального описания изображений в мозгу хищных млекопитающих (Шелепин, 1973). В более поздних работах была показана локализация глобального описания в мозгу приматов, включая человека (Фокин и др., 2007; Braddick, Atkinson, 2007 a, 2007 b), и в гомологичных областях коры головного мозга хищников. Эти области престриарной коры имеют большие рецептивнае поля и настроены на низкие пространственные частоты (Шелепин, 1984).

Полученные нами данные о нарушении инвариантности восприятия при размерах стимула меньше фовеа и равные фовеоле позволяют подтвердить справедливость модели пирамидальной обработки. Это связано с тем, что фовеола соответствует одному слою пирамиды, а один слой пирамиды не может обеспечить инвариантное описание.

Проведенные нами серии измерений количественно иллюстрируют работу механизма описания, инвариантного к углу наблюдения трехмерного объекта. В рамках теории статистических решений Н. Н. Красильниковым с соавт. была исследована эффективность зрительной системы человека в условиях распознавания трехмерных тестовых объектов, алфавит которых задан и ограничен (Красильников, Мироненко, 2006; Красильников и др., 2006). Исследование проводили для случаев, когда угол наблюдения на этапе распознавания мог быть произвольным, но вид объекта под этим углом был знаком наблюдателю. При исследовании применяли метод сравнительных измерений. Суть этого метода заключается в сравнении вероятности обнаружения сигнала наблюдателем и математической моделью оптимального наблюдателя (Красильников, Шелепин, 1997; Красильников и др. 1999 а, 1999 б; 1999 в; 2002, 2003 а; 2003 б; Shelepin et all., 2000). Был использован широкий круг тестовых объектов: от простейших изображений трехмерной графики до сложных трехмерных портретов людей с наложенной текстурой. Сравнение с идеальным наблюдателем авторы осуществляли путем вычисления коэффициента эффективности. Этот коэффициент был введен Горацием Барлоу и определяется следующим образом:

K = E_id / E_h ,

где E_id и E_h – пороговые значения энергии изображения (contrast energies)

для идеального наблюдателя и человека-наблюдателя соответственно, которые обеспечивают правильное опознавание изображения с одной и той же вероятностью P. Величина, обратная коэффициенту эффективности, показывает, во сколько раз нужно увеличить энергию изображений в случае их опознавания человеком-наблюдателем по отношению к энергии изображений, опознаваемых идеальным наблюдателем, чтобы получить одинаковые вероятности их правильного опознавания. Поскольку в определении коэффициента эффективности, согласно Г. Барлоу, фигурирует идеальный наблюдатель, то предполагается, что все параметры опознаваемого (идентифицируемого) изображения идеальному наблюдателю априорно известны (Barlow, 1978). В случае же человека-наблюдателя часть параметров изображения может быть априорно неизвестна. Отсутствие априорной информации о параметрах наблюдаемых изображений, например, об ориентации или об угле наблюдения, приводит к уменьшению коэффициента эффективности (Красильников, Мироненко, 2006 а; Красильников и др., 2006 б).

При опознавании трехмерных объектов, наблюдаемых в трехмерном пространстве, или при их разных проекциях на плоскость имеется принципиальное отличие от опознавания двумерных изображений трехмерных объектов, представленных всегда при одном и том же угле наблюдения. В исследованиях Н. Н. Красильникова с соавт., как в первом, так и во втором случаях опознаванию предшествовало обучение наблюдателя. В случае опознавания трехмерных объектов углы наблюдения объектов, предъявляемых наблюдателю при опознавании, могут не совпадать с углами наблюдения, под которыми они были предъявлены во время обучения. В случае опознавания объектов на двумерных изображениях и при обучении, и при опознавании углы наблюдения были всегда одинаковы (Там же).

Как осуществляется в мозге представление трехмерных зрительных объектов? Этой проблеме посвящены работы многих авторов (Там же; Biederman, Cooper, 1991 a; 1991 b; Lazareva et all, 2008; Poggio, 1990; Suterland, 1979; Tarr et all, 1998; Ullman, 1989, 1996; Wang, 2005). Согласно Марру, на этапе обучения зрительная система по ряду двумерных проекций на сетчатке трехмерных объектов строит их трехмерные представления в мозге наблюдателя, которые и запоминает (Marr, 1987). При опознавании трехмерных объектов зрительная система сравнивает их проекции на сетчатках глаз с хранящимися в памяти наблюдателя трехмерными представлениями, сформированными на этапе обучения. Затем на основании этого сравнения наблюдатель принимает решение о принадлежности предъявляемых проекций тому или иному объекту.

Представление о форме трехмерных объектов из окружающего нас мира мы формируем на основании множества их двумерных проекций на сетчатку наших глаз, при этом одному и тому же трехмерному объекту при разных углах наблюдения соответствует множество сильно различающихся между собой его двумерных проекций. Поскольку угол наблюдения объекта, как правило, наблюдателю априорно неизвестен, это усложняет условия наблюдения и, как следствие, приводит к уменьшению вероятности правильного опознавания объекта в пороговых условиях наблюдения, а значит, к уменьшению коэффициента эффективности (Красильников, Мироненко, 2006 а; Красильников и др., 2006 б).

В наших исследованиях обучение алфавиту (набору) стимулов происходило во время проведения измерений. Наблюдение изображений при первом измерении позволяет испытуемому ознакомиться и определить размер алфавита стимулов. При последующих измерениях эффективность работы наблюдателя была обусловлена знакомством с этим алфавитом. Повороты объекта в заданных пределах величин не влияли на эффективность опознания, так как предположительно работал механизм инвариантности к повороту (наклону, ракурсу). В последующие дни, хотя в предъявляемых изображениях мы монотонно наращивали отклонение от исходного угла наблюдения, пороги распознавания не уменьшались. В каждом новом измерении наблюдатель не знал, какой угол наблюдения будет задан. После ознакомления с алфавитом стимулов во все остальные дни измерений ответы наблюдателя демонстрировали инвариантность восприятия к поворотам трехмерного объекта в данном диапазоне углов наблюдения.

Сложность обсуждения полученных данных заключается именно в объяснении работы механизма инвариантности. Одна из существующих гипотез предполагает, что зрительная система представляет стимулы в психологическом метрическом пространстве малой размерности (Shepard, Cooper, 1983). Этот подход Шепарда поддерживается и развивается другими исследователями. Измерения и модельные расчеты, выполненные Едельманом (Edelman, Bulthoff,1992; Edelman, Weinshall, 1991; Podgio, Edelman, 1990), и наши данные подтверждают идею о том, что разделение трехмерных объектов может быть основано на представлении в малоразмерном пространстве признаков.

Ульман, развивая свой подход на основе образного (графического) описания, утверждает, что распознавание трехмерных объектов базируется на комбинации малого количества видов объекта, связанных с различным направлением взора (Ullman, 1989, 1996). При проверке этого подхода в ходе психофизических опытов получены данные, поддерживающие теорию интерполяции двумерных видов при распознавании трехмерных объектов (Красильников, Мироненко, 2006 а; Красильников и др., 2006 б). Считается, что способность распознавания трехмерных объектов основана на генерации шаблонов с метрическими свойствами, которые выучивались при разных ориентациях. Трехмерный объект в этом случае представляется как ряд двумерных шаблонов (Там же).

Альтернативный подход в описании трехмерной структуры объектов основан на использовании объемных геометрических примитивов, так называемых геонов (обобщенных конусов) (Biederman, Cooper, 1991 a, 1991 b; Lazareva et all, 2008; Hummel, Biederman, 1992). Любой трехмерный объект может быть описан набором геонов различных типов. В рамках данного подхода предполагается, что ключевую роль здесь могут играть специфические признаки, относительно устойчивые к вращению объекта и играющие центральную роль в различении отдельных его элементов – геонов. В результате наблюдатель может распознавать объект при вращении без предварительного знакомства с новыми его видами.

В работе Уанга (Wang, 2005) показано, что обезьяны, обучившись разделять индивидуальные виды объектов, были способны распознавать объекты при вращении последних до 60°, хотя у них не было возможности изучить ассоциации между парами различных видов объекта. Авторы этой работы также полагают, что распознавание при малых или средних изменениях угла наблюдения зависит от признаков, общих для различных видов объекта. Эти данные также совпадают с результатами проведенных нами измерений. Наши данные позволяют предположить, что шаблон (образ наблюдаемого трехмерного объекта) вырабатывается сразу после первого предъявления двумерного изображения. Этот шаблон обладает свойствами инвариантности, так как не зависит от ориентации объекта, по крайней мере, от 15 до 60 угл. град. Точный диапазон не показан из-за особенностей проведения исследований. Так, мы последовательно накапливали отклонение на определенный угол с шагом в 15 угл. град. Подобный алгоритм проведения измерений был обусловлен необходимостью получения основных данных без обучения наблюдателя ко всему набору стимулов. Возможно, зрительная система экстраполирует полученные при первом предъявлении при одном угле наблюдения сведения об изображении на другие углы наблюдения.

Результаты проведенных нами измерений не соответствуют исходной гипотезе, согласно которой точность и полнота формируемых шаблонов зависят от количества углов наблюдения, использованных на этапе обучения (Красильников, Мироненко, 2006 а; Красильников и др., 2006 б). Испытуемые в наших исследованиях были взрослые люди, поэтому механизм экстраполяции у них работал еще при обучении данному классу изображений, а мы применяли стимулы, знакомые в повседневной жизни.

Полученный нами результат важен, так как согласно исходной гипотезе точность и полнота формируемых шаблонов зависят от количества углов наблюдения, использованных на этапе обучения.

Заключение

Инвариантность восприятия изображений объектов к их размеру может обеспечиваться двумя механизмами. Первый механизм – лог-полярное картирование, хорошо согласующееся с ретинотопическими преобразованиями изображений в системе ганглиозные клетки–НКТ–зрительная кора. На уровне зрительной коры для инвариантного описания в дополнение к масштабным преобразованиям включается второй механизм – пирамидальной обработки. Пирамида, как возможный способ описания работы зрительной системы, отражает ее иерархическую многоуровневую организацию и может объяснить «восходящий и нисходящий» характер взаимодействия рецептивных полей разных уровней и различного размера. Пирамидальная обработка в случае нехватки информации для полного распознавания изображения может осуществить операцию восстановления и вернуться на один шаг назад, т. е. вниз по «пирамиде». Пирамидальная обработка – это этап предварительной фильтрации; затем происходит согласованная фильтрация, для которой необходим хранящийся в памяти человека шаблон наблюдаемого изображения. В наших исследованиях инвариантности к масштабу мы предполагаем, что достаточно одного шаблона изображения объекта. При изменении масштаба работают врожденные механизмы инвариантности. Шаблон или код инвариантного описания образа – обобщенный, что позволяет экстраполировать данный шаблон на другие ориентации, с шагом по меньшей мере в 15 угл. град. и максимум 60 угл. град. Это утверждение основано на результатах, полученных в третьей серии измерений.

В зрительной системе, вероятно, достаточно хранить несколько шаблонов при разных (далеко отстоящих) разворотах одного объекта. Таким образом, можно предполагать, что «неточность», а вернее, обобщенность инвариантного описания к разворотам позволяет осуществить значительное сжатие информации.

Инвариантность зрительного восприятия

Резюме

Общая информация

Полный текст

Литература

Информация об авторах

Метрики

Просмотров web

Скачиваний PDF

Всего