Восприятие эмоционального состояния коммуниканта на основе информации об экспрессиях его лица и тела

О.А. Королькова

doi:10.17759/exppsy.2024170402

Введение

В повседневных ситуациях непосредственного общения мы чаще всего воспринимаем поведение собеседника (включая мимику его лица, движения тела, жесты рук, действия с объектами) как целостное. В частности, мы судим о состоянии человека, основываясь на информации об экспрессии его лица и тела, интонации речи, а также контексте ситуации. Вместе с тем в большинстве исследований межличностного восприятия и распознавания эмоций, проведенных на сегодняшний день, лицо либо тело рассматриваются изолированно. Для понимания механизмов формирования целостного образа коммуниканта необходим переход к изучению восприятия интегрального мультимодального поведения человека.

Ряд исследований, направленных на решение данной проблемы, посвящен описанию взаимосвязи распознавания экспрессий лица и экспрессий тела. При этом последнее рассматривается прежде всего как контекст восприятия лица, а стимульный материал преимущественно является статичным и основанным на позированных экспрессиях, а не на естественных проявлениях эмоций. При изучении интеграции лица и тела в целостный образ используются известные феномены холистического восприятия, такие как эффекты инверсии, части—целого, композитного изображения, которые неоднократно были продемонстрированы ранее при восприятии изолированного лица [Барабанщиков, 2011; Барабанщиков, 2010; Tanaka, 1993]. На основании данных феноменов сформулирован ряд условий для интеграции изображений лица и тела [Hu, 2020]. Так, первое состоит в тесной взаимосвязи процессов обработки лица и тела. Изолированные изображения лица либо тела воспринимаются иначе, чем когда они оцениваются в контексте единого образа, даже если требуется игнорировать нерелевантную задаче информацию [Aviezer, 2008; Martinez]. Второе условие, связанное с первым, заключается в том, что целостное изображение человека воспринимается как единый гештальт, не сводимый к сумме своих частей [Aviezer, 2012а]. Предполагается, что интеграция преимущественно происходит автоматически, на ранних этапах процесса восприятия [Aviezer, 2011].

Уже в ранних работах было показано, что экспрессия лица оказывает значительное влияние на восприятие тела, и наоборот. В частности, при оценке того, насколько человек расположен к коммуникации, экспрессия лица (гневная, радостная или нейтральная) вносит больший вклад в принятие решения, чем экспрессия тела [Willis, 2011]. С другой стороны, в задаче определения состояния участника спортивных соревнований (победа или поражение) по выражению его лица и тела наблюдатель выносит суждение скорее с опорой на изображение тела, а не лица [Aviezer, 2012; Zant, 2021]. Степень взаимного влияния экспрессий определяется их перцептивным и концептуальным сходством (например, экспрессии радости и печали менее похожи, чем экспрессии страха и удивления). Для разных категорий эмоций продемонстрированы дифференцированные паттерны ошибок распознавания по экспрессии тела или лица [Abramson, 2017; Lecker, 2020]. Вклад лица и тела в определение эмоционального состояния может меняться в зависимости от возраста: пожилые наблюдатели больше ориентируются на экспрессию тела, чем лица [Abo Foul, 2018]. В условиях виртуальной коммуникации с помощью аватаров, анимированных на основании реальных движений коммуникантов, отсутствие информации о движениях лица либо тела партнера по общению снижает точность формирования впечатления о нем, приводит к менее позитивным впечатлениям от коммуникации в целом и к снижению степени синхронизации невербальной коммуникации [Oh Kruzic, 2020].

По сравнению с конгруэнтными экспрессиями лица и тела (выражающими одно и то же эмоциональное состояние), при экспозиции неконгруэнтных (рассогласованных) экспрессий снижается эффективность и точность их оценки — проявляется эффект конгруэнтности. Если эмоция, выраженная в позе, неконгруэнтна экспрессии лица, последняя оценивается менее точно [Meeren, 2005]. Эффект конгруэнтности также зависит от степени перцептивного сходства между категориями эмоций: чем ближе две категории находятся в перцептивном пространстве эмоций, тем сильнее экспрессия тела влияет на категоризацию выражения лица. Например, лицо, выражающее отвращение, будет в большинстве случаев оцениваться как гнев, если поза тела при этом выражает гнев, но если поза выражает страх или печаль — категории эмоций, менее сходные с отвращением, — она будет меньше влиять на оценки лица [Aviezer, 2011; Aviezer, 2008; Mondloch, 2012].

Между изображениями лица и тела может проявляться кроссмодальный эффект адаптации. В частности, адаптация к изображениям тела (без головы) может сдвигать границу категорий при последующей идентификации человека или определении его пола по морфированным изображениям лица [Ghuman, 2010]. Аналогичные эффекты наблюдаются и при адаптации к изображениям лица и оценке изображений тела [Palumbo, 2015]. Однако адаптацию к изображениям эмоциональных экспрессий лица/тела выявить не удалось [Teufel, 2019].

Основные полученные на сегодняшний день результаты, таким образом, заключаются в следующем.

Если экспрессии лица и тела конгруэнтны друг другу (отражают одно и то же переживание), они взаимно облегчают и ускоряют распознавание эмоции по сравнению с экспрессиями, представленными только в одной модальности — либо лица, либо тела.
Если экспрессия тела неконгруэнтна экспрессии лица, точность и скорость распознавания последней снижается по сравнению с конгруэнтными условиями.
Чем более неоднозначна экспрессия лица, тем большее влияние на ее восприятие оказывают экспрессии тела [Albohn, 2022].
Степень взаимодействия экспрессий лица и тела определяется перцептивным и концептуальным сходством категорий эмоций.

Вместе с тем вопрос о том, какой именно вклад в формирование целостного впечатления об эмоционально окрашенном поведении другого человека вносит восприятие экспрессий его лица и движений тела, остается до конца не решенным. Также окончательно не установлено, является ли точность распознавания эмоций по целостному поведению аддитивной (т. е. складывается из суммы точности распознавания лица и тела в отдельности) либо представляет собой интегральный показатель.

В ранее проведенном исследовании, направленном на определение роли лица и тела в восприятии эмоциональных состояний, использовались видеозаписи позированных актерами динамических экспрессий базовых эмоций, которые демонстрировались наблюдателям либо в неизменном виде, либо с наложенной на лицо или тело маской, совпадающей по цвету с нейтральным серым фоном [Martinez]. Фигуры натурщиков были представлены по пояс, и во время съемки их просили не выходить за пределы круга радиусом 1 м и не перекрывать руками лицо. В данной работе было показано, что наименее точно распознаются экспрессии тела в отсутствие информации о лице. При наличии информации только о лице, но не о движениях тела, точность возрастает вдвое. Наконец, при наличии полной информации точность максимальна. Авторы варьировали время экспозиции (250—4000 мс) и выявили, что при увеличении продолжительности видеоклипов точность монотонно возрастает, достигая плато на уровне 0,6 (в среднем по всем условиям) при длительности экспозиции 2 с. Наиболее точно при всех условиях распознаются экспрессии радости и гнева, наименее точно — экспрессии удивления, отвращения и страха. При этом различия в распознавании по лицу и по телу были минимальны для экспрессии гнева и максимальны для экспрессии радости. При оценках любых экспрессий изолированного тела (в условии с замаскированным лицом) ответ «гнев» дается чаще, чем при оценках изолированного лица либо целостных изображений. Авторы данного исследования предполагают, что по движениям тела распознается прежде всего информация об активации (эраузал), которая дополняется информацией о валентности эмоции, выраженной в лице. Если же тело демонстрируется изолированно, то экспрессии с высокой активацией, в частности гнев и радость, могут смешиваться, несмотря на то, что их валентность существенно различается. Паттерны «ошибочных» ответов в условиях ограничения информации о лице либо о теле различаются в зависимости от модальности экспрессии и времени экспозиции. Так, экспрессия «удивления», выраженная на лице, чаще всего смешивается со страхом, а выраженная в движениях тела — с гневом. «Гневное» лицо воспринимается как испуганное или выражающее отвращение, тогда как «гневные» движения тела — как демонстрация радости. «Отвращение» и «страх» при обоих типах стимулов может распознаваться как печаль. При минимальной длительности стимулов (250 мс) возрастают различия в паттернах оценок лицевых и телесных экспрессий «радости».

В настоящем исследовании мы также опирались на динамические ситуации проявления эмоциональных состояний, чтобы выявить, в какой степени экспрессивные признаки лица и тела определяют распознавание эмоций по невербальному поведению. В отличие от более раннего исследования, мы использовали стимульный материал, представляющий свободное поведение натурщика в контексте ситуации (передвижение, взаимодействие с предметами и т. д.), так что фигура человека видна полностью. Как и в более ранней работе, мы предположили, что при ограничении информации от одной из модальностей (экспрессии лица либо движения тела) точность оценки выраженных эмоций будет снижаться по сравнению с условиями доступности полной информации.

Методы исследования

Участники исследования: 150 человек (137 женщин и 13 мужчин в возрасте от 22 до 60 лет, медиана возраста — 36 лет) — студенты первого и второго высшего образования психологических вузов. Участники были случайным образом разделены на 3 группы, выполнявшие разные серии исследования:

в серии 1 (условие «полная информация») приняли участие 43 человека (38 женщин и 5 мужчин в возрасте от 22 до 56 лет, медиана возраста — 37 лет);
в серии 2 (условие «расфокусированное лицо») приняли участие 60 человек (56 женщин и 4 мужчины в возрасте от 23 до 60 лет, медиана возраста — 36 лет);
в серии 3 (условие «расфокусированное тело») приняли участие 47 человек (43 женщины и 4 мужчины в возрасте от 23 до 50 лет, медиана возраста — 37 лет).

Стимульный материал был разработан на основе валидизированной базы EU-ESM [O’Reilly, 2016]. Она включает динамические мультимодальные экспрессии двадцати одного эмоционального состояния, а также проявления эмоций в ситуациях социального взаимодействия. Экспрессии представлены девятнадцатью актерами различного возраста и этнической принадлежности. Они демонстрируют экспрессии лица и тела (жесты, походку, движения), а также взаимодействие с предметами. Для настоящего исследования были отобраны видеозаписи экспрессий трех натурщиков европеоидного типа — двух женщин (15 и 70 лет) и одного мужчины (31 год), демонстрирующих состояния радости, страха, отвращения, возбуждения, разочарования, скуки и спокойствия. Критерии отбора видеозаписей: 1) наличие экспрессии у каждого из натурщиков; 2) высокая точность распознавания по результатам валидизации; 3) включение как положительных, так и отрицательных эмоций, а также спокойного состояния. Средняя точность распознавания отобранных экспрессий составляет 91% (разброс: 73—99%) [O’Reilly, 2016]. В Приложении приведено описание каждого видеоклипа. Оригинальная звуковая дорожка, содержащая фоновую музыку, была удалена. Размеры видеозаписей составляют 1920×1080 пикселей, частота дискретизации — 25 кадров/с. Первой группе участников данные видеоклипы предъявлялись без модификаций изображения (условие «полная информация»).

Для создания стимульного материала, содержащего информацию только о лице либо только о движениях тела и контексте, данные видеоклипы подвергались дополнительной обработке. При помощи программного обеспечения Python 3.11 и библиотеки dlib (http://dlib.net) производилась автоматическая детекция лица на видеозаписях, после чего для каждого исходного видеоклипа создавались по два новых типа стимулов: один — с маской в форме круга, закрывающей область лица (данные видеоклипы предъявлялись второй группе участников — условие «расфокусированное лицо»); другой — с маской, закрывающей всю остальную область изображения, кроме лица (данные видеоклипы предъявлялись третьей группе участников — условие «расфокусированное тело»). Маска создавалась путем разбиения изображения на квадраты и усреднения цвета внутри каждого квадрата. Размер квадрата в условии «расфокусированное лицо» составлял 30×30 пикселей, в условии «расфокусированное тело» — 120×120 пикселей. Данные параметры подбирались так, чтобы исключить информацию о форме и движении. Примеры кадров трех типов стимулов приведены на рис. 1.

Рис. 1. Примеры стимульного материала: а) полная информация; б) расфокусированное лицо; в) расфокусированное тело

Процедура исследования. Экспозиция стимульного материала и регистрация ответов выполнялись в удаленной форме через веб-браузер при помощи программы jspsych 6.3.0. Участники выполняли задание на персональных компьютерах с размером экрана не менее 800×600 пикселей, мобильные устройства не поддерживались. Перед началом основного исследования участники заполняли Торонтскую шкалу алекситимии TAS-20 в адаптации Е.Г. Старостиной и др. [Старостина] для оценки индивидуальных особенностей восприятия и понимания эмоций. В основном исследовании каждая проба начиналась с экспозиции фиксационного креста в центре экрана, его длительность случайно варьировалась в диапазоне 500—1200 мс. Затем в случайном порядке демонстрировались видеоклипы, масштабированные до размера 1245×700 пикселей. Длительность видеоклипов составляла 5—29 с (среднее 12 с). Каждый видеоклип предъявлялся один раз без возможности повторного просмотра, после чего участникам предлагалось ответить на следующие вопросы:

В каком эмоциональном состоянии находится человек из видеоролика?
По каким признакам Вы определили эмоциональное состояние?
Как Вы думаете, что вызвало это состояние?

Вопрос № 1 имел пять вариантов ответа в соответствии с теми, которые использовались авторами базы при ее валидизации. Порядок вариантов ответа был рандомизирован. Также у участников была возможность выбрать ответ «Другое» и вписать в текстовое поле свой ответ. Вопросы № 2 и 3 предполагали свободный ввод текста. Все вопросы были обязательными. Они предъявлялись последовательно. После ответа на третий вопрос предлагалось перейти к следующему видео. По окончании исследования предлагалась форма обратной связи.

Анализ данных проводился в среде статистической обработки R (версия 4.0.0) с использованием пакетов lme4 (версия 1.1.35.5), lmerTest (версия 3.1.3) и multcomp (версия 1.4.26). Данные участников, имеющих балл по шкале TAS-20 выше 65, исключались из анализа.

На первом этапе анализировалось соотношение верных и неверных оценок эмоционального состояния в зависимости от условий экспозиции и демонстрируемой экспрессии. Верным ответом на вопрос № 1 считался выбор того варианта, который соответствовал демонстрируемой натурщиком экспрессии. Все остальные варианты, включая ответ «Другое» и свободный ввод ответа, рассматривались как неверные. Данные анализировались при помощи обобщенной линейной модели со случайными эффектами испытуемого, его пола, возраста, балла по шкале TAS-20 и номера видеофрагмента, а также с фиксированными эффектами: экспрессия натурщика, условия экспозиции и их взаимодействие. Для оценки точности подгонки модели использовался псевдо-коэффициент детерминации R2c Найджелкерка. На основании модели рассчитывались апостериорные контрасты с поправкой Бенджамини—Хохберга между различными экспрессиями и условиями экспозиции.

На втором этапе анализировались «ошибочные» ответы, не совпадающие с основной категорией эмоции, которую демонстрировали натурщики. Подсчитывались относительные частоты каждой категории ответа.

Анализ ответов на вопросы № 2 и 3 (вербальные описания признаков эмоциональных состояний и их возможных причин) в настоящей работе не проводился и будет представлен отдельно.

Результаты исследования

По результатам анализа методики TAS-20 из анализа были исключены данные 6 человек, имеющих балл по шкале алекситимии выше 65. В итоговую выборку вошли данные 144 участников (133 женщин и 11 мужчин). Из них 42 человека — участники серии 1 («полная информация»); 58 человек — участники серии 2 («расфокусированное лицо»); 44 человека — участники серии 3 («расфокусированное тело»). Медианный балл по шкале TAS-20 по всей итоговой выборке составил 43.

Построенная регрессионная модель объясняет 35% разброса данных (псевдо-R2c Найджелкерка: 0,346). Случайные эффекты: испытуемого — 0,26 (ст. откл. — 0,51); балла по TAS-20 — 0,05 (ст. откл. — 0,23); номера видеофрагмента — 0,31 (ст. откл. — 0,55). Случайные эффекты пола и возраста испытуемых были исключены из финальной модели. Информационный критерий Акаике составил 3000,3.

Точность оценки эмоций в зависимости от условий экспозиции.

При наличии полной информации о поведении и экспрессии натурщика средняя точность распознавания всех эмоций составляет 0,79. В условиях расфокусированного изображения лица она сохраняется (0,79). В условиях расфокусированного изображения тела средняя точность ответа значимо снижается по сравнению с другими условиями (по результатам апостериорных контрастов: z > 4,538; p < 0,001) и составляет 0,64.

Анализ точности оценок каждого из экспрессивных состояний в зависимости от условий экспозиции показал значимое снижение точности в условиях расфокусированного тела для экспрессий страха (z > 4,791; p < 0,001) и скуки (z > 4,615; p < 0,001). Экспрессия спокойствия распознается значимо лучше в условии «расфокусированное лицо», чем в других условиях экспозиции (z > 3,723; p < 0,005), и на уровне тенденции — лучше в условиях полной информации, чем при расфокусированном теле (z = 2,933; p = 0,06). Экспрессия разочарования распознается лучше в условиях наличия полной информации, чем при расфокусированном лице (z = 3,302; p = 0,019). Для других экспрессий значимых различий в зависимости от условий экспозиции не выявлено.

В условиях полной информации точнее всего распознаются выражения радости (0,96), страха (0,92), разочарования (0,92) и отвращения (0,90), менее точно — скуки (0,76) и спокойствия (0,62), наименьшая точность получена для экспрессии возбуждения (0,43). При этом радость (z > 4,302; p < 0,001), страх (z > 3,480; p < 0,024) и разочарование (z > 3,425; p < 0,028) распознаются значимо точнее, чем спокойствие и возбуждение; отвращение (z = 4,384; p < 0,001) — точнее, чем возбуждение. На уровне тенденции радость распознается точнее, чем скука (z = 3,243; p = 0,05), а отвращение — точнее, чем спокойствие (z = 3,057; p = 0,088).

В условиях расфокусированного лица максимальная точность распознавания — у экспрессий страха (0,92) и радости (0,89). Спокойное состояние (0,83), отвращение (0,82), скука (0,80) и разочарование (0,78) распознаются на среднем уровне. Самые низкие значения точности — у экспрессии возбуждения (0,49). Радость и страх распознаются значимо точнее, чем возбуждение (z > 4,021; p < 0,001). На уровне тенденции отвращение и спокойствие распознаются точнее, чем возбуждение (z > 3,041; p < 0,09).

В условиях расфокусированного тела наибольшая точность оценки — у экспрессий радости (0,92), отвращения (0,85) и разочарования (0,82), а экспрессии страха (0,66), скуки (0,43), спокойствия (0,41) и возбуждения (0,37) распознаются на среднем или низком уровне. Радость (z > 4,668; p < 0,001), отвращение (z > 3,737; p < 0,01) и разочарование (z > 3,39; p < 0,032) распознаются значимо точнее, чем скука, возбуждение и спокойствие. На уровне тенденции радость распознается точнее, чем страх (z = 3,022; p = 0,09).

Пропорция верных ответов для каждого условия экспозиции и категории эмоции представлена в табл. 1 и на рис. 2.

Структура ошибочных ответов. Дополнительно был проведен анализ «ошибочных» ответов — не совпадающих с основной категорией экспрессии, изображение которой было задачей актеров. Вместе с тем данная информация может присутствовать в экспрессиях как лица, так и тела, а также «считываться» наблюдателем по контексту ситуации.

Для экспрессии радости структура выбранных категорий ответов сохраняется независимо от условий экспозиции. Наиболее часто выбираются альтернативные варианты ответа — «заинтересованный» (2—7% всех ответов) и «удивленный» (до 3% ответов), а при свободном вводе ответа участники описывают экспрессии радости как «счастливый», «игривый», «влюбленный», «увлеченный» и др. Экспрессия страха в условиях полной информации в единичных случаях ошибочно оценивается как отвращение, при расфокусированном лице — как интерес. При расфокусированном изображении тела частота ошибочных распознаваний значительно возрастала; наиболее часто в качестве ответа выбиралась категория «стыдящийся» (10% ответов), а также давались ответы «расстроенный», «сосредоточенный», «испытывающий отвращение», «разочарованный», «недружелюбный». Экспрессия отвращения во всех условиях ошибочно воспринималась как «разочарованный» (5—11% ответов), в отдельных случаях — как «заинтересованный». Экспрессия возбужденный при наличии полной зрительной информации оценивается как «заинтересованный» практически так же часто, как распознается верно (45% ответов). При расфокусированном изображении лица доля ошибочных ответов снижается, тогда как при расфокусированном теле — увеличивается, превышая долю точных распознаваний. При свободном вводе ответов наиболее часто наблюдаются категории «радостный» и «насмешливый». В случае экспрессии разочарованный расфокусирование какой-либо части изображения приводит к более частым выборам категорий «обеспокоенный» (12—17% ответов) и «подшучивающий» (5% ответов), тогда как остальные варианты ответа крайне редки. Для экспрессии скуки наиболее часто во всех условиях экспозиции выбирается ошибочный ответ «расстроенный» (13—38 % ответов), а в условиях полной информации и расфокусированного тела вторым по частоте выбора среди ошибочных становится вариант «обиженный» (5—8% ответов). Наконец, экспрессия спокойствие во всех условиях наиболее часто воспринимается как «расстроенный» (9—28% ответов) и «скучающий» (6—14% ответов). В условии с расфокусированным телом добавляются ответы «сосредоточенный», «печальный».

Линейные размеры изображения как фактор точности распознавания

Одним их возможных объяснений снижения точности оценки экспрессий в условиях расфокусированного тела может быть то, что размеры области четкого изображения были относительно малы по сравнению с другими условиями эксперимента. Действительно, часть участников отмечали трудности в определении эмоционального состояния натурщиков в связи с тем, что изображения лиц были слишком мелкими. Чтобы исключить связь сниженной точности распознавания с размерами четкого изображения, был проведен дополнительный эксперимент.

Методы исследования. Участниками дополнительной серии (условие «расфокусированное тело × 2») стали 169 человек, ранее не принимавших участие в основном исследовании (151 женщина и 18 мужчин в возрасте от 22 до 50 лет, медиана возраста — 36 лет).

В качестве стимульного материала использовались видеофрагменты с расфокусированным телом, линейные размеры которых были увеличены вдвое. Они были кадрированы так, чтобы фигура натурщика и все предметы полностью присутствовали на изображении. Процедура исследования и методы анализа были аналогичны основному эксперименту. Данные всех четырех серий анализировались при помощи обобщенной линейной модели, апостериорные контрасты рассчитывались между дополнительной серией «расфокусированное тело × 2» и тремя сериями основного эксперимента.

Результаты исследования. На основании методики TAS-20 были исключены данные 7 человек, которые имели балл выше 65. В итоговую выборку вошли данные 162 человек (148 женщин и 14 мужчин).

Регрессионная модель, построенная по результатам всех четырех серий, объясняет 32% разброса данных (псевдо-R2c Найджелкерка: 0,316). Случайные эффекты: испытуемого — 0,29 (ст. откл. — 0,54); балла по TAS-20 — 0,01 (ст. откл. — 0,1); возраста — 0,02 (ст. откл. — 0,13); номера видеофрагмента — 0,21 (ст. откл. — 0,46). Случайный эффект пола был исключен из финальной модели. Информационный критерий Акаике составил 6711,9.

Сравнение средней точности распознавания экспрессий в условии «расфокусированное тело × 2» (0,7) с сериями основного эксперимента показало значимые отличия дополнительной серии от условий «полная информация» (z = 4,140; p < 0,001) и «расфокусированное лицо» (z = 3,522; p = 0,002). Не было выявлено различий между сериями с расфокусированным телом в зависимости от линейных размеров изображения (z = 1,983; p = 0,189).

При сравнении точности оценок каждой из экспрессий на уровне тенденции показано, что при наличии полной информации точность распознавания выражения скуки выше, чем в условии «расфокусированное тело ×2» (z = 3,045; p = 0,08). В остальном паттерн различий повторял полученный в основном эксперименте. Не было выявлено значимых различий между условиями «расфокусированное тело» и «расфокусированное тело × 2».

Таблица 1. Точность распознавания экспрессий в зависимости от условий экспозиции и категории эмоции

Категория эмоции	Условия экспозиции
Категория эмоции	Полная информация	Расфокусированное лицо	Расфокусированное тело	Расфокусированное тело × 2
Радость	0,96	0,89	0,92	0,92
Страх	0,92	0,92	0,66	0,69
Отвращение	0,90	0,82	0,85	0,89
Спокойствие	0,62	0,83	0,41	0,50
Возбуждение	0,43	0,49	0,37	0,48
Разочарование	0,92	0,78	0,82	0,81
Скука	0,76	0,80	0,43	0,58

Рис. 2. Средняя точность распознавания экспрессий в различных условиях экспозиции

Обсуждение

Проведено исследование, направленное на уточнение роли экспрессий лица и тела в формировании целостного впечатления о динамическом экспрессивном поведении другого человека. Результаты позволяют предположить, что при наблюдении целостного поведения человека оценка его эмоционального состояния опирается прежде всего на информацию о движениях его тела и о контексте ситуации, в то время как выражение лица служит лишь дополнительным источником информации. При ограничении информации о мимике лица точность оценок состояния значимо не снижается, а в отдельных случаях отсутствие информации о лице даже облегчает распознавание эмоции. Напротив, в условиях, когда экспрессия лица является единственным источником знаний о переживаемом состоянии, а какие-либо признаки контекста или экспрессий тела недоступны наблюдателю, средняя точность оценки значимо снижается. Сказанное прежде всего относится к восприятию поведения, выражающего страх либо скуку, а также нейтральное, спокойное состояние.

Выявленные нами паттерны «ошибочных» ответов, не совпадающих с основной категорией эмоции, которая выражена в невербальном поведении, позволили уточнить особенности категориальных полей воспринимаемых состояний в зависимости от доступности информации. В отсутствие информации о движениях тела и контексте ситуации поведение, выражающее страх, воспринимается как «стыд», «разочарование» или иные состояния негативной валентности. Вероятно, ключевым для понимания ситуативного страха является знание о наличии объекта, вызывающего данную эмоцию. Поведение, связанное с выражением возбуждения, почти в половине случаев воспринималось как «заинтересованное». Одним из объяснений может быть то, что возбуждение и интерес составляют единую категорию эмоций. В частности, именно такая точка зрения представлена в работах К. Изарда [Izard, 1991]. Также можно предположить, что ситуативные проявления возбуждения и интереса являются сходными, в связи с чем достоверно различать данные эмоции достаточно сложно. Поведение, связанное с ситуацией разочарования, точнее всего распознается при наличии полной информации о лице, теле и контексте. Если какая-либо часть информации недоступна наблюдателю, увеличивается частота оценок данного поведения как «обеспокоенного» или «подшучивающего». Выражения скуки и спокойствия воспринимаются как «расстроенное» состояние, особенно при недоступности информации о теле и контексте. Вероятно, экспрессии лица в данном случае не дают возможности дифференцировать данные состояния.

Полученные нами результаты согласуются с предположением об эволюционном значении способности распознавать экспрессию страха по движениям тела (походке, жестам и т. д.) других людей, которая подчеркивается в целом ряде исследований. В частности, знание о том, что другой человек испытывает страх, позволяет нам самим избегать потенциальных опасностей. Известно, что наблюдатели способны достаточно точно распознавать страх, индуцированный при помощи средств виртуальной реальности, по динамике походки даже в условиях отсутствия информации о текстуре, форме и контексте ситуации — с применением технологии захвата движения [Crawford, 2024]. Наши результаты также подтверждают ключевую роль движений тела при распознавании страха.

Однако результаты нашей работы не согласуются с более ранним исследованием, применявшим видеозаписи позированных динамических экспрессий базовых эмоций с маской цвета фона, наложенной на лицо либо тело [Martinez]. В отличие от нашей работы, использованные ранее стимульные видеоизображения не включали информацию о ситуативном контексте, а передвижение натурщиков было ограничено, что могло повлиять на естественность выражения эмоций. Вместе с тем выражение и распознавание отдельных эмоций, например страха и отвращения, может сильно зависеть от наличия ситуативного контекста и взаимодействия с объектами, вызывающими данные эмоции. В частности, экспрессия радости, выраженная в движениях тела, в раннем исследовании распознавалась на самом низком уровне (0,25) при максимальном уровне распознавания по лицу либо полному изображению (0,97), тогда как мы в аналогичных условиях получили результаты, значимо не отличающиеся от ситуации наличия полной информации (0,89 и 0,96). Также в описываемом исследовании в качестве стимульного материала использовались исключительно базовые эмоции, а длительность видеофрагментов была фиксирована на коротких интервалах (не более 4 с). В условиях с экспрессиями изолированного тела голова натурщика фактически отсутствовала на изображениях, тогда как мы применили расфокусированную маску, оставляющую информацию о положении головы, но скрывающую динамику экспрессий. Вероятно, расхождения в результатах могут быть связаны с данными особенностями процедуры исследования и стимульного материала.

Как и в более ранних работах, мы использовали позированные актерами выражения эмоциональных состояний. Известно, что интенсивность и характер естественного экспрессивного поведения может отличаться от того, которое может быть смоделировано в лабораторных условиях. Об этом говорят, в частности, результаты исследований восприятия фотоизображений экспрессий спортсменов, в которых изолированное лицо не обеспечивало высокой точности распознавания выигрыша/проигрыша, тогда как тело, даже в отсутствие изображения лица, позволяло легче распознать исход игры [Aviezer, 2012]. Естественные динамические экспрессии победы или поражения распознаются лучше, чем статичные изображения [Zant, 2021]. Естественная экспрессия страха, выраженная в движениях тела, воспринимается точнее, чем выраженная на лице, тогда как в случае позированных экспрессий такого паттерна не наблюдается [Abramson, 2017]. Для повышения экологической валидности лабораторных экспериментов в последующих исследованиях необходим переход к более естественным выражениям, не основанным на игре актеров.

В дальнейших исследованиях необходимо и более точное разделение роли движений тела и ситуативного контекста, а также расширение диапазона распознаваемых эмоций. Также требуется уточнение того, в какой степени угловые размеры стимула (лица либо тела) определяют точность его распознавания. Поскольку при непосредственном общении мы обычно воспринимаем лицо коммуниканта с расстояния 1—3 м, а экспрессии тела, напротив, чаще воспринимаем на большем расстоянии, когда лицо может быть плохо различимо, необходимо учитывать данные особенности и при проведении лабораторных экспериментов. В частности известно, что точность распознавания лицевых экспрессий страха, печали и гнева при уменьшении угловых размеров стимула снижается быстрее, чем для других базовых эмоций, а характер ошибок распознавания меняется [Du, 2010]. В нашем исследовании увеличение линейных размеров изображения лица в два раза не привело к значимому повышению точности распознавания экспрессий.

Наше исследование не позволяет дать окончательный ответ о том, на какой стадии перцептивного процесса происходит объединение информации о лице и теле [Hu, 2020]. В пользу автоматического, раннего характера интеграции говорят данные айтрекинговых исследований, в которых паттерны фиксаций на изображении лица менялись в зависимости от экспрессии тела [Aviezer, 2008], а также отсутствие влияния дополнительной когнитивной нагрузки на интеграцию лица и тела [Aviezer, 2011]. В пользу более поздней интеграции свидетельствует отсутствие влияния экспрессии тела на адаптацию к экспрессии лица [Teufel, 2019]. Необходимо проведение дальнейших исследований, которые смогут прояснить данный вопрос.

Выводы

Восприятие целостного экспрессивного поведения опирается на информацию о выражении лица и тела и контексте ситуации.
Экспрессия лица, изолированная от контекста, в ряде случаев не обеспечивает надежного распознавания состояния коммуниканта.
В отсутствие информации о движениях тела и контексте ситуации экспрессии страха и скуки чаще воспринимаются как иные состояния негативной валентности.
Экспрессии радости, отвращения, возбуждения/интереса и разочарования менее подвержены влиянию расфокусировки.
Спокойное состояние лучше всего распознается по статичной позе, тогда как микроэкспрессии лица могут оцениваться неоднозначно.

Экспрессия	Натурщик 1 (м, 31)	Натурщица 2 (ж, 15)	Натурщица 3 (ж, 70)
Радость	Играет с воздушным шаром, подбрасывает его, подпрыгивает, улыбается, размахивает руками	Нюхает цветок, подпрыгивает, смеется, широко разводит руки, ходит вприпрыжку из стороны в сторону	Подбегает к столу с празднично оформленной коробкой и тортом со свечами, улыбается, хлопает в ладоши, задувает свечи
Страх	Осторожно подкрадывается к перевернутой корзине, заглядывает под нее, вздрагивает, отдергивает руку	Стоит, аккуратно тянется к перевернутой корзине, отдергивает руку, заглядывает под нее, отскакивает	Стоит, затем замечает паука на полу, отпрыгивает от него, медленно подходит к нему, осторожно приседая
Отвращение	Рассматривает флакон духов, открывает его, нюхает, брызгает на руку, нюхает, морщится и старается отряхнуть руку	Рассматривает флакон духов, открывает его, нюхает, брызгает на руку, нюхает, морщится, вытирает руку, отодвигает духи как можно дальше и старается отряхнуть руку	Стоит, затем начинает морщиться, видит кроссовки на полу, подходит к ним, нюхает и резко отворачивается, машет рукой перед лицом
Возбуждение	Подбегает к столу, хватает коробку с игрой, читает надпись, потирает руки и победно сжимает кулаки	Стоит в темных очках и с пляжной сумкой, затем снимает очки, улыбается, подпрыгивает, осматривается, ходит из стороны в сторону, смотрит вверх	Осторожно подходит к столу с празднично оформленной коробкой, трясет ее, победно сжимает руки, улыбается
Разочарование	Увлеченно играет в игру на смартфоне, затем резко опускает руки, вздыхает, чешет голову	Увлеченно играет в игру на смартфоне, затем резко опускает руки, вздыхает, смотрит на телефон	Улыбаясь подходит к столу с закрытой коробкой, открывает ее, переворачивает, убедившись, что она пуста, опускает руки
Скука	Сидит на стуле, запрокидывает голову, листает книгу, бросает ее на пол, вздыхает, смотрит на часы	Сидит за столом, подпирает рукой голову, раскладывает карты, затем сминает скатерть и смешивает карты, вздыхает, откидывается на стуле, смотрит по сторонам	Стоит, вздыхает, смотрит на часы, похлопывает себя по ноге, смотрит по сторонам
Спокойствие	Стоит без движения, смотрит перед собой	Стоит без движения, смотрит перед собой	Стоит без движения, смотрит перед собой

Восприятие эмоционального состояния коммуниканта на основе информации об экспрессиях его лица и тела

Резюме

Общая информация

Полный текст

Введение

Методы исследования

Результаты исследования

Обсуждение

Выводы

Литература

Приложение

Приложение. Описание содержания видеоклипов

Информация об авторах

Метрики

Просмотров web

Скачиваний PDF

Всего