Экспериментальная психология
2021. Том 14. № 4. С. 4–22
doi:10.17759/exppsy.2021140401
ISSN: 2072-7593 / 2311-7036 (online)
Восприятие естественных и искусственных динамических экспрессий в условиях стробоскопической экспозиции лица
Аннотация
Общая информация
Ключевые слова: выражения эмоций, восприятие экспрессий лица, невербальная коммуникация, стробоскопическая экспозиция, естественные экспрессии
Рубрика издания: Психология восприятия
Тип материала: научная статья
DOI: https://doi.org/10.17759/exppsy.2021140401
Финансирование. Исследование выполнено при финансовой поддержке Российского научного фонда (РНФ) в рамках научного проекта № 18-18-00350-П «Восприятие в структуре невербальной коммуникации».
Получена: 28.09.2021
Принята в печать:
Для цитаты: Королькова О.А., Лободинская Е.А. Восприятие естественных и искусственных динамических экспрессий в условиях стробоскопической экспозиции лица // Экспериментальная психология. 2021. Том 14. № 4. С. 4–22. DOI: 10.17759/exppsy.2021140401
Полный текст
Введение
Восприятие выражения лица собеседника играет ключевую роль в процессе коммуникации. Быстрое и точное определение того, какую эмоцию испытывает в настоящий момент партнер по общению, позволяет более эффективно выстраивать диалог и предвосхищать его дальнейшее развитие. В связи с этим изучение распознавания эмоциональных выражений представляет значительный интерес как для общей и социальной психологии, так и для психологии общения, а также находит широкое применение в практике — в психотерапии, в исследованиях массовой коммуникации, при обеспечении общественной безопасности, при разработке систем искусственного интеллекта, в кино и телевидении, и т. д.
На протяжении многих десятилетий изучение распознавания эмоций проводилось преимущественно на материале статичных изображений базовых экспрессий [1; 12; 13; 18;
31]. Ключевые характеристики восприятия эмоций по фотоизображениям лица были выявлены в работах П. Экмана, К. Изарда, Дж. Расселла, В. Брюс и др. Показан категориальный характер восприятия эмоций [34], выявлены мимические паттерны, соответствующие базовым эмоциям [17], описаны мозговые механизмы их восприятия [19; 32]. Однако, несмотря на значительные достигнутые успехи, проведенные исследования отличались низкой экологической валидностью, поскольку не учитывали динамический компонент выражения эмоций. С развитием технических возможностей возросло число исследований, в которых в качестве стимульного материала стали использоваться динамические изображения лицевых экспрессий [2; 24]. Было показано, в частности, что динамические экспрессии распознаются точнее и быстрее, чем статические, особенно в тех случаях, когда конфигуративная информация о лице ограничена либо условия восприятия затруднены [8; 11; 14; 22]. При этом эффект воспринимаемого движения и связанное с ним повышение точности оценок возникает благодаря специфике стимульной ситуации — принципиально важно наличие плавной последовательной смены кадров, отражающих мимические изменения на лице, тогда как прерывистая экспозиция отдельных фаз экспрессии либо искажение их естественного порядка препятствуют успешному распознаванию эмоций [9; 15; 16].
Скорость экспозиции изображения лица может иметь важное значение при распознавании выраженной эмоции и оценке ее естественности и искренности [25]. При этом оптимальная скорость, при которой эмоция распознается наиболее эффективно, зависит от степени знакомости лица и модальности эмоции [21; 29; 30]. Принципиальное значение также имеет качественный характер динамики экспрессии. В ранних исследованиях использовался компьютерный морфинг либо специальные программы для анимирования («оживления») фотоизображений лица и придания им динамических свойств. Однако возможности морфинга и компьютерной анимации по воспроизведению естественной мимики человека ограничены и не всегда способны передать движение «живого» лица, что отмечается наблюдателями. В частности показано, что при экспозиции видеоизображений базовых экспрессий и переходов между ними наблюдатели ориентируются на динамические признаки, отличающие реальное движение мимических мышц от искусственного линейного преобразования изображения [23].
В цикле ранее проведенных исследований восприятия базовых эмоциональных экспрессий лица в условиях стробоскопического движения было показано, что на точность их распознавания оказывают влияние такие факторы, как длительность экспозиции, модальность эмоции, доступность статической информации о лице и контекст, в котором демонстрируются экспрессии [4]. Показано принципиальное сходство для наблюдателя различных условий предъявления изображений: и в случае резкой, стробоскопической смены экспрессий, и при более плавных изменениях при увеличении продолжительности экспозиции точность распознавания эмоций возрастает, а структура ошибочных идентификаций, характерная для определенных эмоций, сохраняется [6]. Вместе с тем в описываемых исследованиях использовались позированные экспрессии, выполненные непрофессиональными актерами в соответствии с системой кодирования лицевых экспрессий П. Экмана [17]. Несмотря на то, что в ряде случаев данные выражения лица аналогичны экспрессиям, возникающим в повседневной жизни в ответ на эмоциогенные ситуации, остается открытым вопрос о том, соответствуют ли закономерности их восприятия особенностям оценки естественных эмоций на лице собеседника в процессе общения. Позированные экспрессии прежде всего нацелены на передачу определенного невербального сообщения, являясь своеобразными символами эмоций. В отличие от позированных, естественные экспрессии возникают спонтанно и соответствуют непосредственно переживаемому состоянию. Они не всегда являются ярко выраженными, их продолжительность может составлять доли секунды, а скорость и последовательность динамических изменений в отдельных зонах лица варьирует. В частности, значимо различаются спонтанные и позированные экспрессии удивления и отвращения, тогда как выражения радости/развлечения содержат сходные мимические паттерны, которые, однако, возникают на лице в разные моменты времени [27].
Цель настоящего исследования состояла в определении того, как проявляется влияние скорости изменения эмоции на лице на особенности ее распознавания, а также в определении роли качественных характеристик динамики лица в восприятии эмоции. Основываясь на методике, разработанной ранее при изучении восприятия стробоскопического (кажущегося) движения лица, мы провели эксперимент, состоящий из двух серий. Гипотезы заключались в следующем: 1) при увеличении длительности стробоскопической экспозиции экспрессий точность их распознавания повышается; 2) существуют различия между точностью распознавания естественного движения лица и экспрессий, предъявляемых в виде последовательности кадров, созданных методом линейного морфинга (искусственные изображения экспрессий). Кроме того, исходя из результатов сравнения спонтанной и позированной мимики [27], можно ожидать отличия восприятия естественных экспрессий от данных, полученных ранее на материале позированных выражений.
Методы
Участники исследования. В исследовании приняли участие 81 человек — студенты московских вузов первого и второго высшего образования. Из них 44 человека (40 женщин и 4 мужчины в возрасте 17—43 лет; медиана возраста 18 лет) участвовали в серии 1; 37 человек (30 женщин и 7 мужчин в возрасте 19—59 лет; медиана возраста 20 лет) — в серии 2. Участники имели нормальное или скорректированное до нормального зрение и не были знакомы с натурщицей, изображения которой использовались в качестве стимульного материала.
Стимульный материал. Использовался стимульный материал из авторской базы видеоизображений естественных экспрессий лица БЕВЭЛ [7]. Данная база содержит динамические экспрессии натурщиков, возникающие во время просмотра эмоционально окрашенных видеороликов. База была валидизирована на широкой выборке наблюдателей, которые оценивали каждое видеоизображение по Шкале дифференциальных эмоций и описывали их вербально.
Для настоящего исследования из базы БЕВЭЛ были отобраны четыре экспрессии натурщицы (женщина, 25 лет, балл по Торонтской шкале алекситимии (TAS-26) — 48), которые, согласно оценкам наблюдателей, воспринимаются как радость/счастье, удивление, отвращение/неприязнь и печаль/подавленность, при этом не содержат ярко выраженных признаков других эмоций. Продолжительность динамических экспрессий составляла 4—5 секунд, в течение которых происходило возникновение, нарастание и угасание экспрессии. Из каждого видеофрагмента мы отбирали по 5 кадров, демонстрирующих последовательное развитие экспрессий во времени: на кадрах 1—2 представлено возникновение и нарастание экспрессии; на кадре 3 — ее максимальное проявление; на кадрах 4—5 — угасание. При помощи ПО OpenFace и библиотеки dlib [10] на изображениях нивелировались движения головы, так чтобы глаза натурщицы располагались на одном и том же уровне на всех изображениях. Размер итоговых изображений составил 450*564 пикс., лицо представлено анфас крупным планом на нейтральном сером фоне. Данные изображения предъявлялись участникам серии 1 («кадры из видео»). На рис. 1А представлены кадры, демонстрирующие динамику экспрессии отвращения.
Дополнительно путем линейного морфинга при помощи ПО Fantamorf создавались искусственные переходные изображения (морфы). Для каждой из четырех эмоций создавался 50%-й морф между нейтральным выражением лица натурщицы и кадром с максимальным проявлением экспрессии. Последовательность из пяти изображений — нейтрального выражения, морфа, экспрессии максимальной интенсивности, морфа и нейтрального выражения — представляет собой равномерный, с точки зрения пространственных изменений, переход от спокойного состояния к сильно выраженной экспрессии и обратно. Данный способ создания искусственного перехода аналогичен способу, использованному в более ранних исследованиях, и позволяет получить впечатление относительно плавного динамического изменения выражения лица [6]. Полученные изображения предъявлялись участникам серии 2 («морфинг»). На рис. 1Б представлен пример искусственного переходного ряда от нейтрального выражения к сильно выраженному отвращению и обратно к нейтральному выражению.
Оборудование. Для предъявления стимульного материала использовались ЖК-мониторы с частотой обновления экрана 100 Гц, подключенные к ПК под управлением ОС Linux. Процедура исследования контролировалась с помощью ПО PXLab [20]. Исследование проводилось в условиях нормальной освещенности. Испытуемые располагались на расстоянии около 60 см от экрана и смотрели на изображения бинокулярно.
Процедура. В начале каждой пробы в центре экрана монитора в течение 2 секунд демонстрировался фиксационный крест (рис. 2). Затем, спустя случайный временной интервал (300—1300 мс), последовательно предъявлялись 5 кадров из видеозаписи естественной экспрессии (серия 1) либо 5 изображений из искусственного переходного ряда (серия 2).
Длительность первого стимульного изображения всегда составляла 300 мс, длительность последнего — 100 мс. Длительности предъявления изображений № 2, 3 и 4 варьировались. В эксперименте использовались три скорости экспозиции: высокая (изображения № 2, 3 и 4 предъявлялись на 10, 30 и 10 мс соответственно); средняя (20, 60 и 20 мс); низкая (40, 120 и 40 мс). Данные временные интервалы были подобраны на основании ранее проведенных нами исследований для создания впечатления относительно плавного движения с различной скоростью. После экспозиции стимульного материала следовал интервал 500 мс, и в конце пробы на экране демонстрировался вопрос «Какие эмоции присутствовали на изображении?» с вариантами ответа: «удивление», «отвращение», «радость», «гнев», «страх», «печаль», «другая эмоция». Задачей участников было распознать представленную на лице эмоцию и выбрать соответствующий вариант ответа. Пробы демонстрировались в псевдослучайном порядке, общее число проб составляло 120. Исследование занимало около 15 минут. После выполнения первых 60 проб участники могли сделать короткую паузу для отдыха. Тренировочная серия не проводилась.
Анализ данных. Полученные данные анализировались в среде статистической обработки R [28]. Оценивалось влияние качественного характера экспонируемой экспрессии (кадры из видео в серии 1 либо компьютерный морфинг в серии 2) и скорости ее экспозиции (высокая, средняя либо низкая) на точность распознавания эмоций, время ответа и категориальную структуру ответов. Из анализа исключались пробы, в которых значения времени ответа превышали 95%-й квантиль, рассчитанный для каждого испытуемого. Для анализа точности ответа использовался метод логистической регрессии со смешанными факторами. Данный метод позволяет учесть как влияние фиксированных факторов, которые целенаправленно варьируются в исследовании, так и вариативность результатов индивидуальных участников. Фиксированными факторами служили Тип изображений (кадры из видео; морфинг), Экспрессия (радость; удивление; отвращение; печаль), Скорость (высокая; средняя; низкая) и их взаимодействия. В модель также включался случайный эффект испытуемого, отражающий различия средних значений показателей точности ответов между участниками. На основании предсказанных моделью значений между различными условиями рассчитывались линейные контрасты с поправкой Бенджамини—Хохберга. Для анализа показателей времени ответа использовалась линейная регрессия со смешанными факторами. Контрасты между условиями рассчитывались аналогично анализу показателей точности ответа. Для сравнения категориальной структуры ответов между сериями 1 и 2 частоты выборов каждой из эмоций («удивление», «отвращение», «радость», «гнев», «страх», «печаль», «другая эмоция») при разной скорости экспозиции сравнивались при помощи точного теста Фишера.
Дополнительно проводилось сопоставление показателей точности ответа, полученных в настоящем исследовании, с результатами ранее проведенных экспериментов, в которых применялся стимульный материал из базы RaFD [26] — фотоизображения непрофессиональных актеров, имитирующих выражения базовых эмоций в соответствии с атласом FACS. Такие изображения являются позированными и не отражают спонтанные проявления эмоций. В частности, в сопоставление включены результаты эксперимента, проведенного с использованием процедуры ступенчатой стробоскопической экспозиции, аналогичной процедуре настоящего исследования; данную серию далее будем обозначать как «морфинг (2018)» в соответствии с годом оригинальной публикации [6; эксперимент 1]. В сопоставительный анализ также были включены результаты эксперимента, в котором использовалась процедура «прямоугольной» стробоскопической экспозиции: общее время экспозиции соответствовало тому, которое использовалось в настоящем исследовании, но последовательность демонстрируемых изображений не включала переходные морфы, а состояла только из нейтрального выражения (300 мс), сильно выраженной экспрессии (50/100/200 мс) и нейтрального выражения (100 мс). Данную серию обозначим как «морфинг (2016)» [3; серия 3]. С целью сопоставления трех исследований была построена логистическая смешанная линейная модель и рассчитаны линейные контрасты с поправкой Бенджамини—Хохберга между сериями.
Результаты
Результаты исследования показали, что при любой скорости экспозиции, как в случае линейного морфинга, так и при демонстрации кадров из видеозаписи, наиболее точно оцениваются выражения радости (средняя по всем условиям точность оценки составляет 0,79) и отвращения (0,76). Наименее точно распознается печаль (0,25). Экспрессия удивления занимает промежуточное положение (0,59) и демонстрирует наибольшие различия между оценками кадров из видео (0,42) и последовательностей морфинга (0,79). Время ответа при восприятии экспрессий радости (1828 мс), удивления (1794 мс) и отвращения (1904 мс) практически совпадает, тогда как при восприятии печали оно увеличивается (2298 мс). Точность распознавания всех эмоций, кроме печали, для любого типа предъявления повышается при увеличении длительности экспозиции. При искусственной экспозиции показатели точности увеличиваются для эмоции удивления. Эмоция радости распознается существенно точнее при естественной экспозиции. Точность и время ответа в зависимости от времени экспозиции и типа стимульных изображений приведены в табл. 1 и на рис. 3 и 4.
Таблица 1
Средняя точность и время идентификации экспрессий в зависимости от модальности экспрессии, скорости экспозиции и типа изображений
Экспрессия |
Высокая скорость |
Средняя скорость |
Низкая скорость |
|||
Кадры из видео |
Морфинг |
Кадры из видео |
Морфинг |
Кадры из видео |
Морфинг |
|
Радость |
0,75 (1808) |
0,51 (2142) |
0,9 (1655) |
0,74 (1989) |
0,94 (1645) |
0,89 (1807) |
Удивление |
0,05 (1894) |
0,57 (2016) |
0,25 (1947) |
0,84 (1853) |
0,95 (1579) |
0,97 (1476) |
Отвращение |
0,54 (1908) |
0,68 (2062) |
0,7 (1829) |
0,82 (2049) |
0,92 (1756) |
0,93 (1862) |
Печаль |
0,16 (2023) |
0,28 (2483) |
0,22 (2042) |
0,29 (2434) |
0,32 (2295) |
0,22 (2613) |
Средние значения |
0,37 (1908) |
0,51 (2176) |
0,52 (1868) |
0,67 (2080) |
0,79 (1816) |
0,76 (1937) |
Примечание. Перед скобками приведены значения точности оценок экспрессий, в скобках — время ответа в мс.
Построенная по результатам исследования регрессионная модель объясняет 57% дисперсии точности оценок (для фиксированных факторов R2m = 0,47; для полной модели R2c = 0,57). Сравнение средней точности оценок в двух сериях с помощью линейных контрастов приведено в табл. 2. При любой скорости экспозиции точность оценок экспрессий отвращения и печали не зависит от типа изображений: линейная трансформация изображения оценивается с той же степенью точности, что и кадры из видеоизображений лица (p > 0,197). Экспрессия радости распознается точнее в случае реальной мимики при высокой и средней скорости экспозиции (p < 0,008), а экспрессия удивления при аналогичной скорости экспозиции распознается значительно точнее при демонстрации последовательности линейного морфинга (p < 0,001). При низкой скорости экспозиции не наблюдается различий в точности распознавания реального движения и морфинга ни для одной из экспрессий (p > 0,906).
Влияние скорости экспозиции на точность ответа также статистически значимо (табл. 3): при уменьшении скорости экспозиции экспрессий радости, отвращения и удивления точность их распознавания значимо возрастает, как при реальном движении, так и при линейном морфинге (p < 0,001), за исключением экспозиции кадров из видеоизображений экспрессии радости, показатели точности распознавания которой не демонстрируют различий между условиями средней и низкой скорости экспозиции (p = 0,978). На точность оценок экспрессии печали скорость предъявления практически не влияет (p > 0,087); наблюдается лишь небольшое повышение точности распознавания при низкой скорости экспозиции реального движения по сравнению с высокой скоростью (p < 0,001).
Анализ структуры ошибочных ответов, полученных при идентификации экспрессий различного типа, показал, что категориальная структура восприятия эмоций значимо не меняется в зависимости от того, демонстрируются ли кадры из видеозаписей или последовательности морфинга (p > 0,286). На сложность распознавания эмоции указывает большая доля ответов «другое», когда участник исследования не смог сопоставить продемонстрированное выражение лица ни с одной из категорий базовых эмоций. Наиболее часто ответы «другое» встречаются при экспозиции кадров динамической экспрессии удивления, а также при экспозиции печали, как в виде линейного перехода, так и в виде кадров видеоизображения экспрессии. Кроме этого, печаль в ряде случаев идентифицируется как гнев либо отвращение. Экспрессии радости и удивления практически всегда распознаются однозначно, с небольшим числом отнесений их к другим категориям эмоций (рис. 4).
Линейная модель, построенная по результатам показателей времени ответа, объясняет 14% дисперсии данных (для фиксированных факторов R2m = 0,04; для полной модели R2c = 0,14). Согласно линейным контрастам, рассчитанным между различными условиями, тип изображений (кадры из видео или морфы) значимо не влияет на время ответа (скорректированные уровни значимости: p > 0,259). Скорость экспозиции значимо влияет только на время оценки экспрессии удивления: при низкой скорости время ответа уменьшается (p < 0,049) (рис. 5).
Таблица 2
Сравнение точности и времени идентификации экспрессий в зависимости от типа стимульных изображений
Экспрессия |
Скорость экспозиции |
Точность ответа |
Время ответа |
||
z-оценки |
р-уровень |
z-оценки |
p-уровень |
||
Радость |
Высокая |
4,699 |
0,001** |
-2,465 |
1,000 |
Средняя |
4,136 |
0,008** |
-2,502 |
1,000 |
|
Низкая |
1,647 |
1,000 |
-1,204 |
1,000 |
|
Удивление |
Высокая |
-10,985 |
<0,001*** |
-0,908 |
1,000 |
Средняя |
-11,480 |
<0,001*** |
0,644 |
1,000 |
|
Низкая |
-1,108 |
1,000 |
0,760 |
1,000 |
|
Отвращение |
Высокая |
-3,016 |
0,295 |
-1,090 |
1,000 |
Средняя |
-3,177 |
0,197 |
-1,553 |
1,000 |
|
Низкая |
-0,723 |
1,000 |
-0,759 |
1,000 |
|
Печаль |
Высокая |
-2,681 |
0,574 |
-3,401 |
0,259 |
Средняя |
-1,451 |
1,000 |
-2,851 |
0,823 |
|
Низкая |
2,308 |
0,906 |
-2,322 |
1,000 |
Примечание. В таблице приведены значения линейных контрастов между серией 1 (кадры из видео) и серией 2 (морфинг). Положительные значения z-оценок соответствуют более высокой точности/времени ответа в серии 1 по сравнению с серией 2; отрицательные значения — более высокой точности/време- ни ответа в серии 2 по сравнению с серией 1. Уровни значимости приведены с поправкой Бенджамини— Хохберга. Звездочками отмечены значимые различия: «**» — p < 0,01; «***» — p < 0,001.
При сопоставлении результатов настоящего исследования и более ранних экспериментов [3; 6] получены результаты, представленные на рис. 3. Точность распознавания экспрессии радости, демонстрируемой в виде последовательности кадров из видеозаписи естественного проявления эмоции, при любой скорости экспозиции совпадает с точностью распознавания фотоизображений позированных экспрессий из базы RaFD, предъявлявшихся как в режиме ступенчатой, так и в режиме «прямоугольной» стробоскопии (p > 0,990). При этом точность оценок морфов радости, предъявляемых в настоящем исследовании с высокой либо средней скоростью, снижена по сравнению с результатами ранее проведенных исследований (p < 0,008). При наиболее низкой скорости экспозиции радости результаты всех экспериментов совпадают (p > 0,103). Для экспрессии отвращения точность оценок кадров из видеофрагмента при высокой скорости экспозиции совпадает с результатами ранее проведенных экспериментов (p > 0,918), тогда как при средней и низкой скорости кадры из видеоизображения естественной экспрессии оцениваются более точно (p < 0,054). Точность оценки отвращения, представ-
Таблица 3
Сравнение точности и времени идентификации экспрессий в зависимости от скорости экспозиции
Экспрессия |
Тип изображения |
Скорость экспозиции |
Точность ответа |
Время ответа |
||
z-оценки |
p-уровень |
z-оценки |
p-уровень |
|||
Радость |
Кадры из видео |
Средняя > высокая |
5,789 |
<0,001*** |
-1,721 |
1,000 |
Низкая > высокая |
7,427 |
<0,001*** |
-1,800 |
1,000 |
||
Низкая > средняя |
2,201 |
0,978 |
-2,552 |
1,000 |
||
Морфинг |
Средняя > высокая |
6,911 |
<0,001*** |
-0,073 |
1,000 |
|
Низкая > высокая |
11,256 |
<0,001*** |
-1,542 |
1,000 |
||
Низкая > средняя |
5,524 |
<0,001*** |
-3,435 |
0,242 |
||
Удивление |
Кадры из видео |
Средняя > высокая |
7,688 |
<0,001*** |
0,539 |
1,000 |
Низкая > высокая |
19,952 |
<0,001*** |
-3,562 |
0,168 |
||
Низкая > средняя |
17,209 |
<0,001*** |
-4,093 |
0,026* |
||
Морфинг |
Средняя > высокая |
8,289 |
<0,001*** |
-1,698 |
1,000 |
|
Низкая > высокая |
10,663 |
<0,001*** |
-5,609 |
<0,001*** |
||
Низкая > средняя |
5,520 |
<0,001*** |
-3,924 |
0,049* |
||
Отвращение |
Кадры из видео |
Средняя > высокая |
5,130 |
<0,001*** |
-0,923 |
1,000 |
Низкая > высокая |
12,189 |
<0,001*** |
-1,764 |
1,000 |
||
Низкая > средняя |
8,405 |
<0,001*** |
-0,839 |
1,000 |
||
Морфинг |
Средняя > высокая |
4,570 |
0,001** |
-0,194 |
1,000 |
|
Низкая > высокая |
8,339 |
<0,001*** |
-2,091 |
1,000 |
||
Низкая > средняя |
4,627 |
0,001** |
-1,897 |
1,000 |
||
Печаль |
Кадры из видео |
Средняя > высокая |
2,382 |
0,848 |
0,237 |
1,000 |
Низкая > высокая |
5,729 |
<0,001*** |
3,139 |
0,482 |
||
Низкая > средняя |
3,474 |
0,087 |
2,905 |
0,752 |
||
Морфинг |
Средняя > высокая |
0,487 |
1,000 |
-0,564 |
1,000 |
|
Низкая > высокая |
-1,799 |
1,000 |
1,360 |
1,000 |
||
Низкая > средняя |
-2,283 |
0,920 |
1,926 |
1,000 |
Примечание. В таблице приведены значения линейных контрастов между различными условиями скорости экспозиции (высокой, средней и низкой) в сериях 1 (кадры из видео) и 2 (морфинг). Высокая скорость соответствует самой короткой длительности экспозиции; низкая скорость — самой продолжительной. Уровни значимости приведены с поправкой Бенджамини—Хохберга. Звездочками отмечены значимые различия: «*» — p < 0,05; «**» — p < 0,01; «***» — p < 0,001.
ленного в виде искусственного переходного ряда, в настоящем эксперименте выше, чем в более ранних экспериментах, при любой скорости экспозиции (p < 0,039). Точность оценок кадров из видеозаписи экспрессии печали при любом времени экспозиции снижается по сравнению с более ранними экспериментами (p < 0,001). Морфы печали в настоящем исследовании также оцениваются менее точно, за исключением самой высокой скорости экспозиции, при которой оценки морфов, предъявляемых в условиях ступенчатой стробоскопии, значимо не отличаются от оценок морфов, ранее полученных в таких же условиях на другом стимульном материале (p = 0,060). Последовательность кадров из видеозаписи экспрессии удивления оценивается менее точно, чем последовательности линейных морфов в предыдущих исследованиях, при высокой и средней скорости экспозиции (p < 0,001), однако при низкой скорости точность оценок кадров из видео возрастает (p < 0,052). Значимые различия между оценками морфов в настоящем и ранее проведенных исследованиях наблюдаются при самой высокой (p < 0,001) и самой низкой скоростях экспозиции (p < 0,003).
Таким образом, по результатам проведенного исследования удалось выявить ряд различий между точностью оценок двух типов изображений экспрессий радости и удивления: 1) кадров из реальных видеозаписей; 2) последовательностей линейных морфов, созданных на основе видеозаписей. Экспрессии отвращения и печали оцениваются одинаково вне зависимости от типа демонстрируемых изображений. Увеличение продолжительности экспозиции приводит к повышению точности распознавания радости, удивления и отвращения, но не влияет на точность оценок печали. Время ответа также не зависит от типа изображений, но повышается при восприятии печали по сравнению с другими экспрессиями. Показатели точности оценок печали и, в ряде случаев, удивления значимо снижаются относительно точности оценок тех же эмоций, полученных в предыдущих исследованиях с использованием другого стимульного материала. Показатели точности оценок отвращения возрастают, а экспрессия радости в большинстве случаев распознается с той же степенью точности.
Обсуждение
Проведенное исследование было направлено на уточнение особенностей восприятия естественных эмоциональных выражений лица при разных временных режимах экспозиции. Сопоставлялась точность и время распознавания экспрессий, представленных в виде последовательности кадров с изображениями естественной динамики выражений лица либо в виде линейного морфинга, которые демонстрировались в условиях ступенчатого стробоскопического предъявления с различной скоростью. Гипотезы исследования частично подтвердились. В частности, мы показали, что при снижении скорости экспозиции и, соответственно, более длительном предъявлении изображения лица точность восприятия экспрессий радости, удивления и отвращения монотонно возрастает, а точность оценок печали не меняется. При средней и высокой скорости экспозиции изображений экспрессий радости и удивления наблюдаются различия между оценками кадров из видеозаписей и морфов; оценки печали и отвращения от типа изображений не зависят.
Среди всех рассмотренных эмоций точнее всего распознаются выражения радости. Оценки реалистичных изображений радости достигают максимального уровня уже при средней скорости предъявления, тогда как для эффективного распознавания удивления и отвращения необходима более длительная экспозиция. Высокоаттрактивный, «броский» характер экспрессии радости и наиболее высокая точность ее распознавания относительно других базовых экспрессий подтверждаются ранее проведенными исследованиями [3; 4; 6] и практически не зависят ни от способа экспозиции (ступенчатый переходный ряд либо мгновенная смена нейтрального лица выражением радости), ни от особенностей порождения экспрессии (позированные выражения лица непрофессиональных актеров либо естественные эмоции, вызванные эмоциогенными стимулами). Данные результаты также согласуются с результатами исследования, в котором при сравнении ключевых мимических паттернов спонтанной и позированной экспрессий радости/развлечения не было выявлено значимых различий [27]. Ошибки распознавания, возникающие при оценке морфов либо кадров из видеоизображений радости, носят случайный характер и не меняют структуру категориального поля данной эмоции.
В отличие от радости экспрессия печали является низкоаттрактивной и распознается наименее точно, а время ответа при этом увеличено относительно времени распознавания других экспрессий. О трудности оценки печали говорят и частые выборы ответа «другая эмоция», а также ее ошибочная идентификация с эмоциями гнева и отвращения. Ни скорость экспозиции, ни качественный характер изображений (кадры из видеозаписи либо линейный морфинг) не влияют на точность и время оценок печали. Данные о наиболее низкой точности распознавания печали относительно точности распознавания других эмоций согласуются с результатами аналогичных исследований. Вместе с тем оценки, которые были получены при валидизации базы БЕВЭЛ, показывают, что при демонстрации видеоизображений естественные выражения печали распознаются с достаточно высокой точностью. По сравнению с предыдущими экспериментами, где в качестве стимульного материала применялись сильно выраженные позированные экспрессии [3; 6], результаты настоящего исследования продемонстрировали значимо более низкую точность. Наиболее заметны эти расхождения при низкой скорости экспозиции: в ранее проведенных исследованиях увеличение времени предъявления обеспечивало более точное распознавание печали. Однако при снижении интенсивности экспрессии печали в одном из ранних исследований данная эмоция распознавалась с точностью 0,27 [6; эксперимент 2], что практически совпадает с полученными в настоящей работе результатами (0,25). Можно предположить, что в настоящем исследовании сложность распознавания печали связана с особенностями экспериментальной процедуры — прежде всего с кратковременностью предъявления изображений лица. Естественное проявление печали на лице является менее интенсивным, чем позированное выражение, и не всегда имеет ярко выраженный мимический паттерн [27], но может включать движение головы, которое при стробоскопической экспозиции способно маскировать экспрессию лица, а при демонстрации полного видеофрагмента позволяет точнее идентифицировать эмоцию печали.
В случае экспрессии отвращения наблюдаются изменения точности ответа в зависимости от скорости экспозиции, но не от качественного характера изображений. При этом в настоящем исследовании «отвращение», изображение которого демонстрируется со средней либо низкой скоростью, оценивалось точнее, чем позированные выражения отвращения в предыдущих исследованиях. Полученная категориальная структура экспрессии отвращения не включает проявлений каких-либо дополнительных эмоций (см. рис. 4), тогда как ранее на материале позированных экспрессий выявлялся существенный вклад эмоции гнева, с которой экспрессия отвращения ошибочно идентифицировалась [5; 6]. В другом исследовании было показано, что мимические паттерны спонтанного отвращения значимо отличаются от позированной экспрессии: а именно, при спонтанном выражении эмоции чаще опускаются уголки рта и поднимается верхняя губа, а при позированном значимо чаще приподнимаются мышцы подбородка [27]. Вероятно, данные признаки естественного выражения эмоции отвращения, наряду с другими, такими как отведенный взгляд натурщицы, играют ключевую роль при дифференциации данного состояния от других эмоций.
Экспрессия удивления, демонстрируемая в виде линейного преобразования изображений, распознавалась значительно более точно, чем кадры видеоизображения естественного выражения удивления. Структура ошибок распознавания, возникающих в последнем случае, говорит о сложности идентификации «удивления» с какой-либо эмоцией при быстром предъявлении его изображений. При сравнении полученных результатов с данными других исследований также обнаружены значительные расхождения в точности оценок. Так, оценки линейных морфов удивления в настоящем эксперименте и в более ранних работах практически совпадают между собой, существенно превосходя оценки спонтанной экспрессии. Объяснением этому факту может служить краткость естественного проявления эмоции удивления в спонтанной мимике. Реалистичная экспрессия удивления длится доли секунды, тогда как позированное выражение может сохраняться на лице в течение более длительного времени. Кроме того, по сравнению с естественным проявлением удивления, позированная экспрессия значимо более часто включает такие мимические действия, как поднятие бровей, поднятие верхнего века, размыкание губ и опускание нижней челюсти [27]. Использованный и в настоящем исследовании, и в других работах линейный морфинг обеспечивает более плавное и медленное нарастание выражения удивления по сравнению с естественной эмоцией, что при высоких скоростях экспозиции позволяет точнее его распознать.
Настоящее исследование имеет ряд ограничений, связанных с особенностью процедуры и использованным стимульным материалом. Прежде всего, в эксперименте оценивались изображения только одной натурщицы женского пола, в связи с чем обобщение полученных результатов на условие распознавания естественных проявлений эмоций у разных натурщиков является преждевременным. Кроме того, в эксперимент были включены только четыре базовые экспрессии, не отражающие полный спектр спонтанных проявлений эмоциональных состояний. Участники проведенного исследования были преимущественно женского пола. Известно, что женщины точнее и быстрее распознают эмоции, независимо от интенсивности эмоции и ее категории [33], в связи с чем результаты с использованием сбалансированной по полу выборки могут отличаться от полученных в настоящем исследовании. Тем не менее, полученные результаты вносят вклад в изучение восприятия естественных эмоциональных экспрессий. Сделан важный шаг в направлении сближения лабораторного эксперимента и естественных ситуаций коммуникации.
Выводы
1. При ступенчатой стробоскопической экспозиции естественных экспрессий лица, вызванных эмоциогенными стимулами, сохраняются основные тенденции распознавания базовых эмоций, характерные для восприятия позированных экспрессий.
2. Наиболее точно оценивается выражение эмоции радости/счастья, наименее точно — выражение печали. Точность распознавания эмоций отвращения/неприязни и удивления находится на среднем уровне.
3. Скорость стробоскопической экспозиции выражений лица влияет на точность оценок радости, отвращения и удивления, однако при оценке эмоции печали такой взаимосвязи не наблюдается.
4. Различия между оценками кадров из видеоизображений спонтанных экспрессий и линейными морфами, искусственно созданными на их основе, проявляются при восприятии выражений радости и удивления. Оценки отвращения и печали от типа стимульных изображений не зависят.
5. Восприятие естественных эмоциональных экспрессий удивления, отвращения и печали опосредовано особенностями динамики и интенсивности мимических паттернов, качественно отличающихся от динамики позированных выражений.
6. Категориальная структура восприятия экспрессий, включающая верные ответы, систематические «ошибки» распознавания и случайные ответы, сохраняется при любом типе экспонируемых изображений.
Литература
- Барабанщиков В.А., Жегалло А.В., Королькова О.А. Перцептивная категоризация выражений лица. М.: Когито-Центр, 2016. 360 с.
- Барабанщиков В.А., Королькова О.А. Восприятие экспрессий «живого» лица // Экспериментальная психология. 2020. Том 13. № 3. С. 55—73. DOI: 10.17759/exppsy.2020130305
- Барабанщиков В.А., Королькова О.А., Лободинская Е.А. Влияние микропаузы на распознавание базовых экспрессий при стробоскопической экспозиции лица // Лицо человека в пространстве общения. М.: МИП; Когито-Центр, 2016. С. 339—353.
- Барабанщиков В.А., Королькова О.А., Лободинская Е.А. Восприятие микроэкспрессий лица в условиях кажущегося движения и маскировки. М.: Когито-Центр, 2021. 178 с.
- Барабанщиков В.А., Королькова О.А., Лободинская Е.А. Восприятие эмоциональных экспрессий лица при его маскировке и кажущемся движении // Экспериментальная психология. 2015. Том 8. № 1. С. 7—27.
- Барабанщиков В.А., Королькова О.А., Лободинская Е.А. Распознавание эмоций в условиях ступенчатой стробоскопической экспозиции выражений лица // Экспериментальная психология. 2018. Том 11. № 4. С. 50—69. DOI: 10.17759/exppsy.2018110405
- Королькова О.А., Лободинская Е.А. Индукция естественных эмоциональных выражений лица // Внешний облик в различных контекстах взаимодействия: материалы Всероссийской научной конференции, 28—30 октября 2019 года / Ред. П.Н. Ермаков, В.А. Лабунская, Г.В. Сериков. М.: КРЕДО, 2019. С. 41—43.
- Alves N.T. Recognition of static and dynamic facial expressions: a study review // Estudos de Psicologia (Natal). Vol. 18. № 1. P. 125—130. DOI: 10.1590/S1413-294X2013000100020
- Ambadar Z., Schooler J.W., Cohn J.F. Deciphering the Enigmatic Face: The Importance of Facial Dynamics in Interpreting Subtle Facial Expressions // Psychological Science. Vol. 16. № 5. P. 403—410. DOI: 10.1111/j.0956-7976.2005.01548.x
- Baltrusaitis T., Zadeh A., Lim Y.C., Morency L.-P. OpenFace 2.0: Facial Behavior Analysis Toolkit // 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). Xi’an, China: IEEE, 2018. P. 59—66. DOI: 10.1109/FG.2018.00019
- Bould E., Morris N. Role of motion signals in recognizing subtle facial expressions of emotion // British Journal of Psychology. Vol. 99. № 2. P. 167—189. DOI: 10.1348/000712607X206702
- Bruce V., Young A.W. In the eye of the beholder: the science of face perception. Oxford: Oxford University Press, 1998.
- Calder A.J., Rhodes G., Johnson M.H., Haxby J. V. The Oxford Handbook of Face Perception / Eds. A.J. Calder, G. Rhodes, M.H. Johnson, J.V Haxby. Oxford: Oxford University Press, 2011. 916 p.
- Calvo M.G., Avero P., Fernández-Martín A., Recio G. Recognition thresholds for static and dynamic emotional faces // Emotion. Vol. 16. № 8. P. 1186—1200. DOI: 10.1037/emo0000192
- Cunningham D.W., Wallraven C. The interaction between motion and form in expression recognition // Proceedings of the 6th Symposium on Applied Perception in Graphics and Visualization (APGV 2009). New York, New York, USA: ACM Press, 2009. P. 41—44. DOI: 10.1145/1620993.1621002
- Delis I., Chen C., Jack R.E., Garrod O.G.B., Panzeri S., Schyns P.G. Space-by-time manifold representation of dynamic facial expressions for emotion categorization // Journal of Vision. Vol. 16. № 8. P. 1—20. doi: 10.1167/16.8.14
- Ekman P., Friesen W.V. Facial action coding system: A technique for the measurement of facial movement. Palo Alto, CA: Consulting Psychologists Press, 1978.
- Ekman P., Rosenberg E.L. What the Face Reveals: Basic and Applied Studies of Spontaneous Expression Using the Facial Action Coding System (FACS). Y.: Oxford University Press, 2005. 486 p. DOI: 10.1093/ acprof:oso/9780195179644.001.0001
- Fusar-Poli P., Placentino A., Carletti F., Landi P., Allen P., Surguladze S., Benedetti F., Abbamonte M., Gasparotti R., Barale F. [et al.]. Functional atlas of emotional faces processing: A voxel-based meta-analysis of 105 functional magnetic resonance imaging studies // Journal of Psychiatry and Neuroscience. Vol. 34. № 6. P. 418—432. DOI: 10.1016/S1180-4882(09)50077-7
- Irtel H. PXLab: The Psychological Experiments Laboratory [online]. Version 2.1.11. Mannheim (Germany): University of Mannheim, 2007.
- Kamachi M., Bruce V., Mukaida S., Gyoba J., Yoshikawa S., Akamatsu S. Dynamic properties influence the perception of facial expressions // Perception. Vol. 30. № 7. P. 875—887. DOI: 10.1068/p3131
- Kätsyri J., Sams M. The effect of dynamics on identifying basic emotions from synthetic and natural faces // International Journal of Human-Computer Studies. Vol. 66. № 4. P. 233—242. DOI: 10.1016/j. ijhcs.2007.10.001
- Korolkova O.A. The role of temporal inversion in the perception of realistic and morphed dynamic transitions between facial expressions // Vision Research. Vol. 143. P. 42—51. DOI: 10.1016/j. visres.2017.10.007
- Krumhuber E.G., Kappas A., Manstead A.S.R. Effects of Dynamic Aspects of Facial Expressions: A Review // Emotion Review. Vol. 5. № 1. P. 41—46. DOI: 10.1177/1754073912451349
- Lander K., Butcher N.L. Recognizing Genuine From Posed Facial Expressions: Exploring the Role of Dynamic Information and Face Familiarity // Frontiers in Psychology. 2020. Vol. 11. P. 1—6. DOI: 10.3389/FPSYG.2020.01378/BIBTEX
- Langner O., Dotsch R., Bijlstra G., Wigboldus D.H.J., Hawk S.T., Knippenberg A. van. Presentation and validation of the Radboud Faces Database // Cognition & Emotion. Vol. 24. № 8. P. 1377—1388. DOI: 10.1080/02699930903485076
- Namba S., Makihara S., Kabir R.S., Miyatani M., Nakao T. Spontaneous Facial Expressions Are Different from Posed Facial Expressions: Morphological Properties and Dynamic Sequences // Current Psychology. Vol. 36. № 3. P. 593—605. DOI: 10.1007/s12144-016-9448-9
- R Core Team. R: A language and environment for statistical computing // R Foundation for Statistical Computing, Vienna, Austria.
- Recio G., Schacht A., Sommer W. Classification of dynamic facial expressions of emotion presented briefly. // Cognition & Emotion. Vol. 27. № 8. P. 1486—1494. DOI: 10.1080/02699931.2013.794128
- Sowden S., Schuster B.A., Keating C.T., Fraser D.S., Cook J.L. The role of movement kinematics in facial emotion expression production and recognition // Emotion. DOI: 10.1037/emo0000835
- The Psychology of Facial Expression / Eds. J.A. Russell, J.M. Fernández-Dols. Cambridge: Cambridge University Press, 1997. 415 p. DOI: 10.1017/CBO9780511659911
- Wegrzyn M., Riehle M., Labudda K., Woermann F., Baumgartner F., Pollmann S., Bien C.G., Kissler J. Investigating the brain basis of facial expression perception using multi-voxel pattern analysis // Cortex. Vol. 69. P. 131—140. DOI: 10.1016/j.cortex.2015.05.003
- Wingenbach T.S.H., Ashwin C., Brosnan M. Sex differences in facial emotion recognition across varying expression intensity levels from videos // PLOS ONE. 2018. 13. № 1. P. 1—18. DOI: 10.1371/journal. pone.0190634
- Young A.W., Rowland D., Calder A.J., Etcoff N.L., Seth A., Perrett D.I. Facial expression megamix: Tests of dimensional and category accounts of emotion recognition // Cognition. Vol. 63. № 3. P. 271—313.
Информация об авторах
Метрики
Просмотров
Всего: 759
В прошлом месяце: 15
В текущем месяце: 4
Скачиваний
Всего: 262
В прошлом месяце: 6
В текущем месяце: 1