Восприятие целого и части аудиовидеоизображений мультимодальных эмоциональных состояний человека

Барабанщиков В.А.; Суворова Е.В.

doi:10.17759/exppsy.2022150401

Экспериментальная психология
2022. Том 15. № 4. С. 4–21
doi:10.17759/exppsy.2022150401
ISSN: 2072-7593 / 2311-7036 (online)

Восприятие целого и части аудиовидеоизображений мультимодальных эмоциональных состояний человека

169

Барабанщиков В.А., Суворова Е.В.

Аннотация

Изучаются закономерности восприятия части и целого мультимодальных динамических состояний людей, незнакомых наблюдателям. Двум группам испытуемых в случайном порядке предъявлялись аудиовидеоролики четырнадцати ключевых эмоциональных состояний, выраженных специально обученными актерами. В одной группе (N=96, средний возраст — 34 года, SD — 9,4) каждое аудиовидеоизображение демонстрировалось полностью, в другой (N=78, средний возраст — 25 лет, SD — 9,6) разделялось на две равные по длительности части от начала до условной середины (короткой фонетической паузы) и от середины до завершения экспозиции. Стимульный материал содержал мимику, жесты, движения головы и глаз, изменения положения корпуса тела натурщиков, которые озвучивали псевдолингвистические высказывания, сопровождаемые аффективными интонациями. От наблюдателей требовалось после экспозиции каждого аудиовидеоизображения из представленного списка эмоций выбрать ту, которая максимально соответствует увиденной. Оценивались точность идентификации и структура категориальных полей в зависимости от модальности и формы (целое/часть) экспозиции аффективных состояний. Согласно полученным данным, точности идентификации эмоций начального и завершающего фрагментов аудиовидеоизображений практически совпадают, но значимо меньше, чем при полной экспозиции. Выявлены функциональные различия в восприятии фрагментированных аудиовидеоизображний одних и тех же эмоциональных состояний. Показаны режимы переходов от начального этапа к конечному и условия, влияющие на относительную скорость перцептивного процесса. Продемонстрированы неравномерность формирования информационной основы мультимодальных выражений и гетерохронность перцептогенеза эмоциональных состояний натурщиков.

Общая информация

Ключевые слова: мультимодальные динамические экспрессии, целостное восприятие, видеоизображение лица, выражение эмоций, идентификация выражений лица, аффективные состояния

Рубрика издания: Психология восприятия

Тип материала: научная статья

DOI: https://doi.org/10.17759/exppsy.2022150401

Финансирование. Исследование выполнено при поддержке Российского научного фонда, проект №18-18-00350-П «Восприятие в структуре невербальной коммуникации».

Получена: 15.10.2022

Принята в печать: 01.12.2022

Для цитаты: Барабанщиков В.А., Суворова Е.В. Восприятие целого и части аудиовидеоизображений мультимодальных эмоциональных состояний человека // Экспериментальная психология. 2022. Том 15. № 4. С. 4–21. DOI: 10.17759/exppsy.2022150401

Полный текст

Введение

В отличие от «модальности» как содержательной определенности эмоционального состояния — радости, страха, отвращения и т.п., термин «мультимодальность» подчеркивает множественность средств и способов его выражения — мимики, жестов, интонации и др., их взаимосвязь и динамику. Изучение мультимодальных выражений эмоций и их идентификации соответствует требованиям экологической валидности исследований и представляется весьма перспективным [2; 12; 13; 14; 16].

Наши работы в этой области базируются на русскоязычной версии Женевского теста на распознавание эмоций — GERT [7], который позволяет изучать феномен восприятия «живого» лица на материале экспозиций аудиовидеоизображений игры профессиональных актеров в аффективных ситуациях. Стимульный материал, оценочная шкала и протокол эксперимента построены на концепте «Женевского колеса эмоций» — объединении в круг 14 ключевых категорий эмоциональных состояний в зависимости от валентности и степени возбуждения (активации) [15]. Мы показали, что, несмотря на различия в значении оценок, выполняемых швейцарскими и российскими наблюдателями, тенденции распознавания мультимодальных экспрессий в целом совпадают. Имеет место высокая точность идентификации, сниженная частота некорректных ответов (дополнительных эмоций), нерегулярность соотношения точности распознавания состояния и степени возбуждения, ограниченность оценок видеоизображений эмоций внутригрупповыми категориями, либо категориями, расположенными на Женевском колесе в смежных позициях. Категоризация динамических экспрессий «живого» лица не ограничивается диагностическими признаками статичных фотоизображений эмоций и опирается на другие источники информации. Наряду с развертыванием мимики в выражение состояний включаются жесты, зрительный контакт, интонации голоса (псевдолингвистические высказывания), позы и др. Разнообразные источники информации, как правило, взаимосвязанны, дополняют и поддерживают друг друга. Складывается многомерное представление наблюдателя об эмоциональном состоянии натурщика, формируются категориальные поля более высокого уровня организации. Ответы испытуемых, зарегистрированные в условиях лабораторного и дистантного (онлайн) экспериментов, совпадают в 86% случаев [5; 6].

Выявленные закономерности по-разному проявляются в зависимости от пола и возраста участников экспериментов, а также от индивидуальных форм выражения состояний актерами-натурщиками. Женщины точнее идентифицируют мультимодальные экспрессии и наиболее эффективно распознают эмоции, выраженные другими женщинами. Статистически значимые половозрастные различия зарегистрированы при экспозиции пяти эмоций: радости, развлечения, раздражения, гнева и удивления. Гендерный фактор выражения и восприятия мультимодальных состояний человека выступает как гибкая система детерминант, меняющая свои характеристики в зависимости от конкретной коммуникативной ситуации [7; 8].

Способность произвольно выражать эмоциональное состояние не является универсальной и для каждого актера-натурщика модально специфична. Индивидуальная стилистика экспрессий широко варьирует, охватывая как доминантные, так и субдоминантные образования. Последние объективируют уникальные оттенки переживаемых состояний, создавая впечатление качественного многообразия одной и той же эмоции. При определенных условиях они способны маскировать или даже замещать целевые выражения. Высокая корреляционная взаимосвязь между длительностью эмоции и точностью ее выражения зарегистрирована на двух натурщиках из 10, указывая на возможность использования темпорального фактора в качестве средства выражения и восприятия мультимодальных эмоций. Продемонстрированы множественность равноценных путей объективации одного и того же аффективного состояния. Наименее адекватно проявляются эмоции, отличающиеся низкой экспрессивной насыщенностью: слабой выразительностью мимики, жестов, интонации голоса, общих движений. Логика исследования подводит к анализу собственно переживаний человека (их состава, структуры, динамики) в условиях, приближенных к реальным. Складывается новая экспериментальная парадигма, объединяющая исследования переживания, выражения и восприятия эмоций [7; 8].

В новом исследовании авторы обратились к изучению темпоральной организации восприятия мультимодальных состояний в рамках парадигмы часть/целое. Идея эксперимента состояла в том, чтобы, используя стимульный материал и процедуру методики GERT, провести сопоставление оценок наблюдателей при демонстрации: (а) целого аудиовидеоизображения эмоции, (b) его первой половины — от начала предъявления до среднего кадра и (c) второй половины — от среднего кадра до завершения. Зная характер ответов (точность идентификации, особенности дополнительных эмоций) за единицу времени в каждой ситуации, а также длительность экспозиции (пусть очень грубо), можно попытаться раскрыть закономерности развертывания выражения эмоций и логику их восприятии в условиях, близких к естественным.

Нас интересовала следующая группа вопросов. Как соотносятся целое и его части в восприятии мультимодальных динамических функциональных состояний партнера по коммуникации? Чем отличаются и в чем похожи идентификации мультимодальных состояний на ранних и поздних этапах его выражения? Какую роль в выражениии восприятии части и целого играют категории эмоции? Решение этих и подобных вопросов проливает свет на закономерности перцептогенеза мультимодальных динамических состояний. В практическом плане предлагаемый подход подводит к моделированию процессов восприятия эмоциональных состояний коммуникантов в условиях окклюзии: загораживания лица или фигуры человека предметами одежды или интерьера, при изменении его положения в пространстве или выполнении действий.

Методика

Стимульный материал и оценочные средства. Для выполнения задач исследования авторы использовали стимульный материал методики GERT, который представлен 83 короткими аудиовидеоклипами четырнадцати эмоциональных состояний, организованными в соответствии с принципами «Женевского колеса эмоций» [5; 6] (рис. 1). Эмоциональные состояния выражены профессиональными актерами и включают 4 аффективных объединения и три отдельные эмоции. Гордость, развлечение, радость, удовольствие и облегчение образуют группу состояний с положительной валентностью (группа А); в нее входят различные формы проявления достижений человека, которые часто наблюдаются в социальных ситуациях. В аффективных группах состояний с отрицательной валентностью (B, C и D) однотипные эмоции разделены по степени возбуждения. Аффективная группа B включает тревогу и страх; группа C — печаль и горе; группа D — раздражение и гнев. Эмоция отвращения, а также амбивалентные эмоции интереса и удивления рассматриваются как независимые состояния. При выражении эмоций актеры использовали мимику, жесты, повороты головы и тела, а также псевдолингвистические фразы в восклицательной и в вопросительной формах:(1) «не кал ибам суд молен!» (“ne kalib am sud molen!”) и (2) «кун се мина лод белам?» («kun se mina lod belam?»). Высказываниям придавался смысл: «Не могу в это поверить» («I cannot believe it!») и «Ты действительно так считаешь?» («Is this really your opinion?»). Благодаря короткой (миллисекундной) структурной паузе фразы делились на две примерно одинаковые части, а сама пауза рассматривалась нами как ее условная середина («средняя точка»). Первая часть аудиовидеоизображения включала фонетические слова(a) «не кал ибам» либо (б) «кун се мина», вторая — (a) «суд молен!» либо (б) «лод белам?».

Рис. 1. «Женевское колесо эмоций»: русскоязычная версия [5]

Из 83 аудиовидеоклипов GERT было отобрано четырнадцать с наиболее высокой точностью распознавания ключевых категорий эмоций, по одной на каждую модальность, представленных разными актерами (пять женщин и трое мужчин). В соответствии с частями псевдолингвистического высказывания экспонируемые аудиовидеоизображения были разделены на фрагменты длительностью 0,7—3с. Длительностицелых видеоизображений и его частей приведены в табл. 1. Требовалось определить, какой эмоции из данного списка соответствует экспонируемое аудиовидеоизображение. К 14 модальностям добавлялась категория «другие эмоции», расширяющая возможности принудительного выбора.

В начале прохождения эксперимента участникам предоставлялся перечень эмоций и их содержание на бумажном носителе [5].

Процедура и участники исследования. Исследования проводились в помещении специализированной лаборатории. Дисплей с разрешением 1920x1080px располагался на расстоянии 60 см от лица испытуемого.

Участники исследования знакомились с инструкцией на экране монитора, включающей рекомендации, технические особенности прохождения эксперимента. После выполнения тренировочных заданий (3 аудиовидеоизображения) участник имел возможность вернуться к инструкции повторно. Во время основной серии наблюдателям в случайном порядке транслировались наборы аудиовидеоизображений14 мультимодальных эмоциональных экспрессий—целостных (14 экспозиций) или фрагментированных (28 экспозиций). Аудиовидеоизображение каждой части предъявлялось один раз, после чего участникам эксперимента предлагалось выбрать слово, которое как можно точнее обозначает эмоцию, отметив его «галочкой» с помощью компьютерной мышки. Техническая реализация эксперимента реализована на платформе GoogleForms.

В эксперименте участвовали специалисты разных областей науки и практики, а также учащиеся (студенты и аспиранты) российских вузов. 174 испытуемых были разделены на две группы. Фрагментированное аудиовидеоизображение актеров-натурщиков предъявлялось группе из 78 человек, в возрасте 17—60 лет (M=25 лет, SD=9,6 лет). Целые аудиовидеоизображения предъявлялись группе из 96 человек, в возрасте 20—62 года (M=34 года, SD=9,4 лет).

Анализ данных. Частота распознавания фрагментированных изображений сравнивались с результатами оценки целого аудиовидеоизображения. Анализировались количество корректных и некорректных оценок для каждого аудиовидеоизображения. Первичные данные проходили предварительную обработку в MS Office, Excel 2010. Для целей статистического анализа использовался пакет программ SPSS 22.0. При определении различий применялись: U-критерий Манна—Уитни для сравнения независимых выборок; G-критерий Макнемара для зависимых выборок, с уровнем значимости p<0,05; коэффициент корреляции Спирмена с уровнем значимости p<0,05; а также индекс дополнительных эмоций, соотношение суммы иррелевантных оценок, превосходящих уровень случайных значений для каждой категории (e_i, где i—иррелевантная категория эмоции при условии, что ei>0,05), и точности распознавания (Т): Идэ=∑(e_i)/T.

Результаты

В табл. 1 показаны длительности экспозиций целостных аудиовидеоизображений и их фрагментов, а также частота (точность) распознавания мультимодальных эмоциональных состояний актеров-натурщиков. Точность распознавания эмоций (корректная идентификация) при экспозиции целого и фрагментированного аудиовидеоизображений представлена на рис. 2.

Таблица 1

Точность распознавания эмоций(корректная идентификация) при экспозиции целого и фрагментированногоаудиовидеоизображений

Эмоция	Целое аудиовидеоизображение		Первая часть аудиовидеоизображения		Вторая часть аудиовидеоизображения		Асимптотическая значимость различий
Эмоция	Длительность, с.	Частота распознавания	Длительность, с.	Частота распознавания	Длительность, с.	Частота распознавания	между целым и первой частью	между целым и второй частью	между первой и второй частью
Гордость	2,64	0,7	1,1	0,17	1,54	0,29	,000*	,000*	,058
Радость	2,79	0,82	1,23	0,79	1,56	0,81	,640	,797	,841
Развлечение	2,56	0,64	0,97	0,51	1,59	0,37	,104	,001*	,077
Удовольствие	4,6	0,9	2,03	0,73	2,57	0,78	,005*	,040*	,457
Облегчение	2,08	0,86	0,93	0,27	1,15	0,72	,000*	,017*	,000*
Интерес	3,08	0,92	1,27	0,82	1,81	0,59	,058	,000*	,002*
Удивление	4,48	0,92	1,4	0,85	3,08	0,78	,148	,012*	,305
Тревога	2,04	0,78	0,83	0,28	1,21	0,38	,000*	,000*	,176
Страх	1,4	0,85	0,7	0,28	0,7	0,58	,000*	,000*	,000*
Горе	2,6	0,77	0,93	0,65	1,67	0,51	,089	,000*	,075
Печаль	2,56	0,74	1,07	0,4	1,49	0,27	,000*	,000*	,090
Отвращение	4,16	0,95	1,6	0,76	2,56	0,73	,000*	,000*	,715
Раздражение	1,92	0,72	0,73	0,53	1,19	0,41	,009*	,000*	,150
Гнев	2,12	0,81	0,97	0,42	1,15	0,65	,000*	,018*	,004*
Общая точность		0,81		0,53		0,56

Примечание: «*» — статистически значимые различия на уроне 0,95.

Рис. 2. Точность распознавания эмоций при экспозиции части/целого мультимодальных экспрессий: — частота распознавания 1-ой части; — частота распознавания 2-ой части; — распознавания целого аудиовидеоизображения; -.- — средний уровень. «*», «2*» — статистически значимые различия на уроне 0,95 между оценками целого аудиовидеоизображения и его 1-ой частью, и целого аудиовидеоизображения и его 2-ой частью соответственно

Точность распознавания. При демонстрации первой части видеоизображений средняя точность идентификаций — 0,53 (+/-SD=0,2). Наиболее точно распознаются состояния удивления (0,85), интереса (0,82), радости (0,79), отвращения (0,76) и удовольствия (0,73). На среднем уровне распознаются эмоции горя (0,65), раздражения (0,53), развлечения (0,51). Наименее точно распознается гордость (0,17), эмоции гнева (0,42) и печали (0,4). Облегчение, страх и тревога получили оценки ниже среднего уровня (0,27; 0,28; 0,28 соответственно).

При экспозиции второй части видеоизображений средняя точность идентификаций — 0,56 (+/-SD=0,15). В верхнем диапазоне точности оценок располагаются состояния радости (0,81), удивления (0,78), удовольствия (0,78), отвращения (0,73) и облегчения (0,72). Несколько хуже распознаются гнев (0,65), интерес (0,59), страх (0,58) и горе (0,51). Наименее точно идентифицируются эмоции раздражения (0,41), тревоги (0,38), развлечения (0,37), гордости (0,29) и печали (0,27).

При демонстрации целого аудиовидеоизображения средняя точность идентификации составила 0,81 (+/-SD=0,08). Наиболее распознаваемыми являются состояния отвращения (0,95), удивления (0,92), интереса (0,92), удовольствия (0,9), также хорошо распознаются эмоции облегчения (0,86), страха (0,85), радости (0,82), гнева (0,81), тревоги (0,78), горя (0,77), печали (0,74), раздражения (0,72), гордости (0,7); На среднем уровне (0,64) распознается эмоция развлечения.

Статистически значимые различия в точности идентификации целого аудиовидеоизображения и его первой части найдены для эмоций гордости, удовольствия, облегчения, тревоги, страха, печали, отвращения, раздражения и гнева; в точности первой и второй частей — облегчения, интереса, страха и гнева; целого аудиовидеоизображения и второй части — для всех эмоций, кроме радости (табл. 1, рис. 2).

Структуры категориальных полей мультимодальных динамических экспрессий представлены на рис. 3.

Рис. 3. Структура оценок мультимодальных динамических экспрессий, экспонируемых частями и полностью. Вверху указаны категории экспонируемых эмоций, слева — категории ответов наблюдателей: — частота распознавания 1-ой части; — частота распознавания 2-ой части; — распознавания целого аудиовидеоизображения

В группе А при экспозиции первой части корректно идентифицируются состояния радости (0,79), удовольствия (0,73) и развлечения (0,51). Удовольствие (0,73) сопровождается впечатлениями облегчения (0,17), развлечения (0,51), радости (0,21), удовольствия (0,17) и удивления (0,05). Наименьшее количество дополнительных эмоций зарегистрировано при экспозиции радости, с которой ассоциируется только удовольствие, на уровне близком к случайному (0,051). Для гордости и облегчения имеет место наибольшее количество дополнительных эмоций. Состояние гордости оценивается как радость (0,23) и удовольствие (0,23), оценки самой гордости составляют меньшую долю — 0,17; среди дополнительных эмоций присутствуют интерес (0,1), развлечение (0,06), облегчение (0,05), отвращение (0,05), а также «другая эмоция» (0,06), которая в структуре Женевского колеса отсутствовала. При демонстрации состояния облегчения, доля оценок, отнесенных к категории «другая эмоция», равна доле правильных ответов (0,27): в меньшей доле его дополняют гордость (0,06), радость (0,05), удовольствие (0,08), интерес (0,13) и удивление (0,05).

При демонстрации второй части наибольшее количество ассоциированных эмоций зафиксировано на экспозициях гордости и развлечения, наименьшее — радости, удовольствия, облегчения. Эмоцию гордости в равной доле дополняют удовольствие (0,17) и отвращение (0,17), а также облегчение (0,09), интерес (0,05), удивление (0,05) и раздражение (0,05). Состояние развлечения сопровождают радость (0,21), удовольствие (0,17), удивление (0,05); доля оценок, отнесенных к категории «другая эмоция» — 0,08. Эмоция радости дополняется развлечением (0,1); эмоция удовольствия — облегчением (0,09); эмоция облегчения — удовольствием (0,24). При демонстрации полного аудиовидеоизображения эмоция развлечения ассоциируется с эмоциями радости (0,28) и облегчения (0,05). Для остальных эмоций группы А зарегистрировано по одной дополнительной эмоции: для гордости — удовольствие (0,18), для радости — развлечение (0,06), для удовольствия — облегчение (0,07), для облегчения — удовольствия (0,09).

В первой части экспозиции при распознавании экспрессий группы B эмоция тревоги существенно дополняется эмоциями печали (0,29) и страха (0,22), небольшая доля оценок приходится на категорию «другая эмоция» (0,09). Страх на начальном этапе распознается как тревога (0,6) с меньшей долей страха (0,28). Тревога оказывается ядром категориального поля страха. При распознавании состояния тревоги во второй части дополнительными эмоциями, как и в первой, являются печаль (0,22) и страх (0,24). Тревога (0,32) присутствует, как основная дополнительная эмоция в оценках страха, но в меньшей степени, чем при распознавании первой части аудиовидеоизображения. Оценки целого аудиовидеоизображения тревоги дополняются эмоциями страха, горя и печали на уровне 0,05—0,06; страх ассоциируется с тревогой (0,11).

В группе C,при экспозиции первой части аудиовидеоизображения горе дополняется эмоциями печали (0,17), тревоги (0,08) и страха (0,06). В оценках печали (0,38) ядро как бы расщепляется; в той же степени присутствует и горе (0,4), а также тревога (0,15) и страх (0,05). Во второй части состояние горя идентифицируется менее точно (0,51) по сравнению с первой, ассоциированные эмоции горя, тревоги, страха проявляют себя ярче (0,26,0,13,0,06 соответственно). Эмоция печали, напротив, идентифицируется точнее при экспозиции второй части и дополняется эмоциями горя (0,33) и тревоги (0,08). При экспозиции целого аудиовидеоизображения оценки горя (0,77) сопровождаются впечатлениями печали (0,06) и отвращения (0,07), состояние печали —горя (0,21).

В группе D при демонстрации первой части аудиовидеоизображения раздражения (0,53) основным дополнительным компонентом выступает тревога (0,17).Доля оценок, отнесенных к категории «другая эмоция», — 0,12; удивление (0,05) сопровождает раздражение на уровне случайных значений. В начале экспозиции эмоция гнев (0,42) воспринимается как раздражение (0,46) — опять расщепленное ядро — и, в гораздо меньшей степени, как тревога (0,08).Во второй части экспозиции раздражение (0,41) оценивается иначе, чем впервой: дополнительными эмоциями являются печаль (0,19), тревога (0,12) и «другая эмоция» (0,14). Оценки целого аудиовидеоизображения состояния раздражения (0,72)включают только тревогу (0,08), эмоции гнева — раздражение(0,18).

В оценках первой части аудиовидеоизображения удивления (0,85) в качестве дополнения зарегистрирован только интерес (0,06). При экспозиции второй части интерес проявляется ярче (0,17). Собственно интерес точно оценивается в начале экспозиции (0,82), без дополнительных включений; на конечном этапе оценки содержат представления об удивлении (0,12), тревоге (0,09) и других эмоциях (0,17). При экспозиции целых аудиовидеоизображений обе амбивалентные эмоции воспринимаются очень точно (0,92) без привлечения дополнительных состояний.

Эмоция отвращения в первой части аудиовидеоизображения включает тревогу и страх, во второй части — удивление, тревогу и раздражения, близко к случайным значениями (0,05—0,06). При демонстрации отвращения (0,95) в целом дополнительные эмоции не отмечаются.

Индекс дополнительных эмоций (табл. 2, рис. 5). Наибольшее количество дополнительных эмоций зафиксировано при экспозиции первой части, среднее значение: И_дэ1ч=1,2; И_дэ2ч=0,76; И_дэп=0,16. Эмоция гордости имеет наибольший индекс дополнительных эмоций, как при предъявлении первой части, так и второй. В первой части аудиовидеоизображения наименьшее значение индекса зафиксировано для эмоций интереса (0), радости (0,06), удивления (0,08), отвращения (0,15), горя (0,47), раздражения (0,63);наибольшее — гордости (4,77), облегчения (2,38), тревоги (0,32) и страха (0,14);на среднем уровне — гнева (1,27) и печали (1,48). Для второй части аудиовидеоизображения наименьшее значения индекса показали оценки удовольствия (0,11), радости (0,13), удивления (0,21), отвращения (0,25), облегчения (0,34), гнева (0,47), интереса (0,63); наибольшее — гордости (1,96), развлечения (1,62), тревоги (1,47), раздражения (1,22); на среднем уровне — интереса (0,63), страха (0,64), печали (0,76), горя (0,88).

Таблица 2

Индекс дополнительных эмоций

Эмоция	1ч.	2ч.	Полное
Гордость	4,77	1,96	0,25
Радость	0,06	0,13	0,08
Развлечение	0,83	1,62	0,52
Удовольствие	0,23	0,11	0,08
Облегчение	2,38	0,34	0,11
Интерес	0,00	0,63	0,00
Удивление	0,08	0,21	0,00
Тревога	2,32	1,47	0,21
Страх	2,14	0,64	0,13
Горе	0,47	0,88	0,18
Печаль	1,48	0,76	0,28
Отвращение	0,15	0,25	0,00
Раздражение	0,63	1,22	0,12
Гнев	1,27	0,47	0,22
Среднее	1,20	0,76	0,16

Длительность. Взаимосвязь между точностью распознавания и длительностью экспозиции эмоции найдена для первой части видеоизображений: r=0,62; p<0,05. Связи длительности с целым аудиовидеоклипом и его второй частью статистически не значимы (r_целое=0,5, p=0,07; r_2часть=0,37, p=0,19).

Обсуждение

Восприятие мультимодальных динамических состояний характеризует взаимодействие коммуникантов на сенсорно-перцептивном уровне. Оно предполагает синхронизированность двух процессов. На стороне натурщика — формирование переживания и его выражение (паттерн экспрессии), на стороне наблюдателя — готовность к приему мультимодальной информации, порождение образа и идентификация эмоционального состояния. При демонстрации целостного аудиовидеоклипа эти процессы совершаются непрерывно и ограничены лишь длительностью конкретной эмоции. При фрагментарной экспозиции аудиовидеоизображение в одном случае демонстрируется от начала до условной середины — фонетической паузы, разделяющей аудиовидеопоток на две равные по времени части; в другом — от короткой паузы до конца экспозиции. В первой ситуации процесс выражения эмоции остается незавершенным, во второй — лишается начала. В первом случае содержание восприятия следует естественной логике становления аффективного состояния, во втором — отталкивается от промежуточного выражения и завершается естественным путем. Оба процесса проявляются в точности идентификации и характеристике дополнительных оценок экспрессий (меняющейся структуре категориального поля).

Первое, что замечается при знакомстве с полученными данными, — высокая точность оценки состояния натурщиков при демонстрации целостных аудиовидеоклипов (рис. 2). Общее среднее значение частоты выбора категорий эмоции — 0,81; разброс средних ответов по модальности эмоций ограничен снизу развлечением (0,64) и гордостью (0,7), сверху — отвращением (0,95), удивлением (0,92) и удовольствием (0,9). Полученные значения отражают степень легкости/трудности категоризации состоянии. Условно экспозиции могут быть разделены на относительно простые (выше общего среднего) — 58% проб и сложные (оказываются ниже общего среднего) — 42% проб.

Средние оценки начальной и финальной частей аудиовидеоизображений практически совпадают — 0,53 и 0,56 соответственно. На начальном этапе экспозиции 10 эмоций из 14 (71%): гордость, развлечение, удовольствие, облегчение, тревога, страх, печаль, отвращение, раздражение и гнев — распознаются статистически менее точно по сравнению с видеоклипами в целом. Развлечение, интерес, удивление и радость (29%) от оценок полных аудиовидеоизображений не отличаются. На завершающем этапе фрагменты всех эмоций, кроме радости и удивления, по сравнению с выражением в целом распознаются менее точно. Корректность идентификации экспрессий радости при парциальных экспозициях соответствует общей средней точности оценок.

Соотношения точности идентификации экспрессий в начальной и конечной частях аудиовидеоклипов проявляются в тенденциях, связанных с определенными модальностями эмоций: (а) ростом значений при переходе с первого этапа на второй (гордость, облегчение, страх, гнев), (б) их снижением (развлечение, интерес, горе, печаль, раздражение), (в) неизменностью отношений (радость, удовольствие, удивление, отвращение).

Рис. 4. Точность распознавания эмоций при фрагментарной экспозиции и полном аудиовидеоизображении, вверху — 1-й режим, внизу — 2-й режим

Рис. 5. Значения индекса дополнительных эмоций в зависимости от модальноти эмоции и предъявляемыхчасти/целого

Динамика ответов сопровождается различиями в оценках дополнительных экспрессий, содержащих тождественные или похожие признаки целевых эмоций (рис. 4).

В зависимости от принадлежности мультимодальных экспрессий к той или иной аффективной группе параметры категориальных полей эмоций меняются по-разному. В группе А проявление гордости в начале экспозиции практически не идентифицируется, ассоциируясь с эмоциями радости и удовольствия, суммарная доля которых составляет 0,46. При предъявления заключительной части и полного аудиовидеоизображения доля дополнительных эмоций сокращается до 0,2—0,22. При демонстрации каждой из частей аудиовидеоизображения зарегистрированы эмоции противоположной валентности: в первой половине — отвращение (0,05), во второй — отвращение (0,17) и раздражение (0,05). Удовольствие чаще сопровождается облегчением в начале экспозиции (0,17), а затем его доля падает (0,09). Состояние развлечения в завершающей части экспозиции в большей степени ассоциируется с радостью, доля которой возрастает с 0,21 до 0,36. Эмоция облегчения практически не распознается на начальном этапе и замещается амбивалентными состояниями, доля которых составляет в первой части 0,18, во второй падает ниже случайного уровня.

В группе B страх распознается как тревога (0,6), т.е. неадекватно цели на начальном этапе, но корректно распознается в завершающей части (0,58). Тревога более активно дополняется печалью в начале экспозиции (0,29), во второй части ее доля незначительно снижается (0,22) и увеличивается доля целевой эмоции (0,38). В группе С печаль более корректно распознается в конце экспозиции, а на начальном этапе идентифицируется и как печаль, и как горе в равной степени. В группе D гнев практически не идентифицируется на начальном этапе, раздражение трудно распознается на обоих этапах, имеет расширенную структуру категориального поля. Амбивалентные эмоции, интерес и удивление, распознаются более точно на начальном этапе экспозиции.

Эмоции с высокой степенью возбуждения в начале экспозиции значительно более близки к эмоциям той же группы, но с меньшей степенью возбуждения: в группе B страх в начале экспозиции распознается как тревога (0,6). В группе С доля оценок горя представлена на том же уровне (0,38), что и печаль (0,4); в группе D эмоция гнева (0,42) в первой части оценивается как раздражение (0,46). Допускается рост и влияние степени возбуждения к концу экспозиции.

По существу, с чередованием фрагментов экспозиции или их заменой на полный аудио-видеоклип меняются точность идентификации и целевой эмоции (ядра категориального поля) и характеристики дополнительных эмоций (периферии). Перестраиваются их доли, уходят одни, но возникают новые ассоциации, в том числе противоположной валентности, дифференцируется или замещается содержание ядра, обнаруживается и исчезает зависимость оценок от степени возбуждения того или иного состояния и др. Поток изменений охватывает все протестированные аффективные группы и отдельные категории эмоций, носит глобальный характер. Инвариантен лишь главный фактор — модальность целевой эмоции, стремящийся к определенности.

Парадигма эксперимента позволяет путем анализа идентификации фрагментарных экспрессий и их связей с выражением в целом рассмотреть временные отношения содержания восприятия мультимодальных динамических состояний человека. Изложенные результаты указывают на то, что начальный и конечный этапы выражения одних и тех же эмоциональных состояний за единицу времени (в среднем около 2,5 с) несут разные объемы полезной информации; сам же процесс ее сбора и обработки имеет различную темпоральную организацию. Чем выше точностью идентификации фрагмента экспрессии, тем быстрее совершается перцептивный процесс. Мерой его развертывания служит точность идентификации полного выражения эмоций, которое по своему происхождению необходимо и достаточно для распознавания модальности состояния. Оно определяет эталонную длительность выражения, разделяемого на равные части, и уровень эффективности оценок.

С этой точки зрения средняя относительная скорость (темп) распознавания модальности эмоции по фрагментарным аудиовидеоизображениям равна или выше относительной скорости распознавания экспрессии в целом. В предельном случае, при экспозиции радости, ее темп превышает значение целого в два раза, а адекватный образ состояния натурщика складывается уже на ранних стадиях экспозиции каждого из фрагментов. Противоположные временные отношения иллюстрируются демонстрацией гордости. Ее корректная оценка получена только при экспозиции полного эмоционального состояния; процесс формирования и восприятия выражения частей протекает в замедленном темпе.

В зависимости от порядка следования частей, темп восприятия может изменяться, причем для разных состояний по-разному. Выделяются два режима, отражающие альтернативные соотношения оценок на разных этапах экспозиции. Один характеризуется низкой либо умеренной относительной скоростью выражения и восприятия начальных фрагментов, но умеренной или высокой на заключительных, другой — изменением оценок в обратном направлении: высокий темп проявляется на старте, а замедленный — в конце. Если соотношение частей первого режима вполне ожидаемо (с ростом определенности выражения точность его оценок возрастает), то второе выглядит парадоксально: более развернутая информационная основа выражения не содействует, а сдерживает нарастание точности. К первому режиму относятся проявления гордости, облегчения, тревоги, страха и гнева, ко второму режиму—проявления развлечения, интереса, горя, печали и раздражения. Переход от одной части к другой может совершаться плавно либо скачкообразно. Промежуточный, третий, режим объединяет эмоции, относительная скорость выражения и восприятия которых при изменении фрагментов остается одной и той же: радость, удовольствие, удивление и отвращение. Первые два режима распространяются на идентификации как «простых», так и «сложных» мультимодальных выражений; последний — только на идентификации «простых».

Описанные результаты обнаруживают функциональную многозначность переходных выражений эмоций. В зависимости от условий, порождаемых модальностью экспрессии, промежуточные состояния способны по-разному влиять на развитие перцептивного процесса: ускорять, замедлять, либо поддерживать его темп. Неоднозначным оказывается и стартовый потенциал — собственная энергетика эмоции, проявляющаяся бурным либо вялым развертыванием мультимодального состояния. Отметим, что сама динамика выражения создает информацию об эмоциональном состоянии человека, лишившись которой наблюдатель прочитывает продолжающееся формирование по-новому. Многое определяет и качество получаемой информации, ее отчетливость, интенсивность, степень зашумленности. Общий принцип состоит в том, что чем слабее или менее четко выражены экспресии, тем больший эффект оказывает темпоральная составляющая [2; 4; 10; 11].

Выявленная динамика временных отношений между фрагментами воспринимаемого состояния в их отношении к целому говорит о том, что перцептогенез мультимодальных экспрессий гетерохронен и не линеен. Независимо от исходной позиции паттерна выражения состояния вектор модальности направлен от неопределенного, общего, плохо дифференцированного представления о категории эмоции к ее более определенному, дифференцированному и содержательно полному. Точность оценок отражает стадии развития образа состояния, а характеристики меняющегося категориального поля — возможные пути и содержательную логику его формирования. Закон фазности восприятия (Н.Н. Ланге), сформированный на материале кратковременных статичных стимулов, сохраняет свое действие, подчиняясь динамике выражения эмоциональных состояний коммуниканта. Выстраиваемый экспрессивный паттерн как бы развертывает стадии и этапы перцептогенеза. Складывается темпоральная организация, адекватная масштабу и логике коммуникативных событий.

Описываемое развитие образа мультимодального состояния отличается от микрогенеза восприятия эмоций, изображенных на фотографиях. Последний реализует способность зрительной системы формировать образ уже сложившегося устойчивого выражения лица, для чего достаточно короткой экспозиции в объеме одной зрительный фиксации (около 200 мс и менее) [1; 9; 3]. В условиях динамики экспозиции цепь переходов от общего впечатления о лице ко все более конкретному и определенному выражению также совершается, но имеет более сложную природу. Главное отличие перцептогенеза мультимодальных экспрессий состоит в том, что до начала восприятия его объект — выражение состояния — существует лишь в возможности. Он формируется постепенно, подчиняя себе режим порождения образа.

Выводы

Идентификация целостных мультимодальных выражений аффективных состояний характеризуется высокой точностью оценок (средняя частота выбора категории — 0,81) и непосредственно зависит от модальности эмоций. Наиболее высокие значенияполучены на экспозициях экспрессий отвращения (0,95), удивления (0,92) и удовольствия (0,9); наиболее низкие — развлечения (0,64) и гордости (0,7).
Средние оценки смежных фрагментов одного и того же состояния практически совпадают (0,5 и 0,56), снижаясь по отношению к целостному на 30—35%. На начальном этапе статистически значимые различия получены для 71% фрагментарных экспрессий, на завершающем этапе подавляющее большинство фрагментов оцениваются хуже целого. Особое место занимают состояния удивления и радости, точность идентификации которых для всех фрагментов соответствует значению общей средней точности восприятия полного аудиовидеоизображения.
Со сменой первого этапа на второй точность идентификации фрагментированных состояний может изменяться, как в сторону увеличения, так и в сторону снижения значений. Динамика оценок сопровождается соответствующими преобразованиями структуры категориального поля эмоций. Дополнительные (ассоциированные) эмоции преобладают на начальных этапах экспозиции. Влияние степени возбуждения на распознавание отдельных эмоций наиболее отчетливо обнаруживается на завершающих этапах. Взаимосвязь точности идентификации состояния и длительности его экспозиции проявилась лишь на начальном этапе демонстрации аудиовидеоизображений.
При одинаковой длительности фрагментов одних и тех же состояний каждый из них содержит разные объемы аффективной информации, а процесс ее сбора и обработки имеет разную временную организацию. В общем случае темп, или относительная скорость распознавания фрагментарных экспрессий, равна либо выше относительной скорости распознавания полной экспозиции, длительность целостного выражения избыточна. При переходе от начального этапа к завершающему возможны три скоростных режима, связанные с модальностью эмоции: I — низкий либо умеренный темп на старте и более высокий в конце (гордость, облегчение, страх, гнев); II — высокий темп в начале, снижающийся к концу (развлечение, интерес, горе, печаль, раздражение); III — неизменность темпа (радость, удовольствие, удивление, тревога, отвращение). Одни и те же переходные состоянии в разные периоды экспозиции воспринимаются по-разному и по-разному влияют на развитие перцептивного процесса. Имеют место неравномерность формирования информационной основы мультимодальных динамических выражений и гетерохронность развертывания перцептогенеза эмоциональных состояний коммуниканта.
Апробирован новый метод экспериментального исследования перцептогенеза мультимодальных аффективных состояний — связанная фрагментация аудиовидеоизображений воспринимаемых эмоций.

Литература

Барабанщиков В.А. Динамика восприятия выражений лица. М.: Когито-Центр, 2016. 380 с.
Барабанщиков В.А., Королькова О.А. Восприятие экспрессий «живого» лица // Экспериментальная психология. 2020. Том 13. № 3. С. 55—73. DOI:10.17759/exppsy.2020130305
Барабанщиков В.А., Королькова О.А., Лободинская Е.А. Распознавание эмоций в условиях ступенчатой стробоскопической экспозиции выражений лица // Экспериментальная психология. 2018. Том 11. № 4. С. 50—69. DOI:10.17759/exppsy.2018110405
Барабанщиков В.А., Королькова О.А., Лободинская Е.А. Восприятие микроэкспрессий лица в условиях кажущегося движения и маскировки. М.: Когито-Центр, 2021.
Барабанщиков В.А., Суворова Е.В. Оценка эмоционального состояния человека по его видеоизображениям // Экспериментальная психология. 2020. Том 13. № 4. С. 4—24. DOI:10.17759/exppsy.2020130401
Барабанщиков В.А., Суворова Е.В. Оценка мультимодальных экспрессий лица в лаборатории и онлайн // Лицо человека в контекстах природы, технологий и культуры / Отв. ред. К.И. Ананьева, В.А. Барабанщиков, А.А. Демидов. М.: Когито-Центр, 2020а. С. 310—322.
Барабанщиков В.А., Суворова Е.В. Гендерный фактор в распознавании эмоционального состояния человека по его аудио-видеоизображениям // Российский психологический журнал. 2022. Том 19. № 2. С. 6—20. DOI:10.21702/rpj.2022.2.1
Барабанщиков В.А., Суворова Е.В. Индивидуальные формы выражения и идентификация мультимодальных динамических состояний человека // Познание и переживание. 2022а. Том 3. № 2. С. 6—35. DOI:10.51217/cogexp_2022_03_02_01
Жердев И.Ю., Барабанщиков В.А. Идентификация лицевых экспрессий в условиях интрасаккадической смены стимула // Экспериментальная психология. 2021. Том 14. № 2. С. 68—84. DOI:10.17759/exppsy.2021140205
Bould E., Morris N., Wink B. Recognising subtle emotional expressions: The role of facial movements // Cognition and emotion. 2008. Vol. 22. P. 1569—1587. DOI:10.1080/02699930801921156.
Cunningham D.W., Wallraven C. Dynamic information for the recognition of conversational expressions // Journal of vision. 2009. Vol. 9. № 13. P. 1—17. DOI:10.1167/9.13.7
Gelder B.De, Vroomen J. The perception of emotions by ear and by eye. Cognition & Emotion, 2000. Vol. 14. № 3. P. 289—311. DOI:10.1080/026999300378824
Kokinous J., Kotz S.A., Tavano A., Schröger E. The role of emotion in dynamic audiovisual integration of faces and voices. Social Cognitive and Affective Neuroscience, 2015. Vol. 10. № 5. P. 713—720. DOI:10.1093/scan/nsu105
Massaro D.W., Egan P.B. Perceiving affect from the voice and the face. Psychonomic Bulletin & Review, 1996. Vol. 3. № 2. P. 215—221. DOI:10.3758/BF03212421
Schlegel K., Grandjean D., Scherer K.R. Introducing the Geneva Emotion Recognition Test: An example of Rasch-based test development // Psychological Assessment. 2014. Vol. 26. № 2. P. 666—672. DOI:10.1037/a0025827
Stock J. Van den, Righart R., Gelder B. De. Body expressions influence recognition of emotions in the face and voice. Emotion. 2007. Vol. 7. № 3. P. 487—494. DOI:10.1037/1528-3542.7.3.487

Информация об авторах

Барабанщиков Владимир Александрович, доктор психологических наук, профессор, директор, Институт экспериментальной психологии, Московский государственный психолого-педагогический университет (ФГБОУ ВО МГППУ), декан факультета психологии, Московский институт психоанализа (НОЧУ ВО «МИП»), Москва, Россия, ORCID: https://orcid.org/0000-0002-5084-0513, e-mail: vladimir.barabanschikov@gmail.com

Суворова Екатерина Владимировна, научный сотрудник, Институт экспериментальной психологии, ФГБОУ ВО «Московский государственный психолого-педагогический университет» (ФГБОУ ВО МГППУ), аспирант, Московский институт психоанализа (НОЧУ ВО «МИП»), Москва, Россия, ORCID: https://orcid.org/0000-0001-8834-2037, e-mail: esresearch@yandex.ru

Метрики

Просмотров

Всего: 421
В прошлом месяце: 21
В текущем месяце: 20

Скачиваний

Всего: 169
В прошлом месяце: 6
В текущем месяце: 12

PlumX

Метрики публикации