Оценка эмоционального состояния человека по его видеоизображению

В.А. Барабанщиков; Е.В. Суворова

doi:10.17759/exppsy.2020130401

Введение

Несмотря на многообразие форм выражения эмоций и их развернутость во времени, исследования восприятия эмоциональных явлений чаще всего проводятся на статичных фотоизображениях лица. Текущее развитие аффективного образования, структура и логика его порождения выносятся «за скобки», а информационная основа представлений об эмоции ограничивается отдельным срезом лицевых экспрессий. На сегодняшний день главным требованием, которое предъявляется к организации экспериментов по восприятию эмоций и, особенно, к стимульному материалу, является его экологическая валидность: экспозиция эмоций «живого», т. е. подвижного лица, включенного в мультимодальный коммуникативный контекст. Одной из немногих методик, удовлетворяющих этому требованию, является Geneva Emotion Recognition Test, хорошо зарекомендовавшая себя в ряде зарубежных исследований [Schlegel, 2012; Schlegel, 2014; Schlegel, 2017]. Работа, предлагаемая вниманию читателя, решает три основные задачи: 1) знакомство с оригинальной швейцарской методикой оценки динамических эмоциональных экспрессий (GERT); 2) ее апробация на российской выборке; 3) анализ закономерностей восприятия экспрессий «живого» лица, обнаруживаемых в рамках GERT.

Женевский тест распознавания эмоций (GERT)

Тип экспериментальных исследований восприятия эмоций зависит от того, как понимается их природа. В данной области сформулированы два основных подхода: дискретный и непрерывный. Первый исходит из структуры языка, наличия слов и выражений, описывающих четко разделяемые эмоциональные состояния. Предполагается, что категориям, описывающим эмоции, соответствуют специфические паттерны выражения лица и голоса, а также определенные физиологические характеристики. При оценке категорий используется метод самоотчета, опирающийся на процедуры шкалирования [Ekman, 1999; Izard, 1991]. Второй, многомерный, подход, основан на ощущениях, переживаемых субъектом во время эмоции, и предполагает измерение их валентности (приятные—неприятные), активации (спокойные—возбужденные) и напряжения (напряженные—расслабленные). В практических целях, для простоты интерпретации, психологи ограничиваются измерением валентности и активации, используя круговые оценочные инструменты, как наиболее адекватные для отображения непрерывности переживаний в двухмерном пространстве [Barrett, 1999; Russell, 1983].

Клаус Шерер (Klaus Scherer) предложил промежуточный вариант исследования эмоций, который и опирается на семантический категориальный анализ, и использует принципы многомерного подхода. Это становится возможным, если последовательно связать категории в круговую структуру, введя постепенность их изменений по определенным признакам. В его исследовании понятия, обозначающие эмоции, накладывались на круговую, многомерную шкалу, ранее предложенную Дж. Расселом, и ранжировались в зависимости от валентности и степени возбуждения [Scherer, 2005]. Каждая семантическая единица характеризовалась как точка в декартовой системе координат с осями «валентность» (x) и «активация» (у). В ходе обобщения равнозначные эмоциональные единицы объединялись в 17 крупных категорий с различной степенью интенсивности, распределенные в пространстве валентности/активации: гордость (pride), радость (joy), развлечение (amusement), удовольствие (pleasure), облегчение (relief), нежность (tenderness), восхищение (admiration), интерес (interest), удивление (surprise), тревога (anxiety), страх (fear), горе (despair), печаль (sadness), отвращение (disgust), презрение (contempt), раздражение (irritation), гнев (anger). Подбор и упорядочивание категорий эмоций проводился эмпирическим путем с опорой на данные, полученные в исследованиях других авторов, в том числе П. Экмана, К. Изарда, Дж. Рассела, Л. Барретт [Barrett, 1999; Ekman, 1999; Ekman, 1975; Izard, 1991]. Организованная совокупность категорий, расположенных по окружностям с различными радиусами, получила название «Женевское колесо эмоций» (рис. 1).

Во время оценки экспозиции эмоциональной экспрессии от наблюдателя требовалось указать, путем касания дисплея, на одну из 17 обобщенных эмоций с учетом их интенсивности по пятибалльной шкале («1» — очень слабая, «5» — очень сильная) или варианты ответа — «нет ответа», «другая эмоция», расположенные в центральной части Колеса.

Сконструированный инструмент презентации и оценки аффективных образований интересен для изучения восприятия эмоций и анализа причин «размытости» категорий, а также разнообразных «примесей» эмоций. Эмоциональные состояния здесь не только разделены на дискретные единицы, но и пересекаются или «соседствуют» по линиям близкой валентности и степени возбуждения.

Позднее варианты «Колеса» использовались К. Шерором, его коллегами и последователями при создании методик оценки динамических эмоциональных экспрессий. К их числу принадлежит Женевский мультимодальный корпус экспрессий Geneva Multimodal expression corpus — GEMEP [Bänziger, 2012] и основанная на нем более компактная методика Geneva Emotion Recognition Test — GERT [Schlegel, 2012; Schlegel, 2014]. Обе методики позиционируются как адекватные способы оценки эмоциональных состояний в том виде, в котором они встречаются в реальной жизни.

GEMEP включает расширенный набор динамических эмоциональных экспрессий в нескольких модальностях, показывая более высокую точность идентификации по сравнению с похожими методиками, такими как MERT, PONS, DANVA и другими [Bänziger, 2010]. GEMEP эффективен при изучении восприятия эмоций в отдельных модальностях (голос, экспрессии лица, жесты, позы тела) [Goudbeek, 2010; Bänziger, 2014; Mehu, 2015; Patel, 2011; Scherer, 1998; Scherer, 2004; Scherer, 2000]. Динамический характер экспрессий позволяет выявлять новые закономерности взаимодействия категорий эмоций в зависимости от степени возбуждения эмоций. Исследования динамических паттернов и мимической активности лица [Krumhuber, 2011; Mehu, 2012; Mortillaro, 2011], а также положений и поз тела [Dael, 2012; Dael, 2013] подтверждают отсутствие четких границ эмоциональных категорий и более сложный механизм восприятия динамических экспрессий по сравнению со статическими фотоизображениями. Для академических исследований восприятия динамических экспрессий наиболее интересен GERT, не только содержащий качественные мультимодальные видеоизображения ключевых эмоций и гибкий инструмент оценки основных и дополнительных экспрессий, но также оперативен в использовании.

В создании стимульного материала, общего для GEMEP и GERT, приняли участие десять профессиональных актеров (пять мужчин и пять женщин) под руководством известного режиссера Андреа Новикова. За несколько недель до съемки актеры получали список эмоций, которые они должны были изобразить, вместе с краткими определениями эмоций и описанием сценариев ситуаций, которые их иллюстрировали. В работе использовался метод переживания К.С. Станиславского. Обсуждая с каждым актером события его личной жизни, режиссер создавал настроения, инициирующие те или иные функциональные состояния, и выступал в качестве наблюдателя, слушателя или критика. Каждый актер демонстрировал три степени интенсивности эмоций («менее интенсивные», «более интенсивные» и «скрытые»). Наряду с мимикой и жестами актеров записывались фразы, произносимые ими на несуществующем языке — псевдолингвистические высказывания, содержащие интонации выражаемой эмоции.

Рис. 1. Женевское колесо эмоций (Scherer, 2005)

Съемка актеров велась тремя цифровыми камерами (SONY DSR-PDX10): лицо крупным планом, движения всего тела в профиль и анфас). Регистрация звука выполнялась с помощью трех отдельных профессиональных микрофонов SENNHEISER, расположенных на каждой из трех камер, а также дополнительного микрофона, установленного над левым ухом актера, обеспечивающего независимую регистрацию речи при неизменном расстоянии до рта натурщика. Впоследствии из мультимодальных записей извлекались одномодальные видео и аудиоклипы.

Длительность видео-аудиофрагментов варьировалась от 3 до 5 с. В качестве примера стимульных экспозиций на рис. 2 приведена раскадровка одной из самых распознаваемых для данного набора динамических экспрессий — отвращения (точность идентификации 0,93).

Рис. 2. Раскадровка видеоизображения экспрессии отвращения; интервал между кадрами 1 с

Валидизации подверглось более 7000 аудио-видеоэкспозиций. При оценке содержания эмоций использовалось «Женевское колесо эмоций», включающее, как уже упоминалось, 17 категорий эмоций с различной степенью интенсивности. В конечном итоге в GEMEP вошло 1260 видео-аудиофрагментов с высокой точностью распознавания эмоций для каждого уровня интенсивности. 83 аудио-видеоэкспозиции с одинаковой средней интенсивностью были отобраны для методики GERT. В новой методике «Женевское колесо» включало только 14 категорий: гордость (pride), радость (joy), развлечение (amusement), удовольствие (pleasure), облегчение (relief), интерес (interest), удивление (surprise), тревога (anxiety), страх (fear), горе (despair), печаль (sadness), отвращение (disgust), раздражение (irritation), гнев (anger); исключались категории: (tenderness), восхищение (admiration), презрение (contempt).

Выделенные эмоции объединялись в аффективные группы. В группе позитивных состояний (условно группа А) сделан упор на качественные различия и более «тонкие» эмоциональные оттенки, которые часто имеют место в социальных ситуациях. Сюда вошли: «гордость», «развлечение», «радость», «удовольствие» и «облегчение», которые ранее, в силу различия оценочных и выразительных характеристик, не объединялись. В зависимости от степени возбуждения были выделены три аффективные группы близких эмоциональных состояний: B, C и D. Группа B включала «тревогу» и «страх»; группа C — «печаль» и «горе»; группа D — «раздражение» и «гнев». Эмоциональные состояния «отвращение», «интерес» и «удивление» рассматривались как независимые. Аффективные категории и их группировки предназначались для изучения признаков эмоционального возбуждения в связи с различием содержания эмоций, а также особенностей состояний, принадлежащих одной и той же родственной (фамильной) категории, которые проявляются на лице, в интонациях голоса и жестах.

Для участия в женевском проекте испытуемые привлекались через электронные информационные ресурсы. Работы выполнялись на платформе для онлайн-исследований факультета психологии Берлинского университета имени Гумбольдта (www.psytests.de). В апробации приняли участие 295 немецкоговорящих испытуемых (213 женщин, 82 мужчины) в возрасте от 17 до 74 лет (M=37,1, SD=13,9).

Апробация методики на российской выборке

При апробации методики GERT на российской выборке мы сохранили оригинальный стимульный материал, процедуру оценки аудио-видеоизображений и набор требований, разработанные швейцарскими коллегами [Schlegel, 2014]. Оценки точности распознавания динамических экспрессий сравнивались с аналогичными показателями, полученными ранее в Женевском университете. Дополнительно на российской выборке была проанализирована структура категориальных полей и воспринимаемое сходство динамических эмоциональных экспрессий. Путем анализа релевантных и иррелевантных оценок для каждой экспрессии выделялись ядро категориального поля — доминанта распознавания и область периферии — дополнительные эмоции. Изучались взаимосвязи категорий центра и периферии в различных аффективных группах динамических экспрессий.

Организация российского эксперимента. Для проведения апробации методики у швейцарских коллег было получено разрешение на использование GERT.

Инструкция, названия категорий и их определения были предварительно согласованы с экспертами по психологии эмоций и переведены на русский язык дипломированным лингвистом-переводчиком. Перечень эмоций и их содержание:

• гордость — чувство триумфа после успеха или личного достижения;

• радость — чувство большого душевного удовлетворения;

• развлечение — веселье с кем-то или по поводу чего-то;

• удовольствие — чувство благополучия и чувственного наслаждения;

• облегчение — чувство уверенности, возникающее после преодоления неудачи или возможной неудачи;

• интерес — чувство нового, неожиданного, значимого;

• удивление — переживание неожиданности и необычности события (без положительного или отрицательного подтекста);

• тревога — беспокойство о последствиях ситуации, которая может быть неблагоприятной для себя или кого-то близкого;

• страх — ощущение неминуемой опасности, угрожающей нашему физическому благополучию;

• горе — переживание невосполнимой потери, неспособности решить важную для себя жизненную проблему;

• печаль — чувство утраты, потери места или вещи;

• отвращение — ощущение, вызванное неприятным предметом или окружением;

• раздражение — переживание неудовольствия по поводу кого-либо или чего-либо при внешнем спокойствии;

• гнев — негодование, вызванное чьим-то несправедливым или враждебным действием.

Технически исследование проводилось на электронной платформе LimeSurvey. На этой платформе была создана копия эксперимента, в которую вместо английского был помещен русский текст. Для предоставления возможности проведения эксперимента автоматически формировалась URL-ссылка, посредством которой участник получал доступ к инструкциям, стимульному материалу и оценочным средствам через электронно-коммуникационную сеть Интернет.

В качестве инструмента оценки динамических экспрессий, как и в методике GERT, использовался сокращенный вариант «Женевского колеса»: условные изображения 14 эмоций, представленные на дисплее, расположенные по окружности в определенном порядке. «Колесо эмоций» предъявлялось после экспозиции каждой экспрессии, с технической возможностью выбора только одной из категорий (рис. 3).

Рис. 3. «Женевское колесо эмоций», используемое российскими наблюдателями

Процедура. Эксперименты проводились в двух формах: лабораторной и дистантной. В лаборатории исследование выполнялось на платформе-моноблоке PowerCool P2151BK с дисплеем диагональю 21,5, разрешением 1920x1080px. Дисплей располагался на расстоянии 60 см от лица испытуемого. Угловые размеры видеоизображений составляли около 18^24°. Удаленное исследование проводилось посредством направления URL-ссылки на электронную почту участника, при наличии у него требуемого оборудования.

На первом этапе исследования участники знакомились с инструкцией, текст которой представлен ниже:

«Этот тест измеряет вашу способность распознавать эмоции, выраженные в лице и в голосе говорящего во время краткого высказывания. Тест займет от 10 до 15 минет. Вы увидите серию коротких видеороликов, в которых разные актеры выражают несколько эмоций вовремя короткого речевого высказывания. Ваша задача — выбрать слово, которое лучше всего описывает эмоцию, выраженную актером в соответствующем видео. На одних видео эмоция выражено однозначно, на других — распознать эмоцию довольно трудно. В таких случаях доверьтесь своей интуиции и попробуйте догадаться, какие .эмоции могут быть в ы [раже ны. 11 сосал у нота. 11 аде 11 ото наушники, чтобы услышать звук. Пожалуйста, выполняйте тест без перерывов. Внимание: пожалуйста, на время проведения теста отклоните любые надстройки или программное обеспечение, которое запрещает вашему браузеру доступ к внешним сайтам, таким как программы блокировки рекламы. В противном случае видео в этом тесте может отображаться неправильно».

Затем на экране монитора демонстрировались определения тестируемых эмоциональных состояний, переведенные на русский язык. После прохождения тренировочных заданий (3 видеоизображения) участник имел возможность вернуться к инструкции повторно.

На втором этапе участникам последовательно, в случайном порядке, предъявлялись 83 аудио-видеоизображения эмоциональных экспрессий. Каждая экспозиция демонстрировалась один раз на 3—5 с без возможности повтора: посло его демонстрации предъявлялось «Колесо эмоций». Переход к следующей экспозиции осуществлялся автоматически после выбора категории и касания на экране соответствующего круга. Программа исследования завершалась высвечиванием на экране усредненного результата точности распознавания, полученного испытуемым.

Анализ данных. Анализировались усредненные показатели распознавания мультимодальных динамических стимулов по всем аудио-видеоизображениям, сопоставлялись данные, полученные на российской и швейцарской выборках. При анализе структуры категориального поля динамических экспрессий использовались усредненные оценки видеоизображений экспрессий каждой категории с порогом узнавания выше случайного ( > 0,05).

Показатели и статистические критерии. Для каждого видеоизображения ответы были перекодированы в двоичные переменные (0 — неверно, 1 — правильно). Полученные данные проходили предварительную обработку в MS Office, Excel 2010. Для целей статистического анализа использовался пакет статистических программ — SPSS 22.0. В качестве статистических критериев использовались: критерий Фишера (угловое преобразование Фишера) с уровнем значимости p<0,05 и коэффициент конкондарции Кенделла с уровнем значимости p<0,001.

Участники исследования. В экспериментах приняли участие студенты и аспиранты российских вузов, постоянно проживающие в г. Москве, а также специалисты различных областей практики, откликнувшиеся на размещенные объявления на релевантных электронных информационных ресурсах. Всего в исследованиях участвовали 181 человек в возрасте от 18 до 58 лет (M=31,2 года, SD — 11,3 лет) 133 женщины, 48 мужчин.

Результаты и обсуждение

Матрица средних показателей частоты оценок динамических мультимодальных экспрессий приведена в табл. 1. Она включает средние значения точности распознавания демонстрируемых эмоций (по диагонали), ассоциируемых с ними дополнительных эмоций (по вертикали) и сходства воспринимаемых экспрессий (по горизонтали).

Точность распознавания динамических мультимодальных экспрессий. В российской выборке наиболее точно распознаются эмоции удовольствия (0,8), облегчения (0,76), радости (0,74) и гнева (0,71); наименее точно — эмоция гордости (0,48); чуть лучше — страха (0,55), тревоги (0,56), интереса (0,56) и развлечения (0,58). Эмоции удивления (0,6), горя (0,62), раздражения (0,64), отвращения (0,64) и печали (0,67) распознаются на среднем уровне. Общая средняя точность — 0,64. Медианы оценок точности распознавания для российской и швейцарской выборок представлены на рис. 4.

Рис. 4. Медианы оценок точности распознавания мультимодальных динамических экспрессий для российской и швейцарской выборок: «*» — статистически значимые различия; — российская выборка; ■ — швейцарская выборка

В швейцарской выборке высокие оценки получили эмоции облегчения (0,86), развлечения (0,81), печали (0,80), радости (0,76), удовольствия (0,72), горя (0,76) и тревоги (0,71); хуже остальных распознаются эмоции удивления (0,42) и страха (0,47). В среднем диапазоне располагаются эмоции раздражения (0,70), интереса (0,67), гордости (0,63), гнева (0,55) и отвращения (0,5). Общая средняя точность — 0,67 (табл. 2).

Для обеих выборок базовые эмоции, которые в условиях статики (фотоизображения) воспринимаются наиболее адекватно, при динамической экспозиции оцениваются иначе. В частности, «удовольствие» распознается российскими наблюдателями точнее, чем «радость», а оценки «удивления» и «страха» приближенны к нижним границам диапазона точности. Эта же тенденция просматривается при усреднении значений оценок аффективных групп. «Печаль» (группа C), «отвращение» и «гнев» (группа D) оказываются на одном уровне точности с «радостью» (группа A), тогда как оценки фотоизображений этих же эмоций принадлежат разным уровням [Барабанщиков, 2016а]. Инвариантно относительно выборки наблюдателей воспринимаются только «радость» и «раздражение». Различия оценок остальных 12 состояний статистически значимы, причем в 8 случаях (эмоции: гордость, развлечение, облегчение, интерес, тревога, страх, горе, печаль) более адекватные оценки даны швейцарскими испытуемыми. Коэффициент конкордации Кендалла (W=0,15; p<0,001) указывает на низкую согласованность, но общую направленность изменений ответов. Несмотря на высокую вариативность оценок швейцарских наблюдателей, уровень средних значений каждой из выборок совпадает. С учетом различий в смысловых оттенках категорий, а также того факта, что ни для российских, ни для немецких участников английский язык не является родным, полученный результат выглядит вполне оптимистично. Необходимо иметь в виду, что оригинальные термины GERT содержат лингвистические нюансы, которые порождают у испытуемых дополнительные ассоциации, например, используется не просто категория «радость» — «joy», а «elated joy» — приподнятая радость, ликование; не просто «страх», а «panic fear» — панический страх.

Таблица 2

Точность распознавания динамических мультимодальных экспрессий

Эмоция	Швейцарская выборка		Российская выборка		Значение критерия
Эмоция	М	SD	М	SD	ф эмп.
Гордость	0,63	0,24	0,48	0,21	3,14
Радость	0,75	0,22	0,74	0,21	0,16
Развлечение	0,81	0,2	0,58	0,32	5,22
Удовольствие	0,72	0,22	0,8	0,18	1,82
Облегчение	0,86	0,18	0,76	0,2	2,70
Интерес	0,67	0,2	0,56	0,21	2,26
Удивление	0,42	0,24	0,6	0,21	3,79
Тревога	0,71	0,21	0,56	0,22	3,17
Страх	0,47	0,26	0,55	0,23	1,74
Горе	0,72	0,23	0,62	0,27	2,13
Печаль	0,8	0,21	0,67	0,26	3,10
Отвращение	0,5	0,24	0,64	0,21	2,96
Раздражение	0,7	0,27	0,64	0,28	1,37
Гнев	0,55	0,29	0,71	0,24	3,32
Общая точность	0,67	0,23	0,64	0,23	0,61

Примечание: «*» — значимые различия в точности распознавания для российской и швейцарской выборок (критерий Фишера, p<0,05); М — средняя частота распознавания; SD — стандартное отклонение частоты распознавания.

Категориальные поля динамических мультимодальных экспрессий. В большинстве социальных ситуаций люди не проявляют «чистых» эмоций, которые можно было бы однозначно отнести к определенной категории, а также редко выражают эмоции с максимальной интенсивностью. Показано, что даже при экспозиции статичных базовых экспрессий выражение лица оценивается посредством нескольких категорий, образующих структуру (категориальное поле), включающую ядро — основную наиболее выраженную эмоцию и периферию — совокупность менее ярких дополнительных эмоций [Барабанщиков, 2016а; Барабанщиков, 2018].

В научных публикациях дополнительные категории нередко обсуждаются в терминах ошибок распознавания, когда, например, отождествляются «страх» и «гнев» или «гнев» и «удивление». Однако эти «ошибки» воспроизводятся от ситуации к ситуации, носят закономерный характер и обусловлены наличием общих либо сходных экзонов [Барабанщиков, 2016а; Ekman, 1975]. В реальном общении человек сталкивается с мультимодальными проявлениями эмоциональных состояний, развертывающимися во времени, в которых всегда присутствуют компоненты, организованные в сложные динамические комплексы. По аналогии с восприятием статичных изображений лица понятие категориального поля может быть перенесено и на динамические мультимодальные экспрессии. Они имеют один или несколько центров — ядер эмоций (которые определяются наиболее точно) и многомерную мультимодальную периферию, представленную дополнительными аффективными компонентами, число и модальность которых может варьироваться. Появление дополнительных компонентов в данном случае вызвано не только тождеством либо сходством пространственных диагностических признаков (экзонов), но и способами их развертывания во времени, подобием и особенностями выполнения аффективных сценариев, а также присутствием новых источников эмоционально окрашенной информации (жесты, интонации голоса, положения тела и др.). Обобщенные структуры категориальных полей динамических эмоций, исследованных в наших экспериментах, представлены на рис. 5—9. Гистограммы показывают состав категорий и значения точности распознавания (усредненные оценки 6 аудио-видеоизображений для каждой эмоции, кроме горя, для которого предусмотрено лишь 5 экспозиций). Указаны значения, превосходящие уровень случайного угадывания — 0,05. На каждой из гистограмм присутствует ядро, соответствующее основной категорий, и периферия — одно или несколько дополнений.

В группе А (рис. 5) ярко выражены ядра экспрессий удовольствия (0,80), облегчения (0,76) и радости (0,74). При экспозиции «удовольствия» и «радости» дополнительные эмоции присутствуют в области значений, превосходящих случайный уровень не более чем в два раза. «Облегчение» сопровождается «удовольствием» (0,13). Распознавание «развлечения» (0,58) включает значительную долю (почти 50%) «радости» (0,26). Наибольшее количество ассоциированных эмоций зарегистрировано в категориальном поле состояния гордости (0,48), подчеркивая его многозначность и более сложную социальную обусловленность. Российские наблюдатели отмечают в «гордости» проявления «радости» (0,15) и в меньшей степени «интереса» (0,1), «удовольствия» (0,09) и «развлечения» (0,08).

Рис. 5. Структура категориальных полей динамических мультимодальных экспрессий группы A.

Вверху указаны категории экспонируемых эмоций, внизу — категории ответов наблюдателей

Для категорий аффективной группы В наиболее тесными являются связи с ближайшими эмоциями горя и удивления, а также внутригрупповые связи (рис. 6). «Страх» дополняется «горем» (0,14), «тревогой» (0,12) и «гневом» (0,1). «Тревога» включает эмоции удивления (0,16), страха (0,12) и «интереса» (0,08).

Рис. 6. Структура категориальных полей динамических мультимодальных экспрессий группы B.

Вверху указаны категории экспонируемых эмоций, внизу — категории ответов наблюдателей

В структуре категорий аффективной группы С «печаль» дополняется «горем» (0,2) (рис. 7). Наиболее выражены внутригрупповые связи, а также близкие по расположению в «Колесе» дополнительные эмоции. Компонентами «горя», в свою очередь, оказываются: «печаль» (0,11), «тревога» (0,11) и «страх» (0,07).

Рис. 7. Структура категориальных полей мультимодальных динамических экспрессий группы C.
Вверху указаны категории экспонируемых эмоций, внизу — категории ответов наблюдателей

При распознавании экспрессий группы D (рис. 8) эмоцией, дополнительной к «гневу», проявляет себя «раздражение» (0,27); дополнительными к «раздражению» — «отвращение» (0,09) и «интерес» (0,06).

Рис. 8. Структура категориальных полей динамических мультимодальных экспрессий группы D.

Вверху указаны категории экспонируемых эмоций, внизу — категории ответов наблюдателей

Структуры категориальных полей эмоций отвращения, интереса и удивления представлены на рис. 9. «Отвращение» ассоциируется с эмоциями раздражения (0,10), печали (0,08) и горя (0,08). В оценках удивления присутствуют следы «соседствующих» эмоций интереса (0,13) и тревоги (0,12). «Интерес» дополняется проявлениями «удивления» (0,14) и «раздражения» (0,11).

Завершая изложение результатов, отметим, что для подавляющего большинства экспозиций категориальные поля мультимодальных динамических экспрессий содержат сравнительно высокие значения точности распознавания и низкие значения дополнительных экспрессий, которые компактно располагаются вокруг целевой категории.

Рис. 9. Структура категориальных полей динамических мультимодальных экспрессий отвращения, интереса и удивления. Вверху указаны категории экспонируемых эмоций, внизу — категории ответов наблюдателей

Обсуждение результатов

Несмотря на то, что оценки точности динамических экспрессий в российской и швейцарской выборках совпадают лишь по двум категориям из 14 (радость и раздражение), они имеют немало общего. Дифференцированный анализ позволяет выделить ряд тенденций, характеризующих особенности применяемого метода и специфику восприятия видеоизображений эмоциональных состояний человека.

Экспрессии группы А являются неплохим примером «фамильного обобщения». Их объединяет: близость социальных условий возникновения; сходство мимических паттернов, включая наличие улыбки; одинаковая валентность и смежные степени возбуждения натурщиков. Вместе с тем, как и в большой семье, различия между категориями динамических экспрессий определяются уровнем родства и структурой их отношений. В отличие от статических экспрессий точнее всего идентифицируются не «радость», а «удовольствие» и «облегчение», которые вообще не включают «радость» в качестве компонента. Являясь смежными категориями, они входят в состав друг друга, образуя отдельную подгруппу. В оценках швейцарской выборки распознавание «радости» также не занимает максимально высокой позиции, а к «облегчению» (0,86) и «удовольствию» (0,8) присоединяется «развлечение» (0,81). Оценки же радости в обеих выборках совпадают (0,74 и 0,75). Другая подгруппа экспрессий имеет к эмоции «радости» (joy) непосредственное отношение: собственно «радость», «развлечение» и «гордость». В оценках видеоизображений «радости» доля «развлечения» (0,06) и «гордости» (0,07) незначительна, хотя в оценках самих этих эмоций присутствие «радости» существенно (0,26 и 0,15 соответственно). Асимметрия отношений говорит о разноуровневости обобщений аффективных экспрессий, когда одни категории оказываются производными от других. Однако и среди вторичных эмоций различия весьма значительны. Хуже всего идентифицируется экспрессия гордости (0,48); она же имеет наибольшее количество дополнительных компонентов, в том числе эмоцию удовольствия (0,09), связывающую, пусть и тонкой нитью, относительно самостоятельные подгруппы.

Развивая метафору семьи, можно говорить о близких и дальних родственниках аффективной группы А. С точки зрения восприятия выражения эмоций, «удовольствие» и «облегчение» относятся к последним. Они образуют переходную форму к эмоциям интереса и удивления, представляющим более слабую степень возбуждения. Обе эмоции приближены к границе, разделяющей положительные и отрицательные категории, и в функциональном отношении бивалентны. «Интерес» и «удивление» имеют близкие оценки точности распознавания (0,56 и 0,6 соответственно), одинаково проникают друг в друга, но если «интерес» теснее связан с аффективной группой А («гордость», «удовольствия»), то «удивление» — и с группой А («радость», «развлечение»), и с группой B («тревога»). На швейцарской выборке различия в точности распознавания выражены ярко: «интерес» оценивается в 1,6 раза точнее, чем «удивление» (0,42 и 0,67 соответственно).

Аффективные группы B, C и D организованы попарно по одному и тому же принципу: наличие отрицательной валентности и дифференциация степени возбуждения (сла- бая/сильная) эмоций, которые традиционно называют базовыми — страха, гнева и горя. Согласно нашим данным, оценки экспрессий в группах B и C, несмотря на содержательные различия, совпадают: тревога (0,55) и страх (0,56), ф = 0,19, p<0,05; печаль (0,67) и горе (0,62 ф = 0,99, p<0,05; раздражение (0,64) и гнев (0,71), ф = 1,42, p<0,05. На российской выборке за исключением «раздражения» во всех оценках экспрессий этого типа в качестве дополнительных выступают эмоции той же модальности, но иной (полярной) степени возбуждения. Их значения в разы ниже: 0,11—0,27. Максимальное сходство основной и дополнительной оценок получены в парах «печаль—горе» (0,67 и 0,2) и «гнев—раздражение» (0,71 и 0,27). Частота дополнительных категорий второго порядка, смежных с соседними, не превышает 0,16. Для «страха», наряду с «тревогой» — это «горе» (0.14), для «раздражения» — «отвращение» (0,09), для «горя» (0,14), наряду с печалью (0,11), — «тревога» (0,11). По всей выборке на каждую из тестируемых категорий приходится до 5 дополнительных, расположенных выше порога случайного, угадывания.

Целесообразно обратить внимание на 2 момента: 1) соотношение точности распознавания эмоции и степени возбуждения, 2) характер «ошибок идентификации», которые в нашей работе рассматриваются как дополнительные эмоции. Ожидаемая линейная зависимость точности распознавания динамических экспрессией от степени возбуждения (чем оно выше, тем точнее идентификация) отсутствует. Еще ярче тенденция представлена на швейцарской выборке, где более высокая точность оценок получена на более низком уровне возбуждения: тревога (0,71) и страх (0,47), ф = 5,57, p<0,05; печаль (0,8) и горе (0,72), ф = 2,12, p<0,05; раздражение—гнев (0,7 и 0,55), ф = 3,51, p<0,05. Это означает, что зависимость динамических экспрессий, объединенных в группы B, C и D, может носить различный характер, а сами экспрессии информационно независимы, автономны. Имеется в виду различимость воспринимаемой эмоции среди других. Показателем аффективной автономии могут выступать высокие значения точности оценок, однако уже при средних значениях он может не работать. Более адекватным показателем представляется соотношение оценок основной и дополнительной экспрессий одной и той же категории. Средний уровень первых превышает вторые более чем в 6 раз. Полученный результат плохо согласуется с представлением об ограниченности так называемых универсальных эмоций. Если учитывать не только крайние, но и промежуточные степени возбуждения, нетрудно заключить, что число динамических экспрессий, равноценных базовым, может многократно вырасти. К подобному выводу подводит и анализ распознавания эмоций группы А, которые, несмотря на различия в семантике и уровнях отношений к экспрессии радости, выступают как самостоятельные образования. Это же подтверждается различиями в оценках бивалентных экспрессий (интерес, удивление), а также негативных состояний отвращения и раздражения. По существу, к базовым могут быть отнесены все 14 категорий эмоциональных состояний «живого» лица. В отличие от восприятия фотоизображений шести—десяти экспрессий, принимаемых за базовые, количество видеоизображений экспрессий, которые могли бы иметь подобный статус, остается неопределенным. Встает проблема природы (онтологического статуса) «базовых» эмоций лица.

Описываемые в литературе «ошибки идентификации» статичных изображений эмоциональных состояний, когда, например, отвращение принимается наблюдателями за страх, страх — за удивление, удивление — за горе, гнев — за отвращение [Барабанщиков, 2016а], в условиях их динамики отсутствуют. Обнаруживаются другие регулярные «ошибки», причем в большем объеме и в системе иных отношений. Содержательно сюда относятся все дополнительные эмоции, которые идентифицируются выше уровня случайного выбора (0,05). Так, эмоция раздражения является существенным компонентом гнева (0,27), но признаки самого гнева в динамике раздражения отсутствуют. В воспринимаемом пространстве динамических экспрессией «раздражение» располагается ближе к «отвращению», чем к «гневу». На швейцарской выборке точность распознавания «раздражения» одинаково превышает точность распознавания и «гнева» и «отвращения». Связь «гнева» и «отвращения», фиксируемая при экспозиции фотоизображений базовых эмоций, при экспозиции видеоизображений лица опосредуется «раздражением». Складывается новая единица представлений об эмоциональном состоянии натурщика. С введением расширенной оценочной шкалы усложняется не только алфавит категорий, но и выстраиваемая на их основе структура «ошибок» идентификации; формируются новые категориальные поля.

В ходе анализа эмпирических данных нельзя не обратить внимания на ограниченность оценок видеоизображений эмоций внутригрупповыми категориями, либо категориями, расположенными на «Колесе» по соседству (рис. 10).

Рис. 10. Усредненные ответы российских наблюдателей в системе категорий «Женевского колеса эмоций» при экспозиции динамических экспрессий: (а) облегчения, (b) удивления, (c) тревоги, (d) печали, (e) отвращения, (f) гнева

В этом нет ничего удивительного: в силу постепенности изменения категорий именно родственные или соседние единицы оценочной шкалы должны соответствовать экспрессиям, имеющим наибольшее сходство с диагностируемой эмоцией. Идеальный вариант оценочной шкалы и состоит в том, чтобы смежные категории равномерно переходили друг в друга, пересекались. Степенью взаимосвязи категорий может служить относительная частота дополнительных выборов, предшествующей и последующей экспрессии. В этом плане «Женевское колесо» выглядит не очень сбалансированным. Непрерывность категориальных переходов, представленных симметричными отношениями основных и дополнительных эмоций в парах «удивление—интерес», «страх—тревога», «отвращение—раздражение» чередуются с односторонними связями (радость—развлечения, страх—горе, раздражение— гнев), и их фактическим отсутствием (развлечение—удовольствие, интерес—облегчение, отвращение—печаль). В редких случаях источником дополнительных эмоций оказываются «соседи» второго порядка, смежные с ближайшей к оцениваемой категорией (горе—тревога, раздражение—интерес, гордость—интерес), крайне редко — эмоции, имеющие противоположную валентность (интерес—раздражение, тревога—интерес). Справедливости ради необходимо отметить, что в силу неоднозначности переживания и выражения эмоций, а также многовекторности самих экспрессий «живого» лица конструирование оценочной шкалы с равномерными межкатегориальными переходами, является исключительно сложной задачей, от решения которой во многом зависят перспективы развития GERT и его аналогов. Несмотря на признаки несбалансированности, рассмотренная методика производит впечатление оригинального и достаточно эффективного инструмента экспериментального исследования, позволяющего решать актуальные задачи психологии восприятия эмоциональных состояний человека по видеоизображениям его лица в процессах коммуникации.

С точки зрения логики оценивания, выбор эмоции во время каждой динамической экспозиции выступает как многоступенчатый процесс, который зависит от опыта наблюдателя и характеризуется социокультурной и индивидуальной спецификой. 14 категорий возможных ответов, используемых наблюдателем в начале эксперимента, последовательно редуцируются до семи, имеющих положительную валентность, затем — пяти. входящих в группу А, и, наконец, — двух—трех эмоций, представляющих соответствующую подгруппу. Подобная же логика воспроизводится при восприятии аффективных групп B, Си D, имеющих отрицательную валентность, а также трех отдельных динамических экспрессий. Критерии оценок имеют гибридную природу, включающую как объективные, так и субъективные признаки, в том числе те, которые рождаются в процессе переживания актера и его восприятия активным наблюдателем.

Совокупные данные выполненного исследования указывают на то, что категоризация динамических экспрессий «живого» лица не ограничивается диагностическими признаками статичных фотоизображений эмоций и опирается на другие источники информации. Наряду с временными параметрами развертывания мимики в этот процесс включаются: зрительный контакт, жесты, демонстрируемые актером, интонации его голоса и позы. Более того, разномодальные источники информации тесно взаимосвязаны и «работают» в одном направлении, дополняя и поддерживая друг друга. Имеет место синергетический эффект: усиление относительной точности идентификации мультимодальных проявлений эмоций.

Заключение

Проведенная работа позволила авторам более внимательно, как бы изнутри, познакомиться с устройством Женевского теста распознавания эмоций (GERT) и оценить его методические возможности в области фундаментальных исследований восприятия «живого» лица на примерах видеоизображений людей, выражающих определенные эмоциональные состояния естественным образом: с использованием мимики, жестов, наклонов тела и головы, контакта глаз, интонаций голоса. К достоинствам GERT можно отнести:

• комплексный стимульный аудио-видеоматериал, включающий экспрессии разного содержания и уровня обобщения, подготовленный на основе игры профессиональных актеров;

• удобную оценочную шкалу — «Женевское колесо эмоций» с постепенным изменением категориальных значений, имеющую сложную организацию;

• возможность анализа распознавания динамических экспрессий в зависимости от их валентности, активации эмоций, семантического контекста, времени и порядка экспозиции, интермодальных взаимодействий, личностных факторов, стилистики выражений эмоций и др.;

• наличие исследовательской истории и возможности модификации методики.

Апробация GERT показывает близость тенденций распознавания эмоций на изображениях «живого» лица российскими и швейцарскими наблюдателями. В ходе исследования выявлены следующие закономерности:

• мультимодальные динамические экспрессии, использованные в GERT, функционально автономны и могут претендовать на статус базовых;

• динамические эмоции, принадлежащие одной и той же аффективной группе, избирательно включаются в состав родственной категории (группа А); различия между ними определяются структурой семантических связей и отношений, уровневой организацией и др.

• линейная зависимость точности распознавания динамических экспрессией (аффективные группы B, C, D) от степени возбуждения на российской выборке отсутствует;

• в отличие от фотоизображений эмоций, при экспозиции их видеоизображений меняются рейтинги и относительная точность идентификации, а также содержание и значение дополнительных эмоций («ошибок идентификации»); складываются новые структуры категориальных полей;

• в качестве дополнительных выступают категории внутригрупповых экспрессий и экспрессий, смежных по степени возбуждения с основными; категории противоположной валентности в качестве дополнительных используются редко.

Оценка эмоционального состояния человека по его видеоизображению

Резюме

Общая информация

Полный текст

Введение

Женевский тест распознавания эмоций (GERT)

Апробация методики на российской выборке

Результаты и обсуждение

Обсуждение результатов

Заключение

Литература

Информация об авторах

Метрики

Просмотров web

Скачиваний PDF

Всего