Распознавание эмоциональных состояний детей с синдромом Дауна по мимической экспрессии: перцептивный и автоматический анализ динамических изображений

Ляксо Е.Е.; Фролова О.В.; Григорьев А.С.; Филатова Ю.О.; Махныткина О.В.

doi:10.17759/exppsy.2022150310

Экспериментальная психология
2022. Том 15. № 3. С. 140–158
doi:10.17759/exppsy.2022150310
ISSN: 2072-7593 / 2311-7036 (online)

Распознавание эмоциональных состояний детей с синдромом Дауна по мимической экспрессии: перцептивный и автоматический анализ динамических изображений

142

Ляксо Е.Е., Фролова О.В., Григорьев А.С., Филатова Ю.О., Махныткина О.В.

Аннотация

Исследование посвящено изучению распознавания эмоционального состояния детей с синдромом Дауна (СД) по их мимической экспрессии. С этой целью проведены серия перцептивных экспериментов с участием взрослых (n=75) и автоматический анализ в программе FaceReader мимики детей с СД (n=35, возраст 5—16 лет). Показана способность взрослых к распознаванию эмоциональных состояний детей, таких, как радость, нейтральное (спокойное состояние), печаль, гнев, по полностью открытым лицам и лицам с наложенными масками в области глаз и рта. Выявлено лучшее распознавание состояния радости и нейтрального состояния при условии полностью открытого лица и снижение точности распознавания при наличии маски в области глаз, по сравнению с отсутствием маски и маски в области рта. Установлено, что автоматически лучше распознаются состояние радости и нейтральное состояние, по сравнению с состояниями печали и гнева, при условии полностью открытого лица и маски в области рта ребенка. В работе обсуждаются условия применения автоматического распознавания мимической экспрессии детей с СД и использования метода перцептивного анализа для выявления специфики развития их эмоциональной сферы.

Общая информация

Ключевые слова: мимическая экспрессия, дети, синдром Дауна, перцептивный эксперимент, автоматическое распознавание, динамические изображения

Рубрика издания: Наука о лице

Тип материала: научная статья

DOI: https://doi.org/10.17759/exppsy.2022150310

Финансирование. Исследование выполнено при финансовой поддержке Российского Научного Фонда (проект RSF-DST №22-45-02007).

Получена: 30.06.2022

Принята в печать: 30.09.2022

Для цитаты: Ляксо Е.Е., Фролова О.В., Григорьев А.С., Филатова Ю.О., Махныткина О.В. Распознавание эмоциональных состояний детей с синдромом Дауна по мимической экспрессии: перцептивный и автоматический анализ динамических изображений // Экспериментальная психология. 2022. Том 15. № 3. С. 140–158. DOI: 10.17759/exppsy.2022150310

Полный текст

Введение

Эмоциональная сфера человека во всем многообразии ее проявлений широко освещается в художественной литературе, искусстве, в философских трактатах и изучается различными науками — психологией, лингвистикой, физиологией, информационными технологиями. Одним из направлений исследований является изучение отражения эмоционального состояния человека в характеристиках его голоса, речи, мимической экспрессии. Эти исследования обладают выраженной практической направленностью, обусловленной разработкой дополнительных диагностических методов [20; 21; 24], созданием шкал, опросников, методик [5; 14; 35; 36], человеко-машинных интерфейсов [7].

Человеческое лицо — одно из самых ярких и эффективных средств коммуникации [1]. По выражению лица мы узнаём эмоциональное состояние собеседников, реагируя на тонкие нюансы мимики, строим собственное поведение. Изменение мимики происходит в результате согласованной работы лицевых мышц. Лицевые мышцы можно условно разделить на три группы: глазничные, носовые и оральные [3]. Мышцы сокращаются за счет четкой двигательной программы, которая формируется в моторных областях коры головного мозга и основана на обработке информации, поступающей от зрительной сенсорной системы и структур лимбической системы. В случае нарушения развития и/или атипичного развития ребенка может быть нарушено любое из сложных звеньев, что приводит к несоответствию внутреннего состояния и внешнего проявления эмоций [5].

На распознавание эмоционального состояния человека оказывают влияние социокультурные особенности [5; 12], визуальный материал (статические и/или динамические изображения) [4; 31], гендерные и возрастные различия в выражении эмоций [9]. Гендерные различия в проявлении положительных эмоций более выражены с возрастом — девочки демонстрируют больше положительных эмоций, чем мальчики, и эти различия увеличиваются с возрастом детей. Девочки выражают больше эмоций грусти, страха, сочувствия и стыда, чем мальчики, особенно в негативных ситуациях [9].

Показано, что динамическое изображение лица не сводится к суммированию статичных образов. В условиях динамической экспозиции слабо выраженные экспрессии распознаются более точно, чем дискретные, что обусловлено влиянием фактора времени [1]. Движение черт лица дает дополнительную уникальную временную информацию, способствующую более точному распознаванию эмоций [4], что подтверждается данными ПЭТ-исследования о вовлеченности разных мозговых структур, а, следовательно, и стратегий обработки информации [10]. Распознавание эмоций на статических лицах связано с активностью премоторной, моторной и теменной областей коры, которые преимущественно обеспечивают обработку ментальных образов, по динамическим изображениям лица — зрительных областей коры, верхних отделов височной борозды, т.е. областей, связанных с социальным познанием и восприятием социальных раздражителей [10].

Люди с синдромом Дауна (СД) характеризуются особенностями строения лицевой части черепа — уплощенным лицом и носом, раскосыми глазами [17]. Для детей с СД присуща специфика в строении речевого аппарата: малый объем ротовой полости; опущенная нижняя челюсть; большой складчатый язык; высокое, узкое аркообразное нёбо, отчего звуки получаются иногда более «носовыми»; меньшая длина речевого тракта; мышечная гипотония. У большинства детей с СД открытый прикус, верхние и нижние зубы не сводятся вместе; маленькая, более узкая, чем обычно, верхняя челюсть [23]. Люди с СД добродушны, общительны, проявляют симпатию к собеседнику [17]. В тоже время отмечается специфика эмоционального развития детей с СД [13].

Большинство исследований направлено на изучение способности к распознаванию взрослыми и детьми с СД эмоций других людей. В лонгитюдном исследовании показано, что способность к распознаванию эмоций у детей с СД формируется так же, как и у типично развивающихся (ТР) сверстников [25]. Отмечают, что взрослые с СД испытывали сложности при распознавании удивления и нейтрального состояния по лицам, оценивая эмоциональные состояния более позитивно, чем контрольная группа [15]. Взрослые с СД, сопровождающимся умственной отсталостью, не проявляли специфических трудностей в распознавании выражений лица, несмотря на худшие результаты по сравнению со взрослыми участниками исследования с умственной отсталостью (без СД), и, как правило, больше внимания уделяли нижней половине лица [27]. Показано, что факторы движения и статичности изображения влияют на распознавание эмоций. Так, испуг взрослые и дети с СД точнее идентифицировали по видеоклипам, чем по фотографиям; точность идентификации эмоций счастья и печали не отличалась в зависимости от способа представления [28].

Известно небольшое количество работ, посвященных отражению эмоционального состояния в мимической экспрессии [8; 22] и характеристиках голоса детей с СД [2; 30]. Проведено изучение способности распознавания взрослыми эмоциональных состояний младенцев, типично развивающихся и с СД, по голосовым проявлениям, мимике и совместно по вокализациям и мимике [8]. В другом исследовании проанализирована специфика проявления мимической экспрессии 4—16 летними детьми с СД, воспитывающимися в условиях семьи и детского дома, и выявлены различия в проявлении эмоциональных состояний девочками и мальчиками в зависимости от условий воспитания [22]. В этом исследовании для оценки мимической экспрессии детей использовали программу FaceReader (Нидерланды), которая на сегодняшний день является одной из наиболее доступных для пользователей. Настоящее исследование выполнено в рамках работ по созданию стандартизированного методического подхода для оценки эмоциональной сферы детей с типичным и атипичным развитием. Цель исследования — определить возможность распознавания эмоционального состояния детей с СД по мимике — человеком и автоматически.

Задачи исследования:

1) определить специфику распознавания эмоционального состояния детей с СД экспертами по мимической экспрессии при условии полностью открытого лица и его маскировки в области глаз и рта;

2) провести анализ мимической экспрессии детей с СД автоматически, на основе алгоритмов, заложенных в программе FaceReader;

3) на основании сравнительного анализа данных, полученных с использованием разных методик, определить правомерность применения автоматического анализа (с учетом имеющегося программного обеспечения) и перцептивного визуального эксперимента для определения отражения эмоционального состояния детей с СД в мимической экспрессии.

Методика

В исследовании приняли участие 35 детей с синдромом Дауна в возрасте 5—16 лет (10,3 ± 2,8 лет — среднее ± стандартное отклонение), 21 мальчик, 14 девочек, и 75 взрослых (28,3 ± 13,1 лет), 14 мужчин, 61 женщина.

Дизайн исследования

Видео— и аудиозапись мимической экспрессии, поведения и речи детей при естественном взаимодействии с взрослыми.
Проведение перцептивного эксперимента с целью определения возможности распознавания взрослыми эмоционального состояния детей с СД по их мимической экспрессии и звуковым сигналам (речи и вокализациям).
Автоматический анализ мимической экспрессии детей с СД в программе «FaceReader».
Статистический анализ данных.

Аудио- и видеозапись

Видео- и аудиозапись мимической экспрессии, поведения и речи детей проводили в условиях детского центра общественной организации «Даун-Центр» (Санкт-Петербург) в ситуации естественного взаимодействия ребенка с родителями и экспериментатором. Ситуация включала беседу на предложенные родителями темы, игру с игрушками, описание картинок в книге.

Для видеозаписи мимической экспрессии детей использовали видеокамеру «SONY HDR-CX560» (максимальное разрешение — 1920х1080 при 50 кадрах в с), которая располагалась на расстоянии 1 метра от лица ребенка. Для записи речи и вокализаций детей использовали аппаратуру — магнитофон «Marantz PMD660» с выносным микрофоном «SENNHEIZER e835S». Микрофон устанавливали на расстоянии 30—50 см от лица ребенка. Аудиофайлы сохраняли в формате .wav, 48 000 Гц, 16 бит. Общее время записи каждого ребенка не превышало 30—40 минут. Все детали, касающиеся особенностей поведения ребенка, фиксировали в подробном протоколе исследования.

Родители детей-участников исследования подписывали информированное согласие, одобренное Этическим комитетом Санкт-Петербургского государственного университета.

Перцептивный эксперимент

Перцептивный эксперимент (от лат. perceptio — восприятие) основан на восприятии органами чувств человека информации внешней и внутренней среды. Конечным результатом является распознавание информации. Широкое распространение перцептивный эксперимент получил в психофизиологии [21; 29], лингвистике и языкознании [24]. В работе осуществлено два вида перцептивного эксперимента: визуальный — видеоматериалов (визуальная модальность) и слуховой — речи детей (аудиальная модальность).

Для перцептивного эксперимента видеозаписи мимической экспрессии аннотировали на 4 категории, соответствующие эмоциональным состояниям детей: нейтральное состояние, радость, гнев, печаль. Аннотацию осуществляли два специалиста с профессиональным опытом работы с детьми с нарушениями развития, просматривая видеофрагменты c звуковым сопровождением. На основании анализа видео и протокола записи специалисты выбирали фрагменты, на протяжении которых ребенок демонстрировал мимику, соответствующую одному из четырех заданных эмоциональных состояний, при условии, что он находится лицом к объективу (анфас), лицо и вся голова полностью попадают в кадр, не закрыты руками или игрушками. Требования к отбору материала обусловлены последующим анализом видеофрагментов в программе «FaceReader v.8». При согласованности мнений двух специалистов видеофрагмент относили к определенному эмоциональному состоянию и использовали для дальнейшего анализа. Отобрано 50 видеофрагментов, длительностью от 4 до 31 с (по 1—2 фрагмента для каждого ребенка).

Созданы 3 видеотеста. Первый видеотест включал 50 фрагментов видео, замешанных в случайном порядке. Перед каждым видеофрагментом вставляли изображение с порядковым номером фрагмента в тесте, пауза между фрагментами составляла 10 с. Каждый из видеофрагментов был включен в тест один раз. Длительность теста составляла 20 мин. Второй и третий тесты были идентичны первому по последовательности предъявления фрагментов, но включали использование масок. В программе «Movavi Video Suite 2021» при помощи прямоугольной маски закрывали глаза детей — второй видеотест, рот детей — третий видеотест. Для создания маски использовали встроенный инструмент «цензура», процент размытия составил 50%. В первом тесте маска закрывала брови и глаза, вне зависимости от положения головы ребенка. Во втором тесте маска закрывала нижнюю часть носогубного треугольника таким образом, чтобы область рта оставалась под маской вне зависимости от положения головы ребенка. Местоположение маски изменяли покадрово, с частотой 25 Гц.

Видеотесты предъявляли группам взрослых (экспертов) без звука с экрана (диагональ 2 м), на который проецировали изображение. Эксперты находились в помещении — учебной аудитории площадью 25 м2.

Перед экспериментом в разработанной анкете эксперты указывали информацию о себе: пол, возраст, во время просмотра — отмечали эмоциональное состояние детей, выбирая одну из четырех предложенных категорий: нейтральное, радость, печаль, гнев.

Первый видеотест просматривали 15 специалистов, сотрудников группы по изучению детской речи СПбГУ. Согласно информированному согласию, подписанному родителями детей, видеозапись лица ребенка могла быть доступна только специалистам. Второй и третий тесты просматривали по 15 студентов бакалавриата третьего года обучения, профиль подготовки «Логопедия» (табл. 1).

Таблица 1

Информация об экспертах и аудиторах

Тест	Количество	Средний возраст	Пол
Тест	Количество	Средний возраст	М	Ж
1-й видеотест	15	39,9 ± 19,6	8	7
2-й видеотест	15	20,6 ± 0,9	0	15
3-й видеотест	15	20,1 ± 0,6	0	15
1-й аудиотест	15	36,7 ± 11,1	6	9
1-й аудиотест	15	24,4 ± 4,7	0	15

Дополнительно, для проверки предположения о возможности распознавания эмоционального состояния ребенка по одной модальности, создан аудиотест, который содержал речь или вокализации детей (речевые сигналы), соответствующие видеофрагментам. Каждый речевой сигнал повторялся в тесте один раз, пауза между речевыми сигналами составляла 5 с.

Аудиотест предъявляли взрослым (аудиторам) в открытом поле. В качестве аудиторов выступали взрослые двух групп. Первая группа — 15 взрослых разных специальностей: в области информационных технологий, психофизиологии, логопедии, имеющие опыт работы с детской речью. Вторая группа —15 студентов магистратуры первого года обучения, профиль подготовки — «Теоретическая и прикладная логопедия» (табл. 1).

По результатам эксперимента строили матрицы спутывания [2], позволяющие оценить вероятность правильного распознавания и ошибки, которые допускают взрослые при определении эмоционального состояния детей. Матрица спутывания (матрица ошибок) используется в области машинного обучения для описания эффективности модели классификации. Она представляет собой таблицу, строки которой соответствуют заданным (прогнозируемым) классам, столбцы — фактическим значениям (реальным классам). Вычисляли: полноту (recall) — долю найденных образцов, принадлежащих к классу, относительно всех образцов этого класса в тестовой выборке; точность (precision) —долю образцов, действительно принадлежащих данному классу, относительно всех образцов, которые отнесли к данному классу; UAR (Unweighted Average Recall) —усредненную полноту для всех эмоциональных состояний, указывает на среднюю вероятность распознавания.

Считали коэффициент каппа Коэна (к) для определения согласованности внутри групп экспертов и аудиторов и между группами [6; 16]. Согласованность классифицируется как незначительная (каппа Коэна находится в диапазоне 0,00—0,20), слабая (0,21—0,40), умеренная (0,41—0,60), существенная (0,61—0,80), почти полная (0,81—1,00) [18]. Подсчет коэффициента каппа Коэна осуществляли с использованием функции cohen_kappa_score() библиотеки scikit-learn (библиотеки машинного обучения на языке программирования Python).

Автоматический анализ мимической экспрессии детей

Анализ мимической экспрессии детей с СД осуществляли в программе «FaceReader 8.0» (Noldus Information Technology). Программное обеспечение работает на облачной платформе Microsoft Azure. Программа автоматически выделяет шесть основных эмоций: радость, грусть, гнев, удивление, испуг, отвращение и нейтральное состояние [11]. Программа определяет пол, возраст и этническую принадлежность человека. Специальные фильтры позволяют работать с анализом мимики взрослых и детей, начиная с четырехлетнего возраста. Более 10 000 изображений, аннотированных экспертами, были использованы для обучения классификаторов эмоционального выражения, достигнув точности классификации 89% [32]. Точность распознавания различается в разных версиях программы FaceReader.

На основании алгоритмов, заложенных в программе, определяли: выраженность (expressiveness) базовых эмоций (радость, печаль, гнев, удивление, страх, отвращение и нейтральное состояние); время, на протяжении которого ребенок демонстрирует в мимической экспрессии определенное эмоциональное состояние (в процентах от времени всего видеофрагмента); значения показателя валентности (valence). Данные, полученные при автоматическом анализе мимической экспрессии детей, сопоставляли с результатами перцептивного эксперимента.

Статистический анализ

Статистический анализ полученных данных проводили в программе «Statistica-10» с использованием непараметрических критериев: критерия Манн—Уитни, корреляции Спирмена (p<0,05), регрессионного анализа.

Критерий Манн—Уитни применяли для сравнения ответов экспертов и аудиторов при распознавании разных эмоциональных состояний детей по видео— и аудиотестам. Корреляционный анализ использовали с целью определения связей между индивидуальными характеристиками аудитора (пол, возраст) и распознаванием эмоционального состояния детей; регрессионный анализ — для подтверждения данных корреляционного анализа.

Результаты

1. Определение эмоционального состояния по мимической

экспрессии детей: перцептивный эксперимент

1.1. Видеотест 1 — без маски

Анализ результатов перцептивного эксперимента показал, что эксперты-специалисты распознают по видеофрагментам (видеотест 1) нейтральное состояние детей и радость лучше, чем состояния печали и гнева (табл. 2). Средняя вероятность распознавания (усредненная полнота) — 0,66.

Таблица 2

Распознавание экспертами эмоциональных состояний детей
по видеофрагментам (% ответов)

	Радость	Нейтральное состояние	Печаль	Гнев
Радость	72	24	1	3
Нейтральное состояние	1	78	15	6
Печаль	0	32	64	4
Гнев	11	26	12	51
Total	84	160	92	64
Recall	0,72	0,78	0,64	0,51
Precision	0,86	0,49	0,70	0,80
F1-score	0,78	0,60	0,67	0,62
UAR 0,66

Таблица 3

Согласованность экспертов при распознавании эмоционального состояния
детей по видеотестам (коэффициент каппа Коэна)

Тест	Эмоциональное состояние	Коэффициент каппа Коэна
1 — без маски	Радость	0,632
	Нейтральное	0,375
	Печаль	0,407
	Гнев	0,492
	Все состояния	0,455
2 — маска в области глаз детей	Радость	0,511
	Нейтральное	0,361
	Печаль	0,315
	Гнев	0,498
	Все состояния	0,396
3 — маска в области рта детей	Радость	0,566
	Нейтральное	0,423
	Печаль	0,332
	Гнев	0,701
	Все состояния	0,505

Таблица 4

Распознавание экспертами эмоциональных состояний детей по видеофрагментам
с масками в области глаз (тест 2) и рта (тест 3) (% ответов)

Тест 2 — маска в области глаз					Тест 3 — маска в области рта
	Радость	Нейтральное состояние	Печаль	Гнев		Радость	Нейтральное состояние	Печаль	Гнев
Радость	64	25	5	6	Радость	66	27	3	4
Нейтральное состояние	2	67	21	10	Нейтральное состояние	2	71	18	9
Печаль	7	32	57	4	Печаль	0	40	56	4
Гнев	6	29	15	50	Гнев	11	14	2	73
Total	79	153	98	70	Total	79	152	79	90
Recall	0,64	0,67	0,57	0,5	Recall	0,66	0,71	0,56	0,73
Precision	0,81	0,44	0,58	0,71	Precision	0,84	0,47	0,71	0,81
F1-score	0,72	0,53	0,58	0,59	F1-score	0,74	0,56	0,63	0,77
UAR 0,60					UAR 0,67

Таблица 5

Время, на протяжении которого ребенок демонстрирует определенное эмоциональное
состояние, в процентах от времени всего видео теста (FaceReader 8.0)

Тест 1 — без маски
Эмоции	Радость	Нейтральное состояние	Печаль	Гнев	Страх	Удивление	Отвращение	Другое
Радость	26,49	47,33	3,29	1,52	0,39	13,13	1,45	6,40
Нейтральное состояние	2,11	57,72	8,40	7,07	4,27	13,81	0,79	5,83
Печаль	0,00	55,66	12,27	6,53	5,10	9,77	4,60	6,07
Гнев	6,19	52,87	10,64	0,80	4,80	11,13	6,59	6,98
Тест 2 — маска в области глаз
Эмоции	Радость	Нейтральное состояние	Печаль	Гнев	Страх	Удивление	Отвращение	Другое
Радость	11,50	57,41	4,26	3,30	3,84	10,47	1,45	7,77
Нейтральное состояние	12,12	48,41	11,69	4,60	2,63	12,79	1,48	6,28
Печаль	71,65	16,80	0,00	2,85	0,00	0,00	0,00	8,70
Гнев	10,11	50,50	7,55	5,95	6,51	10,74	1,78	6,86
Тест 3 — маска в области рта
Эмоции	Радость	Нейтральное состояние	Печаль	Гнев	Страх	Удивление	Отвращение	Другое
Радость	22,18	55,71	6,67	1,81	2,19	1,72	3,55	6,17
Нейтральное состояние	14,89	61,71	5,09	7,52	0,63	3,84	0,46	5,86
Печаль	8,90	61,55	6,90	12,45	0,00	0,00	0,00	10,20
Гнев	13,17	62,36	10,30	0,94	0,90	2,64	2,30	7,39

Примечание: строки соответствуют реальным эмоциональным состояниям, столбцы — эмоциональным состояниям, выделенным программой «FaceReader 8.0».

Таблица 6

Распознавание аудиторами эмоциональных состояний по речи
и вокализациям детей (% ответов)

Аудиторы группы 1					Аудиторы группы 2
	Радость	Нейтральное состояние	Печаль	Гнев		Радость	Нейтральное состояние	Печаль	Гнев
Радость	45	34	4	17	Радость	43	35	6	16
Нейтральное состояние	11	69	16	4	Нейтральное состояние	12	60	24	4
Печаль	0	42	58	0	Печаль	0	27	73	0
Гнев	7	10	10	73	Гнев	12	4	10	74
Total	63	155	88	94	Total	67	126	113	94
Recall	0,45	0,69	0,58	0,73	Recall	0,43	0,6	0,73	0,74
Precision	0,71	0,45	0,66	0,78	Precision	0,64	0,48	0,65	0,79
F1-score	0,55	0,54	0,62	0,75	F1-score	0,51	0,53	0,69	0,76
UAR 0,61					UAR 0,63

Таблица 7

Согласованность аудиторов при распознавании эмоционального состояния детей
по аудиотесту: внутри каждой группы и между группами аудиторов
(коэффициент каппа Коэна)

Эмоциональное состояние	1-я группа	2-я группа	Между группами
Радость	0,406	0,551	0,465
Нейтральное	0,360	0,477	0,382
Печаль	0,280	0,344	0,266
Гнев	0,503	0,548	0,518
Все состояния	0,388	0,474	0,407

Достоверные различия по количеству правильных ответов экспертов выявлены между эмоциональными состояниями: печаль и радость (p<0,05— критерий Манн—Уитни), гнев и радость (p<0,01), гнев и нейтральное состояние (p<0,01), гнев и печаль (p<0,05). Эксперты демонстрировали умеренную согласованность при распознавании всех эмоциональных состояний. При распознавании состояния радости согласованность между экспертами — существенная, печали и гнева — умеренная, нейтрального состояния — слабая (табл. 3).

1.2. Видеотест 2 — маска в области глаз ребенка

При использования маски, закрывающей область глаз ребенка (видеотест 2), эксперты распознают нейтральное состояние и радость лучше, чем печаль и гнев (табл. 4). Средняя вероятность распознавания — 0,60. Достоверные различия по количеству правильных ответов экспертов выявлены между нейтральным состоянием и состоянием печали (p<0,05 — критерий Манн—Уитни), нейтральным состоянием и состоянием гнева (p<0,01). Согласованность экспертов при распознавании всех эмоциональных состояний — слабая. При распознавании состояния радости и гнева согласованность умеренная, печали и нейтрального состояния — слабая (табл. 3).

1.3. Видеотест 3 — маска в области рта ребенка

По видео тесту 3, с использованием маски в области рта ребенка, эксперты распознают нейтральное состояние и состояние гнева лучше, чем радость и печаль (табл. 4). Средняя вероятность распознавания — 0,67. Достоверные различия по количеству правильных ответов экспертов показаны между состояниями печали и гнева (p<0,01), печали и нейтральным состоянием (p<0,01). Согласованность ответов экспертов при распознавании всех эмоций — умеренная, для состояния гнева — существенная, радости — умеренная, нейтрального состояния и состояния печали — слабая (табл. 3).

В целом, по видеотесту 2 — маска в области глаз эксперты распознают эмоциональное состояние детей хуже, чем по видеотесту 1 — без маски (p<0,05) и 3 — маска в области рта (p<0,05). Тип теста влияет главным образом на распознавание состояний радости и гнева. По видеотесту 1 состояние радости распознается достоверно лучше, чем по видеотесту 2 и 3 (p<0,05). Состояние гнева по видеотесту 3 распознается достоверно лучше, чем по тестам 1 (p<0,001) и 2 (p<0,001).

2. Автоматический анализ мимической экспрессии детей

Автоматический анализ мимической экспрессии детей в программе «FaceReader 8.0» показал, что мимика детей соответствует преимущественно нейтральному состоянию (табл. 5).

Автоматическое распознавание нейтрального состояния и радости по всем трем тестам осуществляется успешнее, чем распознавание печали и гнева (табл. 5). Маска в области глаз (видеотест 2) приводит к ухудшению распознавания всех эмоциональных состояний за исключением гнева, маска в области рта (тест 3) — к незначительному ухудшению распознавания состояния печали.

Анализ показателей валентности для видеофрагментов теста 1 (без маски) показал, что мимическая экспрессия детей в состоянии радости характеризуется положительными значениями (0,17); в состоянии печали (-0,16), гнева (-0,11) и нейтральном состоянии (-0,12) — отрицательными значениями. В зависимости от типа теста показатели валентности меняются (тест 2: 0,01; -0,03; 0,71; -0,07 — для состояния радости, нейтрального состояния, печали и гнева; тест 3: 0,1; 0,03; -0,08; 0 — соответственно). Значения валентности, определенные по видеофрагментам, соответствующим состоянию радости, снижаются в тесте 2, но не меняют знак при использовании маски.

3. Определение эмоционального состояния по речевым сигналам детей

При прослушивании аудиотеста аудиторы первой группы распознают гнев и нейтральное состояние лучше, чем печаль и радость (табл. 6). Средняя вероятность распознавания — 0,61. Достоверные различия по количеству правильных ответов аудиторов выявлены между эмоциональными состояниями: гнев и печаль (p<0,05 — критерий Манн—Уитни), гнев и радость (p<0,001), нейтральное состояние и радость (p<0,001). Согласованность ответов аудиторов при распознавании всех эмоциональных состояний — слабая, при распознавании состояния радости, состояния гнева — умеренная, при распознавании нейтрального состояния и состояния печали — слабая (табл. 7).

Аудиторы второй группы при прослушивании аудиотеста распознают печаль и гнев лучше, чем радость и нейтральное состояние. Средняя вероятность распознавания — 0,63. Достоверные различия по количеству правильных ответов аудиторов — между нейтральным эмоциональным состоянием и состояниями гнева (p<0,01), печали (p<0,01), радости (p<0,001), между состояниями радости и гнева (p<0,001), радости и печали (p<0,001).

Согласованность ответов аудиторов при распознавании эмоциональных состояний — умеренная, состояний радости, гнева и нейтрального состояние — умеренная, состояния печали — слабая (табл. 7).

Сравнение результатов перцептивного анализа не выявило достоверных различий между группами по вероятности распознавания эмоционального состояния детей. Согласованность между двумя группами аудиторов, при распознавании всех эмоциональных состояний, радости и гнева — умеренная, нейтрального состояния и печали — слабая (табл. 7).

Сравнительный анализ показал, что вероятность распознавания эмоциональных состояний по видеотесту (тест 1, без маски), выше, чем по аудиотесту (p<0,01). При этом состояние радости лучше распознается по видеофрагментам (p<0,001), состояние гнева (p<0,05) — по звуковым сигналам детей.

4. Факторы, значимые для распознавания эмоционального состояния детей с СД

Выявлены факторы, значимые/незначимые для распознавания эмоционального состояния детей с СД: специфика распознавания эмоций в зависимости от канала восприятия стимула (визуального/аудиального), гендерная принадлежность детей с СД, пол, возраст экспертов. По видеофрагментам эксперты лучше распознают эмоциональное состояние девочек, чем эмоциональное состояние мальчиков (p<0,05 — критерий Манн—Уитни) — по видеотестам 1 (без маски) и 3 (маска в области рта). Пол экспертов влияет на распознавании состояния гнева: F(1,13)=7,186; p< 0,05 (R2 = 0,356; β = 0,597) — по данным регрессионного анализа женщины лучше распознают гнев по видео детей, чем мужчины (по видеотесту 1). Эксперты старшего возраста распознают эмоциональные состояния детей по видео хуже, чем эксперты младшего возраст (r = -0,53; p< 0,05—корреляция Спирмена). При прослушивании аудиотестов аудиторы относят речевые сигналы мальчиков к категории «гнев» чаще, чем речевые сигналы девочек (p<0,01). Длительность видеофрагментов значимо не влияет на вероятность распознавания эмоционального состояния детей.

Обсуждение

Результаты проведенного исследования показали способность взрослых к распознаванию эмоциональных состояний детей с СД по их мимической экспрессии и по речевым сигналам и ограниченные возможности автоматического распознавания эмоций по мимической экспрессии детей программой FaceReader.

В исследовании показано, что взрослыми по мимической экспрессии детей с СД лучше распознается состояние радости, по речевым сигналам — состояние гнева. Согласованность экспертов была наибольшей при распознавании состояния радости по открытому лицу и при распознавании состояния гнева по аудиотесту. Это согласуется с данными, полученными при распознавании взрослыми эмоциональных состояний типично развивающихся младенцев и с СД по их голосовым проявлениям, мимике и совместно по вокализациям и мимике [8].Взрослые не смогли определить состояние радости по вокализациям 3,5—4,5 месячных младенцев с СД, но определяли по мимической экспрессии. Авторы исследования делают заключение, что у младенцев с СД мимика должна быть специфическим признаком, используемым взрослыми для идентификации аффективных состояний [8]. Состояние радости взрослые лучше определяют по фотографиям типично развивающихся детей 2—8 лет, по сравнению с гневом, страхом, печалью, удивлением и отвращением [19]. В другом исследовании по фотографиям и видеороликам типично развивающихся детей 4—6 лет специалисты в области кодирования действий по лицу с существенной согласованностью (коэффициент Каппа — 0,70) определяли счастье, отвращение и презрение [34]. Дети, участвующие в этом исследовании, были отобраны в детском актерском агентстве в городе Сан-Паулу, Бразилия. На сегодняшний день при создании баз эмоциональной мимики детей используют вызванные, наигранные и естественные эмоции [например: 26]. В настоящем исследовании, как и в нашей предыдущей работе [22], анализировали только естественное проявление эмоций детьми с СД. Взрослые лучше распознавали эмоции по лицу девочек, чем мальчиков, что может быть связано с тем, что девочки проявляют больше положительных эмоций, чем мальчики [9], а в представленном исследовании взрослые лучше определяли состояние радости, чем печали и гнева.

При распознавании эмоций в программе FaceReader в случае полностью открытого лица ребенка результаты в целом согласуются с данными перцептивного эксперимента — состояние радости распознается лучше, чем печаль и гнев. При использовании масок автоматическое распознавание эмоциональных состояний ухудшается. В связи с тем, что данное исследование проводится в рамках создания стандартизированной методики для оценки эмоциональной сферы детей, было важно учитывать их естественное поведение — подвижность, неспособность или нежелание смотреть только прямо на камеру. Поэтому, прежде всего, для экспертного анализа были использованы маски на лицах детей (закрывающие глаза и рот), имитирующие наклон и поворот головы. Именно такой подход позволил показать, что для ситуаций естественного проявления эмоций использование автоматической программы FaceReader нецелесообразно. Различия в результатах перцептивного эксперимента и автоматического анализа могут быть обусловлены разными алгоритмами обработки визуальной информации — для человека присуще целостное гештальтное выделение наиболее значимой информации, программа анализирует видеофрагменты покадрово. Программа FaceReader лучше определяет нейтральное состояние, люди способны определить, наряду с нейтральным состоянием, радость, печаль и гнев. В то же время в модельных ситуациях (фронтально расположенное полностью открытое лицо) программа может быть применена для экспресс-диагностики эмоционального состояния ребенка с СД. Второй причиной худшего распознавания программой эмоций по мимической экспрессии детей могут служить геометрические пропорции лица детей с СД.

Дополнительная оценка эмоционального состояния детей по их речевым сигналам показала, что взрослые лучше определяют состояние гнева, что подтверждает данные, указывающие на лучшее распознавание состояния дискомфорта у детей с СД по сравнению с состоянием комфорта и нейтральным состоянием [29].

Сравнение распознавания эмоций по визуальному и аудиальному каналу выявило несогласованность в выделении эмоций ребенка взрослыми — радости по видеотесту, состояния гнева— по аудиотесту. Эти данные требуют более детального изучения и обсуждения, так как показывают атипичное проявление эмоций у детей с СД. В проведенном исследовании экспертный анализ мимической экспрессии детей со звуковым сопровождением не проводили, так как этот материал, наряду с детальным протоколом исследования и анализом записей поведения детей, был использован для аннотирования.

Несмотря на ряд ограничений программы и возникших вопросов, исследование показало необходимость дальнейшего изучения мимической экспрессии детей с СД и последующей разработки системы автоматического распознавания эмоций по лицу. Создание такого инструментария с использованием методов искусственного интеллекта имеет важное значение с точки зрения разработки методов экспресс-диагностики сформированности эмоциональной сферы у детей с СД (с учетом их возраста и пола) и детей с другими особенностями развития — расстройствами аутистического спектра, умственной отсталостью, нарушениями слуха и тяжелыми нарушениями речи.

Заключение

Впервые проведено комплексное исследование по распознаванию эмоционального состояния детей с СД по их мимической экспрессии человеком и автоматически.

Выявлена специфика распознавания эмоционального состояния детей с СД экспертами по мимической экспрессии при условии полностью открытого лица и его маскировки — в области глаз и рта. Показано, что эксперты по мимической экспрессии лучше распознают состояние радости и нейтральное (спокойное) состояние при условии полностью открытого лица. Маска в области глаз приводит к худшему распознаванию эмоциональных состояний детей, чем при отсутствии маски и маски в области рта.

Автоматическое распознавание мимической экспрессии детей на основе алгоритмов, заложенных в программе FaceReader, при условии полностью открытого лица и маски в области рта показало выделение состояния радости и нейтрального состояния. Распознавание нейтрального состояния и радости программа осуществляет лучше, чем состояния печали и гнева. При закрытых глазах программа лучше распознает состояние гнева, чем при отсутствии маски и закрытом рте.

Вероятность распознавания эмоциональных состояний по видеотесту выше, чем по аудиотесту, при лучшем распознавании радости по видеотесту, состояние гнева — по аудиотесту.

На основании полученных данных сделано заключение о том, что программа FaceReader может быть использована для экспресс-оценки мимической экспрессии детей с СД при полностью открытом лице, при невозможности (трудоемкость, временные затраты) применения экспертного анализа.

Проведенное исследование поставило вопрос о необходимости создания программного обеспечения с учетом вариативности геометрии лица испытуемого, меньших требований к анализируемому материалу (фронтализации лица и уровню освещенности).

Литература

Барабанщиков В.А., Королькова О.А., Лободинская Е.А. Восприятие эмоциональных экспрессий лица при его маскировке и кажущемся движении // Экспериментальная психология. 2015. Том 8. № 1. С. 7—27.
Голосовой портрет ребенка с типичным и атипичным развитием / Под ред. Ляксо Е.Е., Фролова О.В. СПб.: Издательско-полиграфическая ассоциация высших учебных заведений, 2020. 204 с.
Синельников Р.Д. Атлас анатомии человека: в 3 т. Т.1.Учение о костях, соединении костей и мышцах. 7-е изд. М.: Новая волна, 2009. 344 с.
Ambadar Z., Schooler J.W., Cohn J.F. Deciphering the enigmatic face: the importance of facial dynamics in interpreting subtle facial expressions // Psychological Science. 2005. Vol. 16. № 5. P. 403—410. DOI:10.1111/j.0956-7976.2005.01548.x
Basic and complex emotion recognition in children with autism: cross-cultural findings / Fridenson-Hayo S., Berggren S., Lassalle A., Tal S., Pigat D., Bölte S., Baron-Cohen S., Golan O. // Molecular Autism. 2016. Vol. 7:52. DOI:10.1186/s13229-016-0113-9
Bobicev V., Sokolova M. Inter-annotator agreement in sentiment analysis: Machine learning perspective // Proceedings of Recent Advances in Natural Language Processing (Varna, Bulgaria, September 4—6, 2017). 2017. P. 97—102. DOI:10.26615/978-954-452-049-6_015
Bojanić M., Delić V., Karpov A. Call redistribution for a call center based on speech emotion recognition // Applied Sciences. 2020. Vol. 10. № 13:4653. DOI:10.3390/app10134653
Carvajal F., Iglesias J. Judgements of facial and vocal signs of emotion in infants with Down syndrome // Developmental Psychobiology. 2006. Vol. 48. № 8. P. 644—652. DOI:10.1002/dev.20173
Chaplin T.M., Aldao A. Gender differences in emotion expression in children: A meta-analytic review // Psychological Bulletin. 2013. Vol. 139. № 4. P. 735—765. DOI:10.1037/a0030737
Dissociable neural pathways are involved in the recognition of emotion in static and dynamic facial expressions / Kilts C., Egan G., Gideon D., Ely T., Hoffman J. // Neuroimage. 2003. Vol. 18. № 1. P. 156—168. DOI:10.1006/nimg.2002.1323.
Ekman P. Basic emotions // Handbook of cognition and emotion / Eds.: T. Dalgleish, M.J. Power. New Jersey, John Wiley & Sons, Ltd, Hoboken, 1999. P. 45—60.
Emotion recognition from the eye region in children with and without Autism Spectrum Disorder in Arab and Scandinavian countries / Kuusikko-Gauffin S., Elsheikh S., Bölte S., Omar M., RiadG., Ebeling H., Rautio A., Moilanen I. // Scandinavian Journal of Child and Adolescent Psychiatry and Psychology. 2018. Vol. 6. № 4. P. 159—169. DOI:10.21307/sjcapp-2018-015
Emotions and developmental psychopathology / Izard C.E., Youngstrom E.A., Fine S.E., Mostow A.J., Trentacosta C.J. // Developmental psychopathology / Eds.: D. Cicchetti, D.J. Cohen. New York: John Wiley & Sons, Inc, 2006. P. 244—292. DOI:10.1002/9780470939383.ch8
Hart S., Jacobsen S.L. The Emotional Development Scale: Assessing the emotional capacity of 4—12 year olds // Journal of Infant, Child, and Adolescent Psychotherapy. 2019. Vol. 18. № 2. Р. 185—195. DOI:10.1080/15289168.2019.1583056
Hippolyte L., Barisnikov K., Van der Linden M. Face processing and facial emotion recognition in adults with Down syndrome // American Journal of Mental Retardation. 2008. Vol. 113. № 4. P. 292—306. DOI:10.1352/0895-8017(2008)113[292:FPAFER]2.0.CO;2
Inter-rater reliability of actual tagged emotion categories validation using Cohen’s Kappa coefficient / Md Juremi N.R., Zulkifley M.A., Hussain A., Zaki W. // Journal of Theoretical and Applied Information Technology. 2017. Vol. 95. № 2. P. 259—264.
Kumin L. Early communication skills for children with Down syndrome: A guide for parents and professionals. Bethesda, MD: Woodbine House, 2003. 368 p.
Landis J.R., Koch G.G. The measurement of observer agreement for categorical data // Biometrics. 1977. Vol. 33. № 1. P. 159—174.
LoBue V., Thrasher, C. The Child Affective Facial Expression (CAFE) set: validity and reliability from untrained adults // Frontiers in psychology. 2015. Vol. 5:1532. DOI:10.3389/fpsyg.2014.01532
Luneski A., Konstantinidis E., Bamidis P. Affective medicine: a review of affective computing efforts in medical informatics // Methods of information in medicine. 2010. Vol. 49. № 3. P. 207—218. DOI:10.3414/ME0617
Lyakso E.E., Frolova O.V. Early development indicators predict speech features of autistic children // In Companion Publication of the 2020 International Conference on Multimodal Interaction (ICMI’20 Companion). 2020. P. 514—521. DOI:10.1145/3395035.3425183
Lyakso E.E., Frolova O.V., Matveev Yu.N. Facial Expression: Psychophysiological Study // Handbook of Research on Deep Learning-Based Image Analysis under Constrained and Unconstrained Environments / Eds.: Raj Alex Noel Joseph, Vijayalakshmi G.V. Mahesh, Ruban Nersisson. Hershey, PA: IGI Global, 2021. Сhapter 14. P. 266—289. DOI:10.4018/978-1-7998-6690-9
Markaki M., Stylianou Y. Voice pathology detection and discrimination based on modulation spectral features // IEEE Transactions on Audio, Speech, and Language Processing. 2011. Vol. 19. № 7. P. 1938—1948. DOI:10.1109/TASL.2010.2104141
More than words: Cross-linguistic exploration of Parkinson’s disease identification from speech / Verkhodanova V., Trckova D., Coler M., Lowie W. // Lecture Notes in Computer Science. 2020. Vol. 12335. P. 613—623. DOI:10.1007/978-3-030-60276-5_59
Pochon R., Declercq Ch. Emotion recognition by children with Down syndrome: A longitudinal study // Journal of Intellectual & Developmental Disability. 2013. Vol. 38. № 4. P. 332—343. DOI:10.3109/13668250.2013.826346
Presentation and validation of the Duck EES child and adolescent dynamic facial expressions stimulus set / Giuliani N.R., Flournoy J.C., Ivie E.J., Von Hippel A., Pfeifer J.H. // International Journal of Methods in Psychiatric Research. 2017. Vol. 26. № 1:e1553. DOI:10.1002/mpr.1553
Processing of facial expressions of emotions by adults with Down syndrome and moderate intellectual disability / Carvajal F., Fernández-Alcaraz C., Rueda M., Sarrión L.// Research in developmental disabilities. 2012. Vol. 33. № 3. P. 783—790. DOI:10.1016/j.ridd.2011.12.004
Recognition of facial expressions of emotion in adults with Down syndrome / Virji-Babul N., Watt K., Nathoo F., Johnson P. // Physical and Occupational Therapy in Pediatrics. 2012. Vol. 32. № 3. P. 333—343. DOI:10.3109/01942638.2011.653626
Reflection of the emotional state in the characteristics of voice and speech of children with Down syndrome / Lyakso E., Frolova O. GorodnyiV., Grigorev A., Nikolaev A., Matveev Y.// 10th International Conference on Speech Technology and Human-Computer Dialogue, SpeD 2019 (Timisoara, Romania, 10—12 October 2019). 2019. P. 1—6. DOI:10.1109/SPED.2019.8906579
Sorce J.F., Emde R.N. The meaning of infant emotional expressions: regularities in caregiving responses in normal and Down’s syndrome infants // Journal of Child Psychology and Psychiatry, and allied disciplines. 1982. Vol. 23. № 2. P. 145—158. DOI: 10.1111/j.1469-7610.1982.tb00059.x
Wehrle T., Kaiser S., Schmidt S., Scherer K.R. Studying the dynamics of emotional expression using synthesized facial muscle movements // Journal of Personality and Social Psychology. 2000. Vol. 78. № 1. P. 105—119. DOI: 10.1037//0022-3514.78.1.105
Terzis V., Moridis Chr.N., Economides A. Measuring instant emotions during a self-assessment test: The use of FaceReader // Proceedings of the 7th International Conference on Methods and Techniques in Behavioral Research (Eindhoven, The Netherlands, August, 2010). 2010. № 18. P. 1—4. DOI:10.1145/1931344.1931362
The “Reading the Mind in the Eyes” Test Revised Version: A Study with Normal Adults, and Adults with Asperger Syndrome or High-functioning Autism / Baron-Cohen S., WheelwrightS., Hill J., Raste Y., Plumb I. // Journal of Child Psychology and Psychiatry. 2001. Vol. 42. № 2. P. 241—251.
The Child Emotion Facial Expression Set: A Database for emotion recognition in children / Negrão J.G., Osorio A., Siciliano R.F., Lederman V., Kozasa E.H., D’Antino M., Tamborim A., Santos V., de Leucas D., Camargo P.S., Mograbi D.C., Mecca T.P., Schwartzman, J.S. // Frontiers in Psychology. 2021. Vol. 12:666245. DOI:10.3389/fpsyg.2021.666245
The Performance of Emotion Classifiers for Children with Parent-Reported Autism: Quantitative Feasibility Study / Kalantarian H., Jedoui K., Dunlap K., Schwartz J., Washington P., Husic A., Tariq Q., Ning M., Kline A., Wall P.D. // JMIR Mental Health. 2020. Vol. 7. № 4:e13174. DOI:10.2196/13174
The scale for emotional development-revised (SED-R) for persons with intellectual disabilities and mental health problems: development, description, and reliability / Vandevelde S., Morisse F., Dosen A., Poppe L., Jonckheere B., van Hove G., Maes B., van Loon J., Claes C. // International Journal of Developmental Disabilities. 2016. Vol. 62. № 1. P. 11—23. DOI:10.1179/2047387714Y.0000000062

Информация об авторах

Ляксо Елена Евгеньевна, доктор биологических наук, профессор, кафедра Высшей нервной деятельности и психофизиологии, биологический факультет, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия, ORCID: https://orcid.org/0000-0002-6073-0393, e-mail: lyakso@gmail.com

Фролова Ольга Владимировна, кандидат биологических наук, научный сотрудник биологического факультета, Санкт-Петербургский государственный университет (ФГБОУ ВО СПбГУ), Санкт-Петербург, Россия, ORCID: https://orcid.org/0000-0002-6293-009X, e-mail: olchel@yandex.ru

Григорьев Алексей Сергеевич, кандидат биологических наук, доцент кафедры высшей нервной деятельности и психофизиологии, Санкт-Петербургский государственный университет (ФГБОУ ВО СПбГУ), Санкт-Петербург, Россия, ORCID: https://orcid.org/0000-0002-1565-6921, e-mail: a.s.grigoriev89@gmail.com

Филатова Юлия Олеговна, доктор педагогических наук, ведущий научный сотрудник кафедры высшей нервной деятельности и психофизиологии, Санкт-Петербургский государственный университет (ФГБОУ ВО СПбГУ), Санкт-Петербург, Россия, ORCID: https://orcid.org/0000-0003-2890-3722, e-mail: yofilatova@yandex.ru

Махныткина Олеся Владимировна, кандидат технических наук, доцент, факультет информационных технологий и программирования, Национальный исследовательский университет ИТМО (ФГАОУ ВО «НИУ ИТМО»), Санкт-Петербург, Россия, ORCID: https://orcid.org/0000-0002-8992-9654, e-mail: makhnytkina@itmo.ru

Метрики

Просмотров

Всего: 680
В прошлом месяце: 26
В текущем месяце: 15

Скачиваний

Всего: 142
В прошлом месяце: 7
В текущем месяце: 2

PlumX

Метрики публикации