Введение
Эмоциональная сфера человека во всем многообразии ее проявлений широко освещается в художественной литературе, искусстве, в философских трактатах и изучается различными науками — психологией, лингвистикой, физиологией, информационными технологиями. Одним из направлений исследований является изучение отражения эмоционального состояния человека в характеристиках его голоса, речи, мимической экспрессии. Эти исследования обладают выраженной практической направленностью, обусловленной разработкой дополнительных диагностических методов [Luneski, 2010; Lyakso, 2020; More than words, 2020], созданием шкал, опросников, методик [Basic and complex, 2016; Hart, 2019; The Performance of, 2020; The scale for, 2016], человеко-машинных интерфейсов [Bojanić, 2020].
Человеческое лицо — одно из самых ярких и эффективных средств коммуникации [Барабанщиков, 2015]. По выражению лица мы узнаём эмоциональное состояние собеседников, реагируя на тонкие нюансы мимики, строим собственное поведение. Изменение мимики происходит в результате согласованной работы лицевых мышц. Лицевые мышцы можно условно разделить на три группы: глазничные, носовые и оральные [Синельников, 2009]. Мышцы сокращаются за счет четкой двигательной программы, которая формируется в моторных областях коры головного мозга и основана на обработке информации, поступающей от зрительной сенсорной системы и структур лимбической системы. В случае нарушения развития и/или атипичного развития ребенка может быть нарушено любое из сложных звеньев, что приводит к несоответствию внутреннего состояния и внешнего проявления эмоций [Basic and complex, 2016].
На распознавание эмоционального состояния человека оказывают влияние социокультурные особенности [Basic and complex, 2016; Emotion recognition from, 2018], визуальный материал (статические и/или динамические изображения) [Ambadar, 2005; Wehrle, 2000], гендерные и возрастные различия в выражении эмоций [Chaplin, 2013]. Гендерные различия в проявлении положительных эмоций более выражены с возрастом — девочки демонстрируют больше положительных эмоций, чем мальчики, и эти различия увеличиваются с возрастом детей. Девочки выражают больше эмоций грусти, страха, сочувствия и стыда, чем мальчики, особенно в негативных ситуациях [Chaplin, 2013].
Показано, что динамическое изображение лица не сводится к суммированию статичных образов. В условиях динамической экспозиции слабо выраженные экспрессии распознаются более точно, чем дискретные, что обусловлено влиянием фактора времени [Барабанщиков, 2015]. Движение черт лица дает дополнительную уникальную временную информацию, способствующую более точному распознаванию эмоций [Ambadar, 2005], что подтверждается данными ПЭТ-исследования о вовлеченности разных мозговых структур, а, следовательно, и стратегий обработки информации [Dissociable neural pathways, 2003]. Распознавание эмоций на статических лицах связано с активностью премоторной, моторной и теменной областей коры, которые преимущественно обеспечивают обработку ментальных образов, по динамическим изображениям лица — зрительных областей коры, верхних отделов височной борозды, т.е. областей, связанных с социальным познанием и восприятием социальных раздражителей [Dissociable neural pathways, 2003].
Люди с синдромом Дауна (СД) характеризуются особенностями строения лицевой части черепа — уплощенным лицом и носом, раскосыми глазами [Kumin, 2003]. Для детей с СД присуща специфика в строении речевого аппарата: малый объем ротовой полости; опущенная нижняя челюсть; большой складчатый язык; высокое, узкое аркообразное нёбо, отчего звуки получаются иногда более «носовыми»; меньшая длина речевого тракта; мышечная гипотония. У большинства детей с СД открытый прикус, верхние и нижние зубы не сводятся вместе; маленькая, более узкая, чем обычно, верхняя челюсть [Markaki, 2011]. Люди с СД добродушны, общительны, проявляют симпатию к собеседнику [Kumin, 2003]. В тоже время отмечается специфика эмоционального развития детей с СД [Emotions and developmental, 2006].
Большинство исследований направлено на изучение способности к распознаванию взрослыми и детьми с СД эмоций других людей. В лонгитюдном исследовании показано, что способность к распознаванию эмоций у детей с СД формируется так же, как и у типично развивающихся (ТР) сверстников [Pochon, 2013]. Отмечают, что взрослые с СД испытывали сложности при распознавании удивления и нейтрального состояния по лицам, оценивая эмоциональные состояния более позитивно, чем контрольная группа [Hippolyte, 2008]. Взрослые с СД, сопровождающимся умственной отсталостью, не проявляли специфических трудностей в распознавании выражений лица, несмотря на худшие результаты по сравнению со взрослыми участниками исследования с умственной отсталостью (без СД), и, как правило, больше внимания уделяли нижней половине лица [Processing of facial, 2012]. Показано, что факторы движения и статичности изображения влияют на распознавание эмоций. Так, испуг взрослые и дети с СД точнее идентифицировали по видеоклипам, чем по фотографиям; точность идентификации эмоций счастья и печали не отличалась в зависимости от способа представления [Recognition of facial, 2012].
Известно небольшое количество работ, посвященных отражению эмоционального состояния в мимической экспрессии [Carvajal, 2006; Lyakso, 2021] и характеристиках голоса детей с СД [Голосовой портрет ребенка, 2020; Sorce, 1982]. Проведено изучение способности распознавания взрослыми эмоциональных состояний младенцев, типично развивающихся и с СД, по голосовым проявлениям, мимике и совместно по вокализациям и мимике [Carvajal, 2006]. В другом исследовании проанализирована специфика проявления мимической экспрессии 4—16 летними детьми с СД, воспитывающимися в условиях семьи и детского дома, и выявлены различия в проявлении эмоциональных состояний девочками и мальчиками в зависимости от условий воспитания [Lyakso, 2021]. В этом исследовании для оценки мимической экспрессии детей использовали программу FaceReader (Нидерланды), которая на сегодняшний день является одной из наиболее доступных для пользователей. Настоящее исследование выполнено в рамках работ по созданию стандартизированного методического подхода для оценки эмоциональной сферы детей с типичным и атипичным развитием. Цель исследования — определить возможность распознавания эмоционального состояния детей с СД по мимике — человеком и автоматически.
Задачи исследования:
1) определить специфику распознавания эмоционального состояния детей с СД экспертами по мимической экспрессии при условии полностью открытого лица и его маскировки в области глаз и рта;
2) провести анализ мимической экспрессии детей с СД автоматически, на основе алгоритмов, заложенных в программе FaceReader;
3) на основании сравнительного анализа данных, полученных с использованием разных методик, определить правомерность применения автоматического анализа (с учетом имеющегося программного обеспечения) и перцептивного визуального эксперимента для определения отражения эмоционального состояния детей с СД в мимической экспрессии.
Методика
В исследовании приняли участие 35 детей с синдромом Дауна в возрасте 5—16 лет (10,3 ± 2,8 лет — среднее ± стандартное отклонение), 21 мальчик, 14 девочек, и 75 взрослых (28,3 ± 13,1 лет), 14 мужчин, 61 женщина.
Дизайн исследования
-
Видео— и аудиозапись мимической экспрессии, поведения и речи детей при естественном взаимодействии с взрослыми.
-
Проведение перцептивного эксперимента с целью определения возможности распознавания взрослыми эмоционального состояния детей с СД по их мимической экспрессии и звуковым сигналам (речи и вокализациям).
-
Автоматический анализ мимической экспрессии детей с СД в программе «FaceReader».
-
Статистический анализ данных.
Аудио- и видеозапись
Видео- и аудиозапись мимической экспрессии, поведения и речи детей проводили в условиях детского центра общественной организации «Даун-Центр» (Санкт-Петербург) в ситуации естественного взаимодействия ребенка с родителями и экспериментатором. Ситуация включала беседу на предложенные родителями темы, игру с игрушками, описание картинок в книге.
Для видеозаписи мимической экспрессии детей использовали видеокамеру «SONY HDR-CX560» (максимальное разрешение — 1920х1080 при 50 кадрах в с), которая располагалась на расстоянии 1 метра от лица ребенка. Для записи речи и вокализаций детей использовали аппаратуру — магнитофон «Marantz PMD660» с выносным микрофоном «SENNHEIZER e835S». Микрофон устанавливали на расстоянии 30—50 см от лица ребенка. Аудиофайлы сохраняли в формате .wav, 48 000 Гц, 16 бит. Общее время записи каждого ребенка не превышало 30—40 минут. Все детали, касающиеся особенностей поведения ребенка, фиксировали в подробном протоколе исследования.
Родители детей-участников исследования подписывали информированное согласие, одобренное Этическим комитетом Санкт-Петербургского государственного университета.
Перцептивный эксперимент
Перцептивный эксперимент (от лат. perceptio — восприятие) основан на восприятии органами чувств человека информации внешней и внутренней среды. Конечным результатом является распознавание информации. Широкое распространение перцептивный эксперимент получил в психофизиологии [Lyakso, 2020; Reflection of the, 2019], лингвистике и языкознании [More than words, 2020]. В работе осуществлено два вида перцептивного эксперимента: визуальный — видеоматериалов (визуальная модальность) и слуховой — речи детей (аудиальная модальность).
Для перцептивного эксперимента видеозаписи мимической экспрессии аннотировали на 4 категории, соответствующие эмоциональным состояниям детей: нейтральное состояние, радость, гнев, печаль. Аннотацию осуществляли два специалиста с профессиональным опытом работы с детьми с нарушениями развития, просматривая видеофрагменты c звуковым сопровождением. На основании анализа видео и протокола записи специалисты выбирали фрагменты, на протяжении которых ребенок демонстрировал мимику, соответствующую одному из четырех заданных эмоциональных состояний, при условии, что он находится лицом к объективу (анфас), лицо и вся голова полностью попадают в кадр, не закрыты руками или игрушками. Требования к отбору материала обусловлены последующим анализом видеофрагментов в программе «FaceReader v.8». При согласованности мнений двух специалистов видеофрагмент относили к определенному эмоциональному состоянию и использовали для дальнейшего анализа. Отобрано 50 видеофрагментов, длительностью от 4 до 31 с (по 1—2 фрагмента для каждого ребенка).
Созданы 3 видеотеста. Первый видеотест включал 50 фрагментов видео, замешанных в случайном порядке. Перед каждым видеофрагментом вставляли изображение с порядковым номером фрагмента в тесте, пауза между фрагментами составляла 10 с. Каждый из видеофрагментов был включен в тест один раз. Длительность теста составляла 20 мин. Второй и третий тесты были идентичны первому по последовательности предъявления фрагментов, но включали использование масок. В программе «Movavi Video Suite 2021» при помощи прямоугольной маски закрывали глаза детей — второй видеотест, рот детей — третий видеотест. Для создания маски использовали встроенный инструмент «цензура», процент размытия составил 50%. В первом тесте маска закрывала брови и глаза, вне зависимости от положения головы ребенка. Во втором тесте маска закрывала нижнюю часть носогубного треугольника таким образом, чтобы область рта оставалась под маской вне зависимости от положения головы ребенка. Местоположение маски изменяли покадрово, с частотой 25 Гц.
Видеотесты предъявляли группам взрослых (экспертов) без звука с экрана (диагональ 2 м), на который проецировали изображение. Эксперты находились в помещении — учебной аудитории площадью 25 м2.
Перед экспериментом в разработанной анкете эксперты указывали информацию о себе: пол, возраст, во время просмотра — отмечали эмоциональное состояние детей, выбирая одну из четырех предложенных категорий: нейтральное, радость, печаль, гнев.
Первый видеотест просматривали 15 специалистов, сотрудников группы по изучению детской речи СПбГУ. Согласно информированному согласию, подписанному родителями детей, видеозапись лица ребенка могла быть доступна только специалистам. Второй и третий тесты просматривали по 15 студентов бакалавриата третьего года обучения, профиль подготовки «Логопедия» (табл. 1).
Таблица 1
Информация об экспертах и аудиторах
|
Тест |
Количество |
Средний возраст |
Пол |
|
|
М |
Ж |
|||
|
1-й видеотест |
15 |
39,9 ± 19,6 |
8 |
7 |
|
2-й видеотест |
15 |
20,6 ± 0,9 |
0 |
15 |
|
3-й видеотест |
15 |
20,1 ± 0,6 |
0 |
15 |
|
1-й аудиотест |
15 |
36,7 ± 11,1 |
6 |
9 |
|
15 |
24,4 ± 4,7 |
0 |
15 |
|
Дополнительно, для проверки предположения о возможности распознавания эмоционального состояния ребенка по одной модальности, создан аудиотест, который содержал речь или вокализации детей (речевые сигналы), соответствующие видеофрагментам. Каждый речевой сигнал повторялся в тесте один раз, пауза между речевыми сигналами составляла 5 с.
Аудиотест предъявляли взрослым (аудиторам) в открытом поле. В качестве аудиторов выступали взрослые двух групп. Первая группа — 15 взрослых разных специальностей: в области информационных технологий, психофизиологии, логопедии, имеющие опыт работы с детской речью. Вторая группа —15 студентов магистратуры первого года обучения, профиль подготовки — «Теоретическая и прикладная логопедия» (табл. 1).
По результатам эксперимента строили матрицы спутывания [Голосовой портрет ребенка, 2020], позволяющие оценить вероятность правильного распознавания и ошибки, которые допускают взрослые при определении эмоционального состояния детей. Матрица спутывания (матрица ошибок) используется в области машинного обучения для описания эффективности модели классификации. Она представляет собой таблицу, строки которой соответствуют заданным (прогнозируемым) классам, столбцы — фактическим значениям (реальным классам). Вычисляли: полноту (recall) — долю найденных образцов, принадлежащих к классу, относительно всех образцов этого класса в тестовой выборке; точность (precision) —долю образцов, действительно принадлежащих данному классу, относительно всех образцов, которые отнесли к данному классу; UAR (Unweighted Average Recall) —усредненную полноту для всех эмоциональных состояний, указывает на среднюю вероятность распознавания.
Считали коэффициент каппа Коэна (к) для определения согласованности внутри групп экспертов и аудиторов и между группами [Bobicev, 2017; Inter-rater reliability of, 2017]. Согласованность классифицируется как незначительная (каппа Коэна находится в диапазоне 0,00—0,20), слабая (0,21—0,40), умеренная (0,41—0,60), существенная (0,61—0,80), почти полная (0,81—1,00) [Landis, 1977]. Подсчет коэффициента каппа Коэна осуществляли с использованием функции cohen_kappa_score() библиотеки scikit-learn (библиотеки машинного обучения на языке программирования Python).
Автоматический анализ мимической экспрессии детей
Анализ мимической экспрессии детей с СД осуществляли в программе «FaceReader 8.0» (Noldus Information Technology). Программное обеспечение работает на облачной платформе Microsoft Azure. Программа автоматически выделяет шесть основных эмоций: радость, грусть, гнев, удивление, испуг, отвращение и нейтральное состояние [Ekman, 1999]. Программа определяет пол, возраст и этническую принадлежность человека. Специальные фильтры позволяют работать с анализом мимики взрослых и детей, начиная с четырехлетнего возраста. Более 10 000 изображений, аннотированных экспертами, были использованы для обучения классификаторов эмоционального выражения, достигнув точности классификации 89% [Terzis, 2010]. Точность распознавания различается в разных версиях программы FaceReader.
На основании алгоритмов, заложенных в программе, определяли: выраженность (expressiveness) базовых эмоций (радость, печаль, гнев, удивление, страх, отвращение и нейтральное состояние); время, на протяжении которого ребенок демонстрирует в мимической экспрессии определенное эмоциональное состояние (в процентах от времени всего видеофрагмента); значения показателя валентности (valence). Данные, полученные при автоматическом анализе мимической экспрессии детей, сопоставляли с результатами перцептивного эксперимента.
Статистический анализ
Статистический анализ полученных данных проводили в программе «Statistica-10» с использованием непараметрических критериев: критерия Манн—Уитни, корреляции Спирмена (p<0,05), регрессионного анализа.
Критерий Манн—Уитни применяли для сравнения ответов экспертов и аудиторов при распознавании разных эмоциональных состояний детей по видео— и аудиотестам. Корреляционный анализ использовали с целью определения связей между индивидуальными характеристиками аудитора (пол, возраст) и распознаванием эмоционального состояния детей; регрессионный анализ — для подтверждения данных корреляционного анализа.
Результаты
1. Определение эмоционального состояния по мимической
экспрессии детей: перцептивный эксперимент
1.1. Видеотест 1 — без маски
Анализ результатов перцептивного эксперимента показал, что эксперты-специалисты распознают по видеофрагментам (видеотест 1) нейтральное состояние детей и радость лучше, чем состояния печали и гнева (табл. 2). Средняя вероятность распознавания (усредненная полнота) — 0,66.
Таблица 2
Распознавание экспертами эмоциональных состояний детей
по видеофрагментам (% ответов)
|
Радость |
Нейтральное состояние |
Печаль |
Гнев |
|
|
Радость |
72 |
24 |
1 |
3 |
|
Нейтральное состояние |
1 |
78 |
15 |
6 |
|
Печаль |
0 |
32 |
64 |
4 |
|
Гнев |
11 |
26 |
12 |
51 |
|
Total |
84 |
160 |
92 |
64 |
|
Recall |
0,72 |
0,78 |
0,64 |
0,51 |
|
Precision |
0,86 |
0,49 |
0,70 |
0,80 |
|
F1-score |
0,78 |
0,60 |
0,67 |
0,62 |
|
UAR 0,66 |
||||
Таблица 3
Согласованность экспертов при распознавании эмоционального состояния
детей по видеотестам (коэффициент каппа Коэна)
|
Тест |
Эмоциональное состояние |
Коэффициент каппа Коэна |
|
1 — без маски |
Радость |
0,632 |
|
Нейтральное |
0,375 |
|
|
Печаль |
0,407 |
|
|
Гнев |
0,492 |
|
|
Все состояния |
0,455 |
|
|
2 — маска в области глаз детей |
Радость |
0,511 |
|
Нейтральное |
0,361 |
|
|
Печаль |
0,315 |
|
|
Гнев |
0,498 |
|
|
Все состояния |
0,396 |
|
|
3 — маска в области рта детей |
Радость |
0,566 |
|
Нейтральное |
0,423 |
|
|
Печаль |
0,332 |
|
|
Гнев |
0,701 |
|
|
Все состояния |
0,505 |
Таблица 4
Распознавание экспертами эмоциональных состояний детей по видеофрагментам
с масками в области глаз (тест 2) и рта (тест 3) (% ответов)
|
Тест 2 — маска в области глаз |
|
Тест 3 — маска в области рта |
||||||||
|
|
Радость |
Нейтральное состояние |
Печаль |
Гнев |
|
|
Радость |
Нейтральное состояние |
Печаль |
Гнев |
|
Радость |
64 |
25 |
5 |
6 |
Радость |
66 |
27 |
3 |
4 |
|
|
Нейтральное состояние |
2 |
67 |
21 |
10 |
Нейтральное состояние |
2 |
71 |
18 |
9 |
|
|
Печаль |
7 |
32 |
57 |
4 |
Печаль |
0 |
40 |
56 |
4 |
|
|
Гнев |
6 |
29 |
15 |
50 |
Гнев |
11 |
14 |
2 |
73 |
|
|
Total |
79 |
153 |
98 |
70 |
Total |
79 |
152 |
79 |
90 |
|
|
Recall |
0,64 |
0,67 |
0,57 |
0,5 |
Recall |
0,66 |
0,71 |
0,56 |
0,73 |
|
|
Precision |
0,81 |
0,44 |
0,58 |
0,71 |
Precision |
0,84 |
0,47 |
0,71 |
0,81 |
|
|
F1-score |
0,72 |
0,53 |
0,58 |
0,59 |
F1-score |
0,74 |
0,56 |
0,63 |
0,77 |
|
|
UAR 0,60 |
UAR 0,67 |
|||||||||
Таблица 5
Время, на протяжении которого ребенок демонстрирует определенное эмоциональное
состояние, в процентах от времени всего видео теста (FaceReader 8.0)
|
Тест 1 — без маски |
||||||||
|
Эмоции |
Радость |
Нейтральное состояние |
Печаль |
Гнев |
Страх |
Удивление |
Отвращение |
Другое |
|
Радость |
26,49 |
47,33 |
3,29 |
1,52 |
0,39 |
13,13 |
1,45 |
6,40 |
|
Нейтральное состояние |
2,11 |
57,72 |
8,40 |
7,07 |
4,27 |
13,81 |
0,79 |
5,83 |
|
Печаль |
0,00 |
55,66 |
12,27 |
6,53 |
5,10 |
9,77 |
4,60 |
6,07 |
|
Гнев |
6,19 |
52,87 |
10,64 |
0,80 |
4,80 |
11,13 |
6,59 |
6,98 |
|
Тест 2 — маска в области глаз |
||||||||
|
Эмоции |
Радость |
Нейтральное состояние |
Печаль |
Гнев |
Страх |
Удивление |
Отвращение |
Другое |
|
Радость |
11,50 |
57,41 |
4,26 |
3,30 |
3,84 |
10,47 |
1,45 |
7,77 |
|
Нейтральное состояние |
12,12 |
48,41 |
11,69 |
4,60 |
2,63 |
12,79 |
1,48 |
6,28 |
|
Печаль |
71,65 |
16,80 |
0,00 |
2,85 |
0,00 |
0,00 |
0,00 |
8,70 |
|
Гнев |
10,11 |
50,50 |
7,55 |
5,95 |
6,51 |
10,74 |
1,78 |
6,86 |
|
Тест 3 — маска в области рта |
||||||||
|
Эмоции |
Радость |
Нейтральное состояние |
Печаль |
Гнев |
Страх |
Удивление |
Отвращение |
Другое |
|
Радость |
22,18 |
55,71 |
6,67 |
1,81 |
2,19 |
1,72 |
3,55 |
6,17 |
|
Нейтральное состояние |
14,89 |
61,71 |
5,09 |
7,52 |
0,63 |
3,84 |
0,46 |
5,86 |
|
Печаль |
8,90 |
61,55 |
6,90 |
12,45 |
0,00 |
0,00 |
0,00 |
10,20 |
|
Гнев |
13,17 |
62,36 |
10,30 |
0,94 |
0,90 |
2,64 |
2,30 |
7,39 |
Примечание: строки соответствуют реальным эмоциональным состояниям, столбцы — эмоциональным состояниям, выделенным программой «FaceReader 8.0».
Таблица 6
Распознавание аудиторами эмоциональных состояний по речи
и вокализациям детей (% ответов)
|
Аудиторы группы 1 |
|
Аудиторы группы 2 |
||||||||
|
|
Радость |
Нейтральное состояние |
Печаль |
Гнев |
|
Радость |
Нейтральное состояние |
Печаль |
Гнев |
|
|
Радость |
45 |
34 |
4 |
17 |
Радость |
43 |
35 |
6 |
16 |
|
|
Нейтральное состояние |
11 |
69 |
16 |
4 |
Нейтральное состояние |
12 |
60 |
24 |
4 |
|
|
Печаль |
0 |
42 |
58 |
0 |
Печаль |
0 |
27 |
73 |
0 |
|
|
Гнев |
7 |
10 |
10 |
73 |
Гнев |
12 |
4 |
10 |
74 |
|
|
Total |
63 |
155 |
88 |
94 |
Total |
67 |
126 |
113 |
94 |
|
|
Recall |
0,45 |
0,69 |
0,58 |
0,73 |
Recall |
0,43 |
0,6 |
0,73 |
0,74 |
|
|
Precision |
0,71 |
0,45 |
0,66 |
0,78 |
Precision |
0,64 |
0,48 |
0,65 |
0,79 |
|
|
F1-score |
0,55 |
0,54 |
0,62 |
0,75 |
F1-score |
0,51 |
0,53 |
0,69 |
0,76 |
|
|
UAR 0,61 |
UAR 0,63 |
|||||||||
Таблица 7
Согласованность аудиторов при распознавании эмоционального состояния детей
по аудиотесту: внутри каждой группы и между группами аудиторов
(коэффициент каппа Коэна)
|
Эмоциональное состояние |
1-я группа |
2-я группа |
Между группами |
|
Радость |
0,406 |
0,551 |
0,465 |
|
Нейтральное |
0,360 |
0,477 |
0,382 |
|
Печаль |
0,280 |
0,344 |
0,266 |
|
Гнев |
0,503 |
0,548 |
0,518 |
|
Все состояния |
0,388 |
0,474 |
0,407 |
Достоверные различия по количеству правильных ответов экспертов выявлены между эмоциональными состояниями: печаль и радость (p<0,05— критерий Манн—Уитни), гнев и радость (p<0,01), гнев и нейтральное состояние (p<0,01), гнев и печаль (p<0,05). Эксперты демонстрировали умеренную согласованность при распознавании всех эмоциональных состояний. При распознавании состояния радости согласованность между экспертами — существенная, печали и гнева — умеренная, нейтрального состояния — слабая (табл. 3).
1.2. Видеотест 2 — маска в области глаз ребенка
При использования маски, закрывающей область глаз ребенка (видеотест 2), эксперты распознают нейтральное состояние и радость лучше, чем печаль и гнев (табл. 4). Средняя вероятность распознавания — 0,60. Достоверные различия по количеству правильных ответов экспертов выявлены между нейтральным состоянием и состоянием печали (p<0,05 — критерий Манн—Уитни), нейтральным состоянием и состоянием гнева (p<0,01). Согласованность экспертов при распознавании всех эмоциональных состояний — слабая. При распознавании состояния радости и гнева согласованность умеренная, печали и нейтрального состояния — слабая (табл. 3).
1.3. Видеотест 3 — маска в области рта ребенка
По видео тесту 3, с использованием маски в области рта ребенка, эксперты распознают нейтральное состояние и состояние гнева лучше, чем радость и печаль (табл. 4). Средняя вероятность распознавания — 0,67. Достоверные различия по количеству правильных ответов экспертов показаны между состояниями печали и гнева (p<0,01), печали и нейтральным состоянием (p<0,01). Согласованность ответов экспертов при распознавании всех эмоций — умеренная, для состояния гнева — существенная, радости — умеренная, нейтрального состояния и состояния печали — слабая (табл. 3).
В целом, по видеотесту 2 — маска в области глаз эксперты распознают эмоциональное состояние детей хуже, чем по видеотесту 1 — без маски (p<0,05) и 3 — маска в области рта (p<0,05). Тип теста влияет главным образом на распознавание состояний радости и гнева. По видеотесту 1 состояние радости распознается достоверно лучше, чем по видеотесту 2 и 3 (p<0,05). Состояние гнева по видеотесту 3 распознается достоверно лучше, чем по тестам 1 (p<0,001) и 2 (p<0,001).
2. Автоматический анализ мимической экспрессии детей
Автоматический анализ мимической экспрессии детей в программе «FaceReader 8.0» показал, что мимика детей соответствует преимущественно нейтральному состоянию (табл. 5).
Автоматическое распознавание нейтрального состояния и радости по всем трем тестам осуществляется успешнее, чем распознавание печали и гнева (табл. 5). Маска в области глаз (видеотест 2) приводит к ухудшению распознавания всех эмоциональных состояний за исключением гнева, маска в области рта (тест 3) — к незначительному ухудшению распознавания состояния печали.
Анализ показателей валентности для видеофрагментов теста 1 (без маски) показал, что мимическая экспрессия детей в состоянии радости характеризуется положительными значениями (0,17); в состоянии печали (-0,16), гнева (-0,11) и нейтральном состоянии (-0,12) — отрицательными значениями. В зависимости от типа теста показатели валентности меняются (тест 2: 0,01; -0,03; 0,71; -0,07 — для состояния радости, нейтрального состояния, печали и гнева; тест 3: 0,1; 0,03; -0,08; 0 — соответственно). Значения валентности, определенные по видеофрагментам, соответствующим состоянию радости, снижаются в тесте 2, но не меняют знак при использовании маски.
3. Определение эмоционального состояния по речевым сигналам детей
При прослушивании аудиотеста аудиторы первой группы распознают гнев и нейтральное состояние лучше, чем печаль и радость (табл. 6). Средняя вероятность распознавания — 0,61. Достоверные различия по количеству правильных ответов аудиторов выявлены между эмоциональными состояниями: гнев и печаль (p<0,05 — критерий Манн—Уитни), гнев и радость (p<0,001), нейтральное состояние и радость (p<0,001). Согласованность ответов аудиторов при распознавании всех эмоциональных состояний — слабая, при распознавании состояния радости, состояния гнева — умеренная, при распознавании нейтрального состояния и состояния печали — слабая (табл. 7).
Аудиторы второй группы при прослушивании аудиотеста распознают печаль и гнев лучше, чем радость и нейтральное состояние. Средняя вероятность распознавания — 0,63. Достоверные различия по количеству правильных ответов аудиторов — между нейтральным эмоциональным состоянием и состояниями гнева (p<0,01), печали (p<0,01), радости (p<0,001), между состояниями радости и гнева (p<0,001), радости и печали (p<0,001).
Согласованность ответов аудиторов при распознавании эмоциональных состояний — умеренная, состояний радости, гнева и нейтрального состояние — умеренная, состояния печали — слабая (табл. 7).
Сравнение результатов перцептивного анализа не выявило достоверных различий между группами по вероятности распознавания эмоционального состояния детей. Согласованность между двумя группами аудиторов, при распознавании всех эмоциональных состояний, радости и гнева — умеренная, нейтрального состояния и печали — слабая (табл. 7).
Сравнительный анализ показал, что вероятность распознавания эмоциональных состояний по видеотесту (тест 1, без маски), выше, чем по аудиотесту (p<0,01). При этом состояние радости лучше распознается по видеофрагментам (p<0,001), состояние гнева (p<0,05) — по звуковым сигналам детей.
4. Факторы, значимые для распознавания эмоционального состояния детей с СД
Выявлены факторы, значимые/незначимые для распознавания эмоционального состояния детей с СД: специфика распознавания эмоций в зависимости от канала восприятия стимула (визуального/аудиального), гендерная принадлежность детей с СД, пол, возраст экспертов. По видеофрагментам эксперты лучше распознают эмоциональное состояние девочек, чем эмоциональное состояние мальчиков (p<0,05 — критерий Манн—Уитни) — по видеотестам 1 (без маски) и 3 (маска в области рта). Пол экспертов влияет на распознавании состояния гнева: F(1,13)=7,186; p< 0,05 (R2 = 0,356; β = 0,597) — по данным регрессионного анализа женщины лучше распознают гнев по видео детей, чем мужчины (по видеотесту 1). Эксперты старшего возраста распознают эмоциональные состояния детей по видео хуже, чем эксперты младшего возраст (r = -0,53; p< 0,05—корреляция Спирмена). При прослушивании аудиотестов аудиторы относят речевые сигналы мальчиков к категории «гнев» чаще, чем речевые сигналы девочек (p<0,01). Длительность видеофрагментов значимо не влияет на вероятность распознавания эмоционального состояния детей.
Обсуждение
Результаты проведенного исследования показали способность взрослых к распознаванию эмоциональных состояний детей с СД по их мимической экспрессии и по речевым сигналам и ограниченные возможности автоматического распознавания эмоций по мимической экспрессии детей программой FaceReader.
В исследовании показано, что взрослыми по мимической экспрессии детей с СД лучше распознается состояние радости, по речевым сигналам — состояние гнева. Согласованность экспертов была наибольшей при распознавании состояния радости по открытому лицу и при распознавании состояния гнева по аудиотесту. Это согласуется с данными, полученными при распознавании взрослыми эмоциональных состояний типично развивающихся младенцев и с СД по их голосовым проявлениям, мимике и совместно по вокализациям и мимике [Carvajal, 2006].Взрослые не смогли определить состояние радости по вокализациям 3,5—4,5 месячных младенцев с СД, но определяли по мимической экспрессии. Авторы исследования делают заключение, что у младенцев с СД мимика должна быть специфическим признаком, используемым взрослыми для идентификации аффективных состояний [Carvajal, 2006]. Состояние радости взрослые лучше определяют по фотографиям типично развивающихся детей 2—8 лет, по сравнению с гневом, страхом, печалью, удивлением и отвращением [LoBue, 2015]. В другом исследовании по фотографиям и видеороликам типично развивающихся детей 4—6 лет специалисты в области кодирования действий по лицу с существенной согласованностью (коэффициент Каппа — 0,70) определяли счастье, отвращение и презрение [The Child Emotion, 2021]. Дети, участвующие в этом исследовании, были отобраны в детском актерском агентстве в городе Сан-Паулу, Бразилия. На сегодняшний день при создании баз эмоциональной мимики детей используют вызванные, наигранные и естественные эмоции [например: 26]. В настоящем исследовании, как и в нашей предыдущей работе [Lyakso, 2021], анализировали только естественное проявление эмоций детьми с СД. Взрослые лучше распознавали эмоции по лицу девочек, чем мальчиков, что может быть связано с тем, что девочки проявляют больше положительных эмоций, чем мальчики [Chaplin, 2013], а в представленном исследовании взрослые лучше определяли состояние радости, чем печали и гнева.
При распознавании эмоций в программе FaceReader в случае полностью открытого лица ребенка результаты в целом согласуются с данными перцептивного эксперимента — состояние радости распознается лучше, чем печаль и гнев. При использовании масок автоматическое распознавание эмоциональных состояний ухудшается. В связи с тем, что данное исследование проводится в рамках создания стандартизированной методики для оценки эмоциональной сферы детей, было важно учитывать их естественное поведение — подвижность, неспособность или нежелание смотреть только прямо на камеру. Поэтому, прежде всего, для экспертного анализа были использованы маски на лицах детей (закрывающие глаза и рот), имитирующие наклон и поворот головы. Именно такой подход позволил показать, что для ситуаций естественного проявления эмоций использование автоматической программы FaceReader нецелесообразно. Различия в результатах перцептивного эксперимента и автоматического анализа могут быть обусловлены разными алгоритмами обработки визуальной информации — для человека присуще целостное гештальтное выделение наиболее значимой информации, программа анализирует видеофрагменты покадрово. Программа FaceReader лучше определяет нейтральное состояние, люди способны определить, наряду с нейтральным состоянием, радость, печаль и гнев. В то же время в модельных ситуациях (фронтально расположенное полностью открытое лицо) программа может быть применена для экспресс-диагностики эмоционального состояния ребенка с СД. Второй причиной худшего распознавания программой эмоций по мимической экспрессии детей могут служить геометрические пропорции лица детей с СД.
Дополнительная оценка эмоционального состояния детей по их речевым сигналам показала, что взрослые лучше определяют состояние гнева, что подтверждает данные, указывающие на лучшее распознавание состояния дискомфорта у детей с СД по сравнению с состоянием комфорта и нейтральным состоянием [Reflection of the, 2019].
Сравнение распознавания эмоций по визуальному и аудиальному каналу выявило несогласованность в выделении эмоций ребенка взрослыми — радости по видеотесту, состояния гнева— по аудиотесту. Эти данные требуют более детального изучения и обсуждения, так как показывают атипичное проявление эмоций у детей с СД. В проведенном исследовании экспертный анализ мимической экспрессии детей со звуковым сопровождением не проводили, так как этот материал, наряду с детальным протоколом исследования и анализом записей поведения детей, был использован для аннотирования.
Несмотря на ряд ограничений программы и возникших вопросов, исследование показало необходимость дальнейшего изучения мимической экспрессии детей с СД и последующей разработки системы автоматического распознавания эмоций по лицу. Создание такого инструментария с использованием методов искусственного интеллекта имеет важное значение с точки зрения разработки методов экспресс-диагностики сформированности эмоциональной сферы у детей с СД (с учетом их возраста и пола) и детей с другими особенностями развития — расстройствами аутистического спектра, умственной отсталостью, нарушениями слуха и тяжелыми нарушениями речи.
Заключение
Впервые проведено комплексное исследование по распознаванию эмоционального состояния детей с СД по их мимической экспрессии человеком и автоматически.
Выявлена специфика распознавания эмоционального состояния детей с СД экспертами по мимической экспрессии при условии полностью открытого лица и его маскировки — в области глаз и рта. Показано, что эксперты по мимической экспрессии лучше распознают состояние радости и нейтральное (спокойное) состояние при условии полностью открытого лица. Маска в области глаз приводит к худшему распознаванию эмоциональных состояний детей, чем при отсутствии маски и маски в области рта.
Автоматическое распознавание мимической экспрессии детей на основе алгоритмов, заложенных в программе FaceReader, при условии полностью открытого лица и маски в области рта показало выделение состояния радости и нейтрального состояния. Распознавание нейтрального состояния и радости программа осуществляет лучше, чем состояния печали и гнева. При закрытых глазах программа лучше распознает состояние гнева, чем при отсутствии маски и закрытом рте.
Вероятность распознавания эмоциональных состояний по видеотесту выше, чем по аудиотесту, при лучшем распознавании радости по видеотесту, состояние гнева — по аудиотесту.
На основании полученных данных сделано заключение о том, что программа FaceReader может быть использована для экспресс-оценки мимической экспрессии детей с СД при полностью открытом лице, при невозможности (трудоемкость, временные затраты) применения экспертного анализа.
Проведенное исследование поставило вопрос о необходимости создания программного обеспечения с учетом вариативности геометрии лица испытуемого, меньших требований к анализируемому материалу (фронтализации лица и уровню освещенности).