Технологии айтрекинга в задачах сохранения и передачи когнитивного опыта

Жегалло А.В.

doi:10.17759/exppsy.2018110412

Экспериментальная психология
2018. Том 11. № 4. С. 135–141
doi:10.17759/exppsy.2018110412
ISSN: 2072-7593 / 2311-7036 (online)

Технологии айтрекинга в задачах сохранения и передачи когнитивного опыта

605

Жегалло А.В.

Аннотация

В статье обсуждаются возможности применения айтрекинга при решении задачи сохранения и передачи когнитивного опыта. Видеозапись процесса, для которого решается данная задача, может содержать ключевые компоненты, контроль и управление динамическими свойствами которых являются существенными составляющими когнитивного опыта. В рассматриваемом примере с «невидимой гориллой» умышленно неверно данная инструкция приводит к тому, что существенные характеристики системы остаются необнаруженными наблюдателем. Регистрация движений глаз эксперта, анализирующего когнитивный опыт в процедуре кооперативного дебрифинга, позволит выделить такие ключевые элементы и их динамические паттерны. В дальнейшем на основе выполненного анализа возможно создание обучающих программ для систем передачи когнитивного опыта.

Общая информация

Ключевые слова: когнитивный опыт, коммуникация, слежение за движущимися объектами, айтрекинг (eyetracking), кооперативный дебрифинг

Рубрика издания: Методы исследований

Тип материала: научная статья

DOI: https://doi.org/10.17759/exppsy.2018110412

Финансирование. Исследование выполнено в рамках государственного задания Министерства науки и высшего образования Российской Федерации, проект 25.3471.2017/ПЧ «Выявление значимых составляющих когнитивного опыта специалиста в задачах их сохранения и передачи».

Для цитаты: Жегалло А.В. Технологии айтрекинга в задачах сохранения и передачи когнитивного опыта // Экспериментальная психология. 2018. Том 11. № 4. С. 135–141. DOI: 10.17759/exppsy.2018110412

Полный текст

Введение

В практических задачах сохранения и передачи когнитивного опыта важное место отводится технологиям полипозиционного наблюдения за деятельностью носителя этого опыта (Носуленко, Самойленко, 2016; Le Bellu, etal., 2016). Потребность в особых технологиях наблюдения требуется, прежде всего, при изучении таких деятельностей, где не очевидна значимость их отдельных составляющих, а используемые человеком орудия являются скрытыми (Lahlou, Nosulenko, Samoylenko, 2012; Streitzetal., 2007). Основным материалом полипозиционного наблюдения являются видеозаписи, получаемые различными способами и обрабатываемые совместно с экспертом (носителем опыта) в процессе так называемого кооперативного дебрифинга. Из получаемых видеозаписей делается монтаж, назначение которого — продемонстрировать в лаконичном виде те моменты, которые при просмотре фильма должны быть восприняты как наиболее значимые. Совместная работа исследователя и профессионального эксперта по анализу такого фильма необходима для корректировки исходных гипотез о значимости составляющих деятельности и ее последующего моделирования. Обработке подвергается вербальная и невербальная информация, регистрируемая в кооперативном дебрифинге. Понятно, что для такой обработки требуются технологии, позволяющие максимально точно установить момент и положение на экране объекта, к которому относится конкретный комментарий эксперта. Например, определенные выводы о способах визуализации наиболее значимых сцен сделаны при изучении особенностей вербализации эмоциональных экспрессий (Лободинская, Носуленко, 2019). Было показано, что при монтаже видеоматериала, используемого в медиапродукте для усвоения специфики деятельности, наиболее значимый момент следует визуализировать отдельно от контекста или же давать в контексте, не имеющим предметной связи с целевым объектом (т. е. без демонстрации всех деталей реального процесса изменений объекта).

Нам представляется, что технология айтрекинга также может рассматриваться в качестве инструмента для точного анализа процесса кооперативного дебрифинга. Главная проблема использования такой технологии связана с динамичностью изображения, наблюдаемого в дебрифинге. В этой статье мы попытаемся кратко рассмотреть возможные пути решения этой проблемы.

Движения глаз при рассматривании статических изображений

Исторически, исследования движений глаз в первую очередь связаны с рассматриванием статических изображений. Локализация взора в этом случае определяется рядом факторов: собственными характеристиками изображения; поставленной перед наблюдателем задачей; отношением наблюдателя к экспериментальной либо реальной ситуации, в которой он находится; индивидуальными особенностями наблюдателя.

Влияние инструкции впервые было обнаружено в классических исследованиях А.Л. Ярбуса (Ярбус, 1965). Инструкция в имплицитной форме может быть эффективно использована для целей психодиагностики. Так, при экспозиции на экране незаконченного предложения «Я человек ...», испытуемые далее переводят взор на то слово из пары слов- антонимов, которое адекватно их характеризует (Огнев, Лихачева, Мельникова, 2015).

Отношение наблюдателя к ситуации, к выполняемой задаче может быть проконтролировано лишь косвенным образом, в частности, путем анкетирования участников по окончании исследования либо путем анализа данных видеонаблюдения за ходом эксперимента. Формирование «правильного» отношения участников исследования к выполняемому заданию, вовлеченности, заинтересованности в результатах исследования зависит от мастерства и личного опыта экспериментатора; возможности формализации данного фактора крайне ограничены.

Индивидуальные особенности наблюдателя, выражающиеся в характеристиках окуломоторной активности, включают, в частности, эффективный произвольный контроль за окуломоторной активностью и различия в величине рабочего поля зрения (Барабанщиков, Жегало, 2018; Жегалло 2018). Дальнейший анализ индивидуальных особенностей наблюдателей технически возможен, но представляет собой крайне трудоемкую задачу, требующую большой выборки испытуемых.

Отдельную проблему представляет анализ движений глаз при рассматривании комплексных статических сцен. При этом выделяется два способа осмотра: фокальный, связанный с уточнением деталей изображения и характеризующийся малыми амплитудами саккад и относительно длительными фиксациями, и амбъетный, связанный с высокоамплитудными саккадами и короткими фиксациями, во время которых распознается общая структура изображения (Unemaetal, 2005). Анализ движений глаз, направленный на раз
граничение разных способов рассматривания, проводится путем построения графиков амплитуды саккад и продолжительности фиксаций и определения точки перегиба.

Поиск предикторов индивидуальной вариативности способов рассматривания комплексных сцен в парадигме Successor Representation Scanpath Analysis (Hayes, Henderson, 2017) показал, что модель, учитывающая объем рабочей памяти наблюдателя, скорость обработки и общий интеллект, объясняет до 40% дисперсии. Вклад собственных характеристик изображения может быть описан соответствующей математической моделью (Podladchikovaetal, 2009). При этом субъективная значимость отдельных элементов сцены существенно зависит от задачи, решаемой наблюдателем. Отсюда возникает необходимость в каждом конкретном случае заново выделять MostInformative Regions (наиболее информативные области).

Следует отметить, что опора на актуальную структуру изображения имеет место не только при рассматривании комплексных сцен, но и в том случае, когда структура изображения, казалось бы, априорно известна. При рассматривании ретушированного лица человека, на котором удалены либо добавлены отдельные элементы, локализация взора по- прежнему определяется фактическим содержанием лица, а не его стандартной структурой. Внимание наблюдателя перераспределяется в пользу фактически присутствующих элементов изображения (Барабанщиков, 2012).

Наиболее важные в смысловом отношении элементы изображения одновременно являются также и наиболее визуально заметными. Попытка разграничить влияние семантической значимости (meaning) и визуальной заметности (salience) выполнена в работе Д. Хендерсона, С. Хайеса (Henderson, Hayes, 2018). Авторы показали, что при выполнении статистического контроля корреляции между данными показателями уникальная вариация плотности распределения взора наблюдателей связана именно с семантической значимостью элементов изображения. Парадигма исследования предполагает предварительную экспертную разметку семантической значимости отдельных зон комплексной сцены.

Специфика рассматривания динамических изображений

В случае рассматривания динамических изображений вклад собственных физических характеристик изображения значительно возрастает по сравнению со статическими изображениями. Так, при рассматривании динамического выражения лица вариативность способов рассматривания существенно сокращается. Способ рассматривания в данном случае определяется как матрица частот переходов между выделенными зонами интереса: глаза, переносица, нос, рот (Барабанщиков, Жегалло, 2018).

Паттерн рассматривания комплексной динамической сцены содержит две составляющие. Первая — относительно быстрый осмотр сцены в целом, направленный на выделение основных существенных элементов. Вторая, занимающая большую часть времени, включает фиксацию и слежение за отдельными динамическими элементами (Smith, Mital, 2013). При таком способе рассматривания достигается более высокая синхронность внимания (attentional synchrony), чем при рассматривании статических изображений. Авторы указывают, что данный результат в значительной степени связан с особенностями материала. Среди использовавшихся видеофрагментов значительную часть занимали сцены, в которых динамика перемещения высокозначимых объектов была ограничена по амплитуде.

При наличии на видеоизображении нескольких конкурирующих динамических структур выбор отслеживаемой структуры может, в частности, определяться полученной инструкцией. Так, в известном эксперименте с «невидимой гориллой» (Simons, Chabris, 1999) участники исследования получают инструкцию подсчитывать число передач мяча, выполняемых игроками в белых майках. Мы полагаем, что, выполнив покадровый анализ видеоизображения и определив координаты мяча на каждом из кадров, можно далее показать, что при выполнении инструкции взор наблюдателя будет следовать за перемещениями мяча. При этом участники исследования не будут отслеживать взором конкурирующие движущиеся объекты, в частности гориллу, медленно проходящую через сцену. Таким образом, сопоставляя траекторию взора с траекториями динамических элементов комплексной сцены, можно сделать вывод о том, на какой из элементов направлено внимание наблюдателя.

Для случая предъявления динамических объектов разметка изображения может быть автоматизирована путем использования специализированного ПО, например CSIRO FaceAnalysis SDK (Coxetal, 2013). В общем случае задача анализа видеопотока с обнаружением и последующим отслеживанием предметов, соответствующих заданному паттерну, может быть решена средствами библиотеки OpenCV, реализующий ряд алгоритмов слежения за движущимися объектами (Jankuetal, 2016). Эти средства могут быть применимы для содержательного выделения ключевых элементов в комплексной динамической сцене, демонстрируемой в процедуре кооперативного дебрифинга. Представляется перспективным выполнение в ходе дебрифинга интерактивной разметки видеоряда с последующим автоматическим отслеживанием движущегося ключевого объекта и одновременной регистрацией движений глаз и устных комментариев эксперта, передающего когнитивный опыт. Дополнительно может осуществляться видеозапись жестов, сопровождающих комментарии эксперта. На основе сопоставления траекторий движения ключевых элементов видеоряда и движений глаз эксперта будет сформирован нормативный способ рассматривания обучающего видеоматериала, обеспечивающий высокую эффективность усвоения обучающей информации.

Предназначенный для передачи опыта обучающий видеоматериал может включать задания, требующие принятия определенного решения на основе динамической информации о состоянии изучаемого объекта. При анализе результатов, в дополнение к ответам обучаемого, будет использоваться информация о динамике движений глаз и ее соответствии нормативному способу рассматривания, характерному для специалиста — носителя опыта. Таким образом, успешность обучения будет определяться не только на основе того, насколько высока точность ответов, но и по тому, в какой мере реципиент усвоил характерный способ работы в пределах моделируемых учебных ситуаций.

Первоочередной задачей дальнейших исследований представляется подготовка стенда для проведения кооперативного дебрифинга, позволяющего регистрировать движения глаз, речевую продукцию и жесты эксперта, передающего когнитивный опыт. Мы ожидаем, что применение технологий айтрекинга в контексте полипозиционного наблюдения даст новое качество методу полипозиционного наблюдения, повысив надежность его результатов для решения задач построения мультимедийной системы сохранения и передачи значимых составляющих когнитивного опыта.

Финансирование

Исследование выполнено в рамках государственного задания Министерства науки и высшего образования Российской Федерации, проект 25.3471.2017/ПЧ «Выявление значимых составляющих когнитивного опыта специалиста в задачах их сохранения и передачи».

Литература

Барабанщиков В.А. Экспрессии лица и их восприятие. М.: ИПРАН, 2012. 347 с.
Барабанщиков В.А., Жегалло А.В. Окуломоторная активность при восприятии динамических и статических выражений лица // Экспериментальная психология. 2018. T. 11. № 1 С. 5—34.
Жегалло А.В. Распознавание периферически экспонируемых эмоциональных экспрессий // Экспериментальная психология. 2018. Т. 11. № 2. С. 16—33.
Лободинская Е.А., Носуленко В.Н. Вербальные данные в количественной оценке способов предъявления визуальных объектов // Экспериментальная психология. 2018. T. 11. № 4, С. 39—49.
Носуленко В.Н., Самойленко Е.С. Полипозиционное наблюдение // Технологии сохранения и воспроизведения когнитивного опыта / Под ред. В.Н. Носуленко. М.: Изд-во «Институт психологии РАН», 2016. С. 261—278.
Огнев А.С., Лихачева Э.В., Мельникова Д.В. Перспективы использования многополярных семантических дифференциалов в айтрекинге // Успехи современного естествознания. 2015 № 1. Ч. 5. С. 858—862.
Ярбус А.Л. Роль движений глаз в процессе зрения. М.: Наука, 1965. 173 с.
Cox M., Nuevo-Chiquero J., Saragih J.M., Lucey S. CSIRO Face Analysis SDK. 10th IEEE International Conference on Automatic Face and Gesture Recognition. Shangai. China, 2013.
Janku P., Koplik K., Dulik T., Szabo I. Comparison of tracking algorithms implemented in OpenCV // MATEC Web Conf, 2016. Vol. 76; 20th International Conference on Circuits, Systems, Communications and Computers (CSCC 2016); Article Number 04031.
Lahlou S., Nosulenko V., Samoylenko E. Numériser le travail. Théories, méthodes, expérimentations. Paris: Lavoisier, 2012. 328 p.
Le Bellu S., Lahlou S., Nosulenko V., Samoylenko E. Studying activity in manual work: A framework for analysis and training // Le Travail Humain. 2016. Vol. 79. № 1. P. 7—29.
Hayes T.R., Henderson J.M. Scan patterns during real-world scene viewing predict individual differences in cognitive capacity // Journal of Vision. 2017. Vol. 17. № 5. P. 1—17.
Henderson J.M., Hayes T.R.Meaning guides attention in real-world scene images: Evidence from eye movements and meaning maps // Journal of Vision. 2018. Vol. 18. № 6. P. 1—18.
Podladchikova L.N., Shaposhnikov D.G., Tikidgji-Hamburyan A.V., Koltunova T.I., Tikidgji- Hamburyan R.A., Gusakova V.I., Golovan A.V. Model-Based Approach to Study of Mechanisms of Complex Image Viewing // Optical Memory and Neural Networks (Information Optics), 2009. Vol. 18. № 2. Р. 114— 121.
Simons D.J., Chabris C.F. Gorillas in our midst: sustained inattentional blindness for dynamic events // Perception. 1999. Vol. 28. P. 1059—1074.
Smith T., Mital P. Attentional synchrony and the influence of viewing task on gaze behavior in static and dynamic scenes // Journal of Vision. 2013. Vol. 13. № 8. P. 1—24.
Streitz N., Prante Th., Röcker C., Alphen D. van, Stenzel R., Magerkurth C., Lahlou S., Nosulenko V., Jegou F., Sonder F., Plewe D. Smart Artefacts as Affordances for Awareness in Distributed Teams / N. Streitz, A. Kameas, I. Mavrommati (Eds.) // The Disappearing Computer. Springer, Heidelberg. Lecture Notes in Computer Science. 2007. Vol. 4500. P. 3—29.
Unema P., Pannasch S., Joos M., Velichkovsky B Time cource of information processing during scene perception: The relationship between saccade amplitude and fixation duration // Visual Cognition. 2005. Vol. 12. P. 473—494.

Информация об авторах

Жегалло Александр Владимирович, кандидат психологических наук, Старший научный сотрудник лаборатории системных исследований психики, Институт психологии Российской академии наук (ФГБУН ИП РАН), Научный сотрудник центра экспериментальной психологии МГППУ, Москва, Россия, ORCID: https://orcid.org/0000-0002-5307-0083, e-mail: zhegalloav@ipran.ru

Метрики

Просмотров

Всего: 1447
В прошлом месяце: 12
В текущем месяце: 7

Скачиваний

Всего: 605
В прошлом месяце: 9
В текущем месяце: 2

PlumX

Метрики публикации