Введение
В практических задачах сохранения и передачи когнитивного опыта важное место отводится технологиям полипозиционного наблюдения за деятельностью носителя этого опыта (Носуленко, Самойленко, 2016; Le Bellu, etal., 2016). Потребность в особых технологиях наблюдения требуется, прежде всего, при изучении таких деятельностей, где не очевидна значимость их отдельных составляющих, а используемые человеком орудия являются скрытыми (Lahlou, Nosulenko, Samoylenko, 2012; Streitzetal., 2007). Основным материалом полипозиционного наблюдения являются видеозаписи, получаемые различными способами и обрабатываемые совместно с экспертом (носителем опыта) в процессе так называемого кооперативного дебрифинга. Из получаемых видеозаписей делается монтаж, назначение которого — продемонстрировать в лаконичном виде те моменты, которые при просмотре фильма должны быть восприняты как наиболее значимые. Совместная работа исследователя и профессионального эксперта по анализу такого фильма необходима для корректировки исходных гипотез о значимости составляющих деятельности и ее последующего моделирования. Обработке подвергается вербальная и невербальная информация, регистрируемая в кооперативном дебрифинге. Понятно, что для такой обработки требуются технологии, позволяющие максимально точно установить момент и положение на экране объекта, к которому относится конкретный комментарий эксперта. Например, определенные выводы о способах визуализации наиболее значимых сцен сделаны при изучении особенностей вербализации эмоциональных экспрессий (Лободинская, Носуленко, 2019). Было показано, что при монтаже видеоматериала, используемого в медиапродукте для усвоения специфики деятельности, наиболее значимый момент следует визуализировать отдельно от контекста или же давать в контексте, не имеющим предметной связи с целевым объектом (т. е. без демонстрации всех деталей реального процесса изменений объекта).
Нам представляется, что технология айтрекинга также может рассматриваться в качестве инструмента для точного анализа процесса кооперативного дебрифинга. Главная проблема использования такой технологии связана с динамичностью изображения, наблюдаемого в дебрифинге. В этой статье мы попытаемся кратко рассмотреть возможные пути решения этой проблемы.
Движения глаз при рассматривании статических изображений
Исторически, исследования движений глаз в первую очередь связаны с рассматриванием статических изображений. Локализация взора в этом случае определяется рядом факторов: собственными характеристиками изображения; поставленной перед наблюдателем задачей; отношением наблюдателя к экспериментальной либо реальной ситуации, в которой он находится; индивидуальными особенностями наблюдателя.
Влияние инструкции впервые было обнаружено в классических исследованиях А.Л. Ярбуса (Ярбус, 1965). Инструкция в имплицитной форме может быть эффективно использована для целей психодиагностики. Так, при экспозиции на экране незаконченного предложения «Я человек ...», испытуемые далее переводят взор на то слово из пары слов- антонимов, которое адекватно их характеризует (Огнев, Лихачева, Мельникова, 2015).
Отношение наблюдателя к ситуации, к выполняемой задаче может быть проконтролировано лишь косвенным образом, в частности, путем анкетирования участников по окончании исследования либо путем анализа данных видеонаблюдения за ходом эксперимента. Формирование «правильного» отношения участников исследования к выполняемому заданию, вовлеченности, заинтересованности в результатах исследования зависит от мастерства и личного опыта экспериментатора; возможности формализации данного фактора крайне ограничены.
Индивидуальные особенности наблюдателя, выражающиеся в характеристиках окуломоторной активности, включают, в частности, эффективный произвольный контроль за окуломоторной активностью и различия в величине рабочего поля зрения (Барабанщиков, Жегало, 2018; Жегалло 2018). Дальнейший анализ индивидуальных особенностей наблюдателей технически возможен, но представляет собой крайне трудоемкую задачу, требующую большой выборки испытуемых.
Отдельную проблему представляет анализ движений глаз при рассматривании комплексных статических сцен. При этом выделяется два способа осмотра: фокальный, связанный с уточнением деталей изображения и характеризующийся малыми амплитудами саккад и относительно длительными фиксациями, и амбъетный, связанный с высокоамплитудными саккадами и короткими фиксациями, во время которых распознается общая структура изображения (Unemaetal, 2005). Анализ движений глаз, направленный на раз
граничение разных способов рассматривания, проводится путем построения графиков амплитуды саккад и продолжительности фиксаций и определения точки перегиба.
Поиск предикторов индивидуальной вариативности способов рассматривания комплексных сцен в парадигме Successor Representation Scanpath Analysis (Hayes, Henderson, 2017) показал, что модель, учитывающая объем рабочей памяти наблюдателя, скорость обработки и общий интеллект, объясняет до 40% дисперсии. Вклад собственных характеристик изображения может быть описан соответствующей математической моделью (Podladchikovaetal, 2009). При этом субъективная значимость отдельных элементов сцены существенно зависит от задачи, решаемой наблюдателем. Отсюда возникает необходимость в каждом конкретном случае заново выделять MostInformative Regions (наиболее информативные области).
Следует отметить, что опора на актуальную структуру изображения имеет место не только при рассматривании комплексных сцен, но и в том случае, когда структура изображения, казалось бы, априорно известна. При рассматривании ретушированного лица человека, на котором удалены либо добавлены отдельные элементы, локализация взора по- прежнему определяется фактическим содержанием лица, а не его стандартной структурой. Внимание наблюдателя перераспределяется в пользу фактически присутствующих элементов изображения (Барабанщиков, 2012).
Наиболее важные в смысловом отношении элементы изображения одновременно являются также и наиболее визуально заметными. Попытка разграничить влияние семантической значимости (meaning) и визуальной заметности (salience) выполнена в работе Д. Хендерсона, С. Хайеса (Henderson, Hayes, 2018). Авторы показали, что при выполнении статистического контроля корреляции между данными показателями уникальная вариация плотности распределения взора наблюдателей связана именно с семантической значимостью элементов изображения. Парадигма исследования предполагает предварительную экспертную разметку семантической значимости отдельных зон комплексной сцены.
Специфика рассматривания динамических изображений
В случае рассматривания динамических изображений вклад собственных физических характеристик изображения значительно возрастает по сравнению со статическими изображениями. Так, при рассматривании динамического выражения лица вариативность способов рассматривания существенно сокращается. Способ рассматривания в данном случае определяется как матрица частот переходов между выделенными зонами интереса: глаза, переносица, нос, рот (Барабанщиков, Жегалло, 2018).
Паттерн рассматривания комплексной динамической сцены содержит две составляющие. Первая — относительно быстрый осмотр сцены в целом, направленный на выделение основных существенных элементов. Вторая, занимающая большую часть времени, включает фиксацию и слежение за отдельными динамическими элементами (Smith, Mital, 2013). При таком способе рассматривания достигается более высокая синхронность внимания (attentional synchrony), чем при рассматривании статических изображений. Авторы указывают, что данный результат в значительной степени связан с особенностями материала. Среди использовавшихся видеофрагментов значительную часть занимали сцены, в которых динамика перемещения высокозначимых объектов была ограничена по амплитуде.
При наличии на видеоизображении нескольких конкурирующих динамических структур выбор отслеживаемой структуры может, в частности, определяться полученной инструкцией. Так, в известном эксперименте с «невидимой гориллой» (Simons, Chabris, 1999) участники исследования получают инструкцию подсчитывать число передач мяча, выполняемых игроками в белых майках. Мы полагаем, что, выполнив покадровый анализ видеоизображения и определив координаты мяча на каждом из кадров, можно далее показать, что при выполнении инструкции взор наблюдателя будет следовать за перемещениями мяча. При этом участники исследования не будут отслеживать взором конкурирующие движущиеся объекты, в частности гориллу, медленно проходящую через сцену. Таким образом, сопоставляя траекторию взора с траекториями динамических элементов комплексной сцены, можно сделать вывод о том, на какой из элементов направлено внимание наблюдателя.
Для случая предъявления динамических объектов разметка изображения может быть автоматизирована путем использования специализированного ПО, например CSIRO FaceAnalysis SDK (Coxetal, 2013). В общем случае задача анализа видеопотока с обнаружением и последующим отслеживанием предметов, соответствующих заданному паттерну, может быть решена средствами библиотеки OpenCV, реализующий ряд алгоритмов слежения за движущимися объектами (Jankuetal, 2016). Эти средства могут быть применимы для содержательного выделения ключевых элементов в комплексной динамической сцене, демонстрируемой в процедуре кооперативного дебрифинга. Представляется перспективным выполнение в ходе дебрифинга интерактивной разметки видеоряда с последующим автоматическим отслеживанием движущегося ключевого объекта и одновременной регистрацией движений глаз и устных комментариев эксперта, передающего когнитивный опыт. Дополнительно может осуществляться видеозапись жестов, сопровождающих комментарии эксперта. На основе сопоставления траекторий движения ключевых элементов видеоряда и движений глаз эксперта будет сформирован нормативный способ рассматривания обучающего видеоматериала, обеспечивающий высокую эффективность усвоения обучающей информации.
Предназначенный для передачи опыта обучающий видеоматериал может включать задания, требующие принятия определенного решения на основе динамической информации о состоянии изучаемого объекта. При анализе результатов, в дополнение к ответам обучаемого, будет использоваться информация о динамике движений глаз и ее соответствии нормативному способу рассматривания, характерному для специалиста — носителя опыта. Таким образом, успешность обучения будет определяться не только на основе того, насколько высока точность ответов, но и по тому, в какой мере реципиент усвоил характерный способ работы в пределах моделируемых учебных ситуаций.
Первоочередной задачей дальнейших исследований представляется подготовка стенда для проведения кооперативного дебрифинга, позволяющего регистрировать движения глаз, речевую продукцию и жесты эксперта, передающего когнитивный опыт. Мы ожидаем, что применение технологий айтрекинга в контексте полипозиционного наблюдения даст новое качество методу полипозиционного наблюдения, повысив надежность его результатов для решения задач построения мультимедийной системы сохранения и передачи значимых составляющих когнитивного опыта.
Финансирование
Исследование выполнено в рамках государственного задания Министерства науки и высшего образования Российской Федерации, проект 25.3471.2017/ПЧ «Выявление значимых составляющих когнитивного опыта специалиста в задачах их сохранения и передачи».