Использование данных о процессе выполнения задания при оценке креативного мышления

70

Аннотация

Креативное мышление является важным навыком современного мира, а его оценка с помощью современных цифровых инструментов становится все более сложной методологической задачей. Включение в модель оценки креативного мышления данных о процессе выполнения заданий является перспективным направлением, которое становится возможным в компьютерном тестировании. Применение таких данных позволяет учитывать процессы креативного мышления в динамике, что делает оценку уровня креативности учеников более точной и многогранной. Цель исследования заключалась в определении возможности использования данных о процессе выполнения задания в рамках оценки креативного мышления с помощью инструмента в цифровой среде. В работе представлен анализ работ 823 учеников 4 класса, которые в ходе выполнения задания создавали изображения в закрытой симуляционной среде для оценки креативного и критического мышления. Анализ данных о процессе выполнения заданий происходил с использованием N-грам различной длины. В результате сравнили последовательности действий учеников с разным уровнем сформированности креативного мышления, а также выделены различные стратегии поведения тестируемых при выполнении задания на креативное мышление по сравнению с заданием на критическое мышление. В совокупности с информацией об уровне креативности на основе анализа созданного продукта данные о процессе выполнения задания улучшают понимание функционирования заданий через призму процесса выполнения заданий тестируемыми, а также делают шаг вперед в детализации обратной связи, которая может быть получена в рамках тестирования.

Общая информация

Ключевые слова: креативное мышление, образовательные данные, компьютерное тестирование

Рубрика издания: Психология развития (Возрастная психология)

Тип материала: научная статья

DOI: https://doi.org/10.17759/pse.2023280404

Финансирование. Статья подготовлена в рамках гранта, предоставленного Министерством науки и высшего образования Российской Федерации (№ соглашения о предоставлении гранта 075-15-2022-325 от 25.04.2022).

Получена: 15.06.2023

Принята в печать:

Для цитаты: Тарасов С.В. Использование данных о процессе выполнения задания при оценке креативного мышления // Психологическая наука и образование. 2023. Том 28. № 4. С. 63–80. DOI: 10.17759/pse.2023280404

Полный текст

Введение

В области образования были определены некоторые важные способности, названные ключевыми компетенциями или навыками 21-го века [29], овладение которыми необходимо для успешной реализации себя в жизни. Креативность или креативное мышление - один из таких навыков. Поскольку компьютеры и различные искусственные интеллектуальные системы в настоящее время заменяют работников для выполнения многих стандартных задач [3], способности к креативному мышлению при решении задач и сложные коммуникативные и социальные навыки становятся все более ценными на рынке труда. Такая потребность бросает вызов для учителей относительно того, как эти навыки развивать, и для психомтериков относительно того, как эти навыки оценивать наилучшим образом. 

В области оценки креативности в образовательной сфере широко распространен подход, представляющий четыре основные категории определений креативности и направлений исследований, известных как 4P (product, process, person and press): продукт, процесс, личность и среда [20]. Далее мы рассмотрим инструменты измерения когнитивных процессов, связанных с креативностью (процесс), а также творческих продуктов или результатов (продукт).

Процессный подход к измерению креативности фокусируется на специфических когнитивных процессах, которые способствуют творческому развитию. Традиционные тесты, разработанные в рамках этого подхода, включают открытые или плохо структурированные задачи, требующие выработки как можно большего числа ответов, которые затем оцениваются для определения различных факторов креативности, среди которых обычно отмечают беглость (количество ответов), оригинальность (статистическая редкость), гибкость (количество различных категорий) и проработанность (количество деталей). Основной идеей оценки является не только рассмотрение количества ответов, но и их качества. 

Большой вклад в оценку творческих способностей внес Гилфорд [10], разработав тесты дивергентного мышления (Structure of the Intellect Divergent Production Tests, SOI), которое считается важным элементом креативности. Также стоит отметить, что наиболее используемые тесты на креативность — это тесты творческого мышления Торренса (The Torrance Tests of Creative Thinking, TTCT) [27], которые были переведены более чем на 40 языков. Торренс разработал 12 тестов для разных возрастов, сгруппированных в вербальную, изобразительную и звуковую батарею. Однако тесты Торренса являются трудозатратными в плане обучения экспертов и администрирования тестирования. Кроме того, тесты не измеряют все аспекты творчества, но и не претендуют на это. В области оценки креативности существует позиция, что никакой когнитивный тест не является предиктором творчества, если не включает аффективные и мотивационные факторы [26].

Более новые тесты креативности в отношении школьников наиболее ценны как индикаторы оценки потенциального творчества (The Evaluation of Potential Creativity, EPoC), которые разрабатываются как процедуры, оценивающие «область перекрытия». Тест состоит из ряда субтестов, которые были разработаны для измерения как общих, так и конкретных творческих способностей в двух областях - вербальной/литературной и графической [4]. Субтесты EPoC измеряют две ключевые модели творческого познания - дивергентное и конвергентное мышление. Задания дивергентного мышления включают создание как можно большего количества рисунков, используя простую абстрактную форму или знакомый предмет. Вербальные задания включают создание нескольких простых окончаний истории в ответ на уникальное начало истории или, наоборот, нескольких завязок в ответ на уникальную развязку. В заданиях конвергентного мышления в графической области тестируемые создают законченный оригинальный рисунок, используя по крайней мере четыре из восьми абстрактных форм или знакомых объектов, служащих основой для их композиции. В словесно-литературной области задания конвергентного мышления необходимо создать законченный рассказ либо на основе предоставленного названия, либо на основе заданных вымышленных персонажей. 

Однако, традиционные подходы к тестированию креативности, такие как тестирование на бумаге с использованием карандаша, уже устаревают и обладают рядом недостатков. В первую очередь, это необходимость экспертов для оценивания, что создает высокую нагрузку при проведении тестирования из-за сложности администрирования, а также вносит эффект субъективности экспертов в итоговые оценки. Кроме этого, в традиционных тестах отмечается и психометрические проблемы, такие как непостоянные свидетельства надежности и валидности инструментов на разных выборках, влияние тестовой среды на результаты тестирования, устаревший психометрический анализ [23]. 

В связи с этим, для оценивания сложных навыков требуется прибегать не только к традиционным форматам тестирования, но и к более современным форматам. Одним из таких форматов являются задания в цифровой среде, содержащие интерактивные элементы, которые зачастую похожи на игры по своей форме представления [15]. Как примеры можно привести инструмент для оценки конвергентного мышления - BuzzWords [13], дивергентного мышления - Immune Defense [16], конвергентного и дивергентного мышления одновременно - Crea.blender [19]. Зачастую инструменты в цифровой среде обладают не только автоматическими правилами подсчета баллов за тестирование без участия экспертов, но и собирают данные о процессе выполнения задания.

Данные о процессе выполнения задания относятся к данным, полученным от респондентов, взаимодействующих с компьютерным элементом оценки. Это записывается в лог-файлах компьютера и часто представляется в виде последовательностей событий (определенных действий в тестовой среде) с отметками времени [9]. Такие данные собираются и анализируются в рамках оценивания сложных навыков, таких как совместное решение проблем [30], так и в современных форматах заданий, имитирующих видеоигры [14]. 

Например, в рамках Международной программы по оценке образовательных достижений учащихся (PISA) в 2012 году учащиеся оценивались на предмет сформированности навыков решения проблем с помощью набора интерактивных тестовых заданий [17]. Тест предназначен для измерения способности индивидов к когнитивной обработке информации для понимания и разрешения проблемных ситуаций, когда метод решения не очевиден сразу. Изучая проблемную ситуацию и взаимодействуя с компьютерной средой, учащиеся находили фрагменты информации, которые были бы полезны для решения рассматриваемой проблемы. В дополнение к ответам на тестовые вопросы также записываются данные о поведении учащихся, чтобы иметь представление об их стратегиях решения проблем. Для заданий PISA по решению задач явные ответы учащегося на каждый вопрос являются данными о продукте, а серии нажатий и вводов, выполненных во время его или ее взаимодействия с вопросами, а также временные метки, связанные с каждым действием, являются данными процесса выполнения задания. Различные методы анализа данных о процессе применительно к одной из задач PISA 2012 года были показаны в работе [18], выводы которой свидетельствуют о том, что выбор методов анализа данных для анализа процесса выполнения задания в насыщенной цифровой среде зависит от цели анализа и структуры данных. 

Цель исследования - определить возможности использования данных о процессе выполнения задания в рамках оценки креативного мышления с помощью инструмента в цифровой среде. На основе заложенных в инструмент показателей мы получаем информацию об уровне сформированности навыка креативности, поэтому можем сравнивать между собой процессы решения задания учениками с разными уровнем развития навыка креативности. В данном инструменте, описанном подробно в следующем разделе, с помощью заданий одного формата оценивается не только креативность, но и критическое мышление. 

Таким образом, в исследовании мы хотим ответить на следующие исследовательские вопросы относительно данных о процессе выполнении задания:

  1. Какие действия отличают процесс выполнения задания на креативное мышление учениками с высоким уровнем креативного мышления от выполнения учениками с низким уровнем?
  2. Какие действия отличают процесс выполнения задания на креативное мышление от процесса выполнения задания на критическое мышление?

Методы

Инструмент

В данном исследовании проводится анализ одного из заданий инструмента для оценки навыков 21-го века 4К среди учеников 4 класса, разработанный сотрудниками Центра психометрики и измерений в образовании (Лаборатория измерения новых конструктов и дизайна тестов) Института образования НИУ ВШЭ. Инструмент состоит из нескольких заданий сценарного типа, оценивающих четыре навыка: креативное и критическое мышление, коммуникацию и кооперацию; причем большинство заданий позволяет измерить несколько навыков. 

 Инструмент предъявляется тестируемому в компьютерной форме. Экран заданий интерактивен: тестируемый нажимает на выбранную им область, после чего видит заранее подготовленную специфическую реакцию системы тестирования. Такой формат позволяет проявить сложные навыки, а также поддерживает мотивацию тестируемых и снижает тестовую тревожность. В то же время имитация реальной среды позволяет более точно фиксировать наблюдаемое поведение, то есть свидетельство того, что тестируемый обладает конкретным навыком.

В рамках данной работы рассматривалось задание «Монстр», которое направлено на оценку креативного и критического мышления. Общий контекст задания вымышленный и заключается в том, что тестируемый оказался на праздничном представлении в Городе монстров. Задание состоит из экранов с описанием и конструктора (рис. 1–2), с помощью которого тестируемый создает изображения.

В первой части этого задания, направленного на оценку креативного мышления, каждый тестируемый для афиши представления создает трех монстров, которые должны быть удивительными и необычными, а также отличаются от местных жителей. Интерфейс данной части задания представлен на рис. 1. Конструктор состоит из холста в центре, на который могут быть помещены элементы из нижней панели. Все элементы разделены на категории (туловище, руки, разное и т. д.) и могут быть использованы неограниченное количество раз (кроме туловища, которое обязательно должно быть одно и фиксируется в центре холста). Справа на экране был представлен местный житель, который для цели оценки оригинальности считался референсом. Также на экране над референсом и справа на нижней панели содержатся инструкции для выполнения задания.

Рис. 1. Интерфейс задания «Монстр» для оценки креативного мышления

Во второй части задания оказывается, что во время представления произошло чрезвычайное происшествие и тестируемый по короткому описанию преступника должен составить его фоторобот. Интерфейс этой части задания не сильно отличается от интерфейса предыдущей части и представлен на рис. 2. Основное отличие заключается в инструкции, согласно которой тестируемому надо составить фоторобот монстра-преступника, а не необычного монстра.

Рис. 2. Интерфейс задания «Монстр» для оценки критического мышления

Операционализация конструкта

Для создания инструмента измерения разработчиками была определена теоретическая рамка конструкта креативности [1], которая основывается как на когнитивном подходе [10, 27], так и на концепции структурированного воображения [28]. Креативность в рамках данного инструмента включает два субконструкта:

  1. Оригинальность – способность продуцировать новые идеи и решения задач, которая может выражаться в появлении новых идей, в установлении новых, ранее не фиксировавшихся, связей между существующими идеями. 

Для оценки оригинальности построенного тестируемым изображения, мы сравниваем его с референсом. Референс представляет из себя прокси изображение, отражающее образ наиболее часто встречающееся в выборке. При создании референса для задания мы выявляем наиболее типичные элементы и их количество с помощью когнитивных интервью и количественных исследований на пилотном этапе. Направленность задания на креативность определяется тем, что в рамках задания тестируемых просят создать новый образ, который должен отличаться от исходного. 

  1. Детальность – способность глубоко, с большой степенью подробности, проработать предложенную идею. 

Аналогично измерению в рамках когнитивного подхода, в нашем исследовании детализация измеряется как количество элементов, которые используются в решении, и их функциональное разнообразие.

Выборка и процедура

Тестирование проводилось весной 2022 года в нескольких городах России. Из всех выборки были отобраны ученики, которые полностью выполнили задание «Монстр» (каждое изображение содержит хотя бы 2 элемента). Таким образом, база для анализа состояла из 823 учащихся четвертых классов. 

Среднее время выполнения задания составляет 15 минут. Тестирование проходило в школах под наблюдением учителя с согласия родителей в соответствии с исследовательской этикой. Результаты учеников были анонимизированными для целей анализа.

Показатели

В сценарных заданиях инструмента 4К оценивание навыков происходит с помощью индикаторов. Под индикаторами понимаются изначально заложенные в сценарий задния разработчиком поведенческие проявления навыка, например, выбрали или не выбрал правильное поведение в возникшей ситуации. Поведенческом проявлении креативности и критического мышления в задании «Монстр» мы рассматриваем особенности изображений, созданных тестируемыми. Эти особенности изображений (индикаторы) имеют предопределенные правила подсчета баллов, представленные в табл. 1. Правила подсчета баллов применялись к каждому изображению отдельно. Ниже приведены правила начисления баллов по показателям оригинальности и детальности.

Таблица 1

Правила подсчета баллов для оценки креативности в задании «Монстр»

Индикатор

Правила подсчета баллов

Оригинальность

origin1

1 - количество элементов из категории Ноги отлично от 2

0 - количество элементов из категории Ноги равно 2

origin2

1 - количество элементов из категории Руки отлично от 2

0 - количество элементов из категории Руки равно 2

origin3

1 - количество элементов из категории Рот отлично от 1

0 - количество элементов из категории Рот равно 1

origin4

1 - количество элементов из категории Глаза отлично от 2

0 - количество элементов из категории Глаза равно 2

symmetLegs1

1 - отсутствие симметрии для элементов из категории Ноги 

0 - есть симметрия

symmetHands1

1 - отсутствие симметрии для элементов из категории Руки 

0 - есть симметрия

position1

1 - хоть один элемент из категории Ноги стоит не в слотах ног

0 - все элементы из категории Ноги стоят в слотах ног

NA - элементы из категории Ноги не использованы вовсе

position2

1 - хоть один элемент из категории Руки стоит не в слотах рук

0 - все элементы из категории Руки стоят в слотах рук

NA - элементы из категории Руки не использованы вовсе

position3

1 - хоть один элемент из категории Рот стоит не в верхней части туловища

0 - все элементы из категории Рот стоят в верхней части туловища

NA - элементы из категории Рот не использованы вовсе

position4

1 - хоть один элемент из категории Глаза стоит не в верхней части туловища

0 - все элементы из категории Глаза стоят в верхней части туловища

NA - элементы из категории Глаза не использованы вовсе

Детальность

nElements

2 = 9 и более элементов, кроме категории Разное

1 = от 5 до 8, кроме категории Разное

0 = от 0 до 4 элементов, кроме категории Разное

nVarious

2 = 2 и более элементов из категории Разное

1 = 1 элемент из категории Разное

0 = 0 элементов из категории Разное

color

1 - менял цвет монстра хотя бы один раз

0 - не менял цвет

turn

1 - поворачивал элемент хотя бы 1 раз

0 - не поворачивал элементы

Кроме значений индикаторов для каждого тестируемого фиксировался процесс построения изображения в виде записи всех совершенных тестируемым действий через запятую в виде «Start, Add_Torso, Add_Hands, Add_Hands, Add_Legs, Add_Legs, Add_Mouth, Color, Add_Eyes, Finish». Описание всех возможных действий представлено в табл. 2.

Таблица 2

Действия в журнале действий

Запись в журнале действий

Действие

Start

Начало задания

Finish

Окончание задания

Color

Изменение цвета монстра

Add_X, где X может быть: 

Torso

Hands

Legs

Horns

Eyes

Mouth

Various

Добавление элемента из категории:

Туловище

Руки

Ноги

Рога

Глаза

Рот

Разное

Tur_X, где X аналогичен случаю с Add, кроме Torso, т.к. туловище всегда расположено по центру холста и не поворачивается

Поворот элемента из разных категорий

Del_X, где X аналогичен случаю с Add

Удаление элемента из разных категорий

Que

Обращение к справке нажатием на знак вопроса

Методология анализа данных

Для оценки уровня креативности использовалась методология конфирматорного факторного анализа (КФА) на порядковых переменных [6]. Мы используем метод взвешенных наименьших квадратов с использованием матрицы полихорических корреляций (WLSMV) для надежной оценки из-за категориального порядка данных [7]. Соответствие модели данным определялось на основе индекса сравнительного соответствия (CFI), индекса Такера-Льюиса (TLI) и среднеквадратичной ошибки аппроксимации (RMSEA). Первые два индекса показывают расстояние построенной модели от нулевой модели, в которой ни одна переменная не связана с другой [5], а последний основан на анализе остатков модели [25]. Мы опирались на следующие критические значения коэффициентов, следуя общепринятым правилам (Yu, 2002): CLI>0,95; TLI>0,95; RMSEA≤0,06. Для улучшения качества модели использовались индексы модификации, основанные на анализе модельных остатков. 

Единицей анализа в моделях выступает индикатор. О взаимосвязи между индикатором и фактором можно говорить на основе факторной нагрузки индикатора в модели КФА. Статистически значимая и положительная факторная нагрузка указывает наличие этой взаимосвязи, а более высокое значение факторной нагрузки указывает на более высокую связь индикатора с изучаемым фактором.

В качестве оценки уровня сформированности способности используются факторные баллы из модели КФА, рассчитанные с помощью регрессионного метода [подробнее в 8]. Факторные баллы представляют из себя стандартизированную непрерывную шкалу со средним 0 и стандартным отклонением, равным корню из квадрата множественной корреляции между всеми индикаторами и фактором. Таким образом, полученные баллы можно использовать для дальнейшего ранжирования тестируемых.

Для работы с данными процесса выполнения задания записанные переменные были разбиты на N-грамы - небольшие последовательности определенных действий, где N - количество действий в этой последовательности. Самыми короткими последовательностями являются уни-грамы, то есть последовательности из одного действия, также в работе используются би-грамы и три-грамы - последовательности из двух и трех действий соответственно. Если тестируемый в процессе выполнения задания совершает 16 действий, то эта последовательность содержит 16 уни-грам, 15 би-грам и 14 уни-грам. N-грамы могут повторяться как между тестируемыми, так в рамках выполнения задания одним тестируемым. На основе табл. 2 можно предположить, что в задании будет встречаться 24 уникальных уни-грам, а уни-грамы «Start» и «Finish» должны встречаться во всех заданиях. В связи с различной частотой встречаемости определенные последовательности вносят разный вклад в различение групп тестируемых, поэтому принятой практикой при работе с N-грамами является их взвешивание [12] по формуле: 

w ( i , j ) = { ( 1 + log ( n i , j ) ) log ( N n i ) 0 , если n i , j = 0 , если n i , j > 0

где i,j – определенное действие i (N-грам) в определенной последовательности j,

N – общее количество последовательностей,

ni,j – частота действия i в последовательности j,

ni - частота действия i во всех последовательностях.

Для сравнения процесса выполнения задания мы рассчитываем взвешенную частоту N-грам в разных подгруппах, чтобы определить, насколько одна группа отличается от другой с точки зрения частот действия. Согласно нулевой гипотезе, два набора случайным образом эквивалентны, поэтому распределение их действий пропорционально друг другу. Для оценки отклонения от этой нулевой гипотезы вычисляется критерий хи-квадрат (χ2) [подробнее в 2]. N-грамы с более высокими значениями χ2 являются теми последовательностями действий, которые отличают процесс выполнения задания в выделенных подгруппах. На уровне значимости 0,05 критическое значение χ2 равно 3,84, то есть если наблюдаемое значение превышает его, то мы можем быть на 95% уверены, что действие происходило чаще в одной из двух подгрупп. Чем больше значение χ2, тем большие различия между подгруппами.

Все расчеты были произведены с помощью языка программирования для статистической обработки данных R версии 4.3.1 с использование пакета lavaan [21] для оценки моделей КФА и пакета ngram [24] для расчета N-грам.

Результаты

Расчет уровня креативности

Сначала были построены модели конфирматорного факторного анализа для определения уровня креативности согласно заложенным в задание индикаторов. Были построены две отдельные модели для субконструктов Оригинальность и Детальность. Показатели качества обеих моделей представлены в табл. 3 и говорят о хорошем соответствии модели данным.

Таблица 3

Показатели соответствия модели

Индекс

Оригинальность

Детальность

CFI

0.980

0.973

TLI

0.979

0.961

RMSEA

0.039

0.045

            На Рис. 3 показана факторная структура модели для субконструкта Оригинальность. В модель для лучшего соответствия данным для всех трех изображений монстров были добавлены корреляции между индикаторами симметрии и позиции рук, симметрии и оригинального количества рук, симметрии и оригинального количества ног.

Рис. 3. Факторная структура субконструкта Оригинальность

Все стандартизированные факторные нагрузки значимы (р < 0,05) и находятся в диапазоне от 0,22 до 0,67 при среднем значении 0,45, что является приемлемым значением.

На Рис. 4 показана факторная структура модели для субконструкта Детальность. В данной модели были также добавлены корреляции между связанными между собой индикаторами, а именно поворот, количество элементов без категории Разное и количество элементов из категории Разное.

Рис. 4. Факторная структура субконструкта Детальность

Все стандартизированные факторные нагрузки значимы (р<0,05) и находятся в диапазоне от 0,16 до 0,83 при среднем значении 0,41.

Сравнение процесса выполнения задания на креативное мышление учениками с высоким и низким уровнем креативного мышления

Для ответа на первый исследовательский вопрос мы рассмотрели первое изображению монстра, которые создавались тестируемыми при решении задания, направленного на оценку креативного мышления. Были построены уни-грамы, би-грамы и три-грамы, так как более длинные последовательности не обладают высокой частотой в данных и сложны в интерпретации. В табл. 4-5 приведены значение хи-квадрат при сравнении двух групп тестируемых по уровню сформированности двух субконструктов креативности (оригинальность и детальность), причем в группу с высоким уровнем были отобраны 200 учеников с наивысшем факторным баллом по соответствующему субконструкту, а в группу с низким уровнем - 200 учеников с наименьшим факторным баллом.

Таблица 4

Различие частоты N-грам в процессе выполнения заданий на креативное мышление у учеников с высоким и низким уровнем оригинальности

Высокий уровень

Низкий уровень

Действие

χ2

Действие

χ2

Уни-грамы (χ2 > 5)

Tur_Various

5,3

Del_Mouth

8

   

Tur_Legs

6,7

   

Tur_Mouth

6,5

Би-грамы (χ2 > 10)

Add_Various Add_Eyes

26,1

Tur_Hands Color

17

Add_Various Add_Various

17,1

Add_Eyes Add_Eyes

14,6

Add_Mouth Add_Mouth

15,1

Add_Mouth Tur_Mouth

12,9

Del_Legs Add_Eyes

15,1

Tur_Mouth Tur_Mouth

12,9

Add_Horns Add_Legs

14,8

Color Add_Horns

11,3

Add_Legs Finish

14,2

Tur_Horns Add_Various

10,8

Add_Various Del_Hands

10,3

Tur_Hands Add_Mouth

10,2

Color Del_Legs

10,3

   

Del_Horns Add_Various

10,3

   

Del_Horns Finish

10,3

   

Del_Legs Color

10,3

   

Tur_Horns Add_Legs

10,3

   

Три-грамы (χ2 > 20)

Add_Hands Add_Hands Add_Hands

33

Add_Mouth Add_Eyes Add_Eyes

24,5

Add_Eyes Add_Eyes Add_Eyes

27,1

Add_Eyes Add_Eyes Finish

20

Add_Hands Add_Legs Finish

27,1

Del_Torso Add_Torso Add_Legs

20

Add_Legs Add_Various Add_Hands

27,1

   

Add_Mouth Add_Legs Finish

23,3

   

Среди уни-грам нет существенных различий между учениками с высоким и низким уровнем оригинальности. На основе би-грам можно заключить, что ученики с высоким уровнем чаще используют элементы из категории Разное, что является логичным, так как в данной категории находятся уникальные элементы, которые создают оригинальность итогового образа. Также у учеников с высоким уровнем оригинальности встречаются би-грамы, включающие действие удаления элемента, что может говорить о творческом процессе, когда ученик пробует разные элементы, чтобы создать оригинальный образ. Среди три-грам наибольшая разница между учениками с разным уровнем оригинальности наблюдается у последовательностей добавления трех элементов из категории (руки и глаза). Это подтверждает существующую систему подсчета баллов за задание, так как для этих категорий количество элементов на референсе равно двум, и если тестируемый добавляет сразу три элемента, то это ассоциируется с большим баллом за оригинальность.

Таблица 5

Различие частоты N-грам в процессе выполнения заданий на креативное мышление у учеников с высоким и низким уровнем детальности

Высокий уровень

Низкий уровень

Действие

χ2

Действие

χ2

Уни-грамы (χ2 > 4)

Color

64,4

Del_Torso

18,1

Tur_Horns

27

Que

18

Tur_Eyes

9,4

Add_Mouth

5,9

Tur_Various

8,6

Del_Eyes

4,8

Tur_Legs

7,2

Del_Hands

4,6

Би-грамы (χ2 > 35)

Add_Torso Color

75,8

Add_Torso Add_Mouth

75,5

Color Color

59,6

Add_Torso Add_Eyes

73

Color Finish

47,1

Add_Torso Add_Hands

70,7

Color Add_Eyes

44,9

Add_Legs Finish

65

Color Add_Legs

43,4

Add_Hands Finish

62,2

Color Add_Hands

40,9

Add_Hands Add_Legs

58,4

Add_Horns Tur_Horns

39,5

Add_Eyes Finish

57

Color Add_Various

39,2

Add_Torso Add_Legs

47,9

Color Add_Mouth

35,6

   

Три-грамы (χ2 > 25 для высокого уровня и χ2 > 45 для низкого уровня)

Start Add_Torso Color

72,8

Start Add_Torso Add_Mouth

88,9

Add_Torso Color Color

42,6

Start Add_Torso Add_Hands

83,6

Add_Horns Tur_Horns Tur_Horns

37,2

Add_Hands Add_Hands Finish

74,3

Color Add_Legs Add_Legs

35,9

Add_Torso Add_Hands Add_Hands

72,4

Color Add_Hands Add_Hands

34

Start Add_Torso Add_Legs

66,7

Tur_Horns Tur_Horns Tur_Horns

32,5

Start Add_Torso Add_Eyes

61,9

Add_Horns Add_Horns Tur_Horns

30

Add_Torso Add_Legs Add_Legs

59

Add_Torso Color Add_Legs

30

Add_Hands Add_Hands Add_Legs

55,8

Color Add_Eyes Add_Eyes

30

Add_Mouth Add_Eyes Finish

51,2

Add_Torso Color Add_Eyes

26,7

Add_Torso Add_Mouth Add_Hands

51,2

Color Color Color

26,7

Add_Legs Add_Legs Finish

50,6

   

Add_Torso Add_Eyes Add_Eyes

48,9

Ученики с высоким уровнем детальности значительно чаще меняют цвет монстра и поворачивают элементы из разных категорий. Это согласовывается с системой подсчета баллов за детальность, так как эти действия ассоциированы с более высокими баллами за индикаторы детальности. В то же время ученики с низким уровнем детальности удаляют элементы из разных категорий, что уменьшает общее количество элементов монстра и говорит о низком уровне детальности тестируемого. Кроме этого, наблюдается, что уни-грам в виде обращения к справке чаще встречается у учеников с низким уровнем детальности. Это можно объяснить тем, что такие ученики возможно не поняли, как работать в конструкторе и поэтому не смогли построить монстра и проявить свою креативность.

Сравнение процесса выполнения заданий на креативное и критическое мышление

            Для ответа на второй исследовательский вопрос были взяты по первому изображению монстра, которые создавались тестируемыми при решении двух частей задания: для оценки креативного и критического мышления. Как и в предыдущем пункте были построены уни-грамы, би-грамы и три-грамы, но среди три-грам были отобраны те, которые встречаются хотя бы 10 раз во всех решениях, чтобы убрать очень редкие последовательности, даже если они позволяют различать решения. В табл. 6 приведены значение хи-квадрат при сравнении двух групп монстров (были отобраны N-грамы с наибольшим значением хи-квадрат в каждой из групп).

Таблица 6

Различие частоты N-грам в процессе выполнения заданий на креативное и критическое мышление

Креативное мышление

Критическое мышление

Действие

χ2

Действие

χ2

Уни-грамы (χ2 > 15)

Del_Legs

101,8

Add_Horns

73,8

Del_Hands

52,5

Tur_Hands

50,6

Del_Mouth

38,5

Tur_Horns

23,1

Del_Eyes

34,2

Add_Mouth

21,9

Del_Torso

30,3

Add_Eyes

20

Del_Horns

27,6

Add_Hands

18,3

Del_Various

24

Add_Legs

17,2

Би-грамы (χ2 > 60)

Del_Hands Add_Hands

111,1

Add_Torso Add_Horns

238,4

Del_Legs Add_Legs

96,6

Add_Torso Add_Eyes

88,7

Add_Legs Del_Legs

88,2

Add_Eyes Finish

83,1

Color Color

79,4

Add_Horns Finish

72,1

Del_Legs Del_Legs

78,2

Add_Legs Finish

70,6

Add_Hands Del_Hands

64,7

   

Три-грамы (χ2 > 60)

Add_Torso Color Color

106,1

Start Add_Torso Add_Horns

187,8

Del_Legs Add_Legs Add_Legs

103,9

Add_Torso Add_Horns Add_Horns

109,9

Add_Hands Del_Hands Add_Hands

99,4

Add_Torso Add_Horns Add_Mouth

100

Add_Legs Add_Legs Del_Legs

85,5

Start Add_Torso Add_Eyes

79

Del_Hands Add_Hands Add_Hands

78,6

Add_Torso Add_Horns Add_Legs

74,6

Add_Legs Del_Legs Add_Legs

77

Add_Legs Add_Eyes Finish

68,4

Del_Hands Add_Hands Tur_Hands

66,2

   

Add_Torso Color Add_Legs

63

   

Tur_Legs Tur_Legs Tur_Legs

60,9

   

Color Add_Legs Add_Legs

60,8

   

            Среди уни-грам прослеживается четкие отличия между решениями. В задании на креативное мышление тестируемые значимо чаще удаляют элементы, причем во всех 7 категориях. В задании на критическое мышление тестируемые значительно чаще добавляют элементы из категории Рога, что объясняется условиями задачи, т.к. при составлении фоторобота преступника, который по словам очевидцев имел рога, добавление элементов из этой категории показывает, что тестируемый правильно понял условие задания и проявил критическое мышление. Но в то же время, в задании на критическое мышление тестируемые чаще добавляют и элементы из других категорий, а также поворачивают руки и рога. На основе би-грам и три-грам можно говорить о том, что в задании на креативное мышление ученики чаще меняют цвет монстра, а в задании на критическое мышление ученики оставляют его цвет изначальным (серым). Также они удаляют и поворачивают элементы из разных категорий, что свидетельствует о творческом процессе, в то время как при составлении фоторобота ученики стараются просто собрать монстра из деталей, поэтому после взвешивания действия, связанные с добавлением элементов, преобладают в процессе выполнения задания на критическое мышление.

Обсуждение результатов и заключение

Целью данной работы являлось определение возможностей использования данных о процессе выполнения задания в рамках оценки креативного мышления. Был рассмотрен инструмент тестирования, реализуемый в цифровой среде и состоящий из двух частей: для оценки креативного и критического мышления.

На первом этапе анализа были построены модели КФА для получения оценок тестируемых по субконструктам креативного мышления. Далее эти оценки были использованы для выделения групп тестируемых с высоким и низким уровнем оригинальности и детальности.

На последующем этапе для анализа данных о процессе выполнения задания был выбран метод N-грам, небольших последовательностей действий, извлеченных из журнала действий тестируемого. Были использованы последовательности от одного до трех действий.

Мы сравнили с помощью критерия χ2 частоту встречаемости различных N-грам у учеников с высоким и низким уровнем креативного мышления. В результате были выделены ряд N-грам, которые ассоциируются с разным уровнем креативного мышления, например использования элемента из категории Разное свидетельствует о высоком уровне оригинальности, а удаление элемента из категории Туловище - о низком уровне детальности.

В рамках второго исследовательского вопроса мы сравнили выполнение заданий на креативное и критическое мышление, реализованных в одном и том же конструкторе. На основе частоты встречаемости определенных N-грам были получены доказательства того, что разные задания работают соответствующим образом. Так, в задании на креативное мышление ученики чаще удаляют и поворачивают элементы, меняют цвет изображения, а в задании на критическое мышления ученики чаще добавляют те элементы, которые необходимы для правильного решения задания.

Таким образом, в качестве вывода можно отметить, что выбранный метод анализа данных о процессе выполнения задания оказался полезен и может быть использован для понимания поведения тестируемых с разным уровнем развития навыка (в данном исследовании креативного мышления) и при проверке качества заданий.

 Использование данных о процессе выполнения задания также может обогатить систему подсчета баллов и обратную связь по результатам тестирования. Например, при анализе учеников с высоким и низким уровнем оригинальности была обнаружена связь наличия в профиле тестируемого би-грам, состоящих из удаления и последующего добавление элементов, с высоким уровнем оригинальности. Данная связь никак не учитывается в текущей системе начисления баллов. Однако необходимо уделять особое внимание пониманию предполагаемого использования таких данных. Это важно, поскольку расширение в сторону накопления более сложных данных может бросить вызов традиционным подходам к масштабированию результатов оценки в рамках образовательного тестирования и может быть обработано неадекватно пользователями тестов [22].

На основе анализа процесса выполнения задания мы получили, что на результат выполнения задания на креативное мышление могут влиять и другие характеристики тестируемых, например, их уровень цифровой грамотности. Это можно подкрепить тем, что ученики с низким уровнем детальности значимо чаще учеников с высоким уровнем обращались к справке по заданию, в которой содержится обучение по работе с конструктором. Можно предположить, что из-за низкого уровня цифровой грамотности они не разобрались с тем, как выполнять задание на оценку креативного мышления в цифровой среде. Данное наблюдение описывает одно из ограничений современных инструментов оценивания, а именно возможное вмешательство других факторов. 

К ограничениям данного исследования можно отнести небольшую выборку для анализа, из-за чего часть N-грам были очень редкими в совокупности решений. Также по этой причине на этапе анализа мы объединили действия по категориям (например, добавление или поворот руки), а не рассматривали конкретные элементы внутри категории (добавление руки №1 или поворот руки №2). Анализ на уровне отдельных элементов находится в наших планах по уточнению работы самого конструктора, с помощью которого тестируемые создают изображения. Есть гипотеза, что определенные элементы внутри категорий могут быть связаны с уровнем креативности, например, тестируемые с высоким уровнем оригинальности будут склоны добавлять руку №3, чем другие руки. 

Среди дальнейших направлений исследования следует отметить анализ данных о времени выполнения задания, а именно времени между определенными действиями в последовательности выполнения задания, а также использование других подходов для анализа данных о процессе решения заданий в цифровой среде. Одним из таких подходов является метод самой длинной общей последовательности (Longest Common Subsequence) [11] - метод анализа последовательностей, используемый в обработке естественного языка и биостатистике для понимания стратегии тестируемых при решении цифровых задач. Данный подход может быть применен к рассматриваемому в статье заданию «Монстр», так как среди решений можно выделить неоригинальные решения (повторяющие референс) и рассчитать, насколько решения учеников будут отличаться от такого решения. Также в рамках этого подхода возможен расчет близости решений разных учеников, что позволит выделять некие кластеры решений, которые можно использовать для выводов о креативном мышлении тестируемых.

Литература

  1. Угланова И.Л., Орел Е.А., Брун И.В. Измерение креативности и критического мышления в начальной школе // Психологический Журнал. 2020. № 6(41). С. 96—107.
  2. Agresti, A. (1990). Categorical data analysis. New York, NY: John Wiley & Sons, Inc
  3. Autor, D. H., Levy, F., and Murnane, R. J. (2003). The skill content of recent technological change: an empirical exploration. Q. J. Econ. 118, 1279–1333. doi: 10.1162/003355303322552801
  4. Barbot, B., Besançon, M., & Lubart, T. (2016). The generality-specificity of creativity: Exploring the structure of creative potential with EPoC. Learning and Individual Differences, 52, 178-187.
  5. Bentler, P. M. (1990). Comparative fit indexes in structural models. Psychological Bulletin, 107(2), 238–246. https://doi.org/10.1037/0033-2909.107.2.238
  6. Bock, R. D., Gibbons, R., & Muraki, E. (1988). Full-information item factor analysis. Applied psychological measurement, 12(3), 261-280.
  7. Brown T. A., Moore M. T. Confirmatory factor analysis //Handbook of structural equation modeling. - 2012. - P. 361-379.
  8. DiStefano, Christine; Zhu, Min; and Mîndrilã, Diana (2009). "Understanding and Using Factor Scores: Considerations for the Applied Researcher," Practical Assessment, Research, and Evaluation: Vol. 14, Article 20. DOI: https://doi.org/10.7275/da8t-4g52
  9. Griffin P., Care E. Assessment and teaching of 21st century skills: Methods and approach / P. Griffin, E. Care, Springer, 2014.
  10. Guilford, J. P. (1967). The nature of human intelligence. McGraw-Hill.
  11. He, Q., Borgonovi, F., Paccagnella, M. (2021). Leveraging process data to assess adults’ problem-solving skills: Identifying generalized behavioral patterns with sequence mining. Computers and Education, 166, 104170. https://doi.org/10.1016/j.compedu.2021.104170
  12. He, Q., & von Davier, M. (2016). Analyzing process data from problem-solving items with N-grams: Insights from a computer-based large-scale assessment. In R. Yigal, F. Steve, & M. Maryam (Eds.), Handbook of research on technology tools for real-world skill development (pp. 749-776). Hershey, PA: Information Science Reference.
  13. Howell, S., & Veale, T. (2009). Designing serious games with linguistic resources. Proceedings of the 4th International Conference on Foundations of Digital Games, 291–298. https://doi.org/10.1145/1536513.1536564
  14. Kerr, D., Chung, G. K. W. K., & Iseli, M. R. (2011). The feasibility of using cluster analysis to examine log data from educational video games (CRESST Report 790). Los Angeles, CA: University of California, National Center for Research on Evaluation, Standards, and Student Testing (CRESST)
  15. Kim, Y. J., & Shute, V. J. (2015). Opportunities and challenges in assessing and supporting creativity in video games. In Video games and creativity (pp. 99–117). Elsevier Academic Press. https://doi.org/10.1016/B978-0-12-801462-2.00005-9
  16. Krebs, E., Jaschek, C., von Thienen, J., Borchart, K.-P., Meinel, C., & Kolodny, O. (2020). Designing a Video Game to Measure Creativity. 2020 IEEE Conference on Games (CoG), 407–414. https://doi.org/10.1109/CoG47356.2020.9231672
  17. OECD (2013), “Problem-Solving Framework”, in PISA 2012 Assessment and Analytical Framework: Mathematics, Reading, Science, Problem Solving and Financial Literacy, OECD Publishing, Paris. DOI: https://doi.org/10.1787/9789264190511-6-en
  18. Qiao X and Jiao H (2018) Data Mining Techniques in Analyzing Process Data: A Didactic. Front. Psychol. 9:2231. doi: 10.3389/fpsyg.2018.02231
  19. Rafner, J., Hjorth, A., Risi, S., Philipsen, L., Dumas, C., Biskjær, M. M., Noy, L., Tylén, K., Bergenholtz, C., Lynch, J., Zana, B., & Sherson, J. (2020). crea.blender: A Neural Network-Based Image Generation Game to Assess Creativity. In Extended Abstracts of the 2020 Annual Symposium on Computer-Human Interaction in Play (pp. 340–344). Association for Computing Machinery. https://doi.org/10.1145/3383668.3419907
  20. Rhodes, M. (1961). An Analysis of Creativity. The Phi Delta Kappan, 42(7), 305–310.
  21. Rosseel, Y. (2012). lavaan: An R Package for Structural Equation Modeling. Journal of Statistical Software, 48(2), 1-36. https://doi.org/10.18637/jss.v048.i02
  22. Rupp, A. (2002). Feature selection for choosing and assembling measurement models: A building-block- based organisation. International Journal of Testing, 2 (3/4), 311–360
  23. Said-Metwaly, S., Van den Noortgate, W., & Kyndt, E. (2017). Methodological issues in measuring creativity: A systematic literature review. Creativity. Theories-Research-Applications, 4(2), 276–301.
  24. Schmidt D, Heckendorf C (2022). “ngram: Fast n-Gram Tokenization.” R package version 3.2.2
  25. Shi, D., Maydeu-Olivares, A., & Rosseel, Y. (2020). Assessing fit in ordinal factor analysis models: SRMR vs. RMSEA. Structural Equation Modeling: A Multidisciplinary Journal, 27(1), 1–15.
  26. Sternberg, R. J., & Lubart, T. I. (1995). Defying the crowd: Cultivating creativity in a culture of conformity. New York: Free Press.
  27. Torrance, E. P. (1962). Guiding creative talent. Prentice-Hall, Inc. https://doi.org/10.1037/13134-000
  28. Ward, T. B. (1994). Structured Imagination: the Role of Category Structure in Exemplar Generation. Cognitive Psychology, 27(1), 1–40. https://doi.org/10.1006/cogp.1994.1010
  29. World Economic Forum / Schwab, K. (Editor). (2018). The Global Competitiveness Report 2018.
  30. Yuan J, Xiao Y and Liu H (2019). Assessment of Collaborative Problem Solving Based on Process Stream Data: A New Paradigm for Extracting Indicators and Modeling Dyad Data. Front. Psychol. 10:369. doi: 10.3389/fpsyg.2019.00369

Информация об авторах

Тарасов Сергей Владимирович, магистр психологии, Стажер-исследователь: Институт образования / Центр психометрики и измерений в образовании, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия, ORCID: https://orcid.org/0000-0003-4151-115X, e-mail: svtarasov@hse.ru

Метрики

Просмотров

Всего: 204
В прошлом месяце: 28
В текущем месяце: 24

Скачиваний

Всего: 70
В прошлом месяце: 10
В текущем месяце: 11