Введение
Понимание прочитанного является важной предпосылкой образовательного успеха в дальнейшем обучении [Korhonen, 2012; Savolainen, 2008]. В контексте современных исследований чтения как базового метапредметного конструкта проблема точной оценки читательской грамотности и объективной интерпретации результатов стала еще более актуальной [Иванова, 2023].
Комплексность рассматриваемого конструкта объясняется тем, что чтение включает в себя непосредственно читательскую и стратегическую компетентности. Под стратегической компетентностью понимается умение респондента проводить перспективную и ситуативную рефлексию своей читательской деятельности и адаптировать взаимодействие с тестом для улучшения результата [Van Kraayenoord, 2010].
Необходимо оговорить использование терминологии. В российской практике оценивания есть школа, где термин «тест» относится только к инструментам оценивания, состоящим из заданий закрытого типа (с выбором одного или нескольких верных ответов) [Шмелев, 2013]. Однако вслед за международной практикой мы будем использовать данный термин как «инструмент оценивания» (EFPA), таким образом, в тесте могут присутствовать задания как закрытого типа, так и открытые, со свободно конструируемым ответом [Evers, 2013].
Таким образом, тестовое поведение – это совокупность всех взаимодействий респондента с заданиями с различающимися характеристиками в процессе выполнения теста. При этом действия респондента могут быть осознанными, произвольными либо спонтанными, не основанными на планировании и контроле.
Типичные паттерны действий в ходе тестового поведения мы будем называть тестовыми стратегиями [Cohen, 2006]. Осознанные, продуманные, основанные на регулятивных умениях и рефлексии тестовые стратегии являются проявлением метакогнитивных умений, формирование которых является актуальной задачей развития регулятивно-мотивационной сферы обучающихся.
Актуальность исследования связана с тем, что установление дидактической парадигмы субъектности обучающихся привлекло внимание к изучению и принятию во внимание индивидуальных характеристик обучающихся. Предлагаемое в статье решение основано на использовании процессно-ориентированного подхода, в рамках которого анализируются все операции респондентов в контексте их длительности, описывается картина управления читательской деятельностью, которая позволит сделать выводы об условиях, в которых применялись читательские умения, или условиях, ограничивающих их применение.
Настоящее исследование проведено с целью расширить дидактические возможности тестов чтения и предоставить всем сторонам оценивания информацию не только о том, какой результат был достигнут, но и как он был получен.
Теоретически изменение тестового поведения респондентов в процессе прохождения теста объясняют разными факторами. Так, теория ценности и ожиданий (value expectancy theory) описывает связь между восприятием респондентом тестовой ситуации и его действиями через прогнозирование вероятности успеха и субъективной значимости в случае верного решения, а также через оценку необходимых «затрат» и ожидаемых трудностей [Eccles, 1983; Eccles, 2002]. Таким образом, теоретически с поведением респондента связаны два фактора: 1) его убежденность в собственной «предметной» готовности к решению данного задания с данными характеристиками; 2) его представления о значимости решения данной учебной задачи.
Первый фактор в свою очередь состоит из: 1) субъективной оценки характеристик задания, 2) оценки собственной готовности по отношению к данному заданию. Например, факт того, что респондент пропускает задание с большим количеством текста, может говорить о том, что оно показалось слишком сложным. О низкой оценке собственной готовности может говорить факт быстрого гадания в сложных заданиях и его отсутствие в относительно легких (здесь под «сложным» понимается не реальная трудность, а воспринимаемая сложность, абстрактность, большое количество этапов и т.д.).
Второй фактор (представление о значимости учебной задачи) складывается из: 1) эмоционального отношения к результату (близко к внутренней мотивации), 2) восприятия «полезности результата» для ближайшего будущего (близко к внешней мотивации), 3) «важности результата» (например, приближает ли респондента успех в данном задании к образу того учащегося, которым он себя представляет), 4) оценки количества ресурсов, требуемых для решения данного задания (в том числе времени) [Eccles, 1983; Lindner, 2019].
Изменчивость взаимодействия учащихся с заданиями теста объясняется на основании концепции языковой компетенции Бахмана и Палмера [Bachman, 2010, с. 62]. Эта концепция основана на том, что использование речи обуславливается взаимодействием стратегической компетентности респондента и тестовой ситуации. Комплексность этого взаимодействия включает: 1) непосредственно языковые знания, 2) фоновые знания, 3) индивидуальные особенности и аффективные механизмы, которые ответственны за оценку тестовой ситуации. В прошлых исследованиях было показано, что воспринимаемая учеником трудность задания связана с форматом, наличием в тексте задания трудной лексики, соотнесенностью задания с когнитивными операциями, соотнесенностью с длиной отрывка, к которому относится задание на чтение, и другими факторами [Иванова, 2023; Иванова, 2021].
Важно отметить, что помимо стратегий, основанных на применении предметных и метакогнитивных умений (подробнее о них – ниже), существуют и «стратегии предприимчивости»: это попытки использовать фоновые знания там, где это не предусмотрено заданием, попытки угадывать ответ [Cohen, 2006].
Во ФГОС НОО и ФГОС ООО закреплено требование развития универсальных учебных действий (УУД). В научной зарубежной литературе наиболее близким аналогом регулятивного компонента УУД являются метакогнитивные умения. Сформированные регулятивные действия обучающихся отвечают за контроль и оценку учебной деятельности, умение выявлять собственные затруднения и их причины, применять интеллектуальную рефлексию и т.д. Именно такое «отслеживание обучающимися процесса и результатов собственной познавательной активности в решении задач учения» является метакогнитивной активностью [Фомин, 2020].
Изначально термин «метакогнитивные умения» описывал «процесс тщательного, осознанного мышления, когда каждое действие требует предварительного планирования и последующей оценки; где решения и операции одновременно весомы и рискованны» [Flavell, 1979]. После многих лет исследований термин также используется для обозначения рефлексии процесса работы с информацией и управления этим процессом [Vandergrift, 2012]. В контексте тестов смыслового чтения он рассматривается как сознательная деятельность респондентов, направленная на контроль понимания прочитанного и комплексное прохождение теста [Cohen, 2007]. Метакогнитивные умения являются «ядром стратегической компетенции», потому что помогают выявить неэффективность деятельности ученика и активизировать произвольное применение эффективных стратегий [Bachman, 2010].
Метакогнитивные умения значимы при выполнении тестов – применяя разнообразные стратегии, учащиеся исключают неверные варианты, ищут подсказки в формулировках вопросов, возвращаются для коррекции ответов [Hawker, 2016]. Вариативность метакогнитивных стратегий обеспечивает разнообразие взаимодействий с тестовыми заданиями различных форматов (например, работа с текстом, рисунками, графиками) [Edossa, 2018]. Более того, там, где метакогнитивному развитию обучающихся уделялось больше внимания, где были реализованы специальные практики, обучающиеся использовали различные рефлексивные практики во время взаимодействия с учебными задачами для их рационального решения [Liu, 2020].
В контексте смыслового чтения была доказана связь метакогнитивных умений с пониманием прочитанного [Brown; Carrell, 1989; Mokhtari, 2002; Phakiti, 2003; Zhang, 2010]. Читатели с высоким уровнем способности понимать его активно и произвольно используют различные стратегии чтения в тех ситуациях, где их метакогнитивные умения позволяют выявить дефицит понимания [Zhang, 2018], опосредуют влияние мотивационных факторов на предметные способности [Tibken, 2022].
Структура метакогнитивных умений перекликается с описанными ранее факторами изменчивости тестового поведения. Первый компонент метакогнитивных умений – декларативный, это внеситуативное суждение респондента о собственных способностях и индивидуальных характеристиках при обучении, чтении, запоминании и т.д. [Flavell, 1977]. Второй компонент – процедурный (операционный), он характеризует метакогнитивные процессы непосредственно во время работы над конкретной задачей [Nelson, 1990].
Декларативный компонент оценивается методом опроса [Tibken, 2022]. Для его исследования разработано и апробировано несколько достаточно объемных опросников [Flavell, 1977; Van der Stel, 2014; Zhang, 2018]. Анализ их результатов показал наличие у декларативного компонента трех факторов: планирование (достижение заранее поставленных целей, умение планировать ресурсы, в том числе время); мониторинг (наблюдение за процессом, предсказание результата); контроль (регуляция процесса, например, выделение большего количества времени или повторная работа) [Paris]. Исследования декларативного компонента показали, что адекватная оценка своих рефлексивных умений в области чтения является предиктором понимания [Edossa, 2018; Van Kraayenoord, 2010]. Ограничением исследований декларативного компонента метакогнитивных умений являются небольшой размер выборок (до 200 человек), а также привлечение только хорошо читающих респондентов: учащихся старших классов или взрослых.
Что касается младших школьников, то есть предположение, что контроль над познавательными умениями появляется в возрасте 8-10 лет и связан с умением принимать решения в нестандартной ситуации, что безусловно повышает уровень функциональной грамотности школьников [Akaydın, 2020]. Другие исследования также подтверждают, что рост осведомленности о метакогнитивных стратегиях происходит с возрастом [Bakkaloğlu, 2020].
Процедурный компонент специфичен для каждого конкретного конструкта [Van der Stel, 2014]. Некоторые исследования процедурного компонента в чтении были основаны на фиксации движений глаз, и именно тайминг стал в них ключевым параметром [Tibken, 2022]. Ограничениями подхода с фиксацией движений глаз являются необходимость применения сложного оборудования, немассовость выборок и неоднозначность выводов вследствие зашумления данных. Другой, более пригодный для массового использования подход снова использует тайминг операций – это фиксация времени взаимодействия с фрагментом текста, в котором исследователями были специально заложены несоответствия, или фиксация времени взаимодействия с вопросом после прочитанного [Van der Stel, 2014].
Читатели с высоким уровнем понимания чаще перечитывают сложные отрывки текста во время чтения [Zargar, 2019]. Перечитывание является одним из видов действий, которые связаны с метакогнитивными умениями, потому что именно выявление дефицитов понимания ведет к адаптации читательской деятельности, использованию новых действий, направленных на повышение эффективности деятельности. Существует неоднозначность в использовании исследователями термина «когнитивные умения» (или «когнитивные стратегии»). Под ними понимаются действия, используемые читателями в тестах читательской грамотности для компенсации дефицита понимания или преодоления затруднений при понимании: например, выявление значимой информации, поиск связей между фрагментами текста, выделение резюмирующих предложений, перечитывание и поиск деталей и т.д. Неоднозначность заключается в том, что одни и те же поведенческие индикаторы (например, перечитывание) являются свидетельством как «когнитивного умения» заставить себя вернуться к трудному фрагменту, так и метакогнитивного умения заметить у себя недостаток понимания. Теоретически когнитивные умения являются проявлением сформированных метакогнитивных умений – это те действия, которые предпринимаются респондентами для реализации «метакогнитивного» плана [Bachman, 2010]. Но в практике оценивания невозможно или очень трудно найти индикаторы, которые были бы строго связаны только с метакогнитивными либо только с когнитивными умениями.
Таким образом, обзор литературы показал, что факторами изменчивости тестового поведения являются характеристики респондента, характеристики заданий и их взаимодействие.
Организация исследования, применяемые методики и гипотезы
Задачей нашего исследования было проанализировать «цифровые следы» (тайминг, переходы по тесту) обучающихся во время прохождения цифровой диагностики смыслового чтения с целью выявления информативных индикаторов индивидуальных особенностей тестового поведения респондентов при взаимодействии с заданиями и стимульным материалом теста.
Выборка: исследование проводилось весной 2022 года, в нем приняли участие 2187 обучающихся 4-х классов школ сибирского города-миллионника. После удаления профилей респондентов, которые пропустили 5 и более заданий, в итоговый анализ были включены 2168 наблюдений. Еще 15 респондентов имели от 1 до 4 пропущенных заданий в конце теста (можно интерпретировать как то, что им не хватило времени), они были оставлены в анализе.
Инструмент оценивания: для оценивания использовался инструмент «Прогресс», разработанный в Центре психометрики и измерений в образовании Института образования НИУ ВШЭ [Бакай, 2023]. В качестве стимульного материала использовались специально разработанный для оценивания художественный текст и 23 вопроса на проверку понимания прочитанного. Психометрический анализ теста проводился с применением модели современной теории тестирования Partial credit model, которая относится к семейству моделей Раша, в ПО Winsteps [Linacre, 2016; Masters, 2016]. Тест показал существенную одномерность: собственное значение первого контраста при анализе остатков составило 1,5, что меньше конвенционального критерия 2,0 [Smith, 2002]. Надежность теста Person reliability составила 0,78/0,81 (реальная/модельная), что позволяет выделить три различающиеся по уровню способности группы респондентов. Надежность альфа Кронбаха составила 0,8, что говорит о высокой внутренней согласованности заданий. Все задания теста находятся в согласии с моделью – взвешенные среднеквадратичные статистики согласия всех заданий меньше конвенционального критерия 1,3 [Linacre, 2016]. Задания имеют диапазон трудностей от -2,32 логита до 2,13 логитов, что позволяет оценивать респондентов с низкими, средними и высокими результатами. Распределение ответов респондентов схоже с нормальным.
Процедура оценивания: Работа над тестом была ограничена 40 минутами. Оценивание проходило в компьютеризированной форме в компьютерных классах школ. Деятельность учеников во время выполнения тестов была полностью самостоятельной. Респонденты имели возможность пропускать задания без ввода ответа или пролистывать текст, возвращаться к любому этапу, корректировать ответы.
Гипотезы исследования:
- Индикаторы тестового поведения (индикаторы равномерности прохождения заданий теста, индикаторы линейности выполнения заданий теста и возвраты к чтению текста) позволяют выделить группы учащихся со схожими паттернами тестового поведения.
- Паттерны тестового поведения связаны с предметными (читательскими) результатами учащихся.
Процесс определения типичных паттернов
Для работы по выявлению типичных паттернов мы использовали две группы индикаторов, удобных для доступа в лог-журнале инструмента.
Индикаторы линейности
Это данные о возвратах к тексту и заданиям. Линейным прохождением теста мы называем последовательное (без возвратов, пропусков) прохождение теста с однократным обращением к тексту и последующим заданиям. Нелинейное прохождение теста – это произвольный пропуск заданий, непоследовательный переход по заданиям (переход с первого задания на пятое и т.п.), возвраты к предыдущим заданиям, а также возвраты к тексту.
Нелинейность при прохождении теста может свидетельствовать о применении метакогнитивных умений (например, оценить предстоящий объем работы перед началом выполнения теста, пропустить слишком трудные задания, чтобы вернуться к ним потом или вернуться к тексту для уточнения прочитанного).
Для целей анализа из переменной, описывающей количество возвратов к тексту, мы выделили три фиктивные переменные, закодированные 1/0 (1 – респондент относится к этой переменной, 0 – не относится к этой переменной): 1) ноль возвратов к тексту (1469 респондентов); 2) 1 возврат к тексту (373 респондента); 3) 2 и более возвратов к тексту (329 респондентов).
На основании переменной, описывающей количество возвратов к заданиям, также были созданы три фиктивные переменные, закодированные 1/0: 1) количество нелинейных переходов по заданиям равно 0 (825 человек); 2) количество нелинейных переходов по заданиям составляет 1-5 (952 человек); 3) количество нелинейных переходов по заданиям составляет 6 и более (394 человек). Выбор критериев упрощения данных определялся целями достижения контрастности групп.
Индикаторы равномерности
Мы предположили, что важными характеристиками поведения респондентов будут как абсолютные, так и относительные показатели времени. Инструмент разрабатывался таким образом, чтобы чтение текста не занимало более трети отведенного на весь тест времени. Это было проверено на когнитивных лабораториях. Мы также предполагали, что в процессе работы над тестом трудность заданий и значимость учебной задачи теста могут варьироваться в зависимости от усталости и ситуативной мотивации участников теста. Именно динамичность вовлеченности диктовала необходимость использовать в анализе три переменных времени: 1) время (длительность) чтения текста (стимульного материала); 2) время прохождения первой половины заданий теста (это этап знакомства с форматом заданий, оценка и адаптация к трудности заданий, к тестовой ситуации, к самостоятельной форме работы); 3) время прохождения второй половины заданий теста (во второй половине теста было больше заданий на более высокие уровни когнитивных умений: поиск информации, не данной в явном виде, анализ и синтез). Конечно, вопросы теста не могут быть одинаковы по предполагаемому времени выполнения, но в целом первая и вторая половина теста должны быть сбалансированы по времени выполнения. Одно задание, которое было заданием открытого типа и могло требовать существенно большего времени, было исключено из анализа. Таким образом, первая и вторая половина теста состояли из 11 заданий закрытого типа.
Если первые три переменные из этой группы индикаторов описывают абсолютное время работы учащихся в «начале, середине и конце теста», то следующие два показателя характеризуют динамику длительности взаимодействия с заданиями. Поскольку не существует нормативов по времени взаимодействия с заданиями теста смыслового чтения, мы использовали для анализа длительность взаимодействия с заданиями относительно среднего значения по выборке.
Мы выделяем очень быстрое относительно всей выборки время выполнения задания (для удобства названное «быстрые всплески») и очень долгое время взаимодействия с заданиями теста («медленные всплески»). Если время выполнения конкретного задания ученика меньше -1 стандартного отклонения времени по всей выборке, то это «быстрый всплеск». Если время выполнения конкретного задания ученика больше +1 стандартного отклонения времени по всей выборке, то это «медленный всплеск» – задание выполнялось очень долго.
«Быстрые» и «медленные» всплески анализировались отдельно по первой и второй половине теста.
В табл. 1 представлено описание переменных равномерности выполнения теста: времени взаимодействия с текстом, первой половиной заданий и второй половиной заданий и количество «быстрых» и «медленных» всплесков в первой и второй половинах заданий.
Таблица 1. Время чтения текста, время выполнения первой и второй половины заданий
|
Переменная |
Среднее |
Станд. откл. |
Медиана |
Мин. |
Макс. |
Межквартильный размах |
|
Общее время теста |
21,31 |
6,27 |
20,87 |
1,62 |
43,05 |
8,28 |
|
Время чтения текста |
6,54 |
3,09 |
6,58 |
0,03 |
24,10 |
3,40 |
|
Время заданий (1 часть) |
8,04 |
3,15 |
7,42 |
0,93 |
23,18 |
3,77 |
|
Время заданий (2 часть) |
6,73 |
2,43 |
6,49 |
0,57 |
18,78 |
3,00 |
|
«Быстрые всплески» (1 часть) |
0,58 |
0,97 |
0,00 |
0,00 |
9,00 |
1,00 |
|
«Медленные всплески» (1 часть) |
1,01 |
1,37 |
1,00 |
0,00 |
9,00 |
2,00 |
|
«Быстрые всплески» (2 часть) |
0,70 |
1,65 |
0,00 |
0,00 |
11,00 |
1,00 |
|
«Медленные всплески» (2 часть) |
1,21 |
1,55 |
1,00 |
0,00 |
10,00 |
2,00 |
Для выделения тестовых стратегий был проведен иерархический кластерный анализ [Murtagh, 2012]. Достоинствами этого метода является устойчивость результатов. Анализ проходил в два этапа: работа с группой индикаторов линейности и работа с группой индикаторов равномерности. Индикаторы линейности включали в себя дихотомические переменные, поэтому для расчета расстояний между наблюдениями использовалось бинарное расстояние, которое рассчитывается как доля элементов, которые являются общими для двух переменных. Для расчета расстояний между наблюдениями второй группы индикаторов равномерности использовалась метрика Евклида. Метод Варда, который позволяет выделять кластеры так, чтобы минимизировать внутригрупповую дисперсию, использовался как метод агломерации.
Различия в средних баллах по тесту между группами проверялись с помощью критерия Краскела-Уоллиса, а попарные различия – с помощью рангового критерия Вилкоксона с поправкой Бонферрони на множественные сравнения. Решение использовать непараметрические методы было основано на том, что требования для использования однофакторного дисперсионного анализа не выполнялись во всей строгости. Проверка равенства распределения учащихся по полу в кластерах проверялась с помощью двухпропорционального z-теста.
Предварительно все количественные переменные, включенные в анализ, были стандартизированы со средним 0 и стандартным отклонением 1.
Анализ был проведен с использованием пакета stats (версия 4.2.2) и rstatix (версия 0.7.2.) в среде программирования R (версия 4.2.2).
Результаты
Для более однозначной интерпретации результатов обе группы индикаторов анализировались отдельно.
Этап 1. Выделение групп учащихся с использованием индикаторов равномерности
На рис. 1 представлена дендрограмма, полученная по итогам кластерного анализа для группы индикаторов равномерности.
Рис. 1. Дендрограмма иерархического кластерного анализа
На основании баланса расстояний было выбрано решение из шести кластеров.
В табл. 2 представлены средние кластеров.
Таблица 2. Средние кластеров
|
Кластер |
Число наблюдений |
Время (мин) |
Всплески |
|||||
|
Текст |
Задания (1 часть) |
Задания (2 часть) |
Быстрые (1 часть) |
Медленные (1 часть) |
Быстрые (2 часть) |
Медленные (2 часть) |
||
|
1 |
482 |
5,60 |
5,50 |
5,42 |
1,43 |
0,21 |
0,46 |
0,38 |
|
2 |
536 |
5,96 |
8,92 |
6,09 |
0,24 |
1,37 |
0,77 |
0,69 |
|
3 |
294 |
6,46 |
6,14 |
5,58 |
0,00 |
0,01 |
0,25 |
0,17 |
|
4 |
554 |
8,55 |
8,43 |
8,89 |
0,28 |
0,95 |
0,09 |
2,44 |
|
5 |
95 |
2,99 |
5,63 |
2,42 |
2,52 |
0,43 |
6,71 |
0,20 |
|
6 |
207 |
6,64 |
14,41 |
9,29 |
0,24 |
3,80 |
0,57 |
3,17 |
На рис. 2 показано, как распределены предметные результаты оценивания чтения (z-баллы) по тесту по кластерам.
Рис. 2. Распределение тестовых баллов учащихся по кластерам, выделенным по индикаторам равномерности
Критерий Краскела-Уоллиса показал наличие статистически значимых различий в тестовых баллах между группами (Хи-квадрат=246,78, df=5, p-value<0,001). Результаты попарного сравнения не выявили различий в тестовых баллах только между кластерами 1 и 3 (p=0,437), 2 и 6 (p=0,198) (рис. 3).
Рис. 3. График 95%-доверительных интервалов средних баллов в кластерах, выделенных с помощью индикаторов равномерности
В табл. 3 показано, как распределились наблюдения по полу. Оценивание кластеров с привлечением информации о поле учеников проводилось, поскольку в контексте изучения индивидуальных особенностей ранее было показано, что мальчики более нетерпеливы, нуждаются в смене деятельности, активном характере действий [Шешукова, 2008], они также склонны оценивать свои интеллектуальные качества и успехи в учебной деятельности выше, чем девочки [Талакова, 2012]. Например, в PIRLS-2018, несмотря на повышения качества чтения среди мальчиков по сравнению с предыдущими исследованиями, девочки все же показали более высокие результаты.
Эти же выводы подтвердили и российские исследования. Например, показано, что «мальчики 9-10 лет превосходят девочек технически», то есть читают быстрее, однако уступают в понимании прочитанного [Крещенко, 2011].
Таблица 3. Доля девочек в кластерах, выделенных с помощью индикаторов равномерности
|
Кластер |
Доля девочек |
|
1 |
0,49 |
|
2 |
0,52 |
|
3 |
0,59 |
|
4 |
0,54 |
|
5 |
0,33 |
|
6 |
0,61 |
В кластерах 3 и 6 девочек статистически значимо больше, чем мальчиков (хи-квадрат=4,40, df=1, p<0,05 и хи-квадрат=15,7, df=1, p<0,05), а в кластере 5 – наоборот, мальчиков статистически значимо больше (хи-квадрат=6,05, df=1, p<0,05). В остальных кластерах нет различий по распределению по полу.
Этап 2. Выделение групп учащихся с использованием индикаторов линейности
На рис. 4 представлена дендрограмма, полученная по итогам кластерного анализа для группы индикаторов линейности.
Рис. 4. Дендрограмма иерархического кластерного анализа, проведенного на индикаторах линейности
Для анализа переменных линейности было выбрано решение из четырех кластеров. В табл. 4 представлены средние кластеров.
Таблица 5. Средние кластеров по индикаторам линейности
|
Кластер |
Число наблюдений |
Нет нелинейных переходов по заданиям |
От 1 до 5 нелинейных переходов по заданиям |
6 и более нелинейных переходов по заданиям |
Нет возвратов к тексту |
1 возврат к тексту |
2 и более возвратов к тексту |
|
1 |
378 |
0 |
1 |
0 |
0 |
0,61 |
0,39 |
|
2 |
573 |
0 |
1 |
0 |
1 |
0 |
0 |
|
3 |
460 |
0,14 |
0 |
0,85 |
0,3 |
0,3 |
0,40 |
|
4 |
757 |
1 |
0 |
0 |
1 |
0 |
0 |
На боксплот-графике (рис. 5) показано, как распределены оценки в тесте чтения (z-баллы) по кластерам.
Рис. 5. Распределение тестовых баллов учащихся по кластерам, выделенным по индикаторам линейности
Критерий Краскела-Уоллиса показал наличие статистически значимых различий между группами (Хи-квадрат=10,05, df=3, p-value<0,05). Результаты попарного сравнения выявили различия в тестовых баллах только между кластерами 2 и 3 (p=0,018<0,05) (рис. 3). На уровне тенденции (p<0,1) обнаружены различия в тестовых баллах в кластерах 1 и 2, а также 3 и 4 (p=0,078).
Рис. 6. График 95%-доверительных интервалов средних баллов в кластерах, выделенных с помощью индикаторов линейности
В табл. 6 показано, как распределились наблюдения по полу.
Таблица 5. Доля девочек в кластерах, выделенных с помощью индикаторов линейности
|
Кластер |
Доля девочек |
|
1 |
0,51 |
|
2 |
0,53 |
|
3 |
0,52 |
|
4 |
0,54 |
Анализ пропорций показал, что нет статистически значимых различий в распределении по полу в четырех кластерах.
Интерпретация результатов
На основании анализа кластеров получены следующие результаты.
Кластеры равномерности прохождения
При анализе групп учащихся в контексте линейности переходов были выделены 6 групп.
Первый кластер характеризуется относительно быстрым и равномерным прохождением и наличием «быстрых всплесков» в первой половине теста: учащиеся не испытывали затруднения при взаимодействии с тестом, легко отвечали на начальные, сравнительно менее трудные задания.
Второй кластер характеризуется длительным прохождением и «медленными всплесками» именно в первой половине теста. Можно предположить, что у этих детей возникли затруднения с первоначальным вхождением в оценивание, адаптацией к тому, как выполнять тест.
Третий кластер отличается очень высокой степенью равномерности: в нем собраны учащиеся с меньшим количеством «быстрых» и «медленных» всплесков.
В четвертом кластере при относительно длительном времени выполнения трех частей теста замедление произошло во второй половине теста (возможная интерпретация: усталость).
Пятый кластер включает в себя респондентов с очень маленьким временем выполнения трех частей теста и наибольшим количеством «быстрых всплесков» – это «кликеры», учащиеся, которые не включились в работу над заданием и демонстрировали низкую вовлеченность, отвечали формально, оценивать их читательские умения по результатам теста нельзя, поскольку они не приняли учебную задачу.
Шестой кластер – это учащиеся с максимальным временем работы и «медленными всплесками» в 1 и 2 половинах теста, это также учащиеся с самыми низкими (не считая «кликеров») результатами.
Кластеры линейности
При анализе групп респондентов по индикаторам линейности переходов были выделены 4 группы по переходам. Наиболее интересные кластеры 1, 2 и 4. Кластер 4 – это полностью линейный способ выполнения заданий. Кластер 2 описывает паттерн с небольшим количеством переходов по заданиям, но полным отсутствием возвратов к тексту. В кластере 1 собраны учащиеся, которые относительно умеренно перемещались по заданиям и при этом возвращались к тексту. Кластер включает всех остальных учащихся – с достаточно большим количеством переходов по разным категориям («стихийные серферы» – возможно, этим учащимся было трудно разобраться в интерфейсе или в заданиях и их переходы говорят о более или менее неструктурированных попытках сориентироваться с помощью переходов на доступные страницы).
Мы ожидали, что отсутствие возвратов к тексту будет связано с более низкими предметными результатами, и, наоборот, активная работа с тестовыми заданиями и возвращения к тексту будут связаны с более высоким баллом. Однако полностью линейное прохождение в целом связано с положительными результатами, а у учащихся, возвращавшихся к тексту, в среднем тестовый балл ниже, чем у тех, кто не возвращался.
Выводы и обсуждение результатов
В исследовании были предложены индикаторы тестового поведения, которые могут обогатить обратную связь по результатам предметного оценивания. На примере теста читательской грамотности мы показали, как индикаторы равномерности и индикаторы линейности прохождения теста позволяют сгруппировать учащихся в интерпретируемые кластеры, что является подтверждением гипотезы 1.
Исследование показало наличие дефицитов метапредметных умений (что соответствует возрасту детей). Так, комбинация индикаторов равномерности может быть надежным критерием для выявления «кликеров» – учащихся, предметные результаты которых нет смысла сообщать, поскольку они не выполняли задания.
В начальной школе значительное количество учащихся не возвращаются к тексту, а если возвращаются, то это не связано с более высокими предметными результатами. Наша гипотеза 2, таким образом, не находит подтверждения.
Неожиданным оказался результат о том, что полностью линейное прохождение теста не связано с более низкими предметными результатами. Возможно, в начальной школе сравнительно небольшой объем текста позволяет успешно выполнять задания, опираясь только на однократное прочтение. Однако отсутствие привычки возвращаться к тексту может создать трудности при чтении в средней школе. У тех учащихся, кто возвращались к тексту, средний тестовый балл ниже, что контринтуитивно. Вероятно, в большинстве случаев это были возвраты, не повышающие эффективность чтения.
Более длительное время выполнения теста может говорить не о вдумчивости, а о трудностях, причем значимо более низкие результаты выявлены и у тех, кто «долго сидел» на первой половине заданий (предположительно: трудности с ориентацией в заданиях) и на второй половине теста (предположительно: усталость, демотивация). И хотя предметные результаты у этих двух кластеров одинаково низкие, работа по преодолению их метакогнитивных трудностей, скорее всего, должна различаться.
Респонденты с самым большим количеством нелинейных переходов («серферы») характеризуются также самым низким тестовым баллом. Это группа риска среди испытуемых. Даже если их активная навигация по тесту вызвана осознанием собственного неуспеха в чтении, то их когнитивные стратегии по адаптации тестового поведения и изменению тестовой траектории не связаны с повышением результатов. Причиной полной линейности выполнения теста или «серфинга» может быть как недостаточный опыт работы с цифровыми инструментами, так и отсутствие осознанной стратегии выполнения теста.
Перспективы исследования
Важной задачей следующего этапа авторы считают исследования стабильности тестового поведения (повторяются ли одни и те же паттерны у одних и тех же учащихся из теста в тест). Кроме того, очень важно посмотреть на функционирование предложенных индикаторов у учащихся разных возрастов. В этом исследовании также показаны некоторые гендерные различия в тестовом поведении учащихся, согласующиеся с результатами предыдущих исследований. В целом мы считаем важным продолжать поиски интерпретируемых индикаторов тестового поведения, которые могут описывать регуляторную сферу развития учащихся.
Ограничения и допущения исследования
У нас нет возможности жестко связать индикаторы тестового поведения со степенью сформированности метакогнитивных умений, мы можем только предполагать, что эти индикаторы можно интерпретировать в терминах метакогнитивных умений.
К ограничениям исследования относится также то, что мы стремились к упрощению сложных данных о поведении детей при выполнении тестов (например, нелинейные переходы по заданиям оценивались в целом по тесту, независимо от места заданий в тесте). Требуется дополнительная валидизация индикаторов тестового поведения, более детальная их оценка, прежде чем их можно будет рекомендовать как надежную меру, которая может лечь в основу педагогических интервенций.





