Навыки чтения первоклассников в России и Казахстане: кросс-культурное исследование

А.Е. Иванова; И.В. Антипкина; С.Д. Абишева; М.К. Абаева

doi:10.17759/pse.2022270509

Введение

Распространенность явления билингвизма в системе образования Казахстана порождает целый ряд вопросов. Наше исследование посвящено инструменту оценки навыков чтения первоклассников на входе в школу и его функционированию в двух культурах: русскоязычных школах города Алматы (Казахстан) и школах города Новосибирска (Россия).

Предшествующие крупномасштабные исследования навыков чтения казахстанских школьников проводились в рамках международных сравнительных исследований. Казахстан впервые участвовал в Международном исследовании качества чтения и понимания текста (Progress in International Reading Literacy Study in Primary Schools, PIRLS) в 2016 году, причем оценивание проводилось на русском и казахском языках на выборке 2983 учащихся с казахским языком обучения и 1942 — с русским. PIRLS — это независимое международное исследование читательской грамотности учащихся 4-х классов, которое проводит Международная ассоциация по оценке образовательных достижений IEA (International Association for the Evaluation of Educational Achievement) [Marsella, 2000]. По результатам PIRLS-2016 четвероклассники Казахстана заняли 27 место в рейтинге 50 стран (для сравнения, российские школьники заняли первое место в рейтинге PIRLS-2016), девочки показывали более высокие результаты, чем мальчики (как и в 48 из 50 стран-участниц), дети лучше работали с информационными, чем с литературными текстами [Нурланов, 2018]. На основании результатов исследования PIRLS-2016 был сделан вывод о том, что «казахстанские дети получают недостаточный опыт чтения литературных текстов» [Джумабаева, 2019]. В Международной программе по оценке образовательных достижений учащихся (Programme for International Student Assessment, PISA) 2018 года учащиеся Казахстана набрали в среднем 387 баллов по читательской грамотности, что является ниже среднего балла — 487 по странам ОЭСР [Schleicher, 2019].

Международные исследования навыков читательской грамотности PIRLS и PISA подняли в Казахстане интерес к вопросам развития навыков чтения у детей [Sarmurzin, 2021].

В рамках государственной программы полиязычия русский язык так же, как и казахский, и английский, является обязательным в школьных программах на весь период обучения (1—11 классы) вне зависимости от языка обучения. Из 5807 школ республики 1885 представляют собой школы с русским языком обучения. 2147 из названного общего количества школ относятся к школам со смешанными языками обучения. Для получения объективных данных и возможности сопоставления школ с двумя языковыми базами было принято решение проводить мониторинг формирования читательских навыков в два этапа.

1 этап: исследовать с помощью инструмента «Старт» читательские навыки у учащихся 1 класса школ с русским языком обучения г. Алматы, поскольку в настоящее время в литературе есть информация только об исследованиях четвероклассников (PIRLS) и пятнадцатилетних учащихся (PISA) Казахстана.

2 этап: разработать казахскую версию инструмента исследования «СТАРТ/БАСТАУ» и провести тестирование по сформированности навыков чтения у учащихся начальных школ с казахским языком обучения г. Алматы.

В данной статье представлены результаты первого этапа исследования. Для оценивания первоклассников мы использовали шкалу чтения из инструмента «Старт» [Иванова, 2019], который был создан на базе локализованной русскоязычной версии британского инструмента iPIPS [Tymms, 1999], также использующегося, например, в Австралии, Бразилии, Германии, ЮАР [Bartholo, 2020; Niklas, 2013]. Однако для использования русскоязычного инструмента в школах с русским языком обучения Казахстана необходимо доказать, что в условиях билингвальной культуры Казахстана все задания русскоязычной шкалы функционируют так же, как в русскоязычной среде российских школ.

Обзор литературы: мировой опыт исследований сопоставимости инструментов оценивания

Культурой называют «разделяемые членами группы выученные смыслы и паттерны поведения, которые передаются через социальную активность с целью социального приспособления, роста и развития» [Marsella, 2000]. В тестах способностей от эффектов культуры не свободен ни один аспект оценивания: содержание теста, стимульные материалы, построение фраз, содержание инструкций, поведение участников во время тестирования и экспертов при назначении баллов (если это предусмотрено). Таким образом, любой тест содержит в себе культурную специфику. Выяснение того, является ли эта специфика препятствием для справедливого оценивания людей из другой культурной группы, — задача исследований эквивалентности.

Ряд примеров показывает наличие проблем с сопоставимостью результатов для отдельных стран и конструктов в крупнейших международных исследованиях [Cheema, 2019; Ercikan, 2020; Ivanova, 2018; Oliveri, 2014]. Однако даже если в разных странах говорят на одном языке и тест, используемый в этих странах, не нуждается в переводе, это не устраняет риски культурных различий в результатах оценивания [Stubbe, 2011]. Например, англоязычная версия инструмента iPIPS адаптировалась для использования в Австралии, несмотря на общий английский язык в этих двух странах, поскольку анализ функционирования заданий по чтению для учащихся австралийских школ по сравнению с аборигенным населением Австралии [Wildy, 2008] показал различающееся функционирование отдельных заданий не в пользу учащихся из группы аборигенов Австралии. В рамках того же международного проекта iPIPS (лежащего в основе инструмента «Старт») проводились исследования сопоставимости версий инструмента на русском и английском языках для математической части теста [Ivanova, 2018], в котором были выявлены различия в функционировании нескольких заданий, из-за чего эти задания были исключены из вторичных анализов.

Кросс-культурная эквивалентность измерений исследуется на трех уровнях [Van de Vijver, 1997]:

уровне конструкта (что измеряется),

уровне инструмента измерений (чем измеряется),

уровне шкалы измерений (в каких единицах измеряется).

В нашем исследовании для двух культур — России и Казахстана — использовались один и тот же русскоязычный инструмент и одинаковые процедуры психометрического анализа, поэтому уровни конструкта и шкалы идентичны; это позволяет сосредоточить анализ сопоставимости на уровне инструмента.

Три источника возможных межкультурных искажений (bias) в результатах применения инструмента [He, 2012] это:

1) Различия в выборках оценивания. Например, выборки могут быть несопоставимыми, если в одной стране для учащихся с ограниченными возможностями здоровья предусмотрены отдельные школы, в то время как в другой стране — применяется инклюзивный подход.

2) Различия в инструментах. Например, в формулировках заданий могут быть использованы реалии, хорошо знакомые в одной культуре, но экзотические для другой.

3) Различия в процедурах сбора данных. Классическим примером таких процедурных нарушений было тестирование детей из Нигерии матрицами Ровена «на порогах домов, в прихожих, под деревьями» с помощью необученных сотрудников, что сильно отличалось от условий, в которых оценивали детей в европейских странах [Fahrmeier, 1975].

В нашем исследовании условия сбора данных были стандартизированы единой компьютерной средой, озвучкой инструмента профессиональным диктором (интервьюерам не требовалось зачитывать инструкции) и одинаковыми процедурами обучения интервьюеров. Выборки детей были сопоставимы по возрасту и статусу: дети 6—7 лет, впервые пришедшие в школу. Таким образом, цель исследования — сделать обоснованный вывод о пригодности теста для использования в двух культурах (Россия и Казахстан) ради возможности напрямую сопоставлять полученные в обеих странах результаты. Задача исследования: провести статистический анализ инвариантности результатов, включая DIF (differential item functioning, различающееся функционирование заданий).

Материалы и методы

Инструмент. «Старт» представляет собой компьютеризированный инструмент оценки навыков чтения с полуадаптивным алгоритмом предъявления заданий [Иванова, 2019], поэтому, если ребенок совершает определенное количество ошибок, оценивание прекращается, чтобы не демотивировать ребенка. Задания озвучены профессиональным диктором, что значительно стандартизирует условия оценивания. Проведение оценивания предполагает индивидуальные сессии ребенка со специально обученным интервьюером. Шкала чтения включает в себя 35 заданий и охватывает следующие области:

* распознавание букв русского алфавита — на экране по одной предъявляются буквы, голос диктора просит ребенка назвать букву. Правильным ответом считается название буквы в официальном и разговорном варианте (например, «эм» и «мэ» будут правильными ответами для «М») или обозначение звука («м-м»). Неправильным ответом считается называние предмета на эту букву (например, если на «М» ребенок говорит: «Мяч»).

чтение отдельных слов (чтение-декодирование),

чтение короткой истории («механическое» чтение),

смысловое чтение. В этой части инструмента ребенок читает текст, в отдельных местах которого ему предлагают выбрать одно из трех слов, наиболее подходящее по контексту.

Инструмент «Старт» стандартизирован с использованием дихотомической модели Раша [Иванова, 2019; Иванова, 2020].

Выборка. Оценивание навыков чтения первоклассников проводилось инструментом «Старт» в октябре 2019 года, когда дети только пришли в школы. Выборка русскоязычных школ города Алматы составила 1102 ребенка. Выборка не является репрезентативной. Выборка первоклассников в Новосибирске составила 2247 учеников. Новосибирск был выбран как регион с сопоставимым по отношению к Алматы географическим положением, индустриальным развитием и численностью населения. Выборка учеников в Новосибирске была рандомизирована и стратифицирована по типу школы (обычная СОШ или школа со статусом «гимназия», «лицей», «школа с углубленным изучением отдельных предметов») и по району города.

Аналитический подход. Исследование сопоставимости функционирования инструмента в двух культурных средах (России и Казахстане) проводилось в два этапа.

На первом этапе проводился психометрический анализ инструмента на выборке русскоязычных школ Алматы и Новосибирска по отдельности. Анализ проводился с использованием дихотомической модели Раша. Базовая дихотомическая модель Раша применяется в разработке оценочных инструментов, состоящих из заданий дихотомического типа, где есть один правильный и один неправильный ответ. Для оценки надежности шкал используются показатели классической надежности альфа Кронбаха и Раш-надежности (Separation Reliability).

На втором этапе проводился анализ различного функционирования заданий. Различное функционирование задания (differential item functioning, DIF) фиксируется в том случае, когда испытуемые с одинаковым уровнем подготовленности имеют различные шансы выполнить задание верно [28; 29]. Иначе говоря, наличие DIF подразумевает, что задание функционирует неодинаково в двух исследуемых группах в пользу одной из этих групп несмотря на то, что эти учащиеся имеют один и тот же итоговый балл. Принадлежность детей к разным культурным бэкграундам может быть источником различающегося функционирования заданий, даже если разработка инструмента следовала всем необходимым процедурам в соответствии с международными стандартами [13; 20; 21].

Анализ выявленных с помощью DIF-анализа различий способствует корректной интерпретации результатов оценивания и помогает доработке инструмента для того, чтобы он стал более справедливым ко всем группам учащихся.

Результаты

Психометрический анализ данных обеих версий был проведен сначала отдельно для каждой национальной выборки, а затем на объединенной выборке с целью выяснить, работают ли задания инструмента одинаковым образом для учащихся из России и Казахстана при учете их уровня подготовленности по чтению.

В табл. 1 приведены характеристики заданий для каждой из двух выборок по отдельности. Характеристики включают в себя трудность заданий (1, 2 колонки), ошибка оценки трудности (3, 4 колонки), статистики согласия (5, 6 колонки), корреляцию ответа на задание с уровнем подготовленности испытуемого (дискриминативность, 7, 8 колонки), а также название заданий. Статистики согласия представляют собой среднеквадратичные отклонения эмпирических значений от ожидаемых моделью значений для каждого задания, в данной таблице мы используем одну — взвешенную статистику согласия (Infit MNSQ). Как видно из табл. 1, средние значения статистик согласия лежат в пределах рекомендуемых специалистами значений [0,6; 1,4] для всех заданий, кроме двух первых (на знание букв) для новосибирской выборки. Ошибка измерения несколько выше для заданий для выборки детей из Казахстана. Корреляция ответа на задание с уровнем подготовленности высокая и положительная.

Преимуществом Раш-моделей является возможность визуализировать характеристики заданий и респондентов с помощью так называемых «карт переменных». На рис. 1 и 2 вертикальная линия представляет собой континуум навыков чтения (и, соответственно, трудностей заданий по чтению), измеренных в логитах. Самые легкие задания и наименее подготовленные респонденты расположены внизу континуума, а в верхней части находятся самые трудные задания и самые подготовленные респонденты.

Можно заметить, что для обеих выборок характерен сдвиг в сторону высоких баллов для большей части детей, т.е. для большинства учащихся тест оказался достаточно легким. Также мы можем отметить, что в целом иерархия заданий по трудности для двух выборок практически идентична. В нижней части обеих карт расположены задания на чтение отдельных слов — это короткие частотные слова, графическую оболочку которых многие дети научаются распознавать (запоминают как картинку) еще до того, как полностью изучают буквы и осваивают принцип чтений как декодирования. В средней части карт расположена самая большая группа заданий, включающих в себя распознавание букв и чтение небольшой истории, которое соответствует навыку механического чтения (чтения-декодирования, по другой терминологической традиции). В верхней части карты расположились наиболее трудные задания на чтение с пониманием.

В табл. 2 представлены общие психометрические показатели надежности шкал чтения для эмпирических данных, полученных на выборках учеников России и Казахстана.

Для обеих версий инструмента характерны высокие показатели надежности — классической альфы Кронбаха и Раш-надежности (Person Reliability), а также достаточно высокий общий уровень чувствительности шкалы (Person Separation), позволяющий различать не менее трех групп испытуемых, выделенных на основании уровня навыка чтения.

Хорошие психометрические качества шкалы чтения отдельно на выборках учащихся из России и Казахстана позволяют построить единую шкалу результатов тестирования первоклассников из двух стран и провести анализ различий в функционировании заданий (DIF-анализ).

В рамках данного исследования DIF-анализ был проведен с помощью метода логистической регрессии. Метод логистической регрессии [Belzak, 2020; Zumbo, 1999] позволяет обнаружить как однородный (когда статистическая связь между ответом на задание и группирующей переменной постоянна для всех уровней соответствующей переменной), так и неоднородный DIF (когда статистическая связь между ответом на задание и группирующей переменной меняется для разных уровней соответствующей переменной). Метод заключается в статистическом моделировании вероятности верно ответить на задание в зависимости от последовательно вводимых переменных: 1) группирующей переменной «страна» (в нашем случае), 2) суммы баллов по тесту и 3) взаимодействия между первой и второй переменными. В данной работе для анализа DIF было использовано программное обеспечение R, статистический пакет DIFR [Magis, 2020]. Статистическая значимость параметров моделей оценивалась с помощью LR-теста (теста отношения правдоподобия (Likelihood Ratio Test)).

В методе логистической регрессии задание идентифицировалось как демонстрирующее DIF, когда последовательное добавление переменной страны и переменной взаимодействия дает значимое улучшение модели по сравнению с моделью, которая включает только переменную с суммой баллов [Woitschach, 2019].

Важно отметить, что различия для групп испытуемых могут быть статистически значимыми, но слишком маленькими, чтобы иметь какое-либо влияние на результаты оценивания. Поэтому исследователям рекомендуется использовать комбинацию показателей — статистическую значимость индикаторов DIF и практическую значимость (или размер эффекта), чтобы принять взвешенное решение о том, что делать, если выявлено различное функционирование заданий.

В данной работе мы используем комбинацию показателей значимости статистики теста отношения правдоподобия (Likelihood Ratio Test) и размера эффекта DIF, представленной в двух вариантах — Зумбо-Томас, а также Джодоин-Гирл [Magis, 2020]. Чтобы задание было классифицировано как демонстрирующее DIF, критерий LR-теста должен иметь значимость, меньшую или равную 0,01, а также размер эффекта должен быть достаточно большим по крайней мере по одному из указанных выше критериев. Согласно критерию Зумбо-Томас можно классифицировать DIF следующим образом: пренебрежимо малый DIF типа А (изменение значений R-квадрат двух вложенных моделей ниже 0,13), умеренный DIF типа B (изменение значений R-квадрат двух вложенных моделей от 0,13 до 0,26) и большой DIF типа C (изменение значений R-квадрат двух вложенных моделей выше 0,26). Согласно более строгому критерию Джодоин и Гирл DIF можно классифицировать DIF следующим образом: пренебрежимо малый DIF типа А (изменение значений R-квадрат двух вложенных моделей ниже 0,035), умеренный DIF типа B (изменение значений R-квадрат двух вложенных моделей от 0,035 до 0,07) и большой DIF типа C (изменение значений R-квадрат двух вложенных моделей выше 0,07). В табл. 3 приведены результаты DIF-анализа с помощью метода логистической регрессии.

Таким образом, проведенный анализ показал, что, несмотря на статистическую значимость LR-теста для ряда заданий по чтению, размер эффекта DIF настолько мал, что им можно пренебречь для практического использования результатов. Иными словами, для учащихся из России и Казахстана все задания теста по чтению работают скорее одинаково.

Таблица 1

Характеристики заданий для выборки учеников
из г. Новосибирска, Россия и г. Алматы, Казахстан

Трудность задания		Взвешенная статистика согласия		Наименование задания
Рос.	Каз.	Рос.	Каз.	Наименование задания
-1,37	-1,92	1,53	1,25	Буква «К»
-1,37	-1,65	1,45	1,36	Буква «Л»
-1,02	-1,35	1,13	1,22	Буква «e»
-1,15	-1,43	1,24	1,23	Буква «Ж»
-1,36	-,95	1,15	1,32	Буква «З»
-,33	-,89	1,36	1,26	Буква «Ш»
-,37	-,31	1,11	1,16	Буква «Ц»
-,71	-,60	1,06	1,21	Буква «ю»
-,05	-,09	1,25	1,24	Буква «ь»
-2,44	-2,24	,92	1,05	Слово «мяч»
-3,15	-3,11	1,06	1,27	Слово «утка»
-2,82	-3,38	,90	,95	Слово «щенок»
-2,66	-2,75	,80	,93	Слово «рука»
-2,99	-3,26	,81	,81	Слово «дом»
-1,20	-,63	1,00	1,17	Слово «конь»
-1,10	-,77	,95	1,00	Слово «корабль»
-1,82	-1,65	,81	,86	Слово «кот»
-,99	-,81	,93	,94	Слово «кролик»
,22	-,02	,76	,54	Мех. чтение 1
,32	,05	,76	,52	Мех. чтение 2
,47	,13	,77	,52	Мех. чтение 3
1,22	1,57	,87	,96	Смысловая ловушка 1
1,06	1,41	,74	,88	Смысловая ловушка 2
1,20	1,35	,71	,82	Смысловая ловушка 3
1,24	1,39	,76	,87	Смысловая ловушка 4
1,75	2,16	,90	1,01	Смысловая ловушка 5
1,76	2,00	,92	1,00	Смысловая ловушка 6
,94	,74	,62	,67	Смысловая ловушка 7
2,29	2,08	1,09	1,03	Смысловая ловушка 8
1,95	2,01	1,00	,97	Смысловая ловушка 9
2,50	2,44	1,03	1,00	Смысловая ловушка 10
3,40	3,36	1,16	1,15	Смысловая ловушка 11
1,73	1,59	,91	,93	Смысловая ловушка 12
2,95	3,33	1,24	1,18	Смысловая ловушка 13
1,91	2,16	,93	,94	Смысловая ловушка 14

Таблица 2

Результаты анализа надежности эмпирических данных

Показатели

Надежность альфа Кронбаха

Раш-надежность (Person Reliability)

Индекс чувствительности теста

(Person Separation)

Россия

0,96

0,91

3,17

Казахстан

0,94

0,89

2,89

Таблица 3

Анализ различного функционирования заданий, метод логистической регрессии

Задание	LR-тест	P-value	R^2	Размер DIF (Зумбо-Томас)	Размер DIF (Джодоин-Гирл)
Буква «К»	24,36	0,00 ***	0,01	A	A
Буква «Л»	7,91	0,02 *	0,00	A	A
Буква «e»	7,14	0,03 *	0,00	A	A
Буква «З»	6,78	0,03 *	0,00	A	A
Буква «Ш»	22,19	0,00***	0,00	A	A
Слово «мяч»	14,57	0,01 ***	0,00	A	A
Слово «утка»	11,75	0,00 **	0,01	A	A
Слово «щенок»	7,71	0,02 *	0,00	A	A
Слово «конь»	18,64	0,00 ***	0,00	A	A
Слово «корабль»	6,99	0,03*	0,00	A	A
Мех. чтение 1	24,56	0,00 ***	0,00	A	A
Мех. чтение 2	29,62	0,00***	0,00	A	A
Мех. чтение 3	35,69	0,00 ***	0,00	A	A
Смысловая ловушка 1	17,62	0,00 ***	0,00	A	A
Смысловая ловушка 2	26,22	0,00 ***	0,00	A	A
Смысловая ловушка 3	9,85	0,01 **	0,00	A	A
Смысловая ловушка 4	8,82	0,01 *	0,00	A	A
Смысловая ловушка 5	24,47	0,00 ***	0,00	A	A
Смысловая ловушка 6	9,26	0,01 **	0,00	A	A
Смысловая ловушка 13	18,33	0,00 ***	0,00	A	A
Смысловая ловушка 14	10,32	0,01 **	0,00	A	A

Примечание. p: 0 ‘***’, 0.001 ‘**’, 0.01 ‘*’.

Рис. 1. Карта переменных. Россия

Рис. 2. Карта переменных. Казахстан

Основные итоги

Результаты любого исследования, включающего кросс-культурную оценку, можно корректно сравнивать, если мы готовы предположить, что аналогичные баллы участников тестирования в двух странах означают аналогичный уровень владения проверяемым навыком.

Данное исследование было посвящено возможности напрямую сопоставлять результаты теста чтения, полученные с помощью одного и того же теста в двух культурах: русскоязычных школах города Алматы (Казахстан) и школах города Новосибирска (Россия). Проведенный нами психометрический анализ показал, что инструмент оценки ранних навыков чтения на входе в школе хорошо функционирует не только в среде русскоязычных детей в России, но и в среде русскоязычных детей в Казахстане. Шкала демонстрирует аналогичные показатели для выборок детей в двух стран, включая согласие данных с моделью измерения, показатели надежности, распределение трудностей заданий и уровней подготовленности учащихся.

Мы показали, что эффект культуры не вмешивается в трудности заданий теста чтения для первоклассников в двух странах. Это открывает перспективы международных исследований в Казахстане с помощью русскоязычных инструментов, уже стандартизированных на российских выборках.

При этом важно обратить внимание, что российские и казахстанские дети одинаково успешно справились с большинством заданий теста на чтение. Возникает вопрос: если на старте школы дети из России и Казахстана обладают сопоставимыми навыками чтения на русском языке, почему к концу четвертого класса возникает разрыв в навыках, фиксируемый в PIRLS? Лонгитюдное исследование в начальных школах Казахстана с русским языком обучения с использованием инструментов с доказанными психометрическими свойствами может помочь ответить на этот вопрос.

В будущем планируется адаптация инструмента «Старт» на казахский язык с целью проведения сопоставительных исследований образовательных достижений школьников из школ с русским и казахским языками обучения.

Навыки чтения первоклассников в России и Казахстане: кросс-культурное исследование

Резюме

Общая информация

Полный текст

Введение

Материалы и методы

Результаты

Основные итоги

Литература

Информация об авторах

Метрики

Просмотров web

Скачиваний PDF

Всего