Экспериментальная психология
2013. Том 6. № 2. С. 120–128
ISSN: 2072-7593 / 2311-7036 (online)
Расчет значений сложностей заданий для адаптивного теста интеллекта
Аннотация
Общая информация
Ключевые слова: тест интеллекта, адаптивный тест, генерация тестов, модель Раша, Item Response Theory, метод Ньютона-Рафсона
Рубрика издания: Математическая психология
Тип материала: научная статья
Для цитаты: Войтов В.К. Расчет значений сложностей заданий для адаптивного теста интеллекта // Экспериментальная психология. 2013. Том 6. № 2. С. 120–128.
Полный текст
В настоящее время адаптивные тесты активно используются в психологии и педагогике для решения задач диагностики и контроля качества обучения. Порядок заданий в тестах данного типа определяется результатами тестирования испытуемых, полученными при выполнении предшествующих заданий.
Программная реализация содержательных адаптивных тестов является весьма трудоемкой процедурой и на практике может быть выполнена только с использованием современных компьютерных технологий. На факультете информационных технологий МГППУ была осуществлена программная реализация адаптивного теста оценки интеллекта, предложенного ранее профессорами Хейнцем Холлингом и Джонасом Бертлингом из университета г. Мюнстер в Германии в 2009 году.
Адаптивный тест оценки интеллекта представляет собой набор заданий, по результатам выполнения которого осуществляется оценка интеллектуальных способностей тестируемого субъекта. Проверка целостности теста заключается не только в оценке взаимосвязи заданий и их принадлежности общему фактору (в данном случае – измерению интеллекта), но также в расчете трудности тестовых заданий на репрезентативной выборке испытуемых. В результате тестирования отобранной на факультете информационных технологий МГППУ группы студентов были получены данные для расчета трудностей заданий теста. Проведенная апробация теста является первым этапом его оценки, однако несмотря на приближенный характер первичных данных, их, тем не менее, как и вновь полученные результаты можно использовать для дальнейшего уточнения значений трудностей заданий, так как они сохраняются в базе данных.
Необходимые программные средства часто приходится разрабатывать заново, причём методы и технические решения, используемые для этого программистами, представляют самостоятельный научный и практический интерес.
Использовавшийся в работе тест принадлежит к группе невербальных тестов индуктивного мышления, в котором испытуемый должен вначале обнаружить правила, на основании которых организовано тестовое задание, а затем применить это правило для выбора надлежащего ответа. Наиболее известными тестами такого рода являются тесты Равена, тестовое задание одного из которых (АРМ) приведено на рисунке.
Рисунок. Задание теста АРМ Равена
Чтобы правильно решить представленное на рисунке задание, испытуемому необходимо обнаружить 3 правила.
Правило А: каждый ряд содержит три геометрических фигуры (ромб, квадрат и треугольник), распределенных между тремя колонками.
Правило Б: каждый ряд содержит три линии с разными текстурами (темная, штрихованная и светлая), распределенные между тремя колонками.
Правило В: ориентация линий (вертикальная, горизонтальная или наклонная) одинакова внутри каждого ряда, но различается для разных рядов.
На основе этих правил легко найти верный ответ для пропущенной в нижнем правом углу фигуры, это ответ № 5.
Тесты индуктивного мышления, как показали исследования, являются эффективным методом оценки общего интеллекта, потому широко применяются как исследователями, так и практиками. Однако порой возникает задача предъявлять тест испытуемым много раз, при этом повторение одних и тех же заданий является нежелательной процедурой ввиду возникающего вследствие этого научения. Более того, тест, включающий фиксированный набор заданий, быстро становится общеизвестным, что делает возможным свободный доступ к нему тестируемых и приводит к потенциальному искажению результатов.
Выходом из описанной ситуации стала бы разработка теста с конструктивной особенностью возможности создания по ходу тестирования новых заданий из фиксированного набора элементов (заданий) с известным заранее уровнем сложности, определяемым собственно набором заданий. Дополнительным преимуществом подобного теста была бы возможность адаптивного тестирования: предъявление испытуемому заданий того или иного уровня сложности находилось бы в прямой зависимости от успешности выполнения им предшествующего задания, обеспечивая таким образом достижение высокой точности оценки способностей тестируемого при оптимальном числе предъявленных заданий. Все вышеизложенные условия были включены в разработанный Холлингом и Бертлингом тест, апробации которого и было посвящено настоящее исследование.
Тест состоит из динамически формируемых заданий. Число различных (отличающихся видом) заданий составляет несколько тысяч. При вызове теста испытуемому предлагаются несколько заданий (их число может установить администратор системы). Каждое задание генерируется с использованием датчиков случайных чисел. Задания содержат три фигуры A, B и C, которые имеют дополнительные детали в виде, например, окружности или диска. Первые две фигуры одинаковы. Вторая фигура должна отличаться от первой положением в пространстве и положением дополнительных деталей.
Третья фигура отличается по форме от первых двух фигур. Она имеет те же детали, что и первые фигуры, но обычно расположенные в других местах. Тестируемый должен определить закономерность в изменении второй фигуры (фигура B) по отношению к первой (фигура A) и в соответствии с ней выбрать из предъявленных ниже восьми фигур ту, которая получается из третьей фигуры (фигура С) при учёте указанных выше закономерностей. Варианты выбора обозначены маленькими латинскими буквами от «a» до «i». Буква «i» соответствует случаю, когда среди восьми предложенных решений (от «a» до «h») нет подходящего.
В общей сложности фигура A может принимать 4800 различных видов. Для каждого такого вида фигура B может принимать 175 видов. Фигура C для каждого сочетания вида фигур A и B может иметь 600 различных видов. Поэтому число возможных различных видов фигур достаточно велико. В тесте все эти виды генерируются с использованием датчиков случайных чисел. Таким образом, испытуемым невозможно запомнить генерируемые конфигурации и нужные ответы.
Будем представлять трудность задания как сумму трудностей, задаваемых с помощью изменения ряда элементов предмета или фигуры, их добавления или устранения. Всего насчитывается 14 видов такого рода модификаций. Разработано два варианта теста: в первом реализованы все возможные виды модификации фигуры, во втором варианте задания основываются на применении 10 видов модификаций, однако их число не оказывает влияния на построение единого алгоритма математического вычисления трудностей заданий. Расчет значений трудностей для всех заданий кажется весьма трудоемкой процедурой лишь на первый взгляд, поскольку допущение об одинаковой трудности многих заданий позволяет успешно операционализировать и систематизировать алгоритм вычисления.
Для расчета сложности задания учитывались следующие соображения. Тест состоит из динамически формируемых заданий. Число различных (отличающихся видом) заданий составляет несколько тысяч. При этом (для расчета сложностей) неважно, какое начальное положение занимает исходная фигура А, как на ней расположены другие элементы. Важно, какое положение будет иметь фигура В в сравнении с А. Аналогично этому неважно, какое положение будет иметь фигура С и какое расположение займут на ней те или иные модифицируемые элементы.
Таким образом, при расчете сложностей заданий можно ограничиться значительно меньшим числом конфигураций фигур и особенностей. В действительности достаточно использовать всего 112 комбинаций фигур и модифицируемых элементов фигур, основанных на 10, а не 14 вариантах модификаций.
Чтобы узнать способности испытуемого, надо знать трудности заданий теста и результаты испытуемого. На первом этапе оценка трудности заданий осуществляется на основании результатов их выполнения испытуемыми репрезентативной выборки. Рассмотрим математический аппарат для вычисления трудностей заданий.
Пусть N испытуемых выполняют M заданий теста. Обозначим через xij результат выполнения i-м испытуемым (i= 1,…,N) j-го задания теста (j= 1,…,M). Будем считать:
Получаем матрицу ответов:
|
(1) |
Пусть Pij – вероятность правильного выполнения i-м испытуемым (i= 1,…,N) j-го задания теста (j= 1,…,M), Qij – вероятность неправильного выполнения i-м испытуемым j-го задания:
|
(2) |
Пусть θi – способность i-го испытуемого, βj – трудность j-го задания теста. Найдем эти величины.
В современной теории тестирования (в соответствии с концепцией Г. Раша Item Response Theory) Pij часто задаётся следующим образом.
|
(3) |
Тогда
|
(4) |
Пусть i-й испытуемый в M заданиях теста получил результаты xij (j= 1 , … , M).
В этом случае Li – вероятность получения i-м испытуемым всей последовательности результатов xij (j= 1, … ,M) будет:
|
(5) |
Аналогично Lj – вероятность получения в j-м задании определенной последовательности результатов xij (i= 1, … ,N) будет:
|
(6) |
Здесь
|
|
Пусть
|
(7) |
|
(8) |
Обозначим
- pi – доля правильных ответов i-го испытуемого: pi = Xi/M
- qi – доля неправильных ответов i-го испытуемого: qi = 1-pi
- pj – доля правильных ответов на j-е задание теста: pj = Xj/N
- qj –доля неправильных ответов на j-е задание теста: qj = 1-pj.
Приближенные значения оценки способностей испытуемых и трудности заданий теста (их называют логитами) определяются следующим образом [1].
|
(9) |
|
(10) |
Более точные значения θi и βj вычисляются в точках экстремума для Li и Lj. Точки экстремума для Li и Ln(Li) совпадают.
Вычисление трудности заданий теста и способностей испытуемых с помощью метода максимального правдоподобия
Найдем значения θi и βj с помощью метода максимального правдоподобия.
Будем использовать итерационную процедуру Ньютона-Рафсона. Найдем логарифмы Li и Lj (5, 6):
|
(11) |
|
|
|
(12) |
||
Для поиска оценок наибольшего правдоподобия θi и βj следует найти:
1. Экстремумы функций Ln(Li) по каждой из переменных θi (при этом βj служит значением измеряемого параметра):
|
(i= 1, … ,N) |
2. Экстремумы функций Ln(Lj) по каждой из переменных βj (при этом θi служит значением измеряемого параметра):
|
(j= 1, … ,M) |
Найдем производные и составим системы уравнений для θi согласно (3, 4, 11):
|
|
Отсюда получаем систему уравнений для нахождения θi при фиксированных значениях β1,..., βM (13):
|
(13) |
Аналогично получаем систему уравнений для нахождения βj при фиксированных значениях θ1,..., θN (14):
|
(14) |
В работе М.Б. Челышкова (2002) предлагается решать системы (13, 14) методом Ньютона-Рафсона, подставляя в них в качестве начальных стандартные значения измеряемых параметров, подсчитанные на основе приближенных значений (9), (10). В работе Ю.М. Неймана, В.А. Хлебникова (2000) предлагается находить статистические величины θi и βj только на основе достаточных статистик Xi и Xj, так как это сокращает число неизвестных xij.
Для нахождения корня некоторой функции g(x) = 0 по методу Ньютона-Рафсона [3] обычно используется итерационный процесс (15), который начинается с некоего начального приближения x0. Далее
|
(15) |
Для решения (13, 14) найдём частные производные функции Pij по переменным θi и βj:
|
(16) |
|
(17) |
Составляем итерационные соотношения:
|
(18) |
|
(19) |
Нахождение значений θi и βj производится следующим образом. Сначала вычисляем их приближенные значения (9), (10), затем подсчитываем для них значения по вышеприведённым формулам. Выбираем требуемую погрешность, например, 0,0001. При фиксированных значениях βj подсчитываем по формуле (18) значения θi. Вычисления повторяются до тех пор, пока разность соседних значений не станет меньше значения погрешности по абсолютной величине. Затем повторяем процесс для формулы (19). И так далее… В результате получаем значения трудностей βj для M заданий теста (j= 1, … , M). Проведенные вычисления показали быстрое схождение итераций: схождение обычно достигалось за 7 итераций.
Расчет трудности заданий был произведен на основании результатов выполнения 30 заданий группой из 30 испытуемых.
Затем найденные начальные значения логитов уровней трудности заданий теста и значения способностей следует перевести в единую интервальную шкалу стандартных оценок. Это делается по формулам
Ti = Mb + R θi
Bj = Mt + G βj .
Здесь Mt – среднее значение θi, Mb – среднее значение βj.
Вычисление трудностей для модифицированных элементов фигуры
На основании оценки трудности всех заданий теста можно произвести оценку способностей новых испытуемых по формуле (18), так как Bj в этом случае известны. Однако поскольку имеется досточно большое количество тестовых заданий, оценку их трудности необходимо производить путем подсчета суммы трудностей, вносимых в задание теста модификацией дополнительных элементов.
При генерации задания теста в него включаются различные дополнительные элементы. Изменение расположения или иных характеристик каждого из них вносит свою долю в возрастание/снижение трудности задания. Для нахождения трудности задания с учетом влияния параметров трудности оценки дополнительных элементов фигуры или предмета был произведен расчет трудности тестовых заданий для 30 заданий.
Пусть G = {gt} – вектор трудностей оценки модификации отдельных элементов фигуры или предмета (вкладов, t=1…10). Для определения значений вектора производим следующие вычисления: сначала обозначим через K матрицу элементов, модификация которых осуществляется в последовательных тестовых заданиях, для выбранных заданий теста. K = kjt (j= 1,…,M; t= 1,…,10). Здесь M – число заданий теста, а t – номер модифицированного элемента.
Получаем
|
(20) |
Пусть S= {sj} – матрица M *1 с оценками трудности каждого задания в логитах. j=1…M. Значения элементов этой матрицы S были найдены с помощью описанного выше метода максимального правдоподобия (это Bj). Исходим из того, что должно выполняться соотношение
K G = S. |
(21) |
Пусть Kt – транспонированная матрица K. Если умножить обе части равенства на Kt, получим
Kt K G = Kt S. |
(21) |
Теперь, умножив обе части равенства на (Kt K)-1, мы получаем формулу для вычисления вклада модификаций дополнительных элементов:
G = (Kt K)-1 Kt S. |
(22) |
Еще раз оговоримся, что предлагаемый к рассмотрению алгоритм вычисления трудности тестовых заданий находится на первом этапе его разработки, а значения для такой переменной, как G, являются предварительными величинами, которые в дальнейшем будут подвергаться уточнению.
Компьютерная реализация теста показала стабильное функционирование. Тест можно вызвать на сайте http://it-fat.mgppu.ru.
Литература
- Челышкова М. Б. Теория и практика конструирования педагогических тестов. Учебное пособие. М.: «Логос», 2002.
- Нейман Ю. М., Хлебников В. А. Введение в теорию моделирования и параметризации педагогических тестов. М., 2000.
- Метод Ньютона // Википедия. 2013. URL: http://ru.wikipedia.org/wiki/Метод_Ньютона. Дата обращения: 20.06.2013.
Информация об авторах
Метрики
Просмотров
Всего: 3734
В прошлом месяце: 38
В текущем месяце: 21