Непараметрические методы исследования в психологии

Н.Н. Будрейка

В современной психологии актуальной научной задачей считается выявление различий между выборками. Например, сравнения результатов обследования какого- либо психологического признака в разных условиях измерения или обследование контрольной и экспериментальной групп. Для решения подобных задач применяют широкий спектр статистических способов, называемых критериями различия.

Все критерии различия можно разделить на две группы: параметрические и непараметрические. Остановимся на последней.

Непараметрические критерии обладают широкой областью применения, устойчивостью выводов, простотой математических средств. Они значительно менее трудоемки, а при распределениях, далеких от нормального, более эффективны и точны, чем параметрические.

В основе непараметрических статистических критериев лежит оперирование частотами или рангами эмпирических данных, при этом, в отличие от параметрических критериев, тип распределения данных не обязательно должен соответствовать нормальному. Для расчета непараметрических критериев результаты измерений должны быть представлены в шкале наименований рангов или в шкале интервалов (если распределение интервальных данных значимо отличается от нормального, что бывает довольно часто при малом размере выборки). Тип распределения данных при использовании непараметрических критериев может быть любым, но при этом необходимо учитывать ограничения, специфичные для некоторых критериев.

Рассмотрим условия, когда применение непараметрических методов является объективно обоснованным:

• есть основания считать, что распределение значений признака в генеральной совокупности не соответствует нормальному закону;

• есть сомнения в нормальности распределения признака в генеральной совокупности, но выборка слишком мала, чтобы по выборочному распределению судить о распределении в генеральной совокупности;

• не выполняется требование гомогенности дисперсии при сравнении средних значений для независимых выборок.

На практике преимущество непараметрических методов наиболее заметно, когда в данных имеются выбросы (экстремально большие или малые значения).

Если размер выборки очень велик (больше 100), то непараметрические методы сравнения использовать нецелесообразно, даже если не выполняются некоторые исходные предположения применения параметрических методов. С другой стороны, если объемы сравниваемых выборок очень малы (10 и меньше), то результаты применения непараметрических методов можно рассматривать лишь как предварительные.

Структура исходных данных и интерпретация результатов применения для параметрических методов и их непараметрических аналогов являются идентичными.

В чем заключается суть проверки непараметрических гипотез? Прежде чем приступить к проведению эксперимента, исследователь обычно выдвигает две взаимоисключающие гипотезы. Одна из них является статистической гипотезой, которую исследователь обычно предполагает отклонить, и ее называем нулевой гипотезой (Н0 ). В ней выдвигаются различные предположения относительно значений одного или нескольких параметров исходной совокупности. Например, проводится эксперимент по типу социально-психологического тренинга. Затем равные выборки испытуемых, прошедших и не прошедших тренинг, исследуются с помощью специальных диагностических методик. Нулевая гипотеза состоит в том, что доля лиц, отвечающих примерно одинаково на вопросы об эффективности межличностных отношений и удовлетворенности ими, будет одинакова для обеих выборок.

Альтернативная гипотеза H1 фактически отрицает нулевую гипотезу. В нашем случае она предполагает, что значительно больший процент лиц, удовлетворенных межличностными отношениями, находится в выборке, члены которой предварительно обучались общению с помощью активных методов. Таким образом, если альтернативная гипотеза подтвердится (т. е. Н0 будет отвергнута), исследователь может делать выводы об эффективности метода социально-психологического тренинга. Несколько забегая вперед, укажем, что чем выше абсолютные значения разности критериев значимости, тем более существенны обнаруженные различия в выборках.

Любая задача проверки непараметрических гипотез выглядит следующим образом. Из двух конкурирующих гипотез альтернативная всегда непараметрична, а нулевая может быть либо простой, либо непараметрической. Поскольку, по крайней мере, одна гипотеза есть класс неизвестных распределений, различие между гипотезами задается в некотором общем виде, не связанном с конкретным видом функции распределения. Требуется предложить процедуру, результатом которой явилось бы решение об истинности одной из гипотез на основании предъявленной выборки (или нескольких выборок).

При сравнении выборок с использованием непараметрических критериев, как и в случае параметрических критериев, обычно проверяются ненаправленные статистические гипотезы. Основная (нулевая) статистическая гипотеза при этом содержит утверждение об идентичности генеральных совокупностей (из которых извлечены выборки) по уровню выраженности изучаемого признака. Соответственно, при ее отклонении допустимо принятие двусторонней альтернативы о конкретном направлении различий в соответствии с выборочными данными. Для принятия статистического решения в таких случаях применяются двусторонние критерии и, соответственно, критические значения для проверки ненаправленных альтернатив.

При использовании непараметрических методов психолог-исследователь обычно не испытывает затруднений при выборе типа задачи и ее математическом формулировании.

Однако следующий этап - выбор критерия, т. е. конкретного инструмента решения полученной задачи, сопряжен с определенными трудностями. Решение о выборе того или иного критерия принимается на основании того, сколько выборок сопоставляется и каков их объем.

Часто применяемыми тестами являются тесты для сравнения двух и более независимых или зависимых выборок. Известными тестами, служащими для этих целей, являются U-тест Манна-Уитни, Н-тест Крускала-Уоллиса, тест Вилкоксона и тест Фридмана. Важную роль также играет тест Колмогорова-Смирнова для одной выборки, который может применяться для проверки наличия нормального распределения. Непараметрические тесты могут, конечно, применяться и в случае нормального распределения значений. Но в этом случае они будут иметь лишь 95 % эффективности по сравнению с параметрическими тестами. Если Вы хотите, к примеру, произвести множественное сравнение средних значений двух независимых выборок, причем выборки частично подчиняются нормальному распределению, а частично - нет, то рекомендуется всегда применять U-тест Манна-Уитни.

Подробное описание математической процедуры для каждого критерия можно найти в [6,10, 12, 13, 14, 17 и др.]. Мы же ограничимся возможностью применения критерия в зависимости от количества сравниваемых групп (градаций номинативных переменных) - два и более и соотношения сравниваемых групп (зависимые и независимые выборки).

Итак, каковы основные этапы выбора критерия?

Прежде всего следует определить, является ли выборка зависимой или независимой. Две выборки зависят друг от друга, если каждому значению одной выборки можно закономерным и однозначным способом поставить в соответствие ровно одно значение другой выборки. Аналогично определяется зависимость нескольких выборок. Зависимые выборки образуют значения параметров изучаемого процесса, соответствующие различным моментам времени (например, повторное измерение свойства на одной и той же выборке после воздействия). Если закономерное и однозначное соответствие между выборками невозможно, эти выборки являются независимыми.

Выборки

Две выборки

Больше двух выборок

Независимые

U-критерий Манна-Уитни, критерий серий

H-критерий Крускала-Уоллиса, критерий Джонкира-Терп- стры, медианный критерий

Зависимые

T-критерий Вилкоксона, критерий знаков, критерий Мак- нимара

2

х²-критерий Фридмана, критерий Кендала, критерий Кохрана

Следует определить однородность - неоднородность выборки. Основанием для формирования однородной выборки могут служить разные характеристики объекта исследования, такие, как уровень интеллекта, национальность, отсутствие определенных заболеваний и т. д., в зависимости от целей исследования.

Затем следует оценить объем выборки и, зная ограничения каждого критерия по объему, выбрать соответствующий критерий. При этом целесообразнее всего начинать работу с выбора наименее трудоемкого критерия. Если используемый критерий не выявил различия - следует применить более мощный, но одновременно и более трудоемкий критерий. Если в распоряжении психолога имеется несколько критериев, то следует выбирать те из них, которые наиболее полно раскроют информацию, содержащуюся в экспериментальных данных.

При малом объеме выборки следует увеличивать величину уровня значимости (не менее 1%), так как небольшая выборка и низкий уровень значимости приводят к увеличению вероятности принятия ошибочных решений.

Сравнение двух независимых выборок

Как видно из табл. 1, для сравнения двух независимых выборок можно использовать U-критерий Манна-Уитни и критерий серий.

Критерий Манна-Уитни находит широкое применение в психолого-педагогических исследованиях [1, 2, 5, 16, 18]. Он используется для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного (между малыми выборками). Например, при сравнении результатов контрольной и экспериментальной групп по одному или нескольким показателям. При использовании критерия Манна-Уитни в гипотезе чаще всего формулируется утверждение относительно конкретного параметра. Например, нулевая гипотеза: не существует статистически значимых различий в показателях интеллекта у детей из городской и сельской школы. Альтернативная гипотеза: такое различие существует. Эмпирическое значение критерия отражает то, насколько велика зона совпадения между рядами. Чем меньше эмпирическое значение, тем более вероятно, что различия достоверны. Актуальная идея критерия основана на представлении всех значений двух выборок в виде одной общей последовательности упорядоченных (ранжированных) значений. Результаты обеих групп объединяются в общий ранжированный ряд, и если количество чередующихся значений («перекрещиваний») обеих групп достаточно велико, то можно сделать вывод о схожести данных. В этом случае принимается нулевая статистическая гипотеза. Если же количество «перекрещиваний» невелико, то речь пойдет о несовпадении в расположении результатов групп, то есть о достоверности различий между ними и принятии альтернативной гипотезы. Применение критерия ограничивается лишь количеством наблюдений. В каждой группе должно быть не менее 3 наблюдений (если в первой 2, то во второй - 5) и не более 60 наблюдений.

Критерий серий используется, если объекты упорядочены по времени или по уровню выраженности признака, а также если каждый объект отнесен к одной из двух категорий (X или Y). Проверяемые нулевые гипотезы могут быть следующими: события X распределены среди событий Y случайно или выборки X и Y не различаются по распределению значений количественного признака.

Сравнение двух зависимых выборок

Самым чувствительным (мощным) для зависимых выборок является Т-критерий Вилкоксона (Wilcoxon signed-rank test). Критерий знаков еще проще в вычислительном отношении, но обладает меньшей чувствительностью, чем критерий Вилкоксона.

Критерий Вилкоксона основан на ранжировании абсолютных разностей пар значений зависимых выборок. Идея критерия заключается в подсчете вероятности получения минимальной из этих разностей при условии, что распределение положительных и отрицательных разностей равновероятно и равно 1/2. Применяется для сопоставления показателей, измеренных в двух различных условиях на одной и той же выборке испытуемых [7, 5]. Позволяет установить не только направленность, но и их выраженность. Применим, если признаки измерены, по крайней мере, по шкале порядка, и сдвиги тоже могут быть упорядочены. Например, необходимо выяснить эффект психологического тренинга. В этом случае проверяется гипотеза о различии значений показателя, измеренного дважды на одной и той же выборке. Применение критерия ограничивается количеством испытуемых (минимальное - 5, а максимальное - 50). Нулевые сдвиги из рассмотрения исключаются, а количество наблюдений уменьшается на количество этих нулевых сдвигов.

Критерий знаков предназначен для установления общего направления сдвига исследуемого признака: изменяются ли показатели в сторону улучшения, повышения или усиления или, наоборот, в сторону ухудшения, понижения или ослабления? [Миракян, 1985]. Критерий применим к сдвигам, которые можно определить лишь качественно (изменение отрицательного или положительного отношения к чему-либо) и к тем сдвигам, которые могут быть измерены количественно (сокращение времени). Условия применения знакового теста те же, что и для теста Вилкоксона, но в отличие от него здесь ведётся подсчет только положительных и отрицательных разностей, что может оказаться полезным тогда, когда различия между выборками будут не слишком заметны.

Критерий значимости изменений Мак- нимара применяется исключительно при наличии дихотомических переменных. При этом для двух зависимых переменных выясняется, происходят ли какие-либо изменения в структуре распределения их значений. В большинстве наблюдений сравнение проводится с учетом временного фактора по схеме «до - после». Например, психолога может интересовать сравнительная эффективность различных методов обучения, изменение уровня развития определенного личностного свойства после соответствующих воспитательных воздействий, улучшение результатов деятельности после тренировки навыков и т. д. При использовании критерия Макнимара типичная не- 44”

направленная нулевая гипотеза состоит в том, что в генеральной совокупности доля тех, кто изменяет положительный ответ на отрицательный, равна доле изменяющих отрицательный ответ на положительный.

Сравнение более двух независимых выборок

Для нескольких независимых выборок также существует ряд критериев, позволяющих выявить достоверность различий между ними по одной или нескольким переменным. Это такие критерии, как Крускала- Уоллиса, Джонкира-Терпстры, медианный критерий. При расчете критериев Крускала- Уоллиса и медианного в качестве группирующей переменной можно использовать номинальные и ранговые данные, а для расчета Джонкира-Терпстры - только ранговые.

Критерий Крускала-Уолиса (Kruskal- Wallis H) используется для оценки различий между тремя и более выборками по уровню какого-либо признака. Рассматривается как непараметрический аналог метода дисперсионного однофакторного анализа для несвязанных выборок (сумма рангов). По способу расчета он идентичен критерию Манна- Уитни. Гипотезы: Н0: между выборками 1,2, 3 и т.д. существуют лишь случайные различия по уровню исследуемого признака. Н1: между выборками 1,2, 3 и т.д. существуют не случайные различия по уровню исследуемого признака. Применение данного критерия также имеет ряд ограничений:

При сопоставлении 3 выборок, в которых соотношение наблюдений соответствует 3:2:2, различия будут на низшем уровне значимости (0,05). Для того чтобы диагностировать различия на более высоком уровне значимости (0,01), необходимо чтобы число наблюдений соответствовало 3:3:3 или 4:2:2. Критическое значение предусмотрено только для 3 выборок. Для 4 и более необходимо использовать таблицу критерия х2.

При множественном сопоставлении выборок достоверные различия между какой- либо парой могут быть стерты.

Необходимо также учитывать, что критерий Крускала-Уолиса только констатирует наличие достоверных различий (по одной или нескольким переменным) между тремя и более выборками, но не указывает направление этих различий.

Критерий Джонкира-Терпстры (Jonck- heere-terpstra) используется не только для оценки различий между несколькими группами по уровню изменений переменной при переходе от одной группы к другой, но и выявляет тенденцию (направление) этих различий. Напомним, что в качестве группирующей переменной (Grouping Variable) вычисления критерия может быть использована только ранговая переменная, то есть предполагается выделение групп, упорядоченных по возрастанию какого-либо качества. Например, в качестве группирующей переменной может выступать переменная «Возрастные группы», имеющая диапазон от 2 до 5. Двойка соответствует возрастной группе 21-30 лет, тройка - 3l- 40 лет и т. д., то есть ранги строго упорядочены по возрастанию. Критерий Джонкира- Терпстры при сравнении более двух независимых выборок является наиболее сильным, так как не только определяет наличие достоверных различий между группами, но и указывает на то, что эти различия также упорядочены по возрастанию. По сути дела, критерий Джонкира-Терпстры близок к корреляционным показателям связи между двумя переменными и позволяет делать вывод, что выявленные различия между группами по проверяемым переменным связаны именно с тем качеством, которое легло в основу категоризации (то есть с группирующей переменной). Ограничения: в каждой выборке одинаковое число наблюдений. Нижний порог не менее 3 выборок и не менее 2 наблюдений; верхний порог не более 6 выборок и не более 10 наблюдений.

Медианный критерий (Median), который также можно использовать для сравнения более двух независимых выборок, идентичен процедуре вычисления критерия Хи- квадрат для таблиц сопряженности. При расчете критерия Хи-квадрат для каждой сравниваемой группы сопоставляются частоты значений, расположенных ниже и выше медианы. Медианный критерий, по сравнению с критериями Крускала-Уоллиса и Джонкира-Терпстры, является наиболее общим и слабым. Для эго критерия также справедливы все те ограничения, которые необходимо учитывать при расчете критерия Хи-квадрат (например, частота в ячейках таблицы сопряженности должна быть не менее 5).

Сравнение более двух зависимых выборок

Есть непараметрические критерии, которые позволяют оценивать различия между результатами нескольких повторных измерений, проведенных с помощью одной методики на одной и той же группе испытуемых. К таким критериям относятся: критерий Фридмана, критерий Кендала и критерий Кохрана.

Критерий Фридмана (Friedman test) является наиболее популярным для выявления достоверности различий трех и более измерений, произведенных на одной и той же выборке испытуемых. Критерий Фридмана - это непараметрический аналог однофакторного дисперсионного анализа (ANOVA) для повторных измерений. Он позволяет проверять гипотезы о различии более двух зависимых выборок (повторных измерений) по уровню выраженности изучаемого признака. Например, Н0: между показателями, полученными (измеренными) в разных условиях, существуют случайные различия. Критерий х2-Фридмана может быть более эффективен, чем его метрический аналог ANOVA в случаях повторных измерений изучаемого признака на небольших выборках. Он основан на ранжировании ряда повторных измерений для каждого объекта выборки. Затем вычисляется сумма рангов для каждого из условий (повторных измерений). Если выполняется статистическая гипотеза об отсутствии различий между повторными измерениями, то можно ожидать примерное равенство сумм рангов для этих условий. Чем больше различаются зависимые выборки по изучаемому признаку, тем больше эмпирическое значение х2 критерия Фридмана.

В случае отклонения нулевой статистической гипотезы об отсутствии различий принимается альтернативная гипотеза о статистически достоверных различиях выборок по изучаемому признаку - без конкретизации направления различий. Для утверждений о том, что уровень выраженности признака в какой-то из сравниваемых выборок выше или ниже, необходимо парное соотнесение выборок по Т-критерию Вил- коксона.

W-критерий Кендалла (Kendall’s W) аналогичен критерию Фридмана, но, кроме расчета непосредственно критерия Фридмана, он включает в себя также расчет нормализованного W-критерия, который часто называют критерием конкордантно- сти (согласованности оценок) Кендалла. Этот критерий интерпретируется как согласие (единообразие, систематичность, тенденциозность) испытуемых в оценивании ими всех сравниваемых объектов (переменных). Значение W-критерия может изменяться от нуля, в случае полного отсутствия согласия между испытуемыми, до единицы, при полном единообразии в оценках.

Q-критерий Кохрана (Cochran’s Q) также аналогичен критерию Фридмана, но предназначен для дихотомических переменных. Этот критерий также может быть использован, когда группы однородных субъектов подвергаются более чем двум экспериментальным воздействиям и их ответы носят двухвариантный характер («лучше - хуже», «использовать - не использовать»).

Тест Колмогорова-Смирнова

Тест Колмогорова-Смирнова для проверки формы распределения позволяет проверить, соответствует ли реальное распределение переменной нормальному, равномерному, экспоненциальному распределению или распределению Пуассона. Разумеется, самым распространенным видом проверки является проверка наличия нормального распределения [Корнилова, 1995]. Тест позволяет оценить вероятность того, что данная выборка принадлежит генеральной совокупности с нормальным распределением. Если эта вероятность p<0,05, то данное эмпирическое распределение существенно отличается от нормального, а если 0,05, то делают вывод о приблизительном соответствии данного эмпирического распределения нормальному. Например, выраженность некоторой способности определяется количеством выполненных заданий за отведенное время.

Непараметрические методы исследования в психологии

Резюме

Общая информация

Полный текст

Сравнение двух независимых выборок

Сравнение двух зависимых выборок

Сравнение более двух независимых выборок

Сравнение более двух зависимых выборок

Тест Колмогорова-Смирнова

Литература

Информация об авторах

Метрики

Просмотров web

Скачиваний PDF

Всего