О принципиальных искажениях метрических факторов в результате вращения

889

Аннотация

Oбосновывается недопустимость применения методов вращения в факторном анализе для метрических данных, отражающих естественно-научные закономерности. На ряде показательных примеров продемонстрирована парадоксальность получаемых в таких ситуациях выводов: антропометрические показатели перестают зависеть от роста людей; ведущие хоккеисты становятся аутсайдерами; сердце перестает влиять на работу организма; экономика государства теряет разумные основания, а дефолта 1998 г. не происходит.

Общая информация

Ключевые слова: многомерные статистические методы, факторный анализ, вращение факторов

Рубрика издания: Анализ данных

Тип материала: научная статья

Для цитаты: Кулаичев А.П. О принципиальных искажениях метрических факторов в результате вращения // Моделирование и анализ данных. 2013. Том 3. № 1. С. 78–87.

Полный текст

Хотя основные идеи факторного анализа возникли еще в начале прошлого века, но современное воплощение [4, 7] этот метод приобрел в послевоенное 20-летие, благодаря работам целой плеяды западных математиков, вовлеченных в масштабные государственные программы психологического и социологического тестирования. В 50-х годах были разработаны и методы вращения факторов. Следующие в этом фарватере и конкурирующие между собой системные аналитики без необходимых оговорок и предостережений в 70-х годах включили эти методы в свои первые интегрированные статистические пакеты [1, 6, 7]. Отсюда это перекочевало практически во все последующие учебники и пособия, и методика вращения факторов стала широко применяться для данных из других научных областей, что постепенно стало «хорошим аналитическим тоном». Остановимся на некоторых негативных методологических и науковедческих аспектах такого некритического переноса.

Цель вращения факторов обычно формулируется как получение более просто интерпретируемой системы факторов (так называемая простая структура), при которой каждая переменная имеет большие нагрузки на малое число факторов и малые нагрузки на остальные факторы. Однако с общенаучной точки зрения такая целеполагающая формулировка звучит достаточно странно. В естественнонаучных областях это вызывает прямые ассоциации с подгонкой исходных данных, промежуточных и конечных результатов под желаемые более простые и наглядные выводы. Представим, например, что Уотсон и Крик начали бы вращать свои рентгеноскопические данные с целью более быстро получить максимально простую модель ДНК.

Часто в качестве основного обосновывающего аргумента приводится утверждение, что методы факторного анализа дают решение с точностью до вращения факторов, из чего делается вывод, что вращение принципиально не меняет найденного решения. Действительно, факторное решение обеспечивает хорошее приближение общностей переменных (которые равны сумме их факторных нагрузок) к исходным корреляциям, а общности переменных (в отличие от нагрузок) при вращении не меняются. Но такое «обоснование» крайне однобокое и аналогично следующей наглядной интерпретации: пусть вы платите за жилплощадь ежемесячно тысячу рублей, а ваш знакомый - миллион. И вам говорят: давайте-ка «повращаем» эти платежи до эквивалентности, ведь общее-то решение (доход в бюджет) от этого не изменится.

Итак, операции вращения факторов начали применяться для данных опросного типа [4, 7] (номинальные и ранговые данные), которые сами по себе глубоко субъективны, вари­ативны, неточны. Такие данные преимущественно распространены в социологических и психологических исследованиях (хотя и там имеется много данных метрического типа), и к ним неприменимо понятие точности измерений, как это имеет место в случае данных, полученных с помощью измерительных приборов. Поэтому в результате вращения исследователь мало теряет в обоснованности выводов (поскольку сами исходные данные очень «рыхлые», «размытые», «относительные», «подвижные», нестабильные), но может получить более «гу­манитарно» убедительную интерпретацию факторов [5]. Совсем же иная ситуация имеет место в случае метрических данных.

Есть еще одно важное отличие. В гуманитарно-опросных исследованиях сами объекты (респонденты) обычно не представляют принципиального интереса для исследователя. Это, действительно, просто говорящие «объекты», лишенные индивидуальной значимости, поэтому и общая задача ограничивается только факторизацией их субъективных и крайне изменчивых во времени мнений (чтобы, например, эффективнее провести избирательную или рекламную компанию, выявить национальные, региональные, половые или профессиональные предпочтения, скорректировать социальную или национальную политику и т.п.).

Совершенно другая ситуация имеет место в естественно-научных исследованиях. Там объекты имеют еще и важную индивидуальную значимость для исследования (спортсмены, предприятия, больные, экономические поквартальные показатели, функциональные изменения физиологических показателей и т.п.). Это в полном смысле - субъекты, и наряду с изучением действующих на них главных факторов, не менее (а часто и более) важна задача их индивидуального и межиндивидуального исследования и управления ими, для чего необходимо тщательное и разностороннее изучение их проекций на главные факторы. А вращения факторов кардинально изменяют эти проекции объектов вплоть до полного абсурда. Многие же социологи и психологи с подобными постановками задач не сталкиваются и не ощущают их значимость.

Однако кроме опросных данных в науке широко распространены и другие данные, метрические, в том числе и полученные с помощью измерительных приборов, к которым применимо понятие точность измерений. А среди этих данных много и таких, которые отражают фундаментальные и первичные природные закономерности. Именно эти факторы мы будем для определенности называть естественно-научными. И при их факторном исследовании категорически противопоказано применение методов вращения.

В этом плане показателен пример монографии [1], во всех других аспектах, безусловно, относящейся к фундаментальной и образцовой классике. В разделе факторного анализа там

всесторонне рассматривается пример измерения базовых физиологических показателей у 113 больных в отделении интенсивной терапии. Исходная компонентная структура подвергается различным методам вращения, и каждый раз получается разное число главных факторов и разная их интерпретация. Тем самым физиологические механизмы изменяют свою работу в зависимости от метода вращения. Но этот парадокс нисколько не смущает уважаемых авторов, и они не делают ни одного предостерегающего комментария к столь странному поведению биологических законов.

Ниже мы приведем еще ряд впечатляющих примеров кардинального искажения естественно-научных факторов в ходе вращения [3], в результате чего возникают следующие феноменальные парадоксы: антропометрические показатели перестают зависеть от роста людей (пример 1); ведущие хоккеисты становятся аутсайдерами (пример 2); сердце перестает влиять на работу организма (пример 3); государственная экономическая политика теряет разумные основания, а финансового дефолта в августе 1998 г. не происходит (пример 4).

ПРИМЕР 1. ИЗВЕСТНЫЕ ФАКТОРЫ

Возьмем сначала очень простые и наглядные данные с высокими корреляциями между переменными, а именно: измерения роста, веса и жизненной емкости легких (ЖЕЛ) у множества людей. Ясно, что в данном случае все эти переменные определяются общим главным фактором, который можно условно назвать фактором «антропометрического масштаба». Можно придать предметный смысл и двум другим факторам следующим образом. Пусть мы производим эти антропометрические измерения у двух профессиональных категорий: штангистов и марафонцев. Очевидно, что вторым фактором будет фактор профессии, определяющий значительный систематический сдвиг значений (дисперсию) в плоскости вес-рост (при сопоставимом росте марафонцы имеют меньший вес, чем штангисты). С другой стороны, третий фактор пола будет определять сдвиг (дисперсию) в перпендикулярном направлении, поскольку при тех же соотношениях роста и веса женщины в среднем будут иметь меньшую ЖЕЛ, чем мужчины.

 

Здесь мы имеем расположение объектов (рис. 1), которое представляет собой облако рассеяния, по форме близкое к эллиптическому. Если теперь провести новые оси x1’, x2’, x3’ соответственно главным осям этого эллипсоида рассеяния, то это и будут главные компоненты, из которых фактор x1’(фактор «антропометрического масштаба») оказывает значительно большее влияние на дисперсию объектов, чем факторы x2’ и x3’, дисперсия по которым определена не измеренными в эксперименте показателями, связанными с полом, национальностью, профессией и т.п.).

Проведем теперь анализ главных компонент, а затем варимакс-вращение в плоскости первых двух факторов и сравним результаты. Четыре коэффициента вращения факторных осей (синусы и косинусы):

Факторы: Переменные

1

2

1

0.7547

0.6561

2

-0.6561

0.7547

 

показывают, что наиболее употребительный в практике метод варимакс осуществляет поворот первых двух факторов примерно на 45°. Это же видно в повороте факторных нагрузок из сравнения рис. 2, а) и б). Тем самым проекции исходных переменных на факторные оси (а, следовательно, и предметный смысл факторов) кардинально меняются.


После вращения вместо подавляющего преимущества первого фактора (96,59% против 3,246%) мы имеем практическую эквивалентность двух главных факторов (55,34% и 44,53%). Фактически в ходе вращения две факторные оси опять повернулись к двум исходным переменным, то есть результаты проведенной факторизации были полностью отменены. Очевидный абсурд этой ситуации состоит в том, что главный фактор «антропометрического масштаба» перестал действовать в человеческом мире!

Убедительность данного примера состоит в том, что он оставляет мало места для возражений, поскольку предметный смысл главного фактора априори известен и для всех очевиден. Можно, конечно, возразить, что здесь мы имеем очень мало переменных, что ставит под сомнение применимость факторного анализа. Однако спросим, при чем здесь абсурдность результатов вращения, разве ее степень зависит от числа переменных? К тому же эту матрицу данных можно без труда расширить, включив в нее еще множество переменных, зависящих от фактора антропометрического масштаба. При этом результирующие выводы не изменятся.

ПРИМЕР 2. ОЦЕНКА КВАЛИФИКАЦИИ В КОЛЛЕКТИВНЫХ ДЕЙСТВИЯХ

Теперь рассмотрим ситуацию априорно неизвестных факторов. Будем анализировать действия хоккеистов рижского Динамо, одного из лидеров сезона 1980-1981 гг.[1]. При этом вспомним, что рассматриваемый временной период относится к наивысшему взлету советского хоккея, когда физический, технический и психологический уровень игроков того времени, а также тренерский и методический уровень был очень высоким. В те далекие времена велся детальный учет действий каждого игрока в сезоне. Все это отражалось в личной карточке, куда входило несколько десятков различных показателей. Чтобы сгладить индивидуальную вариативность, зависящую от текущего физического и психологического состояния спортсмена, для анализа желательно выбирать не отдельную игру, а усредненные значения показателей по всем играм сезона. В исходную таблицу входят 15 показателей (переменные), не связанные линейными функциональными или высокими корреляционными зависимостями, для 18 игроков (объекты).

В результате вычисления главных компонент выделяются 3 главных фактора, покрывающих 41, 21.6, 9.69% общей дисперсии и в соответствии со своими факторными нагрузками допускающих следующую интерпретацию: «эффективность командной игры с участием игрока» - «личная эффективность» (броски и борьба) - «неэффективность» (штрафы и броски мимо). После этого открывается еще более важная спортивно-методическая задача: исследования различного рода соотношений между игроками в пространстве главных факторов (рис. 3, а) для сравнительной оценки их возможностей, физических и тактических кондиций, эффективности, перспективности, рейтинга и т. п.

а)                                                                         б)

Рис. 3. Проекции игроков на факторную плоскость1-2: а) исходные факторы; б) после вращения варимакс (стрелками показаны перемещения игроков)

Уже из простого визуального анализа этих проекций можно сделать далеко идущие выводы. По первому фактору («участие в игре») игроки разделяются на две большие и заметно отстоящие друг от друга группы, а по второму фактору («игровая активность») из всех игроков, несомненно, выделяется Балдерис, являющийся основным бомбардиром, на которого работает вся команда. Невдалеке находятся еще два ведущих нападающих Абалмасов и Антипов. В соответствии с количественным соотношением с нападающими много участвуют в игре и защитники Крикунов, Дудин, Хатулин, Назаров, хотя личная активность у них не высока. Среди оставшихся можно выделить дополнительно 2-3 группировки. Тем самым факторные проекции не только качественно подтверждает известные каждому болельщику игровые соотношения, но выявляют более тонкую структуру команды, а также позволяют количественно оценить различия между игроками.

Посмотрим, что происходит после вращения по трем главным факторам (рис. 3, б факторные дисперсии уравниваются: 29.6, 26.4 и 16.2%). Набольшие изменения происходят по первому фактору: в аутсайдеры откатывается Балдерис, из лидеров в середнячки переходят Абалмасов и Антипов, в лидеры выходит аутсайдер Васильев. Резкие перемещения наблюдаются и у других игроков. Тем самым вращение кардиальным образом меняет игровые соотношения: аутсайдеры становятся лидерами и наоборот. Очевидно, что тренерский совет должен принять решение о немедленном отчислении из команды и замене всех ведущих игроков.

Выше уже было отмечено, что применение различных методов вращения к физиологическим показателям [1] дает разное число главных факторов и разную их интерпретация. Для данного примера также были выполнены различные вращения с разным числом факторов (а такой выбор тоже является субъективным произволом предметного исследователя) приводят к совершенно различным результатам [3]:

а)    переменные, которые хорошо проецировались на некоторый фактор, становятся плохо проецируемыми на все факторы;

б)    переменные, которые плохо проецировались на все факторы, становятся хорошо проецируемыми на один фактор;

в)    переменные, которые имели малые нагрузки на фактор, приобретают большие нагрузки и наоборот.

При этом полностью теряется вышеуказанный логичный предметный смысл факторов. Тем самым использование разных методов вращения приводит к несопоставимым между собой результатам. Получается, что подобрав подходящий метод вращения, можно согласовать результаты с заранее желаемыми выводами.

ПРИМЕР 3. МНОГОМЕРНЫЕ РЯДЫ И ЗАВИСИМОСТИ

Если в предыдущих примерах мы анализировали многомерные данные общего вида «переменные-объекты», то здесь будем иметь дело со специальным видом многомерных данных - связные временные ряды и экспериментальные зависимости, которые представляют собой измерения значений нескольких переменных, производимые у одного объекта через равные интервалы времени или для ряда значений некоторого определяющего показателя.

В качестве показательного примера такого типа данных мы будем использовать результаты велотренажерных испытаний хоккеистов московского Динамо в 2000 г.[2]которые сами по себе являются универсальным средством оценки работоспособности организма человека и его энергообеспечивающих систем. Обычно велотренажерные испытания проводятся в течение 15-20 мин, при этом первый 2-минутный отрезок проводится без нагрузки для «вра­батывания» испытуемого, а затем нагрузка возрастает 2-минутными ступенями по 50 Вт до максимума в 350-400 Вт. Регистрация физиологических показателей проводится через каждые 30 с, поэтому на каждый уровень нагрузки приходится по четыре измерения. Тем самым результаты испытаний представляют собой, с одной стороны, экспериментальные зависимости от нагрузки, а с другой стороны - процессы, развивающиеся во времени, при этом на каждую ступень физической нагрузки приходится четыре временных измерения.

 

После отсева функционально зависимых и высококоррелированных переменных в матрице данных остаются 5 переменных и 38 измерений. В результате вычисления главных компонент выделяются два главных фактора, покрывающие 80.41 и 15.75 % дисперсии и имеющие прямую физиологическую интерпретацию, а именно: изменения физиологических показателей при велоэргономических испытаниях определяются (рис. 4, а): 1) работой сердечно-сосудистой системы, выражающейся главным образом в росте ЧСС; 2) клеточным метаболизмом, связанным с мышечным энергообеспе­чением, выражаемым показателями, отражающими выделение из легких конечного продукта - СО2 и относительное потребление кислорода (респираторный коэффициент RQ).


Рис. 4. Проекции результатов вычисления главных компонент велоэргономических испытаний на факторную плоскость1-2: а) нагрузки переменных; б) измерения

 

Обратимся с проекциям измерений на плоскость первых двух факторов (рис. 4, б). По первому фактору измерения практически строго упорядочены по времени или по возрастанию нагрузки, что вероятно определяется линейным характером возрастания ЧСС. По второму фактору наблюдается другая динамика:

а)    сначала имеет место уменьшение значений измерений на этапе «вкатывания» и первых двух ступенях нагрузки (до 150 Вт); это соответствует анаэробной стадии мышечного энергообеспечения за счет АТФ, запасенной в скелетных мышцах и печени;

б)    затем идет возрастание значений достаточно линейного характера, что соответствует переходу к аэробной стадии мышечного энергообеспечения;

в)    в области высоких нагрузок (300-350 Вт) изменения приобретают нелинейный характер (организм подходит к точке энергетического срыва).

Проведем теперь вращение двух выделенных факторов методом варимакс и сравним результаты. В результате вращения факторы повернулись на 47 градусов и практически сравнялись, покрывая 49.16 и 47% дисперсии. Предметный смысл факторов принципиально изменился (рис. 5, а), а именно:

а)    первый фактор теперь всецело определяется выделением СО2(FCo2), который ранее занимал промежуточное положение, а по фактору 2 нес основную положительную по знаку нагрузку;

б)    второй фактор теперь всецело определяется респираторным коэффициентом RQ, который ранее занимал промежуточное положение, а по фактору 2 нес основную отрицательную по знаку нагрузку;

в)    показатели, связанные с ЧСС и ранее всецело определявшие первый фактор, теперь заняли промежуточное положение.

Расположение измерений (рис. 5, б) по второму фактору стало пологим в первой фазе и резко возрастающим во второй фазе и возвратным по первому фактору.


Рис. 5. Результаты вращения двух главных велоэргономических факторов: а) нагрузки переменных; б) измерения

 

Тем самым после вращения сердце перестает оказывать решающее влияние на основные физиологические процессы, а организм приобретает способность работать в анаэробном режиме неограниченно длительное время.

ПРИМЕР 4. ЭКОНОМИКА ГОСУДАРСТВА

В заключение мы рассмотрим более объемный пример. Исходными данными будут 64 базовых экономических показателей Российской федерации с 1996 по 1999 гг. с ежемесячным измерением . Напомним, что данный период относится к последнему четырехлетию президентства Ельцина с неоднократными сменами правительства (Черномырдин до марта 1998 г., Киреенко до сентября 1998 г., Примаков до мая 1999 г., Степашин до августа 1999 г. и далее Путин) и со знаменитым дефолтом августа 1998 г.

После удаления функционально зависимых и корреляционно связанных переменных в матрице данных остается 45 показателей. В результате вычисления главных компонент выделяются всего лишь три основных фактора, покрывающие 30.2, 20.1, 18.3% дисперсии измерений. Четвертый компонент ответственен всего лишь за 8,2% дисперсии. Согласно факторным нагрузкам этим трем главным факторам можно дать следующую интерпретацию: основной финансово-социальный фактор, фактор «производство-энергия-транспорт», фактор бюджетного финансирования.

Обратимся теперь к исследованию распределения измерений на плоскости первых двух факторов (рис. 6, а). Здесь явно прослеживается логичная временная упорядоченность измерений. Первые 33 месяца (правительству Черномырдина принадлежат 27 из них) видна отчетливо линейная тенденция ухудшения ситуации по обоим двум главным факторам (положительный экономический смысл имеет отрицательное направление по второму фактору), в которой можно выделить «островок стабилизации» с 13-го по 25-й месяц. Небольшой островок стабилизации заметен и в 9-12 месяцах (обычное оживление последнего квартала года), после чего идет скачок к 13-му месяцу.

 


а)                                                                          б)

Рис. 6. Проекции ежемесячных экономических показателей на факторную плоскость 1-2: а) главные компоненты; б) после вращения

При правительстве Киреенко (27-32 месяц) общая тенденция не изменилась. 31-й месяц - это дефолт, откуда идет позитивный скачок в производственной сфере к 33-му месяцу (экономика немного облегчается от безумных «скачек» в черномырдинской «пирамиде» ГКО - государственных краткосрочных обязательств). И далее ситуация начинает улучшаться (правительство Примакова), сначала по второму, а затем и по первому фактору, и это направление продолжает правительство Степашина. В последние 5 месяцев новое правительство Путина сосредотачивает улучшение экономической ситуации только на первом (финансово-социальном) факторе. Еще более зримо эти тенденции можно проследить на временных графиках для каждого фактора отдельно [3].

Подвергнем наши три фактора различным методам вращения. Оказывается, что в данном случае большого количества переменных все они в рамках фиксированного числа факторов дают качественно близкие результаты. Факторы подравниваются по своей значимости, покрывая 26.3, 23.7 и 19.2% дисперсии измерений. Преимущественно наблюдаются миграции переменных из первого фактора во второй и из второго в третий (23 и 21% переменных, соответственно), в обратную же сторону (в различных сочетаниях) перемещаются только 15% переменных. В результате этого смысловые нагрузки факторов смешиваются, и их однозначная интерпретация становится невозможной.

Посмотрим, что же происходит с измерениями (рис. 6, б). Первые 15 месяцев Чер­номырдин управляет только первым фактором, затем он делает поворот на 90 градусов и переносит управление исключительно на второй фактор. В начале третьего года он делает резкий скачок с поворотом на 180 градусов, и через три месяца его заменяют на Киреенко. Тот продолжает траекторию «скачка» Черномырдина, подправляя ее направление в сторону политики 1996 г. Последствия дефолта августа 1998 г. (31-34 месяц) зримо не проявляются, это просто повторение «скачка» Черномырдина в меньшем масштабе. После этого Примаков 4 месяца топчется на месте, затем делает резкий скачок под углом 45 градусов к «скачку» Черномырдина и опять 4 месяца топчется на месте. Затем Степашин очень робко двигается в направлении, обратном «раннему Черномырдину», после чего Путин поворачивает на 90 градусов и энергично возвращается к продолжению политики Черномырдина второй половины 1997 г.

Тем самым становится очевидным, что после таких вращений совершенно невозможно осмысленное управление экономической политикой государства.

ЗАКЛЮЧЕНИЕ

Хотя в подавляющем большинстве учебников, учебных пособий, документаций к статистическим пакетам и интернет-ресурсах нет ни малейшего намека на вышерассмотренные ограничения применимости вращения факторов, но такое знание, безусловно, существует в некоторых высших аналитических кругах. Об этом, например, может свидетельствовать фундаментальное исследование [2], где детально анализируются результаты президентских выборов в США с 1872 по 1984 гг, на основании чего выделяются влияющие на этот процесс главные региональные, временные и географические факторы, а далее по изучению проекций измерений в этих факторных координатах делаются детальные и далеко идущие рекомендации и прогнозы. И в этом исследовании нет ни малейшего намека ни на существовании в природе каких-либо методов вращения факторов, ни на существование других методов факторного анализа, кроме метода главных компонент.

Тем самым мы видим, что сакральное знание где-то существует, но оно не доходит до широкой аудитории, несмотря на наличие мощных, свободных и массовых информационных каналов современной цивилизации.


[1] Данные предоставлены автору в 2004 г. из информационной базы, собранной профессором РГУФК В.К. Зайцевым

[2] Данные предоставлены автору в 2004 г. из информационной базы, собранной профессором РГУФК В.К. Зайцевым

Литература

  1. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. – М.: Мир, 1982. – 488 с.
  2. Арчер Д.К., Шелли Ф.М., Тейлор П.Д., Уайт Э.Р. География президентских выборов в США. – В мире науки (Scientific American), 1988. №9, с.6-14.
  3. Кулаичев А.П. Методы и средства комплексного анализа данных. Учебное пособие для клас- сического университетского образования. Изд. 4-е. – М.: ФОРУМ-ИНФРА-М, 2006. – 512 с.
  4. Митина О.В., Михайловская И.Б. Факторный анализ для психологов. Учебное пособие. – М.: УМК Психология, 2001 – 169 с.
  5. Петренко В.Ф. Психосемантика сознания. – М.: МГУ, 1988. – 207 с.
  6. Статистические методы для ЭВМ. Под ред. К. Эйслейна, Э. Рэлстона, Г.С. Уолфа. – М.: Наука, 1986. – 464 с.
  7. Харман Г. Современный факторный анализ. – М.: Статистика, 1972. – 656 с.
  8. Marija J. Norusis. SPSS/PC+. Statistical Package. – SPSS Inc., Chicago, 1986. – 270 с

Информация об авторах

Кулаичев Алексей Павлович, кандидат биологических наук, кандидат физико-математических наук, ведущий научный сотрудник биологического факультета МГУ им.М.В. Ломоносова, профессор кафедры прикладной информатики и мультимедийных технологий факультета информационных технологий МГППУ, e-mail: akyla-@mail.ru

Метрики

Просмотров

Всего: 1065
В прошлом месяце: 2
В текущем месяце: 0

Скачиваний

Всего: 889
В прошлом месяце: 2
В текущем месяце: 0