Контакты

Подготовка данных. Факторный анализ. Основные уравнения и процедуры факторного анализа Метод главных компонент. Матрица счетов

Представляют собой совокупность статистических процедур, направленных на выделение из заданного множества переменных подмножеств переменных, тесно связанных (коррелирующих) между собой. Переменные, входящие в одно подмножество и коррелирующие между собой, но в значительной степени независимые от переменных из других подмножеств, образуют факторы. Цель факторного анализа - идентифицировать явно не наблюдаемые факторы с помощью множества наблюдаемых переменных. Дополнительным способом проверки числа выделенных факторов является вычисление корреляционной матрицы, которая близка исходной, если факторы выделены правильно. Эта матрица называется воспроизведенной корреляционной матрицей. Для того чтобы увидеть, как эта матрица отклоняется от исходной корреляционной матрицы (с которой начинался анализ), можно вычислить разность между ними. Остаточная матрица может указать на "несогласие", т. е. на то, что рассматриваемые коэффициенты корреляции не могут быть получены с достаточной точностью на основе имеющихся факторов. В методах главных компонент и факторного анализа не существует такого внешнего критерия, позволяющего судить о правильности решения. Вторая проблема заключается в том, что после выделения факторов возникает бесконечное множество вариантов вращения, базирующихся на тех же исходных переменных, но дающих разные решения (факторные структуры определяются несколько иным образом). Окончательный выбор между возможными альтернативами внутри бесконечного множества математически равнозначных решений зависит от содержательного осмысления исследователями результатов интерпретации. А поскольку объективного критерия для оценки различных решений нет, предлагаемые обоснования выбора решения могут казаться голословными и неубедительными.


Надо отметить, что четких статистических критериев полноты факторизации не существует. Тем не менее, низкие ее значения, например меньше 0,7, свидетельствуют о желательности сокращения количества признаков или увеличения количества факторов.

Мет Коэффициент взаимосвязи между некоторым признаком и общим фактором, выражающий меру влияния фактора на признак, называется факторной нагрузкой данного признака по данному общему фактору.

Матрица, состоящая из факторных нагрузок и имеющая число столбцов, равное числу общих факторов, и число строк, равное числу исходных признаков, называется факторной матрицей.

Основой для вычисления факторной матрицы является матрица парных коэффициентов корреляции исходных признаков.

Корреляционная матрица фиксирует степень взаимосвязи между каждой парой признаков. Аналогично факторная матрица фиксирует степень линейной связи каждого признака с каждым общим фактором.

Величина факторной нагрузки не превышает по модулю единицы, а знак ее говорит о положительной или отрицательной связи признака с фактором.

Чем больше абсолютная величина факторной нагрузки признака по некоторому фактору, тем в большей степени этот фактор определяет данный признак.

Значение факторной нагрузки по некоторому фактору, близкое к нулю, говорит о том, что этот фактор практически на данный признак не влияет.

Факторная модель дает возможность вычислять вклады факторов в общую дисперсию всех признаков. Суммируя квадраты факторных нагрузок для каждого фактора по всем признакам, получаем его вклад в общую дисперсию системы признаков: чем выше доля этого вклада, тем более значимым, существенным является данный фактор.

При этом можно выявить и оптимальное количество общих факторов, достаточно хорошо описывающих систему исходных признаков.

Значение (мера проявления) фактора у отдельного объекта называется факторным весом объекта по данному фактору. Факторные веса позволяют ранжировать, упорядочить объекты по каждому фактору.

Чем больше факторный вес некоторого объекта, тем больше в нем проявляется та сторона явления или та закономерность, которая отражается данным фактором.

Факторные веса могут быть как положительными, так и отрицательными.

В силу того, что факторы являются стандартизованными величинами со средним значением, равным нулю, факторные веса, близкие к нулю, говорят о средней степени проявления фактора, положительные – о том, что эта степень выше средней, отрицательные – о том. ч то она ниже средней.

Практически, если число уже найденных главных компонент (или факторов) не больше, чем m /2, объясняемая ими дисперсия не менее 70%, а следующая компонента дает вклад в суммарную дисперсию не более 5%, факторная модель считается достаточно хорошей.

Если Вы хотите найти значения факторов и сохранить их в виде дополнительных переменных задействуйте выключатель Scores... (Значения) Факторное значение, как правило, лежит в пределах -3 до +3.

Факторный анализ - более мощный и сложный аппарат, чем метод главных

компонент, поэтому он применяется в том случае, если результаты

компонентного анализа не вполне устраивают. Но поскольку эти два метода

решают одинаковые задачи, необходимо сравнить результаты компонентного и


факторного анализов, т. е. матрицы нагрузок, а также уравнения регрессии на

главные компоненты и общие факторы, прокомментировать сходство и различия

результатов.

Максимально возможное количество факторов m при заданном числе признаков р определяется неравенством

(р+m)<(р-m)2,

В завершение всей процедуры факторного анализа с помощью математических преобразований выражают факторы fj через исходные признаки, то есть получают в явном виде параметры линейной диагностической модели.

Методы главных компонент и факторного анализа представляют собой совокупность статистических процедур, направленных на выделение из заданного множества переменных подмножеств переменных, тесно связанных (коррелирующих) между собой. Переменные, входящие в одно подмножество и коррелирующие между собой, но в значительной степени независимые от переменных из других подмножеств, образуют факторы1 . Цель факторного анализа - идентифицировать явно не наблюдаемые факторы с помощью множества наблюдаемых переменных.

Общее выражение для j -го фактора может быть записано так:

где Fj (j изменяется от 1 до k ) - это общие факторы, Ui - характерный, Aij - константы, используемые в линейной комбинации k факторов. Характерные факторы могут не коррелировать друг с другом и с общими факторами.

Процедуры факторно-аналитической обработки, применяемые к полученным данным, различны, но структура (алгоритм) анализа состоит из одних и тех же основных этапов: 1. Подготовка исходной матрицы данных. 2. Вычисление матрицы взаимосвязей признаков. 3. Факторизация (при этом необходимо указать количество факторов, выделяемых в ходе факторного решения, и метод вычисления). На этом этапе (как и на следующем) можно также оценить, насколько хорошо полученное факторное решение сближает исходные данные. 4. Вращение - преобразование факторов, облегчающее их интерпретацию. 5. Подсчет факторных значений по каждому фактору для каждого наблюдения. 6. Интерпретация данных .

изобретение факторного анализа было связано именно с необходимостью одновременного анализа большого количества коэффициентов корреляции различных шкал между собой. Одна из проблем, связанных с методами главных компонент и факторного анализа заключается в том, что критериев, которые позволяли бы проверить правильность найденного решения, не существует. Например, при регрессионном анализе можно сопоставить показатели по зависимым переменным, полученные эмпирическим путем, с показателями, вычисленными теоретически на основе предлагаемой модели, и использовать корреляцию между ними как критерий правильности решения по схеме корреляционного анализа для двух наборов переменных. В дискриминантном анализе правильность решения базируется на том, насколько точно предсказана принадлежность испытуемых к тем или иным классам (если сравнивать с реальной принадлежностью, имеющей место в жизни). К сожалению, в методах главных компонент и факторного анализа не существует такого внешнего критерия, позволяющего судить о правильности решения, Вторая проблема заключается в том, что после выделения факторов возникает бесконечное множество вариантов вращения, базирующихся на тех же исходных переменных, но дающих разные решения (факторные структуры определяются несколько иным образом). Окончательный выбор между возможными альтернативами внутри бесконечного множества математически равнозначных решений зависит от содержательного осмысления исследователями результатов интерпретации. А поскольку объективного критерия для оценки различных решений нет, предлагаемые обоснования выбора решения могут казаться голословными и неубедительными.

Третья проблема заключается в том, что факторный анализ довольно часто применяют с целью спасти плохо продуманное исследование, когда становится ясно, что ни одна статистическая процедура не дает желаемого результата. Мощь методов главных компонент и факторного анализа позволяет из хаотичной информации выстроить упорядоченную концепцию (что и создает им сомнительную репутацию).

Вторая группа терминов относится к матрицам, которые строятся и интерпретируются как часть решения. Поворот факторов - это процесс поиска наиболее легко интерпретируемого решения для данного количества факторов. Существуют два основных класса поворотов: ортогональный и косоугольный . В первом случае все факторы априорно выбираются ортогональными (не коррелирующими друг с другом) и строится матрица факторных нагрузок , представляющая собой матрицу взаимосвязей между наблюдаемыми переменными и факторами. Величина нагрузок отражает степень связи каждой наблюдаемой переменной и каждым фактором и интерпретируется как коэффициент корреляции между наблюдаемой переменной и фактором (латентной переменной), а потому изменяется в пределах от -1 до 1. Решение, полученное после ортогонального поворота, интерпретируется на основе анализа матрицы факторных нагрузок путем выявления того, с каким из факторов в максимальной степени связана та или иная наблюдаемая переменная. Таким образом, каждый фактор оказывается заданным группой первичных переменных, имеющих по нему наибольшие факторные нагрузки.

Если выполняется косоугольное вращение (т. е. априорно допускается возможность корреляции факторов между собой), то строится еще несколько дополнительных матриц. Матрица факторной корреляции содержит корреляции между факторами. Матрица факторных нагрузок , упомянутая выше, расщепляется на две: структурную матрицу взаимосвязей между факторами и переменными и матрицу факторного отображения , выражающую линейные взаимосвязи между каждой наблюдаемой переменной и каждым фактором (без учета влияния наложения одних факторов на другие, выражаемого корреляцией факторов между собой). После косоугольного вращения интерпретация факторов происходит на основе группировки первичных переменных (подобно тому, как было описано выше), но уже с использованием в первую очередь матрицы факторного отображения.

Наконец, для обоих поворотов вычисляется матрица коэффициентов факторных значений , используемая в специальных уравнениях регрессионного типа для вычисления факторных значений (факторных баллов, показателей по факторам) для каждого наблюдения на основе значений для них первичных переменных.

Сравнивая методы главных компонент и факторного анализа, отметим следующее. В ходе выполнения анализа по методу главных компонент строится модель для наилучшего объяснения (максимального воспроизведения) полной дисперсии экспериментальных данных, полученных по всем переменным. В результате выделяются «компоненты». При факторном анализе предполагается, что каждая переменная объясняется (детерминируется) некоторым количеством гипотетических общих факторов (влияющих на все переменные) и характерными факторами (для каждой переменной своими). И вычислительные процедуры выполняются таким образом, чтобы освободиться как от дисперсии, полученной в результате ошибки измерения, так и от дисперсии, объясняемой специфичными факторами, и анализировать только дисперсии, объясняемые гипотетически существующими общими факторами. В результате получаются объекты, называемые факторами. Однако, как уже упоминалось, с содержательно-психологической точки зрения эта разница в математических моделях существенного значения не имеет, поэтому в дальнейшем, если не дается особых пояснений, о каком именно случае идет речь, мы будем использовать термин «фактор» как по отношению к компонентам, так и по отношению к факторам.

Размеры выборки и пропущенные данные. Чем больше выборка, тем больше достоверность показателей взаимосвязи. Поэтому очень важно иметь достаточно большую выборку. Требуемый размер выборки также зависит от степени взаимосвязи показателей в популяции в целом и количества факторов: при сильной и достоверной взаимосвязи и небольшом количестве четко очерченных факторов будет достаточно и не очень большой выборки.

Так, выборка, размер которой 50 испытуемых, оценивается как очень плохая, 100 - плохая, 200 - средняя, 300 - хорошая, 500 - очень хорошая и 1000 - превосходная (Comrey, Lee , 1992). Исходя из этих соображений, в качестве общего принципа можно порекомендовать исследовать выборки не менее 300 испытуемых. Для решения, базирующегося на достаточном количестве маркерных переменных с высокими факторными нагрузками (>0.80) достаточно выборки порядка 150 испытуемых (Guadagnoli, Velicer , 1988). нормальность для каждой переменной в отдельности проверяется по асимметрии (насколько кривая изучаемого распределения сдвинута вправо или влево по сравнению с теоретически нормальной кривой) и эксцессу (степень вытянутости вверх или прогнутости вниз «колокола» имеющегося распределения, визуально представленного в частотной диаграмме, в сравнении с «колоколом» графика плотности, характерным для нормального распределения). Если переменная имеет существенные асимметрию и эксцесс, то ее можно преобразовать, введя новую переменную (как однозначную функцию от рассматриваемой) таким образом, чтобы эта новая переменная была распределена нормально (подробнее об этом см.: Tabachnik, Fidell , 1996, гл. 4).

Собственные векторы и соответствующие собственные числа
для рассматриваемого учебного примера

Собственный вектор 1

Собственный вектор 2

Собственное значение 1

Собственное значение 2

Поскольку корреляционная матрица диагонализируема, то для получения результатов факторного анализа к ней можно применять матричную алгебру собственных векторов и собственных величин (см. Приложение 1). Если матрица диагонализируема, то вся существенная информация о факторной структуре содержится в ее диагональной форме. В факторном анализе собственные числа соответствуют дисперсии, объясняемой факторами. Фактор с наибольшей собственной величиной объясняет наибольшую дисперсию и т. д., пока не доходит до факторов с небольшими или отрицательными собственными величинами, которые обычно не учитываются при анализе. Матрица факторных нагрузок является матрицей взаимосвязей (интерпретируемых как коэффициенты корреляций) между факторами и переменными. Первый столбец - это корреляции между первым фактором и каждой переменной по очереди: стоимость путевки (-.400), комфортабельность комплекса (.251), температура воздуха (.932), температура воды (.956). Второй столбец - это корреляции между вторым фактором и каждой переменной: стоимость путевки (.900), комфортабельность комплекса (-.947), температура воздуха (.348), температура воды (.286). Фактор интерпретируется на основе сильно связанных с ним (т. е. имеющих по нему высокие нагрузки) переменных. Так, первый фактор главным образом «климатический» (температура воздуха и воды ), в то время как второй «экономический» (стоимость путевки и комфортабельность комплекса ).

Интерпретируя эти факторы, следует обратить внимание на то, что переменные, имеющие высокие нагрузки по первому фактору (температура воздуха и температура воды ), взаимосвязаны положительно, тогда как переменные, имеющие высокие нагрузки по второму фактору (стоимость путевки и комфортабельность комплекса ), взаимосвязаны отрицательно (от дешевого курорта нельзя ожидать большой комфортабельности). Первый фактор называется униполярным (все переменные сгруппированы на одном полюсе), а второй - биполярным (переменные распались на две противоположные по смыслу группы - два полюса). Переменные, имеющие факторные нагрузки со знаком «плюс», образуют положительный полюс, а со знаком «минус» - отрицательный. При этом названия полюсов «положительный» и «отрицательный» при интерпретации фактора не имеют оценочного смысла «плохой» и «хороший». Выбор знака происходит во время вычислений случайным образом. Ортогональное вращение

Вращение обычно применяется после выделения факторов для максимизации высоких корреляций и минимизации низких. Существуют многочисленные методы вращения, но чаще всего используется поворот варимакс , представляющий собой процедуру максимизации дисперсий. Этот поворот максимизирует дисперсии факторных нагрузок, делая высокие нагрузки выше, а низкие ниже для каждого из факторов. Эта цель достигается с помощью матрицы преобразования Λ:

Матрица преобразования - это матрица синусов и косинусов угла Ψ, на который выполняется поворот. (Отсюда и название преобразования - поворот , потому что с геометрической точки зрения происходит поворот осей вокруг начала координат факторного пространства.) Выполнив поворот и получив матрицу факторных нагрузок после поворота, можно проанализировать серию других показателей (см. табл. 4). Общность переменной - это дисперсия, рассчитанная с помощью факторных нагрузок. Это квадратичная множественная корреляция переменной, предсказанная факторной моделью. Общность вычисляется как сумма квадратов факторных нагрузок (СКН) для переменной по всем факторам. В табл. 4 общность для стоимости путевки равна (-.086)2+(.981)2 = .970, т. е. 97% дисперсии стоимости путевки объясняется факторами 1 и 2.

Доля дисперсии фактора по всем переменным - это СКН по фактору, деленная на количество переменных (в случае ортогонального вращения)7 . Для первого фактора доля дисперсии равна:

[(-.086)2+(-.071)2+(.994)2+(.997)2]/4 = 1.994/4 = .50,

т. е. первый фактор объясняет 50% дисперсии переменных. Второй фактор объясняет 48% дисперсии переменных и (в силу ортогональности вращения) два фактора в сумме объясняют 98% дисперсии переменных.

Связь между факторными нагрузками, общностями, СКН,
дисперсией и ковариацией ортогональных факторов после поворота

Общности (h2 )

Стоимость путевки

∑a2 =.970

Уровень комфорта

∑a2 =.960

Температура воздуха

∑a2 =.989

Температура воды

∑a2 =.996

∑a2 =1.994

∑a2 =1.919

Доля дисперсии

Доля ковариации

Доля дисперсии решения, объясняемая фактором, - доля ковариации - это СКН для фактора, деленная на сумму общностей (сумму СКН по переменным). Первый фактор объясняет 51% дисперсии решения (1.994/3.915); второй - 49% (1.919/3.915); два фактора вместе объясняют всю ковариацию.

Eigenval – отражают величину дисперсии соответствующего количества факторов. В качестве упражнения рекомендуем выписать все эти формулы для получения расчетных значений по переменным. Например, для первого респондента:

1.23 = -.086(1.12) + .981(-1.16)

1.05 = -.072(1.12) - .978(-1.16)

1.08 = .994(1.12) + .027(-1.16)

1.16 = .997(1.12) - .040(-1.16)

Или в алгебраической форме:

Z стоимости путевки = a 11F 1 + a 12F 2

Z комфортабельности комплекса = a 2lF 1 + a 22F 2

Z температуры воздуха = a 31F 1 + a 32F 2

Z температуры воды = a 41F 1 + a 42F 2

Чем больше нагрузка, тем с большей уверенностью можно считать, что переменная определяет фактор. Комри и Ли (Comrey, Lee , 1992) предполагают, что нагрузки, превышающие 0.71 (объясняет 50% дисперсии), - превосходные, 0% дисперсии) - очень хорошие, 0%) - хорошие, 0%) - удовлетворительные и 0.32 (объясняет 10% дисперсии) - слабые.

Предположим, что вы проводите (до некоторой степени "глупое") исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, например, влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные? Вероятно, нет, т. к. рост является одной характеристикой человека, независимо от того, в каких единицах он измеряется.

Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния . Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили число переменных и заменили две одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.

ЭТАПЫ ВЫПОЛНЕНИЯ ФАКТОРНОГО АНАЛИЗА

Можно выделить девять этапов факторного анализа. Для наглядности представим эти этапы на схеме, а затем дадим им краткую характеристику.

Этапы выполнения факторного анализа приведены на рис.

Рис.

ФОРМУЛИРОВКА ПРОБЛЕМЫ И ПОСТРОЕНИЕ КОРРЕЛЯЦИОННОЙ МАТРИЦЫ

Формулировка проблемы. Необходимо четко определить цели факторного анализа. Переменные, подвергаемые факторному анализу, задаются исходя из прошлых исследований, теоретических выкладок либо по усмотрению исследователя. Необходимо, чтобы переменные измерялись в интервальной или относительной шкале. Опыт показывает, что объем выборки должен быть больше в четыре - пять раз, чем число переменных.

Построение корреляционной матрицы. В основе анализа лежит матрица корреляции между переменными. Целесообразность выполнения факторного анализа определяется наличием корреляций между переменными. Если же корреляции между всеми переменными небольшие, то факторный анализ проводить бесполезно. Переменные, тесно взаимосвязанные между собой, как правило, тесно коррелируют с одним и тем же фактором или факторами.

Для проверки целесообразности использования факторной модели существует несколько статистик. С помощью критерия сферичности Бартлетта проверяется нулевая гипотеза об отсутствии корреляции между переменными в генеральной совокупности. Это значит, что рассматривается утверждение о том, что корреляционная матрица совокупности - это единичная матрица, в которой все диагональные элементы равны единице, а все остальные равны нулю. Проверка с помощью критерия сферичности основана на преобразовании детерминанта корреляционной матрицы в статистику хи-квадрат. При большом значении статистики нулевую гипотезу отклоняют. Если же нулевую гипотезу не отклоняют, то выполнение факторного анализа нецелесообразно. Другая полезная статистика - критерий адекватности выборки Кайзера-Мейера-Олкина (КМО). Данный коэффициент сравнивает значения наблюдаемых коэффициентов корреляции со значениями частных коэффициентов корреляции. Небольшие значения КМО - статистики указывают на то, что корреляции между парами переменных нельзя объяснить другими переменными, а это значит, что использование факторного анализа нецелесообразно.

ФАКТОРНЫЙ АНАЛИЗ

Идея факторного анализа

При исследовании сложных объектов, явлений, систем факторы, определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а иногда неизвестно даже их число и смысл. Но для измерения могут быть доступны другие величины, так или иначе зависящие от интересующих нас факторов. Причем, когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках или свойствах объекта, эти признаки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.

Для выявления факторов, определяющих измеряемые признаки объектов, используются методы факторного анализа

В качестве примера применения факторного анализа можно указать изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению. О них можно судить только по поведению человека или характеру ответов на вопросы. Для объяснения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение индивидуума.
В основе различных методов факторного анализа лежит следующая гипотеза: наблюдаемые или измеряемые параметры являются лишь косвенными характеристиками изучаемого объекта, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосредственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами.

Цель факторного анализа – сконцентрировать исходную информацию, выражая большое число рассматриваемых признаков через меньшее число более ёмких внутренних характеристик явления, которые, однако, не поддаются непосредственному измерению

Установлено, что выделение и последующее наблюдение за уровнем общих факторов даёт возможность обнаруживать предотказные состояния объекта на очень ранних стадиях развития дефекта. Факторный анализ позволяет отслеживать стабильность корреляционных связей между отдельными параметрами. Именно корреляционные связи между параметрами, а также между параметрами и общими факторами содержат основную диагностическую информацию о процессах. Применение инструментария пакета Statistica при выполнении факторного анализа исключает необходимость использования дополнительных вычислительных средств и делает анализ наглядным и понятным для пользователя.

Результаты факторного анализа будут успешными, если удается дать интерпретацию выявленных факторов, исходя из смысла показателей, характеризующих эти факторы. Данная стадия работы весьма ответственная; она требует чёткого представления о содержательном смысле показателей, которые привлечены для анализа и на основе которых выделены факторы. Поэтому при предварительном тщательном отборе показателей для факторного анализа следует руководствоваться их смыслом, а не стремлением к включению в анализ как можно большего их числа.

Сущность факторного анализа

Приведём несколько основных положений факторного анализа. Пусть для матрицы Х измеренных параметров объекта существует ковариационная (корреляционная) матрица C , где р – число параметров, n – число наблюдений. Путем линейного преобразования X =QY +U можно уменьшить размерность исходного факторного пространства Х до уровня Y , при этом р "<<р . Это соответствует преобразованию точки, характеризующей состояние объекта в j -мерном пространстве, в новое пространство измерений с меньшей размерностью р ". Очевидно, что геометрическая близость двух или множества точек в новом факторном пространстве означает стабильность состояния объекта.

Матрица Y содержит ненаблюдаемые факторы, которые по существу являются гиперпараметрами, характеризующими наиболее общие свойства анализируемого объекта. Общие факторы чаще всего выбирают статистически независимыми, что облегчает их физическую интерпретацию. Вектор наблюдаемых признаков Х имеет смысл следствия изменения этих гиперпараметров.

Матрица U состоит из остаточных факторов, которые включают в основном ошибки измерения признаков x (i ). Прямоугольная матрица Q содержит факторные нагрузки, определяющие линейную связь между признаками и гиперпараметрами.
Факторные нагрузки – это значения коэффициентов корреляции каждого из исходных признаков с каждым из выявленных факторов. Чем теснее связь данного признака с рассматриваемым фактором, тем выше значение факторной нагрузки. Положительный знак факторной нагрузки указывает на прямую (а отрицательный знак – на обратную) связь данного признака с фактором.

Таким образом, данные о факторных нагрузках позволяют сформулировать выводы о наборе исходных признаков, отражающих тот или иной фактор, и об относительном весе отдельного признака в структуре каждого фактора.

Модель факторного анализа похожа на модели многомерного регрессионного и дисперсионного анализа. Принципиальное отличие модели факторного анализа в том, что вектор Y – это ненаблюдаемые факторы, а в регрессионном анализе – это регистрируемые параметры. В правой части уравнения (8.1) неизвестными являются матрица факторных нагрузок Q и матрица значений общих факторов Y.

Для нахождения матрицы факторных нагрузок используют уравнениеQQ т =S–V, где Q т – транспонированная матрица Q, V – матрица ковариаций остаточных факторов U, т.е. . Уравнение решается путем итераций при задании некоторого нулевого приближения ковариационной матрицы V(0). После нахождения матрицы факторных нагрузок Q вычисляются общие факторы (гиперпараметры) по уравнению
Y=(Q т V -1)Q -1 Q т V -1 X

Пакет статистического анализа Statistica позволяет в диалоговом режиме вычислить матрицу факторных нагрузок, а также значения нескольких заранее заданных главных факторов, чаще всего двух – по первым двум главным компонентам исходной матрицы параметров.

Факторный анализ в системе Statistica

Рассмотрим последовательность выполнения факторного анализа на примере обработки результатов анкетного опроса работников предприятия . Требуется выявить основные факторы, которые определяют качество трудовой жизни.

На первом этапе необходимо отобрать переменные для проведения факторного анализа. Используя корреляционный анализ, исследователь пытается выявить взаимосвязь исследуемых признаков, что, в свою очередь, даёт ему возможность выделить полный и безызбыточный набор признаков путём объединения сильно коррелирующих признаков.

Если проводить факторный анализ по всем переменным, то результаты могут получиться не совсем объективными, так как некоторые переменные определяется другими данными, и не могут регулироваться сотрудниками рассматриваемой организации.

Для того чтобы понять, какие показатели следует исключить, построим по имеющимся данным матрицу коэффициентов корреляции в Statistica: Statistics/ Basic Statistics/ Correlation Matrices/ Ok. В стартовом окне этой процедуры Product-Moment and Partial Correlations (рис. 4.3) для расчёта квадратной матрицы используется кнопка One variable list. Выбираем все переменные (select all), Ok, Summary. Получаем корреляционную матрицу.

Если коэффициент корреляции изменяется в пределах от 0,7 до 1, то это означает сильную корреляцию показателей. В этом случае можно исключить одну переменную с сильной корреляцией. И наоборот, если коэффициент корреляции мал, можно исключить переменную из-за того, что она ничего не добавит к общей сумме. В нашем случае сильной корреляции между какими-либо переменными не наблюдается, и факторный анализ будем проводить для полного набора переменных.

Для запуска факторного анализа необходимо вызвать модуль Statistics/ Multivariate Exploratory Techniques (многомерные исследовательские методы)/ Factor Analysis (факторный анализ). На экране появится окно модуля Factor Analysis.



Для анализа выбираем все переменные электронной таблицы; Variables (переменные): select all, Ok. В строке Input file (тип файла входных данных) указывается Raw Data (исходные данные). В модуле возможны два типа исходных данных – Raw Data (исходные данные) и Correlation Matrix – корреляционная матрица.

В разделе MD deletion задаётся способ обработки пропущенных значений:
* Casewise – способ исключения пропущенных значений (по умолчанию);
* Pairwise – парный способ исключения пропущенных значений;
* Mean substitution – подстановка среднего вместо пропущенных значений.
Способ Casewise состоит в том, что в электронной таблице, содержащей данные, игнорируются все строки, в которых имеется хотя бы одно пропущенное значение. Это относится ко всем переменным. В способе Pairwise игнорируются пропущенные значения не для всех переменных, а лишь для выбранной пары.

Выберем способ обработки пропущенных значений Casewise.

Statistica обработает пропущенные значения тем способом, который указан, вычислит корреляционную матрицу и предложит на выбор несколько методов факторного анализа.

После нажатия кнопки Ok появляется окно Define Method of Factor Extraction (определить метод выделения факторов).

Верхняя часть окна является информационной. Здесь сообщается, что пропущенные значения обработаны методом Casewise. Обработано 17 наблюдений и 17 наблюдений принято для дальнейших вычислений. Корреляционная матрица вычислена для 7 переменных. Нижняя часть окна содержит 3 вкладки: Quick, Advanced, Descriptives.

Во вкладке Descriptives (описательные статистики) имеются две кнопки:
1- просмотреть корреляции, средние и стандартные отклонения;
2- построить множественную регрессию.

Нажав на первую кнопку, можно посмотреть средние и стандартные отклонения, корреляции, ковариации, построить различные графики и гистограммы.

Во вкладке Advanced, в левой части, выберем метод (Extraction method) факторного анализа: Principal components (метод главных компонент). В правой части выбираем максимальное число факторов (2). Задаётся либо максимальное число факторов (Max no of factors), либо минимальное собственное значение: 1 (eigenvalue).

Нажимаем Ok, и Statistica быстро произвёдет вычисления. На экране появляется окно Factor Analysis Results (результаты факторного анализа). Как говорилось ранее, результаты факторного анализа выражаются набором факторных нагрузок. Поэтому далее будем работать с вкладкой Loadings.

Верхняя часть окна – информационная:
Number of variables (число анализируемых переменных): 7;
Method (метод выделения факторов): Principal components (главных компонент);
Log (10) determinant of correlation matrix (десятичный логарифм детерминанта корреляционной матрицы): –1,6248;
Number of factors extracted (число выделенных факторов): 2;
Eigenvalues (собственные значения): 3,39786 и 1,19130.
В нижней части окна находятся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа, числено и графически.
Factor rotation – вращение факторов, в данном выпадающем окне можно выбрать различные повороты осей. С помощью поворота системы координат можно получить множество решений, из которого необходимо выбрать интерпретируемое решение.

Существуют различные методы вращения координат пространства. Пакет Statistica предлагает восемь таких методов, представленных в модуле факторного анализа. Так, например, метод варимакс соответствует преобразованию координат: вращение, максимизирующее дисперсию. В методе варимакс получают упрощённое описание столбцов факторной матрицы, сводя все значения к 1 или 0. При этом рассматривается дисперсия квадратов нагрузок фактора. Факторная матрица, получаемая с помощью метода вращения варимакс, в большей степени инвариантна по отношению к выбору различных множеств переменных.

Вращение методом квартимакс ставит целью аналогичное упрощение только по отношению к строкам факторной матрицы. Эквимакс занимает промежуточное положение? при вращении факторов по этому методу одновременно делается попытка упростить и столбцы, и строки. Рассмотренные методы вращения относятся к ортогональным вращениям, т.е. в результате получаются некоррелированные факторы. Методы прямого облимина и промакс вращения относятся к косоугольным вращениям, в результате которых получаются коррелированные между собой факторы. Термин?normalized? в названиях методов указывает на то, что факторные нагрузки нормируются, то есть делятся на квадратный корень из соответствующей дисперсии.

Из всех предлагаемых методов, мы сначала посмотрим результат анализа без вращения системы координат – Unrotated. Если полученный результат окажется интерпретируемым и будет нас устраивать, то на этом можно остановиться. Если нет, можно вращать оси и посмотреть другие решения.

Щёлкаем по кнопке "Factor Loading" и смотрим факторные нагрузки численно.



Напомним, что факторные нагрузки – это значения коэффициентов корреляции каждой из переменных с каждым из выявленных факторов.

Значение факторной нагрузки, большее 0,7 показывает, что данный признак или переменная тесно связан с рассматриваемым фактором. Чем теснее связь данного признака с рассматриваемым фактором, тем выше значение факторной нагрузки. Положительный знак факторной нагрузки указывает на прямую (а отрицательный знак? на обратную) связь данного признака с фактором.
Итак, из таблицы факторных нагрузок было выявлено два фактора. Первый определяет ОСБ – ощущение социального благополучия. Остальные переменные обусловлены вторым фактором.

В строке Expl. Var (рис. 8.5) приведена дисперсия, приходящаяся на тот или иной фактор. В строке Prp. Totl приведена доля дисперсии, приходящаяся на первый и второй фактор. Следовательно, на первый фактор приходится 48,5 % всей дисперсии, а на второй фактор – 17,0 % всей дисперсии, всё остальное приходится на другие неучтенные факторы. В итоге, два выявленных фактора объясняют 65,5 % всей дисперсии.



Здесь мы также видим две группы факторов – ОСБ и остальное множество переменных, из которых выделяется ЖСР – желание сменить работу. Видимо, имеет смысл исследовать это желание более основательно на основе сбора дополнительных данных.

Выбор и уточнение количества факторов

Как только получена информация о том, сколько дисперсии выделил каждый фактор, можно возвратиться к вопросу о том, сколько факторов следует оставить. По своей природе это решение произвольно. Но имеются некоторые общеупотребительные рекомендации, и на практике следование им даёт наилучшие результаты.

Количество общих факторов (гиперпараметров) определяется путём вычисления собственных чисел (рис. 8.7) матрицы Х в модуле факторного анализа. Для этого во вкладке Explained variance (рис. 8.4) необходимо нажать кнопку Scree plot.


Максимальное число общих факторов может быть равно количеству собственных чисел матрицы параметров. Но с увеличением числа факторов существенно возрастают трудности их физической интерпретации.

Сначала можно отобрать только факторы, с собственными значениями, большими 1. По существу, это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий используется наиболее широко. В приведённом выше примере на основе этого критерия следует сохранить только 2 фактора (две главные компоненты).

Можно найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только "факториальная осыпь". В соответствии с этим критерием можно оставить в примере 2 или 3 фактора.
Из рис. видно, что третий фактор незначительно увеличивает долю общей дисперсии.

Факторный анализ параметров позволяет выявить на ранней стадии нарушение рабочего процесса (возникновение дефекта) в различных объектах, которое часто невозможно заметить путём непосредственного наблюдения за параметрами. Это объясняется тем, что нарушение корреляционных связей между параметрами возникает значительно раньше, чем изменение одного параметра. Такое искажение корреляционных связей позволяет своевременно обнаружить факторный анализ параметров. Для этого достаточно иметь массивы зарегистрированных параметров.

Можно дать общие рекомендации по использованию факторного анализа вне зависимости от предметной области.
* На каждый фактор должно приходиться не менее двух измеренных параметров.
* Число измерений параметров должно быть больше числа переменных.
* Количество факторов должно обосновываться, исходя из физической интерпретации процесса.
* Всегда следует добиваться того, чтобы количество факторов было намного меньше числа переменных.

Критерий Кайзера иногда сохраняет слишком много факторов, в то время как критерий каменистой осыпи иногда сохраняет слишком мало факторов. Однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике более важен вопрос о том, когда полученное решение может быть интерпретировано. Поэтому обычно исследуется несколько решений с большим или меньшим числом факторов, и затем выбирается одно наиболее осмысленное.

Пространство исходных признаков должно быть представлено в однородных шкалах измерения, т. к. это позволяет при вычислении использовать корреляционные матрицы. В противном случае возникает проблема "весов" различных параметров, что приводит к необходимости применения при вычислении ковариационных матриц. Отсюда может появиться дополнительная проблема повторяемости результатов факторного анализа при изменении количества признаков. Следует отметить, что указанная проблема просто решается в пакете Statistica путем перехода к стандартизированной форме представления параметров. При этом все параметры становятся равнозначными по степени их связи с процессами в объекте исследования.

Плохо обусловленные матрицы

Если в наборе исходных данных имеются избыточные переменные и не проведено их исключение корреляционным анализом, то нельзя вычислить обратную матрицу (8.3). Например, если переменная является суммой двух других переменных, отобранных для этого анализа, то корреляционная матрица для такого набора переменных не может быть обращена, и факторный анализ принципиально не может быть выполнен. На практике это происходит, когда пытаются применить факторный анализ к множеству сильно зависимых переменных, что иногда случается, например, в обработке вопросников. Тогда можно искусственно понизить все корреляции в матрице путём добавления малой константы к диагональным элементам матрицы, и затем стандартизировать её. Эта процедура обычно приводит к матрице, которая может быть обращена, и поэтому к ней применим факторный анализ. Более того, эта процедура не влияет на набор факторов, но оценки оказываются менее точными.

Факторное и регрессионное моделирование систем с переменными состояниями

Системой с переменными состояниями (СПС) называется система, отклик которой зависит не только от входного воздействия, но и от обобщенного постоянного во времени параметра, определяющего состояние. Регулируемый усилитель или аттенюатор? это пример простейшей СПС, в котором коэффициент передачи может дискретно или плавно изменяться по какому-либо закону. Исследование СПС обычно проводится для линеаризованных моделей, в которых переходный процесс, связанный с изменением параметра состояния, считается завершённым.

Аттенюаторы, выполненные на основе Г-, Т- и П-образного соединения последовательно и параллельно включённых диодов получили наибольшее распространение. Сопротивление диодов под воздействием управляющего тока может меняться в широких пределах, что позволяет изменять АЧХ и затухание в тракте. Независимость фазового сдвига при регулировании затухания в таких аттенюаторах достигается с помощью реактивных цепей, включенных в базовую структуру. Очевидно, что при разном соотношении сопротивлений параллельных и последовательных диодов может быть получен один и тот же уровень вносимого ослабления. Но изменение фазового сдвига будет различным.

Исследуем возможность упрощения автоматизированного проектирования аттенюаторов, исключающего двойную оптимизацию корректирующих цепей и параметров управляемых элементов. В качестве исследуемой СПС будем использовать электрически управляемый аттенюатор, схема замещения которого приведена на рис. 8.8. Минимальный уровень затухания обеспечивается в случае малого сопротивления элемента Rs и большого сопротивления элемента Rp. По мере увеличения сопротивления элемента Rs и уменьшения сопротивления элемента Rp вносимое ослабление увеличивается.

Зависимости изменения фазового сдвига от частоты и затухания для схемы без коррекции и с коррекцией приведены на рис. 8.9 и 8.10 соответственно. В корректированном аттенюаторе в диапазоне ослаблений 1,3-7,7 дБ и полосе частот 0,01?4,0 ГГц достигнуто изменение фазового сдвига не более 0,2°. В аттенюаторе без коррекции изменение фазового сдвига в той же полосе частот и диапазоне ослаблений достигает 3°. Таким образом, фазовый сдвиг уменьшен за счет коррекции почти в 15 раз.


Будем считать параметры коррекции и управления независимыми переменными или факторами, влияющими на затухание и изменение фазового сдвига. Это даёт возможность с помощью системы Statistica провести факторный и регрессионный анализ СПС с целью установления физических закономерностей между параметрами цепи и отдельными характеристиками, а также упрощения поиска оптимальных параметров схемы.

Исходные данные формировались следующим образом. Для параметров коррекции и сопротивлений управления, отличающихся от оптимальных в большую и меньшую стороны на сетке частот 0,01?4 ГГц, были вычислены вносимое ослабление и изменение фазового сдвига.

Методы статистического моделирования, в частности, факторный и регрессионный анализ, которые раньше не использовались для проектирования дискретных устройств с переменными состояниями, позволяют выявить физические закономерности работы элементов системы. Это способствует созданию структуры устройства исходя из заданного критерия оптимальности. В частности, в данном разделе рассматривался фазоинвариантный аттенюатор как типичный пример системы с переменными состояниями. Выявление и интерпретация факторных нагрузок, влияющих на различные исследуемые характеристики, позволяет изменить традиционную методологию и существенно упростить поиск параметров коррекции и параметров регулирования.

Установлено, что использование статистического подхода к проектированию подобных устройств оправдано как для оценки физики их работы, так и для обоснования принципиальных схем. Статистическое моделирование позволяет существенно сократить объём экспериментальных исследований.

Результаты

  • Наблюдение за общими факторами и соответствующими факторными нагрузками – это необходимое выявление внутренних закономерностей процессов.
  • С целью определения критических значений контролируемых расстояний между факторными нагрузками следует накапливать и обобщать результаты факторного анализа для однотипных процессов.
  • Применение факторного анализа не ограничено физическими особенностями процессов. Факторный анализ является как мощным методом мониторинга процессов, так и применим к проектированию систем самого различного назначения.
Национальный исследовательский ядерный университет «МИФИ»
Факультет бизнес-информатики и управления
комплексными системами
Кафедра экономики и менеджмента
в промышленности (№ 71)
Математические и инструментальные методы обработки
статистической информации
Киреев В.С.,
к.т.н., доцент
Email:
Москва, 2017
1

Нормализация

Десятичное масштабирование
Минимаксная нормализация
Нормализация с помощью стандартного преобразования
Нормализация с помощью поэлементных преобразований
2

Десятичное масштабирование

Vi
"
Vi k , max (Vi) 1
10
"
3

Минимаксная нормализация

Vi
Vi min (Vi)
"
i
max (Vi) min (Vi)
i
i
4

Нормализация с помощью стандартного отклонения

Vi
"
V
V
Vi V
V
- выборочное
среднее
- выборочное среднее квадратическое
отклонение
5

Нормализация с помощью поэлементных преобразований

Vi f Vi
"
Vi 1
"
log Vi
, Vi log Vi
"
Vi exp Vi
"
Vi Vi , Vi 1 y
Vi
"
y
"
6

Факторный анализ

(ФА) представляет собой совокупность методов, которые на
основе реально существующих связей анализируемых признаков, связей самих
наблюдаемых объектов, позволяют выявлять скрытые (неявные, латентные)
обобщающие характеристики организационной структуры и механизма развития
изучаемых явлений, процессов.
Методы факторного анализа в исследовательской практике применяются главным
образом с целью сжатия информации, получения небольшого числа обобщающих
признаков, объясняющих вариативность (дисперсию) элементарных признаков (Rтехника факторного анализа) или вариативность наблюдаемых объектов (Q-техника
факторного анализа).
Алгоритмы факторного анализа основываются на использовании редуцированной
матрицы парных корреляций (ковариаций). Редуцированная матрица – это матрица, на
главной диагонали которой расположены не единицы (оценки) полной корреляции или
оценки полной дисперсии, а их редуцированные, несколько уменьшенные величины. При
этом постулируется, что в результате анализа будет объяснена не вся дисперсия
изучаемых признаков (объектов), а ее некоторая часть, обычно большая. Оставшаяся
необъясненная часть дисперсии - это характерность, возникающая из-за специфичности
наблюдаемых объектов, или ошибок, допускаемых при регистрации явлений, процессов,
т.е. ненадежности вводных данных.
7

Классификация методов ФА

8

Метод главных компонент

(МГК) применяется для снижения размерности
пространства наблюдаемых векторов, не приводя к существенной потере
информативности. Предпосылкой МГК является нормальный закон распределения
многомерных векторов. В МГК линейные комбинации случайных величин определяются
характеристическими
векторами
ковариационной
матрицы.
Главные
компоненты представляют собой ортогональную систему координат, в которой дисперсии
компонент характеризуют их статистические свойства. МГК не относят к ФА, хотя он имеет
схожий алгоритм и решает схожие аналитические задачи. Его главное отличие
заключается в том, что обработке подлежит не редуцированная, а обычная матрица
парных корреляций, ковариаций, на главной диагонали которой расположены единицы.
Пусть дан исходный набор векторов X линейного пространства Lk. Применение
метода главных компонент позволяет перейти к базису пространства Lm (m≤k), такому
что: первая компонента (первый вектор базиса) соответствует направлению, вдоль
которого дисперсия векторов исходного набора максимальна. Направление второй
компоненты (второго вектора базиса) выбрано таким образом, чтобы дисперсия исходных
векторов вдоль него была максимальной при условии ортогональности первому вектору
базиса. Аналогично определяются остальные векторы базиса. В результате, направления
векторов базиса выбраны так, чтобы максимизировать дисперсию исходного набора
вдоль первых компонент, называемых главными компонентами (или главными
осями).Получается, что основная изменчивость векторов исходного набора векторов
представлена несколькими первыми компонентами, и появляется возможность, отбросив
менее существенные компоненты, перейти к пространству меньшей размерности.
9

10. Метод главных компонент. Схема

10

11. Метод главных компонент. Матрица счетов

Матрица счетов T дает нам проекции исходных образцов (J –мерных
векторов
x1,…,xI)
на
подпространство
главных
компонент
(A-мерное).
Строки t1,…,tI матрицы T – это координаты образцов в новой системе координат.
Столбцы t1,…,tA матрицы T – ортогональны и представляют проекции всех образцов на
одну новую координатную ось.
При исследовании данных методом PCA, особое внимание уделяется графикам
счетов. Они несут в себе информацию, полезную для понимания того, как устроены
данные. На графике счетов каждый образец изображается в координатах (ti, tj), чаще всего
– (t1, t2), обозначаемых PC1 и PC2. Близость двух точек означает их схожесть, т.е.
положительную корреляцию. Точки, расположенные под прямым углом, являются
некоррелироваными, а расположенные диаметрально противоположно – имеют
отрицательную корреляцию.
11

12. Метод главных компонент. Матрица нагрузок

Матрица нагрузок P – это матрица перехода из исходного пространства
переменных x1, …xJ (J-мерного) в пространство главных компонент (A-мерное). Каждая
строка матрицы P состоит из коэффициентов, связывающих переменные t и x.
Например, a-я строка – это проекция всех переменных x1, …xJ на a-ю ось главных
компонент. Каждый столбец P – это проекция соответствующей переменной xj на новую
систему координат.
График нагрузок применяется для исследования роли переменных. На этом
графике каждая переменная xj отображается точкой в координатах (pi, pj), например
(p1, p2). Анализируя его аналогично графику счетов, можно понять, какие переменные
связаны, а какие независимы. Совместное исследование парных графиков счетов и
нагрузок, также может дать много полезной информации о данных.
12

13. Особенности метода главных компонент

В основе метода главных компонент лежат следующие допущения:
допущение о том, что размерность данных может быть эффективно понижена
путем линейного преобразования;
допущение о том, что больше всего информации несут те направления, в которых
дисперсия входных данных максимальна.
Можно легко видеть, что эти условия далеко не всегда выполняются. Например,
если точки входного множества располагаются на поверхности гиперсферы, то никакое
линейное преобразование не сможет понизить размерность (но с этим легко справится
нелинейное преобразование, опирающееся на расстояние от точки до центра сферы).
Это недостаток в равной мере свойственен всем линейным алгоритмам и может быть
преодолен за счет использования дополнительных фиктивных переменных, являющихся
нелинейными функциями от элементов набора входных данных (т.н. kernel trick).
Второй недостаток метода главных компонент состоит в том, что направления,
максимизирующие дисперсию, далеко не всегда максимизируют информативность.
Например, переменная с максимальной дисперсией может не нести почти никакой
информации, в то время как переменная с минимальной дисперсией позволяет
полностью разделить классы. Метод главных компонент в данном случае отдаст
предпочтение первой (менее информативной) переменной. Вся дополнительная
информация, связанная с вектором (например, принадлежность образа к одному из
классов), игнорируется.
13

14. Пример данных для МГК

К. Эсбенсен. Анализ многомерных данных, сокр. пер. с англ. под
ред. О. Родионовой, Из-во ИПХФ РАН, 2005
14

15. Пример данных для МГК. Обозначения

Height
Рост: в сантиметрах
Weight
Вес: в килограммах
Hair
Волосы: короткие: –1, или длинные:
+1
Shoes
Обувь: размер по европейскому
стандарту
Age
Возраст: в годах
Income
Доход: в тысячах евро в год
Beer
Пиво: потребление в литрах в год
Wine
Вино: потребление в литрах в год
Sex
Пол: мужской: –1, или женский: +1
Strength
Сила: индекс, основанный на
проверке физических способностей
Region
Регион: север: –1, или юг: +1
IQ
Коэффициент интеллекта,
измеряемый по стандартному тесту
15

16. Матрица счетов

16

17. Матрица нагрузок

17

18. Объекты выборки в пространстве новых компонент

Женщины (F) обозначены кружками ● и ●, а
мужчины (M) – квадратами ■ и ■. Север (N)
представлен голубым ■, а юг (S) – красным
цветом ●.
Размер и цвет символов отражает доход – чем
больше и светлее, тем он больше. Числа
представляют возраст
18

19. Исходные переменные в пространстве новых компонент

19

20. График «каменистой осыпи» (scree plot)

20

21. Метод главных факторов

В парадигме метода главных факторов задача снижения размерности признакового
пространства выглядит так, что n признаков можно объяснить с помощью меньшего
количества m-латентных признаков - общих факторов, где m< исходными признаками и введёнными общими факторами (линейными комбинациями)
учитывают с помощью так называемых характерных факторов.
Конечная цель статистического исследования, проводимого с привлечением
аппарата факторного анализа, как правило, состоит в выявлении и интерпретации
латентных общих факторов с одновременным стремлением минимизировать как их
число, так и степень зависимости от своих специфических остаточных случайных
компонент.
Каждый признак
является результатом
воздействия m гипотетических общих и
одного характерного факторов:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2m m
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. Вращение факторов

Вращение - это способ превращения факторов, полученных на предыдущем этапе,
в более осмысленные. Вращение делится на:
графическое (проведение осей, не применяется при более чем двухмерном
анализе),
аналитическое (выбирается некий критерий вращения, различают ортогональное и
косоугольное) и
матрично-приближенное (вращение состоит в приближении к некой заданной
целевой матрице).
Результатом вращения является вторичная структура факторов. Первичная
факторная структура (состоящая из первичных нагрузок (полученных на предыдущем
этапе) - это, фактически, проекции точек на ортогональные оси координат. Очевидно, что
если проекции будут нулевыми, то структура будет проще. А проекции будут нулевыми,
если точка лежит на какой-то оси. Таким образом, можно считать вращение переходом от
одной системы координат к другой при известных координатах в одной системе(
первичные факторы) и итеративно подбираемых координатах в другой системе
(вторичные факторы). При получении вторичной структуры стремятся перейти к такой
системе координат, чтобы провести через точки (объекты) как можно больше осей, чтобы
как можно больше проекции (и соответственно нагрузок) были нулевыми. При этом могут
сниматься ограничения ортогональности и убывания значимости от первого к последнему
факторам, характерные для первичной структуры.
22

23. Ортогональное вращение

подразумевает, что мы будем вращать факторы, но не
будем нарушать их ортогональности друг другу. Ортогональное вращение
подразумевает умножение исходной матрицы первичных нагрузок на ортогональную
матрицу R(такую матрицу, что
V=BR
Алгоритм ортогонального вращения в общем случае таков:
0. B - матрица первичных факторов.
1.
Ищем
ортогональную
матрицу
RT
размера
2*2
для
двух
столбцов(факторов) bi и bj матрицы B такую, что критерий для матрицы
R максимален.
2.
Заменяем столбцы bi и bj на столбцы
3.
Проверяем, все ли столбцы перебрали. Если нет, то переход на 1.
4.
Проверяем, что критерий для всей матрицы вырос. Если да, то переход на 1. Если
нет, то конец алгоритма.
.
23

24. Варимаксное вращение

Этот критерий использует формализацию
дисперсию квадратов нагрузок переменной:
сложности
фактора
через
Тогда критерий в общем виде можно записать как:
При этом, факторные нагрузки могут нормироваться для избавления от
влияния отдельных переменных.
24

25. Квартимаксное вращение

Формализуем понятие факторной сложности q i-ой переменной через
дисперсию квадратов факторных нагрузок факторов:
где r - число столбцов факторной матрицы, bij - факторная нагрузка j-го
фактора на i-ю переменную, - среднее значение. Критерий квартимакс старается
максимизировать сложность всей совокупности переменных, чтобы достичь
легкости интерпретации факторов (стремится облегчить описание столбцов):
Учитывая, что
- константа (сумма собственных чисел матрицы
ковариации) и раскрыв среднее значение (а также учтя, что степенная функция
растет пропорционально аргументу), получим окончательный вид критерия для
максимизации:
25

26. Критерии определения числа факторов

Главной проблемой факторного анализа является выделение и интерпретация
главных факторов. При отборе компонент исследователь обычно сталкивается с
существенными трудностями, так как не существует однозначного критерия выделения
факторов, и потому здесь неизбежен субъективизм интерпретаций результатов.
Существует несколько часто употребляемых критериев определения числа факторов.
Некоторые из них являются альтернативными по отношению к другим, а часть этих
критериев можно использовать вместе, чтобы один дополнял другой:
Критерий Кайзера или критерий собственных чисел. Этот критерий предложен
Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только
факторы с собственными значениями равными или большими 1. Это означает, что если
фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной
переменной, то он опускается.
Критерий каменистой осыпи (англ. scree) или критерий отсеивания. Он является
графическим методом, впервые предложенным психологом Кэттелом. Собственные
значения возможно изобразить в виде простого графика. Кэттел предложил найти такое
место на графике, где убывание собственных значений слева направо максимально
замедляется. Предполагается, что справа от этой точки находится только
«факториальная осыпь» - «осыпь» является геологическим термином, обозначающим
обломки горных пород, скапливающиеся в нижней части скалистого склона.
26

27. Критерии определения числа факторов. Продолжение

Критерий значимости. Он особенно эффективен, когда модель генеральной
совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден
для поиска изменений в модели и реализуем только в факторном анализе по методу
наименьших квадратов или максимального правдоподобия.
Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле
детерминируемой дисперсии, когда процент дисперсии оказывается несущественным,
выделение следует остановить. Желательно, чтобы выделенные факторы объясняли
более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, вовторых, специфика данных может быть такова, что все главные факторы не смогут
совокупно объяснить желательного процента разброса. Поэтому главные факторы
должны вместе объяснять не меньше 50,1 % дисперсии.
Критерий интерпретируемости и инвариантности. Данный критерий сочетает
статистическую точность с субъективными интересами. Согласно ему, главные факторы
можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, в свою
очередь, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы
одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант -
если сильные нагрузки имеются, однако интерпретация затруднительна, от этой
компоненты предпочтительно отказаться.
27

28. Пример использования МГК

Пусть
имеются
следующие
показатели
экономической
деятельности
предприятия: трудоемкость (x1), удельный вес покупных изделий в продукции (x2),
коэффициент сменности оборудования (x3), удельный вес рабочих в составе предприятия
(x4), премии и вознаграждения на одного работника (x5), рентабельность (y). Линейная
регрессионная модель имеет вид:
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5
x1
x2
x3
x4
x5
y
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. Пример использования МГК

Построение регрессионной модели в статистическом пакете показывает,
коэффициент X4 не значим (p-Value > α = 5%) , и его можно исключить из модели.
что
После исключения X4 снова запускается процесс построения модели.
29

30. Пример использования МГК

Критерий Кайзера для МГК показывает, что можно оставить 2 компоненты, объясняющие
около 80% исходной дисперсии.
Для выделенных компонент можно построить уравнения в исходной системе координат:
U1 = 0,41*x1 - 0,57*x2 + 0,49*x3 - 0,52*x5
U2 = 0,61*x1 + 0,38*x2 - 0,53*x3 - 0,44*x5
30

31. Пример использования МГК

Теперь можно построить в новых компонентах новую регрессионную модель:
y = 15,92 - 3,74*U1 - 3,87*U2
31

32. Метод сингулярного разложения (SVD)

Beltrami и Jordan считаются основателями теории сингулярного
разложения. Beltrami – за то, что он первым опубликовал работу о
сингулярном разложении, а Jordan – за элегантность и полноту своей
работы. Работа Beltrami появилась в журнале “Journal of Mathematics for
the Use of the Students of the Italian Universities” в 1873 году, основная
цель которой заключалась в том, чтобы ознакомить студентов с
билинейными формами.Суть метода в разложении матрицы A размера n
x m с рангом d = rank (M) <= min(n,m) в произведение матриц меньшего
ранга:
A =UDVT,
где матрицы U размера n x d и V размера m x d состоят из
ортонормальных столбцов, являющихся собственными векторами при
ненулевых собственных значениях матриц AAT и ATA соответственно и
UTU = V TV = I , а D размера d x d - диагональная матрица с
положительными диагональными элементами, отсортированными в
порядке убывания. Столбцы матрицы U представляют собой,
ортонормальный базис пространства столбцов матрицы A, а столбцы
матрицы V – ортонормальный базис пространства строк матрицы A.
32

33. Метод сингулярного разложения (SVD)

Важным свойством SVD-разложения является тот факт, что если
для k только из k наибольших диагональных элементов, а также
оставить в матрицах U и V только k первых столбцов, то матрица
Ak=UkDkVkT
будет являться лучшей аппроксимацией матрицы A относительно
нормы Фробениуса среди всех матриц с рангом k.
Это усечение во-первых уменьшает размерность векторного
пространства, снижает требования хранения и вычислительные
требования к модели.
Во-вторых, отбрасывая малые сингулярные числа, малые
искажения в результате шума в данных удаляются, оставляя
только самые сильные эффекты и тенденции в этой модели.

Следующий пример основан на вымышленных данных, относящихся к изучению удовлетворенности жизнью. Предположим, что вопросник был направлен 100 случайно выбранным взрослым. Вопросник содержал 10 пунктов, предназначенных для определения удовлетворенности на работе, удовлетворенности своим хобби, удовлетворенностью домашней жизнью и общей удовлетворенностью в других областях жизни. Ответы на вопросы были введены в компьютер и промасштабированы таким образом, чтобы среднее для всех пунктов стало равным приблизительно 100.

Результаты были помещены в файл данных Factor.sta. Открыть этот файл можно с помощью опции Файл - Открыть; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets. Ниже приводится распечатка переменных этого файла (для получения списка выберите Все спецификации переменных в меню Данные).

Цель анализа . Целью анализа является изучение соотношений между удовлетворенностью в различных сферах деятельности. В частности, желательно изучить вопрос о числе факторов, "скрывающихся" за различными областями деятельности и их значимость.

Выбор анализа. Выберите Факторный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Факторный анализ. Нажмите на кнопку Переменные на стартовой панели (см. ниже) и выберите все 10 переменных в этом файле.



Другие опции . Для выполнения стандартного факторного анализа в этом диалоговом окне имеется все необходимое. Для получения краткого обзора других команд, доступных из стартовой панели, вы можете выбрать в качестве входного файла корреляционную матрицу (используя поле Файл данных). В поле Удаление ПД вы можете выбрать построчное или попарное исключение или подстановка среднего для пропущенных данных.

Задайте метод выделения факторов. Нажмем теперь кнопку OK для перехода к следующему диалоговому окну с названием Задайте метод выделения факторов. С помощью этого окна диалога вы сможете просмотреть описательные статистики, выполнить множественный регрессионный анализ, выбрать метод выделения факторов, выбрать максимальное число факторов, минимальные собственные значения, а также другие действия, относящиеся к специфике методов выделения факторов. А теперь перейдем во вкладку Описательные.



Просмотр описательных статистик. Теперь нажмите на кнопку Просмотреть корр./средние/ст.откл. в этом окне для того, чтобы открыть окно Просмотр описательных статистик.



Теперь вы можете рассмотреть описательные статистики графически или с помощью таблиц результатов.

Вычисление корреляционной матрицы. Нажмите на кнопку Корреляции во вкладке Дополнительно для того, чтобы отобразить таблицу результатов с корреляциями.



Все корреляции в этой таблице результатов положительны, а некоторые корреляции имеют значительную величину. Например, переменные Hobby_1 и Miscel_1 коррелированны на уровне 0.90. Некоторые корреляции (например, корреляции между удовлетворенностью на работе и удовлетворенностью дома) кажутся сравнительно малыми. Это выглядит так, как будто матрица имеет некоторую отчетливую структуру.

Метод выделения. Теперь нажмем кнопку Отмена в диалоговом окне Просмотр описательных статистик для того, чтобы вернуться в диалоговое окно Задайте метод выделения факторов. Вы можете сделать выбор из нескольких методов выделения во вкладке Дополнительно (см. вкладку Дополнительно диалогового окна Задайте метод выделения факторов для описания каждого метода, а также Вводный обзор с описанием метода Главных компонент и метода Главных факторов). В этом примере по умолчанию принимается метод Главных компонент, поле Макс. число факторов содержит значение 10 (максимальное число факторов в этом примере) и поле Мин. собств. значение содержит 0 (минимальное значение для этой команды).



Для продолжения анализа нажмите кнопку OK.

Просмотр результатов. Вы можете просмотреть результаты факторного анализа в окне диалога Результаты факторного анализа. Сначала выберите вкладку Объясненная дисперсия.



Отображение собственных значений . Назначение собственных значений и их полезность для пользователя при принятии решения о том, сколько следует оставить факторов (интерпретировать) были описаны в Вводном обзоре. Теперь нажмем на кнопку Собственные значения, чтобы получить таблицу с собственными значениями, процентом общей дисперсии, накопленными собственными значениями и накопленными процентами.


Как видно из таблицы, собственное значение для первого фактора равно 6.118369; т.е. доля дисперсии, объясненная первым фактором равна приблизительно 61.2%. Заметим, что эти значения случайно оказались здесь легко сравнимыми, так как анализу подвергаются 10 переменных, и поэтому сумма всех собственных значений оказывается равной 10. Второй фактор включает в себя около 18% дисперсии. Остальные факторы содержат не более 5% общей дисперсии. Выбор числа факторов. В разделе Вводный обзор кратко описан способ, как полученные собственные значения можно использовать для решения вопроса о том, сколько факторов следует оставить в модели. В соответствии с критерием Кайзера (Kaiser, 1960), вы должны оставить факторы с собственными значениями большими 1. Из приведенной выше таблицы следует, что критерий приводит к выбору двух факторов.

Критерий каменистой осыпи . Теперь нажмите на кнопку График каменистой осыпи, чтобы получить график собственных значений с целью применения критерия осыпи Кэттеля (Cattell, 1966). График, представленный ниже, был дополнен отрезками, соединяющими соседние собственные значения, чтобы сделать критерий более наглядным. Кэттель (Cattell) утверждает, основываясь на методе Монте-Карло, что точка, где непрерывное падение собственных значений замедляется и после которой уровень остальных собственных значений отражает только случайный "шум". На графике, приведенном ниже, эта точка может соответствовать фактору 2 или 3 (как показано стрелками). Поэтому испытайте оба решения и посмотрите, которое из них дает более адекватную картину.



Теперь рассмотрим факторные нагрузки.

Факторные нагрузки . Как было описано в разделе Вводный обзор, факторные нагрузки можно интерпретировать как корреляции между факторами и переменными. Поэтому они представляют наиболее важную информацию, на которой основывается интерпретация факторов. Сначала посмотрим на (неповернутые) факторные нагрузки для всех десяти факторов. Во вкладке Нагрузки диалогового окна Результаты факторного анализа в поле Вращение факторов зададим значение без вращения и нажмем на кнопку Факторные нагрузки для отображения таблицы нагрузок.



Вспомним, что выделение факторов происходило таким образом, что последующие факторы включали в себя все меньшую и меньшую дисперсию (см. раздел Вводный обзор). Поэтому не удивительно, что первый фактор имеет наивысшую нагрузку. Отметим, что знаки факторных нагрузок имеют значение лишь для того, чтобы показать, что переменные с противоположными нагрузками на один и тот же фактор взаимодействуют с этим фактором противоположным образом. Однако вы можете умножить все нагрузки в столбце на -1 и обратить знаки. Во всем остальном результаты окажутся неизменными.

Вращение факторного решения. Как описано в разделе Вводный обзор, действительная ориентация факторов в факторном пространстве произвольна, и всякое вращение факторов воспроизводит корреляции так же хорошо, как и другие вращения. Следовательно, кажется естественным повернуть факторы таким образом, чтобы выбрать простейшую для интерпретации факторную структуру. Фактически, термин простая структура был придуман и определен Терстоуном (Thurstone, 1947) главным образом для описания условий, когда факторы отмечены высокими нагрузками на некоторые переменные и низкими - для других, а также когда имеются несколько больших перекрестных нагрузок, т.е. имеется несколько переменных с существенными нагрузками на более чем один фактор. Наиболее стандартными вычислительными методами вращения для получения простой структуры является метод вращения варимакс, предложенный Кайзером (Kaiser, 1958). Другими методами, предложенными Харманом (Harman, 1967), являются методы квартимакс, биквартимакс и эквимакс (см. Harman, 1967).

Выбор вращения . Сначала рассмотрим количество факторов, которое вы желаете оставить для вращения и интерпретации. Ранее было решено, что наиболее правдоподобным и приемлемым числом факторов является два, однако на основе критерия осыпи было решено учитывать также и решение с тремя факторами. Нажмите на кнопку Отмена для того, чтобы возвратиться в окно диалога Задайте метод выделения факторов, и измените поле Максимальное число факторов во вкладке Быстрый с 10 на 3, затем нажмите кнопку OK для того, чтобы продолжить анализ.

Теперь выполним вращение по методу варимакс. Во вкладке Нагрузки диалогового окна Результаты факторного анализа в поле Вращение факторов установите значение Варимакс исходных.



Нажмем кнопку Факторные нагрузки для отображения в таблице результатов получаемых факторных нагрузок.


Отображение решения при вращении трех факторов. В таблице приведены существенные нагрузки на первый фактор для всех переменных, кроме относящихся к дому. Фактор 2 имеет довольно значительные нагрузки для всех переменных, кроме переменных связанных с удовлетворенностью на работе. Фактор 3 имеет только одну значительную нагрузку для переменной Home_1. Тот факт, что на третий фактор оказывает высокую нагрузку только одна переменная, наводит на мысль, а не может ли получиться такой же хороший результат без третьего фактора?

Обозрение решения при вращении двух факторов . Снова нажмите на кнопку Отмена в окне диалога Результаты факторного анализа для того, чтобы возвратиться к диалоговому окну Задайте метод выделения факторов. Измените поле Максимальное число факторов во вкладке Быстрый с 3 до 2 и нажмите кнопку OK для того, чтобы перейти в диалоговое окно Результаты факторного анализа. Во вкладке Нагрузки в поле Вращение факторов установите значение Варимакс исходных и нажмите кнопку Факторные нагрузки.


Фактор 1, как видно из таблицы, имеет наивысшие нагрузки для переменных, относящихся к удовлетворенности работой. Наименьшие нагрузки он имеет для переменных, относящихся к удовлетворенности домом. Другие нагрузки принимают промежуточные значения. Фактор 2 имеет наивысшие нагрузки для переменных, связанных с удовлетворенностью дома, низшие нагрузки - для удовлетворенности на работе средние нагрузки для остальных переменных.

Интерпретация решения для двухфакторного вращения . Можно ли интерпретировать данную модель? Все выглядит так, как будто два фактора лучше всего идентифицировать как фактор удовлетворения работой (фактор 1) и как фактор удовлетворения домашней жизнью (фактор 2). Удовлетворение своим хобби и различными другими аспектами жизни кажется относящимися к обоим факторам. Эта модель предполагает в некотором смысле, что удовлетворенность работой и домашней жизнью согласно этой выборке могут быть независимыми друг от друга, но оба дают вклад в удовлетворение хобби и другими сторонами жизни.

Диаграмма решения, основанного на вращении двух факторов . Для получения диаграммы рассеяния двух факторов нажмите на кнопку 2М график нагрузок во вкладке Нагрузки диалогового окна Результаты факторного анализа. Диаграмма, показанная ниже, попросту показывает две нагрузки для каждой переменной. Заметим, что диаграмма рассеяния хорошо иллюстрирует два независимых фактора и 4 переменных (Hobby_1, Hobby_2, Miscel_1, Miscel_2) с перекрестными нагрузками.



Теперь посмотрим, насколько хорошо может быть воспроизведена наблюдаемая ковариационная матрица по двухфакторному решению.

Воспроизведенная и остаточная корреляционная матрица. Нажмите на кнопку Воспроизведенные и остаточные корреляции во вкладке Объясненная дисперсия, для того чтобы получить две таблицы с воспроизведенной корреляционной матрицей и матрицей остаточных корреляций (наблюдаемых минус воспроизведенных корреляций).



Входы в таблице Остаточных корреляций могут быть интерпретированы как "сумма" корреляций, за которые не могут отвечать два полученных фактора. Конечно, диагональные элементы матрицы содержат стандартное отклонение, за которое не могут быть ответственны эти факторы и которые равны квадратному корню из единица минус соответствующие общности для двух факторов (вспомним, что общностью переменной является дисперсия, которая может быть объяснена выбранным числом факторов). Если вы тщательно рассмотрите эту матрицу, то сможете увидеть, что здесь фактически не имеется остаточных корреляций, больших 0.1 или меньшие -0.1 (в действительности только малое количество из них близко к этой величине). Добавим к этому, что первые два фактора включают около 79% общей дисперсии (см. накопленный % собственных значений в таблице результатов).

"Секрет" удачного примера . Пример, который вы только что изучили, на самом деле дает решение двухфакторной задачи, близкое к идеальному. Оно определяет большую часть дисперсии, имеет разумную интерпретацию и воспроизводит корреляционную матрицу с умеренными отклонениями (остаточными корреляциями). На самом деле реальные данные редко позволяют получить такое простое решение, и в действительности это фиктивное множество данных было получено с помощью генератора случайных чисел с нормальным распределением, доступного в системе. Специальным образом в данные были "введены" два ортогональных (независимых) фактора, по которым были сгенерированы корреляции между переменными. Этот пример факторного анализа воспроизводит два фактора такими, как они и были, (т.е. фактор удовлетворенности работой и фактор удовлетворенности домашней жизнью). Таким образом, если бы явление (а не искусственные, как в примере, данные) содержало эти два фактора, то вы, выделив их, могли бы кое-что узнать о скрытой или латентной структуре явления.

Другие результаты . Прежде, чем сделать окончательное заключение, дадим краткие комментарии к другим результатам.

Общности . Для получения общностей решения нажмите на кнопку Общности во вкладке Объясненная дисперсия диалогового окна Результаты факторного анализа. Вспомним, что общность переменной - это доля дисперсии, которая может быть воспроизведена при заданном числе факторов. Вращение факторного пространства не влияет на величину общности. Очень низкие общности для одной или двух переменных (из многих в анализе) могут указывать на то, что эти переменные не очень хорошо объяснены моделью.

Коэффициенты значений. Коэффициенты факторов могут быть использованы для вычисления значений факторов для каждого наблюдения. Сами коэффициенты представляет обычно малый интерес, однако факторные значения полезны при проведении дальнейшего анализа. Для отображения коэффициентов нажмите кнопку Коэффициенты значений факторов во вкладке Значения диалогового окна Результаты факторного анализа.

Значения факторов. Факторные значения могут рассматриваться как текущие значения для каждого опрашиваемого респондента (т.е. для каждого наблюдения исходной таблицы данных). Кнопка Значения факторов во вкладке Значения диалогового окна Результаты факторного анализа позволяет вычислить факторные значения. Эти значения можно сохранить для дальнейшего нажатием кнопки Сохранить значения.

Заключительный комментарий. Факторный анализ - это непростая процедура. Всякий, кто постоянно использует факторный анализ со многими (например, 50 или более) переменными, мог видеть множество примеров "патологического поведения", таких, как: отрицательные собственные значения и не интерпретируемые решения, особые матрицы и т.д. Если вы интересуетесь применением факторного анализа для определения или значащих факторов при большом числе переменных, вам следует тщательно изучить какое-либо подробное руководство (например, книгу Хармана (Harman, 1968)). Таким образом, так как многие критические решения в факторном анализе по своей природе субъективны (число факторов, метод вращения, интерпретация нагрузок), будьте готовы к тому, что требуется некоторый опыт, прежде чем вы почувствуете себя уверенным в нем. Модуль Факторный анализ был разработан специально для того, чтобы сделать легким для пользователя интерактивное переключение между различным числом факторов, вращениями и т.д., так чтобы испытать и сравнить различные решения.

Этот пример взят из справочной системы ППП STATISTICA фирмы StatSoft



Понравилась статья? Поделитесь ей