Читайте также:
|
|
Факторный (или многофакторный) анализ может быть использован во всех тех случаях решения практических задач, когда какое-либо явление выявляется только при анализе большого количества наблюдений. К таким предметным областям исследований относится многочисленная эмпирическая информация биосферы, геохимии, биогеохимии, эпизоотологии, петрохимии и т. д., когда необходимо установить (исследовать) причинность взаимозависимых или взаимообусловленных факторов системы (процесса), закономерности факторно-пространственного распространения болезней или их количественного проявления.
Факторный анализ как статистический метод был разработан и изложен в работах С. Спирмена (1904), Г. Томпсона (1916), Л. Тэрстоуна (1935) и некоторых других авторов.
Первоначально факторный анализ применялся только в психологии, но в связи с появлением ЭВМ возможности его использования расширились, и в настоящее время его можно применять во многих областях жизнедеятельности – географии, геологии, экологии, медицине и в социальных науках – однако основная трудность при этом – отсутствие необходимых знаний. Только по этой причине факторный анализ используется крайне редко.
Обработка данных этим методом важна, когда цель исследования заключается в выявлении смысла зависимостей между переменными. Например, нас интересует характер связей между долей неблагополучных фактов по какой-либо болезни и другими переменными, взятыми в анализ (заболеваемость, плотность населения, плотность населенных пунктов, осадки и т. п.). Если число изучаемых переменных велико, то обычно неясен смысл связей. Поэтому для интерпретации результатов наблюдений за многими переменными полезно провести их преобразование, используя факторный анализ.
Обычно в факторном анализе рассматривается группа объектов, характеризующихся некоторыми общими для них свойствами. В каждом конкретном случае термину «объект» могут соответствовать самые различные элементы: животные, районы, зоны и т. д. Измерения общих свойств (признаков) этих объектов называются значениями их параметров (переменных).
Факторный анализ дает возможность с достаточной точностью рассчитывать корреляционную структуру между относительно большим числом наблюдаемых параметров (переменных) посредством меньшего числа простых факторов.
Применительно к задачам эпизоотологии это означает, что поведение всей системы (эпизоотического процесса), на которую оказывают воздействие многие переменные, может быть описано с помощью небольшого числа наиболее значимых факторов.
Как уже выше говорилось, численное выражение какого-либо признака объекта называется его параметром. Например, если мы рассматриваем несколько географических районов, как группу объектов, то эти районы можно характеризовать, в частности, такими признаками, как высота над уровнем моря, среднегодовая температура воздуха, плотность населения и т. п. Для каждого конкретного района эти признаки, измеренные в принятых единицах, вообще говоря, различны. Измерения данных признаков и будут в нашем случае параметрами группы объектов.
Индекс i используется для обозначения любого объекта (i = l, 2, 3,..., N).
Отдельный параметр обозначается через хj, где j = 1, 2, 3,..., п.
Основное уравнение факторного анализа можно записать следующим образом:
(1) |
Здесь т число факторов (m < n), с помощью которых можно описать n коррелирующихся между собой параметров. F1, F2,..., Fm – это так называемые общие факторы, учитывающие корреляции между параметрами. еj – так называемые характерные факторы; они учитывают остаточную дисперсию (в том числе связанную с различными погрешностями).
Эти п случайных величин еj независимы между собой. Математически это означает, что коэффициент корреляции между любыми двумя еj и еk (j = 1, 2, 3,..., п; k = 1, 2, 3, …, п; j ≠ k) равен нулю.
Коэффициенты при факторах аj 1, аj 2,... ajm называют нагрузками j -го параметра на факторы F 1, F 2 ,..., Fm.
В факторном анализе для получения оценок нагрузок на факторы используются различные методы. Но независимо от используемого метода первым этапом факторного анализа обычно является вычисление коэффициентов корреляции между всеми изучаемыми параметрами. Факторный анализ объясняет матрицу корреляций между параметрами наличием небольшого числа гипотетических переменных или факторов.
Главная цель факторного анализа – сжатие информации, экономное описание экспериментальных данных. Это, однако, не означает, что методами факторного анализа всегда ищут фундаментальные категории (факторы) в данной области исследования, например при анализе эпизоотического процесса. Иногда необходимо по возможности наиболее полно проанализировать набор переменных, характеризующих эпизоотический процесс.
Но и в этом случае факторы не могут полностью описать ситуацию хотя бы потому, что некоторые переменные, оказывающие влияние на процесс, не взяты в анализ. Теоретически задача исчерпывающе полного описания неразрешима; однако в практических исследованиях с ограниченным кругом решаемых вопросов и небольшим числом рассматриваемых переменных она вполне разрешима. Надо только помнить, что факторный анализ всегда дает интерпретацию лишь данного экспериментального материала и, следовательно, сжатое описание лишь данного набора переменных.
Большинство методов, используемых в факторном анализе для оценок факторных нагрузок, достаточно сложно из-за большого объема требуемых вычислений. С внедрением в научные исследования ЭВМ эго затруднение устраняется.
Для обучения исследования факторных взаимосвязей в системе из небольшого числа параметров воспользуемся простым аппроксимационным (приближенным) методом, который можно осуществить на инженерных калькуляторах. Одним из них является центроидный метод (или метод простого суммирования). Этот метод заслуживает внимания, так как оценки факторных нагрузок, которые он дает, достаточны для многих практических целей. Изучим центроидный метод факторного анализа на примере, который носит чисто иллюстративный характер.
Для исследования взяты (Таршис, Константинов,1975, с. 103–119) 14 административных районов из двух областей и одной автономной республики России, которые достаточно хорошо представляют природные условия Европейской России. Таким образом, число объектов N равно 14 (вообще конкретные исследования требуют большей выборки для повышения достоверности), однако для ручного счета на калькуляторах такого количества данных достаточно. Параметры, по которым проводился факторный анализ, были отобраны следующие:
1) число вспышек болезни (эмфизематозного карбункула) за 20 лет;
2) площадь территории, на которой преобладают почвы определенного типа, приходящаяся на 100 животных (крупный рогатый скот);
3) среднегодовая температура воздуха;
4) годовое количество осадков.
В пределах этих районов встречается более 15 типов почв. Для уменьшения числа параметров и соответственно упрощения примера эти почвы были расклассифицированы на три группы по степени близости между собой на:
черноземы всякие;
лесные, темно-серые лесные почвы и т. п.;
дерновые, подзолы, луговые почвы и т. п.
Конечно, подобная классификация в известной мере произвольна, но она допустима, когда надо сжать информацию.
Таким образом, число параметров п = 6 (число вспышек болезни, 3 типа почв, температура, осадки).
В табл. 1 приведены значения параметров каждого из 14 объектов.
А. Первым этапом факторного анализа, как уже указывалось выше, является вычисление коэффициентов корреляции между всеми изучаемыми параметрами.
Вместо обычного коэффициента корреляции можно воспользоваться и ранговыми коэффициентами корреляции.
Оценка для обычного коэффициента корреляции определяется, как известно, по формуле
(2) |
Вычисляются все коэффициенты корреляции между параметрами и заносятся в таблицу, в которой п строк и п столбцов. На пересечении j -й строки и k- го столбца помещается коэффициент корреляции между j -м и k- м параметрами rjk. Так, в табл. 2 на пересечении пятой строки и шестого столбца находится коэффициент корреляции r 56 (между температурой воздуха и осадками). Всего в таблицу заносим п×п коэффициентов корреляции. Так как коэффициент корреляции симметричен относительно индексов (т. е. rjk = rkj,), а корреляция параметра с собой равна единице, то вычислять надо коэффициентов корреляции, расположенных выше (или ниже) диагонали, проведенной из левого верхнего угла таблицы в правый нижний. В нашем примере п = 6, т. е. надо вычислить 15 коэффициентов, корреляции. В случае десяти параметров таких коэффициентов надо вычислить уже 45. Отсюда становится понятной трудность проведения факторного анализа при большом числе переменных без ЭВМ.
Таблица 1. Исходная выборка переменных величин параметров
Рай-оны | П а р а м е т р ы | |||||
Число вспышек болезни | чернозем км2/100 голов | лесные и т. п. км2/100 голов | дерновые луговые и т. п. км2/100 голов | Темпе-ратура воздуха | осадки | |
Переменные величины параметров | ||||||
6,98 | 3,1 | |||||
3,78 | 5,0 | |||||
8,08 | 2,5 | |||||
3,73 | 5,1 | |||||
1,78 | 0,99 | 0,2 | 5,6 | |||
0,78 | 1,18 | 0,78 | 5,7 | |||
9,48 | 2,37 | 1,2 | ||||
34,03 | 10,47 | 0,7 | ||||
3,02 | 1,52 | 3,02 | 2,5 | |||
8,82 | 2,2 | 0,8 | ||||
3,82 | 1,42 | 2,6 | ||||
3,17 | 2,38 | 2,5 | ||||
5,56 | 2,12 | 1,8 | ||||
7,39 | 3,1 | |||||
Сумма | 72,41 | 17,72 | 39,04 | 42,2 | ||
Среднее | 29,86 | 5,17 | 1,27 | 2,79 | 3,01 |
Диагональные элементы таблицы, т. е. элементы, стоящие на пересечении строки и столбца с одинаковым номером имеют коэффициент корреляции, равным единице (так как r 11 = r 22 = r 33 = rnn = 1).
Заполнив таблицу, мы получили матрицу корреляций (6 × 6) между параметрами.
Матрица симметрична относительно главной диагонали, т. е. при замене строк столбцами с тем же номером матрица остается той же.
Для того чтобы начать собственно факторный анализ, надо заменить диагональные элементы матрицы (табл. 2), т. е. коэффициенты корреляции, равные 1,000, надо заменить на факторные дисперсии.
Таблица 2. Матрица корреляций шести типов переменных
Параметры | ||||||
вспышки заболевания | чернозем | лесные и т. п. | дерновые и т. п. | температура | Осадки | |
1. Вспышки заболевания | 1,000 | 0,543 | 0,021 | 0,035 | –0,426 | –0,336 |
2. Чернозем | 0,543 | 1,000 | –0,016 | 0,391 | –0,495 | –0,369 |
3. Лесные почвы | 0,021 | –0,016 | 1,000 | –0,042 | –0,037 | –0,048 |
4. Дерновые почвы | 0.035 | 0,391 | –0,042 | 1,000 | –0,348 | 0,128 |
5. Температу-ра воздуха | –0,426 | –0,495 | –0,037 | –0,348 | 1,000 | 0,621 |
6. Осадки | –0,336 | –0,369 | –0,048 | 0,128 | 0,621 | 1,000 |
Числа, которые вписывают по диагонали таблицы, носят название факторных дисперсий, или общностей; их величина не превышает единицы. Факторная дисперсия, или общность, представляет долю полной дисперсии параметра, которую вносят т общих факторов. Иначе говоря, она является разностью между полной дисперсией и остаточной дисперсией (остаточная дисперсия дается членом еj в формуле 1). Так как общность, а обычно и число факторов т вначале неизвестны, то они берутся из опыта. Это приводит к приблизительному решению задачи в виде первых оценок нагрузок на факторы. Из этих нагрузок получают новые оценки общностей.
Окончательное решение достигается путем последовательных итераций (итерация – неоднократно применяемая какая-либо математическая операция) до момента, когда последующий результат итерации будет мало отличаться от предыдущего. Сходимость процесса обычно достаточно быстрая.
В качестве первых приближений общностей возьмем наибольшие по абсолютной величине (так как общности всегда положительны) коэффициенты корреляции в каждом столбце и подставим в пустые диагональные графы таблицы. Прежде чем начать анализ, минимизируем число отрицательных коэффициентов корреляции. Для этого берем параметр, у коэффициентов корреляции которого наибольшее число минусов. В нашем случае коэффициенты корреляции третьего и пятого параметров имеют по четыре минуса. Однако величины самих коэффициентов у пятого параметра значительно больше, поэтому меняем знак у пятого параметра.
Сначала заменим знаки на противоположные в пятой строке, затем в пятом столбце (диагональный элемент остается положительным).
После этого наибольшее число минусов остается у шестого параметра. Проделываем ту же операцию по замене знака у него, как у пятого параметра.
После этого матрица корреляций приняла вид, изображенный в табл. 3.
Таблица 3. Матрица корреляций шести типов переменных с первыми приближениями общностей по диагонали
Итоговая сумма (Т) | |||||||
1. Всп. | (0,543) | 0,543 | 0,021 | 0,035 | –0,426 | –0,336 | |
2. Черноз. | 0,543 | (0,543) | –0,016 | 0,391 | –0,495 | –0,369 | |
3. Лесные | 0,021 | –0,016 | (0,048) | –0,042 | –0,037 | –0,048 | |
4. Дерн. | 0.035 | 0,391 | –0,042 | (0,391) | –0,348 | 0,128 | |
5. Темпе-ратура (–) | –0,426 | –0,495 | –0,037 | –0,348 | (0,621) | 0,621 | |
6. Осадки (–) | –0,336 | –0,369 | –0,048 | 0,128 | 0,621 | (0,621) | |
Сумма | 1,904 | 2,325 | 0,096 | 0,995 | 2,548 | 1,867 | 9,735 |
Нагрузки на первый фактор | 0,61 | 0,745 | 0,031 | 0.319 | 0,817 | 0,598 | Сумма 3,12 |
Параметры, у которых произошла замена знака, называются отраженными.
Б. Следующим этапом является суммирование столбцов матрицы (табл. 3) и нахождение полной суммы коэффициентов корреляции Т.
В нашем примере Т = 9,735. Извлечем квадратный корень из этой суммы: .
Разделим на это число суммы в соответствующих столбцах; получим первые оценки нагрузок на первый фактор (см. табл. 3).
Контролировать вычисление можно с помощью суммы нагрузок, которая должна быть равной делителю (с точностью до ошибки округления): 0,61 + 0,745 + 0,031 + 0,319 + 0,817 + 0,598 = 3,12 = .
В. Исключим теперь влияние первого фактора из первоначальной матрицы (табл. 3).
Для этого образуем новую матрицу из полученной строки нагрузок следующим образом: разместим полученные нагрузки вдоль строк и столбцов (табл. 4).
Таблица 4. Новая матрица значений из полученной строки нагрузок
Нагрузки | ||||||
0,610 | 0,745 | 0,031 | 0,319 | 0,817 | 0,598 | |
1. 0,610 | ||||||
2. 0,745 | 0,454 | |||||
3. 0,031 | 0,019 | 0,023 | ||||
4. 0,319 | 0,194 | 0,238 | 0,010 | |||
5. 0,817 | 0,498 | 0,609 | 0,025 | 0,261 | ||
6. 0,598 | 0,365 | 0,446 | 0,018 | 0,191 | 0,489 |
Каждая пустая клетка таблицы (кроме диагональных) заменяется произведением нагрузок той строки и столбца, на пересечении которых она находится. Заполняется лишь половина таблицы (левее или правее диагонали), так как матрица симметрична.
Затем из каждого коэффициента первоначальной матрицы (табл. 3) вычитаем соответствующий коэффициент полученной матрицы (табл. 4). Результат заносим в новую таблицу (табл. 5). Например, на пересечении второй строки и первого столбца первоначальной матрицы стоит величина 0,543. В полученной матрице (табл. 4) на этом месте стоит 0,454 (0,745 × 0,61 = 0,454).
Таблица 5. Первая остаточная матрица корреляций
Параметры | ||||||
1. Всп... | () | 0,089 | 0,002 | –0,159 | –0,072 | –0,029 |
2. Черно… | 0,089 | () | –0,039 | 0,153 | –0,114 | –0,077 |
3. Лесные | 0,002 | –0,039 | () | –0,052 | 0,012 | 0,030 |
4. Дернов.. | –0,159 | 0,153 | –0,052 | () | 0,087 | –0,319 |
5. Темпе… | –0,072 | –0,114 | 0,012 | 0,087 | () | 0,132 |
6. Осадки | –0,029 | –0,077 | –0,030 | –0,319 | 0,132 | () |
Разность 0,543–0,454=0,089 заносим в табл. 5. Заполнив всю таблицу, мы получим первую матрицу остаточных корреляций. Прежде чем продолжить анализ, мы должны минимизировать число отрицательных знаков таким же образом, как и перед началом анализа (пункт А). Поместим на место диагональных элементов наибольшие коэффициенты из каждого столбца (табл. 6). Далее, повторив вычисления пункта В, получим первые оценки нагрузок на второй фактор (табл. 6).
Из-за громоздкости вычислений нагрузку на третий фактор вычислять не будем.
Г. Параметры, у которых изменяли знаки на каждой стадии процесса, должны в самом конце восстановить их. В нашем примере это означает, что нагрузки на первый фактор параметров 5 и 6, приведенные в последней строке табл. 3, и нагрузки на второй фактор параметров 1, 2 и 4, приведенные в последней строке табл. 6, надо взять со знаком минус.
В табл. 7 даны нагрузки на оба фактора после восстановления знаков и новые оценки общности, полученные в виде суммы квадратов нагрузок для каждого параметра. Так, для параметра 1 имеем: 0,6102 + (–0,112)2 = 0,384.
Таблица 6. Первая остаточная матрица корреляций с измененными знаками (по диагонали в скобках первые оценки общностей по второму фактору)
Параметры | (–) 1 | (–) 2 | (–) 4 | Итого-вая сумма | |||
1. Всп. (–) | (0,159) | 0,089 | –0,002 | –0,159 | 0,072 | 0,029 | |
2. Чер. (–) | 0,089 | (0,114) | 0,039 | 0,153 | 0,114 | 0,077 | |
3. Лесные | –0,002 | 0,039 | (0,052) | 0,052 | 0,012 | 0,030 | |
4. Дер. (–) | –0,159 | 0,153 | 0,052 | (0.319) | –0,087 | 0,319 | |
5. Темпер. | 0,072 | 0,114 | 0,012 | –0,087 | (0,132) | 0,132 | |
6. Осадки | 0,029 | 0,077 | 0,030 | 0,319 | 0,132 | (0.319) | |
Сумма | 0,188 | 0,586 | 0,183 | 0,597 | 0,375 | 0,906 | Т = 2,835 |
Нагрузки на 2-й фактор | 0,112 | 0,348 | 0,109 | 0,355 | 0,223 | 0,538 | Сумма нагрузок 1,683 |
Таблица 7. Первые оценки факторных нагрузок на переменные
Факторные значения | Параметры | |||||
I фактор | 0,610 | 0,745 | 0,031 | 0,319 | –0,817 | –0,598 |
II фактор | –0,112 | –0,348 | 0,109 | –0,355 | 0,223 | 0,538 |
Факторные дисперсии (общности) | 0,384 | 0,676 | 0,013 | 0,228 | 0,717 | 0,647 |
Для получения более точных оценок нагрузок надо вписать в диагональные клетки первоначальной матрицы (табл. 3) полученные оценки общностей и повторить процесс с пункта В.
Оценки факторных нагрузок после второй и третьей итераций представлены в таблицах 8 и 9.
Таблица 8. Вторые оценки факторных нагрузок на переменные
Факторные значения | Параметры | |||||
I фактор | 0,562 | 0,792 | 0,020 | 0,268 | –0,852 | –0,610 |
II фактор | –0,086 | –0,458 | 0,100 | –0,334 | 0,242 | 0,491 |
Факторные дисперсии | 0,323 | 0,838 | 0,010 | 0,184 | 0,785 | 0,613 |
Таблица 9. Третьи оценки факторных нагрузок на переменные
Факторы | Параметры | Диспер-сии, % | |||||
I фактор | 0,540 | 0,841 | 0,019 | 0,253 | –0,871 | –0,596 | 36,3 |
II фактор | –0,058 | –0,515 | 0,099 | –0,317 | 0,293 | 0,466 | 11,4 |
Обычно 3–4 итераций бывает достаточно.
Если вычислять сумму квадратов нагрузок по каждому фактору, то получим итоговый вклад каждого фактора в суммарную дисперсию шести параметров.
Нормированная дисперсия параметра равна единице. Всего в нашем примере шесть параметров. Следовательно, суммарная дисперсия равна шести. Вклад первого фактора равен 0,5402 + 0,84l2 + 0,0192 + 0,2532 + (–0,871)2 + (–0,596)2 = 2,177, т. е. 36,3 %. Вклад второго фактора равен 0,683, т. е. 11,4 % (см. табл. 9.).
Д. Вращение факторов. Построим график, где оси – факторы, а координаты точек – факторные нагрузки. Это сделано на рисунке 1, где видно, что пять параметров имеют тесную связь (точки 1, 2, 4, 5, 6), так как лежат в пределах острого угла а. Корреляции между параметрами в факторном пространстве (прямоугольные координаты) зависят от длин векторов и угла между ними и не зависят от ориентации координатных осей. Например; коэффициент корреляции в факторном пространстве между пятым и шестым параметром равен (рис. 1) произведению длин векторов, проведенных из начала координат в точки, соответствующие пятому и шестому параметрам, умноженному на косинус угла между ними,
r 56 = OP · OR ·cos γ.
Если мы повернем оси координат по часовой стрелке на угол θ, то увидим, что это вращение на взаимное расположение векторов не повлияло, и, следовательно, коэффициенты корреляции остаются теми же.
Оси координат можно поворачивать, получая различные нагрузки на факторы (постоянной остается доля дисперсии, приходящаяся на все факторы).
Рис. 1. Графическое изображение факторных параметров до вращения.
Рис. 2. Вид факторного решения после вращения факторов.
Обычно для удобства интерпретации факторного решения угол вращения подбирается так, чтобы параметры, которые измеряют некоторые хорошо опознаваемые свойства изучаемой системы, имели бы столь высокие нагрузки на один фактор, насколько это возможно (этому фактору и присваивается соответствующее этим параметрам название). В нашем примере мы можем поступить согласно этой рекомендации, если повернем оси по часовой стрелке, так чтобы ось первого фактора прошла через точку 2 (рис. 1, рис. 2).
Чтобы получить нагрузки на факторы в новой системе координат, надо сначала найти угол поворота θ. Его легко найти вычислением, так как отношение нагрузок на факторы второго параметра, через который Проведена новая горизонтальная ось, равно tg θ:
,
т. е. θ = 31º29´; sin θ = 0,522; cos θ = 0,853.
Если записать столбцом матрицу табл. 9, то получим матрицу (6×2) (табл. 9.10а). Для получения факторных нагрузок в новой системе координат ее надо умножить на матрицу поворота на угол θ (по часовой стрелке):
.
Если осуществить поворот против часовой стрелки, то матрица поворота имеет вид:
.
Технику вычислений можно описать следующим образом. Новая матрица такого же размера (т. е. 6×2), как и первоначальная (табл. 10a); элемент, находящийся на пересечении j -ой строки и k- го столбца (j = 1, 2,..., 6; k = 1, 2), получается как сумма произведений каждого элемента j -ой строки матрицы таблицы 9.10a на соответствующий элемент k- го столбца матрицы поворота (табл. 10б). Причем первый член строки умножается на первый член столбца, второй член строки на второй член столбца.
Таблица 10а
Номер параметра | F 1 | F 2 |
–0,540 | –0,058 | |
0,841 | –0,515 | |
0,019 | 0,099 | |
0,253 | –0,317 | |
–0,871 | 0,293 | |
0,596 | 0,466 |
Таблица 10б
=
Таблица 10в
Номер параметра | F 1 | F 2 |
–0,4900 | 0,232 | |
0,986 | 0,000 | |
–0,036 | 0,094 | |
0,381 | –0,138 | |
–0,896 | –0,205 | |
0,751 | 0,087 |
Например, нагрузка первого параметра на второй фактор находится в первой строке (j = 1) и втором столбце (k = 2). Соответствующая первая строка матрицы до вращения (табл. 10a) равна 0,540; –0,058; k -ый (2-й) столбец матрицы поворота осей (табл. 10б) равен 0,522; 0,853. Искомое значение нагрузки равно:
0,540·0,522 + (–0,058)·0,853 = 0,232.
Помещаем его в первую строку и второй столбец таблицы 10в. Подобным образом заполняем остальные клетки таблицы. В результате получаем матрицу нагрузок на факторы после вращения. Запишем се в привычном горизонтальном виде (табл. 11). Видно, что доля дисперсии, приходящаяся на первый главный фактор, значительно повысилась с 36,3 % (табл. 9) до 45,3 % (табл.11).
Таблица 11. Нагрузка на факторы после вращения
Факторы | Параметры | Дис-персия, в % | |||||
I фактор | 0,490 | 0,986 | –0,036 | 0,381 | –0,896 | –0,751 | 45,3 |
II фактор | 0,232 | 0,000 | 0,094 | –0,138 | –0,205 | 0,087 | 2,2 |
В случае трех факторов графики строятся попарно (I–II; I–III; II–III) и процедура вращения проводится последовательно на всех трех графиках.
Е. Интерпретация факторов. Следующим шагом факторного анализа является интерпретация факторов.
В нашем примере мы нашли нагрузки на два фактора для шести параметров (табл. 11):
1) число вспышек болезни,
2) черноземы ,
3) лесные почвы,
4) дерновые почвы,
5) среднегодовая температура,
6) осадки (в мм).
То, что часть нагрузок на факторы отрицательна, означает, что параметры по-разному влияют па факторы.
Первый фактор F 1 является основным, определяющим поведение всей системы в целом, так как на его долю падает 45,3 % общей дисперсии (см. табл. 11) из 47,9 %.
Первый фактор можно назвать фактором почвенно-климатического градиента числа вспышек болезни. Он интерпретируется следующим образом. В пределах рассматриваемой территории наиболее вероятно максимальное проявление болезни в районах с большим количеством черноземных почв, относительно низкой температурой воздуха (в пределах рассматриваемых) и относительно низким количеством осадков.
В том, что мы верно интерпретировали этот фактор, можно убедиться, обратившись к табл. 1. В районах 7, 8, 9, 10, 11 для первого параметра (число вспышек болезни) сумма равна (50% от общей суммы).
Среднее значение .
Для второго параметра (площадь черноземных почв) для тех же районов (табл. 1) сумма равна
(км2/100 голов) (82% от общей суммы).
Среднее значение .
Для четвертого параметра (дерновые и т. п. почвы) в 7, 8, 9, 10, 11 районах сумма равна
; (34,5 %);
.
Для пятого параметра (среднегодовая температура воздуха) сумма равна
(18,5 % от общей суммы).
Средняя .
Для шестого параметра (осадки) сумма равна
(28,5 % от общей суммы).
Средняя .
Теперь сравним средние значения по всей выборке из 14 районов (нижняя строка табл. 1) для 1, 2, 4, 5, 6-го параметров со средними значениями для этих же параметров, вычисленных по выше взятой выборке.
Из этих данных видно, что на пять районов (35,5 %), соответствующих по тенденциям главному фактору, приходится 50 % вспышек, 82 % черноземов, 34,5 % дерновых почв, всего лишь 18,5 % суммарной температуры и 28,5 % осадков. Нагрузкой для третьего параметра на первый фактор можно пренебречь.
Таблица 12. Сравнение средней арифметической величины исходной выборки и среднего значения величин для 7, 8, 9, 10 и 11 районов
Параметры | ||
29,86 | 41,60 | |
5,17 | 11,85 | |
2,79 | 2,70 | |
3,01 | 1,56 | |
486,00 | 388,00 |
Второй фактор вносит в общую дисперсию параметров лишь 2,2 % (табл. 11), и поэтому его значение в нашей системе параметров невелико, т. е. он малоинформативен. О нем можно сказать, что при среднегодовых температурах немного ниже средней число вспышек болезни в среднем незначительно превышает средний уровень по всей системе и в среднем эти территории имеют дерновых и т. п. почв (параметр 4) немного ниже средней величины для всей выборки. Влияние третьего и шестого параметров на второй фактор можно не учитывать.
То, что третий параметр (лесные почвы) не оказывает существенного влияния на нашу систему, можно объяснить тем, что в пределах Центральной России лесные почвы распространены почти повсеместно и встречаются они как в местах неблагополучных по эмкару (эмфизематозному карбункулу), так и в местах, где эмкар почти не регистрируется.
В общем, на основе факторного анализа шести параметров для нашего примера можно статистически описать возможные значения первого параметра (число вспышек болезни) на сходных территориях Центральной России, зная остальные пять параметров.
Отсюда мы видим две основные стороны применения факторного анализа в эпизоотологии.
Во-первых, описание большого числа взаимодействующих параметров (эпизоотология имеет дело всегда с большой группой переменных, влияющих на болезнь, причем зачастую эти переменные не поддаются контролю: т. е. одновременно действует много параметров) через сравнительно небольшое число общих факторов.
Посредством этих факторов достигается достаточно глубокое изучение статистических тенденций, действующих в исследуемой системе.
Во-вторых, мы имеем возможность, проведя анализ по предварительной выборке из совокупности объектов (например, районов некоторой территории), дать характеристику остальным объектам совокупности по некоторому изучаемому параметру (например, уровень заболеваемости).
При проведении факторного анализа большого числа переменных объем вычислений значительно возрастает, что становится серьезным препятствием при работе без ЭВМ даже простыми методами, вроде центроидного. На ЭВМ факторный анализ можно проводить более строгими математическими методами, например, R -методом факторного анализа.
Дата добавления: 2015-07-24; просмотров: 163 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
III. Оценка адекватности (точности) используемых моделей. | | | Материал из Летний лагеря |