Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Методы выявления корреляционной связи

Показатели тесноты связи между двумя количественными признаками | Нахождение уравнения регрессии между двумя признаками | Теоретическое корреляционное отношение как универсальный показатель тесноты связи | Оценка существенности коэффициента регрессии и уравнения связи | Множественная корреляция |


Читайте также:
  1. All ФРАЗЫ ДЛЯ ВНУТРИСУДОВОЙ СВЯЗИ (А)............................... 192
  2. D.2. Методы оценки технических уязвимостей
  3. F93.0 Тревожное расстройство в связи с разлукой в детском возрасте
  4. I 7 D I РЕЛИГИЯ И НАУЧНЫЕ МЕТОДЫ
  5. I РЕЛИГИЯ И НАУЧНЫЕ МЕТОДЫ
  6. I РЕЛИГИЯ И НАУЧНЫЕ МЕТОДЫ
  7. I РЕЛИГИЯ И НАУЧНЫЕ МЕТОДЫ

Корреляционная зависимость между двумя признаками как частный случай стохастической связи выражается в вариации результативного признака y, вызванной изменением определенного факторного признака x в условиях взаимодействия его со множеством других факторов, не учитываемых при исследовании, но имеющихся в реальности.

Например, в следующей таблице приведены условные данные по 10 однотипным предприятиям о стоимости основных фондов х и валовом выпуске продукции у (в порядке возрастания стоимости основных фондов).

Предприятия Основные производственные фонды, млн. руб. xi Валовой выпуск продукции, млн. руб. yi
      – – – – – + + + + + – – – – – + – + + +
Итого        

Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд методов.

1. Рассмотрение параллельных данных (значений x и y в каждой из n единиц). Единицы наблюдения располагают по возрастанию значений факторного признака х и затем сравнивают с ним (визуально) поведение результативного показателя признака у. В нашем примере в большинстве случаев по мере увеличения значений x увеличиваются и значения y (за несколькими исключениями – 2 и 3, 6 и 7 предприятия). Поэтому можно говорить о прямой связи между х и у в этом примере. Такое «субъективное» суждение о наличии корреляционной связи обычно сопровождается расчетом простейших коэффициентов корреляции.

2. Коэффициент корреляции знаков (Фехнера) – простейший показатель тесноты связи, основанный на сравнении поведения отклонений индивидуальных значений каждого признака (x и y) от своей средней величины. При этом во внимание принимаются не величины отклонений () и (), а их знаки («+» или «–»). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений (С) и несовпадений (Н). Тогда коэффициент Фехнера рассчитывается как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:

. (1)

Очевидно, что если знаки всех отклонений по каждому признаку совпадут, то КФ= 0, что характеризует наличие прямой связи. Если все знаки не совпадут, то КФ= 1(обратная связь). Если же åС=åН, то КФ= 0. Итак, как и любой показатель тесноты связи, коэффициент Фехнера может принимать значения от 0 до 1. Однако если КФ= 1, то это ни в коей мере нельзя воспринимать как свидетельство функциональной зависимости между х и у.

В нашем примере ; .

В двух последних столбцах таблицы в нашем примере приведены знаки отклонений каждого х и у от своей средней величины. Число совпадений знаков – 9, а несовпадений – 1. Отсюда КФ= =0,8. Обычно такое значение показателя тесноты связи характеризует сильную зависимость, однако, следует иметь в виду, что поскольку КФ зависит только от знаков и не учитывает величину самих отклонений х и у от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление.

3. Графический метод, когда корреляционную зависимость для наглядности можно изобразить графически. Для этого, имея n взаимосвязанных пар значений x и y, пользуясь прямоугольной системой координат, каждую такую пару изображают в виде точки на плоскости с координатами x и y. Соединяя последовательно нанесенные точки, получают ломаную линию, именуемую эмпирической линией регрессии (см. рисунок).

 

Оптовый товарооборот, млн.руб. Количество предприятий Издержки обращения, % к оптовому товарообороту
менее 25 26-50 51-100 101-200 201-500 более 501   46,0 26,5 24,4 23,0 17,6 16,9

4. Метод аналитических группировок используется при большом числе наблюдений для выявления корреляционной связи между двумя количественными признаками. Чтобы выявить наличие корреляционной связи между двумя признаками, проводится группировка единиц совокупности по факторному признаку х и для каждой выделенной группы рассчитывается среднее значение результативного признака . Если результативный признак у зависит от факторного х, то в изменении среднего значения будет прослеживаться определенная закономерность. Примером такой группировки могут служить данные об издержках обращения предприятий оптовой торговли с различным товарооборотом (см. табл.). В последнем столбце приведены средние величины, рассчитанные на основе индивидуальных данных об издержках отдельных предприятий каждой группы. Данные таблицы свидетельствуют, что чем крупнее товарооборот, тем меньше издержки обращения. Таким образом, с помощью простой аналитической группировки можно выявить наличие зависимости между рассматриваемыми показателями: объемом товарооборота как показателем размера предприятий и средним уровнем издержек обращения.

Значение признака xj Значение признака уi Итого Среднее значение по группам
менее 7,5 7,5-12,5 12,5-17,5 более 17,5
менее 2 2 – 4 4 – 6 6 – 8 – – – –   8,75 12,08 15,31 16,87
Итого           14,00

5. Метод корреляционных таблиц предполагает комбинационное распределение единиц совокупности по двум количественным признакам. Такая таблица строится по типу «шахматной», т.е. в подлежащем (строках) таблицы выделяются группы по факторному признаку х, а в сказуемом (столбцах) – по результативному у (или наоборот), а в клетках таблицы на пересечении х и у показано число случаев совпадения каждого значения х с соответствующим значением у. Общий вид такой таблицы показан на условном распределении 40 единиц по признакам х и у, где х – стаж работы, у – производительность труда (число изделий, вырабатываемых в час одним рабочим). Среднее значение по группам определяется по средней арифметической взвешенной по серединам группировочных интервалов. Как видно из таблицы, по мере увеличения значений х итоговые групповые средние тоже увеличиваются от группы к группе, что свидетельствует о том, что между х и у существует корреляционная связь. О наличии и направлении связи можно судить и по «внешнему виду» таблицы, т.е. по расположению в ней частот: если частоты расположены в клетках таблицы беспорядочно, то это чаще всего свидетельствует об отсутствии связи между группировочными признаками (или о незначительной зависимости); если частоты сконцентрированы ближе к одной из диагоналей и центру таблицы, образуя своего рода эллипс, то это почти всегда свидетельствует о наличии зависимости между х и у, близкой к линейной. Расположение по диагонали из верхнего левого угла в нижний правый свидетельствует о прямой линейной связи, а из нижнего левого угла в верхний правый – об обратной.

На основе аналитических группировок и корреляционных таблиц можно не только выявить наличие зависимости между двумя коррелируемыми показателями, но и измерить тесноту этой связи, в частности, с помощью эмпирического корреляционного отношения (см. § 2.9).

,   (2)
,   (3)
.   (4)

где m – число групп по факторному признаку х;

k – число групп по результативному признаку у;

– средние значения результативного признака по группам;

– общее среднее значение результативного признака;

– индивидуальные значения результативного признака;

– частота в j -й группе х;

– частота в i -й группе у.

Рассчитаем это отношение для нашего примера (связь между стажем и производительностью):

=(5*3+10*9+15*21+20*7)/40=14

=6,19599;

=16,5; =0,613.

Полученное значение =0,613 позволяет утверждать, что существует заметная связь между стажем работы и производительностью труда.

Группа лиц Число лиц
заболевших гриппом не заболевших гриппом Итого
Сделавших прививку 30 (а) 270 (b)  
Не сделавших прививку 120 (c) 80 (d)  
Итого      

Метод корреляционных таблиц применим не только к количественным, но и к качественным признакам, взаимосвязи между которыми часто приходится изучать при проведении различных социологических исследований путем опросов или анкетирования. В этом случае такие таблицы называют таблицами сопряженности. Они могут иметь различную размерность. Простейшая размерность – 2х2 (таблица «четырех полей»), когда по альтернативному признаку («да» – «нет», «хорошо» – «плохо» и т.д.) выделяются 2 группы. В данном примере приведены условные данные о распределении 500 опрошенных человек по двум показателям: наличие (отсутствии) у них прививки против гриппа и факт заболевания (незаболевания) гриппом во время его эпидемии.

Нетрудно заметить, что среди сделавших прививку подавляющее большинство (270 из 300, или 90%) не заболели гриппом, а среди не сделавших большая часть заболела (120 из 200, или 60%). Таким образом, можно предположить, что прививка положительно влияет на предупреждение заболевания; другими словами, можно предположить, что распределение в таблице (a, b, c, d) не случайно и существует стохастическая зависимость между группировочными признаками. Однако выводы о зависимости, сделанные «на глаз», часто могут быть ненадежными (ошибочными), поэтому они должны подкрепляться определенными статистическими критериями, например критерием Пирсона χ2. Он позволяет судить о случайности (или неслучайности) распределения в таблицах взаимной сопряженности, а следовательно, и об отсутствии или наличии зависимости между признаками группировки в таблице. Чтобы воспользоваться критерием Пирсона χ2, в таблице взаимной сопряженности наряду с эмпирическими частотами записывают теоретические частоты, рассчитываемые исходя из предположения, что распределение внутри таблицы случайно и, следовательно, зависимость между признаками группировки отсутствует. Т.е. считается, что распределение частот в каждой строке (столбце) таблицы пропорционально распределению частот в итоговой строке (столбце). Поэтому теоретические частоты по строкам (столбцам) рассчитывают пропорционально распределению единиц в итоговой строке (столбце).

Группа I (да) II (нет)
I (да) 30 (90) 270 (210)  
II (нет) 120 (60) 80 (140)  
     

Так, в нашем примере в итоговой строке число заболевших 150 из 500, т.е. их доля – 30%, а доля не заболевших – 70%. Следовательно, теоретические частоты в первой строке для заболевших составят 30% от 300, т.е. 0,3*300=90, а для не заболевших – 0,7*300=210. По второй строке произведем аналогичные расчеты и их результаты занесем в таблицу в скобках.

На сопоставлении эмпирических и теоретических частот и основан критерий Пирсона χ2, рассчитываемый по одной из формул[1]:

(5) или (6)

Рассчитаем для нашего примера по формуле (5):

.

Такой же результат получим по формуле (6):

.

Рассчитанное (фактическое) значение χ2 сопоставляют с табличным (критическом, пороговом), определяемым по таблице Приложения 3 для заданного уровня значимости α и числа степеней свободы , где k1 и k2 – число групп по одному и второму признакам группировки (число строк и число столбцов в таблице).

В рассматриваемом примере ν =(2-1)(2-1)=1, а приняв уровень значимости α =0,01, по таблице Приложения 3 находим χ2табл=6,63. Поскольку рассчитанное значение χ2> χ2табл, значит существует стохастическая зависимость между рассматриваемыми показателями. При независимости признаков част о ты теоретического и эмпирического распределений совпадают, а значит χ2=0. Чем больше различия между теоретическими и эмпирическими частотами, тем больше значение χ2 и вероятность того, что оно превысит критическое табличное значение, допустимое для случайных расхождений. Аналогично рассчитываются теоретические частоты и χ2 в таблицах большей размерности.

В корреляционном анализе недостаточно лишь выявить тем или иным методом наличие связи между исследуемыми показателями. Теснота такой связи может быть различной, поэтому весьма важно ее измерить, т.е. определить меру связи в каждом конкретном случае. В статистике для этой цели разработан ряд показателей (коэффициентов), используемых как для количественных, так и для качественных признаков.


Дата добавления: 2015-11-13; просмотров: 114 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Понятие корреляционной зависимости| Показатели тесноты связи между двумя качественными признаками

mybiblioteka.su - 2015-2024 год. (0.009 сек.)