Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Міністерство охорони здоров’я України



Міністерство охорони здоров’я України

Кіровоградський базовий медичний коледж ім. Є.Й. Мухіна

Реферат

на тему:

Коефіцієнт кореляції та детермінації

 

Виконала

 

студентка групи 438Л

Пашковська Ірина Вадимівна

Кіровоград – 2014

 

Зміст

1. Поняття про коефіцієнт кореляції.

2. Кореляційне поле.

3. Коефіцієнт детермінаціі. Коефіцієнт залишкової детермінації.

4. Індекс кореляції.

5. Висновок.

6. Використана література.

 

Коефіцієнт кореляції – показник, який використовують для вимірювання щільності зв'язку між результативними і факторними ознаками у кореляційно-регресійній моделі за лінійної залежності. За абсолютною величиною коефіцієнту кореляції коливається в межах від -1 до +1. Чим ближчий цей показник до 0, тим менший зв'язок, чим ближчий він до ±1 – тим зв'язок тісніший. Знак «плюс» при коефіцієнті кореляції означає прямий зв'язок між ознаками х і у, знак «мінус» – обернений.

Уперше коефіцієнт кореляції як показник щільності зв'язку використав К. Пірсон. Спочатку досліджувалася прямолінійна залежність, пов'язана із законом нормального розподілу (А. Браве, К. Пірсон, В. Шеппард та ін.), відтак виникла потреба в дослідженні й нелінійних залежностей. Для вимірювання щільності зв'язку нелінійних залежностей Пірсон запропонував кореляційне відношення із розробкою методів аналізу взаємозв'язку двох змінних було запропоновано теорію часткових і чистих коефіцієнтів кореляції, а також теорію множинної (багатофакторної) кореляції.

Коефіцієнт кореляції між досліджуваними ознаками повинен мати високий рівень достовірності (надійності). Для оцінки достовірності коефіцієнту кореляції обчислюють відношення коефіцієнта до його середньої помилки. Якщо воно дорівнює або більше 3, коефіцієнт кореляції вважають достовірним, тобто зв'язок між досліджуваними ознаками доведений. Якщо відношення менше 3, то не можна зробити висновку про достовірність зв'язку між досліджуваними ознаками. Для більшої надійності досліджень спід брати величину відношення коефіцієнту кореляції до його середньої помилки не 3, а 4. Якщо відношення коефіцієнту кореляції до його середньої помилки більше 3, а число спостережень більше 50, то вважають, що розрахований лінійний коефіцієнту кореляції відображає істотний тісний зв'язок.

В теорії ймовірностей та математичній статистиці, кореляція є залежністю двох випадкових величин. При цьому, зміна однієї або кількох цих величин призводить до систематичної зміни іншої або інших величин. Математичною мірою кореляції двох випадкових величин слугує коефіцієнт кореляції.



Кореляція може бути позитивною та негативною (можлива також ситуація відсутності статистичного зв'язку — наприклад, для незалежних випадкових величин). Негативна кореляція — кореляція, при якій збільшення однієї змінної пов'язане зі зменшенням іншої, при цьому коефіцієнт кореляції від'ємний. Додатна кореляція — кореляція, при якій збільшення однієї змінної пов'язане зі збільшенням іншої, при цьому коефіцієнт кореляції додатній.

Якщо певному значенню однієї величини відповідає не одне, а ціла сукупність значень іншої величини, то вважають, що між цими двома величинами існує кореляційний зв'язок. Кореляційний зв'язок наявний тоді, коли явище, що вивчається, піддається впливові не одного, а багатьох різних факторів. Так, стаж впливає на продуктивність праці, але не визначає її повністю, оскільки продуктивність праці залежить також від рівня освіти, віку робітника, його кваліфікації та ін. Оскільки явища суспільного життя складні та багатофакторні, зв'язок між ознаками практично завжди кореляційний.

Якщо кожному значенню однієї ознаки відповідає така сукупність значень іншої ознаки, що досить близько розміщена навколо свого середнього (тобто всі значення сукупності не дуже відрізняються від свого середнього арифметичного), то такий кореляційний зв'язок вважають більш тісним. Кількісно тіснота кореляційного зв'язку оцінюється за допомогою коефіцієнтів кореляції.

Для оцінки лінійного кореляційного зв'язку між двома ознаками, що виміряні в метричних шкалах, часто використовують коефіцієнт кореляції Пірсона (його ще називають коефіцієнтом добутку моментів). Цей показник завжди набуває значення в числовому інтервалі від -1 до +1. Знак коефіцієнта показує "напрямок" зв'язку. Додатний коефіцієнт кореляції (r > 0) свідчить про "прямий" зв'язок між ознаками (тобто такий, коли збільшення значення однієї ознаки збільшує значення іншої ознаки), а від'ємний (г < 0) — про "зворотний" зв'язок (такий, коли зростання однієї ознаки веде до зменшення іншої ознаки). Так, між заробітною платою робітника та кількістю вироблених ним деталей існує прямий зв'язок (чим більше вироблено деталей, тим вищою буде заробітна плата), а між заробітною платою та кількістю бракованих деталей існує зворотний зв'язок (адже чим більше бракованих деталей було виявлено в продукції певного робітника, тим меншою буде його заробітна плата).

Щільність зв'язку оцінюється за абсолютним значенням коефіцієнта кореляції. Нуль (r = 0) свідчить про відсутність лінійного зв'язку між ознаками. Максимальні значення (r= 1 та r=*-1) коефіцієнта свідчать про повний (або функціональний) лінійний зв'язок між ознаками (відповідно функціональний прямий зв'язок та функціональний зворотний зв'язок). Проміжні значення (-1 <г<0та0<г<1) інтерпретуються так: чим більшим є абсолютне значення показника, тим тісніший кореляційний зв'язок. Як правило, якщо абсолютне значення коефіцієнта перевищує 0,3, то можна вести мову про помірний лінійний зв'язок між ознаками, а якщо перевищує 0,8 — про дуже тісний зв'язок між ознаками.

Коефіцієнт кореляції Пірсона оцінює зв'язок між двома ознаками, лише припускаючи, що значення однієї ознаки пов'язані з відповідними середніми іншої ознаки лінійною залежністю, тобто оцінює лише лінійний за формою кореляційний зв'язок. Отже, якщо дві ознаки пов'язані між собою тісно (навіть функціонально), але їх зв'язок за формою істотно відрізняється від лінійного, коефіцієнт кореляції Пірсона може набувати значення "нуль". Отже, якщо коефіцієнт кореляції Пірсона між двома істотно дорівнює нулю, то не можна говорити про відсутність кореляційного зв'язку між ними; це свідчить лише про відсутність лінійного кореляційного зв'язку.

Для ознак, заданих у порядкових шкалах, обчислюють рангові коефіцієнти кореляції (Спірмена та Кендела), які також набувають значення між -1 та +1 і інтерпретуються так само, як і коефіцієнт кореляції Пірсона.

Кореляція між двома ознаками свідчить про причинний зв'язок між ними, коли або одна з ознак є частковою причиною іншої, або обидві ознаки пов'язані спільними причинами. Кількісна оцінка кореляційних зв'язків може допомогти дослідникові відкинути несуттєві зв'язки, чіткіше окреслити напрям пошуків, порівняти вплив різних факторів тощо.

Методи регресивного аналізу дають змогу оцінити щільність зв'язку між двома ознаками й оформити уявлення про вид цього зв'язку у вигляді рівняння (так званого рівняння регресії), що описує залежність між середнім значенням однієї ознаки (залежної, поведінку якої вивчають) та значеннями деякої сукупності ознак (незалежних факторів, вплив яких на залежну ознаку намагаються оцінити). В соціологічних дослідженнях, як правило, здійснюється пошук такої залежності у лінійному вигляді (тобто у вигляді лінійного рівняння), тому йдеться про рівняння лінійної регресії.

Знання залежності у вигляді рівняння дає змогу не тільки пояснити поведінку залежної ознаки, а й прогнозувати значення її за різних змін значень незалежних ознак. Наприклад, нехай на основі аналізу факторів, які впливають на рівень заробітної плати на певному підприємстві, було побудовано рівняння лінійної регресії

що описує зв'язок між заробітною платою (залежна ознака) та двома такими незалежними ознаками, як стаж %. (вимірюється роками) та рівень освіти %2 (вимірюється роками) працівника. Аналізуючи це рівняння, ми бачимо, що зі зростанням трудового стажу працівника на рік його середня заробітна плата зростає на 16,82 грн, а із підвищенням рівня освіти на рік середня заробітна плата зростає лише на 11,56 грн. Отже, на цьому підприємстві трудовий стаж має більший вплив на середню заробітну плату працівника, ніж рівень його освіти.

Дуже важливою для отримання надійних та статистично обґрунтованих результатів є оцінка значущості статистичних показників. Це цілий комплекс математичних процедур, що дають змогу відповісти на низку запитань щодо обчислених статистичних показників та параметрів вибіркової сукупності. Так, якщо ми обчислили коефіцієнти кореляції між двома ознаками й отримали число, що не дорівнює нулю, нас має зацікавити, чи справді цей коефіцієнт істотно відрізняється від нуля (а отже, фіксує наявність лінійного кореляційного зв'язку), чи ця різниця випадкова і спричинена лише похибкою нашої вибірки. На таке запитання може відповісти процедура оцінки значущості відмінності коефіцієнта кореляції від нуля, яка враховує обсяг вибірки та потрібний досліднику рівень надійності (тобто ймовірність прийняття хибного рішення), про який уже йшлося при розгляді критерію ^-квадрат для двовимірних таблиць. Для кожного обчисленого коефіцієнта кореляції робиться оцінка на рівні надійності 1 % та 5 %.

Крім оцінки значущості відмінності від нуля коефіцієнта кореляції між двома ознаками, досить часто застосовують також процедуру оцінки значущості різниці між двома відсотковими значеннями (наприклад, опитуваних, різниці між відсотками не задоволених умовами праці на цьому підприємстві серед жінок та серед чоловіків), різниці між двома середніми (наприклад, між середньою заробітною платою на одному та на іншому підприємстві), між двома коефіцієнтами кореляції.

 

 

Побудова кореляційних моделей дає можливість вивчати залежність економічних показників, що не зв’язані між собою функціонально. Кореляційний зв’язок на відміну від функціонального проявляється лише взагалі та в середньому і тільки в масі спостережень.

Кореляційний аналіз вирішує два завдання:

1) визначення форми зв’язку, тобто встановлення математичної формули, яка описує даний зв’язок;

2) вимірювання щільності зв’язку.

У найпростішому випадку вивчається зв’язок між двома показниками, один з яких розглядається як незалежний показник – факторна ознака (х), а інший – як залежна величина, результативна ознака (у). Це є так звана “парна кореляція”. В загальному вигляді вона описується функцією у=ƒ(х).

Попередньо вид математичної функції встановлюється за допомогою якісного аналізу зв’язку між явищами та графічного його зображення у вигляді кореляційного поля.

Кореляційне поле – це сукупність точок у прямокутній системі координат, абсциса кожної зяких відповідає значенню факторної ознаки (х), а ордината – значенню результативної ознаки (у) певної одиниці спостереження. Кількість точок на графіку відповідає кількості одиниць спостереження. Напрямленість кореляційного поля вказує на наявність прямого, зворотного зв’язку між ознаками, або його відсутність, а також на форму лінії регресії (пряма лінія, парабола, гіпербола тощо).

Після того, як визначені невідомі параметри регресійної моделі спробуємо оцінити щільність зв’язку між залежною величиною у і незалежною х. Тобто спробуємо відповісти на запитання, наскільки значним є вплив змінної х на у. Чи є якийсь критерій, який дозволяє кількісно оцінити цей вплив? Найпростішим критерієм, який дає кількісну оцінку зв’язку між двома показниками є коефіцієнт кореляції (для прямолінійного зв’язку). Він розраховується за такою формулою:

Щільність зв’язку між ознаками вимірюється за допомогою коефіцієнта кореляції (для прямолінійного зв’язку) та індексу кореляції (для криволінійного зв’язку).

Коефіцієнт кореляції може бути обчислений також за формулою:

,

де – середній добуток ознак х та у;

середнє значення ознаки відповідно х і у;

σх – середнє квадратичне відхилення ознаки х; σу середнє квадратичне відхилення ознаки у.

; ,

Коефіцієнт кореляції на відміну від коефіцієнта коваріації є вже не абсолютною, а відносною мірою зв’язку між двома ознаками, тому він може набувати значення від -1 до +1. Чим ближче значення r до ±1, тим щільніший зв’язок. Знак “+” вказує на прямий, а знак “-“ – на зворотний зв’язок. При r= 0 зв’язок відсутній.

 

 

Поряд з коефіцієнтом кореляції використовується ще один критерій, за допомогою якого також вимірюється щільність зв’язку між двома або більше показниками та перевіряється адекватність (відповідність) побудованої регресійної моделі реальній дійсності. Тобто дається відповідь на запитання, чи дійсно зміна значення у лінійно залежить саме від зміни значення х, а не відбувається під впливом різних випадкових факторів. Таким критерієм є коефіцієнт детермінації.

Щоб пояснити, що саме являє собою коефіцієнт детермінації та як він пов’язаний з коефіцієнтом кореляції, розглянемо питання про декомпозицію дисперсій.

У статистиці різницю прийнято називати загальним відхиленням. Різницю називають відхиленням, яке можна пояснити, виходячи з регресійної прямої. Різницю називають відхиленням, яке не можна пояснити, виходячи з регресійної прямої, або не пояснюваним відхиленням. Загальне відхилення розкладається на дві складові:

= +

Піднесемо ці різниці до квадрату і просумуємо для всіх одиниць спостереження. Одержимо:

- загальна сума квадратів

- сума квадратів, що пояснює регресію;

- сума квадратів помилок.

Справедливий такий вираз:

= + .

Поділивши цей вираз на п, отримаємо вираз для дисперсій:

+ ,

де

- загальна дисперсія ознаки у;

- дисперсія, що пояснює регресію;

- дисперсія помилок.

Таким чином ми здійснили декомпозиціюдисперсії, тобто розклали загальну дисперсію на дві частини: дисперсію, що пояснює регресію, та дисперсію помилок (або дисперсію випадкової величини). Запишемо це у такому вигляді:

.

Поділимо обидві частини на загальну дисперсію і отримаємо:

У цьому виразі перша частина – це частка дисперсії, що пояснюється регресією, а друга – частка помилок в загальній дисперсії.

Частина дисперсії, що пояснює регресію, називається коефіцієнтом детермінації і позначається r 2. Коефіцієнт детермінації використовується як критерій адекватності моделі, бо є мірою пояснювальної сили незалежної змінної х.

Коефіцієнт детермінації визначається за формулою:

, або

Коефіцієнт детермінації завжди позитивний і перебуває в межах від нуля до одиниці. Він показує, яка частка коливань результативної ознаки y зумовлена коливанням факторної ознаки х.

Звичайно, нас цікавить, чи є зв’язок між коефіцієнтом кореляції та коефіцієнтом детермінації, і якщо є, то який? Перш ніж відповісти на це питання, розглянемо зв’язок між коефіцієнтом кореляції та нахилом регресійної лінії, тобто параметром а1. Нагадаємо формули для розрахунків коефіцієнта кореляції та нахилу:

;

.

Помножимо чисельник і знаменник виразу для обчислення коефіцієнта кореляції на .і зробимо деякі перетворення

.

З того, що обидва значення та додатні, випливає, що знак коефіцієнта кореляції завжди збігається із знаком параметра а1.

Крім того, випливає, що значення коефіцієнта кореляції пов’язане із значеннями коефіцієнта регресії а1 та середніх квадратичних відхилень та .

Знаючи зв’язок між коефіцієнтом кореляції і коефіцієнтом регресії, розглянемо зв’язок між коефіцієнтом кореляції і коефіцієнтом детермінації. Нагадаємо формулу для розрахунку коефіцієнта детермінації:

Виконаємо прості перетворення з виразом чисельника:

.

Внесемо зміни до виразу коефіцієнта детермінації, враховуючи останні перетворення:

.

Оскільки , то .

Отже коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції. Тому коефіцієнт кореляції може розраховуватись за формулою:

, або ,

де σy2 – загальна дисперсія ознаки y, ,

σyx2 – середній квадрат відхилення фактичних значень ознаки y від теоретичних значень y x, .

Якщо коефіцієнт кореляції розраховується як корінь із коефіцієнта детермінації, то йому присвоюється той знак,який має коефіцієнт a1, тобто коефіцієнт регресії в рівнянні прямолінійного зв’язку.

Величину 1– r2 називають коефіцієнтом залишкової детермінації. Вона характеризує частку варіації ознаки yза рахунок неврахованих факторів.

 

 

Індекс кореляції (R) використовується для вимірювання щільності криволінійного зв’язку і визначається аналогічно до коефіцієнта кореляції(r) за формулою:

.

Індекс кореляції приймає значенням від 0 до 1. Певного знака він не має, оскільки на різних відрізках кривої напрям зв’язку може змінюватись.

Індекс кореляції – умовна величина, розрахована лише по відношенню до певної кривої. ЇЇ значення може бути доведене до 1, якщо в якості кривої, що описує зв’язок, взяти параболу, в якій кількість параметрів доведена до кількості одиниць спостереження. Така крива пройде через всі точки графіка, всі відхилення фактичних значень результативної ознаки від теоретичних, розрахованих за рівнянням такої кривої, будуть дорівнювати 0, і тому величина індекса кореляції досягне 1. Однак, було б помилкою вважати, що це є ознакою того, що дана крива найкраще описує досліджувану залежність. Надто складні рівняння регресії як правило позбавлені реального економічного змісту, оскільки в них втрачається відмінність між нетиповим і суттєвим, а випадковість зводиться в ранг закономірності. Тому не доцільно надто ускладнювати рівняння кривої. Рівняння досліджуваного зв’язку має бути по можливості простим, щоб сутність зв’язку між змінними проявлялась досить чітко, а параметри рівняння піддавались певному економічному тлумаченню.

Приклад

Відомі дані про рівень електроозброєності та продуктивності праці робітників на 10 підприємствах галузі (табл.6.1, графи 13). Потрібно визначити показники щільності зв’язку між цими показниками.

Для обчислення коефіцієнта кореляції скористаємося формулою.

Обчислення виконуємо в табл.6.1 (графи 710):

Таблиця 1

Номер заводу

Електро-озброєність праці, х кВт.год

Продук-тивність праці у, тис. грн.

ху

х2

ух

у – ух

(у – ух )2

1

2

3

4

5

6

7

8

9

10

         

3,61

-3

 

-0,61

0,3721

         

6,00

       
         

4,41

-2

 

-0,41

0,1681

         

7,59

   

-1,59

2,5281

         

3,61

-2

 

0,39

0,1521

         

6,80

   

1,20

1,4400

         

5,20

   

0,80

0,6400

         

9,19

   

-0,19

0,0361

         

8,38

   

0,62

0,3844

         

5,20

-1

 

-0,20

0,0400

Разом

             

-

5,7609

.

 

 

Висновок

Коефіцієнту кореляції присвоюється знак,який має коефіцієнт a1 в рівнянні зв’язку, тобто „плюс” і отже його значення становить +0,925, що свідчить про щільний прямий зв’язок між ознаками.

Коефіцієнт детермінації r2=0,856. Він вказує на те, що 85,6% варіації рівня продуктивності праці на досліджуваних підприємствах зумовлено варіацією електроозброєності. Коефіцієнт залишкової детермінації (1-0,856) вказує на те, що 14,4% варіації рівня продуктивності праці пояснюється дією інших причин.

 

 


Дата добавления: 2015-10-21; просмотров: 33 | Нарушение авторских прав




<== предыдущая лекция | следующая лекция ==>
На тему: Северный олень (обитатель тундры) | Http://www. Diary. Ru/~hpnc17/p84722615. Htm#more1

mybiblioteka.su - 2015-2024 год. (0.036 сек.)