Читайте также:
|
|
Кореляційний аналіз виконують для перевірки гіпотези про зв’язок між досліджуваними змінними. Нульовою гіпотезою стверджується, що кореляція дорівнює нулю, тобто зв’язок між змінними відсутній. Альтернативна гіпотеза – це гіпотеза про те, що кореляція не дорівнює нулю, тобто між змінними існує зв’язок, прямий або обернений, залежно від знаку коефіцієнта кореляції, який може набувати значення –1£ r £ 1.
Для числових нормально розподілених даних лінійну кореляцію обчислюють за критерієм Пірсона: , де sx, sy – стандартні квадратичні відхилення змінних X та Y відповідно; N – кількість порівнюваних пар чисел.
Для даних, які можна вважати порядковими, кореляцію обчислюють за ранговими критеріями (Спірмена або Кендала) – менш потужними, але і менш вибагливими до виду розподілу змінних та шкал вимірювання. За критеріем Спірмена порівнювані змінні слід проранжувати та обчислити різниці рангів у відповідних парах значень (d).
.
Достовірність коефіцієнта кореляції оцінюють за таблицями критичних значень, або за допомогою критерія Стьюдента (див. завдання).
Кореляцію якісних ознак, тобто змінних, виміряних за номінативною шкалою, буде розглянуто у лабораторній роботі №5.
На практиці важливо буває з’ясувати кореляцію двох ознак, обумовлену загальним впливом третьої змінної, тобто часткову кореляцію – Partitial Correlation.
Не завжди зв’язок між змінними виявляється лінійним. Показником криволінійного зв’язку є кореляційне відношення h (ета) – відношення дисперсії групових середніх до загальної дисперсії. Розрізняють кореляційне відношення Y по X () та кореляційне відношення X по Y (), які виявляються однаковими (hyx=hxy) лише за умови лінійності зв’язку. Тут sx, sy – загальні стандартні квадратичні відхилення за змінними X та Y відповідно; та – групові стандартні квадратичні відхилення; px, py – частоти рядів X та Y; x, y – загальні середні; yx, xy – середні у класах рядів розподілу; n – обсяг вибірки.
Достовірність кореляційного відношення також визначається за критерієм Стьюдента.
Процедура обчислення кореляційного відношення близька до однофакторного дисперсійного аналізу, тому у статистичних пакетах коефіцієнт h обчислюється у межах відповідних процедур. Детальніше про це у прикладі 2.
Якщо між змінними існує кореляційний зв’язок, то доцільно припустити також наявність функціонального зв’язку між ними, а отже цікавою для прогнозування значень однієї змінної за відомими значеннями іншої або інших є задача побудови за експериментальними даними апроксимуючої функції Y= f (X)+e, яку називають регресією.
Ознаку Y можна розглядати і як функцію декількох аргументів x1, x2, x3, … xm. Тоді говорять про множинну регресію: y = a+bx1+cx2+…
Символом e позначено випадкову величину – похибку прогнозування.
У найпростішому випадку розглядають лінійну регресію, однак на практиці часто зустрічаються залежності, які краще апроксимуються параболічними (поліноміальними), показниковими, степеневими та іншими нелінійними функціями.
Показником ефективності регресійної моделі є коефіцієнт детермінації R2 – квадрат коефіцієнта кореляції, – який показує долю загальної варіації змінної Y, поясненої змінною Х. Тобто , де – середнє емпіричних значень Y (значення у знаменику дробу є загальною варіацією змінної Y), – значення, отримані за допомогою регресійної моделі (прогнозовані), тобто = a + b X. Отже значення у чисельнику – це варіація, пояснена впливом змінної X.
Для лінійної моделі регресії Y по X значення коефіцієнтів a та b обчислюють за формулами: або та .
Аналогічно можна обчислити коефіцієнти регресії X по Y.
Достовірність показників регресії (відмінність від нуля) визначається за критерієм Стьюдента. Коефіцієнт регресії вважають значущим, коли tемп>tкр.
Відповідність математичної моделі експериментальним даним, тобто значимість рівняння регресії, визначають за співвідношенням дисперсій врахованих та неврахованих регресійною моделлю факторів. Вважають, що рівняння регресії незначуще, математична модель погано узгоджується з експериментальними даними, коли Fемп<Fкр, тобто при Н0.
Підтвердити правильність математичної моделі (коли Fемп>Fкр) можна за аналізом залишків, тобто різниць між експериментальними даними та обчисленими на основі отриманого рівняння регресії. У класичних методах регресійного аналізу залишки розглядаються як незалежні випадкові величини з нормальним законом розподілу.
Дата добавления: 2015-11-14; просмотров: 40 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Лабораторна робота №7_2 | | | Завдання 1а: Виконати кореляційний аналіз вибірки С у пакеті MS Excel. |