Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Регрессионный анализ

Читайте также:
  1. I. Анализ методической структуры и содержания урока
  2. I. Многомерный статистический анализ и его виды.
  3. I. Факторный анализ.
  4. I. ЭКЗИСТЕНЦИАЛЬНЫЙ АНАЛИЗ – ЕГО ПРИРОДА И ЦЕЛИ
  5. I.Анализ проекта
  6. III. Графический анализ бета-разнообразия.
  7. III. ПУТИ ВОЗНИКНОВЕНИЯ ЭКЗИСТЕНЦИАЛИЗМА И ПСИХОАНАЛИЗА ИЗ ЕДИНОЙ СОЦИОКУЛЬТУРНОЙ СИТУАЦИИ

Регрессионный анализ, заключается в определении аналитического выражения связи зависимости случайной величины Y с независимыми случайными величинами X1, X2, …Xm. Форма связи результативного признака Y с факторами X1, X2, …Xm, получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессию. В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию.

При изучении регрессии следует придерживаться определенной последовательности этапов:

1. Знание аналитической формы уравнения регрессии и определение параметров регрессии.

2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уровня регрессии.

3. Проверка статистической значимости каждого коэффициента уравнения регрессии и определения их доверительных интервалов.

 

Этап 1:

Уравнение линейной множественной регрессии имеет вид:

где - теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии;

, , - значения факторных признаков;

, , - - параметры уравнения (коэффициенты регрессии).

Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод и используется в MicrosoftExcel). Сущность данного метода заключается в нахождении параметров модели (ai), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т е.

Рассматривая S в качестве функции параметров аi,- и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с т неизвестными (по числу параметров аi):

Рисунок 21 – Система нормальных уравнений.

Решив систему уравнений, находим значения параметров аi являющихся коэффициентами искомого теоретического уравнения регрессии.

Этап 2:

Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии:

общую дисперсию результативного признака 7, отображающую влияние как основных, так и остаточных факторов:

где - среднее значение результативного признака Y.

факторную дисперсию результативного признака Y, отображающуювлияние только основных факторов:

• остаточную дисперсию результативного признака Y, отображающуювлияние только остаточных факторов:

При корреляционной связи результативного признака и факторов выполняется соотношение:

Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле:

- этот коэффициент характеризует адекватность построения модели.

Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статистической значимости коэффициента детерминации R2 на основе F-критерия Фишера:

где n - число наблюдений;

т - число факторов в уравнении регрессии.

В математической статистике доказывается, что если гипотеза H0: R2 = 0 выполняется, то величина F имеет F-распределение с к = т и l=n-m-1 числом степеней свободы.

Гипотеза H0: R2 = 0 о незначимости коэффициента детерминации R2 отвергается, если .

При значениях R > 0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X.

Для оценки адекватности уравнения регрессии часто также используют показатель средней ошибки аппроксимации:

Этап 3:

Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R2 включает в себя также и проверку значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента:

где - стандартное значение ошибки для коэффициента регрессии

В математической статистике доказывается, что если гипотеза H0: R2 = 0

выполняется, то величина t имеет распределение Стьюдента с k: = п—т-1 числом степеней свободы,то есть:

Гипотеза H0: R2 = 0 о незначимости коэффициента регрессии отвергается, если .

Кроме того, зная значениеtкр, можно найти границы доверительныхинтервалов для коэффициентов регрессии:

В программе Excel множественная линейная регрессия проводится с помощью инструмента регрессия пакета анализа.

Факторами регрессии являются сопротивления в цепи. Выходным параметром является ток. С помощью инструмента регрессия выводим графики остатков, нормированной вероятности, подборов.

Стандартная ошибка считается по формуле:

Проводя регрессионный анализ в программе Excel, мы копируем все исходные данные сопротивлений и один ток. Таблицу «Регрессионная статистика» получаем с помощью пакета анализа инструмента регрессия. За входной интервал Y выбирается значение тока, за входной интервал X значение всех сопротивлений. Выводим графики остатков, нормальной вероятности,подборов.


Рисунок22– Пакет анализа «Регрессия»

Регрессионная статистика
Множественный R 0,999311136
R-квадрат 0,998622746
Нормированный R-квадрат 0,998425996
Стандартная ошибка 0,014371973
Наблюдения  

 

Множественный R –это - коэффициент корреляцииR

R-квадрат – коэффициент детерминации R2

Стандартная ошибка считается по формуле:

.

Дисперсионный анализ  
  df SS MS F Значимость F
Регрессия   8,387032637 1,0483791 5075,57889 3,4945E-77
Остаток   0,011567001 0,0002066    
Итого   8,398599639      

 

Столбец df– число степеней свободы равное 8.

Для строки регрессия число степеней свободы определяется количеством факторных признаков m в уровне регрессии kф=m.

Для строки остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии m+1:k0=n-(m+1). Для строки итого число степеней свободы определяется суммой ky=kф+k0

Столбец SS– сумма квадратов отклонений Для строки регрессия – эта сумма квадратов отклонений теоретических данных от среднего:

Для строки остаток – эта сумма квадратов отклонений эмпирических данных от теоретических:

Для строки итого – эта сумма квадратов отклонения эмпирических данных от среднего:

.

Столбец МS- дисперсии, рассчитываемые по формуле:

.

Для строки регрессия – это факторная дисперсия .

Для строки остаток – это остаточная дисперсия .

Столбец F – расчетное значение F-критерия Фишера.

Столбец значимости F – значение уровня значимости, соответствующее вычисляемому значению Fp. Так как F= 5,48E-74, т.е. F>Значимость F, то множественный коэффициент детерминации существенно больше нуля.

Таблица сигнетированных коэффициентов регрессии ai и их статистические оценки:

  Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 30,29477907 0,120558273 251,2874348 3,58935E-87
r02 0,002144276 0,018378273 0,116674496 0,907535431
r03 -1,04181665 0,016857368 -61,80185817 3,19994E-53
R1 -0,093832835 0,007013105 -13,37964285 4,37819E-19
R2 -1,044756656 0,006880408 -151,8451629 6,13378E-75
R3 -0,461880757 0,010724085 -43,0694793 1,27712E-44
R4 -0,262025783 0,004122728 -63,5564135 6,81881E-54
R5 0,003132049 0,002929717 1,069061947 0,289628377
R6 -0,254001846 0,004044628 -62,79980536 1,32132E-53

 


 

Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
30,05327183 30,53628631 30,05327183 30,53628631
-0,034671829 0,038960381 -0,034671829 0,038960381
-1,075586015 -1,008047284 -1,075586015 -1,008047284
-0,107881772 -0,079783898 -0,107881772 -0,079783898
-1,058539769 -1,030973543 -1,058539769 -1,030973543
-0,483363681 -0,440397833 -0,483363681 -0,440397833
-0,270284599 -0,253766967 -0,270284599 -0,253766967
-0,00273688 0,009000978 -0,00273688 0,009000978
-0,26210421 -0,245899483 -0,26210421 -0,245899483

 


 

Выводы

Инструмент «Описательная статистика» позволил создать статистический отсчет, содержащий информацию о центральной тенденции изменчивости входных данных.

В программе Microsoft Excel получили модель электрической цепи с по­мощью, которой можно легко рассчитать значения токов при изменяющихся сопротивлениях.

Корреляционный анализ позволил установить, ассоциированы ли наборы данных по величине, то есть большие значения из одного набора данных свя­занных с большими значениями другого набора (положительная корреляция), или, наоборот малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связанны (нулевая корреляция).

Линейный регрессионный анализ заключается в подборе графика для на­бора наблюдений с помощью метода наименьших квадратов. Регрессия исполь­зуется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.

Выведена формула , с помощью которой можно провести различные исследования, например, определить влияние случайной величины на ток. В результате нашли абсолютную и относительную погрешности расчётов.

 


Дата добавления: 2015-07-26; просмотров: 136 | Нарушение авторских прав


Читайте в этой же книге: Расчет токов для каждой серии случайныхвеличин. | Статистический анализ в Excel. | Синей) функции распределения |
<== предыдущая страница | следующая страница ==>
Корреляционный анализ| Наследие Сталина

mybiblioteka.su - 2015-2024 год. (0.013 сек.)