Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

I. Многомерный статистический анализ и его виды.

Читайте также:
  1. I. Анализ методической структуры и содержания урока
  2. I. Факторный анализ.
  3. I. ЭКЗИСТЕНЦИАЛЬНЫЙ АНАЛИЗ – ЕГО ПРИРОДА И ЦЕЛИ
  4. I.Анализ проекта
  5. III. Графический анализ бета-разнообразия.
  6. III. ПУТИ ВОЗНИКНОВЕНИЯ ЭКЗИСТЕНЦИАЛИЗМА И ПСИХОАНАЛИЗА ИЗ ЕДИНОЙ СОЦИОКУЛЬТУРНОЙ СИТУАЦИИ

Различают два вида зависимости между экономическими явлениями: функциональную и статистическую. Зависимость между двумя величинами Х и У, отображающими соответственно два явления, называется функциональной, если каждому значению величины Х соответствует единственное значение величины У и наоборот.

Примером функциональной связи в экономике может служить зависимость производительности труда от объема произведенной продукции и затрат рабочего времени. При этом следует отметить, что если X - детерминированная, неслучайная величина, то и функционально зависящая от нее величина У тоже является детерминированной. Если же Х - величина случайная, то и У также случайная величина.

Однако, гораздо чаще в экономике имеет место не функциональная, а статистическая зависимость, когда каждому фиксированному значению независимой переменной Х соответствует не одно, а множество значений зависимой переменной У, причем заранее нельзя сказать, какое именно значение примет У. Это связано с тем, что на У, кроме переменной X, влияют и многочисленные неконтролируемые случайные факторы. В этой ситуации У является случайной величиной, а переменная X может быть как детерминированной, так и случайной. Частным случаем статистической зависимости можно назвать корреляционную зависимость, при которой функциональной зависимостью связаны фактор X и среднее значение (математическое ожидание) результативного показателя У.

Ставя задачу статистического исследования зависимостей, важно хорошо представлять себе конечную прикладную цель построения моделей статистической зависимости между результативным показателем, с одной стороны, и объясняющими переменными х1, х2,...,хn - с другой. Существуют две основные цели исследований:

1) Состоит в установлении самого факта наличия (или отсутствия) статистической значимости связи между У и X. При такой постановке за-дачи статистический вывод имеет альтернативную природу — «связь есть» или «связи нет». Он обычно сопровождается лишь численной характеристикой - измерителем степени тесноты исследуемой зависимости. Задача оценки степени тесноты связи между показателями решается методами корреляционного анализа. При этом выбор формы связи между результативным показателем у и объясняющими переменными х1, х2,...,хn, а также выбор состава последних играют вспомогательную роль, призванную максимизировать характеристику степени тесноты связи.

2) Сводится к прогнозу, восстановлению неизвестных индивидуальных или средних значений результативного показателя у по заданным значениям объясняющих переменных и решается методами регрессионного анализа. При этом выбор формы и вида зависимости у от объясняющих переменных х1, х2,...,хn нацелен на минимализацию суммарной ошибки, т.е. отклонений наблюдаемых значений у от значений, полученных по регрессионной модели.

1. Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.

Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определяется на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.

Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от - 1 до +1, причем чем ближе коэффициент корреляции по модулю к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь прямая, а если меньше нуля - обратная.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.

Исходной для анализа является матрица размерности n × k, i-я строка которой характеризует i-е наблюдение (объект) по всем к показателям (j = 1,2,...,k):

В корреляционном анализе матрицу X рассматривают как выборку объема n из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения.

По выборке определяют оценки параметров генеральной совокупности, а именно: вектор , вектор средних квадратических отклонений s и корреляционную матрицу R порядка k:

 

где , ,

где хij — значение j-го показателя для i-го наблюдения;

гjl — выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями xj; и xl При этом rjl является оценкой генерального парного коэффициента корреляции ρjl.

Матрица R является симметричной (rjl = rlj.) и положительно определенной.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка.

Например, частный коэффициент корреляции (k-2)-uо порядка между переменными х1 и х2 равен:

где Rjl - алгебраическое дополнение элемента rjl корреляционной матрицы R. При этом Rjl = (-1)j+1Мjl,, где Мjl, - минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j-й строки и l-го столбца.

Множественный коэффициент корреляции (k-1)-го порядка результативного признака х1 определяется по формуле:

где |R| — определитель матрицы R.

2.Регрессионный анализ -это статистический метод исследования зависимости результативной величины у от объясняющих переменных хj (j = 1, 2,...,k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения хj.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием у = (φ(х1,...,хk), являющимся функцией от аргументов х1,...,хk, с постоянной, не зависящей от аргументов дисперсией δ2.

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, х1,x2,...,хj,...,хk) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (уi, хi1,xi2,...,хij,...,хik), где хij. – значение j-й переменной для i-го наблюдения (i = 1,2,...,n), уi. — значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрес-
сионного анализа имеет вид:

yi = β0 + β1xi1 + … + βjxij + … + βkxik + εi,

где βj - параметры регрессионной модели;

εi - случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию δ2.

Эта модель справедлива для всех i = 1,2,...,n, линейна относительно неизвестных параметров β0, β1,..., βj,..., βk. и аргументов.

Как следует из модели, коэффициент регрессии βj показывает, на какую величину в среднем изменится результативный признак у, если переменную хj увеличить на единицу при неизменных значениях остальных аргументов, т.е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид:

где Y - случайный вектор-столбец размерности n × 1 наблюдаемых значений результативного признака (у12,...,уn),

X - матрица размерности n × (k + 1) наблюдаемых значений аргументов, элемент матрицы хij рассматривается как неслучайная величина (i = 1,2,..., n; у = 0, 1,...,k; х0i = 1);

β - вектор-столбец размерности (k + 1) × 1 неизвестных, подлежащих оценке параметров модели;

ε - случайный вектор-столбец размерности n × 1 ошибок наблюдений.

Компоненты вектора ε, независимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Мεi = 0) и неизвестной постоянной дисперсией δ2 (Dεi = δ2).

Модель регрессии в матричной форме:

,

В первом столбце матрицы X указываются единицы при наличии свободного члена в модели. Здесь предполагается, что существует переменная х0, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии β0, β1,..., βk модели, т.е. вектора β.

Так как в регрессионном анализе x^ рассматривается как неслучайная величина, а Мεi = 0, то уравнение регрессии имеет вид:

для всех i = 1, 2,...,n, или в матричной форме:

y = Xβ

где Y — вектор-столбец с элементами у1...,уi,...,уn.

Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений у, от модельных значений уi, т.е. квадратичную форму:

где символом «Т» обозначена транспонированная матрица.

Дифференцируя квадратичную форму Q по β0, β1,..., βk,. и приравнивая частные производные к нулю, получим систему уравнений:

решая которую, получим вектор-столбец оценок b, где b = (b0,b1,...,bk)T.

Согласно методу наименьших квадратов вектор-столбец оценок коэффициентов регрессии получается по формуле:

где ХT - транспонированная матрица X;

ТХ)-1- матрица, обратная матрице ХТХ.

Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку уравнения регрессии:

или в матричном виде:

где - вектор расчетных значений результативного показателя.

Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением:

где - несмещенная оценка остаточной дисперсии δ2, определяемая по формуле:

На главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии:

 

Существуют и другие алгоритмы пошагового регрессионного анализа, например, с последовательным включением факторов.

Наряду с точечными оценками bj генеральных коэффициентов регрессии βj,., регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ.

Интервальная оценка с доверительной вероятностью γ для параметра βj имеет вид:

где tα находят по таблице t-распределения при вероятности α = 1 - γ и числе степеней свободы ν = n – k – 1.

Интервальная оценка показывает, на какую величину в лучшем и худшем случае изменится с доверительной вероятностью γ величина у, если х, увеличить на единицу.

Интервальная оценка для уравнения регрессии У в точке, определяемой вектором-столбцом начальных условий Х° = (1,х1°,х2°,...,хk°)T, записывается в виде:

Интервал предсказания yn+1 с доверительной вероятностью γ определяется как:

где tα определяется по таблице t-распределения при ν = 1 – γ и ν = n – k - 1.

По мере удаления вектора начальных условий х° от вектора средних , ширина доверительного интервала при заданном значении γ будет увеличиваться.

Мультиколлинеарность. Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами х1, x2,...,xk. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (ХТХ) становятся слабообусловленными, т.е. их определители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрессии, за вышению дисперсии оценок коэффициентов bj так как в их выражения входит обратная матрица (ХТХ)-1, получение которой связано с делением на определитель матрицы (ХТХ). Отсюда следуют заниженные значения t(bj). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т. е. |гjl| > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать только один из показателей – хj или хl.

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.


Дата добавления: 2015-07-24; просмотров: 405 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Общий вид линейной модели. Ее связь с главными компонентами| Трендовые модели прогнозирования

mybiblioteka.su - 2015-2024 год. (0.013 сек.)