I. Многомерный статистический анализ и его виды.

Читайте также:

Различают два вида зависимости между экономическими явлениями: функциональную и статистическую. Зависимость между двумя величинами Х и У, отображающими соответственно два явления, называется функциональной, если каждому значению величины Х соответствует единственное значение величины У и наоборот.

Примером функциональной связи в экономике может служить зависимость производительности труда от объема произведенной продукции и затрат рабочего времени. При этом следует отметить, что если X - детерминированная, неслучайная величина, то и функционально зависящая от нее величина У тоже является детерминированной. Если же Х - величина случайная, то и У также случайная величина.

Однако, гораздо чаще в экономике имеет место не функциональная, а статистическая зависимость, когда каждому фиксированному значению независимой переменной Х соответствует не одно, а множество значений зависимой переменной У, причем заранее нельзя сказать, какое именно значение примет У. Это связано с тем, что на У, кроме переменной X, влияют и многочисленные неконтролируемые случайные факторы. В этой ситуации У является случайной величиной, а переменная X может быть как детерминированной, так и случайной. Частным случаем статистической зависимости можно назвать корреляционную зависимость, при которой функциональной зависимостью связаны фактор X и среднее значение (математическое ожидание) результативного показателя У.

Ставя задачу статистического исследования зависимостей, важно хорошо представлять себе конечную прикладную цель построения моделей статистической зависимости между результативным показателем, с одной стороны, и объясняющими переменными х₁, х₂,...,х_n - с другой. Существуют две основные цели исследований:

1) Состоит в установлении самого факта наличия (или отсутствия) статистической значимости связи между У и X. При такой постановке за-дачи статистический вывод имеет альтернативную природу — «связь есть» или «связи нет». Он обычно сопровождается лишь численной характеристикой - измерителем степени тесноты исследуемой зависимости. Задача оценки степени тесноты связи между показателями решается методами корреляционного анализа. При этом выбор формы связи между результативным показателем у и объясняющими переменными х₁, х₂,...,х_n, а также выбор состава последних играют вспомогательную роль, призванную максимизировать характеристику степени тесноты связи.

2) Сводится к прогнозу, восстановлению неизвестных индивидуальных или средних значений результативного показателя у по заданным значениям объясняющих переменных и решается методами регрессионного анализа. При этом выбор формы и вида зависимости у от объясняющих переменных х₁, х₂,...,х_n нацелен на минимализацию суммарной ошибки, т.е. отклонений наблюдаемых значений у от значений, полученных по регрессионной модели.

1. Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.

Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определяется на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.

Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от - 1 до +1, причем чем ближе коэффициент корреляции по модулю к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь прямая, а если меньше нуля - обратная.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.

Исходной для анализа является матрица размерности n × k, i-я строка которой характеризует i-е наблюдение (объект) по всем к показателям (j = 1,2,...,k):

В корреляционном анализе матрицу X рассматривают как выборку объема n из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения.

По выборке определяют оценки параметров генеральной совокупности, а именно: вектор , вектор средних квадратических отклонений s и корреляционную матрицу R порядка k:

где , ,

где х_ij — значение j-го показателя для i-го наблюдения;

г_jl — выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями x_j; и x_l При этом r_jl является оценкой генерального парного коэффициента корреляции ρ_jl.

Матрица R является симметричной (r_jl = r_lj.) и положительно определенной.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка.

Например, частный коэффициент корреляции (k-2)-uо порядка между переменными х₁ и х₂ равен:

где R_jl - алгебраическое дополнение элемента r_jl корреляционной матрицы R. При этом R_jl = (-1)^j⁺¹М_jl,, где М_jl, - минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j-й строки и l-го столбца.

Множественный коэффициент корреляции (k-1)-го порядка результативного признака х₁ определяется по формуле:

где |R| — определитель матрицы R.

2.Регрессионный анализ -это статистический метод исследования зависимости результативной величины у от объясняющих переменных х_j (j = 1, 2,...,k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения х_j.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием у = (φ(х₁,...,х_k), являющимся функцией от аргументов х₁,...,х_k, с постоянной, не зависящей от аргументов дисперсией δ².

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, х_1,x₂,...,х_j_,...,х_k) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (у_i, х_i_1,x_i₂,...,х_ij_,...,х_ik), где х_ij. – значение j-й переменной для i-го наблюдения (i = 1,2,...,n), у_i. — значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрес-
сионного анализа имеет вид:

y_i = β₀ + β₁x_i₁ + … + β_jx_ij + … + β_kx_ik + ε_i,

где β_j - параметры регрессионной модели;

ε_i - случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию δ².

Эта модель справедлива для всех i = 1,2,...,n, линейна относительно неизвестных параметров β₀, β₁,..., β_j,..., β_k. и аргументов.

Как следует из модели, коэффициент регрессии β_j показывает, на какую величину в среднем изменится результативный признак у, если переменную х_j увеличить на единицу при неизменных значениях остальных аргументов, т.е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид:

где Y - случайный вектор-столбец размерности n × 1 наблюдаемых значений результативного признака (у₁,у₂,...,уn),

X - матрица размерности n × (k + 1) наблюдаемых значений аргументов, элемент матрицы х_ij рассматривается как неслучайная величина (i = 1,2,..., n; у = 0, 1,...,k; х₀_i = 1);

β - вектор-столбец размерности (k + 1) × 1 неизвестных, подлежащих оценке параметров модели;

ε - случайный вектор-столбец размерности n × 1 ошибок наблюдений.

Компоненты вектора ε, независимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Мε_i = 0) и неизвестной постоянной дисперсией δ² (Dε_i = δ²).

Модель регрессии в матричной форме:

В первом столбце матрицы X указываются единицы при наличии свободного члена в модели. Здесь предполагается, что существует переменная х₀, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии β₀, β₁,..., β_k модели, т.е. вектора β.

Так как в регрессионном анализе x^ рассматривается как неслучайная величина, а Мε_i = 0, то уравнение регрессии имеет вид:

для всех i = 1, 2,...,n, или в матричной форме:

y = Xβ

где Y — вектор-столбец с элементами у₁...,у_i,...,у_n.

Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений у, от модельных значений уi, т.е. квадратичную форму:

где символом «Т» обозначена транспонированная матрица.

Дифференцируя квадратичную форму Q по β₀, β₁,..., β_k,. и приравнивая частные производные к нулю, получим систему уравнений:

решая которую, получим вектор-столбец оценок b, где b = (b₀,b₁,...,b_k)^T.

Согласно методу наименьших квадратов вектор-столбец оценок коэффициентов регрессии получается по формуле:

где Х^T - транспонированная матрица X;

(Х^ТХ)^-1- матрица, обратная матрице Х^ТХ.

Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку уравнения регрессии:

или в матричном виде:

где - вектор расчетных значений результативного показателя.

Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением:

где - несмещенная оценка остаточной дисперсии δ², определяемая по формуле:

На главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии:

Существуют и другие алгоритмы пошагового регрессионного анализа, например, с последовательным включением факторов.

Наряду с точечными оценками b_j генеральных коэффициентов регрессии β_j,., регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ.

Интервальная оценка с доверительной вероятностью γ для параметра β_j имеет вид:

где t_α находят по таблице t-распределения при вероятности α = 1 - γ и числе степеней свободы ν = n – k – 1.

Интервальная оценка показывает, на какую величину в лучшем и худшем случае изменится с доверительной вероятностью γ величина у, если х, увеличить на единицу.

Интервальная оценка для уравнения регрессии У в точке, определяемой вектором-столбцом начальных условий Х° = (1,х₁°,х₂°,...,х_k°)^T, записывается в виде:

Интервал предсказания y_n₊₁ с доверительной вероятностью γ определяется как:

где t_α определяется по таблице t-распределения при ν = 1 – γ и ν = n – k - 1.

По мере удаления вектора начальных условий х° от вектора средних , ширина доверительного интервала при заданном значении γ будет увеличиваться.

Мультиколлинеарность. Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами х₁, x₂,...,x_k. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (Х^ТХ) становятся слабообусловленными, т.е. их определители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрессии, за вышению дисперсии оценок коэффициентов b_j так как в их выражения входит обратная матрица (Х^ТХ)^-1, получение которой связано с делением на определитель матрицы (Х^ТХ). Отсюда следуют заниженные значения t(b_j). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т. е. |г_jl| > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать только один из показателей – х_j или х_l_.

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

Дата добавления: 2015-07-24; просмотров: 405 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Общий вид линейной модели. Ее связь с главными компонентами	\|	Трендовые модели прогнозирования

mybiblioteka.su - 2015-2025 год. (0.095 сек.)