Проверка гипотезы о равенстве дисперсий

Читайте также:

Необходимость в использовании гипотез о равенстве дисперсий возникает часто, так как дисперсии характеризуют такие показатели, как точность измерительных приборов, технологических процессов, кучность стрельбы, риск экономических или финансовых операций и т.д.

Рассмотрим процедуру сравнения дисперсий в двух совокупностях с нормально распределенными признаками. Пусть дисперсии двух нормально распределенных совокупностей равны и . Необходимо проверить нулевую гипотезу о равенстве дисперсий –

Н_о: = (3)

Для проверки гипотезы (3) из этих совокупностей взяты выборки объема n ₁ и n ₂, По выборкам посчитаны выборочные дисперсии . В качестве статистики используется величина F = (в числителе ставится бòльшая). Известно, что F имеет распределения Фишера с k ₁ = n ₁–1, k ₂ = n ₂ –1 степенями свободы.

Если F > F_кр = F _a_, _k _1, _k ₂, то Н _оотвергается, в противном случае гипотеза принимается.

Рассмотрим процедуру сравнения дисперсий нескольких совокупностей с нормально распределенными признаками. Пусть имеется l нормально распределенных совокупностей, дисперсии которых равны соответственно s₁², s₂²_{, …,}s_l² и l независимых выборок из каждой совокупности объемов n ₁, n ₂, …, n _l. Нулевая гипотеза о равенстве дисперсий имеет вид

Н _о = s₁² = s₂² =_…= s_l² = s². (4)

Известно, что если гипотеза Н_о справедлива, то статистика c², вычисленная по формуле (4) имеет распределение Пирсона с l –1 степенями свободы

c² = ,

где – исправленная выборочная дисперсия l-й выборки;

Правило проверки состоятельности нулевой гипотезы следующее: если | t | > t _a_, _k, то гипотеза Н _о отвергается; в противном случае – принимается, t _a_, _k = t_кр находят из соответствующей таблицы приложений.

Проверка гипотезы о законе распределения

Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, характеризующей изучаемый признак по эмпирическому распределению. Для решения этой задачи необходимо определить вид и параметры закона распределения.

Предположение о виде закона распределения может быть выдвинуто исходя из теоретических предпосылок (например, выполняются условия центральной предельной теоремы); опыта аналогичных предшествующих измерений; на основании графического изображения (гистограммы) эмпирического распределения.

Параметры распределения, как правило, неизвестны, их заменяют наилучшими оценками по выборке.

Как бы хорошо не был подобран теоретический закон распределения, между эмпирическими и теоретическими законами распределения неизбежны расхождения. Возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и теоретический закон распределения подобран неудачно? Для ответа на этот вопрос и служат критерии согласия.

Пусть необходимо проверить нулевую гипотезу Н_о о том, что исследуемая случайная величина Х подчиняется определенному закону распределения. Для проверки гипотезы выбирают некоторую случайную величину U, характеризующую степень расхождения теоретического и эмпирического законов распределений. Закон распределения U при достаточно больших n известен и практически не зависит от закона распределения Х. Выбирают такое значение u, что если гипотеза Н _о верна, то P (U ³ u) = a мала.

Зная закон распределения U, можно найти вероятность того, что U приняла значение, не меньшее, чем фактически наблюдаемое в исследованиях, т.е. U ³ u. Если P (U ³ u) = a мала, то это в соответствии с принципом практической уверенности означает, что такие отклонения практически невозможны. В этом случае гипотезу Н _о отвергают. Если же вероятность P (U ³ u) = a не мала, расхождение между эмпирическим и теоретическим законом распределения не существенно и гипотезу Н _о можно считать правдоподобной и не противоречащей опытным данным.

В c²-критерии согласия Пирсона в качестве меры расхождения U берется величина c², равная сумме квадратов отклонений частот w _i от гипотетических p_i, рассчитанных по предполагаемому распределению и взятых с некоторыми весами с_i.

Определение 11. Кумулятивная кривая – это кривая накопленных частот.

На рис.3 приведена кумулятивная кривая оценок студентов по «Теории вероятностей и математической статистике».

. (5)

Веса с_i вводятся таким образом, чтобы при одних и тех же отклонениях (w_i – p_i)² больший вес имели отклонения, при которых p _i мала, и меньший – при которых p_i велика. Поэтому в качестве весов берут .

Известно, что при n ®¥, U, вычисленное по формуле (6),

(6)

имеет c²-распределение с k = m – r – 1 степенями свободы, где m – число интервалов эмпирического распределения (вариант ряда); r – число параметров теоретического распределения, вычисленных по эмпирическим данным.

Числа n_i = nw_i и np_i называют соответственно эмпирическими и теоретическими частотами.

Алгоритм применения критерия c² следующий:

1. Определяется мера расхождения эмпирических и теоретических частот c².

2. Для выбранного уровня значимости a по таблице c²_-распределения находят критическое значение c²_a_,к при числе степеней свободы k = m –r – 1.

3. Если c² > c²_a_,к, то гипотезу Н _о отвергаем, в противном случае – принимаем.

ЛЕКЦИЯ 25. ЭЛЕМЕНТЫ РЕГРЕССИОННОГО И КОРРЕЛЯЦИОННОГО АНАЛИЗОВ

К наиболее простым зависимостям тапа Y = f (X) (такие зависимости в литературе еще называют парными) относится подавляющее большинство формул, используемых в естественнонаучных и технических дисциплинах. Такие формулы, как правило, строятся по результатам экспериментов, применяя метод наименьших квадратов. Однако только сейчас с использованием вычислительной техники стало возможным строить парные зависимости оптимальной (в смысле адекватности) формы.

Пусть имеется n пар наблюдений значений зависимой переменной y_i – функции отклика, полученных при фиксированных значениях независимой переменной x_i – фактора.

x_i	x₁	x₂	…	x_n
y_i	y₁	y₂	…	y_n

Пары (x_i, y_i) на плоскости можно представить в виде точек с координатами (x_i,y_i) (рис.1).

Рис.1

Задача регрессионного анализа состоит в том, чтобы, зная положение точек на плоскости, так провести линию регрессии, чтобы сумма квадратов отклонений вдоль оси 0Y этих точек от проведенной линии была минимальной. Для проведения регрессионного анализа к выдвигаемой гипотезе (к форме уравнения регрессии) выдвигается требование, чтобы это уравнение было линейным по параметрам или допускало линеаризацию. Рассмотрим сначала процедуру построения линейной зависимости между фактором и откликом.

Уравнение прямой линии на плоскости имеет вид , где и – неизвестные постоянные. Тогда задачу метода наименьших квадратов можно сформулировать следующим образом – минимизировать функционал U по параметрам и

. (1)

Решение задачи сводится к вычислению значений параметров и , доставляющих функционалу (1) минимальное значение. Необходимое условие экстремума запишем в виде системы (2)

. (2)

После нахождения производных получим так называемую систему нормальных уравнений (3)

. (3)

Для нахождения решения системы можно воспользоваться соотношениями (4)

и . (4)

В общем случае между X и Y может быть два вида связи – функциональная и стохастическая. Первая имеет место, если точки наблюдения эксперимента расположены точно на линии регрессии. При наличии погрешностей измерения – связь стохастическая. Для функциональной связи понятие корреляции r не имеет смысла (коэффициент корреляции равен 1 при линейной зависимости). Для стохастической связи вычисление корреляции между X и Y и его оценка – важная статистическая процедура, которая позволяет судить о тесноте связи между X и Y. Коэффициент корреляции r может изменяться от –1 до +1. Чем ближе r к единице, тем связь между откликом и фактором теснее. Если X и Y имеют нормальное распределение, то равенство r нулю означает независимость X и Y. X и Y имеют две линии регрессии. Одна определяет зависимость Y от X, а вторая – зависимость X от Y. Прямые регрессии пересекаются в «центре тяжести» () и образуют «ножницы». Чем уже «ножницы», тем ближе стохастическая связь к функциональной. Это означает, что уравнение регрессии не является алгебраическим, из которого можно выразить X через Y.

Коэффициент парной корреляции можно определить по формуле (5)

, (5)

где и – выборочные средние.

После определения коэффициентов уравнения регрессии и коэффициента корреляции необходимо оценить их статистическую значимость.

Статистическую значимость уравнения регрессии определяют с использованием критерия Фишера. Вычисляют статистику F -критерия по следующему соотношению (6):

, (6)

где .

Далее по таблице приложения находят табличное значение F -критерия при уровне значимости a и степенями свободы n – 1, n – 2.

Если F < F (a, n – 1, n – 2), то это означает, что уравнение регрессии статистически незначимо и неадекватно описывает результаты эксперимента; в противном случае уравнение регрессии статистически значимо. F -критерий показывает во сколько раз уравнение регрессии предсказывает результаты экспериментов лучше, чем среднее .

Для оценки статистической значимости r используется критерий Стьюдента:

(7)

Вычисленное по формуле (7) сравнивают с табличным – t (n – 2, a), если > t (n – 2, a), то нуль гипотезу H ₀: r = 0 отклоняют, т.е. найденное r статистически значимо отличается от нуля.

Статистическую значимость коэффициентов регрессии и также определяют при помощи критерия Стьюдента.

Адекватность модели можно оценить также при помощи коэффициента детерминации:

. (8)

Чем ближе значение R к единице, тем адекватнее уравнение регрессии описывает исследуемый процесс.

Дата добавления: 2015-07-08; просмотров: 116 | Нарушение авторских прав

Читайте в этой же книге: Закон больших чисел | Закон больших чисел для одинаково распределенных случайных величин | ЛЕКЦИЯ 18. ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА | ЛЕКЦИЯ 19. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. ПРЕДМЕТ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ. ВАРИАЦИОННЫЕ РЯДЫ | Свойства среднего арифметического | Показатели вариации (изменчивости) вариационного ряда | ЛЕКЦИЯ 21. ОЦЕНКА ПАРАМЕТРОВ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ | Метод наибольшего правдоподобия | Интервальная оценка | ЛЕКЦИЯ 23. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ |

<== предыдущая страница	\|	следующая страница ==>
ЛЕКЦИЯ 24. ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ СРЕДНИХ	\|	Линеаризующие преобразования

mybiblioteka.su - 2015-2026 год. (0.276 сек.)