Читайте также:
|
|
Необходимость в использовании гипотез о равенстве дисперсий возникает часто, так как дисперсии характеризуют такие показатели, как точность измерительных приборов, технологических процессов, кучность стрельбы, риск экономических или финансовых операций и т.д.
Рассмотрим процедуру сравнения дисперсий в двух совокупностях с нормально распределенными признаками. Пусть дисперсии двух нормально распределенных совокупностей равны и . Необходимо проверить нулевую гипотезу о равенстве дисперсий –
Но: = (3)
Для проверки гипотезы (3) из этих совокупностей взяты выборки объема n 1 и n 2, По выборкам посчитаны выборочные дисперсии . В качестве статистики используется величина F = (в числителе ставится бòльшая). Известно, что F имеет распределения Фишера с k 1 = n 1–1, k 2 = n 2 –1 степенями свободы.
Если F > Fкр = F a, k 1, k 2, то Н о отвергается, в противном случае гипотеза принимается.
Рассмотрим процедуру сравнения дисперсий нескольких совокупностей с нормально распределенными признаками. Пусть имеется l нормально распределенных совокупностей, дисперсии которых равны соответственно s12, s22, …,sl2 и l независимых выборок из каждой совокупности объемов n 1, n 2, …, n l. Нулевая гипотеза о равенстве дисперсий имеет вид
Н о = s12 = s22 = …= sl2 = s2. (4)
Известно, что если гипотеза Но справедлива, то статистика c2, вычисленная по формуле (4) имеет распределение Пирсона с l –1 степенями свободы
c2 = ,
где – исправленная выборочная дисперсия l-й выборки;
.
Правило проверки состоятельности нулевой гипотезы следующее: если | t | > t a, k, то гипотеза Н о отвергается; в противном случае – принимается, t a, k = tкр находят из соответствующей таблицы приложений.
Проверка гипотезы о законе распределения
Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, характеризующей изучаемый признак по эмпирическому распределению. Для решения этой задачи необходимо определить вид и параметры закона распределения.
Предположение о виде закона распределения может быть выдвинуто исходя из теоретических предпосылок (например, выполняются условия центральной предельной теоремы); опыта аналогичных предшествующих измерений; на основании графического изображения (гистограммы) эмпирического распределения.
Параметры распределения, как правило, неизвестны, их заменяют наилучшими оценками по выборке.
Как бы хорошо не был подобран теоретический закон распределения, между эмпирическими и теоретическими законами распределения неизбежны расхождения. Возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и теоретический закон распределения подобран неудачно? Для ответа на этот вопрос и служат критерии согласия.
Пусть необходимо проверить нулевую гипотезу Но о том, что исследуемая случайная величина Х подчиняется определенному закону распределения. Для проверки гипотезы выбирают некоторую случайную величину U, характеризующую степень расхождения теоретического и эмпирического законов распределений. Закон распределения U при достаточно больших n известен и практически не зависит от закона распределения Х. Выбирают такое значение u, что если гипотеза Н о верна, то P (U ³ u) = a мала.
Зная закон распределения U, можно найти вероятность того, что U приняла значение, не меньшее, чем фактически наблюдаемое в исследованиях, т.е. U ³ u. Если P (U ³ u) = a мала, то это в соответствии с принципом практической уверенности означает, что такие отклонения практически невозможны. В этом случае гипотезу Н о отвергают. Если же вероятность P (U ³ u) = a не мала, расхождение между эмпирическим и теоретическим законом распределения не существенно и гипотезу Н о можно считать правдоподобной и не противоречащей опытным данным.
В c2-критерии согласия Пирсона в качестве меры расхождения U берется величина c2, равная сумме квадратов отклонений частот w i от гипотетических pi, рассчитанных по предполагаемому распределению и взятых с некоторыми весами сi.
Определение 11. Кумулятивная кривая – это кривая накопленных частот.
На рис.3 приведена кумулятивная кривая оценок студентов по «Теории вероятностей и математической статистике».
. (5)
Веса сi вводятся таким образом, чтобы при одних и тех же отклонениях (wi – pi)2 больший вес имели отклонения, при которых p i мала, и меньший – при которых pi велика. Поэтому в качестве весов берут .
Известно, что при n ®¥, U, вычисленное по формуле (6),
(6)
имеет c2-распределение с k = m – r – 1 степенями свободы, где m – число интервалов эмпирического распределения (вариант ряда); r – число параметров теоретического распределения, вычисленных по эмпирическим данным.
Числа ni = nwi и npi называют соответственно эмпирическими и теоретическими частотами.
Алгоритм применения критерия c2 следующий:
1. Определяется мера расхождения эмпирических и теоретических частот c2.
2. Для выбранного уровня значимости a по таблице c2-распределения находят критическое значение c2a,к при числе степеней свободы k = m –r – 1.
3. Если c2 > c2a,к, то гипотезу Н о отвергаем, в противном случае – принимаем.
ЛЕКЦИЯ 25. ЭЛЕМЕНТЫ РЕГРЕССИОННОГО И КОРРЕЛЯЦИОННОГО АНАЛИЗОВ
К наиболее простым зависимостям тапа Y = f (X) (такие зависимости в литературе еще называют парными) относится подавляющее большинство формул, используемых в естественнонаучных и технических дисциплинах. Такие формулы, как правило, строятся по результатам экспериментов, применяя метод наименьших квадратов. Однако только сейчас с использованием вычислительной техники стало возможным строить парные зависимости оптимальной (в смысле адекватности) формы.
Пусть имеется n пар наблюдений значений зависимой переменной yi – функции отклика, полученных при фиксированных значениях независимой переменной xi – фактора.
xi | x1 | x2 | … | xn |
yi | y1 | y2 | … | yn |
Пары (xi, yi) на плоскости можно представить в виде точек с координатами (xi,yi) (рис.1).
Рис.1
Задача регрессионного анализа состоит в том, чтобы, зная положение точек на плоскости, так провести линию регрессии, чтобы сумма квадратов отклонений вдоль оси 0Y этих точек от проведенной линии была минимальной. Для проведения регрессионного анализа к выдвигаемой гипотезе (к форме уравнения регрессии) выдвигается требование, чтобы это уравнение было линейным по параметрам или допускало линеаризацию. Рассмотрим сначала процедуру построения линейной зависимости между фактором и откликом.
Уравнение прямой линии на плоскости имеет вид , где и – неизвестные постоянные. Тогда задачу метода наименьших квадратов можно сформулировать следующим образом – минимизировать функционал U по параметрам и
. (1)
Решение задачи сводится к вычислению значений параметров и , доставляющих функционалу (1) минимальное значение. Необходимое условие экстремума запишем в виде системы (2)
. (2)
После нахождения производных получим так называемую систему нормальных уравнений (3)
. (3)
Для нахождения решения системы можно воспользоваться соотношениями (4)
и . (4)
В общем случае между X и Y может быть два вида связи – функциональная и стохастическая. Первая имеет место, если точки наблюдения эксперимента расположены точно на линии регрессии. При наличии погрешностей измерения – связь стохастическая. Для функциональной связи понятие корреляции r не имеет смысла (коэффициент корреляции равен 1 при линейной зависимости). Для стохастической связи вычисление корреляции между X и Y и его оценка – важная статистическая процедура, которая позволяет судить о тесноте связи между X и Y. Коэффициент корреляции r может изменяться от –1 до +1. Чем ближе r к единице, тем связь между откликом и фактором теснее. Если X и Y имеют нормальное распределение, то равенство r нулю означает независимость X и Y. X и Y имеют две линии регрессии. Одна определяет зависимость Y от X, а вторая – зависимость X от Y. Прямые регрессии пересекаются в «центре тяжести» () и образуют «ножницы». Чем уже «ножницы», тем ближе стохастическая связь к функциональной. Это означает, что уравнение регрессии не является алгебраическим, из которого можно выразить X через Y.
Коэффициент парной корреляции можно определить по формуле (5)
, (5)
где и – выборочные средние.
После определения коэффициентов уравнения регрессии и коэффициента корреляции необходимо оценить их статистическую значимость.
Статистическую значимость уравнения регрессии определяют с использованием критерия Фишера. Вычисляют статистику F -критерия по следующему соотношению (6):
, (6)
где .
Далее по таблице приложения находят табличное значение F -критерия при уровне значимости a и степенями свободы n – 1, n – 2.
Если F < F (a, n – 1, n – 2), то это означает, что уравнение регрессии статистически незначимо и неадекватно описывает результаты эксперимента; в противном случае уравнение регрессии статистически значимо. F -критерий показывает во сколько раз уравнение регрессии предсказывает результаты экспериментов лучше, чем среднее .
Для оценки статистической значимости r используется критерий Стьюдента:
(7)
Вычисленное по формуле (7) сравнивают с табличным – t (n – 2, a), если > t (n – 2, a), то нуль гипотезу H 0: r = 0 отклоняют, т.е. найденное r статистически значимо отличается от нуля.
Статистическую значимость коэффициентов регрессии и также определяют при помощи критерия Стьюдента.
Адекватность модели можно оценить также при помощи коэффициента детерминации:
. (8)
Чем ближе значение R к единице, тем адекватнее уравнение регрессии описывает исследуемый процесс.
Дата добавления: 2015-07-08; просмотров: 116 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
ЛЕКЦИЯ 24. ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ СРЕДНИХ | | | Линеаризующие преобразования |