Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Глава 2.3. Статистическая проверка гипотез.



Глава 2.3. Статистическая проверка гипотез.

 

 

Основные задачи статистики в терминах функции распределения

Понятие статистической гипотезы.

Общее понятие о статистической проверке гипотез.

Простые и сложные гипотезы.

Понятие статистики как функции выборки

Критерий и его статистика

Критическая область.

Ошибки первого и второго рода.

Параметрические и непараметрические критерии. Примеры

 

Статистическая проверка гипотез является вторым после статистического оценивания параметров распределения и в то же время важнейшим разделом математической статистики.

Методы математической статистики позволяют проверить предположения о законе распределения некоторой случайной величины (генеральной совокупности), о значениях параметров этого закона (например ЕХ, DХ), о наличии корреляционной зависимости между случайными величинами, определенными на множестве объектов одной и той же генеральной совокупности.

Полученные в результате эксперимента на некоторой выборке данные служат основанием для заключения о генеральной совокупности (случайной величине Х). Однако в силу действия случайных вероятностных причин заключение о генеральной совокупности, сделанное на основании экспериментальных (выборочных) данных всегда будут содержать некоторую погрешность, и поэтому подобные заключения должны рассматриваться как предположения (гипотезы, Н), а не окончательные утверждения. Подобные предположения о свойствах и параметрах генеральной совокупности получили название статистических гипотез.

Суть проверки статистических гипотез заключается в том, чтобы установить, согласуются ли экспериментальные данные и выдвинутая гипотеза, допустимо ли отнести расхождение между гипотезой и результатом статистического анализа экспериментальных данных за счет случайных причин.

Итак, сформулируем вышесказанное более формально.

Предположим, что функция распределения величины Х нам неизвестна, но мы располагаем случайной выборкой . По наблюдениям выборки мы хотим дать ответ на вопрос: совпадает функция распределения F(x) с некоторой наперед заданной функцией распределения F0(x) или нет. В таком случае речь идет о проверке статистической гипотезы согласия. Используя наблюдения выборки , нужно либо принять, либо отвергнуть гипотезу о том, что функция распределения F(x) совпадает с заданной функцией распределения F0(x). Правило принятия одного из этих двух решений называется статистическим критерием или просто критерием. В качестве функции F0(x) обычно выбирается одно из известных распределений, скажем, экспоненциальное, нормальное и т.д. с известными параметрами.



 

 

Пусть имеется выборка является реализацией случайной выборки из генеральной совокупности Х, плотность распределения которой ρ (t,θ) зависит от неизвестного параметра θ

Статистические гипотезы относительно неизвестного истинного значения параметра θ

называют параметрическими гипотезами. При этом если θ скаляр, то речь идет об

однопараметрических гипотезах, а если вектор, — то о многопараметрических гипотезах.

Статистическую гипотезу Н называют простой, если она имеет вид

 

Н: , где - некоторое заданное значение параметра

 

Статистическую гипотезу называют сложной, если она имеет вид

 

Н: , где D – некоторое множество значений параметра θ, состоящее более чем и одно параметра.

 

 

Примеры

1. Предположим, проводится серия из n независимых испытаний по схеме Бернулли с неизвестным параметром р, где р – вероятность «успеха» водном испытании.

2. Пусть - случайная выборка объема n из генеральной совокупности Х, распределенной по нормальному закону с неизвестным математическим ожиданием а и известной дисперсией σ2. Тогда Н: а=а0, где а0 – некоторое заданное значение параметра а, является простой. Гипотезы Н1: аа0, Н2: аа0, Н3: а0аа1 являются сложными.

Пусть теперь неизвестны оба параметра – а и σ. В этом случае гипотеза Н: а=а0 становится сложной, так как ей соответствует множество значений двумерного вектора

= (а, σ), для которых а=а0, , 0 < σ < σ

 

 

Пусть по некоторым данным имеются основания выдвинуть предположения о законе распределения или о параметре закона распределения случайной величины (или генеральной совокупности, на множестве объектов которой определена эта случайная величина). Задача заключается в том, чтобы подтвердить или опровергнуть это предположение, используя выборочные (экспериментальные) данные.

Определение. Гипотезы о значениях параметров распределения или о сравнительной величине параметров двух распределений называются параметрическими гипотезами.

Гипотезы о виде распределения называются непарамет­рическими гипотезами.

Проверить статистическую гипотезу – это значит проверить, согласуются ли данные, полученные из выборки с этой гипотезой. Проверка осуществляется с помощью статистического критерия. Статистический критерий – это метод проверки статистической гипотезы, включающий в себя статистику критерия - случайную величину, закон распределения которой (вместе со значениями параметров) известен в случае, если принятая гипотеза справедлива.

Гипотезу, выдвинутую для проверки ее согласия с выборочными данными, называют нулевой гипотезой и обозначают H 0. Вместе с гипотезой H 0 выдвигается альтернативная или конкурирующая гипотеза, которая обозначается H 1. Например:

1)

H 0: ЕХ= 0

2)

H 0: ЕХ= 0

3)

H 0: Mx= 0

 

H 1: ЕХ¹ 0

 

H 1: Mx> 0

 

H 1: Mx= 2

Пусть случайная величина K – статистика критерия для проверки некоторой гипотезы H 0. При справедливости гипотезы H 0 закон распределения случайной величины K характеризуется некоторой известной нам плотностью распределения pK (x).

Выберем некоторую малую вероятность a, равную 0,05, 0,01 или еще меньшую. Определим критическое значение критерия K кр как решение одного из трех уравнений, в зависимости от вида нулевой и конкурирующей гипотез:

P (K> K кр) = a (1)

P (K< K кр) = a (2)

P ((K< K кр1)Ç(K> K кр2)) = a (3)

Возможны и другие уравнения, но они встречаются значительно реже, чем приведенные.

Решение уравнения (1) (то же самое для уравнений (2) и (3)) заключается в следующем: по вероятности a, зная функцию pK (x), заданную как правило таблицей, нужно определить K кр.

Что означает условие (1)?

Если гипотеза H 0 справедлива, то вероятность того, что критерий K превзойдет некоторое значение K кр очень мала – 0,05, 0,01 или еще меньше, в зависимости от нашего выбора. Если K в – значение критерия K, рассчитанное по выборочным данным, превзошло значение K кр, это означает, что выборочные данные не дают основания для принятия нулевой гипотезы H 0 (например, если a= 0,01, то можно сказать, что произошло событие, которое при справедливости гипотезы H 0 встречается в среднем не чаще, чем в одной из ста выборок). В этом случае говорят, что гипотеза H 0 не согласуется с выборочными данными и должна быть отвергнута. Если K в не превосходит K кр, то говорят, что выборочные данные не противоречат гипотезе H 0, и нет оснований отвергать эту гипотезу.

Для уравнения (1) область K> K кр называется критической областью. Если значение K в попадает в критическую область, то гипотеза H 0 отвергается.

Для уравнения (1) область K < K кр называется областью принятия гипотезы. Если значение K в попадает в область принятия гипотезы, то гипотеза H 0 принимается.

Рисунок 1. иллюстрирует решение уравнения (1). Здесь pK (x) – известная плотность распределения случайной величины K при условии справедливости гипотезы H 0.

Пусть выбрано некоторое малое значение вероятности a, по нему определено значение K кр и по выборочным данным определено значение K в, которое попало в критическую область. В этом случае гипотеза H 0 отвергается, но она может оказаться справедливой, просто случайно произошло событие, которое имеет очень малую вероятность a. В этом смысле a есть вероятность непринятия правильной гипотезы H 0.

Определение. Непринятие правильной гипотезы называется ошибкой первого рода. Вероятность a называется уровнем значимости. Таким образом, уровень значимости – это вероятность совершения ошибки первого рода.

 

Критическая область, полученная для уравнения (1) и приведенная на рисунке 1., называется правосторонней.

Уравнение (2) определяет левосторонюю критическую область. Ее изображение приводится на рисунке 2.

Отметим, что каждая из заштрихованных фигур на рисунках 1. и 2. имеет площадь, равную a.

Уравнение (3) определяет двусторонюю критическую область. Такая область изображена на рисунке 3. Здесь критическая область состоит из двух частей. В случае двусторонней критической области границы ее частей K кр1 и K кр2 определяются таким образом, чтобы выполнялось условие:

P (K £ K кр) = P (K ³ K кр) = a / 2.

На рисунке 3. площадь каждой из заштрихованных фигур равна a / 2.

Вид критической области зависит от того, какая гипотеза выдвинута в качестве конкурирующей.

Чем меньше уровень значимости, тем меньше вероятность отвергнуть проверяемую гипотезу H 0, когда она верна, то есть совершить ошибку первого рода. Но с уменьшением уровня значимости расширяется область принятия гипотезы H 0 и увеличивается вероятность принятия проверяемой гипотезы, когда она неверна, то есть когда предпочтение должно быть отдано конкурирующей гипотезе.

Пусть при справедливости гипотезы H 0 статистический критерий K имеет плотность распределения p 0(x), а при справедливости конкурирующей гипотезы H 1 – плотность распределения p 1(x). Графики этих функций приведены на рисунке 4. При некотором уровне значимости находится критическое значение K кр и правостороняя критическая область. Если значение K в, определенное по выборочным данным, оказывается меньше, чем K кр, то гипотеза H 0 принимается. Предположим, что справедлива на самом деле конкурирующая гипотеза H 1. Тогда вероятность попадания критерия в область принятия гипотезы H 0 есть некоторое число b, равное площади фигуры, образованной графиком функции p 1(x) и полубесконечной частью горизонтальной координатной оси, лежащей слева от точки K кр. Очевидно, что b – это вероятность того, что будет принята неверная гипотеза H 0.

Принятие неверной гипотезы называется ошибкой второго рода. В рассмотренном случае число b – это вероятность ошибки второго рода. Число 1 – b, равное вероятности того, что не совершается ошибка второго рода, называется мощностью критерия. На рисунке 4 мощность критерия равна площади фигуры, образованной графиком функции p 1(x).и полубесконечной частью горизонтальной координатной оси, лежащей справа от точки K кр.

Выбор статистического критерия и вида критической области осуществляется таким образом, чтобы мощность критерия была максимальной.

 

Рассмотрим рекомендацию по использованию статистических критериев из книги О.Ю.Ермолаева «Математическая статистика»

 

 

Дополнение. Из книги Г.Секей «Парадоксы теории вероятностей и математической статистики», глава II «Парадоксы статистики»,

§10. Парадокс проверки гипотез

 


Дата добавления: 2015-08-29; просмотров: 57 | Нарушение авторских прав




<== предыдущая лекция | следующая лекция ==>
Часть IV. Иммунопатология и иммунопрофилактика | Глава 3. Анализ себестоимости продукции

mybiblioteka.su - 2015-2024 год. (0.016 сек.)