Читайте также: |
|
Полученные нами к настоящему времени результаты регрессии представляют собой достаточно полное описание исследуемых (п = 55) журналов, однако статистический вывод помог бы нам обобщить этот случай на идеализированную популяцию подобных им журналов. Вместо того чтобы просто констатировать тот факт, что увеличение на один процент числа читателей-мужчин приводит к уменьшению тарифа на размещение рекламы в среднем на $124, можно сделать статистический вывод относительно большой генеральной совокупности журналов такого типа, из которой вполне могли бы быть извлечены имеющиеся данные, и попытаться выяснить, существует ли в действительности какая-либо взаимосвязь между полом читателей журнала и тарифами на рекламу, или коэффициент регрессии, равный -$124, можно объяснить просто случайностью. Может ли быть так, что обнаруженное нами влияние процента читателей-мужчин на стоимость рекламы – это просто случайное число, а не свидетельство наличия систематической взаимосвязи? Ответ на этот вопрос можно получить с помощью статистического вывода.
Чтобы не усложнять пример, предположим, что мы располагаем случайной выборкой из намного большей генеральной совокупности. Допустим также, что эта генеральная совокупность характеризуется линейной взаимосвязью со случайностью, представленной моделью множественной линейной регрессии, в соответствии с которой наблюдаемое значение Y определяется взаимосвязью в генеральной совокупности плюс нормально распределенная случайная ошибка. Предполагается также, что эти случайные ошибки для разных наблюдений (элементарных единиц наших данных) не зависят друг от друга.
Модель множественной регрессий для генеральной совокупности:
Y = (α + β 1X1 + β 2Х2 +... + β kXk ) + ε
= (взаимосвязь в генеральной совокупности) + случайность,
где ε характеризуется нормальным распределением со средним значением 0 и постоянным стандартным отклонением σ, причем эта случайность является независимой для каждого из наблюдений (элементарных единиц данных).
Взаимосвязь в генеральной совокупности определяется k + 1 параметрами: α представляет сдвиг (или постоянный член) для генеральной совокупности, a β 1, β 2,…, β k являются коэффициентами регрессии для генеральной совокупности, которые показывают среднее влияние каждой из Х- переменных на У (в данной генеральной совокупности), при условии, что все остальные Х- переменные остаются неизменными. Если бы вы имели данные обо всей генеральной совокупности, то полученные вами с помощью метода наименьших квадратов коэффициенты регрессии ничем не отличались бы от соответствующих коэффициентов, описывающих связь в генеральной совокупности. Как правило, однако, полученный методом наименьших квадратов сдвиг а является лишь статистической оценкой α, а полученные методом наименьших квадратов коэффициенты регрессии b1, b2,..., bk представляют лишь статистические оценки β 1, β 2,…, β k соответственно. Существуют, конечно же, ошибки, обусловленные процессом оценивания, поскольку выборка намного меньше всей генеральной совокупности.
Значима ли модель? Статистический вывод начинается с F -теста, целью которого является выяснение, объясняют ли Х- переменные значимую часть вариации Y. F -тест используется как «входные ворота» в статистический вывод: если этот тест значим, следовательно, связь существует и можно приступать к ее исследованию и объяснению. Если этот тест незначим, то мы имеем дело с набором не связанных между собой случайных чисел – объяснять, в сущности, нечего. Помните, что, когда вы принимаете нулевую гипотезу, это считается слабым заключением. Вы не доказали, что взаимосвязи нет: вам просто не хватает убедительных доводов в пользу наличия такой взаимосвязи. Взаимосвязь вполне может существовать, но из-за случайности или малого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении.
Нулевая гипотеза для F -теста утверждает, что в генеральной совокупности между Х- переменными и Y прогнозирующая взаимосвязь отсутствует. Иначе говоря, Y является чисто случайной величиной и значения Х- переменных не оказывают на Y никакого влияния. Если посмотреть на модель множественной линейной регрессии, то это утверждение означает, что Y = α + ε, что может иметь место в том случае, если все коэффициенты регрессии в генеральной совокупности равны 0.
Альтернативная гипотеза F -теста утверждает, что в генеральной совокупности между Х- переменными и Y существует определенная прогнозирующая взаимосвязь. Таким образом, переменная Y уже не является чисто случайной величиной и должна зависеть по крайней мере от одной из Х- переменных. Иными словами, альтернативная гипотеза утверждает, что по крайней мере один из коэффициентов регрессии не равен 0. Обратите внимание: вовсе не обязательно, чтобы каждая из Х- переменных влияла на Y – достаточно, чтобы влияла хотя бы одна из них.
В F -тестеиспользуются следующие статистические гипотезы:
H0: β 1 = β 2 =... = β k = 0;
Дата добавления: 2015-07-10; просмотров: 156 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Типичная ошибка прогнозирования: стандартная ошибка предсказания. | | | H1 :по крайней мере один из коэффициентов регрессии β1, β2, ... , βk ¹ 0. |