Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Выбор переменной: может быть, мы пользуемся не теми переменными?

Читайте также:
  1. B) Транзит Солнца может быть в трине к раси или навамсе хозяина
  2. C) общественное сознание реализуется через индивидуальное, но к последнему не может быть сведено
  3. C) свобода как возможность выбора
  4. II. Порядок подачи заявления о выборе (замене) страховой медицинской организации застрахованным лицом
  5. Mar. А может, они передумают?
  6. O Терапия ингибиторами протеазы может привести к развитию гиперинсулинемической гипогликемии.
  7. T - табличная величина, соответствующая доверительной вероятности, по которой будут гарантированы оценки генеральной совокупности по данным выборки;

Таблица 1. Влияние мультиколлинеарности на регрессию

 

Степень мультиколлинеарности Влияние на регрессионный анализ
Незначительная Вообще не представляет проблемы
Средняя Как правило, не представляет проблем ы
Сильная Статистические последствия: зачастую представляет собой проблему, если требуется оценить влияние отдельных Х- переменных (т.е. коэффициенты регрессии); может не представлять проблемы, если цель заключается в предсказании или прогнозировании У
Чрезвычайно сильная Численные последствия: всегда представляет собой проблему; компьютерные вычисления могут даже оказаться неправильными из-за неустойчивости вычислений

 

Как выяснить, действительно ли существует проблема мультиколлинеарно­сти? Один из простейших способов ответить на этот вопрос заключается в анализе обычных двумерных корреляций для каждой пары переменных. Корреляционная матрица представляет собой таблицу, которая содержит коэффициенты корреляции для каждой пары переменных из вашей многомерной совокупности данных. Чем выше коэффициент корреляции между двумя Х- переменными, тем больше мультиколлинеарность. Это объясняется тем, что высокая корреляция (близкая к 1 или -1) указывает на сильную связь и свидетельствует о том, что эти две Х- переменные измеряют очень схожие характеристики, привнося тем самым в анализ "пересекающуюся" информацию.

Основной статистический результат мультиколлинеарности заключается в росте стандартных ошибок некоторых или всех коэффициентов регрессии ( ). Это вполне естественно: если две Х- переменные содержат "пересекаю­щуюся" информацию, трудно определить влияние каждой из них в отдельности. Высокое значение стандартной ошибки приводит к тому, что компьютер сообща­ет вам приблизительно следующее: "Я вычислил для вас коэффициент регрес­сии, но результат неточный, поскольку трудно сказать, эта или какая другая пе­ременная является определяющей". В результате доверительные интервалы для соответствующих коэффициентов регрессии значительно расширяются, а t -тесты вряд ли будут значимыми.

В случае сильной мультиколлинеарности может оказаться, что регрессия очень высоко значима (исходя из результатов F-теста), однако ни один из t- тестов для отдельных Х- переменных значимым не является. Компьютер сообща­ет вам о том, что Х- переменные, рассматриваемые как единая группа, весьма сильно влияют на У, но практически невозможно определить важность какой-то конкретной переменной. Следует помнить, что t- тест для конкретной X- переменной измеряет ее влияние на У при условии, что значения других пере­менных остаются неизменными. Таким образом, t- тестдля переменной Xi выяв­ляет только дополнительную информацию, привнесенную переменной Xi помимо той информации, которую несут другие Х- переменные. Если какая-то другая пе­ременная очень близка к Xi, тогда переменная Xi не привносит в регрессию зна­чимо новую информацию.

Одно из решений заключается в том, чтобы проигнорировать те X- переменные, которые дублируют информацию, уже присутствующую в других Х- переменных. Если, например, ваши Х- переменные включают три различные измерения размера, попробуйте либо избавиться от двух из них, либо объединить все три переменные в единую меру размера (например, воспользовавшись их средним значением).

Другое решение заключается в том, чтобы переопределить некоторые из переменных с тем, чтобы каждая из Х- переменных выполняла четкую, присущую только ей одной роль в определении У. Распространенный способ применения этой идеи к группе близких друг к другу Х- переменных заключается в том, что­бы взять для представления этой группы одну Х- переменную (можно либо вы­брать одну из этих Х- переменных, либо сформировать из них индекс) и предста­вить остальные переменные как относительные показатели (например, величина на единицу другого показателя), построенные из этой представляющей X- переменной. Например, можно представлять зависимость размера объема про­даж (У) с помощью численности населения (X1) и общего дохода 2) для каждо­го региона. Однако эти переменные являются мультиколлинеарными (т.е. чис­ленность населения и общий доход — высоко коррелированные величины). Эту проблему можно решить, объясняя объем продаж (Y) с помощью численности населения (X1) и размера дохода на одного человека (новая переменная Х2). В результате численность населения будет выполнять роль представляющей пере­менной, отражая общую величину территории, а доход, вместо того чтобы по­вторять уже известную нам информацию (о величине соответствующей террито­рии), переопределяется и несет новую информацию (о благосостоянии людей).

Выбор переменной: может быть, мы пользуемся "не теми" переменными?

 

Результаты статистического анализа в значительной мере зависят от имеющейся информации, т.е. от использованных для анализа данных. В частности, особое внимание следует обратить на выбор независимых ("объясняющих") X- переменных для множественного регрессионного анализа. Включение как можно большего числа Х- переменных "просто так, на всякий случай" или потому, что "создается впечатление, будто каждая из них как-то влияет на У " — далеко не лучшее решение. Поступая таким образом, вы обрекаете себя на возможные трудности при определении значимости для регрессии (F- тест), или – вследствие мультиколлинеарности, вызванной наличием избыточных переменных, — у вас могут возникнуть трудности при решении вопроса о значимости для некоторых отдельных коэффициентов регрессии.

Что происходит, когда вы включаете одну лишнюю, неуместную X- переменную? Значение R 2 в этом случае окажется несколько большим, так как несколько большую долю У можно объяснить за счет случайности этой новой переменной. Однако F- тест значимости регрессии учитывает это увеличение, поэтому такое увеличение R2 нельзя считать преимуществом.

На самом деле включение дополнительной Х- переменной может принести не­большой или даже умеренный вред. Оценка того или иного неуместного пара­метра (в данном случае неуместного коэффициента регрессии) оставляет меньше информации для стандартной ошибки оценки, Se. По техническим причинам следствием этого является менее мощный F -тест, который может не обнаружить значимость даже в том случае, когда Х- переменные в генеральной совокупности на самом деле объясняют У.

А что произойдет в случае, когда вы проигнорируете необходимую Х- перемен­ную? В результате из совокупности данных выпадет важная и полезная информа­ция и ваше прогнозирование У будет менее точным, чем в случае использования этой Х- переменной. Стандартная ошибка оценки, Se ,, в этом случае, как правило, оказывается больше (что указывает на большие ошибки прогнозирования), а R2, как правило, оказывается меньшим (что указывает на объяснение меньшей доли вариации У). Естественно, если вы проигнорируете критически важную X- переменную, то, возможно, F -тест для этой регрессии просто будет незначим.

Ваша задача в данном случае – включить ровно столько Х- переменных, сколь­ко нужно (т.е. не слишком много и не слишком мало), причем включить именно те Х- переменные, которые необходимы. Если у вас есть сомнения, можно вклю­чить некоторые из Х- переменных, относительно которых вы не уверены. В таком случае полезен субъективный метод (основанный на приоритетном перечне X- переменных). Существует также множество различных автоматических методов.

 

 


Дата добавления: 2015-07-11; просмотров: 241 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
II. Примерный перечень вопросов к зачету (экзамену) по всему курсу.| Право детей с нарушениями речи на образование и его реализация на практике

mybiblioteka.su - 2015-2024 год. (0.006 сек.)