Выбор переменной: может быть, мы пользуемся не теми переменными?

Читайте также:

B) Транзит Солнца может быть в трине к раси или навамсе хозяина
C) общественное сознание реализуется через индивидуальное, но к последнему не может быть сведено
C) свобода как возможность выбора
II. Порядок подачи заявления о выборе (замене) страховой медицинской организации застрахованным лицом
Mar. А может, они передумают?
O Терапия ингибиторами протеазы может привести к развитию гиперинсулинемической гипогликемии.
T - табличная величина, соответствующая доверительной вероятности, по которой будут гарантированы оценки генеральной совокупности по данным выборки;

Таблица 1. Влияние мультиколлинеарности на регрессию

Степень мультиколлинеарности	Влияние на регрессионный анализ
Незначительная	Вообще не представляет проблемы
Средняя	Как правило, не представляет проблем ы
Сильная	Статистические последствия: зачастую представляет собой проблему, если требуется оценить влияние отдельных Х- переменных (т.е. коэффициенты регрессии); может не представлять проблемы, если цель заключается в предсказании или прогнозировании У
Чрезвычайно сильная	Численные последствия: всегда представляет собой проблему; компьютерные вычисления могут даже оказаться неправильными из-за неустойчивости вычислений

Как выяснить, действительно ли существует проблема мультиколлинеарности? Один из простейших способов ответить на этот вопрос заключается в анализе обычных двумерных корреляций для каждой пары переменных. Корреляционная матрица представляет собой таблицу, которая содержит коэффициенты корреляции для каждой пары переменных из вашей многомерной совокупности данных. Чем выше коэффициент корреляции между двумя Х- переменными, тем больше мультиколлинеарность. Это объясняется тем, что высокая корреляция (близкая к 1 или -1) указывает на сильную связь и свидетельствует о том, что эти две Х- переменные измеряют очень схожие характеристики, привнося тем самым в анализ "пересекающуюся" информацию.

Основной статистический результат мультиколлинеарности заключается в росте стандартных ошибок некоторых или всех коэффициентов регрессии ( ). Это вполне естественно: если две Х- переменные содержат "пересекающуюся" информацию, трудно определить влияние каждой из них в отдельности. Высокое значение стандартной ошибки приводит к тому, что компьютер сообщает вам приблизительно следующее: "Я вычислил для вас коэффициент регрессии, но результат неточный, поскольку трудно сказать, эта или какая другая переменная является определяющей". В результате доверительные интервалы для соответствующих коэффициентов регрессии значительно расширяются, а t -тесты вряд ли будут значимыми.

В случае сильной мультиколлинеарности может оказаться, что регрессия очень высоко значима (исходя из результатов F-теста), однако ни один из t- тестов для отдельных Х- переменных значимым не является. Компьютер сообщает вам о том, что Х- переменные, рассматриваемые как единая группа, весьма сильно влияют на У, но практически невозможно определить важность какой-то конкретной переменной. Следует помнить, что t- тест для конкретной X- переменной измеряет ее влияние на У при условии, что значения других переменных остаются неизменными. Таким образом, t- тестдля переменной X_i выявляет только дополнительную информацию, привнесенную переменной X_i помимо той информации, которую несут другие Х- переменные. Если какая-то другая переменная очень близка к X_i, тогда переменная X_i не привносит в регрессию значимо новую информацию.

Одно из решений заключается в том, чтобы проигнорировать те X- переменные, которые дублируют информацию, уже присутствующую в других Х- переменных. Если, например, ваши Х- переменные включают три различные измерения размера, попробуйте либо избавиться от двух из них, либо объединить все три переменные в единую меру размера (например, воспользовавшись их средним значением).

Другое решение заключается в том, чтобы переопределить некоторые из переменных с тем, чтобы каждая из Х- переменных выполняла четкую, присущую только ей одной роль в определении У. Распространенный способ применения этой идеи к группе близких друг к другу Х- переменных заключается в том, чтобы взять для представления этой группы одну Х- переменную (можно либо выбрать одну из этих Х- переменных, либо сформировать из них индекс) и представить остальные переменные как относительные показатели (например, величина на единицу другого показателя), построенные из этой представляющей X- переменной. Например, можно представлять зависимость размера объема продаж (У) с помощью численности населения (X₁) и общего дохода (Х₂) для каждого региона. Однако эти переменные являются мультиколлинеарными (т.е. численность населения и общий доход — высоко коррелированные величины). Эту проблему можно решить, объясняя объем продаж (Y) с помощью численности населения (X₁) и размера дохода на одного человека (новая переменная Х₂). В результате численность населения будет выполнять роль представляющей переменной, отражая общую величину территории, а доход, вместо того чтобы повторять уже известную нам информацию (о величине соответствующей территории), переопределяется и несет новую информацию (о благосостоянии людей).

Выбор переменной: может быть, мы пользуемся "не теми" переменными?

Результаты статистического анализа в значительной мере зависят от имеющейся информации, т.е. от использованных для анализа данных. В частности, особое внимание следует обратить на выбор независимых ("объясняющих") X- переменных для множественного регрессионного анализа. Включение как можно большего числа Х- переменных "просто так, на всякий случай" или потому, что "создается впечатление, будто каждая из них как-то влияет на У " — далеко не лучшее решение. Поступая таким образом, вы обрекаете себя на возможные трудности при определении значимости для регрессии (F- тест), или – вследствие мультиколлинеарности, вызванной наличием избыточных переменных, — у вас могут возникнуть трудности при решении вопроса о значимости для некоторых отдельных коэффициентов регрессии.

Что происходит, когда вы включаете одну лишнюю, неуместную X- переменную? Значение R ² в этом случае окажется несколько большим, так как несколько большую долю У можно объяснить за счет случайности этой новой переменной. Однако F- тест значимости регрессии учитывает это увеличение, поэтому такое увеличение R² нельзя считать преимуществом.

На самом деле включение дополнительной Х- переменной может принести небольшой или даже умеренный вред. Оценка того или иного неуместного параметра (в данном случае неуместного коэффициента регрессии) оставляет меньше информации для стандартной ошибки оценки, S_e. По техническим причинам следствием этого является менее мощный F -тест, который может не обнаружить значимость даже в том случае, когда Х- переменные в генеральной совокупности на самом деле объясняют У.

А что произойдет в случае, когда вы проигнорируете необходимую Х- переменную? В результате из совокупности данных выпадет важная и полезная информация и ваше прогнозирование У будет менее точным, чем в случае использования этой Х- переменной. Стандартная ошибка оценки, S_e ,, в этом случае, как правило, оказывается больше (что указывает на большие ошибки прогнозирования), а R², как правило, оказывается меньшим (что указывает на объяснение меньшей доли вариации У). Естественно, если вы проигнорируете критически важную X- переменную, то, возможно, F -тест для этой регрессии просто будет незначим.

Ваша задача в данном случае – включить ровно столько Х- переменных, сколько нужно (т.е. не слишком много и не слишком мало), причем включить именно те Х- переменные, которые необходимы. Если у вас есть сомнения, можно включить некоторые из Х- переменных, относительно которых вы не уверены. В таком случае полезен субъективный метод (основанный на приоритетном перечне X- переменных). Существует также множество различных автоматических методов.

Дата добавления: 2015-07-11; просмотров: 241 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
II. Примерный перечень вопросов к зачету (экзамену) по всему курсу.	\|	Право детей с нарушениями речи на образование и его реализация на практике

mybiblioteka.su - 2015-2025 год. (0.035 сек.)