Читайте также:
|
|
Чтобы увидеть, как можно построить модель для описания всех сложных взаимоотношений в многомерной таблице, начнем с рассмот-рения наипростейшего возможного случая таблицы 2х2. Наши рассуждения станут яснее, если взять несколько конкретных чисел и продемонстрировать на них наши идеи. Такое гипотетическое множество чисел представлено в табл. 5.2.
Вероятности в четырех ячейках табл. 5.2 не равны. Наша задача заключается в том, чтобы выяснить причины их различий. Есть три более или менее очевидные причины:
Т а б л и ц а 5.2. Гипотетические частоты
ячеек для данных 2Х2
В1 | В2 | Всего | |
А1 А2 | 0,4 0,2 | 0,3 0,1 | 0,7 0,3 |
Всего | 0,6 | 0,4 | 1,0 |
а) категория А1 встречается чаще, чем категория A2;
б) категория В1 встречается чаще, чем категория В2,',
в) сочетания А1, В2 и А2, В1 встречаются несколько чаще, чем можно было бы ожидать, если бы переменные А и В были независимы.
Нам нужен теперь математический метод, который позволяет количественно сравнить относительную важность этих трех эффектов и выявить случаи, когда эффекты следует признать реальными, а когда их, скорее, стоит приписать случайным отклонениям.
Допустим, что такой метод предполагает использование модели, записанной относительно натуральных логарифмов vij вероятностей ячеек pij. Такая модель должна содержать <средний> член, примерно соответствующий идее среднего по вероятностям ячеек, вместе с тремя аддитивными членами, соответствующими трем названным выше причинам. Именно такую модель и предложил Гудмен [Goodman L.A., 1970, 1971а]. Она имеет вид:
(5.4)
где
Члены в правой части модели (5.4) последовательно соответствуют общему среднему и трем названным выше эффектам. Параметры l имеют надстрочные индексы, показывающие, к какой переменной они относятся, и подстрочные индексы, говорящие о том, к какой катего-рии они прилагаются.
Так как в таблице 2х2 всего четыре ячейки, любая жизнеспособная модель должна иметь не более четырех различных параметров. Если модель имеет как раз столько параметров, сколько ячеек в таблице, то ее называют насыщенной моделью. Модель (5.4) - пример насыщенной модели для таблицы 2 Х 2. Ее четырьмя параметрами могут быть . Ограничения па l означают, что
[49]
(5.5)
Примером другого множества из четырех независимых параметров может служить
Прежде чем высказывать какие-нибудь соображения насчет этих l, введем упрощающие обозначения. Мы запишем
где I и J - числа всех категорий двух факторов А и В. Для случая 2х27=7=2. Значит, например, - это средний логарифм вероятности всех ячеек 1-й строки таблицы, тогда как v..- это среднее для логарифмов вероятностей вообще всех ячеек данной таблицы.
Если просуммировать обе части модели (5.4) по индексу i (категориям фактора А), по получим
что с учетом ограничений на значения l сводится к
. (5.7)
Аналогично суммируя обе части исходной модели по всем наблюде-ниям, получим
(5.8)
и, следовательно, . Подставляя это снова в уравнение (5.7) и выполняя аналогичные операции, мы найдем
(5.9)
Множество уравнений (5.9), возможно, знакомо читателю по дисперсионному анализу, поскольку существует прямое соответствие между ними и моделью двусторонней классификации с взаимодействием, где также задаются оценки параметров. Вообще, существует весьма глубокая связь между излагаемым материалом и дисперсионным анализом. Подробный обзор дал Нелдер [Nelder J.A., 1974], который обратил внимание на то, что многие стандартные методы дисперсионного анализа легко адаптируются к нашей ситуации. С помощью (5.9) можно интерпретировать как добавку (или убыль), связанную с категорией i фактора А по сравнению с общим средним.
[50]
Дополнительный свет на возможности уравнений (5.9), применительно к таблицам 2х2 проливает обнаружение, например, того, что
Выражения в правой части (5.10), выписанные в терминах исходных вероятностей ячеек, показывают нам, что эти новоявленные l - всего лишь логарифмы преобладаний, с которыми мы уже хорошо знакомы. Значит, должно быть пропорционально среднему логарифму преобладания для ячеек первой строки таблицы, а должно находиться как логарифм отношения преобладаний, с которым мы впервые встретились еще в параграфе 2.7.
Т а б л и ц а 5.3. Натуральные логарифмы вероятностей из табл. 5 2
В1 | В2 | |
А1 А2 | -0,916 -1,609 | -1,204 -2,303 |
Пример 5.1, Чтобы показать, как работает алгебра, проведем вычисления для вероятностей из табл. 5.2. Наш первый шаг - переход от вероятностей к их логарифмам, показанный в табл. 5.3. Из уравнений (5.6) находим, что иv1.= -1,060, v2. =1,956, v.1= 1,2625, v.2= - 1,7535, v..= -1,508, а затем, воспользовавшись уравнениями (5.9), получим:
и (5.11)
Все прочие l можно вывести из этих. Для дихотомических переменных, которые мы сейчас рассматриваем, существует простое правило знаков: знак надо менять на обратный для каждого подстрочного индекса, отличающегося от индекса вычисляемого значения l (см. уравнение 5.5).
Таким образом, мы можем оценивать параметры насыщенной модели, которых столько же, сколько и ячеек. Разумеется, такая модель должна точно соответствовать данным, если только мы не допустили ошибок при вычислениях. Можем испытать модель на наших данных, воспользовавшись значениями параметров, найденными в (5.11). Тогда
,
а это как раз есть в табл. 5.3.
[51]
Дата добавления: 2015-09-01; просмотров: 42 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
ВИДЫ МОДЕЛЕЙ | | | ОЦЕНИВАНИЕ ПАРАМЕТРОВ НАСЫЩЕННОЙ МОДЕЛИ ДЛЯ ТАБЛИЦЫ 2Х2 |