Читайте также:
|
|
В предыдущей главе мы рассматривали наипростейшую ситуацию, возможную для таблиц сопряженности, а именно таблицу 2х2. Благодаря простоте этих данных было всего 4 подходящих ненасыщенных иерархических модели. Гудмен [Goodman L.A., 1970] показал, что для трех факторов это число равно 18, для четырех - 166, а для пяти приближается к 1000.
Наша задача состоит в том, чтобы выбрать одну или несколько относительно простых моделей из всего многообразия. Вряд ли мы легко справимся с этой задачей без специального руководства, особенно когда факторов много. К счастью, такое руководство существует - это насыщенная модель. При подборе насыщенной модели мы оцениваем значения всех К, какие только можно себе представить включенными в подходящую простую модель. Некоторые из значений К могут оказаться близкими к 0, что будет указывать на их малую важность. Тогда при выборе ненасыщенной модели мы сможем руководствоваться стремлением включить в нее прежде всего те К, которые существенно отличаются от нуля. Все это, однако, еще впереди (гл. 7), а сейчас мы сосредоточимся на задаче построения насыщенной модели и ее интерпретации.
ТАБЛИЦА С ТРЕМЯ ВХОДАМИ. ОБЩИЙ СЛУЧАЙ
Начнем обсуждение многомерных таблиц с подробного рассмотрения таблицы с тремя входами. Выводы, к которым мы здесь придем, легко обобщаются на случай большего числа факторов. Трехфакторная таблица содержит частоты, классифицированные по категориям трех переменных (например, возраста, пола и политических симпатий). И мы хотим выяснить, есть ли, и если есть, то какие взаимосвязи между этими переменными. Обозначим три фактора буквами А, В и С и допустим, что они имеют I, J и K категорий соответственно. Будем писать pijk для (неизвестной) теоретической вероятности того, что случайно выбранное наблюдение попадает в ячейку (i, j, k) и положим . Другой способ определения рijk мог бы состоять в том, чтобы рассматривать ее как вероятность для индивида, извлеченного случайно из совокупности в нашу выборку, попасть одновременно в категорию i для фактора A, категорию j для фактора В и кaтегорию k для фактора С.
Насыщенная модель включает полный набор сочетаний величин в терминах общего среднего, <главных эффектов> факторов А, В и С, трех двухфакторных взаимодействий АВ, АС и B С, да еще трехфакторного взаимодействия АВС. Последнее взаимодействие мы обсудим позднее. Как и в случае таблицы 2х2, будем обозначать надстрочными индексами исследуемые факторы, а подстрочными - их
категории (уровни). Тогда обозначает, например, связь (взаимо-
[58]
действие) между категорией 1 фактора А и категорией 2 фактора С. Полная модель имеет вид:
(6.1)
Чтобы в модели не получился избыток, т. е. чтобы число параметров не превысило числа ячеек (I X J X K), на значения l в (6.1) налагаются следующие ограничения:
(6.2)
Все это не так просто, чтобы непосредственно судить о полноте модели, поэтому воспользуемся тем, что есть очень простой алгоритм, обеспечивающий определение всех значений l. Его теоретическое обоснование дали Деминг и Стефан [Deming W.E., Stephan F.F., 1940] и Файнберг [Freinberg S.E., 1970а], а его практическое применение ясно и просто продемонстрировали Мостеллер [Mosteller F., 1968] и Дэвис [Devis J.A., 1974]. Кроме того, есть много отдельных алгоритмов (см. Хейбермена [Haberman S.I., 1972]) и пакетов статистических программ, в частности ЕСТА (Общедоступный анализ таблиц сопряженности), изданный Гудменом и Фейем [Goodman L.A., Fay R., 1973] и совмещающий в себе замечательную простоту и гибкость.
Если мы запишем
(6.3)
так что , будет общим средним для логарифмов вероятностей, и
(6.4)
так что будет средним по всем логарифмам вероятностей, для которых фактор А находится на уровне I, то, подставляя выражение (6.1) в правые части уравнений (6.3) и (6.4), мы получим
. (6.5)
Таким образом, оказывается мерой того, насколько более (или менее) вероятна категория Ai; по сравнению со средним по всем категориям этого фактора.
Совершенно аналогично можно получить формулы и для других l. Так, например, если положить
и т.д.,
то
(6.6)
. (6.7)
Соотношение (6.6) показывает, что - это мера того, насколько (местное появление категорий Ai и Вi более или менее вероятно,
[59]
чем можно было бы ожидать, если бы они были независимы. Аналогично - это мера того, насколько независимость факторов А и В сама зависит от категорий фактора С.
Простое описание многофакторных взаимодействий дать трудно. Все, что мы можем сказать на этот счет, это, если существенно отличается от нуля, то соответствующие конкретные категории данных факторов взаимосвязаны сложным образом, не сводимым к простым зависимостям между их парами. Дальнейшие попытки простого описания взаимодействий предпринял Дэвис [Davis J.A., 1974].
ТАБЛИЦА 2Х2Х2
Когда все три фактора А, В и С дихотомические (т. е. когда I = J = K = 2), соотношения типа (6.6) и (6.7) значительно упрощаются, благодаря чему они проливают дополнительный свет на смысл величин К. Мы обнаруживаем, например, что
(6.8)
(6.9)
. (6.10)
Из (6.8) следует, что действительно существует только одно независимое взаимодействие трех факторов, а из (6.9) - что его значение пропорционально разности между логарифмами отношений преобладаний для двух таблиц 2х2, соответствующих двум категориям фактора С. Точно так же мы могли бы установить, что это значение пропорционально логарифму отношения отношений преобладаний (по 6.10). Вид выражения (6.10) говорит еще и о том, что перестановками вероятностей можно получить эквивалентные представления и для других факторов. Например, из (6.10) мы имеем
(6.11)
Получается, что относится к отношению двух вероятностей (преобладанию), - к отношению этих преобладаний, а - к отношению этих отношений. Структура проясняется!
Впервые определение (6.10) для трехфакторного взаимодействия в таблице 2х2х2 дал Бартлет [Bartlett M.S., 1935]. Обобщение на случай произвольной I X J X K -таблицы принадлежит Рою и Кастенбауму [Roy S.N., Kastenbaum М. А., 1956] и не использовалось до появления работы Мантеля [Mantel N., 1966], где было предложено сделать эти самые К основой для построения модели.
[60]
Дата добавления: 2015-09-01; просмотров: 37 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Главных эффектов | | | ОЦЕНИВАНИЕ ПАРАМЕТРОВ НАСЫЩЕННОЙ МОДЕЛИ |