Читайте также:
|
|
В методологии гл. 5-7 мы тщательно следовали за профессором Гудменом. Метод получения оценок максимума правдоподобия для параметров логлинейной модели не прямым (косвенным) путем, осно-вываясь на алгоритме Деминга-Стефана, - вот первый путь полу-чения соответствующих оценок частот ячеек в рассматриваемой мо-дели. Мы видели, что благодаря простоте применения этого алгорит-ма можно очень быстро найти большое число различных моделей. Есть, однако, и некоторые недостатки: все модели линейны относительно логарифмов, да еще имеют иерархическую природу. Хотя метод и прост в использовании, все-таки нужна вычислительная машина и программа, а поскольку это сравнительно новый метод, не все иссле-дователи располагают подходящей программой. Поэтому рассмотрим и некоторые другие подходы к анализу данных с номинальными уров-нями. Чеканное, но все-таки краткое перечисление этих подходов да-ют Бишоп, Файнберг и Холланд [Bishop Y. M. M., Fienberg S. Е., Holland P. W., 1975].
Наиболее привлекательная альтернатива основывается на взве-шенном методе наименьших квадратов. Главные преимущества этого подхода таковы: (а) метод позволяет строить логлинейные модели не иерархического типа, а также просто линейные модели, если мы хотим воспользоваться при анализе данных такими моделями; (б) такие мо-дели позволяют пользоваться стандартной техникой дисперсионно-го анализа, имеющей массу пакетов машинных программ и широко известной.
Мы начнем рассмотрение простой ситуации с одним фактором, имеющим I категорий, и одним откликом, имеющим I категорий (хотя такая формулировка нужна только для описания и обобщается на слу-чай любого числа факторов и откликов). Наш интерес концентрирует-ся на изменениях относительных вероятностей J категорий отклика, обусловленных влиянием категорий фактора.
В связи с нашей терминологией обозначим Pij теоретическую ве-роятность попадания наблюдения в ячейку (i, j), хотя это и противоречит обозначениям, принятым в литературе. Рассмотрим множество численных значений { }, где
[92]
(8.10)
Соответственными оценками этих условных вероятностей служат наблюдаемые относительные частоты ячеек:
, (8.11)
где .Чтобы воспользоваться подходом взвешенного метода наименьших квадратов, нам надо иметь дисперсии и ковариации величин { }, которые в силу стандартной биномиальной теории должны быть равны:
,
(8.12)
Следует заметить, что эти выражения приводятся для случая неиз-вестных значений { }, и мы, следовательно, приближенно заменяем истинные значения { } их оценками { } в правых частях уравнений (8.12). К счастью, об этой аппроксимации известно, что она мало реа-гирует на замену теоретических значений, если только значения { } не малы.
Следующий шаг в подходе, основанном на взвешенном методе наименьших квадратов, заключается в выборе функции цели, связанной с { }. Когда J = 2, среди наилучших должен быть выбор такого вида функции, как gi = log ( ), но при J > 2 возникает множество возможностей. Ленен и Кох [Lehnen R. G., Koch G. G., 1974a, 19746] пользовались функциями вида gi1 = log ( )и gi2 - log . Мы обозначим соответствующие наблюдаемые значения функции через yi, yi1 и yi2, так что, например, yi=log .
Цель анализа заключается в том, чтобы объяснить наблюдаемые вариации значений y с помощью линейной функции с неизвестными параметрами и найти оценки этих параметров. В общем случае мы имеем I (J - 1) g-функций и, следовательно, столько же значений у, для объяснения которых требуется некоторое число, скажем r, параметров. В матричных обозначениях модель выглядит так:
g = Х , (8.13)
где g - вектор-столбец g-функций размером I (J - 1); , - вектор-столбец неизвестных параметров размером r 1 и X - матрица плана размером I (J - 1) r, связывающая эти два вектора.
Процедура метода наименьших квадратов обеспечивает оценки значений , основанные на I (J - 1) r -мерном векторе наблюдений у. Поскольку значения { }имеют дисперсии и ковариации, даваемые
[93]
уравнениями (8.12), а не независимые с единичными дисперсиями, как в стандартной теории метода наименьших квадратов, вид оценок метода наименьших квадратов несколько усложнится, а именно:
, (8.14)
где V - подходящая матрица дисперсий-ковариаций размером I (J - 1) I (J - 1), которая точно следует зависимостям от g-функций и содержит обратные значения частот ячеек. Вид матрицы V и дальнейшие подробности о вычислениях, необходимых для про-верки модели, даются у Гризли, Стармера и Коха [Grizzle J. E., Star-merC. F.,KochG. G., 1969], Тейла [Theil Н., 1971] и Бока [Bock R. D., 1975].
И с этим подходом связаны различные трудности. Из-за приближенного характера дисперсий оценки получаются тоже приближенными, а если попадается ячейка с нулевой частотой, то ее приходится заполнять произвольным числом, чтобы избежать поиска обратного числа для нуля. Хотя теоретически возможно исследовать одним и тем же методом множество моделей, каждая модель требует новой матрицы X и нового вектора . Примеры неудобных Х-матриц тоже вполне возможны, как показали при рассмотрении интересных задач Ленен и Кох [Lehnen R. G., Koch G. G., 1972, 1974a, 19746], которые анализировали неполные данные, не поддающиеся непосредственно простому подходу Гудмена. Ноук [Knoke D., 1975] и Гудмен [Goodman L. А., 1976] рассматривали некоторые различия, присущие этим двум подходам.
Еще один альтернативный подход можно развить на основе метода оценивания минимума дискриминирующей информации, который, однако, в форме, предложенной Ку и Кульбаком [Кu Н. Н., Kullback S., 1968] и Ку, Вернером и Кульбаком [Кu Н. Н., Varner R. N., Kullback S., 1971], ведет к тем же оценкам, что и метод максимума правдоподобия. Этот прием был модифицирован в [Ireland С. Т., Ки Н. Н., Kullback S., 1969], что дало ему некоторые преимущества при анализе симметричных квадратных таблиц сопряженности.
Еще одно заключительное замечание этого параграфа. Есть, конечно, множество возможных путей записи совместной функции правдоподобия для наблюдаемых частот ячеек при заданной модели с тем, чтобы затем воспользоваться стандартными методами численной максимизации функции правдоподобия или ее логарифма. Такой подход гарантирует точность и эффективность используемых методов, кроме случаев анализа неполных таблиц вроде тех, что мы будем изучать в гл. 10.
Дата добавления: 2015-09-01; просмотров: 43 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
КОРРЕКЦИЯ ТАБЛИЦЫ - МОСТЕЛЛЕРИЗАЦИЯ | | | ПСЕВДОБАЙЕСОВСКИЕ ОЦЕНКИ |