Читайте также:
|
|
Рассмотрим теперь более общий случай, когда A и В не дихотомичны, а политомичны. Мы исходим из существования I возможных категорий для переменной А, обозначаемых A1, A2,:AI, и J возможных категорий для В ( B1, B2,:,B J). И снова первый вопрос, который приходит в голову: <А независимы ли наши две переменные?>. Наши данные представляют собой наблюдаемые частоты, распределенные по IJ ячейкам, и мы естественным образом обобщим старые обозначения, как показано в табл. 3.1.
[26]
Таблица 3.1. Наблюдаемые частоты для I x J данных
B1 | B2 | : | BJ | Всего | |
A1 A2 . . . AI | f1 1 f2 1 . . . fI 1 | f1 2 f2 2 . . . fI 2 | : : : | f1 J f2 J . . . fI J | f1 0 f2 0 . . . fI 0 |
Всего | f0 1 | f0 2 | : | f0 J | F0 0 |
Можно думать, что аргументы, использованные для таблиц 2х2, сохранят свою силу. Значит, если А и В независимы, то мы должны ожидать, что их доли в j -м столбце, как и в i -й строке, будут более или менее одинаковыми для всех столбцов, т. е.
для всех i и j.
Соответственно с таблицей частот меняется и таблица теоретических вероятностей, имеющая в точности ту же самую структуру. Обозначая pi j вероятность того, что случайно выбранный индивид попадет в ячейку (i, j), просто обобщить условие независимости (2.5), а именно, если A и В независимы, то
Pi j=pi 0p0 j; i=1,2,:,I; j=1,2,:,J (3.1)
Хотя значения {рij} и неизвестны, отношения { fij/ f00 } служат им оценками, и эти оценки вполне можно использовать для заключений об ожидаемых частотах ячеек при условии независимости A и В. Они имеют вид:
(3.2)
В первой главе мы вводили два критерия качества моделей: широко известную статистику X2 и гораздо менее распространенную У2. Теперь мы могли бы воспользоваться любой из них для выяснения, значимо ли различаются множества {еij} и { fij }, констатируя, таким образом, отсутствие независимости между A и В. Чем бы мы ни воспользовались, все равно надо знать соответствующее число степеней свободы, которое для обоих случаев одинаково.
Рассмотрим сумму
,
которую в силу (3.2) можно переписать в виде:
(3.3)
Выражение в скобках - это просто f00, а значит, сумма ожидаемых частот в j-м столбце сводится к сумме наблюдаемых частот того же столбца. Легко проверить, что аналогичный результат верен и для итогов по строкам. Но, поскольку все суммы по строкам и по столбцам постоянны, выходит, что на множество объектов с { eij } наложены ограничения. Если нам известно ( I - 1) входов для какого-либо столбца, то мы, следовательно, уже знаем и итог этого столбца и можем восстановить пропущенное значение. Все это в равной мере приложимо и к строкам, поэтому можно заключить, что, если, например, ожидаемые значения известны для первых (I-1) входов в первые (J-1) столбцы, то мы знаем и условные суммы и можем восстановить пропущенные (I +J - 1) входов. Все это означает, что в нашем распоряжении остается (/ - 1) (J- 1) степеней свободы для проверки качества. Отсюда для критерия X2 получаем результат
, (3.4)
который нет смысла упрощать подстановкой значений eij. А вот крите-рий Y2:
(3.5)
можно упростить с помощью следующих алгебраических соотношений:
(3.6)
Подставляя уравнение (3.6) в (3.5), получим упрощенное выражение
(3.7)
Распределения X2 и Y2 лишь приблизительно соответствуют -распределению. Ярнолд [Yarnold L. K., 1970] показал, что приближение работает хорошо, пока ожидаемые частоты ячеек не опустятся до примерно трех. Он дал формулу для определения того, стоит ли пользоваться этой аппроксимацией в том или ином конкретном случае. Креддок и Флуд [Craddock J. M., Flood C. R., 1970] построили таблицы распределения X2 для разнообразных малых выборок.
Пример 1.3
В табл. 3.2 представлено (фиктивное) множество данных. Можно ли доказать, что A и В не независимы? Обычно очень трудно ответить на подобный вопрос при простом визуальном рассматривании данных. Мы воспользуемся уравнением (3.2) для получения ожидаемых частот в предположении справедливости гипотезы о независимости. Так, e11, частота в левой крайней верхней ячейке, равна: (60 X 20)/200 = 6.
[28]
Таблица 3.2. Условный набор частот
B1 | B2 | B3 | B4 | Всего | |
A1 A2 A3 | |||||
Всего |
Полное множество ожидаемых частот приведено в табл. 3.3.
Таблица 3.3. Ожидаемые частоты для данных табл. 3.2 в случае независимости
B1 | B2 | B3 | B4 | Всего | |
A1 A2 A3 | 13,5 20,25 11,25 | 16,5 24,75 13,75 | |||
Всего |
Найдем теперь статистики для проверки качества. Так,
Верхняя 5%-ная точка -распределения при (4 - 1) х (3 - 1)==6 степенях свободы равна 12,59. Обе наши статистики гораздо больше чем 12,59; следовательно, мы должны заключить, что наблюдаемое множество чисел проявляет существенные признаки того, что A иВне независимы.
Дата добавления: 2015-09-01; просмотров: 56 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
ВЫБОР МЕР СВЯЗИ | | | РАЗБИЕНИЕ ХИ-КВАДРАТ |