Читайте также:
|
|
Пусть мы взяли из совокупности выборку для изучения связи между двумя переменными. Визуальная оценка их взаимоотношений будет в значительной степени зависеть от относительных частот катего-рий этих переменных. Данные, приведенные в двух частях табл. 8.3 (искусственные данные, спешу добавить), демонстрируют этот момент. В табл. 8.3 (а) представлены данные, собранные юными доброволь-ными помощниками членов исследовательской группы, а в табл. 8.3 (б) - такие же данные, но полученные сборщицами-дамами средних лет. Данные относятся к исследованию того, существует ли какая-нибудь взаимосвязь между полом и политическими симпатиями. Два Множества данных показывают явное смещение в сторону женщин той
[89]
Таблица 8.3. Соотношение между полом и политическими симпатиями по данным, собранным (а) юными помощниками и (б) дамами средних лет
(а) (б)
Консерваторы | Лейбористы | Всего | Консерваторы | Лейбористы | Всего | |
Женщины Мужчины | ||||||
Всего |
части данных, которую собирали юные помощники. Обе таблицы вы-глядят настолько различными, что кажутся несопоставимыми. Это, однако, как мы увидим, не тот случай.
В нашем воображаемом обследовании первейший интерес представ-ляет соотношение между полом и политическими симпатиями, поэтому мы попытаемся сначала выудить его из данных, заключенных в табли-цу. Что же надо сделать, чтобы устранить смещение из всех категорий таблицы? Мостеллер [Mosteller F., 1968] был первым, кто описал метод, который должен этого достигнуть. Он привел и множество подробных и полезных примеров работы такого метода. Другие примеры можно найти у Файнберга [Fienberg S. Е., 1971] и Смита [Smith К. W., 1976]. Метод предполагает использование алгоритма Деминга-Стефана, ко-торый лежал в основе оценивания (см. ЕСТА), использованного при определении значений параметров для наших разнообразных логлинейных моделей. Там алгоритм работал с таблицей, все входы которой были единичными, и он корректировал их до тех пор, пока они не при-ходили в соответствие с существующими наблюдаемыми условными суммами (сравните с параграфом 7.1). Здесь же алгоритм начинает с таблицы наблюдаемых частот ячеек и корректирует ее до совпадения с теми условными суммами, которые мы определили. Поскольку один и тот же алгоритм работает в двух разных случаях, мы будем говорить в последнем из них о мостеллеризации, а в первом - о нормализации. Причем может работать та же самая программа, с помощью которой были найдены наши предыдущие результаты. Итог мостеллеризации
Таблица 8.4. Связь между полом и политическими симпатиями после исключения наблюдаемого смещения
(а) (б)
Консерваторы | Лейбористы | Всего | Консерваторы | Лейбористы | Всего | |
Женщины Мужчины | 71,7 28,3 | 28,3 71,7 | 100 100 | 75,0 25,0 | 25,0 75,0 | 100 100 |
Всего |
[90]
Таблица 8.5. Табл. 8.3 после коррекции на известное значение соотношения полов в совокупности и известные политические предпочтений
(а) (б)
Консерваторы | Лейбористы | Всего | Консерваторы | Лейбористы | Всего | |
Женщины Мужчины | 38,8 16,2 | 12,2 32,8 | 40,4 14,6 | 10,6 34,4 | ||
Всего |
показан в табл. 8.4, где суммы частот каждой категории каждой пере-менной сделаны одинаковыми для обоих множеств данных. Следо-вательно, числа в каждой таблице различаются только из-за связи между переменными <пол> и <политические симпатии>. Если бы такой связи не было, то каждое число было бы равно 50. Поскольку это не так, ясно, что между переменными существует некая связь, более того, - и это самое важное, - эта связь одинакова (с точностью до ма-лых случайных отклонений) для обоих множеств данных. Полезную информацию относительно связи мы можем извлечь и из табл. 8.3 (а).
Но это еще не конец, ибо если мы знаем истинные доли в совокуп-ности для категорий наших переменных, то можем использовать ин-формацию о них и корректировать таблицы таким образом, чтобы они отражали доли в совокупности.
В табл. 8.5 мы видим результат корректировки данных табл. 8.3 с учетом известных характеристик совокупности (51 % женщин и 55% консерваторов). Техника получения этих результатов точно та же, что и раньше. Мы попросту пользуемся разными исходными цифрами и снова обнаруживаем, что интервьюеры дали нам весьма близкие ре-зультаты с точки зрения сравниваемых совокупностей после того, как исключаются их индивидуальные смещения.
Дальнейшее углубление в процедуру мостеллеризации и в интер-претацию логлинейных моделей и их параметров дает построение на-сыщенных моделей для каждой из шести таблиц этого параграфа. Их параметры приведены в табл. 8.6. Взаимодействие между полом и по-литическими предпочтениями выражается через?AB и хорошо видно,
Таблица 8.6. Оценки параметров насыщенных моделей, полученные для табл. 8.3, 8.4 и 8.5
Подтаблица | Подтаблица | ||||||
8.3 (а) 8.4 (а) 8.5 (а) | 0,04 0,00 0,11 | 0,53 0,00 -0,03 | 0,47 0,47 0,47 | 8.3(6) 8.4(6) 8.5(6) | -0,20 0,00 0,12 | 0,00 0,00 -0,04 | 0,55 0,55 0,55 |
[91]
Что мостеллеризация оставляет его неизменным. Когда итоги и табл. 8.4 оказываются равными между собой, соответствующие зна-чения параметров и обращаются в 0, как и следовало ожидать. Когда же учитываются данные для совокупности в табл.8.5, это приводит к появлению значений и , хотя надо заметить, что при одинаковых условных суммах в табл. 8.5 (а) и (б) соответствующие значения (0,11 и 0,12) не равны, как и для (-0,03 и -0,04). Это обусловлено нестрогой идентичностью связей в двух таблицах (0,47 и 0,55) и еще раз подчеркивает иерархический принцип, заложенный в наши модели.
Дата добавления: 2015-09-01; просмотров: 63 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
МУЛЬТИПЛИКАТИВНАЯ ФОРМА ЛОГАРИФМИЧЕСКИ-ЛИНЕЙНОЙ МОДЕЛИ | | | ДРУГИЕ МЕТОДЫ ПРОВЕРКИ И ОЦЕНИВАНИЯ |