Читайте также:
|
|
В качестве альтернативы к проверке независимости двух переменных или к простой и быстрой количественной характеристике степени их независимости анализ данных часто дает значение какой-нибудь меры связи. Однако, как мы уже отмечали в предыдущей главе, многие из широко распространенных мер связи не имеют простой вероятностной интерпретации или, иначе говоря, они суть просто числа.
Есть два основных класса переменных, с которыми мы будем иметь дело. Номинальным переменным свойственны наименования их категорий, которые никак естественно не упорядочиваются. Например, переменная <фрукт> может иметь категории <яблоко>, <апельсин> и <банан>, которые можно записать в любом из шести порядков. Второй класс - это переменные, называемые порядковыми и имеющие упорядоченные категории. Например, переменная <возраст> может иметь категории <моложе 20>, <21-30>, <31-40>, <старше 40>, которые нет никакого смысла записывать в каком бы то ни было ином порядке.
В следующих параграфах мы проанализируем некоторые из наиболее распространенных мер связи, причем начнем с тех, которые лучше приспособлены для номинальных данных, а затем обратимся к данным порядковым.*
3.5. ИЗМЕРЕНИЕ СВЯЗИ С ПОМОЩЬЮ
Все три l-меры, l ь, l a и l, имеют очень простую структуру. В этом параграфе мы подробно остановимся на l ь, а в следующем более кратко опишем l a и l ь.
Статистика l ь основана на сравнении следующих двух ситуаций: для взятого наугад индивида, принадлежащего нашей совокупности, мы пытаемся угадать его В-категорию, когда: а) нет никакой дополнительной информации или б) известна его А -категория. Если ответы А и В совершенно не связаны, то мы не будем во второй ситуации чувствовать себя лучше, чем в первой, но в противном случае мы почувствуем некоторое улучшение. Мера l ь охарактеризует это улучшение численно в терминах относительного прироста вероятности ошибки предсказания В-категории при переходе от одной ситуации к другой, когда предполагается, что наше предсказание обеспечивает в каждом случае наиболее вероятную из В-категорий:
(3.8)
где - наибольший вход в i -й строке таблицы, а - наибольший из итогов по столбцам. Подробности можно найти в [Goodman L.A., Kruskal E.H., 1954].
Дата добавления: 2015-09-01; просмотров: 38 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
РАЗБИЕНИЕ ХИ-КВАДРАТ | | | Пример 3.5 |