Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Анализ хи-квадрат: поиск закономерностей для качественных данных



Анализ "хи-квадрат": поиск закономерностей для качественных данных

 

Как можно сделать статистический вывод в отношении качественных данных, когда каждое наблюдение вместо числового значения представлено категорией (такой как цвет или источник энергии)? В двух случаях ответ нам известен.

Во-первых, для атрибутивных данных (т.е. качественных данных, имеющих всего две категории) построение доверительных интервалов и проверка гипотез о процентах выполняются с использованием биномиального распределения и его нормальной аппроксимации.

Во-вторых, для порядковых данных (когда значения имеют естественную упорядоченность) можно использовать непараметрические методы, изложенные ранее. Однако для номинальных данных (в которых отсутствует естественная упорядоченность) при наличии более чем двух категорий (или более одной переменной) необходимы другие методы. Ниже приведено несколько примеров.

Пример 1. Ни один производственный процесс не является совершенным. При наличии дефектов их группируют в категории в соответствии с вызвавшими их причинами. Общий процент дефектов определяется из атрибутивной переменной и может быть проанализирован с помощью биномиального распределения (в предположении о независимости). Процент бракованных изделий можно вычислить для каждой из причин, вызвавших дефект. Например, вы можете определить процент брака вследствие плохих микросхем, плохой пайки, некачественной монтажной платы и др. Поскольку каждую неделю каждый из этих процентов изменяется, хотелось бы знать, когда система выходит из-под контроля,отклоняясь на величину, большую, чем это может быть обусловлено только случайностью.

Пример 2. Опросы являются полезным источником информации. В дополнение к подробностям политической жизни, которым посвящены опросы средств массовой информации, многие фирмы также используют опросы, чтобы узнать, что их потребители (реальные и потенциальные) думают об истинном положении вещей и о перспективе. Эта информация полезна при планировании стратегии для маркетинга и внедрении нового изделия в производство. Многие опросы дают качественные данные, такие как категории "да", "нет", "нет ответа". Качественные данные также могут быть получены в результате выбора предпочтительного продукта из списка известных марок. В таком случае статистический вывод можно использовать для сравнения мнений двух групп людей, чтобы узнать, значимо ли различаются их взгляды. Или можно сравнить мнение некоторой одной группы с известным стандартом.



Критерий "хи-квадрат" используют для проверки гипотез о качественных данных, представленных не числами, а категориями. Для номинальных качественных данных можно только подсчитывать частоты (поскольку ранжирование или арифметические действия выполнять нельзя). Критерий (тест) "хи-квадрат" основан на частотах, которые представляют собой количество объектов выборки, попадающих в каждую из категорий. Статистика "хи-квадрат" измеряет разницу между фактическими частотами и ожидаемыми частотами (в предположении о справедливости нулевой гипотезы) следующим образом.

Статистика «хи-квадрат»

 

«Хи-квадрат» статистика = ,

 

где сумма вычисляется по всем категориям или комбинациям категорий. Определение ожидаемой частоты непосредственно зависит от того, какая именно гипотеза проверяется.

Используя статистику "хи-квадрат" в качестве меры того, насколько данные соответствуют нулевой гипотезе, критерий "хи-квадрат" позволяет принять решение о допустимости нулевой гипотезы.

 

17.1. Обобщение качественных данных с помощью частот и процентов

 

Ниже представлен типичный набор данных в виде списка результатов измерения для каждой из элементарных единиц выборки. В качестве элементарных единиц выступают люди, пришедшие в автосалон, а результатом измерения является тип предпочитаемого ими транспортного средства:

пикап, малолитражный автомобиль, малолитражный автомобиль, семейный седан, пикап, малолитражный автомобиль, спортивная машина, малолитражный автомобиль, семейный седан, пикап, малолитражный автомобиль, автомобиль-фургон, автомобиль-фургон, малолитражный автомобиль, семейный седан, пикап, спортивная машина, семейный седан, семейный седан, малолитражный автомобиль, автомобиль-фургон, малолитражный автомобиль, семейный седан, спортивная машина, малолитражный автомобиль, малолитражный автомобиль, автомобиль-фургон, автомобиль-фургон...

Поскольку такой перечень может быть очень длинным, то, очевидно, что лучше работать с обобщающей таблицей частот или процентов. Таким образом, мы сохраняем всю содержащуюся в данных исходную информацию и в то же время представляем ее в более удобной и компактной форме. Примером может служить табл. 17.1.1.

 

Таблица 17.1.1. Предпочитаемая марка транспортного средства.

Тип

Результат

Процент

Семейный седан

Малолитражный автомобиль

Спортивная машина

Автомобиль-фургон

Пикап

 

34,9 = 187/536

38,4

5,4

13,4

7,8

Общее количество

   

 

Обобщающая таблица частот или процентов также полезна при анализе двумерных качественных данных при наличии более одного измерения. Изучая отношение американцев к компании General Motors, Business Week работала с занимающейся опросами фирмой Louis Harris & Associates. Каждому респонденту было задано несколько вопросов. В частности, рассматривались две следующие качественные переменные.

1. Ответ на вопрос: "Согласны ли вы с утверждением некоторых людей, что все автомобили General Motors выглядят одинаково?" Ответы классифицировались как "Согласен", "Не согласен", "Не уверен".

2. Отнесение респондентов на основании возраста и образования к одной из двух групп: "бэби-бумер" (т.е. те, кто родились в период резкого увеличения рождаемости после Второй мировой войны) и другие (т.е. "не бэби-бумер"). Группа "бэби-бумер" определялась как "люди в возрасте от 18 до 39 лет с образованием не ниже колледжа".

Поскольку каждый респондент характеризуется категориями этих двух переменных, то фактический результат опроса можно представить в следующем виде:

(несогласный, "бэби-бумер"), (согласный, "не бэби-бумер"), (несогласный, "бэби-бумер"), (неуверенный, "не бэби- бумер"), и т.д.

Результаты опроса 1250 взрослых респондентов приведены в табл. 17.1.2.

Такая таблица частот или процентов помогает понять природу соответствующих качественных данных. Следующий шаг состоит в проверке различных гипотез в отношении этих частот и процентов.

 

Таблица 17.1.2.

 

Группа «бэби-бумер»

Группа «не бэби-бумер»

Итого

Согласен, %

Не согласен, %

Не уверен, %

     

Всего %

     

 

17.2. Проверка того, что значения процентов в генеральной совокупности равны некоторым заданным значениям

 

Нам уже известно, как с помощью биномиального распределения проверить равенство одного процента некоторой заданной опорной величине. Однако для сравнения всей таблицы процентов с некоторой другой таблицей заданных опорных величин необходим другой метод. Достаточно распространенным применением такого рода теста является выяснение вопроса о том, является ли ваш нынешний опыт (выраженный в частотах и процентах) типичным по отношению к прошлому опыту (набор опорных величин).

 

Критерий "хи-квадрат" в отношении равенства процентов

 

Критерий "хи-квадрат" в отношении равенства процентов используют для проверки гипотезы о том, можно ли считать таблицу наблюдаемых частот или процентов извлеченной из некоторой генеральной совокупности с известным распределением процентов (известные опорные величины). Ниже сформулирована обобщенная задача и ее решение.

 

Критерий "хи-квадрат" в отношении равенства процентов

 

Данные: таблица частот для каждой категории одной качественной переменной. Гипотезы:

Н0: - проценты в генеральной совокупности равны набору известных, фиксированных опорных величин.

Н1: - проценты в генеральной совокупности не равны этому набору опорных величин; есть отличие по крайней мере для одной категории.

Ожидаемые частоты: для каждой категории умножить известное значение доли в генеральной совокупности на размер выборки n.

Предположения.

1. Набор данных представляет собой случайную выборку из рассматриваемой генеральной совокупности.

2. По крайней мере пять объектов ожидается в каждой категории.

 

Статистика "хи-квадрат":

 

«Хи-квадрат» статистика = ,

 

Степени свободы: количество категорий минус единица.

Результат теста «хи-квадрат»: статистически значим, если значение статистики «хи-квадрат» больше значения из таблицы; в противном случае результат незначим.

 

Если значение «хи-квадрат» больше критического значения из таблицы «хи-квадрат» для соответствующего числа степеней свободы, то это является свидетельством того, что наблюдаемые частоты значимо отличаются от тех, которые ожидаются исходя из известных вам опорных значений процентов. В этом случае следует отклонить нулевую гипотезу и принять исследовательскую (альтернативную) гипотезу, сделав вывод о том, что наблюдаемые выборочные проценты значимо отличаются от заданных опорных значений.

Таблица критических значений для теста «хи-квадрат»

Число степеней свободы

Уровень значимости 10%

Уровень значимости 5%

Уровень значимости 1%

Уровень значимости 0,1%

 

2,706

4,605

6,251

7,779

9,236

15,987

63,167

3,841

5,991

7,815

9,488

11,071

18,307

67,505

6,635

9,210

11,345

13,277

15,086

23,209

76,154

10,828

13,816

16,266

18,467

20,515

29,588

86,661

 

Если значение статистики "хи-квадрат" меньше критического значения из таблицы "хи-квадрат", то наблюдаемые значения не очень отличаются от значений, которые можно ожидать исходя из известных опорных значений процентов. В этом случае следует принять нулевую гипотезу (как приемлемую возможность) и сделать вывод, что наблюдаемые выборочные проценты не имеют значимых отличий от заданных опорных значений.

Грубое эмпирическое правило гласит, что ожидаемые частоты в каждой категории должны быть по крайней мере не меньше пяти, поскольку тест "хи- квадрат" является приблизительным, а не точным тестом. Если сформулированное в этом правиле требование выполняется, то этой аппроксимации вполне достаточно для практических целей, но можно получить ошибочный результат, если ожидаемые частоты для некоторых категорий слишком малы. Риск состоит в том, что в таком случае нельзя контролировать на уровне 5% (или на любом другом выбранном уровне) вероятность ошибки первого рода.

 

Таблица 17.2.2. Наблюдаемые данные о бракованных компонентах за прошедшую неделю.

Проблема

Наблюдаемое значение, частота

Процент от общего количества

Микросхема

Пайка

Плата

 

16 = 8/50

Итого

   

 

Таблица 17.2.3. Опорные значения процентов бракованных компонентов из данных прошлых лет, когда процесс находился под контролем.

Проблема

Процент от общего количества

Микросхема

Пайка

Плата

15,2

60,5

24,3

Итого

 

 

Таблица 17.2.4. Ожидаемые частоты: предполагаемое количество бракованных компонентов, вычисленное в соответствии с опорными значениями процентов для процесса, находящегося под контролем.

Проблема

Процент от общего количества

Микросхема

Пайка

Плата

7,60 = 0,152*50

30,25

12,15

Итого

 

 

 

Из таблицы «хи-квадрат» определяем, что для двух степеней свободы и проверки на уровне 5% критическое значение равно 5,991 (в книге имеется опечатка – 5,59).


Дата добавления: 2015-08-29; просмотров: 28 | Нарушение авторских прав




<== предыдущая лекция | следующая лекция ==>
Омский государственный технический университет | 

mybiblioteka.su - 2015-2024 год. (0.02 сек.)