Читайте также:
|
|
1 2 3 4 Итого
49 20 32 11 112
Анализ полученных данных следует начать с формулировки нулевой и альтернативной гипотез. Согласно нулевой гипотезе, число респондентов, выбравших каждый ролик, должно быть одинаковым и в данном случае равняться ожидаемой частоте 284. Альтернативная гипотеза утверждает, что структура ответов, полученных в результате опроса, будет значительно отличаться от ожидаемого распределения. Затем выбирается уровень значимости. В данном примере выбран уровень значимости 0,05. Вычисление критерия хи-квадрат с использованием приведенной выше формулы будет иметь вид:
^ + + +
28 28 28 28 х2 =15,75 + 2,29 + 0,57 + 10,32
л;2 =28,93
Распределение tf представляет собой целое семейство кривых, имеющих различный вид в зависимости от числа степеней свободы. Степени свободы для такого типа распределения ■£ (т.е. для исследований внутренних характеристик единственной меры) — это количество клеток, используемых в исследовании, минус 1. В данном примере было четыре клетки и, следовательно, три степени свободы. Уровни значимости для распределения ■£ приведены в табл. Б4 Приложения Б. Полученный результат (28,93) сравниваем с критическим значением •£ при уровне значимости 0,05 и 3 степенях свободы. Критическое значение составляет 7,825. Поскольку результат, полученный при анализе предпочтений респондентов, превышает 7,82, нулевая гипотеза отвергается и принимается альтернативная гипотеза. В действительности, полученный результат превышает критическое значение, даже если установить уровень значимости 0,01. Это значит, что рекламист может быть практически абсолютно уверен, что предпочтения респондентов распределяются неодинаково, и что один или несколько роликов они предпочитают другим.
4 Ожидаемая частота вычисляется путем деления общего количества ответов на количество клеток, в данном
случае— 112:4 = 28.
5 Этой таблицей следует пользоваться так же, как и табл. БЗ Приложения Б. Чтобы определить критическое
значение х\ найдите степени свободы в первом столбце и ищите место пересечения этой строки со столб
цом, содержащим нужное значение уровня значимости. Число на пересечении и будет искомым критиче
ским значением %*■
ГЛАВА 16. Количественный анализ данных: статистический вывод 463
Выводы об одной переменной на основе двух
независимых выборок____________________________
Часто среднее или стандартное отклонение генеральной совокупности неизвестны, или же для проведения анализа требуется сравнить между собой две группы, а не одну выборку с соответствующей генеральной совокупностью. Именно с такой ситуацией, описанной в начале этой главы, столкнулись Мэри и Роберта. Сравнение средних или долей двух независимых выборок происходит в соответствии с теми же принципами и приемами, что и сравнение выборочного среднего со средним генеральной совокупности. Как и в случае с ранее рассмотренными критериями, выбор критерия определяется размером выборки и уровнем измерения.
Рассмотрим конкретные статистические методы на материале гипотетических примеров.
Сравнение двух средних независимых выборок
Большие выборки — интервальный и относительный уровень измерения. Часто рекламистам необходимо сравнивать группы людей. Их могут интересовать группы, отличающиеся по какой-либо переменной, связанной с рекламированием: по осведомленности о рекламе, по степени воздействия на них рекламы или по воздействию на них различных типов рекламы. Кроме того, рекламистам иногда нужно сравнивать группы, отличающиеся по определенным характеристикам, например сравнить потребителей, которые используют данную торговую марку, с теми, кто ею не пользуется, или молодых потребителей с пожилыми.
Представим себе, что компания Amoco ОН желает сравнить реакцию автомобилистов на свой рекламный ролик с реакцией на рекламный ролик компании Shell. Более конкретно, компания Amoco хочет выяснить, насколько их рекламные ролики выигрывают или уступают рекламным роликам компании Shell по убедительности. Критерий, призванный дать ответ на этот вопрос, является двусторонним (направление различий не указывается). Нулевая гипотеза утверждает, что средняя убедительность рекламных роликов компании Amoco (А) равна средней убедительности роликов компании Shell (S) (/?„: хЛ = xs). Альтернативная гипотеза предполагает, что средние убедительности рекламных роликов Amoco и Shell не совпадают (Я,: хА Ф xs). Уровень значимости составляет 0,05.
Компания Amoco отобрала две группы покупателей бензина. Одной группе, состоящей из 50 человек, показали три рекламных ролика компании Amoco, а другой группе, состоящей из 40 респондентов, продемонстрировали три рекламных ролика компании Shell. После просмотра всех трех роликов респондентов попросили, помимо прочего, оценить также убедительность роликов по 5-балльной шкале. В результате исследований были получены следующие данные.
Ролики компании Amoco Ролики компании Shell
Средняя убедительность (по 5-балльной
шкале, где 5 означает наибольшую убе
дительность)
Дисперсия
Число опрошенных _______
4,2
1,7 50
3,6
1,5 40
464 ЧАСТЬ IV. Количественные исследования и анализ их результатов
Для вычисления уровня значимости разницы двух средних используется формула:
N2
где Z— Z-статистика, определяющая площадь под кривой и вероятность существования разницы между значениями средних; Хх — среднее первой группы (в данном случае те, кто оценивал рекламные ролики компании Amoco); X2 — среднее второй группы (в нашем случае те, кто оценивал рекламные ролики компании Shell); s* — дисперсия в первой группе; si — дисперсия во второй группе; TV, — число наблюдений в первой группе; N2 — число наблюдений во второй группе.
Полученный результат (2,25) сравнивается со значениями, приведенными в табл. Б2 Приложения Бив списке критических значений (где критическое значение для Z-статистики при уровне значимости 0,05 составляет 1,96). Полученное значение критерия в нашем примере больше, чем 1,96, поэтому нулевая гипотеза отбрасывается и принимается альтернативная гипотеза. Поскольку разница средних имеет положительное значение, компания Amoco может сделать вывод о том, что ее рекламные ролики более убедительны, чем ролики компании Shell (доверительный уровень равен 95%).
Небольшие выборки. Если размер одной или обеих выборок небольшой (обычно 30 или менее респондентов), то, как и при сравнении выборочного среднего со средним генеральной совокупности, по небольшой выборке применяется не Z-критерй, а /-критерий. Для вычисления /-критерия для двух независимых групп используется формула:
Две величины в числителе представляют собой те же величины, что и в Z-критерии для двух независимых выборок. Это — средние в группе 1 и группе 2 соответственно. Размеры выборки каждой из групп обозначаются как я, и пг, а соответствующие дисперсии — s,2 и s22.
Примем те же условия, что и в предыдущем примере, уменьшив только размеры выборок. Допустим, группа, которой были показаны ролики компании Amoco, состоит из 25 респондентов, а группа, смотревшая ролики Shell, — из 20. При тех же значениях средних и дисперсий, но при новых уменьшенных объемах групп, t- критерий вычисляется следующим образом:
ГЛАВА 16. Количественный анализ данных: статистический вывод 465
Полученный результат (1,58) нужно сравнить со значениями, приведенными в табл. БЗ Приложения Б. Критическое значение /-критерия при ненаправленной альтернативной гипотезе, уровне значимости 0,05 и 43 степенях свободы (размер первой выборки плюс размер второй выборки минус 2) приблизительно равно 2,02. Поскольку величина критерия, полученная в данном исследовании (1,58), меньше, чем критическое значение 2,02, нулевая гипотеза не может быть отброшена, т.е. компания Amoco не может, основываясь на двух небольших группах респондентов, прийти к выводу, что их рекламные ролики более убедительны, чем ролики компании Shell.
Значимость различия долей (процентов)
Как вы уже успели убедиться, в распоряжении рекламистов имеется множество способов сравнить средние ответов в двух группах. Однако, кроме сравнения средних, рекламистам часто необходимо оценить различие долей (процентов) в двух группах. Эти группы могут отличаться по некоторым важным признакам или поведенческим характеристикам.
Представим, что компания Toys "Я" Us разработала рекламную кампанию, направленную как на мальчиков, так и на девочек, и разместила ее в средствах массовой информации. После четырех месяцев этой кампании Toys "Я" Us решила провести исследования и определить, одинаковы ли уровни осведомленности о ней среди мальчиков и среди девочек. Нулевая гипотеза (которую компания Toys "Я" Us надеется в данном случае подтвердить) предполагает, что доля мальчиков, осведомленных о рекламной кампании (/*„„„„), примерно равна доле осведомленных девочек (Рт). Альтернативная гипотеза утверждает, что эти доли неравны:
Уровень значимости в данном исследовании составляет 0,05.
Проверка этих, да и вообще любых гипотез, описывающих отношение между двумя долями, включает те же процедуры, что и проверка гипотез о различии между двумя средними. При проверке гипотезы о разности долей, однако, используется значение стандартной ошибки для разности долей, а не разности двух средних. Для определения значимости наблюдаемой разности между двумя долями используется формула:
466 ЧАСТЬ IV. Количественные исследования и анализ их результатов
где /?, —доля в группе 1 (в нашем примере — осведомленные мальчики); рг —доля в группе 2 (в нашем примере — осведомленные девочки); и, — размер 1-й группы; п2 — размер 2-й группы.
Компания Toys "Я" Ј/s опросила 150 мальчиков и ПО девочек. Осведомленность о рекламе компании Toys "Я" Us составила соответственно 87% и 55%. Разность между двумя этими долями вычисляется так:
0,87-0,55
Полученное значение (1,85) сравнивается со значениями, приведенными в табл. Б2 Приложения Бив таблице критических значений (из которой видно, что критическое значение для Znpn уровне значимости 0,05 составляет примерно 1,68). Поскольку результат, полученный при нашем сравнении (1,85), больше, чем 1,68, нулевая гипотеза должна быть отброшена. Исходя из направления разницы между долями осведомленных мальчиков и девочек, компания Toys "Я" Us должна принять альтернативную гипотезу (Я,), согласно которой доля мальчиков, осведомленных о рекламной кампании, не равна доле девочек.
Выводы о связи переменных
Таблица сопряженности признаков и критерий хи-квадрат
Одним из наиболее простых и наглядных способов исследования отношений между двумя или более переменными является их оформление в виде таблицы перекрестной классификации (или таблицы сопряженности признаков). Такая таблица позволяет узнать, как респонденты, имеющие определенное значение по одной переменной, характеризуются с точки зрения другой переменной или переменных. Пример таблицы сопряженности приведен на рис. 16.3. В нашем случае таблица иллюстрирует зависимость покупательских предпочтений от уровня образования.
ГЛАБА 16. Количественный анализ данных: статистический вывод 467
КОД:ЧАСТОТА | ||||||
СТОЛБЕЦ,% СТРОКА, % | Марка чистящего средства | |||||
ВСЕГО, % | SUDZ | SHINZ | CLEANZ | |||
Уровень образования | ||||||
Среднее или | 50% | 24% | 20% | |||
начальное образование | 60% | 24% | 16% | 33.3% | ||
23% | 8% | 5% | ||||
Неоконченное высшее | 30% | 56% | 10% | |||
36% | 56% | 8% | 33.3% | |||
12% | 19% | 2% | ||||
Высшее образование | 20% | 20% | 70% | |||
или аспирантура | 24% | 20% | 56% | 33.3% | ||
8% | 7% | 19% | ||||
40% | 33% | 27% |
Рис. 16.3. Таблица сопряженности
Таблица сопряженности строится в такой последовательности.
• Во-первых, на горизонтальной оси указывают названия или значения для ка
ждой категории первой переменной. На рис. 16.3 — названия разных товаров.
• Во-вторых, на вертикальной оси указывают значения или названия для каж
дой категории второй переменной. На рис. 16.3 — уровень образования.
• В-третьих, для каждого из респондентов определяют категорию или значение
на горизонтальной оси, которые соответствовали бы его ответу на данную пе
ременную.
• В-четвертых, для того же респондента находят категорию или значение на вер
тикальной оси, которые соответствовали бы его ответу на данную переменную.
• В-пятых, ставят галочку в клетке на пересечении горизонтальной и верти
кальной осей.
• В-шестых, подсчитывают количество галочек в каждой клетке и, исходя из
полученных результатов, определяют проценты для каждой строки и каждого
столбца, а также для каждой клетки.
На рис. 16.3 изображен конечный результат всего процесса. Числа в клетках таблицы дают представление о структуре ответов. Итоговые строка и столбец позволяют сделать выводы об общих тенденциях.
• Каждая клетка содержит четыре числа. Первое число— это частота ответов
(ЧАСТОТА) для каждой клетки. Так, 75 человек со средним образованием на
звали SUDZ своей любимой маркой. Второе число— процент по столбцу
468 ЧАСТЬ IV. Количественные исследования и анализ их результатов
(СТОЛБЕЦ, %). Это число показывает, какой процент всех ответов в столбце приходится на данную клетку. Так, 50% тех, кто назвал SUDZ, имеют среднее образование. Третьим стоит процент по строке (СТРОКА, %), который показывает, какой процент от суммы в строке приходится на данную клетку. Так, 60% тех, кто имеет среднее или начальное образование, отдали предпочтение марке SUDZ. Наконец, последним стоит число, означающее процент от всей выборки, приходящийся на данную клетку (ВСЕГО %). Так, 23% всей выборки имеют среднее или начальное образование и отдают предпочтение марке SUDZ.
• Итоговые суммы и проценты отображают общие тенденции. Так, из итоговой строки мы видим, что 40% всех участников выборки предпочитают марку SUDZ, 33% — марку SHINZ и 27% — марку CLEANZ. Числа в итоговом столбце показывают, что на каждый из уровней образования приходится треть выборки.
Общая тенденция указывает, что наибольшее предпочтение опрошенные отдают марке SUDZ. Однако достаточно беглого взгляда на проценты по строке, чтобы понять, что вывод о всеобщем характере предпочтения марки SUDZ неверен, поскольку предпочтение неодинаково для всех трех групп, различающихся уровнем образования. Простой визуальный анализ показывает, что существует зависимость между уровнем образования и предпочтением определенных торговых марок. Опрошенные, имеющие низкий уровень образования, предпочитают SUDZ, а те, чей уровень образования выше, отдают предпочтение CLEANZ. Мы можем статистически оценить значимость зависимости между предпочтением того или иного товара и уровнем образования с помощью критерия хи-квадрат.
Критерий хи-квадрат для двух или более переменных вычисляется по тому же принципу, что и хи-квадрат для одной переменной: сравнивается наблюдаемая час* тота в каждой клетке с ожидаемой (на основании предположения о независимости переменных) частотой. На основании этого сравнения определяется, существует ли зависимость между изучаемыми переменными и оказывает ли она влияние на структуру ответов. В данном случае вычисление критерия хи-квадрат призвано ответить на вопрос: "Зависит предпочтение товара от уровня образования или нет?"
Чтобы вычислить статистику хи-квадрат для таблицы сопряженности, нужно определить наблюдаемую и ожидаемую частоту ответов для каждой ячейки. Наблюдаемые частоты мы получаем эмпирически. Ожидаемые частоты вычисляются, исходя из итогов по строке и столбцу:
где /?; — наблюдаемая частота в ряду /; С,— наблюдаемая частота в столбце У; п —
объем выборки.
На рис. 16.4 изображен вариант таблицы с рис. 16.3. Он иллюстрирует разницу между наблюдаемой и ожидаемой частотностью в каждой клетке, а также метод вычисления ожидаемой частоты.
Статистика хи-квадрат вычисляется по той же формуле, что и ранее:
ГЛАВА 16. Количественный анализ данных: статистический вывод 469
Дата добавления: 2015-07-16; просмотров: 78 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Генеральная совокупность | | | Уровень образования |