Читайте также:
|
|
Среднее или начальное образование
Неоконченное высшее
Высшее образование или аспирантура
Марка чистящего средства
SUDZ SHINZ CLEANZ
0:75 | 0:75 | 0:20 |
Е:50 | Е41.7 | Е:33.3 |
0:45 | 0:70 | 0:10 |
Е:50 | Е41.7 | ЕЗЗ.З |
0:30 | 0:25 | 0:70 |
Е:50 | Е41.7 | ЕЗЗ.З |
125 33.3%
125 33.3%
125 33.3%
150 40%
33%
100 27%
Рис. 16.4. Наблюдаемая и ожидаемая частоты
О = наблюдаемая частота; Е — ожидаемая частота
В данном случае число степеней свободы определяется как произведение числа строк минус один (R-1) на число столбцов минус один (С-1). Значение критерия хи-квадрат для данных, приведенных на рис. 16.3 и 16.4, будет равняться:
470 ЧАСТЬ IV. Количественные исследования и анализ их результатов
Степени свободы для данного распределения ■£ вычисляются путем умножения числа строк минус 1 на число столбцов минус 1. В нашем примере: (3-1) х (3-1) = 4. Уровни значимости для распределения $ приведены в табл. Б4 Приложения Б. Полученный в этом примере результат сравнивается с критическим значением ■£ при уровне значимости 0,05 и 4 степенях свободы, которое составляет 9,49. Поскольку значение, полученное нами в данном примере, намного больше, чем критическое значение, приведенное в таблице, мы отвергаем нулевую гипотезу и принимаем альтернативную. Рекламист может сделать вывод, что существует статистически значимая зависимость между уровнем образования респондентов и их предпочтениями. Исходя из закономерности ответов, можно заключить, что чем выше у людей уровень образования, тем больше среди них предпочитающих CLEANZ, а чем уровень образования ниже — предпочитающих SUDZ. Респонденты, имеющие неоконченное высшее образование, по-видимому, предпочитают SHINZ.
Корреляция
Существует еще один метод определения взаимосвязи между двумя переменными: корреляция. Корреляция — это статистический показатель совместной изменчивости или ассоциации двух переменных. Коэффициент корреляции (обозначаемый символом г) — это число, заключенное между —1 и +1 и обозначающее силу линейной связи двух случайных переменных. Положительное значение коэффициента корреляции свидетельствует о том, что с ростом одной из переменных другая также растет, а с убыванием одной из них убывает и другая. Отрицательное значение означает, что с ростом одной из переменных другая убывает, а с убыванием одной из них другая растет. Если же коэффициент корреляции равен нулю, то линейная связь между переменными отсутствует (см. рис. 16.5).
Рис. 16.5. Диапазон изменения коэффициента корреляции
Корреляция дает информацию о совместном изменении двух переменных. Представьте, что после просмотра рекламного ролика каждого респондента попросили оценить по 5-балльной шкале, насколько ему понравился рекламный ролик, а на другой 5-балльной шкале обозначить, насколько он показался убедительным. Корреляция между двумя этими переменными составила +0,89. Это говорит о том, что
ГЛАВА 16. Количественный анализ данных: статистический вывод 471
респонденты, поставившие более высокую оценку ролику (т.е. те, кому он больше понравился), также были склонны выше оценивать его убедительность. И наоборот, респонденты, которым ролик не понравился, ниже оценивали и его убедительность. Значение корреляции +0,89 показывает, что между этими двумя переменными существует сильная взаимосвязь, и они обе изменяются в одном направлении.
Вычисление коэффициента корреляции вручную — процесс трудоемкий и утомительный. Для этого разработаны специальные статистические компьютерные программы, которые могут быстро подсчитать взаимосвязь между одной или несколькими парами переменных. Когда вычисляются коэффициенты корреляции для нескольких пар переменных, результат оформляется в виде корреляционной матрицы, как показано на рис. 16.6.
Убедительность | Привлекательность | Пол | Возраст |
Убедительность | - | - | - |
Привлекательность 0,87 | - | - | - |
Пол -0,65 | 0,02 | - | - |
Возраст -0,88 | 0,06 | 0,55 | - |
Рис. 16.6. Корреляционная матрица
Убедительность. Убедительность рекламного ролика, оцененная по шкале от 1 (совершенно неубедительный) до 5 (очень убедительный). Привлекательность. Рекламный ролик нравится (не нравится); по шкале от 1 (совершенно не нравится) до 5 (очень нравится). Пол. Пол респондента (1 — респондент мужского пола; 2 — женского). Возраст. Возраст респондента.
Корреляция между любыми двумя переменными находится на пересечении столбца, содержащего одну переменную, со строкой, в которой находится другая. Из рис. 16.6 видно, что корреляция между убедительностью ролика и тем, насколько он нравится, составляет 0,87, в то время как корреляция между возрастом и убедительностью равна 0,88.
Статистическую значимость конкретных значений корреляции между двумя переменными можно определить с помощью табл. Б2 Приложения Б.
Выводы о поведении одной переменной в трех и более независимых выборках
Описанные выше Z- и f-критерии применимы тогда, когда необходимо оценить различия между двумя сравниваемыми средними, полученными в двух независимых группах. Эти критерии, однако, неприемлемы в том случае, если нужно сравнить три или более средних. Прежде всего, они неэффективны. Сравнение пяти средних потребует определения десяти Z- или /-критериев. Кроме того, они могут привести к неправильным выводам. Увеличение количества сравнений увеличивает также и вероятность того, что будет получена статистически значимая разница, обусловлен-
472 ЧАСТЬ IV. Количественные исследования и анализ их результатов
ная, однако, случайными ошибками, а не реальными различиями групп в генеральной совокупности. Дисперсионный анализ (ANOVA) устраняет эти проблемы в случае сравнения нескольких средних.
Однофакторный дисперсионный анализ применяется к одной зависимой переменной, такой, как например намерение купить определенный товар, и сравнивает среднее этой переменной в трех или более независимых группах. Нулевая гипотеза при од-нофакторном дисперсионном анализе предполагает, что все средние равны, в то время как альтернативная гипотеза утверждает, что различия в значениях сравниваемых средних больше, чем можно ожидать, исходя из ошибки выборки. Следовательно, по крайней мере, одно из средних значительно отличается от других средних.
Дисперсионный анализ требует сложных расчетов, поэтому большинство исследователей используют для такого анализа компьютерные статистические программы (см. Приложение А). Тем не менее, хотя компьютер и может взять на себя все математические расчеты, исследователь должен понимать логику дисперсионного анализа. Данный раздел посвящен разъяснению логики и вычислениям, лежащим в основе этого метода.
Рассмотрим пример с компанией Amoco, приведенный ранее в этой главе. Менеджеры по рекламе компании Amoco сравнивали убедительность своих рекламных роликов с убедительностью роликов компании Shell. Предположим, компания Amoco хочет сравнить свои ролики не только с рекламой компании Shell, но и с роликами компаний Агсо и Mobil. Нулевая гипотеза утверждает, что среднее убедительности роликов Amoco (А) равно среднему убедительности других роликов (компаний Shell (S), Агсо (Аг), и Mobil (М)):
Но '• ХЛ = Xs = ХЛг = Хм.
Альтернативная гипотеза предполагает, что межгрупповая вариативность выше, чем внутригрупповая вариативность. Это означает, что хотя бы одно среднее не равно остальным. Уровень значимости равен 0,05.
Компания Amoco отобрала четыре группы потребителей бензина. Каждой из групп было показано три рекламных ролика одной из компаний. После просмотра рекламы респонденты оценили ее убедительность по 5-балльной шкале. В результате были получены следующие данные.
Amoco | Shell | Агсо | Mobil | |
Средняя убедительность (по шкале от 1 до 5, | 4,3 | 3,6 | 4,9 | 3,5 |
где 5 означает наибольшую убедительность) | ||||
Число опрошенных |
Дисперсионный анализ проводится в такой последовательности.
Этап 1. Вычислите общее среднее. Для этого нужно взять сумму произведений каждого отдельного среднего на число респондентов, от которых это среднее было получено, и разделить на общее число опрошенных. В данном примере общее среднее (ХТ) вычисляется так:
ГЛАВА 16. Количественный анализ данных: статистический вывод 473
Этап 2. Вычислите сумму квадратов между группами (СКМ). СКМ равна сумме квадратов разностей каждого группового среднего и общего среднего, помноженных на число респондентов в каждой группе. В данном примере СКМ вычисляется таким образом:
СКМ =Г50х(4,3-4,03)2] + Гб0х(3,6-4,03)2] + [55х(4,9-4,03)21
+ [б5х(3,5-4,03)2]
= 3,65 + 11,09 + 41,63 + 18,26 = 74,63.
Этап 3. Подсчитаем степени свободы (ее) для СКМ, отняв единицу от количества групп, в данном случае, это 4—1 = 3.
Этап 4. Подсчитаем средний квадрат между группами (СрКМ). Это число представляет вариацию средних четырех выборок. СрКМ увеличивается прямо пропорционально возрастанию разницы между средними отдельных групп. СрКМ вычисляем делением СКМ на степень свободы для СКМ. В данном примере СрКМ будет равен:
Этап 5. Подсчитаем сумму квадратов внутри групп (СКВ). Процедура подсчета СКВ имеет сходство с вычислением дисперсии и стандартного отклонения, и представляет собой сумму квадратов отклонения каждого наблюдения в выборке от среднего группы, к которой принадлежит это наблюдение. Таким образом, в данном примере СКВ равна: сумма квадратов отклонения каждого наблюдения в группе Amoco от 4,3, плюс сумма квадратов отклонения каждого наблюдения в группе Shell от 3,6, плюс сумма квадратов отклонения каждого наблюдения в группе Агсо от 4,9, плюс сумма квадратов отклонения каждого наблюдения в группе Mobil от 3,5. В нашем случае эта сумма составляет 1236.
Этап 6. Подсчитаем степени свободы для СКВ, отняв от общего количества людей в выборке количество групп, в данном случае это 230—4 или 226.
Этап 7. Определим внутригрупповую вариативность, т.е. средний квадрат внутри групп (СрКВ). Для этого разделим СКВ на степени свободы СКВ. В данном примере СрКВ будет равен:
474 ЧАСТЬ IV. Количественные исследования и анализ их результатов |
Этап 8. Находим значение F-статистики путем деления СрКМ на СрКВ. В данном случае: |
F-статистика — это отношение межгрупповой дисперсии к внутригрупповой дисперсии. Если значение F-статистики меньше 1, внутригрупповая дисперсия больше, чем межгрупповая. Поэтому, чтобы отвергнуть нулевую гипотезу, значение F-статистики должно быть больше 1. Точное число, необходимое для получения значимой F-статистики, определяется на основании F-распределения. Статистические пакеты используют число степеней свободы числителя и знаменателя F-статистики для определения ее статистической значимости6. В данном примере F-статистика будет значимой при р < 0,01.
Результаты однофакторного дисперсионного анализа обычно представляют в виде следующей таблицы.
Источник Сумма вариации квадратов | Степени свободы | Средний квадрат | Значение F-статистики | Значимость |
Группы 74,63 Ошибка 1236,00 | 3 226 | 24,88 5,44 | 4,57 | р < 0,01 |
Некоторые предостережения |
Статистические критерии являются мощными инструментами, с помощью которых исследователи определяют степень уверенности в выводах, сделанных ими на основе данных опроса. Однако силу статистических методов следует применять осторожно. Чтобы избежать ошибок, необходимо выполнить 3 основных требования.
Статистические критерии являются основой суждения, а не заменяют его. Статистически значимые различия средних говорят о том, что наблюдаемые различия вызваны реально существующими различиями в генеральной совокупности, а не обусловлены случайной ошибкой. При проведении большинства исследований в рекламе (выборки средних размеров) статистически значимые различия являются также и содержательно значимыми различиями. Однако статистические критерии значимости различий средних, такие как Z-критерий или /-критерий, существенно зависят от объема выборки. Обратимся к тестам рекламы компаний Amoco и Shell, рассмотренным ранее в данной главе. Хотя числовые значения средних в обоих исследованиях одинаковы, статисти-
6 Для определения уровня значимости F-статистики также используются статистические таблицы.
ГЛАВА 16. Количественный анализ данных: статистический вывод 475
чески значимые различия были обнаружены только в большой выборке. Поэтому, учитывая чувствительность статистических критериев к объему выборки, не доверяйте безоговорочно их результатам. Интерпретируя различия средних и долей, опирайтесь не только на статистические критерии, но также на логику и здравый смысл.
Не забывайте о зависимости критерия хи-квадрат от объема выборки. Объем выборки и характеристики распределения также влияют на интерпретацию критерия хи-квадрат. Рассмотрим два примера распределения, представленные на рис. 16.7. Распределения идентичны с точки зрения процента выборки, попадающего в каждую клетку таблицы сопряженности. И все-таки, в силу чувствительности к размеру выборки, критерий хи-квадрат значим только для распределения, расположенного справа на рис. 16.7. Поэтому результаты определения критерия хи-квадрат всегда необходимо толковать в контексте как особенностей распределения баллов, так и объема выборки. Исследователь может заблуждаться, толкуя незначимое значение критерия хи-квадрат как показатель отсутствия взаимосвязи, тогда как в действительности такой результат может быть вызван лишь малым размером выборки. К тому же, и распределение влияет на вычисление критерия хи-квадрат. Не следует использовать хи-квадрат, если в какой-либо из ячеек таблицы сопряженности ожидаемое значение менее пяти.
Мужчины
Женщины
Осведомлены | Не осведомлены | Осведомлены | Не осведомлены | |
0:16 | 0:10 | 0:160 | 0:100 | |
Мужчины | ||||
Е: 13 | Е: 16 | Е130 | Е160 | |
0:10 | 0:16 | 0:100 | 0:160 | |
Женщины | ||||
Е: 13 | Е: 13 | Е: 130 | Е130 |
Рис. 16.7. Чувствительность критерия хи-квадрат к объему выборки О — наблюдаемая частота; Е — ожидаемая частота
Корреляция не позволяет делать выводы о причинно-следственных отношениях. Корреляция указывает на взаимосвязь двух переменных. Большая положительная корреляция указывает на то, что обе переменные совместно изменяются в одном направлении. Однако корреляция не указывает на причинную обусловленность, наличие корреляции не означает, что одна переменная является причиной изменения другой, или что при изменении одной переменной вторая также изменится. Например, было бы ошибкой полагать на основе коэффициента корреляции +0,89 между привлекательностью рекламного ролика и намерением купить, что, увеличивая привлекательность рекламы, мы усилим намерение купить товар.
Резюме
Исследователь должен быть уверен в принимаемом решении. Если решения опираются на данные исследований, необходимо использовать статистические выводы, чтобы определить, являются ли наблюдаемые различия между группами или наблю-
476 ЧАСТЬ IV. Количественные исследования и анализ их результатов
даемые взаимосвязи переменных значимыми и важными (а значит, должны учитываться при принятии решения), или же эти наблюдаемые различия вызваны случайными отклонениями или ошибками в данных (и поэтому их следует игнорировать).
Проверка статистических гипотез позволяет определить значимость и доверительный уровень. В нулевой гипотезе выдвигается предположение, что различий между сравниваемыми группами не существует, в то время как в альтернативной гипотезе содержится утверждение о том, что такие различия есть. В каких случаях принимать нулевую гипотезу, а в каких — отвергать ее и принимать альтернативную, решает исследователь, исходя из принятого им уровня значимости.
Выбор конкретного типа статистического критерия для оценки различий и взаимосвязей в группах зависит от характера и размера выборки, а также от уровня измерения данных. Ниже представлена сводная таблица критериев с указанием обстоятельств, определяющих их применение.
Сравнение | Размер | Уровень измерения | Оценка |
выборки | статистического | ||
критерия | |||
выборочного среднего и | большой | интервальный или | Z-критерий |
среднего генеральной со- | относительный | ||
вокупности | |||
выборочного среднего и | маленький | интервальный или | /-критерий |
среднего генеральной со- | относительный | ||
вокупности | |||
доли выборки и доли ге- | — | номинальный | Z-критерий для долей |
неральной совокупности | |||
двух выборочных средних | большой | интервальный или | Z-критерий |
относительный | |||
двух выборочных средних | маленький | интервальный или | /-критерий |
относительный | |||
долей в двух выборках | — | номинальный | Z-критерий для долей |
Данные в виде частот | |||
одна и более переменных | — | номинальный, ин- | критерий хи-квадрат |
тервальный или | |||
относительный | |||
взаимосвязь двух пере- | — | номинальный, ин- | корреляция |
менных | - | тервальный или | |
относительный | |||
три или более выборочных | — | интервальный или | дисперсионный анализ |
средних | относительный |
Формулы для каждой из указанных ситуаций см. во врезке 16.2.
И, наконец, статистические критерии следует использовать и интерпретировать осторожно, с учетом присущих им ограничений. Проверка статистических гипотез должна вести вас к принятию осознанного решения, а не подменять его.
ГЛАВА 16. Количественный анализ данных: статистический вывод 477
Врезка 16.2. Статистические формулы
Сравнение выборочного среднего со средним генеральной совокупности: Z-критерий
где:
Z — Z-статистика, определяющая площадь под кривой и вероятность существования различия между значениями средних; X — выборочное среднее; ц — среднее генеральной совокупности; а — стандартное отклонение генеральной совокупности; N — число наблюдений в выборке.
Дата добавления: 2015-07-16; просмотров: 76 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Частота выбора данного ролика респондентами | | | Сравнение доли выборки с долей генеральной совокупности: Z-критерий |