Читайте также:
|
|
Займемся теперь проверкой различия выборок среднего времен ответа участников в случае связанных и несвязанных пар слов, а также в случае связанных/несвязанных пар слов и пары слово-не слово.
Для этого сначала группируем все данные по участникам (29 человек), а затем усредним. Таким образом, для каждого испытуемого будем иметь среднее время верного ответа, а также кол-во верных ответов, ошибок и опозданий для каждого из трех вариантов вопросов (пара связанных слов, пара несвязанных слов, пара слово- не слово). Как я уже упоминал выше, эти агрегированные данные размещены на листе «16. анализ по уч-кам» (среднее время ответа – столбцы A-E, кол-во верных/ошибочных/опозданий – в столбцах M-Z).
Для проверки различия средних значений в двух зависимых выборках часто используется двухвыборочный t-тест Стьюдента (в пакете анализа Excel он называется «парный двухвыборочный t-тест для средних»). На листе «17. t-тест Стьюдента» даны результаты применения этого критерия. Указанный тест применяется для сравнения трех пар выборок: 1)связанные слова и несвязанные слова, 2)не слово и несвязанные слова, 3)не слово и связанные слова. Во всех трех случаях полученное значение t-статистики получается выше критического уровня. Например, для случая сравнения выборок связанных слов и несвязанных слов, значение t-статистики 3.73 больше критического уровня как для одностороннего критерия (1.70), так и для двухстороннего (2.048) при уровне значимости 0.05. Значит, на основании этого критерия мы отвергаем гипотезу о равенстве средних времен ответа для пары связанных слов и для пары несвязанных слов. Также на основе этого критерия можно отклонить гипотезу о равенстве средних времен ответа на пару слов (как связанных, так и несвязанных) и на пару слово-не слово.
Отмечу, что коэффициент корреляции между двумя сгруппированными по участникам данными составляет 0.77 для случая выборок связанных слов и выборок несвязанных слов 0.81 для случая выборок не слов и несвязанных слов и 0.71 для случая выборок не слов и связанных слов. Это означает, что между всеми этими данными существует положительная связь. Например, если мы возьмем участников с большим временем ответа для случая пары связанных слов, то, скорее всего, у таких участников будет и большее время ответа для случая несвязанных слов и для случая пары слово-не слово. И наоборот.
Далее я рассмотрел вопрос о допустимости применения t-теста Стьюдента в нашем случае. Дело в том, что для корректного применения этого теста необходимо, чтобы попарные разности всех проверяемых выборок (например, средних времен ответа для случая связанных слов и для случая несвязанных слов) были бы нормально распределенными. Данную проверку посредством критерия χ² Пирсона я не стал проводить, так как рекомендуется, чтобы было не менее 50 элементов для проведения проверки (а у нас только 29 испытуемых).
Для графической проверки на нормальность я построил гистограммы для каждых из трех попарных разностей средних времен (см. лист «17. t-тест Стьюдента», внизу), которые показали, что в каждом случае присутствуют длинные «хвосты» справа, которые ухудшают симметрию графика. Тем не менее, эти хвосты можно убрать, исключив всего двух участников: N29 и N19. После этого распределения можно считать симметричным и условно нормальным. Отмечу, что мне, как математику, не очень приятно делать такие субъективные выводы о нормальности на основании недостаточного количества данных, поэтому далее я применю еще два критерия (Уилкоксона и G-критерий знаков), которые будут проверять те же самые гипотезы.
А пока хотел бы остановиться на регрессионном анализе выборок среднего времени ответа в случае двух связанных слов и среднего времени ответа в случае двух несвязанных слов (лист «18.регрессия связ-несвяз»). По оси X отложены cредние времена ответа участников в случае пары связанных слов (столбец B), по оси Y – средние времена ответа участников в случае пары несвязанных слов (столбец C). Коэффициент детерминации R² в этой линейной модели составляет 0.59. Применение F-критерия показывает, что модель значима. Остатки проверены на нормальность графическим способом (построена гистограмма) в силу малого кол-ва испытуемых.
Можно улучшить регрессионную модель, исключив данные участника N19 (см. лист «19.регрессия связ-несвяз без N19»). Коэффициент детерминации R² повысился до 0.68, гистограмма остатков стала более симметричной (отбросили длинный правый «хвост») и похожей на нормальное распределение.
Однако после такого исключения всего одного участника параметры линейной модели изменились достаточно существенно, а именно, наклон прямой увеличился с 0.89 до 0.96, а свободный член уменьшился с 96 до 51. Поэтому к применению построенной на основе такого количества данных модели нужно относиться с осторожностью.
Перейдем теперь к применению альтернативных критериев.
Для проверки гипотезы о различии какого-нибудь показателя двух парных выборок можно применять критерий Уилкоксона (Wilcoxon signed-rank test). Вычисления приведены на листе «20. Крит. Уилкоксона». В нашем случае получается, что среди 29 участников только у 7 среднее время ответа в паре связанных слов больше, чем среднее время ответа в паре несвязанных слов. Сумма рангов, посчитанных в соответствии с методикой этого критерия, для этих 7 участников будет равна 71. Критическое же значение для двустороннего критерия Уилкоксона для уровня значимости 0.05 составляет 126. Для одностороннего еще больше - 140. Таким образом, можно отвергнуть гипотезу о равенстве средних двух парных выборок, иными словами, можно утверждать, что среднее время ответа в случае связанных слов и среднее время ответа в случае несвязанных слов различается статистически значимо.
Замечу, что корректное применение критерия Уилкоксона предполагает, что распределение разностей пар значений должно быть симметричным. Однако в нашем случае получается, что это распределение не совсем симметрично (коэффициент асимметрии 0.58), и медиана отличается от среднего. Вопрос, насколько такое отличие существенно в контексте применения критерия Уилкоксона, для меня остается открытым. Проанализировав гистограмму распределения попарных разностей времен ответа (см. внизу листа «20. Крит. Уилкоксона») я пришел к выводу, что если исключить данные участника N19, то распределение станет более симметричным (коэффициент асимметрии уменьшится до 0.17). Кроме того, исключение этого участника не скажется сильно на результатах применения этого критерия, просто критические значения критерия будут чуть ниже, а именно, 116 для двустороннего критерия и 130 для одностороннего, что все равно выше значения критерия 71. Таким образом, в этом случае тоже можно утверждать, что среднее время ответа в случае связанных слов и среднее время ответа в случае несвязанных слов различается статистически значимо.
Аналогичные проверки этим критерием можно провести также для случая сравнения выборок связных/несвязных слов и пар слово-не слово, которые дадут тот же результат (значимость различия средних времен ответа).
В дополнение я применил еще один критерий, который фактически является наименее чувствительным, но который не требует ни нормальности, ни симметричности. Этот критерий называется критерий знаков (или G-критерий знаков). Для его применения нужно подсчитать количество характерных (в нашем случае – в большую сторону) и нехарактерных (в нашем случае – в меньшую сторону) изменений среднего времени ответа при переходе от пары связанных слов к паре несвязанных слов для всех участников. При этом нулевой гипотезой будет следующее утверждение: «существенность сдвигов в типичном направлении не превосходит существенности сдвигов в нетипичном направлении».
У нас получается, что из 29 изменений 22 было в большую сторону и 7 – в меньшую (см. столбцы G-H на листе «16. анализ по уч-кам»). Критическим значением критерия для числа участников 29 и уровня значимости 0.05 является 10. Так как полученное значение критерия (7) у нас меньше этого критического значения (10), то нулевую гипотезу отвергаем и считаем различия в средних двух парных выборок существенными. Аналогичный результат мы получим, если вместо отбрасывания опозданий будем их учитывать как правильные ответы со временем ответа 1000 мс. В этом случае для пары связанных слов добавятся два ответа-опоздания у участников N19 и N26, но у N19 при этом добавится опоздание и для пары несвязанных слов, т.о. полученное значение G-критерия у нас будет не больше 8 (а на самом деле даже меньше), что опять меньше критического уровня 10.
В столбцах I-J листа «16. анализ по уч-кам» критерий применяется для анализа разностей времени ответа в случае несвязанных слов и пары слово - не слово.
Вывод: даже такой простой и не очень чувствительный G-критерий знаков показывает, что различие среднего времени ответа в случае пары связанных слов (611 мс) и среднего времени ответа в случае пары несвязанных слов (639 мс) не случайно и носит статистически значимый характер. Применение этого критерия для анализа различия среднего времени ответа в случае пары несвязанных слов (639 мс) и среднего времени ответа в случае пары слово-не слово (698 мс) даст тот же результат, то есть это различие статистически значимо с т.з. этого критерия.
Дата добавления: 2015-10-30; просмотров: 103 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Проверка исходных данных на нормальность | | | Анализ опозданий |