Читайте также:
|
|
В педагогических исследованиях наибольшее распространение получил эксперимент, в котором экспериментальная и контрольная группы подвергаются тестированию до и после изучаемого воздействия, причем обе группы не эквивалентны друг другу до эксперимента. Скорее, они представляют собой естественно сложившиеся коллективы (например, школьные классы), по возможности сходные, но не настолько, чтобы различие между ними не обнаруживалось во время предварительного тестирования. Считается, что выбор, к какой из групп должно быть применено воздействие X, является случайным и подлежит контролю экспериментатора.
O X O
---------------.
O O
В отношении такого плана экспериментов нужно ясно представлять себе две вещи. Во-первых, его не следует смешивать с планом 4, в котором испытуемые из общей популяции распределяются по обеим группам в случайном порядке. Во-вторых, данный план эксперимента все же стоит применять во многих случаях, когда использование планов 4, 5 или 6 невозможно. В частности, следует признать, что добавление даже неуравненной или неэквивалентной контрольной группы значительно снижает неоднозначность интерпретации результатов по сравнению с тем, что имеет место при плане 2. Чем больше сходства в составлении экспериментальной и контрольной групп, чем больше их сходство подтверждается результатами предварительного тестирования, тем эффективнее становится это средство контроля. Если это требование внутренней валидности в какой-то степени выполнено, то можно считать, что в данном типе эксперимента контролируются главные эффекты фоновой стимуляции, естественного развития, тестирования и инструментальной погрешности в том смысле, что различия в результатах тестирования в экспериментальной группе до и после введения X (если они выше, чем те же различия для контрольной группы) нельзя объяснить за счет главных эффектов этих пере-
менных, оказывающих влияние, как на экспериментальную, так и на контрольную группу. (Следует, однако, серьезно отнестись к замечанию, сделанному в связи с планом 4 по поводу посторонних воздействий в промежутках между сериями эксперимента.)
Попытки объяснить наблюдавшийся сдвиг в результатах экспериментальной группы за счет таких побочных факторов, как фоновая стимуляция, естественное развитие или влияние тестирования, должны предполагать взаимодействие между этими переменными и конкретными различиями в составе двух групп. Хотя, вообще говоря, такие взаимодействия и маловероятны, существует ряд ситуаций, в которых подобное предположение допустимо. Пожалуй, чаще всего имеют место взаимодействия с фактором естественного развития. Если экспериментальная группа состоит из пациентов, проходящих курс психотерапии, а роль контрольной группы играет какая-либо другая доступная совокупность испытуемых, то смещение показателей экспериментальной группы можно интерпретировать как процесс спонтанной ремиссии, являющейся особенностью именно данной необычной группы и возможной даже без X. Такое взаимодействие факторов состава групп с естественным развитием (или с фоновыми событиями, или с эффектом тестирования) может быть ошибочно принято за эффект X и, следовательно, составляет угрозу для внутренней валидности эксперимента. По этому критерию (см. 8-ю колонку табл. 2) план 10 отличается от плана 4.
Поясним это на конкретном примере педагогического исследования. К типу 10 принадлежит проведенное Санфордом и Хемфиллом [97] изучение влияния преподавания психологии в университете города Аннаполис, Экспериментальная группа состояла из второкурсников, а контрольная — из студентов третьего курса. Более высокие показатели изменений, зарегистрированные в экспериментальной группе, могли объясняться отчасти за счет тех сложных процессов, которые происходят скорее в течение первых двух лет обучения, чем на третьем и четвертом курсах, что было бы проявлением различия во взаимодействиях между факторами состава групп и естественного развития, а не за счет экспериментальной программы. Примененная Санфордом и
Хемфиллом контрольная группа допускает проверку данной конкурентной интерпретации (в духе рассматриваемого ниже плана 15). На основе гипотезы о взаимодействии факторов состава группы и естественного развития можно было бы предсказать, что превосходство третьекурсников (контрольной группы) над второкурсниками при первоначальном испытании окажется примерно того же порядка, что и разница в результатах предварительного и итогового тестирования испытуемых экспериментальной группы. К счастью, в целом это было не так. Направление и величина различий между курсами при предварительном тестировании в большинстве случаев были иными, чем различия в результатах предварительного и итогового тестирования в экспериментальной группе. Однако обнаруженный авторами значимый прирост показателей доверия в экспериментальной группе, по данным анкеты социальных ситуаций, мог оказаться артефактом взаимодействия факторов состава группы и естественного развития. Для экспериментальной группы этот показатель увеличился с 43,26 до 51,42, тогда как для третьего курса эти же цифры соответственно равны 55,82 и 56,78.
Гипотеза о взаимодействии между факторами состава группы и естественного развития иногда может оказаться пригодной, даже если группы имеют идентичные показатели по данным исходного теста. Наиболее типичным является случай, когда естественное развитие (или независимое изменение) в одной группе протекает скорее, чем в другой. План 14, являющийся усовершенствованным вариантом плана 10, позволяет контролировать это взаимодействие.
Эффект регрессии составляет другую важную проблему с точки зрения внутренней валидности экспериментов типа 10. Вопросительный знак в табл. 2 указывает, что проблемы можно избежать, хотя чаще она создается самим исследователем. Вообще говоря, если каждая из сравниваемых групп составлена по признаку максимальных и минимальных результатов или коррелированных с ними величин, то различная степень изменения показателей от предварительного тестирования к тестированию после воздействия может быть проявлением скорее эффекта регрессии, чем X. Такая возмож-
ность становится все более характерной для исследований в области педагогики, где попарное уравнивание в силу устойчивой и дезориентирующей традиции считается адекватной и достаточной процедурой установления доэкспериментальной эквивалентности групп. Эта ошибка сопровождается непониманием того, что между планами 4 и 10 существует серьезное различие и что попарное уравнивание по исходным показателям играет в этих случаях разную роль. В плане 4 попарное уравнивание может служить полезным добавлением к рандомизации, но не заменять ее. Вся популяция испытуемых, привлекаемых к эксперименту, разбивается на пары, тщательно уравненные по показателям предварительного тестирования или по связанным переменным. Затем члены каждой пары случайным образом включаются в экспериментальную или контрольную группу. Такое уравнивание с последующей рандомизацией обычно дает план эксперимента, обеспечивающий большую точность результатов, чем одна рандомизация.
С этим идеалом нельзя смешивать предпринимаемые в рамках плана 10 попытки компенсировать различия между неэквивалентными группами путем попарного уравнивания, когда рандомизированное распределение по группам невозможно. Если в плане 10 средние групп существенно отличаются друг от друга, то уравнивание пар не только не обеспечивает искомого равенства, но еще и вызывает появление нежелательного эффекта регрессии. Можно с уверенностью предсказать, что обе группы будут отличаться по результатам итогового тестирования независимо от наличия эффекта X и что различие будет прямо пропорционально различию между популяциями, из которых набирались испытуемые, и обратно пропорционально тест-ретестной (test-retest) корреляции 1.
Можно также предсказать направление эффекта регрессии. Рассмотрим психотерапевтический экспери-
_____________________________________________________________________________
1 Некоторые специальные данные о применении в этой связи ковариационного анализа и об опасности простых ковариаций содержатся в более поздней работе автора, написанной совместно с Боруком [13]. Особое внимание в ней уделяется надежности скорректированной ковариации и множественной регрессии. В этой работе рассматриваются также условия, при которых корреляция предварительных и последующих тестирований более соответствует принятым коэффициентам надежности. — Прим. ред.
мент, в котором в качестве О используется балльнай оценка степени неудовлетворенности собой. Предположим, экспериментальная группа состоит из обратившихся за помощью к психотерапевту, а уравненная с ней контрольная группа — из «нормальных» людей. Тогда контрольная группа будет представлена крайне низкими показателями нормальной группы (образованной на основе этих крайних показателей) и при итоговом тестировании будет отмечена регрессия этих данных к средним для нормальной группы. Менее вероятно, что это приведет к выявлению значимого эффекта терапевтического воздействия, скорее, создаст ложное впечатление действенности терапевтической процедуры. Пример с психотерапевтической группой иллюстрирует также возможную несостоятельность предположений об однородности регрессии и о принадлежности выборок к одной и той же генеральной совокупности (за исключением случаев, когда используются лишь экстремальные показатели). Контрольные группы здоровых людей находят применение в психотерапевтических исследованиях, но при интерпретации результатов таких исследований необходимо соблюдать крайнюю осторожность.
Важно различать две разновидности плана 10 и определять их различный статус в качестве аппроксимаций истинного эксперимента. С одной стороны, в некоторых случаях экспериментатор располагает двумя естественными группами (например, двумя классами) и может свободно решать, какая из них подвергнется X,или, по крайней мере, у него нет оснований подозревать, что отбор испытуемых в группы, подвергаемые X, осуществляется особым образом. Даже при различии исходных средних по О данное исследование может приближаться к истинному эксперименту. С другой стороны, в некоторых случаях применения плана 10 испытуемые экспериментальной группы сами изъявляют желание подвергнуться Х ,но нет контрольной группы, которая состояла бы из лиц, выразивших желание участвовать именно в контрольной группе. В этом случае посылка об однородности регрессии между экспериментальной и контрольной группами становится менее достоверной и повышается вероятность взаимодействий между факторами состава группы и естественного развития (а также других взаимодействий с фактором состава группы).
План 10 с участием добровольцев намного слабее, но и он дает информацию, которая во многих случаях позволит отклонить гипотезу об эффективности X. Контрольная группа, даже если она значительно отличается от экспериментальной по способу подбора и по среднему уровню, все же помогает интерпретации данных.
Угроза внешней валидности со стороны эффекта тестирования та же, что и для плана 4, Знак вопроса против взаимодействия фактора состава группы и X напоминает нам, что действие X может быть специфичным для лиц, отобранных по принципу, который применялся при отборе испытуемых в данном эксперименте. Но поскольку план 10 меньше, чем план 4, ограничивает нашу свободу в выборе состава групп, эта особенность будет сказываться в меньшей степени, чем в лабораторных условиях.
Опасность реакции на эксперимент имеет место, но, видимо, в меньшей степени, чем для большинства истинных экспериментов вроде плана 4. Выбирая между планом 10 при сохранении двух классов в неизменном виде и планами 4, 5 или 6, согласно которым для различных экспериментальных воздействий используются случайные выборки учеников из разных классов, нужно учитывать, что вероятность реакции на эксперимент во втором случае будет почти наверняка большей, потому что ученики будут больше осведомлены об эксперименте и будут чувствовать себя подопытными кроликами и т. д.
Исследования Торндайка в области формального обучения и переноса (например, E. L. Thorndike, Woodworth [123]; Brolyer, Thorndike, Woodyard [7]) представляют собой пример применения плана 10 в случае, когда X не контролируется экспериментатором. Эти исследования, по крайней мере, отчасти избежали ошибки эффекта регрессии, связанной с простым уравниванием групп, но их нужно тщательно проанализировать в свете современных методов. Так, использование ковариационного анализа дало бы, вероятно, сильные доводы в пользу эффекта переноса слов из латинского языка в английский.
Кроме того, наблюдаемый обычно положительный, хотя и слабовыраженный эффект переноса мог бы быть объяснен за счет отбора на курс латыни тех учеников, у которых рост словарного запаса происходил быстрее,
чем в контрольной группе, даже без обучения латинскому языку. В наших терминах это следовало бы назвать взаимодействием состава группы и естественного развития. Во многих школьных системах эта конкурентная гипотеза могла бы быть проверена путем увеличения числа процедур предварительных тестирований перед курсом латыни, как это предусмотрено планом 14. Эти эксперименты представляли собой грандиозные усилия по внедрению экспериментального мышления в полевое исследование. Они заслуживают того, чтобы на них снова обратили внимание и продолжили их современными методами.
Сбалансированные планы
Под этой рубрикой объединены все те планы, в которых для достижения контроля экспериментальных параметров или повышения точности результатов предусматривается предъявление всем испытуемым (или использование во всех ситуациях) всех экспериментальных воздействий. Такие планы обозначались как «ротационные эксперименты» (McCall [74]), «сбалансированные планы» (например, Underwood [126]), «перекрестные планы» (например, Cochran, Cox [22], Cox [28]), «планы с переключением» (Kempthorne [58]). Для построения сбалансированного плана обычно используется латинский квадрат. Такой латинский квадрат в качестве плана квазиэксперимента представлен в нижеследующей схеме, в которой четыре экспериментальных воздействия в квазислучайном порядке последовательно применяются к четырем естественным образом составленным группам или даже к четырем испытуемым (например, Maxwell [73]):
В план включены только последующие тестирования, поскольку он находит применение особенно в тех случаях, когда предварительное тестирование неосуществимо и невозможно воспользоваться планами, подобными плану 10. План включает 3 переменные [группы (g),порядковый номер воздействия (t) и экспериментальные воздействия (X)]. Каждая переменная «ортогональна» двум другим в том смысле, что каждый уровень одной переменной одинаково часто (один раз для латинского квадрата) сочетается с каждым уровнем любой другой. Легко видеть, что каждое воздействие (X) фигурирует в каждой строке и в каждом столбце по одному, и только одному, разу. Тот же латинский квадрат можно переписать так, чтобы столбцы были разобраны по X:
Таким образом, суммы результатов измерений по X сравнимы друг с другом, так как в каждой сумме представлены все группы (g) и все серии экспериментов (t). Различия между этими суммами нельзя считать просто артефактами первоначальных межгрупповых различий, эффекта научения, фона и т. д. Аналогично можно сравнивать суммы по строкам, отражающим различия между группами, а также суммы по столбцам данных первого предъявления в различных ситуациях. В терминах дисперсионного анализа можно сказать, что рассматриваемый план позволяет получать данные по трем главным эффектам при числе ячеек исходной таблицы, отвечающем полной двухфакторной схеме. Ясно также, какую цену приходится платить за повышенную эффективность: то, что кажется значимым главным эффектом какой-либо из трех переменных, может на самом деле
быть значимым взаимодействием двух других переменных (Lindquist [68, с. 258—264]). Кажущееся различие между эффектами Х-ов, в частности, может оказаться специфическим эффектом комплексного взаимодействия между групповыми различиями и ситуациями (сериями экспериментов). Вывод относительно эффектов X будет зависеть от правдоподобности этой конкурентной гипотезы, и мы обсудим его подробнее.
Отметим, во-первых, что гипотеза о таком взаимодействии применительно к рассмотренным квазиэкспериментам более правдоподобна, чем в описываемых обычно случаях использования латинского квадрата для планирования подлинного эксперимента. В факторе «группы» (g) смешаны два потенциальных источника систематических эффектов. Во-первых, это факторы систематического отбора, связанные с естественным формированием групп. Можно ожидать, что эти факторы не только дают главный эффект, но и взаимодействуют с фоном, естественным развитием, эффектами упражнения и т. д. Если бы эксперимент, в котором имеется полный контроль параметров, был организован подобным образом, каждый испытуемый был бы включен в свою группу независимым и случайным образом, и этот источник, как главного эффекта, так и эффекта взаимодействия был бы устранен или, по крайней мере, сведен до уровня ошибки выборки. В квазиэксперименте же уравновешивание производится для осуществления некоторого уравнивания групп как раз потому, что невозможно случайное их комплектование. (В отличие от этого в полностью контролируемых экспериментах латинский квадрат применяется по соображениям экономии или для преодоления трудностей, подобных тем, которые возникают при выборочном исследовании земельных участков.)
Второй возможный источник указанных эффектов связан с последовательностью воздействий. Если бы все повторения истинного эксперимента следовали одному и тому же латинскому квадрату, то этот источник главных эффектов и эффектов взаимодействия также давал бы о себе знать. Однако в типичном истинном эксперименте повторные группы испытуемых распределяются по различным латинским квадратам, благодаря чему устраняется систематический эффект определенной по-
следовательности. Это также исключает возможность того, что за главный эффект X будет принят эффект взаимодействия фактора последовательности с другими факторами.
Порядковый номер воздействия вполне может вызвать главный эффект, связанный с повторным тестированием, естественным развитием, упражнением, накоплением опыта, переносом навыков. Фоновые явления также могут оказывать влияние на результаты последовательно применяемых воздействий. Правда, латинский квадрат препятствует контаминации главного эффекта X со стороны главных эффектов указанных факторов. Но там, где главные эффекты свидетельствуют о существенной неоднородности, видимо, больше оснований подозревать существование значимых взаимодействий, чем при отсутствии главных эффектов факторов g и t. Так, эффект тренировки, например, может быть монотонным, но, по всей вероятности, нелинейным и может вызвать как главный эффект, так и эффекты взаимодействия. Многочисленные примеры применения латинского квадрата в истинных экспериментах (например, в агробиологии) обычно не сопряжены с повторными измерениями, и там, как правило, систематический эффект по столбцам (см. схемы) отсутствует. Однако эксперименты перекрестного типа в этом отношении столь же уязвимы, как и квазиэксперименты.
Приведенные соображения ясно показывают чрезвычайную важность повторения квазиэксперимента с использованием различных латинских квадратов. При достаточном числе таких повторений квазиэксперимент превратился бы в истинный эксперимент. Они должны были бы, вероятно, включать также достаточное число групп, чтобы сделать возможным случайное распределение целых групп по воздействиям (это средство контроля обычно предпочтительнее других). Но когда это невозможно, одиночный латинский квадрат интуитивно представляется удовлетворительным планом квазиэксперимента, ибо он позволяет продемонстрировать все эффекты на всех сравниваемых группах. Отдавая себе отчет в возможных ошибках интерпретации, эксперимент этого типа стоит применять, когда лучший контроль параметров эксперимента невозможен. Подчеркнув
серьезные недостатки данного плана, рассмотрим и оттеним теперь его сравнительные достоинства.
Как и в других квазиэкспериментах, преимущества эксперимента этого типа определяются непротиворечивостью результатов повторений эксперимента. Чтобы выявить наличие такой воспроизводимости, нужно устранить главные эффекты факторов g и t, записывая в каждой ячейке таблицы отклонения от средних по строкам (g) и по столбцам (t): Mgt — Мg. — М.t + М... Перегруппируем теперь данные так, чтобы получилась таблица g × X (вторая схема). Допустим, полученная картина обладает желаемой однородностью, то есть какое-то воздействие дало максимальные результаты по всем четырем группам и т. д. Каковы шансы, что имеет место не подлинный эффект X, а взаимодействие между факторами g и t? Мы можем отметить, что наиболее вероятные взаимодействия этих факторов уменьшили бы или затушевали явный эффект X. Взаимодействие, имитирующее главный эффект X,— явление редкое, и его вероятность снижается с увеличением размера латинского квадрата.
План 11 особенно привлекателен в условиях, когда при очень малом числе естественных групп (например, школьных классов) есть возможность планировать порядок воздействий, но нельзя случайным образом разделить группы на эквивалентные подгруппы для предъявления X или проведения тестирования. В тех случаях, когда возможно предварительное тестирование, годится также план 10, для которого также характерен риск смешивания эффекта X с эффектами вяаимодействия состава групп и порядка предъявления воздействия. Этот риск, вероятно, окажется меньшим для сбалансированных планов, поскольку на каждой группе можно сравнить действие всех X и, следовательно, для имитации экспериментального эффекта потребовалось бы совмещение нескольких взаимодействий.
В то время как в экспериментах других типов особая реакция одной из групп на действие факторов фона или естественного развития может имитировать эффект Х 1,в сбалансированном плане подобное явление должно было бы наблюдаться в различных ситуациях поочередно в каждой группе. Предполагается, конечно, что мы не будем расценивать главный эффект
X как значимый, если изучение таблицы результатов показывает, что статистически значимый главный эффект имеет место в первую очередь за счет весьма сильного эффекта в единственной группе (см. также Wilk, Kempthorne [134]; Lubin [72] и Stanley [106]).
План с предварительным и итоговым
Дата добавления: 2015-10-23; просмотров: 149 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Эквивалентных воздействий | | | Для предварительного и итогового тестирования |