Читайте также: |
|
внешней переменной помимо концептуальной переменной, которую он представляет, и собственной случайной ошибки измерения. Г.Костнер, как уже говорилось, показал, что критерий согласованности для модели с двумя индикаторами каждой переменной является необходимым, но не достаточным условием, и рассмотрел случаи, когда уравнение 2.20 выполняется (в пределах ошибки выборки) при наличии неслучайной ошибки измерения. Один из таких случаев показан на рис.5А, другой - на рис.5Б.
Диаграмма на рис.5А отражает ситуацию неслучайной ошибки при измерении индикаторов одной переменной (например,y1 и у2 - смежные вопросы анкеты, измеряющие одно качество). В случае такой модели изменится лишь уравнение 2.19 из системы, которое не использовалось при получении критерия 2.20. На рис.5Б изображена ситуация, когда один индикатор детерминируется двумя неизмеряемыми переменными, что вполне возможно, когда между переменными существует тесная взаимосвязь и они трудно разделимы теоретически (например, это социальный и экономический престиж соответственно). Для этой модели в нашей первоначальной системе уравнений 2.14 -2.19 нужно переписать два:
Однако и в этом случае критерий согласованности будет выполняться, т.е.
так как: (а с d + аf) (Ь с е) = (асe) (b с d + bf).
Кроме того, в некоторых случаях (например, при наличии неслучайной ошибки измерения между индикаторами разных концептуальных переменных) различия между левой и правой частями критерия согласованности будут очень малы и неотличимы от ошибки выборки, так как будут выражены через произведение многих путевых коэффициентов, каждый из которых меньше единицы.
Как показал Х.Блейлок [83], предложенный Г.Костнером подход, может быть распространен на все рекурсивные модели (определение рекурсивных причинных систем см.: [53. С.139-141]), т.е. для любого числа концептуальных переменных. Так, для двухиндикаторной модели с тремя переменными будут существовать три критерия согласованности. Однако добавление новых переменных будет вести к резкому возрастанию вычислительных сложностей и числа оценок для каждого коэффициента, что порождает проблемы оценивания. Поэтому для сложных моделей со многими переменными и многими индикаторами, которые, однако, не очень типичны для обычной практики, используют факторно-аналитические процедуры, основанные на методе максимального правдоподобия.
Г.Костнер также показал, что уже для моделей, содержащих три индикатора каждой переменной, можно выявить некоторые типы систематических ошибок, т.е. не просто обнаружить наличие систематической ошибки, но и "локализовать" невалидный индикатор и исключить его. Для откорректированной модели измерения, где ошибки измерения случайны, из соответствующих путевых коэффициентов можно получить оценки надежности. Для модели с тремя индикаторами для каждой из двух переменных существует девять критериев согласованности (Костнер рассматривал ее как совокупность девяти двухиндикаторных моделей) [113; 225. Р.38-39]:
Приведем пример. Пусть в действительности имеет место ситуация, изображенная на рисунке 6. Исследователь же исходит из предположения, что присутствуют лишь случайные ошибки измерения, т.е. у индикаторов х3 и у, нет общего источника вариации.
Так как для каждой переменной используются три индикатора, то, рассматривая, какие из критериев 2.20-2.28 не выполняются, можно обнаружить источник неслучайной ошибки в модели. В данном случае не будут удовлетворены условия 2.21, 2.22, 2.27 и 2.28, включающие корреляцию rx3y1, тогда как в остальных случаях равенство будет удовлетворено. Таким образом, исследователь может исключить из модели два невалидных индикатора (х3 и у1) и далее получить множественные оценки остальных параметров, в частности, оценить надежность остальных индикаторов, как в случае модели с двумя индикаторами.
Следует, однако, помнить о том, что при увеличении числа индикаторов в модели число получаемых оценок будет возрастать в
6 И.Ф.Девятко 81
Рис. 7. Причинная модель измерения для двух свойств и двух методов.
геометрической прогрессии [242. Р. 173]. Поэтому обычно модели с тремя индикаторами используют для выявления невалидных индикаторов (систематической ошибки измерения), а для оценки параметров возвращаются к модели с двумя индикаторами, не порождающей серьезных проблем, если число концептуальных переменных невелико [225. Р.40].
Не считая оценок надежности (заключенных в скобки), в матрице содержится шесть наблюдаемых коэффициентов корреляции для
Таблица 2.1. Матрица корреляций для двух свойств и двух методов [225. Р.48]
Рис. 6. Модель Костнера с двумя переменными и шестью индикаторами (с выявляемой неслучайной ошибкой). |
четырех различных индикаторов (два метода для каждого из двух свойств). Вариация каждого индикатора имеет два независимых источника - свойство, т.е. концептуальная переменная, и метод измерения. Представим эти отношения с помощью причинной модели измерения на рисунке 7.
Здесь X и Y - значения двух свойств, М{ и М2 представляют влияние двух используемых методов. Существует какая-то корреляция между истинными значениями двух свойств (S), и между влияниями двух методов. Последнее предположение весьма правдоподобно если допустить существование сходных факторов, воздействующих на реакцию респондента - социальной желательности, тематики самопрезентации или просто сходства способа измерения. Модель на рис.7 не доопределена (шесть измеряемых коэффициентов и десять параметров, подлежащих оцениванию).
Однако, следуя правилам путевого анализа, можно выразить все корреляции через путевые коэффициенты, что позволяет оценить четыре основанных на этих корреляциях критерия валидности, предложенных Кэмпбеллом и Фиске (что и было сделано в работах [72; 73], см. также: [225. Р.47-55]).
Таким образом, получаем для коэффициентов валидности (одно свойство, разные методы):
(2.29) (2.30)
Для корреляций между различными свойствами, измеренными разными методами:
83Для корреляций разных свойств, измеренных одним методом:
(2.33) (2.34)
Первый критерий Кэмпбелла и Фиске требует, чтобы коэффициенты валидности г и ry1y2 были высоки и статистически значимы. Однако из уравнений 2.29 и 2.30 очевидно, что это требование будет выполняться либо из-за высоких значений эпистемических корреляций а, b, с, d, либо из-за того, что влияние метода измерения велико (/, т, p и k) и методы скор-релированы (ср. обсуждение в предыдущем разделе). Следовательно, даже прямая оценка валидности будет корректной лишь если предположить, что методы совершенно не скоррелированы. Но такое предположение может выглядеть правдоподобным лишь в очень редких ситуациях.
Второй критерий предполагает сравнение между коэффициентами валидности и корреляциями между разными свойствами, измеренными разными же методами (стоящими в той же колонке и столбце). Корреляции между методами при измерении одного свойства должны быть выше, чем при измерении разных свойств, т.е., например:
Для рассматриваемого коэффициента валидности это равнознач-
но:
cd + mkR-(bcS + PmR)>0.
Перегруппируем слагаемые, чтобы разделить компоненты, связанные с концептуальной переменной и с методом:
(с d - b с S) + (k -P) т R > 0. (2.35)
Обсуждаемый критерий предполагает, что большое различие этих корреляций должно указывать на то, что два измерения У должны быть связаны сильнее, чем измерение Y и измерение второго свойства. Действительно, если d и b приблизительно равны, величина первого компонента будет функцией от (1 - S). Но для этого нужно предположить, что второй компонент должен быть близок к нулю. Это возможно либо когда влияния метода невелики (либо корреляция между двумя методами равна нулю), либо эфекты метода велики и приблизительно равны (k = P). В последнем случае критерий будет удовлетворен при наличии сильных артефактов метода.
Следовательно, осмысленное применение критерия дискрими-нантной валидности возможно лишь при принятии допущения об отсутствии сильных эффектов метода (что, как уже говорилось, далеко не всегда может быть оправдано).
т.е.
(а b + I P R) — (а с S + I т)
или
(а b — а с S) + I (P R — т) > 0.
По аналогии с предыдущим критерием, если предположить, что эпистемические корреляции b и с приблизительно равны, первый компонент будет функцией от (1 — 5) и его величина будет зависеть от корреляции между X и Y. Во втором компоненте присутствует разность между произведением двух путевых коэффициентов - р и R - и одним коэффициентом т. Так как величины путевых коэффициентов меньше единицы, то второй компонент, вероятно, будет меньше 0. Если эффекты метода сильны, то значение второго компонента будет сравнительно большим и отрицательным, а интересующее нас различие между корреляциями - маленьким. Т.е.,.если дисперсия метода больше дисперсии свойства, то критерий будет не удовлетворен, что согласуется с идеей Д.Кэмпбелла и Д.Фиске. Однако, чтобы дисперсия, связанная с методами, была заметна, связь между свойствами (S) должна быть невелика или первый компонент должен иметь сравнительно небольшое значение. Если же свойства высоко коррелируют, то величина первого компонента будет небольшой и результирующая разность корреляций rx1x2 и rx1y1 окажется маленькой даже тогда, когда второй компонент будет также невелик. Т.е. в этом случае влияние артефактов метода будет переоцениваться. Таким образом, третий критерий адекватен лишь для случая, когда заранее можно предположить отсутствие значительной корреляции между свойствами.
Четвертый критерий, предложенный Д.Кэмпбеллом и Д.Фиске, предполагает сравнение паттернов корреляций внутри блоков, относящихся к одному методу (внутри пунктирных прямоугольников, подобных выделенному в таблице 2.1). Отношения между свойствами должны сохраняться вне зависимости от используемого метода. Для того, чтобы проверить этот критерий, "М-М"-матрица должна быть расширена хотя бы до трех свойств. Мы не будем приводить здесь выкладки, так как ход рассуждений аналогичен вышеизложенным. Можно показать, что критерий будет удовлетворен даже при наличии существенных эффектов метода, если соответствующие пути будут приблизительно равны бсак это было показано при анализе второго критерия валидности)[27]. В таком случае применение четвертого
критерия ограничено ситуациями, коща можно заранее принять предположение о том, что каждый метод имеет отличное по величине влияние для каждого свойства, т.е. выраженность артефактов данного метода зависит от того, какое свойство измеряется. Это предположение нельзя назвать очевидным, так как оно само нуждается в проверке.
Таким образом, анализ критериев конвергентно-дискриминант-ной валидности с позиций причинных моделей измерения с множественными индикаторами показал, что по крайней мере три из предложенных критериев в действительности требуют очень сильных допущений, которые достаточно нечасто могут быть приняты даже для простых ситуаций. Введение же даже небольших усложнений в модель, приближающее ее к реальности (например, предположения о воздействии измерения первого индикатора каждой черты на последующие измерения других индикаторов [225. Р.53-54 ]), делает применение кэмпбелловского подхода к валидности практически невозможным. Работы Р.Алтаузера, Т.Хеберлейна и Р.Скотта, осуществивших анализ возможностей и ограничений использования "М-М"-матриц для оценки валидности измерения, содержали и некоторые подходы к выявлению влияния метода измерения для простейших моделей с двумя свойствами и двумя методами. Более общим, однако, представляется подход, связанный с увеличением числа свойств или числа используемых индикаторов. Переопределенными будут уже модели с четырьмя методами измерения для двух свойств (либо модели, содержащие четыре измеряемых свойства и два метода измерения). В этом случае появляется возможность оценки всех релевантных параметров. Однако, как уже говорилось, этот подход ведет к появлению множественных оценок каждого параметра.
Очень плодотворным оказалось применение многоиндикаторных моделей измерения и для двух других классов задач - анализа сравнимости индикаторов [89] и оценки ретестовой надежности и истинной стабильности измеряемого свойства. Как отмечалось в предыдущем разделе, оценка ретестовой надежности в рамках традиционного психометрического подхода осложнена проблемой стабильности измеряемого свойства и применима к достаточно узкому диапазону ситуаций. Без явного задания модели измерения и при наличии лишь двух замеров она может основываться лишь на непроверяемом предположении об отсутствии истинных изменений в концептуальной переменной. Априорное принятие такого допущения может считаться оправданным применительно к конституционально обусловленным психофизиологическим характеристикам индивида (например, скорости моторной реакции), но совершенно неприемлемо, когда речь идет о динамических социальных процессах. Даже при очень небольших временных интервалах мнения и установки могут достаточно радикально меняться.
Д.Хейс (1971 г.) показал, что существует возможность получения отдельных оценок надежности и стабильности при введении в панель третьей волны [145]. Однако и здесь все еще требуются некоторые
сильные допущения (в частности, о постоянстве эпистемических корреляций, т.е. фактически коэффициентов одномоментной надежности). Д.Уайли и Дж.Уайли показали, что это допущение не всегда обосновано и предложили способ оценки модели с тремя волнами и одним индикатором без стандартизации.Единственным априорным предположением в этом случае является постоянство дисперсии ошибок индикатора [240 ]. Еще одно спорное допущение, присутствующее в панельных моделях, - это нескоррелированность возмущений концептуальной переменной (концептуальных ошибок и.) в последовательные моменты времени. Как и в случае скоррелирован-ных ошибок измерения, прибавление дополнительных волн не дает возможности оценить параметры. Однако Д.Хейс показал, что прибавление четвертой волны позволяет проверить гипотезу о нескор-релированности возмущений, так как в этом случае может быть выведен критерий согласованности.
Х.Блейлок предложил альтернативный подход для панельных моделей с использованием множественных индикаторов в двух или более временных точках [85 ]. Получающиеся в результате модели аналогичны ранее обсуждавшимся моделям с двумя переменными и множественными индикаторами (только здесь вместо двух концептуальных переменных имеется одна, измеренная дважды). Преимущества использования множественных индикаторов в данном случае - это достаточность двух волн данных, отсутствие ограничений на устойчивость коэффициентов одномоментной надежности, возможность проверки допущений о скоррелированности ошибок индикаторов с помощью уже описанных критериев согласованности. Однако и здесь возникает проблема множественных оценок параметров, о которой мы неоднократно упоминали и на которой вкратце остановимся немного ниже после обсуждения проблемы значимости выводов, получаемых при проверке модели.
Как было показано ранее, переопределенные модели со множественными индикаторами, дающие несколько оценок для каждого параметра, позволяют сформулировать критерии согласованности. Критерий согласованности - это средство проверки валидности для каждого из индикаторов и для модели в целом. И при изложении комбинированного подхода к оценке качества измерения в предыдущем разделе, и при анализе многоиндикаторного подхода мы неоднократно подчеркивали, что наиболее адекватной стратегией оценки валидности является построение и проверка модели измерения, а не валидизация отдельного индикатора. Однако любой критерий согласованности в моделях со множественными индикаторами предполагает, что при корректности модели левая и правая части критерия должны быть равны. Если же их разность больше нуля, то возникает проблема оценки значимости этого различия. Обсуждая критерии согласованности и соответствующие модели, мы не уделяли внимания этой проблеме, т.е. не подчеркивали, что любое нарушение равенства может быть связано и с выборочной природой данных. В действительности существует необходимость проверки гипотезы о вероятности выполнения равенства в совокупности при данной ве-
личине отклонения от точного равенства в выборке. Следовательно, необходимо решить статистическую задачу проверки значимости. Такой тест значимости был создан за несколько десятилетий до появления первых моделей со множественными индикаторами Ч.Спирменом и К.Хользингером (1924 г.) при разработке простой модели факторного анализа [225. Р.70-72]. Предложенная этими авторами величина "тетрадической разности" сходна с критерием согласованности Костнера, поэтому оценка стандартной ошибки этой величины вполне подходит для аналогичной оценки различия между левой и правой частями критерия согласованности.
Тетрадическая (или тетрадная) разность (t d) для модели с двумя переменными и четырьмя индикаторами определяется как:
Для оценки стандартной ошибки (S.E.) используется формула [225. Р.71]:
(2.38)
где:
N - размер выборки
Так как данная формула предполагает довольно громоздкие
вычисления, то на практике используют простое приближение: |
ее значительно более
(2.39) |
-где г - среднее четырех корреляций, входящих в критерий.
Эта более простая формула может использоваться во всех случаях, кроме тех, когда и N, и эмпирические корреляции малы. Используя эту формулу для оценки стандартной ошибки, можно применить простой ^-критерий для оценки значимости отличия полученной величины td от нуля [225. Р.71 ]. Значение будет равно отношению:
t = |
td
S.E.
Далее с помощью стандартной таблицы t -распределения определяют уровень значимости (для N - 1 степеней свободы).
Существует, однако, еще одна проблема, возникающая при использовании критерия согласованности. Если наблюдаемые корреляции очень малы, то даже ошибочная модель может пройти проверку значимости, так как разность между двумя парами таких корреляций заведомо будет очень мала. Поэтому обычно предлагается не использовать критерий согласованности, когда корреляции между индикаторами меньше или равны 0,3 [73; 225 ]. Для проверки корректности модели в этом случае рекомендуется сравнить между собой различные оценки каждого параметра. В случае, если эти оценки очень близки по величине, можно считать модель верной. Существуют и другие, более сложные тесты значимости для моделей со множественными индикаторами (см.: [176]).
Значительно более сложной проблемой является наличие нескольких различающихся оценок для каждого параметра. Это "цена", которую приходится платить за переопределенность (которая, в свою очередь, необходима для проверки согласованности). Как уже говорилось, в модели с двумя переменными и четырьмя индикаторами для каждого параметра имеется две оценки, в модели с тремя индикаторами для каждой переменной оценок будет уже девять и т.д. Даже если модель успешно прошла проверку по критерию согласованности, эти оценки могут заметно расходиться. Возникает проблема выбора между этими оценками эпистемических корреляций (т.е. надежности индикаторов) или корреляций между переменными с поправкой на надежность. Для решения этой проблемы предлагались разные способы: простое усреднение оценок для каждого параметра, усреднение оценочных уравнений для получения одного значения и т.д. [225. Р.73 ]. В принципе любая из этих процедур дает несмещенную оценку, так как правильно определенная модель является теоретически несмещенной. Однако в статистическом оценивании, помимо несмещенности, требуется и эффективность оценки, т.е. выборочное распределение оценок должно обладать сравнительно небольшой дисперсией. Так как обсуждение собственно статистических проблем несколько выходит за рамки нашего изложения, ограничимся лишь двумя замечаниями. Во-первых, отсутствие окончательного решения проблемы "наилучшей" оценки служило поводом для критики многоиндикаторного подхода [242. Р.173 ]. Во-вторых, так как в переопределенной модели эффективной оценкой может быть лишь взвешенная средняя, где "веса" отражают вариативность исходных оценок, простое усреднение дает лишь несмещенную оценку. Конечно, для элементарных моделей с небольшим количеством оценок каждого параметра эта проблема не очень существенна, любое взвешивание дает результат, не слишком отличающийся от простого усреднения. Однако по мере усложнения модели измерения (и увеличения числа оценок) возникает необходимость перехода от простых методов путевого анализа к методам максимального правдоподобия.
Отметим, однако, что любые более сложные подходы к оценке параметров могут применяться лишь к конкретной теоретически
специфицированной модели измерения с несколькими индикаторами. Описанный нами подход со множественными индикаторами, как и подход к оценке качества измерения, обсуждавшийся в предыдущем разделе, важен именно для понимания содержательных аспектов измерения и роли модели измерения в комплексной оценке надежности и валидности. Понимание этой содержательной стороны проблемы позволяет оценить вклад социологов в традиционные психометрические представления о надежности и валидности.
Оценивая роль рассмотренных подходов к реконцептуализации понятия качества измерения в социологии, отметим, во-первых, что возникновение этих подходов было бы невозможным без принципиально новой и возникшей собственно в социологии трактовки измерения как основанного на содержательных теоретических представлениях процесса соотнесения высокоабстрактных понятий теории с данными наблюдений, в " снятой" форме представленного в модели измерения. Во-вторых, сами новые подходы к оценке качества измерения, ориентированные на проверку гипотез об адекватности принятой модели измерения (а не на оценку качества отдельных показателей), послужили толчком к дальнейшему углублению именно тех представлений об измерении, которые первоначально инициировали их появление[28]. Т.е. понимание сложной и носящей обоюдный характер взаимосвязи теоретически заданного предмета измерения, его метода и конкретных эмпирических показателей, к которому подводила рассмотренная концепция качества измерения, способствовало отказу от узко инструментальной трактовки функций измерения. Новое, более широкое определение функций измерения очень точно, на наш взгляд, передано в следующем тезисе: "Их (измерительных операций) неизменная функция коренится во взаимосвязях между их концептуальными и операциональными аспектами, в семантически целесообразном и эмпирически реализуемом соответствии числовым операциям и в надлежащей спецификации, которая соотнесена с природой объекта измерения, с используемыми измерительными инструментами, применяемым способом измерения..." [9. С.31 ].
Рассмотренные подходы к оценке валидности и надежности измерения в силу своей относительной простоты не могут быть использованы в ситуациях, когда модель измерения очень сложна. Для оценки параметров очень сложных моделей в последнее время используются значительно более изощренные статистические процедуры (например, анализ ковариационных структур). Однако применение таких процедур осмысленно лишь тогда, когда исследователь имеет серьезные основания подозревать наличие конкретных типов неслучайной ошибки в своих данных и способен отчетливо сформулировать проверяемую модель. В то же время достоинства сравнительно простых подходов тесно связаны с их недостатками, т.е. с существованием ограничений на сложность модели. Прежде всего, необходимость заранее сформулировать все допущения, касающиеся
структуры модели, заставляет исследователя эксплицировать, явно задавать все имеющиеся у него представления о природе и взаимосвязи переменных, возможных влияниях метода измерения на его результат. Тем самым возникают определенные гарантии против опаснейшей иллюзии эмпирической социологии - иллюзии "самоочевидной интерпретируемости результатов измерения" (см.: [7; 35]), не зависящей от теоретических представлений. С другой стороны, преодолевается противоположный соблазн строить в принципе непроверяемые теории, где все связано со всем, в надежде, что хороший методист должен найти способ устранить ошибки измерения и откорректировать инструмент (оценить ретестовую надежность отдельного индикатора, указать корреляцию с суммарным баллом и т.п.). Конечно, тема зависимости измерения от теории не исчерпывается проблемами определения валидности и надежности (ряд других проблем будет анализироваться в следующей главе), однако анализируя эволюцию взглядов на качество измерения в американской социологии 60-х - 70-х годов, нельзя не признать, что этот процесс характеризовался растущим пониманием специфики целей, задач и методов собственно социологического исследования, все большей "автономизацией" подходов и отказом от некритического копирования отдельных приемов психометрики. не исключавшим, впрочем, принятия конструктивных идей.
Дата добавления: 2015-11-26; просмотров: 64 | Нарушение авторских прав