Читайте также: |
|
Р.Зеллер и Э.Карминес предложили переформулировку определений валидности и надежности, а также критерии и практические методы их оценки. Предложенная ими концептуализация надежности и валидности (как и другие ориентации в моделирующем подходе к измерению) базируется на том, что наблюдаемые значения измеряемой переменной (X) равны сумме истинных значений (Г), систематической ошибки измерения (S) и случайной ошибки измерения (R)6. Т.е.:
X = Т + S + R. (2.10)
Тогда для генерального среднего измеренных баллов можно записать:
Е(Х) = Е(T) +E(S), (2.11)
так как для случайной ошибки действительны прежние предположения. Для конечной выборки наблюдений среднее измеренное значение переменной становится несмещенной оценкой "истинного балла", к которой прибавлена средняя систематической ошибки [242. Р.12].
В присутствии и случайной, и систематической ошибок для ожидаемой дисперсии можно из:
σ2x = σ2(t + s + r)
вывести, что
σ2x = σ2 t + σ2 s + σ2 r + 2σ ts (2.12)
(Так как по определению σ tr = σ sr = 0.) Здесь существенно, что так как Т и S могут быть скоррелированы, суммирование дисперсий Т, S и R не обязательно дает дисперсию X. Причем ковариация Т и S может быть и больше, и меньше нуля. Можно оценить дисперсию случайной ошибки и наблюдаемых значений. Однако невозможно ничего сказать о дисперсии истинного компонента, систематической ошибки и ковариации TS, не сделав каких-то дополнительных содержательных предположений ("не существует чисто механической процедуры для идентификации латентных переменных с гарантированной теоретической валидностью" [146. Р.9]).
В этом контексте можно ввести следующие различения для надежности и валидности: "Надежность - это доля неслучайной
дисперсии; валидность - та доля дисперсии наблюденных значений, которая относится к истинному компоненту" [242. Р.13]. Т.е.:
Такое определение согласуется с данными выше содержательными определениями валидности и надежности. Кроме того, из него становится ясным, что различие валидности и надежности индикатора зависит от присутствия систематической ошибки измерения. Если совокупность индикаторов измеряет только заданный теоретический конструкт с точностью до случайных погрешностей, то валидность будет равна надежности. Чем больше доля систематического ошибочного компонента, тем больше надежность будет превосходить валидность.
Наконец, в гипотетическом случае, когда вся наблюденная дисперсия индикатора будет обусловлена систематической ошибкой (скажем, из-за неправильной спецификации теоретической модели), валидность будет нулевой, а надежность - абсолютной.
Все изложенные представления, как уже говорилось, в принципе были достаточно осознаны и в психометрической традиции (по крайней мере, к середине 60-х годов). Однако близкая к контролируемому эксперименту ситуация тестирования позволяла, в принципе, находить " паллиативные" средства конструктной валидации.
Скажем, необходимость учета содержательных представлений о тестируемом свойстве в области образовательного тестирования могла реализовываться в конкретных процедурах оценки репрезентативности тестового материала (по объему и содержанию) относительно заранее известной учебной программы. Идею совпадения теоретической модели "поведения" изучаемого свойства с реальностью легко было осуществить, например, через оценку его возрастной динамики в "естественном эксперименте" (если тест X измеряет вербальный интеллект, то показатели для детей должны расти с каждым годом) [2. С.141 ].
В социальных же науках, где экспериментальный контроль практически недостижим, где целью является не тестирование или дифференциальная диагностика, а измерение переменных на микро-и макро-уровне, и где систематическая ошибка весьма типична, неудовлетворенность таким подходом к качеству измерения была значительно острей. Это и вызвало появление новых подходов в данной области.
Если принять предложенную формулировку надежности и валидности, то можно выделить два обобщенных критерия их оценки: 1) внутренняя ассоциация как паттерн взаимоотношений между
индикантами, предназначенными для измерения одного теоретического конструкта, и 2) внешняя ассоциация как паттерн отношений между индикантами данного конструкта и другими переменными [242. Р.151
Критерий внутренней ассоциации предполагает, что существуют позитивные интеркорреляции между индикаторами, что соответствует содержательному пониманию надежности как согласованности. Наиболее популярной техникой оценки внутренней согласованности пунктов (совокупности индикаторов, субтестов шкалы) является факторный анализ. Сторонники факторного анализа как средства оценки качества измерения иногда склонны полагать, что именно факторный анализ, выявляющий эмпирическую многомерную структуру матрицы корреляций между пунктами, может использоваться для полной оценки конструктной валид-ности отдельных индикаторов:"Каждый тест может быть охарактеризован посредством основных факторов, определяющих его показатели, весом, или нагрузкой, каждого фактора и корреляцией теста с каждым из них. Такая корреляция именуется факторной валидностью теста" [2. С.143]. Однако такая точка зрения переоценивает роль факторного анализа в оценке качества измерения, хотя бы в силу того, что не принимает во внимание проблему интерпретации факторов. Сама по себе интерпретация фактора как релевантного определенному теоретическому конструкту (или, наоборот, представляющего другой конструкт либо артефакт метода) невозможна без принятия каких-то предположений о валидности измерения (за исключением случая, когда систематическая ошибка отсутствует).
Нам кажется более обоснованным использование факторного анализа как средства оценки систематических компонентов наблюденной дисперсии, т.е. "доли наблюденной дисперсии, представленной истинными значениями и неслучайными или систематическими ошибками" [242. Р.15]. Исходя из этого, Р.Зеллер и Э.Карминес предложили процедуру использования факторного анализа для эмпирической оценки надежности, создания новых факторных переменных (шкал) и построения исходной модели измерения, адекватность и параметры которой подлежат дальнейшей комплексной оценке.
сводных показателей (суммирующих оценки для отдельных ин-дикаторов-субтестов) - "альфа" Кронбаха - равна надежности лишь когда все индикаторы (пункты) строго параллельны или тау-эквива-лентны[19], т.е. она устанавливает нижнюю границу надежности
[242. Р.59] (см. также: [1. С.123; 36. С.70]).
С практической точки зрения, условия, когда "альфа" Кронбаха не дает хорошей оценки надежности, весьма существенны для социологического измерения. Это происходит, когда "пункты измеряют один концепт в неравной мере, или измеряют более одного концепта, равно или неравно" [242. Р.60]. Существенна здесь и типичная для социологии ситуация невозможности подобрать большое число индикаторов-пунктов для одного теоретического концепта[20]. Уже сами условия, ограничивающие полезность коэффициента Кронбаха, предполагают применимость и релевантность оценки надежности, основанной на факторном анализе. В этом контексте становится понятной популярность двух коэффициентов надежности, основанных на факторном анализе - "тега" и "омега". Общее обоснование использования факторного анализа в оценке надежности достаточно полно и лаконично изложено в отечественной работе
[1. С.127-129], где, в частности, отмечается, что так как для заданного числа пунктов в тесте (шкале) большей корреляции между пунктами соответствует большая надежность, а высокая корреляция также является условием выделения небольшого числа значимых факторов, то надежность теста может быть связана с результатами его факторизации. "Факторизация гомогенного теста должна давать один главный фактор, на котором эти (входящие в тест) высказывания имели бы заметные нагрузки... Использование факторного анализа для определения надежности гетерогенного теста сводится, по существу, к процессу гомогенизации посредством факторного расчленения высказываний теста. При этом каждый выделенный фактор объединяет в себе предложения одного гомогенного теста" [1. С.127-128].
Коэффициент "тега" основан на модели анализа главных компонент и может быть содержательно интерпретирован с учетом того, что основная задача в ней заключается не в объяснении корреляции между признаками, а в объяснении максимальной доли дисперсии наблюдений [52. С. 15]. Надежность гомогенного теста (шкалы), образованного пунктами, вошедшими в первую компоненту:
где N - число пунктов, a A i - наибольшее (т.е. первое) собственное число. (В случае гетерогенного теста можно подвергнуть повторному анализу каждую полученную подсовокупность пунктов-высказы-
ваний.) "Тета" может рассматриваться как максимизированное значение альфа-коэффициента.
Р.Зеллер и Э.Карминес рассматривают и другой коэффициент надежности - "омега", основанный на модели общих факторов и предложенный Д.Хейсом и Дж.Борнстедом в 1970 г. Приведем его упрощенную формулу для корреляций между пунктами:
где а - число пунктов, Ь - сумма корреляций между пунктами, hi -общность P-ro пункта.
При этом отмечается, что так как общности в модели общих факторов оцениваются, существует доля неопределенности при вычислении "омеги" (но не "теты"). Все три коэффициента ("альфа", "омега" и "тега") будут равны, если корреляции между пунктами равны (при равенстве дисперсий пунктов). Для тау-эквивалентных пунктов а < в < Q [242. Р.63]. Различия между коэффициентами "альфа" и "тега" либо "омега" будут существенны, когда высказывания теста (шкалы) имеют очень гетерогенные интеркорреляции (однако эти различия можно уменьшить, исключив "слабые" пункты). Процедура, предложенная Р.Зеллером и Э.Карминесом для оценки надежности [242. Р.67-75 ], включает в себя факторизацию, построение и эмпирическую оценку параметров причинной модели измерения, коррекцию на аттенюацию корреляций между неизмеряемыми конструктами в модели (если в исследовании ставилась задача оценить взаимосвязь различных конструктов, измерявшихся разными совокупностями индикаторов), оценку надежности сводных показателей, анализ матрицы корреляций после резидуализации (чтобы убедиться, что она содержит только случайную ошибку). Обсуждаются также критерии, указывающие на присутствие только случайной ошибки [242. Р.71-75]. После выполнения всех шагов этой процедуры исследователь имеет основания утверждать, что "причинная модель содержит всю надежную дисперсию" [242. Р.76 ].
Однако абсолютная надежность, как уже говорилось, не гарантирует валидности эмпирических показателей. В принципе, очень надежная мера может быть совершенно невалидной, если все инди-канты отражают лишь систематическую ошибку. Источником этой систематической ошибки может быть и артефакт метода (самый простой и распространенный случай - позиционный стиль ответа, response set), и другой теоретический конструкт, неучтенный в модели. На многочисленных примерах Р.Зеллер и Э.Карминес показывают, что задача оценки валидности значительно сложнее, чем в случае оценки надежности (именно в силу возможного присутствия систематической ошибки). Конечно, если в процессе измерения имеют место лишь случайные ошибки, валидность будет равна надежности, однако "при измерении большинства теоретических концептов, используемых в социальных науках, измерение, по всей вероятности, содержит и случайную, и систематическую ошибку"
[242, Р. 159 ]. Оценка же систематической ошибки (и, таким образом, валидности) в значительно большей степени является теоретической проблемой, чем сугубо статистической. Здесь не может существовать чисто механической процедуры. Стратегия, предложенная Р.Зеллером и Э.Карминесом, основана на теоретических импликациях процедур эмпирического измерения. Исходя из теоретической концепции, делаются предсказания о возможных отношениях валиди-зируемых показателей к другим (внешним) переменным. Т.е. предполагается, что валидная мера имеет такой паттерн связей с теоретически релевантными внешними переменными, который согласован с ожидаемым на основании теоретических предположений. При этом уверенность исследователя в валидности эмпирического измерения тем выше, чем больше таких проверок конструктной валидности, основанных на критерии внешней ассоциации, удалось успешно провести. Наиболее эффектной является стратегия одновременного оценивания надежности и валидности, так как эмпирические показатели должны обладать и статистическими свойствами надежности, и концептуальной валидностью при измерении сложных и высокоабстрактных понятий социологической теории.
Так как предложенный Р.Зеллером и Э.Карминесом подход в значительной мере зависит от конкретного теоретического контекста и причинной модели измерения, т.е. от содержательных соображений, его эффективность проще всего продемонстрировать на каком-то примере. Таким примером может служить, в частности, проведенный ими анализ предложенной У.Шутцем концепции межличностного поведения и соответствующей модели измерения. Эта концепция "Фундаментальной ориентации межличностных отношений в поведении" (FIRO-B) постулирует, что лишь удовлетворительные отношения с другими людьми могут удовлетворить потребности, мотивирующие поведение в сфере общения [46; 209 ]. Безуспешность попыток установить такие отношения ведет к фрустрации потребности и, следовательно, к возрастанию тревожности. Существует три фундаментальных межличностных потребности - включенность, контроль и расположение (любовь). Кроме того, поведение, относящееся к каждой из межличностных потребностей, описывается в двух ортогональных измерениях: поведение самого субъекта по отношению к другим и желаемое им поведение со стороны других. В соответствии с этими теоретическими представлениями был создан опросник, состоящий из шести шкал, измеряющих ортогональные, независимые (по гипотезе Шутца) теоретические концепты: 1) выражаемая субъектом межличностная потребность во включенности, 2) "желаемая" потребность во включенности (т.е. связанная с ожидаемым поведением других людей, 3) выражаемая в поведении субъекта потребность в контроле, 4) желаемый контроль со стороны других людей, 5) выражаемая потребность в проявлении расположения, 6) желаемое расположение со стороны других.
Опросник FIRO-B состоит из 54 пунктов, т.е. из 9 высказываний для каждой из 6 шкал концептуального пространства межличностного поведения размерности 3x2.
Р.Зеллер и Э.Карминес провели факторный анализ опросника в целом и каждой из шести шкал, проверку конструктной валидности по критерию внешней ассоциации, а также оценку надежности суммарных баллов по каждой шкале после исключения "слабых" пунктов [242. Р.123-136, 155-158 ]. Одновременная оценка надежности и валидности показала, что высказывания FIRO-B измеряют в действительности четыре теоретически специфицированных концепта: включенность, контроль и два аспекта расположения - "Близкое и личностное" и "Холодное и дистантное". Проведенный анализ не дает оснований для предложенного Шутцем разведения желаемого и ожидаемого поведения в сфере межличностных отношений. При этом, в частности, выяснилось, что полученное при исходной факторизации расщепление "контрольных" пунктов на два фактора отражает не наличие двух измерений контроля, а существование общего фактора контроля и артефакта метода - позиционного стиля с гветов у части испытуемых. Т.е. формулировка исходных вопросов вела к систематической ошибке измерения для части выборки. Применение критерия внешней ассоциации и Q-техники факторизации (объединение респондентов в группы-факторы) позволило отделить влияние "позиционных" ответов от истинного влияния фактора контроля. Для иллюстрации этого результата приведем оцененную модель измерения для шкалы контроля опросника FIRO-B (рис.3). Однако, как отмечает Р.Зеллер и Э.Карминес, артефакты метода не всегда могут быть обнаружены. В случае шкалы контроля из опросника FIRO-B, выявление не связанной с содержанием шкалы доли систематической вариации ответов, зависящей от формы представления высказываний, было облегчено тем, что часть пунктов была негативной (по отношению к измеряемому свойству). Если же влияние артефактов метода на все индикаторы имеет одно направление, то задача оценки модели измерения становится практически невыполнимой без привлечения дополнительных теоретических соображений для повторной конструктной валидации и дополнительных показателей для расширения модели измерения. Традиционный подход, основанный прежде всего на чисто статистической оценке надежности, здесь неэффективен. В этом примере он привел бы к получению "завышенной" надежности при низкой валидности. Конечно, некоторые приемы выявления артефактов метода, разработанные в психометрике, могут быть применены в социологическом измерении - например, использование "прямых" и "обратных" пунктов. Однако в большинстве случаев эти простые средства неэффективны и едва ли применимы. Едва ли возможно разрабатывать "шкалы лжи" для каждого социологического опроса или вводить в анкету многочисленные вопросы - дубли или "экзотические" вопросы для выявления случайной тактики ответов респондента.
Конкретный подход к оценке качества измерения, предложенный
Р.Зеллером и Э.Карминесом, не стал окончательным решением
черченных проблем. В этом подходе недостаточно разработаны
проблемы измерения, возникающие при неправильной спецификации
теоретической модели. Удовлетворительное решение этих проблем
Контроль |
Рис. 3. Модель измерения для шкалы кош-роля опросника FIRO-B.[21]
Позиционный ответ (ResPonse set)
возможно лишь при соотнесении понятия "валидность" со "вспомогательной теорией измерения", о чем будет идти речь в главе III данной работы. Однако в этом подходе достаточно ясно выражено стремление перейти от понимания измерения как "числового приписывания" к его трактовке как процесса связывания понятий теории с языком наблюдения и, следовательно, к комплексной оценке качества измерения с учетом и статистических свойств, и содержательной адекватности. Безусловную ценность представляют и содержащиеся в этом подходе эвристические приемы, позволяющие установить зависимость качества эмпирических индикаторов от влияния неслучайных ошибок измерения - артефактов метода и ошибок теоретической спецификации, искажающих параметры модели измерения. Однако прежде чем давать оценку новым, самостоятельным подходам к измерению, оказавшим существенное влияние на американскую эмпирическую социологию 60-х - 70-х годов, рассмотрим в общих чертах еще один такой подход, использующий иную стратегию оценки качества показателей.
3. Множественные индикаторы в оценке качества измерения
Подход, основанный на использовании множественных индикаторов и путевого анализа, был предложен в статье Герберта Кост-нера, вышедшей в 1969 г. [113]. Однако сама идея использования
многих показателей для оценки надежности и валидности социологического измерения была достаточно популярна уже в первой половине 60-х годов. Сам Г.Костнер в указанной статье подчеркивает, что первую общую формулировку многоиндикаторного подхода можно найти в работах Х.Блейлока (1964) [81], Р.Кёртиса и Э.Джексона (1962) [116], а также в книге Ю.Уэбба и соавт., посвященной нереактивному измерению в общественных науках [238 ]. На наш взгляд, еще более прямой является связь многоиндикаторного подхода и процедуры конвергентной-дискри-минантной валидизации с использованием многометодной матрицы свойств (черт), или "ДО-М"- матрицы. Эта процедура была предложена Д.Кэмпбеллом и Д.Фиске в статье 1959 г. [106] и рассматривается в психометрической литературе как эффективный подход к комбинированной оценке конструктной валидности. Использование причинных моделей со множественными индикаторами позволило определить границы обоснованности такой оценки, о чем пойдет речь далее, однако до изложения основных идей многоиндикаторного подхода целесообразно просто зафиксировать наличие
такой связи.
Многоиндикаторный подход позволяет одновременно проводить оценку конструктной валидности индикаторов, эмпирическую проверку принятой исследователем причинной модели измерения и надежности индикаторов для сравнительно простых моделей измерения. Прежде всего, рассмотрим проблему оценки надежности, так как именно она позволяет понять тесную связь данного подхода со спецификой планирования исследования и сбора данных в социологии. В принципе, обычные методы оценки надежности (как внутренней согласованности и как повторяемости), принятые в теории тестов, вполне эффективны, когда речь идет о сравнительно стабильных свойствах, состоящих из многих высказываний тестах и сравнительной легкости доступа к источникам
данных.
В социологии же (и других общественных науках) единицей анализа часто является не индивидуум, а какой-то макроуров-невый социальный объект - определенного типа группа, регион, культура и т.п. Возможности повторного тестирования в небольшом временном интервале, как и возможности использования многих индикаторов ("пунктов"), нацеленных на измерение одного и того же свойства, обычно крайне ограничены. С одной стороны, при использовании агрегированных данных официальной статистики социолог заранее ограничен существованием больших интервалов между переписями, так как за такой срок может меняться сам уровень интересующего его свойства (в [225. Р.29] приводится пример медианного уровня дохода как показателя экономических ресурсов штата). В результате, нельзя использовать оценку рете-стовой надежности. С другой стороны, чаще всего попросту невозможно подобрать более двух-трех индикаторов интересующего исследователя свойства. И даже когда это возможно (преимущественно, при изучении установок), в реальный социологический ин-
струмент (анкету, план интервью) редко удается включить достаточно большой список высказываний, связанных с единственным свойством[22]. Однако исследователю все же необходима какая-то процедура для оценки качества измерения и внесения поправок на ошибку измерения в статистические оценки корреляций между изучаемыми свойствами[23].
В условиях, когда имеется лишь один индикатор для каждой из исследуемых переменных и отсутствует возможность повторных замеров, нельзя оценить надежность этого индикатора (которая, в терминах путевого анализа, равна квадрату эпистемической корреляции, т.е. корреляции измеряемого свойства и индикатора). Причинная модель измерения становится непроверяемой, если не принять нереалистическое предположение об абсолютной надежности индикатора (эпистемические корреляции равны 1) или пренебрежимо малой ошибке измерения [113. Р.245]. Ситуация меняется уже с введением двух индикаторов для каждой переменной. На рисунке 4 X и Y- это исследовательские переменные, о связи между которыми говорит теоретическая гипотеза, с - структурный коэффициент, представляющий связь между X и Y в совокупности. Далее х1 и х2 -это индикаторы теоретической переменной X, которая сама по себе неизмеряема, так как является теоретическим конструктом[24]. Соответственно, у1 и у2 - индикаторы Y, a a, b, d и е - это так называемые эпистемические корреляции, связывающие индикатор с соответствующей неизмеряемой переменной. Принимается, что все переменные стандартизованы и, соответственно, а, b, с, d и е - это путевые коэффициенты, т.е. стандартизованные значения структурных коэффициентов (см.: [53. С. 177]). Правила путевого анализа позволяют выразить наблюдаемые значения корреляций (в нашем случае, rx1x2, rx1у1, rx1у2, rx2у1, rx2y2, ry1y2)[25] через последовательность коэффициентов причинной диаграммы (о путевом анализе см., например, [53]).
На рис.4 изображены также возмущения или ошибки еi для которых принимаются допущения о случайном характере (они не скор-релированы друг с другом и их генеральное среднее равно нулю), и, кроме того, члены-концептуальные ошибки - ui, представляющие все неизвестные причины концептуальных переменных (X и У) в многоиндикаторных моделях. Для последних принимается, что они случайны по отношению друг к другу, к возмущениям в индикаторах
Итак, используя правила путевого анализа, можно записать следующие уравнения, выражающие корреляции между индикаторами на рис. 4, через путевые коэффициенты:
(2.15)
Корреляции rxiyj могут быть получены из данных для всех индикаторов, т.е. это известные величины. В системе из шести уравнений содержатся и пять неизвестных (путевых коэффициентов). Следовательно, мы можем получить оценку любого из пяти коэффициентов: и корреляции истинных значений с, и эпистемические корреляции a,b,d и е, квадрат которых равен надежности индикатора. Однако модель, изображенная на рис.4, переопределена (шесть уравнений, пять неизвестных). Идея, предложенная Г.Костнером, как раз и заключалась в том, чтобы использовать избыточную информацию для оценки согласованности (несогласованности) получаемых значений коэффициентов и, соответственно, проверки обоснованности предположений, включенных в модель, в частности, предположения об отсутствии определенного рода неслучайной ошибки измерения. Для рассматриваемой нами модели на рис.4 из уравнений 2.15 и 2.18 мы получаем:
Аналогично, из уравнений 2.16 и 2.17 получаем:
Следовательно,
(2.20) |
Дата добавления: 2015-11-26; просмотров: 67 | Нарушение авторских прав