Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Виды валидности. Измерение валидности



Читайте также:
  1. А.З Измерение профиля горни
  2. В ИНОЕ ИЗМЕРЕНИЕ
  3. В иное измерение
  4. Важнейшие составляющие валидности
  5. Валидность как критерий оценки качества теста. Виды непосредственной валидности.
  6. Валидность как критерий оценки качества теста. Виды опосредственной валидности.
  7. Валидность методик. Соотношение валидности и надежности.

Вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает»

Валидность по своей сути — это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сто­рону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидно­сти включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Очевидная валидность — описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то мере трепет медицинским диагностическим инструментарием. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с по- мощью которых читателю предлагается определить все, что угодно: от интеллекта до совместимости с будущим супругом.

Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый?

Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого- либо теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия — чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.

Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.

Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.

Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты.

Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl,1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчеркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:

1) существует ли реально некоторое свойство; 2) надежно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности.

Не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции.

валидность ≤ надежность.

Это означает, что валидность теста не может превышать его надеж­ность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По­вышение надежности отнюдь не обязательно приводит к повышению валидности. В терминах А. Анастази валидность определяется ре­презентативностью теста относительно измеряемой области поведе­ния. Если эта область поведения складывается из разнообразных фе­номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноме­нов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответству­ет термин «вербальный интеллект»). Сюда относятся такие относи­тельно независимые друг от друга навыки, как навыки письма и чте­ния. Если заботиться о содержательной валидности соответствую­щего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (суб­тесты), мы обязательно сокращаем внутреннюю согласованность, од­номоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области при­менения теста психодиагност должен избегать излишнего повыше­ния внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной валидностью оценка теста производится за счет экспертов (устанавли­вающих соответствие заданий теста содержанию предмета измере­ния), то эмпирическая валидность измеряется всегда с помощью ста­тистического коррелирования: подсчитывается корреляция двух ря­дов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Прагматические традиции западной тестологии привязывали эм­пирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных об­ластей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической пси­хологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в меди­цине - «состояние здоровья пациента». Ориентируясь непосредственно на эти категории, психолог, пы­тающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос­тической программы. Если получен значимый коэффициент корреля­ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео­пределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психичес­ким свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике пси­холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консульти­рование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает од­новременно и валидность-эффективность диагностики, и эффектив­ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным от­делить неэффективность вмешательства от низкой валидности ди­агностики.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании доста­точно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется ме­тод экстремальных (контрастных) групп. Коррелирование с суммар­ным баллом по тесту оценивается с помощью бисериального коэф­фициента по формуле.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышен­ный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований извес­тно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреж­дающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) поряд­ка 100 человек. Проспективная валидизация выявляет прогностичес­кую эффективность диагностической процедуры. Высокая прогнос­тическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

 

 


Дата добавления: 2015-07-11; просмотров: 283 | Нарушение авторских прав






mybiblioteka.su - 2015-2024 год. (0.008 сек.)