Основные этапы конструирования теста

Читайте также:

В процессе конструирования личностного опросника, теста интеллекта или достижений, проективной методики разработчику необходимо, как правило, пройти ряд этапов(рис. 18) [4, с. 151−176].

Рассмотрим основные этапы конструирования теста.

1. Определение количества заданий (спецификация теста). Прежде чем начинать конструировать тест, необходимо:

− сформулировать целибудущего теста;

− разработать спецификацию будущего теста (определить содержательные области,которые предполагается измерять; их манифестации, или пути, по которым содержательные области могут проявляться);

− определить процентный вес содержательных областей, определить процентный вес манифестаций (при решении следует руководствоваться тем, насколько важным представляется измерение одних параметров по сравнению с другими);

− определить количество заданий в тесте.

В определении количества заданий перед разработчиком возникает дилемма: с одной стороны, обеспечение надежности теста, что требует увеличения количества заданий, а с другой стороны − минимизация количества заданий для обеспечения эффективной работы испытуемого с ними, подразумевающей прежде всего поддержание концентрации внимания в ходе обследования.

Для достижения удовлетворительной надежности опросника требуется не менее 20 заданий, выполнение которых обычно занимает не более 10 минут. Значимую роль в определении количества заданий теста играют особенности того контингента, который предполагается обследовать. Обычно при проводимом разработчиками пилотажном исследовании количество заданий предварительного варианта теста должно быть по крайней мере на 50 %больше числа тех, которые будут включены в окончательную версию теста.

2. Разработка заданий теста. При разработке заданий теста необходимо учитывать следующие требования:

1.Каждое задание (вопрос) должны быть сформулированы предельно ясно и просто.

2. Необходимо избегать двусмысленных формулировок и придерживаться, насколько это возможно, наиболее простых вариантов ответов.

3. Необходимо стремиться к тому, чтобы обследумые не могли догадатьсяо том, для измерения какой черты предназначено то или иное задание.

4. Задания должны отражать конкретные,а не общие аспекты изучаемой области поведения.

5. Везде, где только возможно, следует избегать употребления таких слов, как «часто», «редко» и т. п. В формулировке заданий нужно очень осторожно прибегать к словам, указывающим на частоту действий. То, что одним испытуемым интерпретируется как «часто», для другого совсем не так.

6. Следует избегать терминов, выражающих чувства. Лучше представить задание в контексте поведения.

7. Важно, чтобы любой из предлагаемых вариантов ответа воспринимался испытуемым как возможный, вероятный. Ответ, воспринимаемый обследуемым как неправильный,будет иметь малую вероятность выбора. В личностных опросниках обычно используют задания дихотомического и трихотомического типа. Задания с альтернативным выбором (дихотомические) легки для понимания, просты и удобны для обработки. Они требуют минимального времени для ответа. К их недостатком относится то, что обследуемые нередко не удовлетворены предлагаемой альтернативой, хотели бы видеть больше вариантов ответа. Трихотомические задания(три варианта ответа, например «да», «не знаю», «нет») имеют преимущество – обследуемые могут более точно выразить себя, чем в случае альтернативы.

Рис. 18. Основные этапы конструирования теста

Недостаток применения более двух вариантов ответов состоит в том, что могут актуализироваться установки на выбор крайних вариантов ответа и выбор среднего варианта, чаще всего это такие ответы, как «не знаю», «иногда» и т. п. Важно использовать только одинтип заданий.

Основные проблемы, возникающие при разработке заданий личностных опросников, касаются актуализации факторов, имеющих установочную природу. Установка на согласие может быть преодолена с помощью введения так называемых обратных заданий, причем их количество должно быть равно или почти равно числу «прямых» заданий. При введении обратных заданий необходимо скрупулезно выверить их смысл и убедиться в том, что они имеют то же самое значение, что и те, из которых были образованы. Необходимо избегать двойных отрицаний.

Установка на социально одобряемый ответ может быть сведена к минимуму с помощью изъятия из опросника тех заданий, ответы на которые оцениваются обследуемым с точки зрения их социальной желательности (нежелательности). Эффективной мерой в борьбе с этой установкой будет обращенное испытуемому требование отвечать, и каждый вопрос, не слишком долго задумываясь, не пытаясь анализировать каждое задание.

Отдельные исследователи при разработке опросников используют «шкалу лжи» − специальную группу заданий, предназначенных для выявления лиц, склонных к социально одобряемым ответам. Эти задания состоят из вопросов, касающихся незначительных проступков, совершаемых всеми людьми. Например, «Я никогда не лгу», или «Я всегда прихожу своевременно на встречи и свидания». Лица, набравшие достаточно большое количество баллов по такой шкале, рассматриваются как дающие социально одобряемые ответы, и их результаты не рассматриваются как достоверные. Данный прием может быть очень полезен для обнаружения установки на социально одобряемые ответы.

Установка на неопределенные ответы (так называемые ответы средней категории) преодолевается инструкцией, требующей от испытуемого как можно реже прибегать к таким ответам, а также количеством вопросов, число которых недолжно приводить к рассеиванию внимания, а тем самым к выбору «наиболее легкого ответа». Задания должны быть сформулированы таким образом, чтобы выбор ответа средней категории не был притягателен.

В связи с тем что в процессе работы над опросником задания будут неоднократно переформулироваться, будет изменяться порядок их предъявления, удобно иметь картотеку заданий, позволяющую работать отдельно над каждым из них. Полезны компьютерные банки заданий.

3. Оформление теста. В любом опроснике должен быть представлен блок основной информации. Онвключает:

− название теста;

− вопросы, касающиеся имени, пола, возраста, образования и других, необходимых для исследователя данных.

− дату заполнения опросника.

Инструкциядолжна быть ясной, доступной для понимания. Она должна содержать:

− указания, как выбирать ответ и каким образом отмечать его в опроснике;

− дополнительную информацию, которую разработчик считает необходимым сообщить обследуемому. Например, «отвечайте так быстро, насколько это возможно» или «отвечайте на каждый вопрос искренне, это очень важно для того, чтобы мы имели возможность оказать вам необходимую помощь»;

− информацию, которая может способствовать эффективной работе испытуемого, например о соблюдении конфиденциальности.

Для компоновки текста опросника следует руководствоваться следующими рекомендациями:

1. Нумеруется каждое задание.

2. Каждая строка на странице должна быть короткой и содержать не более 10-12 слов.

3. Все задания располагаются по прямой вертикальной полосе сверху вниз в левом углу страницы.

4. Варианты ответов должны быть представлены так, чтобы получилась прямая вертикальная полоса сверху вниз в правом углу страницы. Необходимо обеспечить ясную визуальную связь между каждым заданием и вариантами ответа на него.

5. Каждое задание нужно отделить друг от друга, лучше это сделать, используя свободное пространство, а не горизонтальную линию.

6. Если используется более чем один тип заданий, одинаковые задания группируются вместе. Каждый тип заданий требует разных инструкций и своих вариантов ответов.

7. Опросник печатается так, чтобы он имел эстетически привлекательный вид.

8. Результаты обследования (разные формы их представления) обычно не принято включать в опросник.

4. Пилотажное исследование – это выполнение заданий теста лицами, которые имеют сходные особенности с теми, для обследования которых он предназначается (репрезентативной группой испытуемых). Анализ полученных данных поможет отобрать самые лучшие задания для окончательной версии опросника.

Для проведения пилотажного исследования нужно предварительно подобрать репрезентативную группу (выборку) испытуемых. Обычно составление выборки занимает много времени, поэтому не следует этим заниматься при проведении пилотажного исследования. Если нельзя создать репрезентативную выборку, обычно достаточно составить выборку приблизительно похожую на репрезентативную. Лица, которые принимают участие в пилотажном исследовании (респонденты), должны отличаться по демографическим показателям, таким как возраст, пол, социальный статус.

Пилотажную версию опросника следует предъявить как можно большему числу испытуемых. Минимальное количество респондентов, которое требуется для пилотажного исследования, должно быть в два раза больше, чем количество заданий теста. Если невозможно получить такое количество испытуемых, лучше привлечь к исследованию меньшее количество респондентов, чем вообще отказаться от проведения пилотажного исследования.

5. Анализ заданий теста. Цельанализа заданий по результатам, полученным в пилотажном исследовании − отбор наилучших заданий для окончательной версии опросника. Анализ заданий включает в себя:

− определениедоли ответивших правильно(в соответствии с ключом);

− определениедискриминантностикаждого задания.

6. Определение надежности теста. Тест считается надежным, если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании. Существует несколько способов определения надежности.

Надежность ретестовая предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При применении этого способа определения надежности нужно помнить о том, что испытуемые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому повторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Отдельные психологи настаивают на интервале между тестированиями не менее 6 месяцев (П. Клайн, 1994). Наименьшим удовлетворительным значением для ретестовой надежности является коэффициент корреляции, равный 0,7.

Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Главная проблема, препятствующая распространению этого способа определения надежности, − необходимость подготовки двух наборов заданий, что очень сложно, так как необходимы убедительные доказательства их эквивалентности.

Надежность частей теста определяется путем деления опросника на две части (на четные и нечетные задания), после чего рассчитывается корреляция между этими частями.

Для нахождения ретестовой надежности и надежности параллельных форм

корреляции вычисляется на основе коэффициента произведения моментов

Пирсона (между двумя половинами теста).

Определение надежности должно выполняться на достаточно больших(200 и более испытуемых) и репрезентативных выборках. Надежность − немаловажная характеристика теста, но сама по себе она ценности не представляет. Она необходима для достижения валидности.

7. Факторный анализ. Часторазработчики теста решают задачу компактного описания изучаемых явлений при наличии множества наблюдений или переменных («сжатия» информации). Методом снижения размерности изучаемого многомерного феномена являетсяфакторный анализ. Факторный анализ зародился в психологической науке и связан с исследованиями Ч. Спирмена (C. Spearman, 1904) Т. Келли, Л. Терстоуна, Дж. Гилфорда и Р. Кэттелла, К. Пирсона, К. Холзингера, Г. Хармана и др.

Одной из типичных форм представления экспериментальных данных является матрица, столбцы которой соответствуют, например, различным тестам (заданиям тестов), а строки − отдельным результатам (значениям), полученным в результате их применения. Визуальный анализ сколь-нибудь значительной по величине матрицы невозможен, а поэтому требуется исходную информацию сжать, извлечь из нее наиболее важное, существенное. Прежде всего исследователю необходимо получить корреляционную матрицу (подсчет коэффициентов корреляции).

В психологическом тестировании цель факторного анализа заключается в том, чтобы найти несколько фундаментальных факторов, которые объясняли бы большую часть дисперсии в группе оценок по различным тестам или другим психометрическим измерениям. Есть несколько процедур факторного анализа, но все они предполагают две стадии:

1. Факторизацию матрицы. Стадия факторизации в этом процессе призвана определить количество факторов, необходимых для объяснения связей между различными тестами, и обеспечивает получение первичных оценок нагрузки (веса) каждого теста по каждому фактору корреляций, для того чтобы получилась первоначальная факторная матрица.

2. Вращение факторной матрицы, с тем чтобы обнаружить наиболее простую конфигурацию факторных нагрузок. Вращение факторов необходимо для того, чтобы сделать их более понятными (интерпретируемыми) с помощью создания конфигурации факторов, в которой совсем немного тестов имеют высокие нагрузки, тогда как большая часть тестов имеют низкие нагрузки по любому фактору.

Одна из наиболее известных процедур факторизации − метод главных осей, а самая популярная процедура вращения − варимакс−вращение.

Факторно-аналитический подход позволяет также оценить надежность теста. Однако надлежит помнить, что такой способ определения надежности более всего подходит для уже факторизованного теста, чем для тестов, способных измерять обширный набор разных факторов, часть которых могут и не входить в батарею изучаемых исследователем.

Вращение варимакс является процедурой ортогонального вращения, в которой факторные оси остаются перпендикулярными друг к другу. При облическом (косоугольном) вращении факторные оси формируют острые или тупые углы по отношению друг к другу. Ортогональные факторы обычно легче интерпретировать, чем косоугольные, так как эти факторы не коррелируют друг с другом (независимы). При интерпретации факторной матрицы после вращения следует обратить особое внимание на задания, которые имеют вес 0,50 и выше по данному фактору.

Существуют существенные расхождения не только относительно наилучших процедур факторизации и вращения факторов, но и в отношении их интерпретации. Тем не менее, факторный анализ был и остается одним из наиболее мощных инструментов психолога-разработчика тестов.

8. Доказательство валидности теста. Существует немало разнообразных способов доказательства валидности теста. Рассмотрим их.

Очевидная валидность описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности.

Конкурентная валидность оценивается по корреляции разработанного теста

с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть плохо работающие тесты для измерения отдельных переменных, а новые создаются для того, чтобы улучшить качество измерения.

Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Л. Кронбах полагает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Главная проблема, с которой сталкивается исследователь, пробующий установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. Чаще всего это относится к измерению личностных переменных, где подбор внешнего критерия − очень сложная задача, решение которой требует большой изобретательности.

Инкрементная валидность относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В данном случае этот тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.

Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Эти тесты обычно коррелируют с академической успеваемостью, но неодинаково для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.

Содержательная валидность определяется через доказательство того, что задания теста отражают все аспекты изучаемой области поведения. Как правило, она определяется у тестов достижений. Для определения содержательной валидности подбираются эксперты, которые указывают, какая область поведения наиболее важна, а затем, отталкиваясь от этого, генерируются задания теста, которые вновь оценивают эксперты.

Конструктная валидность теста показывается полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. Конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Конструктная валидность теста определяется путем поиска ответа на два вопроса:

1) существует ли реально некоторое свойство;

2) надежно ли измеряет данный тест индивидуальные различия по этому свойству?

Из вышеизложенного следует, что не существует какого-либо единичного показателя, с помощью которого доказывается валидность психологического теста. В отличие от показателей надежности и дискриминативности нельзя реализовать точные статистические расчеты, свидетельствующие о валидности методики. Однако разработчик обязан представить доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции.

9. Стандартизация теста. Стандартизация теста наиболее важна в тех случаях, когда осуществляетсясравнение показателей обследуемых. Показатели, полученные одним испытуемым, сравниваются с подобными в генеральной совокупности или соответствующих группах. Это позволяет достичь адекватной интерпретации показателя отдельного испытуемого. При этом вводится понятие нормы или нормативных показателей. Для получения стандартных норм необходимо скрупулезно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации надлежит учитывать ее объем и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности достаточной будет выборка из 500 испытуемых. Репрезентативность выборки не зависит от ее объема. Репрезентативность выборки является более важным параметром, чем ее объем. В отдельных случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. На практике все больше применяются стандартные показатели, удовлетворяющие большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получают двумя путями: линейным и нелинейным преобразованием первичных («сырых») оценок. В случае линейного преобразования сохраняются все свойства исходного распределения «сырых» оценок, и такие показатели называются стандартными (или z -показателями).

Главная причина преобразования первичных оценок в некоторую производную шкалу − стремление получить показатели, которые сопоставимы между собой независимо от того, по какому тесту они получены. Линейное преобразование позволяет получить показатели, сопоставимые лишь в том случае, когда распределения «сырых» оценок, по которым они рассчитываются, имеют примерно одинаковую форму. Для того чтобы сопоставлять показатели, полученные на основе распределений разной формы, прибегают к нелинейному преобразованию, или к нормализованным стандартным показателям. Процедура нелинейного преобразования достаточно проста и описана в многочисленных руководствах по математической статистике. Такие показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводится процент случаев, приходящихся на участки, которые отстоят от среднего нормальной кривой на некоторое число единиц стандартного отклонения. Сначала определяют процент лиц, чьи показатели превышают каждую «сырую» оценку, а затем по этому проценту в таблице отыскивают соответствующее значение нормализованного стандартного показателя.

Созданием стандартизованного теста иего публикацией обычно завершается работа психолога, но следует помнить и о том, что с течением времени нужен пересмотр(ревизия) теста. Тестовые нормы устаревают через каждые 5 лет, и можно предположить, что процесс их старения будет ускоряться [4, с. 151 − 176]. Опубликованная информация по тесту, предлагаемому для решения определенных диагностических задач, должна как минимум состоять:

− из детального описания содержания измерительного инструмента;

− из сведений о процедуре проведения и обработки полученных результатов;

− из описания норм;

− из данных о надежности;

− из данных о валидности [4].

Н.И. Шевандрин описывает следующие этапы разработки теста:

1. Феноменологизация и концептуализация переменной. Данный этап может быть реализован путем отбора основных феноменов, определений, анализа концептуальных описаний, диагностируемой характеристики (путем использования психологических словарей и специальной литературы, где приводятся определения и описания интересующей нас характеристики). Кроме этого, на базе полученной информации необходимо определить основные сферы проявления диагностируемой переменной. Для этого производится спецификация проявлений переменной обычно по следующим обобщенным сферам (размерностям, аспектам или уровням) проявления с использованием триадных и большей размерности систем:

а) качественной (эмоцио); например, в форме образов;

б) аналитической (рацио); например, в форме семантических значений;

в) субстанциальной (интуицио); например, в символической форме;

г) бытийной (экзистенцио); допустим в форме переживаний;

д) действенной (працио); например, в форме поведенческих актов, действий, поступков.

Перечисленные сферы, аспекты или уровни могут иметь как непосредственную, так и аналоговую соотнесенность с проявлениями интересующей нас переменной. Для допустимой полноты картины необходимо реализовать как минимум три сферы проявлений.

2. Отбор объектов,репрезентирующих (представляющих) основные размерности, сферы, аспекты или уровни феноменологии диагностируемой переменной.

3. Отбор характеристик,репрезентирующих (представляющих) феноменологическое поле диагностируемой переменной. Для этого подбираются синонимы и антонимы (в общем случае − симиляров и оппозитов) диагностируемой характеристики, выбираются аналогичные названия конструируемой переменной в различных сферах проявлений. Например, если диагностируется уровень понимания, то качественные его проявления в социальном плане могут быть обозначены как сопереживания, аналитические − как осознание, субстанциальные − как доверие, бытийные − как принятие, а действенные − как содействие.

4. Конструирование системы объектов. Отобранные объекты (стимулы) должны быть определенным образом упорядочены перед предъявлением. Для этого необходимо выделить некоторое существенное (значимое) основание упорядочения. Указанный выбор следует концептуально обосновать, в противном случае объекты оценивания следует расположить в случайном порядке, но единообразно.

5. Конструирование системы характеристик. Отобранные характеристики должны быть определенным образом упорядочены перед предъявлением. Для этого необходимо выделить некоторое существенное (значимое) основание упорядочения. Указанный выбор необходимо концептуально обосновать. В противном случае критерии оценивания следует расположить более однородными группами.

6. Построение опросных листов. Опросный лист, как правило, содержит инструкцию и некоторую систему регистрации ответов. Инструкция должна содержать утверждения, формирующие позитивный настрой на процедуру опроса, мотивирующие к достоверным ответам, описывающие процедуры заполнения опросника, гарантирующие неразглашение характера ответов и

благодарности за качественное участие в опросе.

7. Разработка системы показателей и их интерпретации. На этом этапе разрабатывается система признаков и соответствий между характером признаков и диагнозом (интерпретация).

8. Разработка системы рекомендаций по коррекции и развитиюдиагностируемой переменной. Данный этап разработки предполагает отбор необходимых советов, рекомендуемых действий, стратегий и тактик поведения, которые обеспечивали бы обследуемому улучшение показателей по оцениваемой переменной. Указанный этап собственно не относится к конструированию диагностического средства, но является тем не менее важным, так как позволяет совершенствовать экологические характеристики методики [29, с. 135 − 136].

Дата добавления: 2015-07-11; просмотров: 1334 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Наиболее известные проективные методики	\|	Технология адаптации зарубежных методик

mybiblioteka.su - 2015-2025 год. (0.024 сек.)