Надежность теста и проблема угадывания правильного ответа

Читайте также:

Достаточно надежный тест позволяет получить устойчивую оценку способностей испытуемых той группы, к которой он применяется.

Надежность теста как средства измерений определяется отсутствием ошибок измерения тестовых баллов и тем, в какой мере результаты измерений воспроизводятся при многократном использовании теста по отношению к данной группе испытуемых. Ошибки измерения возникают в связи с усталостью испытуемого, нервным напряжением, содержанием включенных в тест заданий, ошибочными ответами, неправильной интерпретацией инструкций и попытками угадать ответ. Эти ошибки снижают индивидуальные результаты испытуемого и надежность теста.

А. Анастази выделяет случайные ошибки, вызванные невнимательностью или незнанием учащегося, и истинные ошибки, то есть ошибки, допущенные в конструкции теста. С этой точки зрения надежность показывает, в какой степени индивидуальные различия вызваны истинными, а какие случайными ошибками.

Чтобы оценить вклад различных источников в ошибку измерения, необходимо использовать разные способы оценки надежности. Прежде всего это ретестовая надежность. Для этого тест используют второй раз, и коэффициент надежности в этом случае равен корреляции между результатами, полученными на одних итех же испытуемых в каждом из случаев проведения теста. Конечно же, какой-то процент колебаний результатов теста может быть вызван не только результатами теста, но и некоторыми отвлекающими моментами: самочувствием, эмоциональным состоянием и т.д. Тем не менее чем выше ретестовая надежность, тем менее чувствительны результаты к обычным изменениям состояния испытуемого и обстановке тестирования.

Ретестовая надежность зависит от интервала времени, в котором она происходит. С увеличением времени данный вид надежности уменьшается. С другой стороны, если промежуток времени невелик, то испытуемые припоминают свои прежние ответы. В этом случае обследуемые указывают примерно одинаковые правильные и неправильные ответы и коэффициент корреляции окажется обманчиво высоким.

Другой способ определения надежности - метод расщепления. В этом случае каждый испытуемый получает два результата при разбивке теста на две сопоставимые части. При такой методике надежность является мерой согласованности выборок содержания. Временная стабильность показателей в ней не представлена, так как применяется только один сеанс тестирования. Благодаря этому метод расщепления иногда называют коэффициентом внутренней согласованности.

Еще одним способом определения надежности является надежность взаимозаменяющих форм. При этом те же самые испытуемые первый раз тестируются с помощью одной формы теста, второй раз - с помощью другой, сравнимой формы. Корреляция между показателями, полученными по этим двум формам, и служит коэффициентом надежности теста. При этом измеряется как временная стабильность теста, так и согласованность ответов по двум выборкам заданий.

Кроме указанных видов надежности можно выделить также метод Кью-дера - Ричардсона.и другие статистические методы, описанные в специальной литературе.

А.Н. Майоров определяет целый ряд факторов, оказывающих влияние на надежность тестового инструментария.

1. Величина теста. Чем длиннее тест, тем он надежнее. Выше отмечалось, что общая оценка теста состоит из истинной составляющей и ошибочной. Истинная составляющая, несомненно, больше ошибочной, и чем больше заданий в тесте, тем скорее сумма истинной составляющей будет возрастать, а ошибочной, соответственно, уменьшаться.

2. Непонятность и двусмысленность заданий. Непонятные и двусмысленные задания приводят к тому, что ответы на них даются случайным образом. То есть в двух тестированиях будут получены разные результаты, таким образом, корреляция между результатами тестирований снизится и, следовательно, надежность будет низкой.

3. Источники, связанные с испытуемыми: невнимательность, состояние здоровья и т.д. Все эти факторы снижают надежность тестирования. Однако в том случае, когда выборка для апробации теста достаточно велика, а инструкция для проведения четко определяет условия проведения, то многого из перечисленного удается избежать.

4. Субъективное оценивание. Результаты выполнения заданий должны оцениваться одинаково разными проверяющими. Другими словами, правильный ответ в тесте должен быть однозначным. В том случае, если это требование будет нарушено, то будут допускаться различия между оценками разных проверяющих и между оценками одного проверяющего в разных случаях. Как следствие различных оценок корреляция между результатами выполнения тестирования будет уменьшена и надежность теста будет невысокой.

5. Ошибки в подсчетах. В том случае, если задания имеют однозначную схему оценивания, причиной неудовлетворительной надежности могут стать случайные ошибки при подсчете баллов, их суммировании.

6. Инструкции для учащихся. В том случае, если задания имеют неясные, двусмысленные инструкции, то результаты двух тестирований будут существенно различаться, а надежность окажется невысокой.

7. Инструкции к тесту могут быть причиной низкой надежности. Инструкции должны обеспечивать одинаковость процедуры проведения тестирования, быть понятными и недвусмысленными. Если условия проведения тестирования в одном случае отличаются от другого, то и корреляция результатов тестирования в этих случаях будет невысокой.

8. Случайное угадывание правильных ответов также является причиной снижения надежности теста.

Остановимся на данной проблеме подробнее.

Один из доводов критиков тестирования заключается в том, что для большинства заданий существует вероятность случайного угадывания правильных ответов. В общем случае это проблема только заданий закрытого типа, и чем меньше возможных альтернатив предлагается испытуемому в рамках одного задания, тем больше вероятность угадывания. Однако для заданий альтернативных ответов, используемых одиночно, вероятность угадывания максимальна и составляет 50%. Исследователи настоятельно не рекомендуют использовать такие задания для тестов школьных достижений. Серия из пяти заданий альтернативных ответов дает вероятность угадывания 0,0313, а из десяти заданий - всего лишь 0,00098.

Проблема угадывания зависит и от времени, выделяемого на тестирование, и в меньшей степени, от мотивации. Чем выше мотивация, тем больше вероятность того, что испытуемый попытается дать ответ случайно на те вопросы, на которые он не успевает ответить, то есть попытается угадать. В свою очередь, количество вопросов, по которым возможно будет угадывание, зависит от времени, выделяемого на тестирование. Чем оно короче, тем больше будет вопросов, на которые распространится случайное угадывание. Таким образом, для времени, выделяемого на тестирование, должен быть найден баланс: недостаток его ведет к угадыванию, избыток - к подсказкам и ослаблению дисциплины.

Дата добавления: 2015-07-25; просмотров: 819 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Выборка стандартизированного педагогического теста	\|	Валидность тестовых результатов

mybiblioteka.su - 2015-2025 год. (0.011 сек.)