Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

В. Надежность и ошибка измере­ния.



Читайте также:
  1. А 3. В каких предложениях допущена ошибка в употреблении имени числительного?
  2. БЛИЗКИЙ К СМЕРТЕЛЬНОМУ НЕСЧАСТНЫЙ СЛУЧАЙ. НИ ОДИН ЭКСПЕРИМЕНТ НЕ ЕСТЬ ОШИБКА
  3. В. Надежностьи ошибка измере­ния.
  4. Валидность ≤ Надежность, что означает, что валидность не может превышать надежность теста.
  5. Валидность < надежность
  6. Вторая роковая ошибка Светлых Сил

Надежность — характеристика мето­дики, отражающая точность психодиаг­ностических измерений, а также устой­чивость результатов теста к действию по­сторонних случайных факторов.

В основе анализа надежности теста лежит представление об истинных оценках и ошибках измерения. Распределение оценок, полученных на генеральной сово­купности при выполнении теста, изме­ряющего одну характеристику, теорети­чески должно подчиняться нормальному закону. Поэтому при разработке теста ис­следователю необходимо отбирать зада­ния таким образом, чтобы распределение реальных тестовых оценок было по воз­можности близко к нормальному.

Для определения ошибки измерения используются на практике корреляцион­ные методы, позволяющие определить надежность через устойчивость и согла­сованность результатов. Классические методы оценки коэффициентов надежно­сти требуют корреляции по меньшей мере двух совокупностей сходных изме­рений.

Один из методов получения двух сово­купностей измерений — это ретестирование (повторное обследование одной и той же выборки испытуемых). Несмотря на простоту и возможность определения ус­тойчивости результатов теста в течение времени, дефект метода в том, что субъект помнит свои ответы, и в случае тестов спо­собностей это может существенно влиять на повторные ответы.

Если мы желаем исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, То можем использовать две совокупности заданий, разработанных или ото­бранных по одной системе. Это — парал­лельные тесты. Недостатком в данном слу­чае является то, что очень трудно постро­ить на практике параллельные формы од­ного и того же теста.

Если желательно изучить только вли­яние содержания выборки без влияния запоминания или вариативности ответов во времени или если практически нецеле­сообразно проводить две параллельные формы в разное время, надежность может быть оценена проведением одного теста без ограничения во времени. В данном случае тест может быть разделен на две равные части. Полученные показатели по двум частям теста коррелируются обыч­ным методом. Но эта корреляция отража­ет лишь надежность половины теста. Для вычисления надежности всего теста по методу расщепления используют формулу Спирмена—Брауна.

Оценка надежности на основе одно­кратного тестирования может быть полу­чена путем использования формулы, изве­стной как коэффициент альфа.

Рекомендуется также оценить надеж­ность теста относительно эксперимента­тора как оценщика и как эксперимента­тора.

Из предыдущего видно, что различные методы оценивания надежности исходят из различных источников ошибок. Так, на результаты ретестирования влияет не только случайная вариативность ответов или изменение субъектов во времени, но также различия в поведении (особенно если ретестирует другое лицо). Коэффи­циенты надежности, основанные на одно­кратном тестировании, исключают вариа­тивность ответов во времени, т. е. влияние ответов на баллы не проявляется как ошибка измерения. Следовательно, «коэф­фициент надежности» — обобщенный тер­мин. Он может основываться на разных типах свидетельств — каждый тип пред­полагает иной смысл. Очень важно, что­бы метод, использованный для получения коэффициента надежности, был четко описан.

Автору теста рекомендуется в руко­водстве описать значение любого коэффи­циента насколько возможно точно. Напри­мер, высказывание: «Этот коэффициент показывает стабильность измерения экви­валентных баллов, основанных на парал­лельных формах тестов, проведенных с промежутком в 7 дней, при этом научение испытуемых исключается» хотя и длин­ное, но свободно от двусмысленности.

Коэффициенты надежности имеют ог­раниченную практическую ценность для пользователей теста. Стандартная ошиб­ка измерения обычно более полезна, т. к. обладает относительной независимостью и может быть использована для установ­ления пределов определенной вероятнос­ти балла. Пользователи теста могут упот­ребить коэффициент надежности для срав­нения тестов, но для интерпретации тес­товых баллов используется стандартная ошибка измерения.

 

* * *

В.1. В руководстве к тесту должны быть достаточно подробно описаны проце­дуры и выборки, использованные для оп­ределения коэффициентов надежности, сами коэффициенты и ошибки измерения, что позволит пользователю судить о том, в какой степени эти параметры приложимы к лицам или группам, с которыми он имеет дело. Если некоторые из необходи­мых данных не были получены, то отсут­ствие такой информации должно быть от­мечено. (Существенно.)

Комментарий. Для пользователя важно получить несколько типов оценки надежности. Полезным является сообще­ние стандартных ошибок измерения, по­лученных в разных группах. Следует при­вести среднее значение и дисперсию вы­борки и информацию о ее составе. Надеж­ность теста, предназначенного для отбора работников, проверяется при тестирова­нии кандидатов на должность, а не школь­ников или уже работающих. Если указыва­ется, что тест пригоден для различных воз­растных групп, следует привести данные о надежности для каждого класса или возра­ста. Авторы и публикаторы тестов должны избегать необщепринятых статистических процедур, если применимы традиционные. Если представлен необщепринятый статистический анализ, он должен быть объяс­нен так, чтобы свести к минимуму вероят­ность ошибочной интерпретации.

В. 1.1. В руководстве к тесту следует представить, насколько это возможно, количественный анализ всех факторов, снижающих надежность измерения: не­согласованность ответов субъекта; несогласованность или неоднородность внутри выборки содержания теста (стимульные задания, вопросы, ситуации и др.); несог­ласованность в проведении теста; несог­ласованность между оценщиками, экспер­тами или единицами математического ап­парата; механические ошибки при выставлении баллов. (Желательно.)

Комментарий. Подобный анализ может быть неосуществим, если результа­ты теста выражены не в количественной форме, а в категориальной или непарамет­рической.

Для группы тестов школьных дости­жений основными источниками ошибок, подлежащих оценке, являются: а) несог­ласованность в содержании теста; б) не­согласованность в проведении теста; в) нестабильность ответов испытуемых. Сбор данных производится для оценки этих трех факторов. Колебания или несогласо­ванность ответов субъекта сами по себе могут быть важной переменной. Они час­то бывают главными источниками подле­жащей оцениванию случайной ошибки. Также должна быть оценена несогласо­ванность между оценщиками.

В.1.2. Стандартные ошибки измерений и коэффициенты надежности должны при­водиться как для итогового балла, так и для его частей, комбинаций баллов (сумм, разниц, производных показателей), если они рекомендованы в руководстве к тесту (явно или неявно) для практического ис­пользования, за исключением опытных и экспериментальных. (Существенно.)

В.1.3. В руководстве должно быть ука­зано минимальное различие между двумя баллами, обычно требуемое для статис­тической значимости на определенном уровне. (Очень желательно.)

В.1.4.В руководстве должны быть опи­саны все характеристики выборки, кото­рые могут оказывать влияние на надеж­ность оценивания. (Существенно.)

Комментарий. В руководстве следует отразить такую демографическую информацию, как распределение субъек­тов по возрасту, полу, экономическому и интеллектуальному уровню, трудовому статусу или прошлой трудовой деятель­ности, месту жительства. Для стандар­тизированных тестов при вычислении коэффициентов надежности выборку сле­дует формировать случайным образом из генеральной совокупности.

В. 1.5. Если тест рекомендован или обычно используется в однородных под­группах, для каждой из них независимо должна быть исследована надежность и ошибка измерений, и это должно быть сообщено в руководстве к тесту. (Суще­ственно.)

В. 1.6. В руководстве к тесту должна быть сообщена стандартная ошибка изме­рения для разных уровней баллов. (Жела­тельно.)

Комментарий. В руководстве к одному тесту способностей сообщаются стандартные ошибки для трех уровней баллов: на уровне среднего балла, на уров­не одного стандартного отклонения выше среднего и на уровне одного стандартного отклонения ниже среднего. Так как наибо­лее существенные вариации ошибок изме­рения связаны с крайними баллами, луч­ше опираться, если позволяет количество доступных случаев, на более широкий ди­апазон уровней баллов.

В. 1.7. Неизвестные статистические характеристики данных должны быть опи­саны со ссылками на литературные источ­ники, отражающие разработку. (Суще­ственно.)


Дата добавления: 2015-07-10; просмотров: 141 | Нарушение авторских прав






mybiblioteka.su - 2015-2024 год. (0.006 сек.)