Читайте также: |
|
Может возникнуть ситуация, когда единственное аномально большое (или малое) значение частоты в ячейке введет в заблуждение относительно взаимосвязи, существующей между переменными. Иногда такая частота может появиться из-за простой описки, в иных случаях она обусловливается действием какой-то другой переменной, не включенной в рассматриваемую модель. В любом случае было бы полезно иметь какие-нибудь подходящие простые методы выявления таких наблюдений, чтобы объяснить, почему та или иная модель не обеспечивает хорошего описания данных.
Наши данные содержат результаты счета. Всякая аномалия проявляется как соразмерно большое несоответствие между наблюдаемыми
[86]
и ожидаемыми частотами. Разница в 100 будет не существенной, когда мы сравниваем 12000 и 12100, но она будет весьма значимой, попа-дись нам величины 12 и 112. Значит, нужен такой способ оценки таких различий, который учитывал бы их величины в общем итоге. Хейбермен [Haberman S. Т., 1973] предложил для таких разностей остатков множество возможных определений, простейшее среди кото-рых имеет вид:
(8.1)
где r - нормированный остаток, а f и e соответственно наблюдаемые и ожидаемые частоты ячеек. Эта величина имеет приблизительно нормальное распределение со средним 0 и дисперсией 1, хотя мы и должны заметить, что остатки в различных ячейках будут безусловно как-то коррелировать между собой. Одно из следствий определения (8.1) заключается в том, что существует удобная связь с обычной статис-тикой для проверки качества X2, ибо
X2 = . (8.2)
по всем
ячейкам
Нелдер [Nelder J. А., 1974) сослался на иное определение, предложенное Энскамби [Anscombe F. J., 1953] и имеющее претензию на более близкое соответствие нормальному закону. Вот эта величина:
(8.3)
но поскольку (8.1) проще, мы предпочитаем в дальнейшем пользовать-ся величиной r.
Для примера обратимся к данным из табл. 7.6, и в частности к ячейке (1, 1, 2, 1, 2), где мы сравнивали наблюдаемую частоту 21 с ожидаемой частотой 33,8, что соответствует модели 18. Соответствующая этой разнице нормированная величина остатка есть (21 -33,8)/ =-2,2. Это очень большая величина. Если мы обратимся к таблицам нормального распределения, то увидим, что менее 3% величин, отобранных случайно из нормального распределения (нормированного), имеют шансы получить такое (или еще боль-шее) отклонение от среднего 0. Однако, во-первых, наш выбор наблюдения не был случайным, а относился к самому большому из нор-мированных остатков, во-вторых, 3% - это примерно 1 из 33, а у нас есть 32 остатка (по одному на каждую ячейку). Следовательно, у нас нет серьезных оснований, чтобы бить тревогу, и мы вполне можем принять, что имеем дело с обычным отклонением от модели.
С тем же успехом, как и при выявлении аномальных частот ячеек, вычисление остатков может помочь и при выявлении структуры в дан-ных, которую мы могли бы так или иначе использовать. Так, например, если какая-нибудь переменная имеет несколько категорий, а не просто две, то может существовать некоторый вид тренда относитель-но этих категорий, не учитываемый нашей моделью. Понятно, что
[87]
в этом случае нам следует скорректировать модель соответствующим образом.
Обычный метод, используемый Хейберменом [Haberman S. Т., 1973], предполагает построение графиков нормированных остатков на милли-метровке (с вероятностной шкалой). Если этот график не противоречит значениям, извлеченным из нормального распределения, то его точки должны ложиться примерно на прямую. Отклонения от прямой говорят о наличии одной или нескольких аномальных точек. Этот прием был первоначально предложен Дэниелом [Daniel С., 1959] для дисперсионного анализа квантифицированных данных, и совсем недавно распространен на наши задачи Заном [Zahn D. А., 1975]. Приложе-ния к частотным данным описаны у Кокса и Лоха [Сох D. R., Lauh Е., 1967] и Файнберга [Fienberg S. Е., 1969], а также у Хейбермена.
Дата добавления: 2015-09-01; просмотров: 48 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
ОТСЕИВАНИЕ | | | МУЛЬТИПЛИКАТИВНАЯ ФОРМА ЛОГАРИФМИЧЕСКИ-ЛИНЕЙНОЙ МОДЕЛИ |