Читайте также:
|
|
В статистических исследованиях часто приходиться сталкиваться с ситуациями, когда общее число p признаков, регистрируемых на каждом из n обследуемых объектов (стран, городов, предприятий, семей, индивидуумов, технических систем и т.д.) очень велико – порядка100 и более.
Однако имеющиеся наблюдения , следует подвергнуть статистической обработке, осмыслить, ввести в базу данных и т.д.
Естественно, желание исследователя представить каждое из наблюдений Xi в виде вектора , где p′«p бывает, в частности, обусловлено следующими причинами:
ü необходимость наглядного представления (визуализации) исходных данных, что достигается их проецированием на специальным образом подобранное трёхмерное пространство (p′=3), плоскость (p′=2) или прямую (p′=1);
ü стремление к лаконизму исследуемых моделей, вызванному необходимостью упрощения счёта и интерпретации полученных данных;
ü необходимость существенного сжатия объёмов хранимой статистической информации без видимых потерь в её информативности.
Новые (вспомогательные) признаки могут выбираться из числа исходных или определяться по совокупности исходных признаков (например, как их линейная комбинация).
Имеются следующие основные типы предпосылок, обуславливающих возможность перехода от большого числа p исходных показателей состояния анализируемого объекта к существенно меньшему числу p′ наиболее информативных переменных:
ü дублирование информации, доставляемой сильно взаимосвязанными признаками;
ü неинформативность признаков, мало меняющихся при переходе от одного объекта к другому (малая вариабельность признаков);
ü возможность агрегирования (т.е. простого или взвешенного суммирования) некоторых признаков.
При формировании новой системы признаков к ним предъявляются разного рода требования: наибольшая информативность, взаимная некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т.д.
Формальное описание перехода от исходного набора признаков к новому ”наилучшему” таково:
Пусть (1.1)
– некоторая p′ – мерная (p′≤p) функция от исходных переменных: Fp′ ={Fp′ (x)}-класс допустимых преобразований, Fp′ : X®Zp′ (при p′ =p индекс p′ внизу будем опускать), а Jp′(Fp′ (x))-некоторый функционал –определённым образом заданная мера информативности p′- мерной системы признаков.
Тогда задача заключается в нахождении такого набора признаков , что при фиксированном p′ Jp′ (F(x))=extr{Jp′ (Fp′ (x))}(1.2), Zp′ Î Fp′.
Тот или иной вариант выбора меры информативности Jp′ (Z(x)) и класса допустимых преобразований F приводит к конкретному методу снижения размерности: методу главных компонент, факторному анализу и т.д. При этом, большинство методов снижения размерности базируется на линейных моделях, т.е. класс допустимых преобразований F(x)- это класс линейных преобразований исходных переменных.
Дата добавления: 2015-07-24; просмотров: 126 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Построение оптимальных процедур классификации | | | Метод главных компонент |