Методы снижения размерности

Читайте также:

В статистических исследованиях часто приходиться сталкиваться с ситуациями, когда общее число p признаков, регистрируемых на каждом из n обследуемых объектов (стран, городов, предприятий, семей, индивидуумов, технических систем и т.д.) очень велико – порядка100 и более.

Однако имеющиеся наблюдения , следует подвергнуть статистической обработке, осмыслить, ввести в базу данных и т.д.

Естественно, желание исследователя представить каждое из наблюдений X_i в виде вектора , где p′«p бывает, в частности, обусловлено следующими причинами:

ü необходимость наглядного представления (визуализации) исходных данных, что достигается их проецированием на специальным образом подобранное трёхмерное пространство (p′=3), плоскость (p′=2) или прямую (p′=1);

ü стремление к лаконизму исследуемых моделей, вызванному необходимостью упрощения счёта и интерпретации полученных данных;

ü необходимость существенного сжатия объёмов хранимой статистической информации без видимых потерь в её информативности.

Новые (вспомогательные) признаки могут выбираться из числа исходных или определяться по совокупности исходных признаков (например, как их линейная комбинация).

Имеются следующие основные типы предпосылок, обуславливающих возможность перехода от большого числа p исходных показателей состояния анализируемого объекта к существенно меньшему числу p′ наиболее информативных переменных:

ü дублирование информации, доставляемой сильно взаимосвязанными признаками;

ü неинформативность признаков, мало меняющихся при переходе от одного объекта к другому (малая вариабельность признаков);

ü возможность агрегирования (т.е. простого или взвешенного суммирования) некоторых признаков.

При формировании новой системы признаков к ним предъявляются разного рода требования: наибольшая информативность, взаимная некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т.д.

Формальное описание перехода от исходного набора признаков к новому ”наилучшему” таково:

Пусть (1.1)

– некоторая p′ – мерная (p′≤p) функция от исходных переменных: F_p_′={F_p_′(x)}-класс допустимых преобразований, F_p_′: X®Z_p_′(при p′ =p индекс p′ внизу будем опускать), а J_p_′(F_p_′(x))-некоторый функционал –определённым образом заданная мера информативности p′- мерной системы признаков.

Тогда задача заключается в нахождении такого набора признаков , что при фиксированном p′ J_p_′(F(x))=extr{J_p_′(F_p_′(x))}(1.2), Z_p_′Î F_p_′.

Тот или иной вариант выбора меры информативности J_p′ (Z(x)) и класса допустимых преобразований F приводит к конкретному методу снижения размерности: методу главных компонент, факторному анализу и т.д. При этом, большинство методов снижения размерности базируется на линейных моделях, т.е. класс допустимых преобразований F(x)- это класс линейных преобразований исходных переменных.

Дата добавления: 2015-07-24; просмотров: 126 | Нарушение авторских прав

Читайте в этой же книге: Методы многомерных классификаций. | Функционалы качества разбиения при неизвестном числе классов | Функция потерь и вероятность неправильной классификации | Вычисление главных компонент. | У линейного преобразования могут отсутствовать собственные векторы | Основные числовые характеристики главных компонент и критерий информативности метода главных компонент | Сущность модели факторного анализа | Общий вид линейной модели. Ее связь с главными компонентами |

<== предыдущая страница	\|	следующая страница ==>
Построение оптимальных процедур классификации	\|	Метод главных компонент

mybiblioteka.su - 2015-2024 год. (0.007 сек.)