Читайте также:
|
|
Сформулируем задачу кластерного анализа:
· имеется 200 объектов (по количество доступных для построения моделей наблюдений) в 4х-мерном пространстве (x, y, factor1, factor2).
· переменную z мы отбросили (она зависит от всех остальных и заведомо не повлияет на качество кластеризации) Необходимо разбить эти объекты на ряд групп, таким образом:
· скорее всего, ввиду однородности, внутри каждого кластера зависимость z = f(x, y, factor1, factor2) будет непрерывной функцией
· построив для каждого из кластеров отдельную нейронную сеть, мы построим модель физического процесса.
Сравнение объектов.
· в рассматриваемом пространстве (x, y, factor1, factor2) ввести количеств. меру сходства между объектами
· кажется удобным введение евклидова расстояния - корень из суммы квадратов покоординатных разностей
Но различные независимые переменные могут измеряться в разных шкалах с различными диапазонами:
· значения одной переменной измеряются в сотнях и изменяются в пределах десяти
· другая переменная в среднем равна нулю и изменяется в пределах единицы =>
· вклад последней в евклидово расстояние будет пренебрежительно малым =>
· Нужна процедура стандартизации переменных - приведение всех переменных к единой шкале:
Стандартизация:
· данные изменяются в пределах нуля в диапазоне ±3
· большая часть всех значений будет принадлеж. интервалу (-1, 1)
· процедура стандартизации не изменяет структуру взаимодействий между переменными =>
· стандартизация не влияет на структуру кластеров
· стандартизация применима к переменным, измеряемым в непрерывной шкале
Cтандартизация непрерывной переменной:
· необходимо выделить соответствующий столбец
· нажать правую кнопку мыши
· из появившегося контекстного меню выбрать раздел Fill/Standardize Block - Заполнить/Стандартизовать Блок
· выполнить команду меню Standardize Columns - Стандартизовать столбцы
=>Эту процедуру необходимо выполнить для переменных x и y.
Стандартизация категориальных переменных:
· Переменная factor1 принимает значения только (s, m)
· переменная factor2 - значения (l, d)
· По умолчанию система STATISTICA уровням факторов этих переменных присвоила значения (101, 102)
· надо перекодировать, чтобы диапазон их изменения соответствовал диапазону изменения непрерывных переменных
Перекодировка каждой категориальной переменной:
· дважды кликнуть на ее названии в Таблице данных
· в появившемся диалоговом окне спецификаций переменных нажать кнопку Text Labels - Текстовые метки.
Рис.12. Изменение значений уровней факторов категориальной переменной.
· В разделе Numeric - Число диалогового окна Text Labels Editor - Редактор текстовых меток необходимо поставить значения -1 и 1 =>
· среднее категориальных переменных равно нулю
· диапазон значений сравним с диапазоном изменения непрерывных переменных
Замечание:
· округленный до целых результат формальной стандартизации категор. переменных приводит к тому же результату
· Но если просто выполнить стандартизацию категор. переменных, текстовые значения будут утеряны, что может привести к некорректным результатам.
Число кластеров:
· Эксперты, имеющие представление о природе процесса, могут предположительно указать на число кластеров
· существует агломеративный метод иерархической классификации, или иерархический кластерный анализ
Иерархический кластерный анализ:
· на первом шаге каждый объект выборки рассматривается как отдельный кластер
· Процесс объединения происходит последовательно:
· на основании матрицы расстояний объединяются наиболее близкие объекты
· Если матрица сходства первоначально имеет размерность mxm, то полностью процесс кластеризации завершается за m-1 шагов =>
· в итоге все объекты будут объединены в один кластер
Последоват-ть объединения м.б. представлена в виде графа - дерева (дендрограммы):
· На оси абсцисс - имена наблюдений
· по оси ординат, - расстояние объединения наблюдений в кластеры
· чем выше расположена ветвь дерева на дендрограмме, тем позднее было проведено объединение объектов.
Проведем иерархический кластерный анализ на стандартизованных данных:
· команды меню Statistics - Multivariate Exploratory Techniques - Cluster Analysis - Анализ - Многомерный разведочный анализ - Кластерный анализ
· В появившемся окне Clustering method - Методы кластеризации выберем Joining (tree clustering) - Иерархическая классификация
· нажмем ОК
· В окне Cluster Analysis: Joining (Tree Clustering) - Кластерный анализ: иерархическая классификация выберем вкладку Advanced – Дополнительно
· В качестве переменных для анализа выберем x, y, Factor1, Factor2
· В разделе Cluster - Объекты выберем Cases (Rows) - Наблюдения (строки)
· В качестве меры сходства в разделе Distance measure - Мера близости укажем Euclidian distances - Евклидово расстояние
· Остальные параметры оставим по умолчанию
· Вид диалогового окна со всеми нужными установками представлен на Рис.13.
Рис.13. Диалоговое окно задания параметров иерархической классификации.
· Нажмём ОК:
В появившемся окне результатов объединения:
· отменим опцию Rectangular Branches - Прямоугольные ветви и
· нажмем кнопку Vertical icicle plot - Вертикальная дендрограмма
· Результат построения графика - Рис.14.
Рис.14. Вертикальная дендрограмма древовидной классификации для переменных x, y, factor1, factor2.
древовидная диаграмма:
· отображает историю объединения объектов в кластеры
· Чем выше ветви дерева - графа, тем позднее объекты были объединены
· на Рис.14 отчетливо выделяются 4 ветви дерева, объединенные на одинаковой высоте
· Каждая из этих ветвей имеет продолжение в виде скоплений ветвей меньшей высоты – кучностей
· структура скоплений не обладает ярко выраженной иерархией.
· можно утверждать, что все множество данных хорошо разделяется на 4 кластера
· график показывает: однородность данных внутри кластера и максим. отдаленность самих кластеров достигнуты
Выявление переменных, "ответственных" за кластеризацию.
· Чем меньше переменных ответственны за разбиения данных на кластеры, тем легче понять физический разбиения. Проведем иерархическую классификацию для переменных всех переменных, кроме x
· Последовательность действий аналогична предыдущему анализу
· Результат кластеризации приведен в виде дендрограммы на Рис.15.
4
Рис.15. Вертикальная дендрограмма древовидной классификации для переменных y, factor1, factor2.
· Высота больших ветвей диаграммы осталась прежней ->расстояния между кластерами остались прежними.
· высоты скоплений ветвей уменьшились ->внутриклассовые различия стали значительно меньше =>
· в отсутствие переменной x получена более качественная кластеризация
Теперь необходимо разбить объекты по кластерам:
воспользуемся итеративной процедурой, методом к-средних
· процесс классификации начинается с задания начальных условий:
ü количество образуемых кластеров
ü центры этих кластеров
· каждое многомерное наблюдение совокупности относится к тому кластеру, центр которого ближе всех к этому наблюдению
· Затем выполняется проверка на устойчивость классификации
· Если классификация устойчива, процесс останавливается. В противном случае, происходит очередная процедура разбиения объектов по кластерам.
Выполним метод K-средних на стандартизованных данных:
· воспользуемся командами меню Statistics - Multivariate Exploratory Techniques - Cluster Analysis - Анализ - Многомерный разведочный анализ - Кластерный анализ
· В окне Clustering method - Методы кластеризации выберем К-means clustering - Кластеризация методом К-средних
· нажмем ОК
· В окне Cluster Analysis: К-means clustering - Кластерный анализ: кластеризация методом К-средних выберем вкладку Advanced – Дополнительно
· В качестве переменных для анализа выберем y, Factor1, Factor2
· В разделе Cluster - Объекты выберем Cases (Rows) - Наблюдения (строки)
· В поле Number of Clusters - Число кластеров введем 4
· Вид диалогового окна со всеми нужными установками представлен на Рис.16.
· нажмем ОК
· Вкладка Advanced - Дополнительно окна результатов - кнопка Save classifications and distances - Сохранить результаты классификации и расстояния
· В появившейся Таблице результатов скопируем переменную Cluster и добавим ее в исходный файл данных (Добавление переменных: дважды щёлкнуть мышью на пустой клетке строки названий переменных – окно - указать название)
· В строках данной переменной содержатся номера кластеров, к которым были отнесены многомерные объекты.
Кластеризация проведена.
Рис.16. Диалоговое окно задания параметров кластеризации методом K-средних.
Дата добавления: 2015-07-19; просмотров: 74 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Постановка задачи | | | Построение нейросетевого классификатора |