Агрегирование (Aggregation) 2 страница

⇐ ПредыдущаяСтр 2 из 4Следующая ⇒

В агломеративной кластеризации также формируется иерархическое дерево, но путем объединения объектов в более крупные кластеры из более мелких. Сначала каждый объект исходного множества рассматривается как отдельный кластер, затем ищутся два объекта, расстояние между которыми минимально, и объединяются в один и т. д. Данная процедура продолжается до тех пор, пока все объекты не будут собраны в единственный кластер.

Иерархическая модель данных (Data model hierarchy)

Совокупность элементов данных, связанных между собой по определенным правилам. Объекты, между которыми установлены иерархические отношения, образуют ориентированный граф (перевернутое дерево), возможный вид которого представлен на рисунке.

К основным понятиям иерархической структуры относятся: уровень, элемент (узел), связь. Узел – это совокупность атрибутов (признаков) данных, описывающих некоторый объект. На схеме иерархического дерева узлы представляются вершинами графа. Каждый из них на более низком уровне связан только с одним узлом, находящимся на более высоком.

Иерархическое дерево имеет единственный корень, не подчиненный никакому другому и находящийся на самом верхнем (первом) уровне. Зависимые (подчиненные) узлы расположены на втором, третьем и т. д. уровнях. Количество деревьев в базе данных определяется числом корневых записей.

К каждой записи базы данных существует только один (иерархический) путь от корневой записи. Например, как видно на рисунке, для записи С ₆ путь проходит через записи А и В _З.

Измерение (Dimension)

Синонимы: Ось, Axis

В контексте Data Mining это категориальные атрибуты, наименования и свойства объектов, участвующих в исследуемом бизнес-процессе. В качестве измерений могут выступать названия товаров, городов, фирм поставщиков или покупателей, ФИО людей и т. д. Значениями измерений могут быть и числа, если с их помощью представляются категории. Например, вместо наименований товаров могут использоваться их числовые коды.

Интеллектуальный анализ данных (Intelligent data analysis)

Синонимы: Сложный анализ данных

Общий термин для обозначения анализа данных, основанного на активном применении математических методов, таких как оптимизация, генетические алгоритмы, распознавание образов, статистика, Data Mining и т. д., а также использующих визуальное представление информации. Образно смысл сложного анализа может быть сведен к формулировке "получения информации из [исходных] данных". Иногда термин употребляется в качестве синонима «Data Mining».

Информационный подход к моделированию (Information approach to modelling)

В информационном подходе к моделированию, в отличие от аналитического, реальный объект рассматривается как «черный ящик», имеющий ряд входов и выходов, между которыми и формируются некоторые связи. Иными словами, известна только структура модели (например, нейронная сеть, линейная регрессия), а сами ее параметры «подстраиваются» под данные, которые описывают поведение объекта. Для их корректировки используется обратная связь – отклонение результата моделирования от действительности, а процесс настройки часто носит итеративный (т.е. цикличный) характер. Информационный подход лег в основу таких технологий анализа, как машинное обучение и Data Mining.

Искусственный интеллект (Artificial intelligence)

Раздел информатики, занимающийся вопросами имитации мышления человека с помощью компьютера, в рамках которого ставятся и решаются задачи аппаратного и программного моделирования тех видов человеческой деятельности, которые традиционно считаются интеллектуальными.

Термин «искусственный интеллект» (artificial intelligence) предложен в 1956 году на семинаре с аналогичным названием, который состоялся в США и был посвящен решению логических задач.

В настоящее время системы искусственного интеллекта широко применяются во всех областях информационных технологий: в банковском и страховом деле, распознавании образов (в том числе текста и речи), управлении производственными процессами, в военной технике, медицинской диагностике и т. д.

Одним из важнейших приложений данного направления являются системы управления знаниями и экспертные. Они моделируют мышление человека в процессе выбора и принятия решений.

Категориальные данные (Categorical Data)

Данные, качественно характеризующие исследуемый процесс или объект, не имеющие количественного выражения. Обычно представляют собой строковые значения из ограниченного набора категорий (например, названия городов, наименования товаров, ФИО сотрудников и клиентов и т.д.). В некоторых случаях могут использоваться и числа, кодирующие эти категории. При обработке таких данных применяются только операции сравнения: «равно» и «не равно», производится их упорядочивание, например, по алфавиту. Применение арифметических операций некорректно, даже если они представлены числами.

Качество данных (Data quality)

Характеристика данных, показывающая степень их пригодности к анализу. Основными критериями качества являются своевременность, точность, полнота и интерпретируемость.Оценка качества данных является необходимым шагом любого аналитического проекта, поскольку, если она низкая, то полученные решения, скорее всего, будут неточными, недостоверными.

Приведение исходных данных в соответствие с требуемыми критериями качества является важнейшей задачей Data Mining и образует целое направление, называемое предобработкой.

Качество данных исключительно важно для анализа, прогнозирования. Даже если каждая из систем, поставляющих данные для проекта, содержит лишь небольшой процент "плохих" данных, то при их объединении этот процент растет по экспоненциальному закону.

Квантование (Binning)

Синонимы: Дискретизация

Процесс обработки данных, который преобразует непрерывные данные в дискретные путем замены значений отрезками, каждый из которых представляет некоторый диапазон. Например, век можно преобразовать к такому виду: 20 или ниже, 21-40, 41-65, выше 65.

Классификация (Classification)

Задача разбиения множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. При этом решение получается на основе анализа значений атрибутов (признаков).

Классификация является одной из важнейших задач Data Mining. Она применяется в маркетинге при оценке кредитоспособности заемщиков, определении лояльности клиентов, распознавании образов, медицинской диагностике и многих других приложениях. Если аналитику известны свойства объектов каждого класса, то когда новое наблюдение относится к определенному классу, данные свойства автоматически распространяются и на него.

Если число классов ограничено двумя, то имеет место бинарная классификация, к которой могут быть сведены многие более сложные задачи. Например, вместо определения таких степеней кредитного риска, как «Высокий», «Средний» или «Низкий», можно использовать всего две - «Выдать» или «Отказать».

Для классификации в Data Mining используется множество различных моделей: нейронные сети, деревья решений, машины опорных векторов, метод k-ближайших соседей, алгоритмы покрытия и др., при построении которых применяется обучение с учителем, когда выходная переменная (метка класса) задана для каждого наблюдения. Формально классификация производится на основе разбиения пространства признаков на области, в пределах каждой из которых многомерные векторы рассматриваются как идентичные. Иными словами, если объект попал в область пространства, ассоциированную с определенным классом, он к нему и относится.

Кластеризация (Сlustering)

Синонимы: Сегментация

Объединение объектов или наблюдений в непересекающиеся группы, называемые кластерами, на основе близости значений их атрибутов (признаков). В результате в каждом кластере будут находиться объекты, похожие по своим свойствам друг на друга и отличающиеся от тех, которые расположены в других кластерах. При этом, чем больше подобие объектов внутри кластера и чем сильнее их непохожесть на объекты в других кластерах, тем лучше кластеризация.

Формальная постановка задачи кластеризации выглядит следующим образом. Пусть заданы множества объектов X = (x₁,x₂,...,x_n) и номеров (имён, меток) кластеров Y = (y₁, y₂,…y_k). Для X определена некоторая функция расстояния между объектами D(x,x’), например, метрика L₂. Кроме этого, имеется конечная выборка обучающих примеров X_m = (x₁,x₂,…,x_m) из множества X, которую требуется разбить на X_m на непересекающиеся подмножества (кластеры) так, чтобы каждое из них состояло бы только из элементов, близких по метрике D. При этом каждому объекту x_i из множества X_m присваивается номер кластера y_j.

Тогда задача будет заключаться в поиске функции f, которая любому объекту x из множества X ставит в соответствие номер кластера y из множества Y, которое само по себе бывает известно заранее. Однако в большинстве случаев приходится определять оптимальное число кластеров исходя из особенностей решаемой задачи.

Кластеризация позволяет добиться следующих целей:

Улучшает понимание данных за счет выявления структурных групп. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа.
Позволяет компактно хранить данные. Для этого вместо хранения всей выборки можно оставить по одному типичному наблюдению из каждого кластера.
Обнаружение новых нетипичных объектов, которые не попали ни в один кластер.

В Data Mining кластеризация используется для сегментации клиентов и рынков, медицинской диагностики, социальных и демографических исследований, определения кредитоспособности заемщиков и во многих других областях.

Консолидация (Consolidation)

Комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование к единому формату, в котором они могут быть загружены в хранилище данных или аналитическую систему.

Задача консолидации часто решается созданием хранилища данных.

Корреляционный анализ (Correlation analysis)

Совокупность методов обнаружения статистической взаимосвязи между случайными величинами или признаками. Корреляционный анализ для двух случайных величин заключает в себе:

Построение корреляционного поля и составление корреляционной таблицы;
Вычисление выборочных коэффициентов корреляции и корреляционных отношений;
Проверка статистической гипотезы значимости связи.

Дальнейшее исследование заключается в установлении конкретного вида зависимости между величинами и составляет предмет задач, решаемых регрессионным анализом.

Куб (Cube)

Синонимы: Гиперкуб, Hypercube

Многомерная конструкция, сформированная соединением нескольких измерений. Каждая ячейка (cell) определена отдельным членом из каждого измерения (dimension).

Представление информации о продажах различных товаров в разрезе городов и с разбивкой по месяцам.

Масштабируемый алгоритм (Scalable Algorithm)

Алгоритм машинного обучения можно назвать масштабируемым, если его вычислительные затраты растут прямо пропорционально увеличению объема обрабатываемых данных, т.е. при увеличении объема данных в 2 раза число вычислительных операций также увеличивается в 2 раза. Кроме того, в аналитических технологиях масштабируемость предполагает следующие свойства алгоритма:

Однопроходность – алгоритм должен использовать не более одного прохода БД, при этом желательно досрочно завершать проход.
Возможность отсечения по времени – алгоритм должен быть способен выдать наилучшее на данный момент решение в любое время, даже если процесс вычислений не доводится до естественной остановки.
Прерываемость и продолжаемость – алгоритм должен предусматривать возможность временной приостановки и продолжения работы. Промежуточные результаты должны быть сохраняемы с возможностью дальнейшего продолжения вычислений, а может быть, с использованием новых данных.
Ограниченность по объему требуемой памяти – алгоритм должен работать в пределах ограниченного объема памяти компьютера, выделяемого пользователем.
Однонаправленность – при проходе базы данных последовательность считывания записей производится только в одном направлении. Такой режим работы называется режимом однонаправленного указателя, когда указатель движется только вперед и без возможности обратного перемещения.

Метаданные (Metadata)

В широком смысле данный термин используется для любой информации о данных, их структуре и содержании: о именах таблиц и полей в реляционных базах данных, о типах полей, связях и отношениях, форматах и составе данных, их содержании, статусе, местонахождении, качестве, формах представления, условиях доступа и т.д.

Типичным примером метаданных является таблица размещения файлов (FAT) на дисковых накопителях ПК, которая содержит информацию об именах файлов и их расположении на диске. В книге метаданные включают информацию об издании и авторах, содержание, алфавитный указатель и т.д. Основной особенностью метаданных является то, что самостоятельной ценности они не имеют, а нужны только как средство описания структуры, содержания и организации доступа к «настоящим данным».

Одно из основных назначений метаданных - повышение эффективности поиска. Поисковые запросы, использующие метаданные, делают возможным выполнение достаточно сложных операции по фильтрации и отбору данных.

В Data Mining метаданные играют важнейшую роль в организации и управлении хранилищами данных. Они содержат всю информацию, необходимую для извлечения, преобразования и загрузки данных из различных источников, а также для последующего использования и интерпретации сведений, содержащихся в хранилище.

С точки зрения хранилищ данных можно выделить два типа метаданных – технические и бизнес-метаданные. Первые необходимы для обеспечения функционирования хранилища (статистика загрузки данных и их использования, описание модели данных и т.д.). Вторые же обеспечивают возможность для пользователя концентрироваться на процессе анализа, а не на технических аспектах работы с хранилищем, содержат бизнес-термины и определения, которыми привык оперировать пользователь. Фактически бизнес-метаданные представляют собой описание предметной области, для работы в которой создается аналитическая система или хранилище данных. К формированию бизнес-метаданных должны активно привлекаться эксперты и аналитики, которые впоследствии и будут использовать систему для получения аналитических отчетов.

Метод (Method)

В любой науке различают метод и методику. Метод в широком смысле слова – это подход к изучению реальной действительности, к исследованию явлений природы и общества. Метод – это принципиальная теоретическая основа науки, в отличие от методики - совокупность специфических приемов и способов исследования.

Метод k-ближайших соседей (K-nearest neighbor)

Метод решения задачи классификации, который относит объекты к классу, которому принадлежит большинство из k его ближайших соседей в многомерном пространстве признаков. Это один из простейших алгоритмов обучения классификационных моделей. Число k – это количество соседних объектов в пространстве признаков, которое сравнивается с классифицируемым объектом. Иными словами, если k = 10, то каждый объект сравнивается с 10-ю соседями. Метод широко применяется в технологиях Data Mining для решения задач классификации.

В процессе обучения алгоритм просто запоминает все векторы признаков и соответствующие им метки классов. При работе с реальными данными, т.е. наблюдениями, метки класса которых неизвестны, вычисляется расстояние между вектором нового наблюдения и ранее запомненными. Затем выбирается k ближайших к нему векторов, и новый объект относится к классу, которому принадлежит большинство из них.

Выбор параметра k противоречив. С одной стороны, увеличение его значения повышает достоверность классификации, но при этом границы между классами становятся менее четкими. На практике хорошие результаты дают эвристические методы выбора параметра k, например, перекрестная проверка.

Несмотря на свою относительную алгоритмическую простоту метод показывает хорошие результаты. Главным его недостатком является высокая вычислительная трудоемкость, которая увеличивается квадратично с ростом числа записей в наборе данных.

Метод k-средних (C-means)

Алгоритм разделительной кластеризации, основанный на разбиении множества элементов векторного пространства на заранее определенное число кластеров k. Алгоритм представляет собой итерационную процедуру, в которой выполняются следующие шаги.

Выбирается число кластеров k.
Из исходного множества данных случайным образом выбираются k записей, которые будут служить начальными центрами кластеров.
Для каждой записи исходной выборки определяется ближайший к ней центр кластера. При этом записи, «притянутые» определенным центром, образуют начальные кластеры.
Вычисляются центроиды – центры тяжести кластеров. Каждый центроид – это вектор, элементы которого представляют собой средние значения признаков, вычисленные по всем записям кластера. Затем центр кластера смещается в его центроид.

Затем 3-й и 4-й шаги итеративно повторяются. Очевидно, что на каждой итерации происходит изменение границ кластеров и смещение их центров. В результате минимизируется расстояние между элементами внутри кластеров. Остановка алгоритма производится тогда, когда границы кластеров и расположения центроидов не перестанут изменяться от итерации к итерации, т.е. на каждой итерации в каждом кластере будет оставаться один и тот же набор записей. На практике алгоритм обычно находит набор стабильных кластеров за несколько десятков итераций.

Преимуществом алгоритма являются быстрота и простота реализации. К его недостаткам можно отнести неопределенность выбора начальных центров кластеров, а также то, что число кластеров должно быть задано изначально, что может потребовать некоторой априорной информации об исходных данных.

Метод скользящего окна (Windowing method)

Синонимы: Метод кадрирования

Метод используется при работе с моделями с использованием временных последовательностей данных. Окно - это период времени, используемый для каждого случая обучения. Например, если мы еженедельно получаем данные о цене в течение 50 недель, и мы установили окно в 5 недель, то в первом случае обучения используются данные с 1 по 5 неделю и полученный прогноз сравниваем с данными за 6 неделю. Во втором случае используются данные со 2 по 6 неделю и полученный прогноз сравнивается с 7 и т.д.

Многомерная база данных (Multi- dimensionalDatabase)

Синонимы: СУMБД

Мощная база данных со специальной организацией хранения - кубами, позволяющая пользователям анализировать большие объемы данных. Многомерная база данных позволяет обеспечивать высокую скорость работы с данными, хранящимися как совокупность фактов, измерений и заранее вычисленных агрегатов.

Множество обучающее (Training set)

Синонимы: Выборка обучающая

Структурированный набор данных, применяемый для обучения аналитических моделей - нейронных сетей, деревьев решений, карт Кохонена и др. Каждая запись обучающего множества представляет собой обучающий пример, содержащий заданное входное воздействие и соответствующий ему правильный выходной (целевой) результат. Фактически, обучающее множество представляет собой функцию, заданную таблично парами входных и выходных векторов [(X ₁ Y ₁),(X ₂ Y ₂),...,(X _k Y _k)]. После обучения модель должна реализовывать эту функцию. Например, обучающее множество для обучения умножению и сложению будет содержать четыре переменных – две входных и две выходных. Входными переменными будут два числа (аргумента) x ₁ и x ₂, которые требуется умножить или сложить, а выходными переменными будут y ₁ и y ₂ - правильные результаты сложения и умножения. Для решения задачи классификации, обучающая выборка должна содержать объекты для которых априорно известен класс.

Обучающее множество должно удовлетворять нескольким требованиям:

отражать правила и закономерности исследуемого процесса, которые должна обнаружить модель и по которым должно строится отображение вход-выход;
быть репрезентативной, т.е. содержать достаточное количество уникальных примеров, как можно более полно отражающих закономерности исследуемого процесса.
удовлетворять определенным критериям качества
не содержать дубликатов и противоречий, пропусков и аномальных значений. Наличие данных факторов снижает качество обучения модели.

Множество тестовое (Test set)

Синонимы: Выборка тестовая

Подмножество обучающей выборки, содержащее тестовые примеры, т.е. примеры, использующиеся не для обучения модели, а для проверки его результатов.

Примеры тестового множество так же, как и обучающего, предъявляются модели в процессе обучения, но не используются для подстройки ее параметров. Цель применения тестового множества – проверить, как обученная модель будет работать с новыми данными, т.е. приобрела ли она способность к обобщению. Ошибка модели, полученная на тестовом множестве, называется ошибкой обобщения.

Если ошибки на тестовом и обучающем множествах достаточно малы, то это с достаточной долей уверенности позволяет утверждать, что модель приобрела способность к обобщению и может использоваться для работы с новыми данными. Если малая ошибка достигнута только на обучающем множестве, а на тестовом она велика, то это позволяет предположить низкую способность к обобщению.

Обычно, тестовое множество формируется путем случайной выборки из исходного множества данных. Что касается размеров тестового множества, то никаких особых рекомендаций на этот счет не существует. При разделении исходной выборки на обучающее и тестовое множества, главное – обеспечить репрезентативность обучающего множества, а все оставшиеся примеры можно использовать в качестве тестовых. Однако если объем исходной выборки недостаточен для формирования обучающего и тестового множеств, то использую специальные методы, такие как перекрестная проверка, перекрестная проверка без одного примера, бустрэп-выборка и т.д.

Кроме этого, ошибка на тестовом множестве позволяет не допустить переобучения модели. Если ошибка на обучающем множестве монотонно падает, то на тестовом множестве, после некоторого числа итераций, она может начать взрастать, что говорит о переобучении модели. Поэтому, чтобы избежать переобучения, целесообразно остановить обучения, как только ошибка на тестовом множестве начинает возрастать.

Моделирование (Modelling)

Исследование объектов и процессов на их моделях, построение и изучение моделей реально существующих объектов, процессов и явлений с целью обнаружения закономерностей их развития и предсказания их состояния в будущем.

Поскольку само понятие «модель» в науке и технике не имеет однозначного определения, то и классификация видов моделирования также неоднозначная. Её можно проводить по характеру моделей, по характеру моделируемых объектов и процессов, по прикладным областям (в технике, физических науках, экономике и т. д.). Широко известны такие виды моделирования, как информационное, компьютерное, математическое, статистическое, физическое, имитационное, натурное и многие другие.

В основе процесса моделирования лежат три базовых понятия: субъект (исследователь), объект исследования и модель, определяющую отношения познающего субъекта и познаваемого объекта. Первый этап моделирования предполагает наличие некоторых априорных знаний об объекте исследования. Познавательные возможности модели обусловливаются тем, что модель отображает (воспроизводит, имитирует) какие-либо важные свойства исследуемого объекта. Вопрос о необходимой и достаточной мере сходства объекта и модели требует дополнительного анализа. Очевидно, что модель бессмысленна как в случае тождества с исходным объектом (тогда она перестает быть моделью), так и в случае чрезмерного отличия от него. Таким образом, изучение одних сторон моделируемого объекта осуществляется ценой отказа от исследования других сторон. Поэтому любая модель замещает оригинал лишь в строго ограниченном смысле. Из этого следует, что для одного объекта может быть построено несколько «специализированных» моделей, концентрирующих внимание на определенных сторонах исследуемого объекта или же характеризующих объект с разной степенью детализации.

На втором этапе модель выступает как самостоятельный объект исследования. Одной из форм такого исследования является проведение «модельных» экспериментов, при которых сознательно изменяются условия функционирования модели и систематизируются данные о ее «поведении». Конечным результатом этого этапа является совокупность знаний о модели.

На третьем этапе осуществляется перенос знаний с модели на объект моделирования. Процесс переноса знаний проводится по определенным правилам. Знания о модели должны быть скорректированы с учетом тех свойств объекта, которые не нашли отражения или были изменены при построении модели.

Четвертый этап — практическая проверка получаемых с помощью моделей знаний и их использование для построения обобщающей теории объекта, его преобразования или управления им. Моделирование — циклический процесс. Это означает, что за первым четырехэтапным циклом может последовать второй, третий и т.д. При этом знания об исследуемом объекте расширяются и уточняются, а исходная модель постепенно совершенствуется. Недостатки, обнаруженные после первого цикла моделирования, обусловленные малым знанием объекта или ошибками в построении модели, можно исправить в последующих циклах.

В аналитических технологиях Data Mining моделирование играет ключевую роль. Использование аналитических моделей, описывающих различные экономические и бизнес-процессы, позволяют не только исследовать действующие в них правила и закономерности, но и принимать управленческие решения на основе полученных знаний.

Моделирование данных (Data Modelling)

Метод, используемый для определения и анализа требований к данным, необходимым для поддержки бизнес-функций организации. Эти требования записываются как концептуальная модель данных с конкретными определениями. Модель представления данных является организационно-функциональным срезом модели системы, а при ее разработке последовательно изучаются:

распределение пользователей системы: географическое, организационное, функциональное;
доступ к данным: объем данных, необходимый для анализа, уровень агрегированности данных, источники данных (внешние или внутренние), описание информации, совместно используемой различными функциональными группами предприятия;
аналитические характеристики системы: измерения данных, основные отчеты, последовательность преобразования аналитической информации, степень предопределенности анализа, существующие или находящиеся в стадии разработки средства анализа.

Дата добавления: 2015-08-27; просмотров: 408 | Нарушение авторских прав

⇐ Предыдущая 123 4 Следующая ⇒

mybiblioteka.su - 2015-2024 год. (0.021 сек.)

<== предыдущая лекция

следующая лекция ==>