Агрегирование (Aggregation) 3 страница

Модель(Model)

Слово "модель" (от лат. modelium) означает "мера", "способ", "сходство с какой-то вещью".

Материальный или мысленно представляемый объект или явление, замещающий исследуемый объект или явление, сохраняя только те его свойства, которые являются важными с точки зрения решаемой задачи.

Нейрон искусственный (Artificial neuron)

Синонимы: Нейрон формальный, Neuron, Node

Элемент, который вычисляет взвешенную сумму входов X и прибавляет смещение, а затем значение активационной функции f(s), то есть выход (передающий сигнал) нейрона.

где N - размерность входного вектора.

Нейронная сеть (Neural network)

Синонимы: Нейросеть, Искусственная нейронная сеть, Neural net

Нейронная сеть представляет собой совокупность нейроподобных элементов, определенным образом связанных друг с другом и внешней средой с помощью связей, определяемых весовыми коэффициентами. В процессе функционирования сети осуществляется преобразование входного вектора в выходной, некоторая переработка информации.

Конкретный вид выполняемого сетью преобразования данных обуславливается не только характеристиками нейроподобных элементов, но и особенностями ее архитектуры, а именно топологией межнейронных связей, выбором определенных подмножеств нейроподобных элементов для ввода и вывода информации, способами обучения сети, наличием или отсутствием конкуренции между нейронами, направлением и способами управления и синхронизации передачи информации между нейронами.

Наиболее часто нейронные сети используются для решения следующих задач:

Классификация образов - указание принадлежности входного образа, представленного вектором признаков, одному или нескольким предварительно определенным классам.
Кластеризация - классификация образов при отсутствии обучающей выборки с метками классов.
Прогнозирование - предсказание значения y(t_n+1) при известной последовательности y(t₁), y(t₂)... y(t_n).
Оптимизация - нахождение решения, удовлетворяющего системе ограничений и максимизирующим или минимизирующим целевую функцию.
Память, адресуемая по содержанию (ассоциативная память) - память, доступная при указании заданного содержания.
Управление - расчет такого входного воздействия на систему, при котором она следует по желаемой траектории.

Непрерывные данные (Continuous data)

Данные, значения которых могут принимать какое угодно значение в некотором интервале. Над непрерывными данными можно производить арифметические операции сложения, вычитания, умножения, деления, и они имеют смысл. Примерами непрерывных данных являются: возраст, любые стоимостные показатели, количественные оценки (количество товара, объем отгрузки, вес отгрузки).

Обнаружение знаний в базах данных (Knowledge Discovery in Databases)

Синонимы: Извлечение знаний из баз данных, KDD

Процесс обнаружения полезных знаний в базах данных. Эти знания могут быть представлены в виде закономерностей, правил, прогнозов, связей между элементами данных и др. Главным инструментом поиска знаний в процессе KDD являются аналитические технологии Data Mining, реализующие задачи классификации, кластеризации, регрессии, прогнозирования, предсказания и т.д.

Однако в соответствии с концепцией KDD эффективный процесс поиска знаний не ограничивается их анализом. KDD включает последовательность операций, необходимых для поддержки аналитического процесса. К ним относятся:

Консолидация данных – процесс их извлечения из различных источников (OLTP-систем, СУБД, файлов отдельных пользователей, Интернета и т.д.) и загрузка в централизованное хранилище данных.
Подготовка анализируемых выборок данных (в том числе обучающих), загрузка их из хранилища или других источников в аналитическое приложение.
Очистка данных от факторов, мешающих их корректному анализу, таких как шумы и аномальные значения, дубликаты, противоречия, пропуски, фиктивные значения и т.д.
Трансформация – оптимизация данных для решения определенной задачи. Обычно на этом этапе выполняется исключение незначащих факторов, снижение размерности входных данных, нормализация, обогащение и другие преобразования, позволяющие лучше «приспособить» данные к решению аналитической задачи.
Анализ данных – применение методов и технологий Data Mining: построение и обучение моделей (нейронных сетей, деревьев решений, карт Кохонена и др.), решение задач классификации и регрессии, кластеризации, прогнозирования, поиска ассоциаций и т.д.
Интерпретация и визуализация результатов анализа, их применение в бизнес-приложениях.

Knowledge Discovery in Databases не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность действий, которую необходимо выполнить для того, чтобы из исходных данных получить знания. Этот подход универсальный и не зависит от предметной области, что является его несомненным достоинством.

Основоположниками концепции KDD считаются Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro) и Усама Файад (Usama Fayyad).

Обогащение данных (Data enrichment)

Процесс насыщения данных новой информацией, которая позволяет сделать их более ценными и значимыми с точки зрения решения той или иной аналитической задачи.

Существует два основных метода обогащения данных – внешнее и внутреннее. Внешнее обогащение предполагает привлечение дополнительной информации из источников, которые находятся вне информационной системы предприятия. Таковыми могут быть другие предприятия и организации, финансово-кредитные учреждения, банки, страховые компании, государственные налоговые и статистические службы, органы государственного и муниципального управления, различные службы социальной сферы – миграционная служба, органы труда и занятости, система здравоохранения, пенсионные фонды и т.д.

Практически источником информации для обогащения данных могут быть любые организации, которые в процессе своей деятельности собирают, структурируют и хранят сведения, связанные с их деятельностью. Внешнее обогащение особенно эффективно при проведении стратегического анализа, когда необходимо учесть все факторы и тенденции, действующие во внешнем окружении предприятия.

Внутренне обогащение не предполагает привлечения какой-либо внешней информации. Оно обычно связано с получением и включением в набор данных полезной информации, которая отсутствует в явном виде, но может быть тем или иным способом получена с помощью манипуляций с имеющимися данными. Затем, эта информация встраивается в виде новых полей или даже таблиц в хранилище данных и может быть использована для дальнейшего анализа.

Для обогащения данных может использоваться также информация, полученная в процессе их анализа. Внутреннее обогащение используется для повышения эффективности оперативного анализа.

Очистка данных (Data Cleaning)

Процесс очистки данных от различных факторов, мешающих их корректному анализу: аномальных и фиктивных значений, пропусков, дубликатов и противоречий, шумов и т.д. Очистка данных является важнейшим этапом аналитического процесса и от того, насколько эффективно она произведена, во многом зависит корректность результатов анализа и точность построенных аналитических моделей.

Очистка данных производится как перед их загрузкой в хранилище (т.е. в процессе ETL), так и в аналитическом приложении непосредственно перед анализом. При этом основная очистка производится в аналитическом приложении, поскольку некоторые проблемы (например, дубликаты и противоречия) невозможно выявить до завершения консолидации данных. Кроме этого, требования к качеству данных могут быть различными для различных методов и алгоритмов анализа. Поэтому большинство аналитических приложений содержит развитый комплекс средств очистки данных.

Ошибка обобщения (Generalization error)

Ошибка, которую обучаемая модель показывает на примерах, не участвовавших в процессе обучения. Модель, основанная на обучении, имеет практическую ценность только в том случае, если в процессе обучения она также приобрела способность к обобщению. Это значит, что обученная модель должна выдавать достаточно точные результаты не только на обучающих примерах, но и на любых других. Ошибка обучения не позволяет оценить обобщающую способность модели. Она служит только для оценивания «подгонки» модели к обучающему множеству.

Чтобы проверить наличие обобщающей способности у обученной модели, необходимо протестировать ее на примерах, не использовавшихся ранее для обучения. Поэтому из исходного набора данных кроме обучающего множества формируется еще и тестовое, ошибка на котором и служит для оценки обобщающей способности.

Также ошибка обобщения служит для выявления эффекта переобучения. В процессе обучения ошибка обучения постоянно уменьшается, пока не достигает достаточно малого значения, после чего обучение прекращается. Однако, если параллельно отслеживать ошибку обобщения, то можно увидеть, что она сначала также уменьшается, но с некоторой эпохи обучения начинает возрастать из-за эффекта переобучения.

Однако, если параллельно отслеживать ошибку обобщения, то можно увидеть, что она сначала также уменьшается, но с некоторой эпохи обучения начинает возрастать из-за эффекта переобучения. Это значит, что, добиваясь большей точности на обучающем множестве, модель теряет часть обобщающей способности, т.е. будет хуже работать с реальными данными. Поэтому часто процесс обучения останавливают, как только ошибка обобщения начинает возрастать.

Ошибка обучения (Training Error)

Синонимы: Ошибка на обучающем множестве

В теории машинного обучения это разность между желаемым (целевым) y и реальным y’ выходом модели на примерах обучающего множества, т.е. E = y - y. Особенно большую роль играет ошибка при обучении нейронной сети, поскольку производная ошибки на обучающем множестве используется для расчета коррекции весов нейронов. Если нейронная сеть имеет несколько выходных нейронов, то выходная ошибка сети определяется как средний квадрат ошибок на каждом выходе:

Ошибка обучения является показателем точности настройки модели на обучающем множестве, может использоваться в качестве условия остановки обучения. Однако она не позволяет оценить точность работы модели с новыми данными, не участвовавшими в процессе обучения, т.е. обобщающей способности модели. Для этого необходимо использовать ошибку обобщения, т.е. ошибку модели на тестовом множестве.

Поддержка ассоциативного правила (Association Rule Support)

Пусть I = {i₁, i₂, i₃, …i_n} – множество (набор) товаров, называемых элементами. Пусть D – множество транзакций, где каждая из них T – это набор элементов из I, T I. Правило X Y имеет поддержку s (support), если s% транзакций из D содержат X Y, supp(X Y) = supp (X Y).

Последовательный шаблон (Sequence pattern)

Последовательность вида

где A - событие, или множество событий, t - время. Таким образом, последовательный шаблон это упорядоченная во времени последовательность событий, наблюдаемая настолько часто, что это позволяет говорить о наличии между ними связей. Анализ таких связей позволяет обнаруживать правила, что если в наблюдении появился набор одних событий из шаблона, то это с высокой долей вероятности повлечет за собой появление других событий или события из этого же шаблона. При этом события первой группы называются основными, а события, появление которых ожидается – целевыми. Основным приложением последовательных шаблонов является исследование типичных моделей поведения клиентов.

Теория последовательных шаблонов происходит из теории ассоциативных правил. Методы анализа ассоциативных правил и последовательных шаблонов во многом похожи: и в том, и в другом случае используются такие понятия как предметный набор и транзакция, такие числовые характеристики, как поддержка и достоверность, а для обнаружения частых шаблонов применяются различные модификации алгоритма Apriori. Однако, между ассоциативными правилами и последовательными шаблонами есть принципиальное различие. В ассоциативных правилах представляет интерес факт совместного появления предметов в транзакции и не рассматривается порядок и появления. Иными словами, важно что товар А и товар B были приобретены по одному чеку, т.е. появились в одной транзакции. В последовательных шаблонах, напротив, последовательность событий играет решающую роль, поскольку считается, что предыдущие события влияют на вероятность появления последующих.

Задача поиска последовательных шаблонов была впервые Р. Агравалом и Р. Срикнатом, авторами популярного алгоритма поиска ассоциативных правил Apriori. Они предложили 3 алгоритма для решения задачи открытия последовательных шаблонов на больших массивах данных – GSP, AprioriSome и AprioriAll.

Типичным приложением последовательных шаблонов является предсказание того, будет ли востребован на рынке новый продукт компании (например, новый тарифный план) на основе наблюдаемой динамики потребления старых продуктов (изменения времени разговоров по старым тарифным планам). В этом случае основными событиями могут быть рост, спад или неизменность уровня потребления за последние четыре недели, а целевым событием – приобретение или отказ от приобретения нового продукта. Например, возможна последовательность:

где первые четыре события являются основными, а последнее – целевым.

Анализ большого числа таких последовательностей позволит определить типичный характер поведения клиентов в отношении новых продуктов фирмы.

Предобработка данных (Data Preprocessing)

Процедура подготовки данных к анализу в процессе которой они приводятся в соответствие с требованиями, определяемыми спецификой решаемой задачи.

Предобработка данных включает два направления: очистку и оптимизацию. Очистка производится с целью исключения факторов, снижающих качество данных и мешающих работе аналитических алгоритмов. Она включает обработку дубликатов, противоречий и фиктивных значений, восстановление и заполнение пропусков, сглаживание и очистку данных от шума, подавление и редактирование аномальных значений. Кроме этого, в процессе очистки восстанавливаются нарушения структуры, полноты и целостности данных, преобразуются некорректные форматы.

Оптимизация данных, как элемент предобработки, включает снижение размерности входных данных, выявление и исключение незначащих признаков. Основное отличие оптимизации от очистки в том, что факторы, устраняемые в процессе очистки, существенно снижают точность решения задачи или делают работу аналитических алгоритмов невозможной. Проблемы, решаемые при оптимизации, адоптируют данные к конкретной задаче и повышают эффективность их анализа.

Предобработка данных является важнейшим этапом аналитического процесса, и ее элементы выполняются на всех его шагах, начиная от OLTP-систем и заканчивая аналитическим приложением.

Прогнозирование (Forecasting)

Задачи прогноз ирования решаются в самых разнообразных областях человеческой деятельности, таких как наука, экономика, производство и множество других сфер.

Прогнозирование (от греческого Prognosis) в широком понимании этого слова определяется как опережающее отражение будущего. Целью прогнозирования является предсказание будущих событий.

Само понятие прогнозирования не имеет четко очерченных границ и активно взаимодействует со смежными задачами анализа данных. Одно из определений прогнозирования было дано Г. Тейлом: «некоторое суждение относительно неизвестных, особенно будущих, событий».

Прогнозирование является одной из задач Data Mining и одновременно одним из ключевых моментов при принятии решений.

Прогнозирование направлено на определение тенденций динамики конкретного объекта или события на основе ретроспективных данных, т.е. анализа его состояния в прошлом и настоящем. Таким образом, решение задачи прогнозирования требует некоторой обучающей выборкой данных.

Прогнозирование - установление функциональной зависимости между зависимыми и независимыми переменными.

Примеры задач: прогноз спроса, прогноз движения денежных средств, прогнозирование урожайности агрокультуры, прогнозирование финансовой устойчивости предприятия, прогнозирование риска возникновения аварии.

Противоречие (Contradiction)

В анализе данных ситуация, когда в двух записях (обучающих примерах) одному и тому же набору значений входных атрибутов (признаков) соответствуют различные наборы значений выходных. Так, в задаче классификации это означает, что два объекта с абсолютно одинаковыми признаками относятся к различным классам. Например, если два клиента банка имеют идентичные параметры (доход, наличие недвижимости, возраст и т.д.), но при этом для одного из них значение выходной переменной, определяющей уровень кредитного риска, будет «Высокий», а для другого – «Низкий», то соответствующие примеры будут противоречивыми.

Наличие противоречивых записей является одним из факторов, ухудшающих качество данных. Противоречия искажают закономерности в данных, поиск которых и является целью анализа, что приводит к снижению точности аналитических моделей. Поэтому их исключение является одной из наиболее важных задач очистки данных.

При обработке противоречий возможны два подхода. Первый предполагает, что противоречие вызвано ошибкой (например, неправильно указана метка класса). В этом случае запись с ошибкой достаточно просто удалить. Второй подход допускает, что записи, хотя и являются противоречивыми, но тем не менее отражают реальные события. В этом случае обычно производят объединение записей с агрегированием числовых значений выходных атрибутов.

Профайлинг данных (Data Profiling)

В аналитических технологиях один из наиболее распространенных методов проверки качества данных и выявления проблем. Производится автоматически в соответствии с некоторым заранее настроенным сценарием на основе анализа информации о структуре данных.

В процессе профайлинга проверяется информация о некотором атрибуте (поле) источника данных на соответствие заданным ограничениям. Если параметры атрибута удовлетворяют им, то данные соответствуют определенному уровню качества, в противном случае необходимо принимать меры к приведению параметров к соответствующим ограничениям.

В процессе профайлинга может проверяться тип поля, длина его значений, диапазон допустимых значений, производиться анализ шаблонов. Если в процессе проверки обнаруживаются нарушения, они исправляются в соответствии с заданным сценарием. Например, если поле содержит денежные суммы в формате XXXX.XX, где слева от точки стоят рубли, а справа – копейки, то при обнаружении в данном поле значений, представленных в другом формате (скажем, XX.XXXX), они автоматически будут преобразованы к нужному виду.

Процесс ETL (ETL process)

Синонимы: ETL-процесс, ETL

Комплекс методов, реализующих процесс переноса исходных данных из различных источников в аналитическое приложение или поддерживающее его хранилище данных. Является составной частью этапа консолидации данных.

ETL-приложения извлекают информацию из одного или нескольких источников, преобразуют ее в формат, поддерживаемый системой хранения и обработки, которая является получателем данных, а затем загружают в нее преобразованную информацию.

Изначально ETL-системы использовались для переноса информации из более ранних версий различных информационных систем в более новые. В настоящее время они находят все более широкое применение именно для консолидации данных с целью их дальнейшего анализа. Очевидно, что поскольку ХД могут строиться на основе различных моделей данных (многомерных, реляционных, гибридных), то и процесс ETL должен разрабатываться с учетом всех особенностей используемой в ХД модели. Кроме этого, желательно, чтобы ETL-система была универсальной, т.е. могла извлекать и переносить данные как можно большего числа типов и форматов.

Независимо от особенностей построения и функционирования ETL-система должна обеспечивать выполнение трех основных этапов процесса переноса данных (ETL-процесса):

Извлечение данных – на этом шаге данные извлекаются из одного или нескольких источников и подготавливаются к этапу преобразования. При этом следует отметить, что для корректного представления данных после их загрузки в ХД из источников должны быть извлечены не только сами данные, но и информация, описывающая их структуру, из которой будут сформированы метаданные для хранилища.
Преобразование данных – производится преобразование форматов и кодировки данных, а также их интегрирование и очистка;
Загрузка данных – запись преобразованных, интегрированных и очищенных данных в соответствующую систему хранения.

Все операции над данными в процессе ETL производятся в так называемой промежуточной области, где для этого создаются временные таблицы.

Распознавание образов (Pattern recognition)

Метод исследования сложных объектов с помощью машинных аналитических методов. Заключается в отборе информативных признаков и построении классификационных моделей, позволяющих по этим признакам автоматически систематизировать объекты.

Примерами задач распознавания образов являются определение типов воздушных целей, распознавание символов, определение целевых групп клиентов в маркетинге, классификация клиентов по уровню кредитного риска в банковской сфере, классификация заболеваний в медицинской диагностике и многое другое

Классификация и распознавание образов являются одними из наиболее развитых направлений аналитических технологий Data Mining, которые содержат такие популярные методы классификации и распознавания, как нейронные сети, деревья решений, решающие правила, метод k-ближайших соседей и др.

Расстояние Евклида (Euclid distance)

Синонимы: Евклидово расстояние

Геометрическое расстояние в многомерном пространстве признаков и вычисляется следующим образом:

где a и b – точки в n-мерном пространстве,

i – порядковый номер признака,

и - координаты точек a и b по признаку i.

Рассмотрим расчет евклидова расстояния между двумя точками в пространстве трех измерений.

Рисунок 1 – Евклидово расстояние в пространстве трех измерений

Регрессионный анализ (Regression analysis)

Раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Цель регрессионного анализа состоит в определении общего вида уравнения регрессии, построении статистических оценок неизвестных параметров, входящих в уравнение регрессии, и проверке статистических гипотез о регрессии.

Регрессионный анализ является одним из наиболее распространенных методов обработки результатов наблюдений при изучении зависимостей в физике, биологии, экономике, технике и др. областях. В аналитических технологиях Data Mining элементы регрессионного анализа широко используются для решения задач прогнозирования, оценивания, классификации, выявления зависимостей между показателями.

Регрессия (Regression)

В теории вероятностей и математической статистике это зависимость среднего значения случайной величины от некоторой другой величины или даже нескольких. В отличие от чисто функциональной зависимости y = f(x), где каждому значению независимой переменной x соответствует единственное значение зависимой переменной y, регрессионная зависимость предполагает, что каждому значению переменной x могут соответствовать различные значения y, обусловленные случайной природой зависимости. Если некоторому значению величины xi соответствует набор значений величин {y_i1, y_i2,…,y_in}, то зависимость средних арифметических:

от x_i и является регрессией в статистическом понимании данного термина.

Типичным примером регрессионной зависимости может быть зависимость между ростом и весом человека. В большинстве случае вес пропорционален росту, но фактически большой рост не всегда означает большой вес. Иными словами, у роста, например, 175 см. может наблюдаться несколько значений веса, скажем 69, 78 и 86 кг. Тогда зависимость между ростом и средним значением указанных весов будет являться регрессионной.

Изучение регрессии в теории вероятностей основано на том, что случайные величины Х и Y, имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х = х, величина Y является случайной величиной с определённым (зависящим от значения х) условным распределением вероятностей. Регрессия величины Y по величине Х определяется условным математическим ожиданием Y, вычисленным при условии, что Х = х: Е(Y|х) = u(х). Уравнение у = u(х) называется уравнением регрессии, а соответствующий график — линией регрессии Y по X. Точность, с которой уравнение Y по Х отражает изменение Y в среднем при изменении х, измеряется условной дисперсией D величины Y, вычисленной для каждого значения X = х: D(Y|х)=D(x). Если D(х) = 0 при всех значениях х, то можно достоверно утверждать, что Y и Х связаны строгой функциональной зависимостью Y = u(X). Если D(х) = 0 при всех значениях х и u(х) не зависит от х, то говорят, что регрессионная зависимость Y по Х отсутствует.

Линии регрессии обладают следующим замечательным свойством: среди всех действительных функций f(х) минимум математического ожидания Е[Y — f(X)] ² достигается для функции f(x) = u(х). Это означает, что регрессия Y по Х даёт наилучшее в указанном смысле представление величины Y по величине X. Это свойство позволяет использовать регрессию для предсказания величины Y по X. Иными словами, если значение Y непосредственно не наблюдается и эксперимент позволяет регистрировать только Х, то в качестве прогнозируемого значения Y можно использовать величину Y = u(X). Наиболее простым является случай, когда регрессионная зависимость Y по Х линейна, т.е. Е(Y|x) = b₀ + b₁x, где b₀ и b₁ – коэффициенты регрессии. На практике обычно коэффициенты регрессии в уравнении у = u(х) неизвестны, и их оценивают по наблюдаемым данным.

Регрессия широко используется в аналитических технологах при решении различных бизнес-задач, таких как прогнозирование (продаж, курсов валют и акций), оценивания различных бизнес-показателей по наблюдаемым значениям других показателей (скоринг), выявление зависимостей между показателями и т.д.

Реляционная база данных (Relational database )

Совокупность отношений, содержащих всю информацию, которая должна храниться в базе. Физически это выражается в том, что информация хранится в виде двумерных таблиц, связанных с помощью ключевых полей.

Дата добавления: 2015-08-27; просмотров: 325 | Нарушение авторских прав

⇐ Предыдущая 1 234 Следующая ⇒

mybiblioteka.su - 2015-2024 год. (0.023 сек.)

<== предыдущая лекция

следующая лекция ==>