Агрегирование (Aggregation) 1 страница

Агрегирование (Aggregation)

Синонимы: Агрегация

Процесс преобразования данных с высокой степенью детализации к более обобщенному их представлению. Заключается в вычислении так называемых агрегатов - значений, получаемых в результате применения данного преобразования к некоторому набору фактов, связанных с определенным измерением. При этом чаще всего используется простое суммирование, вычисление среднего или медианы, выбор максимального или минимального значений.

Адекватность аналитической модели (Adequacy of a model)

Синонимы: Точность модели

Степень соответствия модели реальному объекту или процессу, полнота и точность описания ею предмета исследования. Обычно, чем выше ее адекватность, тем она сложнее. Поэтому на практике стремятся найти компромисс между точностью модели и трудоемкостью ее реализации.

Алгоритм Apriori (Apriori algorithm)

Алгоритм поиска ассоциативных правил, которые генерируются на основе всех частых предметных наборов, обнаруженных в транзакционной базе данных, и удовлетворяют заданному уровню поддержки и достоверности. Данный метод позволяет сократить пространства поиска благодаря свойству априорности. Оно утверждает, что если предметный набор Z не является частым, то добавление к нему некоторого нового предмета A не делает его таковым. Иными словами, если Z не является частым, то и Z + A также не будет им.

Алгоритм Apriori был предложен в 1994 г. (Agrawal и Srikant, исследовательская группа Almaden IBM) и в настоящее время является одним из наиболее популярных алгоритмов поиска ассоциативных правил.

Алгоритм ближайшего соседа (k-nearest neighbor algorithm)

Синонимы: Алгоритм KNN, KNN

Алгоритм, способный решать задачу классификации и регрессии. Его основная идея состоит в том, что в пространстве для нового объекта находят k ближайший к нему примеров из имеющихся в наборе данных. Пусть имеется набор данных X и необходимо классифицировать новую запись с вектором признаков x _new. Тогда ближайшими считаются k таких примеров x _i из X, расстояние от которых до нового минимально, а в более общем виде это условие можно записать, как

|| x _new - x _i || _p → min.

Часто для этих целей используют евклидово расстояние.

Далее присваивается метка класса (либо вычисляется выходная переменная). Самый простой способ – это найти моду выходной переменной среди k соседей (в случае задачи регрессии – среднее).

Этот алгоритм устойчив к аномальным выбросам, прост в реализации. Результат легко поддается интерпретации. Однако есть и недостатки. Во-первых, набор данных, используемый для алгоритма, должен быть репрезентативным. Во-вторых, модель нельзя "отделить" от данных: для классификации нового примера нужно использовать все примеры. Эта особенность сильно ограничивает использование алгоритма.

Аналитик (Analyst)

Синонимы: Бизнес-аналитик, Системный аналитик, Data miner

Специалист в области анализа и моделирования, на достаточном уровне владеющий различными инструментальными и программными средствами исследования данных, например, методами Data Mining. Кроме того, в его обязанности входят функции систематизации информации, опроса мнений экспертов, координации действий всех участников аналитического проекта.

Аналитическая платформа (Analytical platform)

Синонимы: Информационно-аналитическая система

Специализированное программное обеспечение, которое содержит в себе все инструменты, необходимые для осуществления процесса извлечения скрытых закономерностей из массивов данных. Обычно такие системы реализуют их консолидацию в едином источнике (хранилище), извлечение, преобразование и трансформацию, аналитические алгоритмы и средства визуализацииData Mining, а также тиражирование результатов.

Аномальное значение (Outlier value)

Синонимы: Выброс, Аномалия

Значения, которые не укладываются в общую модель поведения анализируемого процесса. Они сильно отличаются от окружающих данных и могут быть вызваны как ошибками измерений или ввода информации, так и являться результатом их сильной изменчивости. Перед выполнением аналитической обработки аномальные значения необходимо подавить или удалить, поскольку они могут вызвать некорректную работу алгоритмов и привести к искажению результатов анализа.

Ассоциативное правило (Association Rule)

Пусть I = {i₁, i₂, i₃, …i_n} – множество (набор) товаров, называемых элементами, а D – множество транзакций Т, где каждая из них является набором элементов из I, T I. Любая транзакция представляет собой бинарный вектор, где t[k] = 1, если i_k элемент присутствует в ней, иначе t[k] = 0. Мы говорим, что транзакция T содержит X, некоторый набор элементов из I, если X T. Ассоциативным правилом называется импликация X Y, где X I, Y I и X Y = .

Атрибут (Attribute)

Синонимы: Признак, Показатель

Признак, характеризующий определенное свойство исследуемого объекта или процесса. При построении аналитических моделей атрибуты используются в качестве зависимых (входных) или независимых (выходных) переменных. Например, в задаче кредитного скоринга атрибутами клиента банка могут быть следующие: пол, возраст, доход, наличие недвижимости и т.д.

База данных (Database)

Совокупность связанных данных, организованных по определенным правилам, предусматривающим общие принципы описания, хранения и манипулирования ими. Обычно является информационной моделью предметной области. Обращение к ней осуществляется с помощью специального вида программного обеспечения, называемого системой управления базами данных (СУБД).

База знаний (Knowledge base)

Специализированная база данных, используемая для управления знаниями, их сбором, хранением, поиском и предоставлением пользователю. Раздел искусственного интеллекта, изучающий базы знаний и методы работы с ними, называется инженерией знаний.

Простейшие базы знаний могут использоваться для хранения данных об организации: документация, руководства, инструкции и т.д. Цель их создания — помочь менее опытным работникам найти существующее описание способа решения какой-либо проблемы предметной области. Базы знаний — важнейший компонент интеллектуальных информационных систем, в частности экспертных.

Бизнес-интеллект (Business Intelligence)

Синонимы: Бизнес- анализ, Бизнес-аналитика, BI

Бизнес-интеллект, бизнес-аналитика (BI) - это популярный, всеохватывающий термин, предложенный Говардом Дренсером в 1989 году для описания всевозможных концепций и методов, повышающих эффективность бизнеса путем использования систем поддержки принятия решений.

Средства BI превращают информацию в знания, которые позволяют быстро принимать решения. Они интегрируют данные из OLTP-систем типа ERP, SCM, CRM и трансформируют их в сведения о том, как сделать ваш бизнес более эффективным и отвечающим динамике рынка.

Можно сказать, что BI - это инструменты и приложения для поиска, анализа, моделирования и доставки информации, необходимой для принятия решения.

Бизнес-приложение (Business application)

Информационная система, которая обрабатывает деловую информацию с целью поддержки и анализа конкретных бизнес-процессов.

Бизнес-процесс (Business process)

Система последовательных, целенаправленных и регламентированных видов деятельности, в которой посредством управляющего воздействия и при поддержке определенных ресурсов входы процесса преобразуются в выходы (результаты), представляющие ценность для потребителей.

Главным свойством бизнес-процесса является то, что он состоит из конечной и взаимосвязанной последовательности действий, которая определяется отношениями, мотивами, ограничениями и ресурсами внутри конечного множества субъектов и объектов, объединяющихся в систему с целью получения конкретного результата, отчуждаемого или потребляемого ей же самой.

В сфере информационных технологий бизнес-процесс может рассматриваться как информационный (последовательность работ), относящийся к производственно-хозяйственной деятельности предприятия и обычно ориентированный на создание новой стоимости. Например, компания может сознательно организовать информационный бизнес-процесс своего основного производства. Он включает в себя иерархию взаимосвязанных функциональных действий, реализующих одну (или несколько) целей предприятия в его информационной системе. Например, управление производственным процессом, его анализ, обеспечение ресурсами и т. д.

Бинарная переменная (binary variable)

Синонимы: Двоичная переменная

Дискретная переменная, принимающая только два значения, например (0,1), (Да, Нет) и т.д. Бинарные переменные имеют большое значение в анализе данных, поскольку многие задачи могут быть сведены к двоичной классификации. Кроме того, такие переменные используются в качестве индикаторных в регрессии, с их помощью представляются признаки исследуемых объектов и процессов, имеющие только два возможных значения (например, пол клиента). К типичным задачам, в которых применяются бинарные переменные, относятся медицинская диагностика (болен/здоров), оценка лояльности клиентов (лоялен/не лоялен) и кредитоспособности заемщиков, а также многое другое.

Существует развитый комплекс аналитических моделей, работающих с бинарной выходной переменной, например, логистическая регрессия и машины опорных векторов.

Визуализация (Visualization)

Комплекс методов представления результатов анализа данных в наиболее удобной для восприятия и интерпретации форме. Кроме этого, визуализация может применяться для мониторинга процесса построения и работы различных аналитических моделей, проверки гипотез и других целей, связанных с проведением анализа. Современные методы визуализации широко используют не только обычные графики и диаграммы, но и 3-мерное представление, анимацию и другие мультимедийные технологии.

Витрина данных (Data Mart)

Синонимы: Секция данных

Функционально-ориентированная и, как правило, содержащая данные по одному из направлений деятельности предприятия или организации база данных. Она отвечает тем же требованиям, что и хранилище, но, в отличие от него, нейтрального к приложениям, в витрине информация хранится оптимизировано с точки зрения решения конкретных задач.

Кроме того, под витриной данных иногда понимают относительно небольшое хранилище или же его часть, которая специфицирована для применения конкретным подразделением организации и/или определенной группой пользователей. Если в корпоративной системе имеется две "витрины данных", то общие данные, содержащиеся в обеих секциях одновременно, должны быть представлены идентично.

Временной ряд (Time series data)

Синонимы: Упорядоченные данные

Последовательность наблюдений за изменениями во времени значений параметров (атрибутов, признаков, показателей) некоторого объекта или процесса.

Временной ряд может быть записан в виде

где индекс t указывает на момент времени, в который зафиксировано значение или номер наблюдения.

Временные ряды бывают одномерные и многомерные. Первые содержат наблюдения за изменением только одного параметра исследуемого процесса или объекта, а вторые – за двумя или более параметрами. Например, трехмерный временной ряд, содержащий наблюдения за тремя параметрами X, Y и Z процесса F, можно записать в следующем виде:

Значения временного ряда получаются путем регистрации соответствующего параметра исследуемого процесса через конкретные промежутки времени. При этом в зависимости от природы данных и характера решаемых задач регистрируется либо текущее значение (например, температура или курс валюты), либо сумма значений, накопленная на определенном интервале времени (сумма продаж за день, количество клиентов за неделю и т.д.). В этом случае может использоваться не только суммирование, но и среднее значение за интервал, минимум, максимум или медиана. Например, исследователя может интересовать средний объем продаж за неделю, максимальный курс доллара к рублю, минимальная температура за месяц и т.д.

Временные ряды играют очень большую роль в технологиях Data Mining. Они позволяют обнаруживать тенденции и закономерности в исследуемых процессах, строить прогнозы и предсказывать будущие изменения в бизнесе. Изучение временных рядов отличается от других задач анализа как по целям, так и по используемым при этом методам и алгоритмам. Поэтому анализ временных рядов выделяют в самостоятельную и достаточно обширную область статистики.

Входная переменная (Input variable)

Синонимы: Независимая переменная, Предсказывающая переменная, Объясняющая переменная, Predictor variable

Переменная, подаваемая на вход аналитической модели в процессе ее обучения, тестирования или практического использования. Каждая входная переменная описывает атрибут, признак или показатель исследуемого процесса или объекта, а также образует отдельное поле обучающего, тестового или рабочего множества данных.

Выборка (Sample)

Часть объектов (наблюдений, записей) исходного набора данных (генеральной совокупности), отобранных с целью изучения и анализа, чтобы впоследствии обобщить полученные знания на всю совокупность.

Чтобы это стало возможным, выборки должны обладать свойством репрезентативности.

В Data Mining они используются для обучения и тестирования аналитических моделей, а также в статистических методах анализа.

Выходная переменная (Output variable)

Синонимы: Зависмая переменная, Объясняемая перемеенная, Переменная класса, Predicted variable

Переменная, значение которой формируется на выходе аналитической модели. Если она непрерывная, то модель называют регрессионной или предсказывающей, а если дискретная - то классификационной. В первом случае переменная называется предсказываемой, а во втором - меткой класса.

Вычислительная сложность алгоритма (Computational complexity)

Количество элементарных операций, затрачиваемых алгоритмом для решения конкретной задачи. Сложность зависит не только от размерности входных данных, но и от самих данных. Очевидно, что чем сложнее алгоритм в вычислительном плане, тем больше времени и вычислительных ресурсов потребует его выполнение.

Различают временную и пространственную сложность. Первая определяет время, требуемое на решение задачи заданной размерности с помощью данного алгоритма, а вторая - количество требуемых ресурсов (памяти) при тех же условиях.

Каждый вычислительный алгоритм может быть отнесен к одному из двух классов сложности. В данном случае это множество задач, для решения которых известны алгоритмы, схожие по трудоемкости. В классе P вычислительные затраты линейно растут с увеличением размерности. Например, время, требуемое на уборку снега, прямо пропорционально площади. Если ее увеличить вдвое, то и временные затраты также возрастут в два раза. Класс NP включает задачи, для решения которых известны только алгоритмы, сложность которых экспоненциально зависит от размерности данных. Поэтому они, как правило, неэффективны при работе с большими множествами. Примером является задача поиска выхода из лабиринта, временные затраты на который экспоненциально растут с увеличением числа разветвлений.

Генетический алгоритм (Genetic algorithm)

Эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путем последовательного подбора, комбинирования и вариации искомых параметров с применением механизмов, напоминающих биологическую эволюцию. Является разновидностью эволюционных вычислений (англ. evolutionary computation). Отличительной особенностью генетических алгоритмов является акцент на использование оператора «скрещивания», который производит операцию рекомбинации решений-кандидатов, аналогичную скрещиванию в живой природе. Основоположником теории генетических алгоритмов считается Джон Холланд (англ. John Holland), книга которого «Адаптация в естественных и искусственных системах» (1992)является основополагающим трудом в данной области.

Гистограмма (Histogram)

Синонимы: Диаграмма частот, Frequency bar chart

Диаграмма (обычно столбиковая), которая используется в статистике для графического представления распределения вероятностей значений некоторой случайной величины. По горизонтальной оси гистограммы откладывается диапазон наблюдаемых значений, разбитый на определенное число (обычно 10-15) интервалов, а по вертикальной – вероятность или частота ее попадания в каждый из них. Тогда столбик будет отражать значения этих показателей для интервала, на который он опирается.

Чтобы построить гистограмму частот, просто подсчитывают, сколько раз значение случайной величины попало в каждый интервал. Для перехода к вероятностям достаточно разделить количество значений в каждом интервале на общее число наблюдений. Очевидно, что в этом случае сумма всех столбцов гистограммы будет равна 1 (как и площадь под кривой закона распределения).

По форме гистограммы аналитик может в первом приближении оценить, какому статистическому закону распределения подчиняется случайная величина. Например, если все столбцы гистограммы примерно одинаковы, то равномерному, если в виде симметричного «холма», то нормальному и т. д. По гистограмме на рисунке можно предположить, что случайная величина x описывается законом, близким к нормальному, и имеет наиболее вероятное значение, лежащее в пределах 80-90. Достаточно вероятными будут значения из интервала 60-100, и очень маловероятными – меньше 30 и больше 120.

Так, если x – сумма кредитов, взятых за месяц, то гистограмму на втором рисунке можно интерпретировать следующим образом. За период наблюдений наиболее востребованными являлись кредиты на сумму от 60 до 100 тыс. руб. Кредиты на сумму менее 40 тыс. руб. и более 110 тыс. практически не брались. Данная информация может быть использована при разработке маркетинговой стратегии банка.

Иногда применяют так называемую кумулятивную гистограмму, или гистограмму с накоплением, в которой столбцы упорядочены по возрастанию.

Глубина прогноза (Forecast depth)

Синонимы: Глубина погружения

Временной интервал из прошлого, выраженный в единицах прогноза (днях, месяцах, кварталах и т.д.), на основе наблюдений которого делается прогноз. Например, если мы хотим построить прогноз на VI квартал, используя данные за I, II и III кварталы, то глубина составит 3, а горизонт будет равен 1.

Вообще, чем больше исходных данных используется для построения модели, тем лучше. Иными словами, можно предположить, что чем больше прошлых наблюдений мы будем применять для построения предсказывающей модели, тем она будет точнее. Но при выборе глубины прогноза это не совсем так, поскольку слишком «старые» данные могли утратить свою актуальность и не отражают современных тенденций и закономерностей исследуемого процесса. Поэтому ее следует выбирать в пределах периода актуальности.

Горизонт прогнозирования (Time horizon)

Временной интервал, в пределах которого прогноз выполняется с заданной точностью. Кроме этого, параметр метода прогнозирования с помощью скользящего окна. Он определяет размер временного интервала, выраженного в единицах прогноза (днях, декадах, месяцах и т.д.), для которого строится прогноз.

Данные (Data)

Сведения, полученные путем измерения, наблюдения, логических или арифметических операций, выступающие в форме, пригодной для постоянного хранения, передачи и (автоматизированной) обработки. Это бинарные (цифровые) представления атомарных фактов, текста, графиков, картинок, звука, аналоговых и цифровых видео сегментов. Данные являются "сырым" материалом для систем обработки и используются для извлечения информации.

Дендрограмма(Dendrogram)

Визуализатор, используемый для представления результатов иерархической кластеризации. Дендрограмма показывает степень близости отдельных объектов и кластеров, а также наглядно демонстрирует в графическом виде последовательность их объединения или разделения. Количество уровней дендрограммы соответствует числу шагов слияния или разделения кластеров. В нижней части рисунка расположена шкала, на которой откладывается расстояние между объектами в пространстве признаков.

В дендрограмме, представленной на рисунке, на первом шаге группируются объекты x₂ и x₃, образуя кластер (x₂, x₃) с минимальным расстоянием (например, Евклидовым) между объектами, примерно равным 1. Затем объекты x₄ и x₅ и группируются в другой кластер (x₄, x₄) с расстоянием между ними, равным 1,5. Дистанция между кластерами (x₂, x₃) и (x₁) также оказывается равной 1,5, что позволяет сгруппировать их на том же уровне, что и (x₄, x₄). И наконец два кластера (x₁, x₂, x₃) и (x₄, x₄) группируются на самом высоком уровне иерархии кластеров с расстоянием 2.

Дерево решений (Decision Trees)

Синонимы: Дерево классификаций, Classification Tree

Классификатор, полученный из обучающего множества, содержащего объекты и их характеристики, на основе обучения.

Дерево состоит из листьев, указывающих на класс, и узлов. Оно может использоваться для классификации объектов, не вошедших в обучающее множество. Поиск начинается с корня, пока не будет обнаружен класс, соответствующий объекту.

В машинном обучении популярными алгоритмами построения деревьев решений являются: ID3, C4.5, CART, CHAID и другие.

Диаграмма рассеяния (Scatter diagram)

Визуализатор для оценивания точности работы регрессионных моделей. Представляет собой график, на котором по горизонтальной оси откалываются целевые значения обучающих примеров, а по вертикальной – значения, оцененные моделью. Тогда каждая пара целевого Y и оцененного Y’ значений может быть представлена на диаграмме в виде точки.

Множество точек, для которых оцененное значение будет равно реальному, образует так называемую линию идеальных значений, для каждой точки которой выполняется равенство Y=Y’. Остальные точки, образованные примерами, на которых модель допустила ошибку, будут рассеяны вдоль линии. По степени их рассеяния можно оценить точность модели. Если большая их часть расположена достаточно близко к линии, а значительные отклонения редки или совсем отсутствуют, то модель работает хорошо. Если разброс точек велик, то ее точность низкая.

На практике при визуализации диаграммы обычно строят две линии, соответствующие допустимому уровню ошибки E = Y - Y’ (пунктирные линии на рисунке). Если большая часть точек лежит в пределах установленного ими «коридора», то можно утверждать, что модель работает хорошо (левый рисунок). Если точки имеют значительный разброс и большая их часть расположена вне «коридора», то точность модели низкая (правый рисунок). Допустимая ошибка определяется аналитиком исходя из особенностей решаемой задачи.

Дискретные данные (Discrete Data)

Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. С дискретными данными не могут быть произведены никакие арифметические действия, либо они не имеют смысла.

Дискретными данными являются все данные строкового и логического типа. Таковыми могут быть и числовые данные. Например, поле "Код товара", принимающее значения целого типа, дискретно, поэтому операции сложения, вычитания, умножения над ним не имеют смысла.

Добыча данных (Data Mining)

Синонимы: Разработка данных, Интеллектуальный анализ данных, DM

Обнаружение в "сырых" данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

Нередко Data Mining отождествляют с Knowledge Discovery in Databases, хотя более правильно считать Data Mining одним из шагов этого процесса.

Data Mining – это не один, а совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на пять классов: классификация, регрессия, кластеризация, ассоциация и последовательные шаблоны.

Data Mining имеет мультидисциплинарный характер.

Основателем и одним из идеологов Data Mining считается Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro).

Задача классификации (Classification problem)

Задача классификации заключается в разбиении наблюдений на классы на основе анализа их векторов признаков. Объекты в пределах одного класса считаются эквивалентными с точки зрения критерия его формирования. Сами классы часто бывают неизвестны заранее, а создаются динамически (как, например, в сетях Кохонена) и зависят от предъявляемых векторов признаков. Поэтому добавление нового объекта требует корректирования системы классов.

Запрос (Query)

Сообщение, посылаемое клиентом серверу, включающее в себя метод, идентификатор ресурса, название и версию протокола.

В Web Mining он востребован при анализе использования веб-ресурсов, так как в нем содержится адрес страницы, которую запрашивал пользователь.

Идентификация (Identification)

Это процесс распознавания элемента системы, обычно с помощью заранее определенного идентификатора или другой уникальной информации - каждый субъект или объект системы должен быть однозначно идентифицируем.

В Web Mining информация об идентификации пользователя на сайте может быть использована для определения отдельной сессии.

Иерархическая кластеризация(Hierarchial clustering)

Комплекс алгоритмов, использующих разделение крупных кластеров на более мелкие или объединение мелких в более крупные. Соответственно, выделяют разделительную (дивизивную) и агломеративную (объединительную) кластеризации.

В разделительной кластеризации все исходное множество данных сначала рассматривается как один кластер, который расщепляется на два, те в свою очередь еще на два и т. д. до тех пор, пока каждый из них не будет состоять из единственного объекта. В результате образуется иерархическое дерево кластеров, и аналитик может выбрать ту ее конфигурацию, которая лучше отвечает решаемой задаче.

Дата добавления: 2015-08-27; просмотров: 110 | Нарушение авторских прав

12 3 4 Следующая ⇒

mybiblioteka.su - 2015-2025 год. (0.029 сек.)

<== предыдущая лекция

следующая лекция ==>