Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Агрегирование (Aggregation) 4 страница



 

Репрезентативность данных (Representativeness of data)

Синонимы: Представительность выборки

В контексте аналитических технологий под репрезентативностью исходных данных следует понимать наличие достаточного количества разнообразных обучающих примеров, отражающих правила и закономерности, которые должны быть обнаружены моделью в процессе обучения. Она имеет три аспекта:

Если репрезентативность исходной выборки недостаточна, то частично это можно компенсировать применением перекрестной проверки, различных методов сэмплинга, обогащением данных.

Самоорганизующаяся карта (Self Organizing map)

Синонимы: Карта Кохонена, SOM, Kohonen map

Разновидность сети Кохонена, которая позволяет не только производить кластеризацию объектов, но и выполнять визуализацию ее результатов с помощью многомерного проецирования. Отличие самоорганизующейся карты от сети Кохонена заключается только в количестве выходных нейронов: в сети Кохонена оно должно соответствовать количеству кластеров, а в карте – количеству сегментов, из которого она должна состоять, т.е. размеру карты. Чем выше число сегментов в карте, тем детальнее она представляет распределение признаков объектов. Число входных нейронов карты, как и в сети Кохонена, должно быть равно числу признаков объектов, по которому производится их кластеризация. На рисунке показана карта размером 5 х 5, т.е. содержащая 25 выходных нейронов.



Уменьшив число сегментов карты до числа кластеров, мы вернемся к обычной сети Кохонена.

Карта Кохонена состоит из сегментов прямоугольной или шестиугольной формы, называемых ячейками. Каждая из них связана с определенным выходным нейроном карты и представляет собой своего рода его «сферу влияния». Распределение векторов весов нейронов карты получается так же, как и в сети Кохонена, т.е. на основе конкурирующего обучения. Объекты, векторы признаков которых оказываются ближе к вектору весов данного нейрона карты, попадают в ячейку, связанную с этим нейроном. Тогда распределение объектов на карте в целом соответствует распределению векторов весов нейронов. Следовательно, если объекты на карте расположены близко друг к другу, т.е. попали в одну ячейку или хотя бы в соседние, то и векторы признаков этих объектов близки, и, наоборот, если объекты попали в ячейки, расположенные на карте далеко друг от друга, то и векторы их признаков различаются сильно.

На рисунке представлен возможный вариант визуализации самоорганизующейся карты. Области с ячейками, близкими по цвету, содержат объекты, схожие по признаку, соответствующему проекции карты.

Сеть Кохонена (Kohonen network)

Специальный тип нейронной сети, позволяющий производить кластеризацию объектов. Сеть Кохонена состоит всего из двух слоев – входного и выходного. Выходной слой часто называется «слой Кохонена». При этом каждый нейрон входного слоя связан со всеми нейронами выходного, а внутри слоев связей нет. На нейроны входного слоя подаются векторы признаков кластеризуемых объектов. Как и в обычной нейронной сети, входные нейроны не участвуют в процессе обучения и обработки данных, а просто распределяют входной сигнал по нейронам следующего слоя. Число входных нейронов равно размерности вектора признаков (т.е. числу признаков объекта).

Количество выходных нейронов сети Кохонена равно числу кластеров, которое должно быть построено моделью, и каждый нейрон ассоциирован с определенным кластером. Выходы обрабатываются по принципу «победитель забирает все», т.е. нейрон с наибольшим значением выхода выдает единицу, а остальные обращаются в 0. Таким образом, в результате обработки предъявленного сети объекта, на выходе одного из нейронов формируется 1, а на выходе остальных – 0. После чего объект относится к кластеру, ассоциированному с единичным нейроном. Обучение сети Кохонена, также как и обычной нейронной сети, заключается в подстройке весов связей между нейронами, но производится методом конкурентного обучения.

 

Система поддержки принятия решений (Decision support system)

Синонимы: СППР, DSS

Система, обеспечивающая на базе имеющихся данных получение средним управляющим звеном информации, необходимой для тактического планирования и деятельности.

С точки зрения программного обеспечения может быть определена как система, поддерживающая формирование отчетов по исключениям, стоп-сигналам, стандартным хранилищам, анализу данных и анализу, основанному на системе правил.

Опирается в значительной степени на анализ данных в БД (по современным представлениям – в хранилище данных) визуальными средствами (графики) и средней сложности статистическими или иными математическими методами.

 

Скоринг (Scoring)

Метод, использующий математические или статистические модели, которые на основе кредитной истории «прошлых» клиентов банка пытаются предсказать возврат (или невозврат) кредита новым клиентом. В самом упрощенном виде скоринговая модель представляет собой взвешенную сумму значений признаков, характеризующих потенциального заемщика. На выходе модели формируется некоторый интегральный показатель (score), указывающий на степень риска, связанного с данным клиентом. Например, если предположить, что значение score = 1 указывает на 100%-ю надежность клиента, а значение 0 – на его полную некредитоспособность, то промежуточные значения позволяют сделать вывод о целесообразности выдачи кредита.

Обычно интегральный показатель каждого клиента сравнивается числовым порогом, который по существу является уровнем безубыточности и рассчитывается из отношения, сколько в среднем нужно клиентов, которые платят в срок, чтобы компенсировать убытки от одного должника. Если данный показатель для определенного клиента выше некоторого заданного порога, то принимается решение о целесообразности выдачи кредита, в противном случае клиенту будет отказано.

Скоринг является одной из традиционных и хорошо разработанных прикладных областей Data Mining. Эффективные решения здесь могут быть получены с использованием нейронных сетей, деревьев решений, байесовской классификации, регрессионного анализа и других аналитических методов и моделей.

 

Структурированные данные (Structured data)

Определение 1. Данные, отражающие отдельные факты предметной области. Это основная форма представления данных в базах. Они обычно собраны в единую таблицу в формате MS Excel, DBase, текстовые файлы с разделителями или в набор таблиц в любой реляционной СУБД.

Определение 2. Данные, упорядоченные определенным образом и организованные с целью обеспечения возможности применения к ним некоторых действий (например, визуального или машинного анализа). В этом случае подразумевается, что данные упорядочены в вертикальные столбцы, называемые полями, и горизонтальные строки, называемые записями. При этом все записи должны содержать один и тот же набор полей, а все поля – один и тот же набор записей.

Большинство алгоритмов машинного обучения и Data Mining работают только со структурированными данными.

 

Схема "звезда" (Star sсheme)

Логическая организация реляционного хранилища данных, когда модель состоит из двух типов таблиц: таблицы фактов, расположенной в «центре» звезды, и несколько таблиц измерений, образующих «лучи».

Недостатком схемы «звезда» является неудобство работы с иерархическими измерениями, т.е. когда вся информация об измерениях содержится в одной таблице. Например, если продаваемые товары объединены в группы, т.е. имеет место иерархия, то для каждого товара придется тем или иным способом показывать, к какой группе он относится, что приведет к многократному повторению названий групп. Это не только вызовет рост избыточности, но и повысит вероятность возникновения противоречий (если, например, один и тот же товар ошибочно отнесут к разным группам). Поэтому для более эффективной работы с иерархическими измерениями используется модификация схемы «звезда», которая получила название «снежинка».

Схема "снежинка" (Snowflake scheme)

Логическая организация реляционного хранилища данных, при которой модель состоит из двух типов таблиц: одна таблица фактов и несколько таблиц измерений. Обычно на схеме таблицу фактов изображают в центре, а таблицы измерений – в виде расходящихся лучей (схема «звезда»). Особенностью схемы «снежинка» является то, что таблицы измерений могут быть соединены с таблицами измерений других иерархических уровней непосредственно, минуя таблицу фактов. Поэтому данную схему рекомендуется использовать при наличии иерархии измерений.

Недостатками схемы «снежинка» по сравнению со схемой «звезда» являются более трудная для понимания и реализации структура данных, а также более сложная процедура добавления значений в измерения, а ее преимущества – большее соответствие представлению данных в многомерной модели, намного более низкая вероятность появления ошибок несоответствия данных и большая (по сравнению со схемой «звезда») компактность представления иерархических данных, поскольку все значения измерений представляются только один раз.

Сэмплинг (Sampling)

Процесс отбора из исходной совокупности данных выборки, представляющей интерес для анализа. При реализации сэмплинга используются специальные методы отбора, которые должны обеспечить ее репрезентативность с точки зрения решаемой аналитической задачи. Различают случайный, равномерный, стратификационный и другие виды сэмплинга.

Трансформация данных (Data Transformation)

Синонимы: Преобразование данных

Комплекс методов и алгоритмов, направленных на оптимизацию представления и форматов данных с точки зрения решаемых задач и целей анализа. Трансформация не ставит целью изменить информационное содержание данных. Её задача – представить эту информацию в таком виде, чтобы она могла быть использована наиболее эффективно.

Вообще, трансформация данных – это очень широкое понятие, не имеющее четко очерченных границ. В различных направлениях обработки данных этот термин иногда распространяют на любые манипуляции с данными независимо от их целей и методов. Однако в контексте аналитических технологий трансформация данных имеет вполне конкретные цели и задачи, а также использует достаточно стабильный набор методов. К основным из них относятся нормализация, преобразование типов и форматов, сортировка, группировка, слияние и др.

На каждом этапе аналитического процесса имеются свои приоритетные цели трансформации, например, в системах оперативной обработки (OLTP) это обеспечение поддержки корректности форматов и типов данных, оптимизация процессов доступа и выгрузки данных. На этапе ETL-процесса трансформация производится с целью приведения данных в соответствие с моделью, которая используется в хранилище, а также обеспечения процесса консолидации данных и их загрузки в хранилище. И наконец, в аналитическом приложении производится непосредственная подготовка данных к анализу, объединение и выделение наиболее ценной информации, обеспечение корректной работы аналитических алгоритмов, методов и моделей.

Трансформация данных является одним из важнейших процессов в анализе. От того, насколько грамотно она будет проведена, зависит эффективность анализа, достоверность и точность его результатов.

Транзакция (Transaction)

Последовательность действий или событий, происходящих одновременно и представляющих собой логически связанную единицу. Термин может трактоваться несколько по-разному в зависимости от предметной области.

В теории баз данных транзакция – это набор операций, рассматриваемый как единое и завершенное с точки зрения пользователя действие над некоторой информацией, которое обычно связано с обращением к базе данных. Примером этого могут являться покупка авиационных или железнодорожных билетов, приобретение в супермаркете набора товаров по одному чеку и другие действия, которые вызывают обращение к системам оперативной обработки транзакций.

В теории ассоциативных правил понятие транзакции трактуется несколько иначе: это набор событий или объектов, появляющихся одновременно в некотором наблюдении. В данном случае этот термин необязательно связан с изменением базы данных. Типичной транзакцией в этом контексте является набор товаров или услуг, покупаемых совместно. Анализ транзакций позволяет обнаруживать типичные шаблоны покупок в супермаркетах с помощью ассоциативных правил.

Упорядоченные данные (Ordinal data)

Синонимы: Ординальные данные

Переменная относится к одному из значений дискретного набора классов c1,…,ck и описывает некоторые качественные свойства объекта. Для упорядоченных данных установить отношения "больше", "меньше". Например, значения из ординального поля "Образование" можно упорядочить: начальное, среднее, высшее. Знание типов данных важно при выборе стратегии анализа и используемых методов и алгоритмов.

Факт (Fact)

Синонимы: Мера, Показатель, Measure

В многомерном моделировании данных это показатель (признак, атрибут), количественно описывающий исследуемый процесс или объект, например, цена, количество, сумма, остаток на складе и т.д.

В многомерных структурах данных факты образуют отдельную таблицу, которая так и называется «таблица фактов». С ней соединены все таблицы измерений. Любой факт ассоциирован с некоторым измерением. Например, информация о цене не имеет смысла, если она не связана с определенным товаром, продуктом, работой или услугой.

Факты бывают аддитивные, неаддитивные и полуаддитивные. Аддитивными называются факты, которые можно суммировать в разрезе всех измерений, имеющихся в многомерной модели, например, сумма проданных товаров. Полуаддитивные факты – это те, которые можно суммировать в разрезе не всех, а только некоторых измерений. Примером таковых является остаток на складе (который нельзя суммировать в разрезе времени). Неаддитивные факты – факты, которые нельзя суммировать, например, процентные доли.

В многомерном моделировании вместо термина «факт» часто используют другой термин – мера (measure). Поэтому в данной области и термины могут рассматриваться как синонимы.

Хранилище данных (Data Warehouse)

Термин "хранилище данных" неразрывно связан с термином "OnLine Analytical Processing (OLAP)". "Хранилище данных – это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений" (Билл Инмон). OLAP можно определить как совокупность средств многомерного анализа данных, накопленных в хранилище, но необходимо помнить, что он является всего лишь средством визуализации данных.

Хранилище данных часто создается для решения задачи консолидации.

Целостность данных (Data integrity)

В теории баз данных это свойство соответствия структуры и содержания базы данных предметной области. В реляционной модели данных определяются два основных требования, при которых обеспечивается целостность данных: целостность сущностей и целостность ссылок.

Каждый объект или наблюдение представляется в реляционной базе как группа взаимосвязанных элементов данных (кортеж) некоторого отношения. Требование целостности сущностей заключается в том, что каждый кортеж любого отношения должен отличаться от другого кортежа этого отношения (т.е. любое отношение должно обладать первичным ключом). Очевидно, что если данное требование будет нарушено (т.е. кортежи в рамках одного отношения не уникальны), то в базе будет храниться противоречивая информация об одном и том же объекте.

Поддержание целостности сущностей обеспечивается средствами системы управления базой данных (СУБД) с помощью двух ограничений: 1) при добавлении записей в таблицу проверяется уникальность их первичных ключей; 2) запрет изменения значений атрибутов, входящих в первичный ключ.

Требование ссылочной целостности состоит в том, что для каждого значения внешнего ключа, появляющегося в дочернем отношении, в родительском должен найтись кортеж с таким же значением первичного ключа.

Например, даны отношения ПОДРАЗДЕЛЕНИЕ (N_ПОДРАЗДЕЛЕНИЯ, НАИМЕНОВАНИЕ_ПОДРАЗДЕЛЕНИЯ) и СОТРУДНИК (N_СОТРУДНИКА, N_ПОДРАЗДЕЛЕНИЯ, ИМЯ_СОТРУДНИКА), в которых хранятся сведения о работниках организации и подразделениях, где они работают. Отношение ПОДРАЗДЕЛЕНИЕ в данной паре является родительским, поэтому его первичный ключ «N_ПОДРАЗДЕЛЕНИЯ» присутствует в дочернем отношении СОТРУДНИК. Требование ссылочной целостности означает в данном случае, что в таблице СОТРУДНИК не может присутствовать кортеж со значением атрибута «N_ПОДРАЗДЕЛЕНИЯ», которое не встречается в таблице ПОДРАЗДЕЛЕНИЕ. Если такое значение в отношении ПОДРАЗДЕЛЕНИЕ отсутствует, значение внешнего ключа в отношении СОТРУДНИК считается неопределенным.

Как правило, поддержание ссылочной целостности также является функцией СУБД. Например, она может запретить пользователю добавлять запись, содержащую внешний ключ с несуществующим (неопределенным) значением.

Шум (Noise)

Аддитивная или мультипликативная составляющая сигнала, имеющая случайный характер и не несущая полезной информации. Различают белый шум (имеющий непрерывный равномерный спектр) и цветной шум (локализованный в ограниченных областях спектра).

Эксперт (Expert)

Специалист, профессионал, который за годы обучения и практической деятельности научился эффективно решать задачи, относящиеся к конкретной предметной области.

Экспертная система (Expert system)

Система искусственного интеллекта, включающая знания о некоторой слабо структурированной и трудно формализуемой предметной области, способная предлагать и объяснять пользователю решения задач в ней. Экспертная система состоит из базы знаний, машины логического вывода и подсистемы объяснений.

База знаний – семантическая модель, описывающая предметную область и позволяющая отвечать на такие вопросы из нее, ответы на которые в явном виде не присутствуют в базе. Она является основным компонентом интеллектуальных и экспертных систем.

Машина логического вывода – программа, моделирующая механизм рассуждений и оперирующая знаниями и данными с целью получения новых сведений из знаний и других данных, имеющихся в рабочей памяти. Обычно такая машина использует программно реализованный механизм дедуктивного логического вывода или механизм поиска решения в сети фреймов или семантической сети.

 

Эмерджентность (Emergence)

Наличие у какой-либо системы особых свойств, не присущих её составным частям, а также сумме элементов, не связанных какими-либо системообразующими связями; несводимость свойств системы к сумме свойств её компонент.

Эмерджентность также характерна для экономических и бизнес-систем. Любое крупное производственное предприятие имеет очень сложную структуру, содержит большое число цехов, участков, отделов, каждый из которых выполняет свою задачу. Но только благодаря совместному труду они решают общую задачу – производство продукции. Поэтому, анализируя работу каждого из них в отдельности и складывая результаты, мы не сможем сделать вывод о функционировании всего предприятия. Действительно, как скомбинировать результаты работы отдела кадров и сборочного цеха? Следовательно, необходимо выполнять анализ всей производственной системы в целом.

С эмерджентностью тесно связано понятие синергии: объединение разрозненных элементов в систему открывает совершенно новые возможности, недостижимые при использовании элементов по отдельности.

Язык визуального моделирования (Visual modelling language)

Позволяет аналитику в визуальной среде строить последовательности шагов по обработке информации от получения «сырых» данных до конечного результата. Шаги представляют собой набор атомарных по отношению к данным операций, каждую из которых можно представить отдельным узлом. Примеры таких операций: выборка данных, фильтрация, сортировка, добавление нового столбца, построение

Data Mining модели и т.п. Набор узлов образует графическую диаграмму. Такой способ очень близок к рассуждениям и действиям аналитика, которые он так или иначе проделывает. Распространены две формы представления диаграмм: в виде дерева и в виде графа.

 

 


Дата добавления: 2015-08-27; просмотров: 107 | Нарушение авторских прав







mybiblioteka.su - 2015-2024 год. (0.016 сек.)







<== предыдущая лекция | следующая лекция ==>