Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Интеллектуальный анализ данных (data Mining)

Читайте также:
  1. BI и хранилища данных
  2. III. Анализ информационного обеспечения системы управления
  3. SWOT-анализ.
  4. XL. Анализ подделок исторического фантасма
  5. XXI. Анализ приведенных случаев. Предварительные замечания
  6. Анализ аналитических проб.
  7. Анализ ассортимента товаров по доходности продаж за декабрь месяц

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

Филиал ФЕДЕРАЛЬНОГО ГОСУДАРСТВЕННОГО БЮДЖЕТНОГО

ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ ВЫСШЕГО

ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ «МЭИ»
в г. Смоленске

 

Кафедра вычислительной техники

 

 

Доклад

По курсу Компьютерные технологии в науке и производстве

(сокращенный)

«Компьютерные методы анализа и интерпретации данных. Компьютерные системы поддержки принятия решений»

 


Студент: Ковалева М.Ю.
Группа: ВМ-12(маг)
Преподаватель: Семенова О.В.

 

Смоленск


ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ (DATA MINING)

Старые методы, применявшиеся математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина – концепция усреднения по выборке, приводящая к операциям над фиктивными величинами.

Большое распространение, начиная с 90-х годов XX века, получил интеллектуальный анализ данных (Data Mining).

В основу современной технологии Data Mining положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания.

Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.

Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро – один из основателей этого направления: «Data Mining – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности».

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования. К методам Data Mining нередко относят статистические методы. Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining.

К методам и алгоритмам Data Mining относятся:

1. искусственные нейронные сети;
2. деревья решений, символьные правила;
3. методы ближайшего соседа и k-ближайшего соседа;
4. метод опорных векторов;
5. байесовские сети;
6. линейная регрессия;
7. корреляционно-регрессионный анализ;
8. иерархические методы кластерного анализа;
9. неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы;
10. методы поиска ассоциативных правил, в том числе алгоритм Apriori;
11. метод ограниченного перебора;
12. эволюционное программирование и генетические алгоритмы;
13. разнообразные методы визуализации данных и множество других методов.

Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств. Основные свойства и характеристики методов Data Mining: точность, масштабируемость, интерпретируемость, проверяемость, трудоемкость, гибкость, быстрота и популярность.

Все методы Data Mining можно разделить на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования.

1. Непосредственное использование данных, или сохранение данных.

Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии.

2. Выявление и использование формализованных закономерностей, или дистилляция шаблонов.

Методы этой группы: логические методы, методы визуализации, методы кросс-табуляции, методы, основанные на уравнениях.

Методы Data Mining также можно классифицировать по задачам Data Mining. В соответствии с такой классификацией выделяют две группы. Первая из них – это подразделение методов Data Mining на решающие задачи сегментации (т.е. задачи классификации и кластеризации) и задачи прогнозирования. В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и прогнозирующих результатов.

Прежде чем использовать технологию Data Mining, необходимо тщательно проанализировать ее проблемы, ограничения и критические вопросы, с ней связанные, а также понять, чего эта технология не может.

1.Data Mining не может заменить аналитика

2. Сложность разработки и эксплуатации приложения Data Mining

3. Квалификация пользователя

4. Извлечение полезных сведений невозможно без хорошего понимания сути данных

5. Сложность подготовки данных

6. Большой процент ложных, недостоверных или бессмысленных результатов

7. Высокая стоимость

8. Наличие достаточного количества репрезентативных данных

Технология Data Mining постоянно развивается, привлекает к себе все больший интерес как со стороны научного мира, так и со стороны применения достижений технологии в бизнесе. Ежегодно проводится множество научных и практических конференций, посвященных Data Mining.

Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин «Business Intelligence» (BI), деловой интеллект или бизнес-интеллект.

Business Intelligence – программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений.

BI-системы также известны под названием Систем Поддержки Принятия Решений (СППР). Процесс Data Mining неразрывно связан с процессом принятия решений, его можно рассматривать как неотъемлемую часть систем поддержки принятия решений (СППР).


Дата добавления: 2015-10-02; просмотров: 91 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Интерпретация Крайона| Понятие и основные компоненты СППР

mybiblioteka.su - 2015-2024 год. (0.006 сек.)