Основные этапы процесса интеллектуального анализа и обработки данных.

Читайте также:

В общем случае процесс интеллектуального анализа и обработки данных состоит из следующих шести этапов: отбор данных, очистка, обогащение, кодирование, извлечение знаний и сообщение (рисунок 1).

Пятый этап является фазой реального извлечения знаний. Процесс носит итеративный характер: на каждом шаге возможен возврат на один или более этапов; например, когда на этапе кодирования или извлечения знаний исследователь понимает, что фаза очистки не завершена, или что можно обнаружить новые данные и использовать их, чтобы обогатить другие существующие наборы данных.

Рисунок 1. Процесс интеллектуального анализа и обработки данных

Для иллюстрации процесса извлечения знаний в данном пособии используется пример, связанный с извлечением знаний из базы данных издателя журнала. Издатель продает пять типов журнала - автомобильный, о доме, спортивный, музыкальный и комиксы. Цель процесса извлечения знаний в данном примере состоит в том, чтобы найти новые значимые группы клиентов, чтобы установить рыночную конъюнктуру. Следовательно, множество запросов включает такие запросы как "каков типичный профиль читателя автомобильного журнала?", "существует ли корреляция между интересом к автомобилям и интересам к комиксам?".

Отбор данных. Как правило, для решения конкретной задачи нужны не все данные из хранилища данных. Сначала необходимо выбрать то их подмножество, которое будет подвергнуто анализу. При этом возможно, потребуется объединить несколько таблиц, а полученные записи отфильтровать. В нашем примере начнем с общей базы данных, содержащей записи о подписке журналов. Она содержит выборку операционных данных из системы издательских счетов-фактур и содержит информацию о людях, которые подписались на журнал. Записи состоят из номера клиента, имени, адреса, даты подписки и типа журнала (таблица 1).

Очистка. Существуют несколько типов очистки данных (удаление дублирующих записей, исправление типографских ошибок, добавление отсутствующей информации и т.д.), некоторые из которых могут выполняться заранее, в то время как другие вызываются только после обнаружения загрязнения на этапах кодирования или обнаружения. В технологии ИАОД существует старое правило "мусор внутри, мусор снаружи". Чтобы внедрить процесс интеллектуальной обработки данных в организации, необходим процесс постоянного уточнения данных и устранения "мусора". Очень важным элементом очистки является устранение дублирования записей (таблица 2).

Таблица 1. – Первичные данные

Номер клиента	Имя	Адрес	Дата покупки	Покупаемый журнал
	Дженсон	1 Downing Street	04-15-94	Автомобильный
	Дженсон	1 Downing Street	06-21-93	Музыкальный
	Дженсон	1 Downing Street	05-30-92	Комиксы
	Клинтон	2 Boulevard	01-01-01	Комиксы
	Кинг	3 High Road	02-30-95	Спортивный
	Джонсон	1 Downing Street	01-01-01	"Дом"

Таблица 2.

Устранение дублирования

Номер клиента	Имя	Адрес	Дата покупки	Покупаемый журнал
	Дженсон	1 Downing Street	04-15-94	Автомобильный
	Дженсон	1 Downing Street	06-21-93	Музыкальный
	Дженсон	1 Downing Street	05-30-92	Комиксы
	Клинтон	2 Boulevard	01-01-01	Комиксы
	Кинг	3 High Road	02-30-95	Спортивный
	Дженсон	1 Downing Street	01-01-01	"Дом"

В базе данных клиентов некоторые клиенты могут быть представлены несколькими записями, хотя во многих случаях это результат небрежности, такой как ошибка при набивке, или следствием того, что, например, клиенты перемещаются с одного места на другое без извещения об изменении адреса. Существуют также случаи, в которых люди преднамеренно записывают свои имена неправильно или дают неправильную информацию относительно себя, особенно в ситуации отказа им в некотором типе страхования. С помощью своего имени или неправильного адреса они пытаются избежать отрицательного решения. Конечно, для любой организации важно избегать такие аномалии в базе данных. Хотя обнаружение знаний и очистка данных - две различных дисциплины, они имеют много общего и при очистке данных могут быть применены алгоритмы распознавания паттернов.

В представленном примере в атрибуте имени БД присутствуют значения Дженсон и Джонсон. Они имеют различные клиентские номера, но один и тот же адрес, что достаточно сильно свидетельствует о том, что эти двое - один и тот же человек, но что в имени одного существует ошибка. Конечно, нельзя быть уверенным до конца, что это так, но алгоритм устранения дублирования, используя технику анализа образцов, мог бы идентифицировать ситуацию и представить её пользователю для принятия решения. Этот тип загрязнения встречается часто: потому что ошибка в первичной БД там, где появляются два клиента, когда в действительности существует только один, создаёт впечатление, что организация имеет больше клиентов, чем в есть на самом деле. Так как это ситуация, которая часто происходит в реальной жизни, многие большие банки и страховые компании не имеют никакой надежной идеи узнать, как много заказчиков они действительно имеют. Это представляет серьезную проблему в маркетинговой деятельности, но после процедуры устранения дублирования две подписки Дженсона/Джонсона можно определенно решить, кто из них таковой на самом деле.

Второй распространенный тип загрязнения - это недостаток области совместимости (таблица 3). Обратите внимание, что в первичной таблице мы имеем две записи, датированные 1 января 1901. Хотя организации вероятно даже не существовала в это время. Этот тип загрязнения особенно опасен, поскольку его трудно проследить, но он будет оказывать огромное влияние на тип образцов (паттернов), находимых применяемыми к этой таблице процедурами обнаружения знаний. В некоторых базах данных анализ показывает неожиданно высокое число людей, рожденных 11 ноября.

Когда люди вынуждены заполнять дату рождения за монитором, и они или не знают или не хотят обнародовать свою дату рождения, они склоняются набить 11-11-11. Само собой разумеется, это катастрофично в контексте обнаружения знаний, так как если информация неизвестна, то она должна и представляться так в базе данных. В нашем примере мы заменили часть данных нулевым значением и исправили другие области несовместимости.

Таблица 3- Область совместимости

Номер клиента	Имя	Адрес	Дата покупки	Покупаемый журнал
	Дженсон	1 Downing Street	04-15-94	Автомобильный
	Дженсон	1 Downing Street	06-21-93	Музыкальный
	Дженсон	1 Downing Street	05-30-92	Комиксы
	Клинтон	2 Boulevard	NULL	Комиксы
	Кинг	3 High Road	02-30-95	Спортивный
	Дженсон	1 Downing Street	12-20-94	"Дом"

Обогащение (добавление информации). Предположим, что мы получили дополнительную информацию о клиентах, состоящую из даты рождения, дохода, размера кредита, наличия автомобиля или дома (таблица 4) Не очень важно, как была собрана информация, но необходимо оценить, можно ли новую информацию присоединить к существующим записям о клиентах.

Таблица 4. Обогащение

Имя клиента	Дата рождения	Доход	Кредит	Владелец автомобиля	Владелец дома
Дженсон	04-13-76	$18,500	$17,800	нет	нет
Клинтон	10-20-71	$36,000	$26,600	да	нет

Кодирование. Данные в примере могут подвергаться ряду преобразований. Сначала дополнительная информация, которая была получена, чтобы обогатить базу данных, добавляется к записям, описывающим индивидуальности. На следующем этапе мы выделяем только те записи, которые имеют достаточно информации, чтобы быть ценными (таблица 5).

Хотя трудно дать детализированные правила для этого вида операции, это ситуация, которая часто происходит на практике. В большинстве таблиц, которые собраны из операционных данных, отсутствует множество желательных данных и большинство из них невозможно восстановить. Поэтому необходимо принять обдуманное решение или пропустить эту информацию, или удалить её. Общее правило говорит, что любое удаление данных должно быть сознательным решением после всестороннего анализа возможных последствий. В некоторых случаях, особенно в задачах определения мошенничества, недостаток информации может быть ценным указанием наличия значимых образцов.

В представленном примере существует недостаток данных о Кинге, поэтому примем решение исключить эту запись из заключительной выборки. Конечно, это решение не бесспорно, потому что может существовать причинная связь между недостатком информации и поведением Кинга. Предположим, что можно игнорировать эти данные без каких-либо последствий для наших заключительных результатов. В этом примере мы не заинтересованы в именах клиентов, так как хотим только определить некоторые типы клиентов пользователя, так что их имена удаляются из базы данных (таблица 6).

До сих пор фаза кодирования состояла из простых операций SQL, но теперь вводим этап, где требуется творческое преобразование данных. Информация в нашей базе данных слишком детализирована, чтобы использоваться в качестве входной для алгоритмов распознавания образцов. Возьмём, например, понятие даты рождения: алгоритм, который помещает людей с одной и той же датой рождения в определенный класс заказчиков, очевидно, слишком детализирован для наших целей, в то же время подобный алгоритм, обрабатывающий возрастные классы с интервалом, например, 10 лет был бы подходящим. То же справедливо и для адресов.

Информация об адресах слишком детализирована для алгоритмов распознавания образцов и, в этом случае, нам необходимо записывать адреса в кодах регионов. Способ, которым кодируется информацию, в значительной степени, определит тип найденных нами паттернов. Следовательно, кодирование является творческой деятельностью, которое должно выполняться постоянно, чтобы получить наилучшие результаты. Возьмём, например, дату подписки; снова она слишком детализирована, но существуют различные способы записи этих дат так, чтобы обнаружились ценные образцы. Одним из решений могла бы быть трансформация даты приобретения в месяцы, начиная с 1990г. Таким образом, мы могли бы найти образцы во временной последовательности транзакций наших заказчиков, например, зависимости, подобные следующему правилу:

Заказчик с кредитом > 13,000 и возрастом между 22 и 31, который подписался на комиксы во время T, пятью годами позже с большой вероятностью подпишется на автомобильный журнал.

Или могли бы определить такую тенденцию:

Число журналов о доме, проданных заказчикам с кредитом между12,000 и 31,000, проживающим в регионе 4, увеличивается.

Или определить такую миграцию типов клиентов:

Заказчик с кредитом между 5,000 и 10,000, читающий комиксы после 12 лет с большой вероятностью станет заказчиком с кредитом между 12,000 и 31,000, читающий спортивный журнал и журнал о доме.

Таблица 5. Обогащенная таблица

Номер клиента	Имя	Дата рождения	Доход (тыс.)	Кредит (тыс.)	Владе лец авто	Владе лец дома	Адрес	Дата покупки	Журнал
	Дженсон	04-13-76	$18,5	$17.8	нет	нет	1 Downing Street	04-15-94	Авто мобильный
	Дженсон	04-13-76	$18,5	$17.8	нет	нет	1 Downing Street	06-21-93	Музы кальный
	Дженсон	04-13-76	$18,5	$17.8	нет	нет	1 Downing Street	05-30-92	Комиксы
	Клинтон	10-20-71	$36,0	$26,0	да	нет	2 Boulevard	нуль	Комиксы
	Кинг	нуль	нуль	нуль	нуль	нуль	3 High Road	02-30-95	Спорти вный

Таблица 6. Таблица с удаленными строками и столбцами

Номер клиента	Дата рождения	Доход (тыс.)	Кредит (тыс.)	Владе лец авто	Владе лец дома	Адрес	Дата покупки	Журнал
	04-13-76	$18,5	$17.8	нет	нет	1 Downing Street	04-15-94	Авто мобильный
	04-13-76	$18,5	$17.8	нет	нет	1 Downing Street	06-21-93	Музы кальный
	04-13-76	$18,5	$17.8	нет	нет	1 Downing Street	05-30-92	Комиксы
	10-20-71	$36,0	$26,0	да	нет	2 Boulevard	нуль	Комиксы
	04-13-76	$18,5	$17.8	нет	нет	1 Downing Street	12-20-94	"Дом"

Однако, иногда мы интересуемся не временными отрезками, а такой информацией как сезонное влияние на поведение заказчика. В таких случаях можно изменить даты подписки на коды сезона и попытаться найти паттерны в этих терминах. Кодирование - творческий процесс и может существовать большое число различных кодов, которые связаны с произвольным числом различных потенциальных образцов, которые мы хотели бы найти.

В нашем примере можно применить следующие шаги кодирования:

1. адресовать к региону. Это - просто упрощение адресной информации. В регионе, который исследуется, могут быть миллионы различных адресов, который слишком детальны для наших целей. Поэтому необходимо сжать информацию об адресах в четыре кода различных областей. Однако, обратите внимание, что это - не произвольное решение; мы могли решить использовать 20 или 1000 различных кодов области, или изменить определение области. Все эти решения могут воздействовать на результат алгоритмов обнаружения знаний и поэтому должны быть приняты осознанно, рассчитав последствия;

2. дату рождения преобразовать к возрасту. Это подразумевает разделение информации о дне рождения на дискретные значения приблизительно 100 классов по возрасту (люди в среднем не живут намного больше 100 лет). Здесь мы также могли бы выбрать меньшее или большее число классов, например, десять классов по 10 лет;

3. разделить доход по 1000. Это не только упрощает информацию о доходах, но также создает классы по доходу с тем же самым порядком величины, что и классы по возрасту. После этой операции большинство людей будет иметь класс по доходу где-нибудь между 10 и 100, так что будет намного проще сравнивать эту информацию с созданными нами классами по возрасту, так как эти числа близки друг другу;

4. разделить кредит по 1000. Рассуждение для этого случая такое же, как и для классов по доходу;

5. преобразовать информацию об автомобилях «да-нет» в информацию «1-0». В приложениях обнаружения знаний иногда полезно кодировать бинарные атрибуты в один бит, поскольку это облегчает эффективное выполнение алгоритмов распознавания образцов;

6. преобразовать дату приобретения в число месяцев, начиная с 1990г. Покупка в январе 1990г. соответствует месяцу номер 1; приобретение в декабре 1991- месяцу номер 24. Эта последняя операция помогает выполнять анализ временных отрезков на данных. Снова это творческое решение - кодирование в днях вероятно слишком детально, чтобы раскрыть общие временные зависимости. С другой стороны, следует кодировать в днях, чтобы определить нетипичное поведение заказчика по специальным дням типа Рождества, Пасхи и других праздников. Результаты процесса кодирования представлены в таблице 7.

Таблица 7. Промежуточная стадия кодировки

Номер клиента	Возраст	Доход (тыс. дол)	Кредит (тыс.дол.)	Владелец авто (ВА)	Владелец дома (ВД)	Регион (Р)	Месяц покупки	Журнал
		18.5	17.8					Автомобильный (А)
		18.5	17.8					Музыкальный (М)
		18.5	17.8					Комиксы (К)
		36.0	26.6				нуль	Комиксы (К)
		18.5	17.8					"Дом"

Однако таблица в таком формате не очень полезна, если необходимо найти взаимосвязи между различными журналами. Каждая подписка представляется одной записью, хотя было бы более эффективно иметь краткий обзор всех журналов, подписанных каждым читателем. Поэтому выполняем заключительное преобразование над таблицей и создаем только одну запись для каждого читателя. Вместо того, чтобы иметь один атрибут " журналы" с пятью возможными значениями, мы создаём пять бинарных атрибутов по одному для каждого журнала. Если значение атрибута - "1" это означает, что читатель - подписчик, иначе - значение " 0 ". Такая операция называется "декомпозицией" - атрибут с кардинальным числом n заменяется на n бинарных атрибутов.

Теперь имеем окончательно закодированное множество данных: номер клиента, возраст, доход, кредит, информация относительно собственности автомобиля и дома, код области, и пять битов, указывающих на какие журналы подписался заказчик (таблица 8).

Таблица 8

Окончательная таблица

Покупаемый журнал

Номер клиента	Возраст	Доход (тыс. дол)	Кредит (тыс.дол.)	ВА	ВД	Р	А	Д	С	М	К
		18,5	17,8
		36,0	26,6

Обнаружение (извлечение) знаний. Этап обнаружения знаний является ядром процесса интеллектуального анализа и обработки знаний. Технология обнаружения знаний включает много методов и основана на идеи, что существует больше знаний, скрытых в данных, чем видно на поверхности. В настоящее время специалисты выделяют следующие основные методы извлечения знаний: инструментальные средства запроса, статистическая техника, визуализация, интерактивная аналитическая обработка (OLAP), обучение, основанное на прецедентах (k-ближайший сосед), деревья решений, ассоциативные правила, нейронные сети, генетические алгоритмы.

Фактически, в технологии обнаружения знаний необходимо различать четыре различных типа знания, которые могут быть извлечены из данных:

1. Поверхностное знание. Это информация, которая может быть легко найдена из баз данных, использующих инструментальное средство запроса типа структурированного языка запросов (SQL).

2. Многомерное знание. Это информация, которая может быть проанализирована, используя интерактивные аналитические инструментальные средства обработки OLAP. С помощью инструментальных средств OLAP можно быстро исследовать все виды кластеризации и различные упорядочения данных, но важно понимать, что большинство операций, которые можно делать с инструментом OLAP, могут также быть выполнены, используя SQL. Преимущество инструментальных средств OLAP состоит в том, что они оптимизированы для этого вида операций поиска и анализа. Однако, процедуры OLAP не так мощны, как процедуры обнаружения знаний, ибо они не могут искать оптимальные решения.

3. Скрытое знание. Это информация, которая может быть найдена относительно легко, используя алгоритмы распознавания образцов или машинного обучения. Для нахождения этих образцов также можно было бы использовать средства SQL, но это потребовало бы невероятно много времени. Алгоритм распознавания образцов может найти регулярности в базе данных за минуты или, в крайнем случае, всего за несколько часов, и в то же время чтобы достигнуть близкий результат, используя SQL средства, необходимо затратить месяцы.

4. Глубокое знание. Это информация, которая хранится в базе данных, но может быть обнаружена только, если имеется ключ, который сообщит нам, где смотреть. Различие между глубоким и скрытым знанием лучше всего можно объяснить в терминах пространства поиска. Скрытое знание - результат поиска в пространстве с пологим холмистым ландшафтом; алгоритм поиска может легко найти приемлемое оптимальное решение. Глубокое знание - это обычно результат поиска в пространстве, где существует только локальный оптимум, и отсутствуют какие-либо указания о любых возвышенностях по соседству. Алгоритм поиска может передвигаться вокруг этого ландшафта сколь угодно долго, не достигая хоть какого либо значительного результата. Примером этого может служить зашифрованная информация, хранимая в базе данных. Почти невозможно декодировать сообщение, которое зашифровано, если Вы не имеете ключа, который указывает что искать.

Сообщение. Сообщение о результатах процесса обнаружения знаний может принимать много форм. В общем случае, можно использовать любой редактор сообщений или графическое инструментальное средство, чтобы сделать доступными результаты процесса.

Заключение

Накопление значительных объемов данных в самых разных областях деятельности человека, ставшее результатом быстрого усовершенствования технологий хранения, обусловливает актуальность разработок, связанных с технологиями извлечения полезной информации из этих данных.

Ценность информации в современном мире очень высока. В основе решения многих задач лежит обработка информации. С развитием экономики и ростом численности населения возрастает и объем взаимосвязанных данных, необходимых для решения коммерческих и административных задач. Для облегчения обработки информации создается ИС. Такая система в первую очередь призвана облегчить труд человека, но для этого она должна как можно лучше соответствовать очень сложной модели реального мира.

Библиографический список

1. Берлинер Э.М., Глазырина И.Б., Глазырин Б.Э. Microsoft Office 2007. – М.: БИНОМ, 2007.

2. В. Дюк. Data Mining – интеллектуальный анализ данных [http://www.iteam.ru/publications/it/section_92/article_1448/] (Дата обращения 26.04.2012).

3. Гаврилова Т.А. и др. Базы знаний интеллектуальных систем. М:2007.

4. Джордж Ф. Люггер. Искусственный интеллект. Стратегии и методы решения сложных проблем. Издательство «Вильямс» - Москва, Санкт-Петербург, Киев – 2008.

5. Управление знаниями [http://msk.treko.ru/show_dict_ 390] (Дата обращения 26.04.2012).

6. Райордан Р. Основы реляционных баз данных. — М.: Русская Редакция, 2009.

7. Хоменко А.Д., Цыганенко В.М., Мальцев М.Г. Базы данных. – СПб.: КОРОНА, 2006.

8. Статья из журнала [http://www.springerlink.com/content/qj16212n7537n6p3/fulltext.pdf] (Дата обращения 27.04.2012).

9. Управление знаниями [http://www.management.com.ua/strategy/str116.html] (Дата обращения 28.04.2012).

10..Кречетов Н.. Продукты для интеллектуального анализа данных. Рынок программных средств.

11. Data Mining [http://www.interface.ru/datamining/datamining.htm] (Дата обращения 25.04.2012).

12. Data mining [http://ru.wikipedia.org/wiki/Data_mining] (Дата обращения 25.04.2012).

13. Data Mining - добыча данных [http://www.basegroup.ru/library/methodology/data_mining/] (Дата обращения 26.04.2012).

14. Алгоритмы кластерного анализа. (Дата обращения 25.04.2012).

Дата добавления: 2015-11-04; просмотров: 148 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Новые возможности обработки баз данных	\|	Материал детали, химический состав и физико-механические свойства.

mybiblioteka.su - 2015-2025 год. (0.018 сек.)