Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Користувачі і дії дейтамайнінгу

Читайте также:
  1. Вирішення земельних спорів – це спосіб захисту суб’єктивних прав і законних інтересів землекористувачів і власників земельних ділянок.
  2. Еволюція інформаційних потреб користувачів та можливостей СППР
  3. Залучення користувачів
  4. Наявність ризиків завдання шкоди здоров’ю користувачів офісною технікою.

Необхідно відрізняти описані щойно процеси від дій дейтамайнінгу, за допомогою яких процеси дейтамайнінгу мо­жуть бути виконані, і користувачів, які виконують ці дії. Спершу про користувачів. Дії дейтамайнінгу, зазвичай, виконуються трьома різними типами користувачів: виконавцями (executives), кінцевими користувачами (end users) і аналітиками (analysts). Усі користувачі, як правило, виконують три види дії дейтамайнінгу всередині корпоративного середовища: епізодичні; стратегічні; безперервні (постійні).

Безперервні і стратегічні дії дейтамайнінгу часто стосуються безпосередньо виконавців і менеджерів, хоч аналітики також мо­жуть у цьому їм допомагати.

9.3.4. Дерево методів дейтамайнінгу

Технології дейтамайнінгу використовують вели­ку кількість методів, частина з яких запозичена з інструмента­рію штучного інтелекту, а інша належить або до класичних статистичних методів, або до інноваційних методів, породже­них останніми досягненнями інформаційних технологій. Ви­щий рівень класифікації методів дейтамайнінгу може ґрунту­ватися на тому, чи зберігаються дані після дейтамайнінгу не­змінними, чи вони фільтруються для подальшого викорис­тання.

На рис. 9.8 показано дерево методів дейтамайнінгу, де відо­бражені основні види і підвиди методів, причому гілкування мож­на продовжити, оскільки низка методів, наприклад, кластернии аналіз, нейромережі, дерева рішень мають багато різновидів. Оскі­льки деякі з наведених методів були розглянуті поверхово раніше в контексті ідентифікації інструментів штучного інтелекту чи як складові деяких продуктів дейтамайнінгу, то зупинимося на ко­роткому аналізі складових дерева методів дейтамайнінгу. Доклад­нішому висвітленню нейромереж, генетичних алгоритмів і про­грамних агентів будуть присвячені окремі параграфи даного роз­ділу.


Збереження даних (Data Retention)

У той час, як при дистиляції шаблонів ми аналізуємо Дані, виділяємо необхідний зразок і потім залишаємо їх, то, за­стосовуючи метод збереження, дані зберігаються для зіставляння з шаблоном. Коли надходять нові елементи даних, то вони порів­нюються з попереднім рядом даних.

Метод «найближчого сусіда» (самий схожий сусід, «nearest neighbor») — добре відомий приклад підходу, який ґрунтується на збереженні даних. При цьому ряд даних тримається в пам'яті Для порівняння з новими елементами даних. Коли презентується новий запис для передбачення, знаходяться «відхилення» між ним і подібними низками даних, а найподібніший ідентифікується.


Міркування за аналогією (case-based reasoningCBR) або мір. кування за прецедентами (аналогічними випадками). Даний метод має дуже просту ідею: щоб зробити прогноз на майбутнє або ви­брати правильне рішення, система CBR знаходить близькі анало­гії в минулому за різних умов і відбирає ту відповідь, яка за схо­жими ознаками була правильною. Інструментальні засоби міркування за прецедентами знаходять записи в базі даних, які подібні до описаних записів. Користувач описує, яким сильним зв'язок має бути перед тим, як новий випадок пропонується увазі. Цей тип інструментальних засобів також називається міркуван­ням на основі пам'яті (memory-based reasoning).

Кластерний аналіз — це спосіб групування багатовимірних об'єктів, що базується на поданні результатів окремих спостере­жень точками геометричного простору з наступним виділенням груп як «грон» цих точок. Термін «кластерний аналіз» запропо­нований К. Тріоном 1939 року (cluster, англ. — гроно, скупчення, пучок). Синонімами (хоч з обмовками і не завжди) є вирази: ав­томатична класифікація, таксономія, розпізнавання без навчання, розпізнавання образів без учителя, самонавчання та ін. У дейта-майнінгу використовується, головно, для класифікації (так­сономії).

Основна мета кластерного аналізу — виділити у початкових багатовимірних даних такі однорідні підмножини, щоб об'єкти всередині груп були схожими за певними ознаками, а об'єкти з різних — несхожими. Під «схожими» розуміється близькість об'єктів у багатовимірному просторі ознак, і тоді завдання зво­диться до виділення в цьому просторі природних скупчень об'єктів, які і вважаються однорідними групами. В кластерному аналізі використовуються десятки різних алгоритмів і методів (один з таких методів — K-Means реалізований у системі дейта-майнінгу KnowledgeSTUDIO).

Дистиляція даних (Data Distilled)

Застосовуючи цей метод, вибирають шаблон (взірець) з низки даних, а потім використовують його з різними цілями. При­родно, тут виникають два запитання: 1) «Які типи шаблонів мо­жуть бути вибрані?» і 2) «Як вони будуть подаватися?» Очевидно, шаблон потрібно виражати формально і за допомогою мови. Ця альтернатива приводить до чотирьох виокремлених підходів: логі­чних; візуалізація; на основі рівнянь; крос-табуляція. Кожний із цих підходів історично має чіткі математичні корені. Зупинимося


коротко на підході «крос-табуляції» (Cross Tabulation), який недо­статньо описаний в україномовній літературі.

Крос-табуляція або перехресна табуляція (перехресні табличні дані) є основною і дуже простою формою аналізу даних, добре відомою в статистиці і широко використовуваною для створення звітів. Двохвимірна крос-таблиця (cross-tab) подібна до електрон­ної таблиці як щодо заголовків рядків і стовпців, так і щодо атри-бутних значень. Комірки (cells) у таблиці являють собою агрегова-ні операції, зазвичай, ряду атрибутних значень, що зустрічаються (co-occurances) разом. Багато крос-таблиць за ефективністю рів­ноцінні трьохвимірним стовпчиковим діаграмам (гістограмам) — (3D bar graph), що показують сумісні рахунки.

Довірчі мережі, як один із різновидів крос-табуляції, зазвичай, ілюструються з використанням графічного подання розподілу ймовірностей (отриманого шляхом підрахунків). Довірча мережа є орієнтованим графом (directed graph), що складається з вершин (змінні подання) і дуг (зображення ймовірнісної залежності) між вершинами змінних.

9.4. Нейронні мережі

9.4.1. Визначення та еволюція нейронних мереж

Нейронна мережа (Neural Network) або просто нейро-мережа є програмно (інколи апаратно) реалізованою системою, в основу якої покладена математична модель процесу передавання і оброблення імпульсів мозку людини, що імітує механізм взаємодії нейронів (neuron) з метою опрацювання інформації, що надходить, і навчання досвіду. Інакше кажучи, проводиться комп'ютеризована імітація інтелектуального режиму поведінки людини. Ключовим аспектом штучних нейромереж є їх здатність навчатися в процесі розв'язання задач, наприклад, розпізнавання образів.

Еволюція штучних нейронних систем проходила протягом бі­льше ніж двох тисяч років. Інтерес до моделювання людської си­стеми навчання може бути віднесений до епохи Китайських май­стрів, тобто ще майже 200 років до нашої ери. Однак найбільші Дослідження з розроблення функції простого нейрона були про­ведені в кінці 30-х років XX століття Уореном Мак-Каллоком (Warren McCulloch) і Уолтером Піттсом (Walter Pitts), що може


розглядатися як реальна стартова точка в даній галузі знань 1943 року ці автори опублікували свої результати в книзі «Логіч­не числення ідей, що стосуються нервової діяльності».

Згідно з теорією Мак-Каллока і Піттса, виведення даних від нейрона має математичне значення, що дорівнює зваженій сумі введень. Хоч і було доведено, що ці прості нейрони можуть бути відмінними обчислювальними пристроями, коли використову­ються відповідні ваги, відчувалася відсутність універсального правила навчання, тобто методу для регулювання ваг у нейрон-них функціях.

Одне з найзнаменитіших правил (законів) навчання було за­пропоновано 1949 року Дональдом Геббом (Donald Hebb). У цьому правилі стверджується, що з більшою частотою сприяє збудженню одного нейрона перша секунда, тобто ефективнішим буде вплив на першій секунді. Отже, пам'ять зберігається в синап-тичних зв'язках мозку, і навчання відбувається зі змінами в силі цих зв'язків.

Першим нейрокомп'ютером (neurocomputer) можна вважати пристрій «Snark», який розробив М. Мінський (Marvin Minsky) на початку 50-х років XX ст., що розглядається багатьма вченими як перший комп'ютерний аналог людського мозку. Хоча з технічно­го боку пристрій мав певний успіх, проте він був неспроможним виконати будь-яку значну функцію з оброблення інформації.

У середині 50-х років Франк Розенблат (Frank Rosenblatt), нейрофізик з університету Cornell (США), розробив пристрій апаратних засобів персептрон (Perceptron) — електронний при­стрій для розпізнавання зорових образів (зображень). В персепт-роні використані штучні нейронні структури, які Розенблат на­звав персептронами, комбінованими з простим правилом на­вчання. Персептрон міг узагальнювати й реагувати на незнайомі ввідні стимули. Хоч успіх Розенблата і сприяв появі надій на швидке створення штучного мозку, проте М. Мінський і С. Па-перт (Seymour Papert), піонери в галузі штучного інтелекту, дове­ли, що персептрони Розенблата не зможуть розв'язати прості проблеми логіки, що послужило тимчасовим гальмом досліджен­ня нейромереж. Реальні досягнення щодо створення та широкого застосування нейромереж отримані за останні десять років.

Сучасні інструментальні засоби нейромереж використовують­ся для сприймання інформації за допомогою вивчення взірців (шаблонів) і потім застосовування їх з метою передбачення май­бутніх зв'язків або відношень. Нейромережі є найзагальнішим типом методики дейтамайнінгу, причому деякі люди навіть вва-


нэть, щ0 використання нейромереж є єдиним типом дейтамай-нінгу. Продавці нейромережевих програмних продуктів часто використовують багато необгрунтованих рекламних тверджень стосовно можливостей нейромереж. Одним із таких тверджень, яке є особливо сумнівним, є те, що нейромережі можуть компен­сувати низьку якість даних.

Нейромережі навчаються створювати взірці безпосередньо з даних за допомогою повторного їх вивчення, щоб ідентифікувати зв'язки і побудувати модель. Вони будують моделі методом проб і помилок. Мережа підбирає значення параметра шляхом зістав­лення з фактичною величиною. Якщо приблизна оцінка вихідно­го параметра неправильна, то модель регулюється. Цей процес включає три ітеративні кроки: передбачення, порівняння і при­стосування (або корегування). Нейромережі досить просто засто­совуються в СППР з метою класифікування даних і для передба­чень. При цьому вхідні дані комбінуються і зважуються, на основі чого генеруються вихідні значення.

Передусім, коли йдеться про нейронні мережі, то частіше ма­ються на увазі штучні нейронні мережі. Деякі з них моделюють біологічні нейронні мережі, а деякі — ні. Однак історично скла­лося так, що перші штучні нейронні мережі були створені вна­слідок спроб створити комп'ютерну модель, що відтворює діяль­ність мозку в спрощеній формі. Звичайно, можливості людського мозку незмірно більші, ніж можливості самої потужної штучної нейронної мережі.

Сучасні нейромережі мають низку властивостей, характерних для біологічних нейромереж, у тому числі й людського мозку. Головна їх властивість — здібність до навчання. Для розв'язання якої-небудь задачі на комп'ютері традиційним методом необхід­но знати правила (математичні формули), за якими зі вхідних да­них можна отримати вихідні, тобто знайти розв'язок задачі. А за Допомогою нейромережі можна знайти розв'язок, не знаючи пра­вил, а маючи лише кілька прикладів.

Нейромережі використовують підхід до розв'язання задач ближчий до людського, ніж традиційні обчислення. Дійсно, на­приклад, коли людина переходить вулицю, вона оцінює швид­кість руху автомобіля, виходячи з попереднього досвіду, не ви­користовуючи математичних обчислень. Або, наприклад, як Дитина без великих зусиль може відрізнити кішку від собаки, або Дівчинку від хлопчика, ґрунтуючись на раніше бачених прикла­дах. При цьому часто вона не може точно сказати, за якими озна­ками вона їх відрізняє, тобто дитина не знає чіткого алгоритму.


Інша важлива властивість нейромереж — здатність знаходити розв'язки, ґрунтуючись на змішаних, загальних, спотворених і навіть суперечливих даних. Ще одна чудова властивість — це стійкість до відмов у функціонуванні. У разі виходу з ладу час­тини нейронів, уся мережа загалом залишається працездатною, хоча, звичайно, точність обчислень знижується.

9.4.2. Застосування нейронных мереж

Поява і широке застосування останнім часом нейроме­реж і нейрокомп'ютерів зумовлено низкою важливих підстав. По-перше, дуже багато задач з інформатики та економіки не мож­на розв'язати класичними методами теорії управління, оптимі-зації і системного аналізу. Річ у тім, що будь-який проектуваль­ник складних систем має справу з тим самим комплексом проб­лем, що погано піддаються розв'язанню традиційними методами. Неповнота знань про зовнішній світ, неминуча погрішність да­них, які надходять, непередбачуваність реальних ситуацій — усе це змушує розробників мріяти про адаптивні інтелектуальні сис­теми, які здатні підстроюватися до змін у «правилах гри» і само­стійно орієнтуватися за складних умов.

По-друге, «прокляття розмірності» стає реальним стримую­чим чинником за розв'язання багатьох (якщо не більшості) сер­йозних задач. Проектувальник не в змозі врахувати і звести в за­гальну систему рівнянь всю сукупність зовнішніх умов, особливо за наявності безлічі активних протидій. Тому самостійна адапта­ція системи в процесі динамічного моделювання «умов, набли­жених до бойових» — чи не єдиний спосіб розв'язування задач за таких обставин.

Нейромережі (нейрокомп'ютери) забезпечують користувачів надзвичайно гнучким і в певному розумінні універсальним аналі­тичним інструментарієм. Вони дають змогу розв'язувати досить різні типи задач. Охарактеризуємо деякі з них.

Класифікація образів. Завдання полягає у визначенні належ­ності вхідного образу (наприклад, мовного сигналу або рукопис­ного символа), поданого вектором ознак, одному або кільком за­здалегідь визначеним типам. До відомих додатків відносяться розпізнавання букв, розпізнавання мови, класифікація сигналу електрокардіограми, класифікація клітин крові тощо.

Кластеризація/категоршація. За розв'язання завдання з кластери-зації, яке відоме також як класифікація образів «без учителя», відсу-


тНЯ навчальна вибірка з мітками типів. Алгоритм кластеризації ґрун­тується на подібності образів і розміщує схожі образи в один клас­тер. Відомі випадки застосування кластеризації для добування знань, стиснення даних і дослідження їх властивостей.

Апроксимація функцій. Допустимо, що є навчальна вибірка (х1 уі), (хг, Уг) ••, (х„, Уп) (пари відповідних даних входу-виходу), яка генерується невідомою функцією F(x), спотвореною шумом. За­вдання апроксимації полягає в знаходженні оцінки невідомої фун­кції F(x). Апроксимація функцій необхідна за розв'язання числен­них інженерних і наукових завдань з моделювання.

Передбачення/прогнозування. Нехай задані п дискретних зна­чень \y(t\), y{h)..., y{tn)} у послідовні моменти часу % Гг,...,?„. За­вдання полягає в прогнозуванні значення у (t„+ 1) в деякий май­бутній момент часу tn + 1. Передбачення мають значний вплив на прийняття рішень у бізнесі, науці і техніці. Прогноз цін на фон­довій біржі і прогноз погоди є типовими додатками методів пе­редбачення/прогнозування.

Оптимізація. Численні проблеми в економіці та інших науко­вих галузях можуть розглядатися як проблеми оптимізації. За­вданням алгоритму оптимізації є знаходження такого розв'язку, який задовольняє систему обмежень і максимізує або мінімізує цільову функцію.

Контекстно-адресована пам'ять. У моделі обчислень фон Неймана, що послужила базисом традиційної обчислювальної техніки, звернення до пам'яті було можливим тільки за допомо­гою адреси комірки пам'яті, яка не залежить від її змісту. Більше того, якщо допущена помилка в адресі, то може бути знайдена абсолютно інша інформація. Контекстно-адресована (асоціатив­на) пам'ять або пам'ять, що адресується за змістом, доступна за вказівкою заданого змісту. Асоціативна пам'ять надзвичайно ба­жана за створення мультимедійних інформаційних баз даних.

Управління. Розглянемо динамічну систему, задану сукупніс­тю {и(0, у(і)}, де u(t) є вхідним керуючим впливом, a y(t) — ви­ходом системи в момент часу t. У системах управління з еталон­ною моделлю мети управління є можливість розрахунку такої величини вхідного впливу u(t), при якій система рухається за ба­жаною траєкторією, що визначається еталонною моделлю.

У принципі, нейронні мережі можуть обчислювати значення будь-яких функцій, інакше кажучи, виконувати все, що можуть робити традиційні комп'ютери. На практиці для того, щоб засто­сування нейронної мережі було доцільним, необхідно, щоб задача мала такі ознаки: невідомий алгоритм або принципи розв'язання


задачі, але накопичена достатня кількість прикладів; проблема ха­рактеризується великими обсягами вхідної інформації; дані непов­ні або надмірні, містять шуми, частково суперечливі.

Отже, нейронні мережі добре підходять для розпізнавання об­разів і розв'язання задач з класифікації, оптимізації і прогнозу­вання. Нижче наведений перелік можливих застосувань нейрон-них мереж у промисловості, на базі яких або вже створені комерційні продукти, або реалізовані демонстраційні прототипи.

Банки і страхові компанії, автоматичне зчитування чеків і фі­нансових документів; перевірка достовірності підписів; оцінювання ризику для позик; прогнозування змін економічних показників.

Адміністративне обслуговування: автоматичне зчитування до­кументів; автоматичне розпізнавання штрихових кодів.

Нафтова і хімічна промисловість: аналізування геологічної інформації; ідентифікація зіпсувань обладнання; розвідування по­кладів мінералів за даними аерофотознімків; аналіз складу домі­шок; управління процесами.

Військова промисловість і аеронавтика: оброблення звукових сигналів (поділ, ідентифікація, локалізація, усунення шуму, інтер­претація); оброблення радарних сигналів (розпізнавання цілей, іден­тифікація і локалізація джерел); оброблення інфрачервоних сигналів (локалізація); узагальнення інформації; автоматичне пілотування.

Промислове виробництво: керування маніпуляторами; управ­ління якістю; управління процесами; виявлення зіпсувань; адап­тивна робототехніка; керування голосом.

Служба безпеки: розпізнавання осіб, голосів, відбитків пальців.

Біомедична промисловість: аналіз рентгенограм; виявлення відхилень в електрокардіограмах.

Телебачення і зв'язок: адаптивне управління мережею зв'язку; стиснення і відновлення зображень.

Можна продовжувати наведення прикладів вдалого викорис­тання технологій нейронних мереж. Проте є низка недоліків, по­в'язаних із застосуванням для розв'язання задач з ідентифікації взірців інформації. Головним із них є те, що для навчання нейро-мережі потрібна велика кількість фактичної інформації (кількість спостережень від 50 до 100). Для аналітичних задач у бізнесі це не завжди можна забезпечити. Крім цього, неявне навчання при­зводить до того, що структура зв'язків між нейронами стає «не­зрозумілою» — не існує іншого способу її прочитати, крім як за­пустити функціонування мережі. Стає складно відповісти на запитання: «Як нейронна мережа отримує результат?»— тобто побудувати зрозумілу людині логічну конструкцію, що відтво-


рює дії мережі. Це явище можна назвати «логічною непрозоріс­тю» нейронних мереж, навчених за неявними правилами. Навіть добре натренована нейромережа являє собою «чорний ящик», тобто систему, в якій зовнішньому спостерігачеві доступні лише вхідні та вихідні величини, а внутрішня будова її та процеси, що в ній перебігають, невідомі.


Дата добавления: 2015-08-13; просмотров: 158 | Нарушение авторских прав


Читайте в этой же книге: Залучення користувачів | Управління змінами | Загальна характеристика експертних систем | Компоненти технології експертних систем, які застосовуються в орієнтованих на знання СППР | Пряме доведення | МАТРИЦЯ ПРАВИЛ ОРІЄНТОВАНОЇ НА ПРАВИЛА СППР | ПОДІБНІСТЬ МОДУЛІВ СППР І ЕС | Фактори успіху для здійснення інтелектуальної підтримки управління | Машини правил | PolyAnalyst |
<== предыдущая страница | следующая страница ==>
KnowledgeSTUDIO| Біологічні нейрони і нейромережі

mybiblioteka.su - 2015-2024 год. (0.013 сек.)