Читайте также:
|
|
1. Запустите RapidMiner (Z:\20122013Весна)
Запустите RapidMiner (.ехе файл на рабочем столе)
2. В появившимся окне выберете создание нового процесса
3. Для создания репозотория необходимо нажать на кнопку. Репозиторий используется для хранения данных во внутреннем формате Rapid Mining
4. Создайте новый репозиторий. Для этого выберите пункт указанный ниже и нажмите next.
5. Замените стандартное название репозитория на Practic_1_ФИО, укажите путь, где будут храниться данные. Для этого нажмите на
6. В появившемся окне укажите путь к вашей папке (Z:\Весна20122013\номер группы\ФИО Создайте новую папку – назовите ее DM.
7. После создания, выберите ее и нажмите кнопку open. Итоговый результат должен выглядеть следующим образом
8. Если все указано верно нажмите Finish
9. Обратите внимание, появился ли репозиторий Practic_1_ФИО
10. При отсутствии репозотория необходимо нажать на кнопку создания репозитория. и выполнить пункты 3-7
11. После создания репозитория необходимо создать в нем две папки. Папку Proc для хранения процессов и моделей, и папку Data для хранения исходных данных. Создание папки осуществляется с помощью кнопки
12. Разберем основные меню и окна представленные в RapidMiner
|
|
13. Приступаем к созданию процесса. Для начала необходимо загрузить данные. Для этого нажимаем на и выбираем пункт импортировать лист из Excel
14. Указываем путь к файлу Z:\Весна20122013\Задания\DataMining\Practic_1\Исходные данные_(вариант). Выберите свой вариант нажмите next.В появившемся файле выберите лист с данными (лист не должен быть пустым), нажмите next.
15. Первая строка это заголовки столбцов, поэтому необходимо в столбце Annotation для первой строки выбрать из списка Name. Нажмите next
16. В исходных данных находится информация в разных форматах.
· для классов определяется вид данных label (в нашем случае классом является диагноз)
· для порядкового номера вид данных id
· остальные данные являются атрибутами
· для качественных данных уставите тип данных nominal
· для целых значений – integer
· для значений с плавающей точкой – real
После определения вида и типа данных нажмите Next
17. Сохраните данные как Practic_1 в репозитории в папке Data.
18. Приступаем непосредственно к созданию процесса. На первом этапе необходимо вывести на рабочее поле оператор Retrieve. Если автоматически связь не появилась, необходимо ее сделать самостоятельно. Нажав на порт out у оператора и удерживая дотянуть до порт res на рабочем поле.
19. Необходимо загрузить данные для этого нажав на в панель Parametes укажите путь к папке Data
20. Запустите процесс, нажав на кнопку . Сохраните процесс в папке Proc, как Practic_1_data. На вопросы в деловых окнах отвечаем ОК. Для просмотра результатов более подробно перейдите с вкладки ResultOverview на ExampleSet.
В отчете необходимо отразить статистику и ранжирование данных (screenshot)
21. Для того что бы вернуться на рабочий лист создания процесса нажмите
22. Создайте процесс с использованием модели деревьев решений. Создайте новый процесс, нажав на . Повторите действия, описанные в пунктах 18-19, для того что бы вывести на рабочее поле оператор Retrieve.
23. Из списка операторов необходимо выбрать оператор Validation и связать с оператором Retrieve, как показано на рисунке ниже.
В отчет необходимо вставить screenshot созданного процесса,
24. Двойным щелчком откройте оператор Validation. Данный оператор состоит из двух разделенных панелей. В первой панели исходные данные происходит обучение модели, во второй модель тестируется.
В первое поле необходимо перенести оператор для построения модели Decision Tree. Во второе Apply Model и Performance.
Apply Model- оператор применения построенного дерева к тестовой выборки
Performance- используется для визуализации результатов, результатом работы данного оператора является таблица в которой отражена точность определения того или иного класса.
25. Установите связи между операторами согласно рисунку представленному ниже, запустите процесс, сохранив его в папке Proc, как Practic_1_Tree
В отчет необходимо вставить screenshot содержимого оператора Validation
26. Для просмотра результатов более подробно перейдите с вкладки ResultOverview на PerformansVector. Оцените точность (accuracy) используя следующую таблицу.
В отчет необходимо вставить screenshot содержимого вкладки PerformansVector, сформулировать вывод относительно точности
Интервал точности | Значение |
0-20 | очень низкая |
20-40 | низкая |
40-60 | посредственная |
60-80 | высокая |
80-100 | очень высокая |
27. Для просмотра дерева решений перейдите на вкладку Tree. Оцените полученные результаты, какой признак стал корневым. Перейдите с GraphView на TextView. ознакомьтесь текстовое представление дерева решений.
В отчет необходимо вставить screenshot содержимого вкладки Tree, сформулировать выводами относительно атрибутов, признаков
Дата добавления: 2015-11-14; просмотров: 61 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Метод k-ближайших соседей | | | социологического факультета специальности «социология » группы 11301.30 |