Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Формирование уменьшенного набора данных

Читайте также:
  1. I. Создание базы данных
  2. I. Формирование системы военной психологии в России.
  3. IV. Информирование и участие общественности в процессе оценки воздействия на окружающую среду
  4. База данных MySQL
  5. Байт – машинное слово минимальной размерности, адресуемое в процессе обработки данных.
  6. Ввод данных с клавиатуры
  7. Влияние антиоксиданта тиофана на формирование органов пищеварительной системы зеркального карпа в раннем периоде онтогенеза.

Данные про ирисы содержат 150 наблюдений - это довольно много, и сеть будет обучаться медленно. Для учебных целей давайте сократим объем данных до 60 наблюдений. При этом мы заодно познакомимся с некото­рыми возможностями Редактора данных - Data Set Editor.

Кроме того, мы разобьем данные на две группы: обучающее множество (Training Set) будет использоваться для обучения сети, а контрольное множество (Verification Set) - для проверки качества ее работы.

Чтобы сформировать сокращенный набор данных, сделайте следующее:

1. Откройте набор данных Iris.sta и вызовите Редактор данных - Data Editor.

2. Выделите наблюдения 21-50, для этого прокрутите таблицу так, что­бы стало видно наблюдение номер 20, щелкните на метке его строки, и либо протащите мышь до нижней границы диапазона, либо выдели­те его клавишами стрижа вниз и page down при нажатой клавише SHIFT.

3. Нажмите правую кнопку мыши и выберите из контекстного меню пункт Не учитывать - Ignore. Отмеченные наблюдения будут выде­лены серым цветом, и программа ST Neural Networks не будет исполь­зовать их при обучении.

4. Проделайте всего же самое для наблюдений 71-100 и 121-150.

5. Поменяйте число наблюдений в обучающем множестве - (оно указано в поле Обучающее - Training) с 60 на 30. Программа ST Neural Networks автоматически отнесет оставшиеся наблюдения к контроль­ному множеству, так что теперь у нас будет 30 обучающих и 30 кон­трольных наблюдений.

6. Нажмите кнопку Перемешать - Shuffle - обучающие и контрольные наблюдения будут взяты случайным образом среди всех 60 наблюде­ний. Вы заметите это, взглянув на таблицу. Обучающие наблюдения показаны черным цветом, а контрольные - красным.

Обучение с кросс-проверкой

 

Обсуждение

Мы разделили данные на две части: обучающее и контрольное подмноже­ства.

Стандартный способ обучения нейронных сетей заключается в том, что сеть обучается на одном из множеств, а на другом проверяется результат; таким образом, контрольное множество для обучения не используется. Это дает независимый способ проверки того, научилась ли сеть чему-нибудь полезному.

В отсутствие кросс-проверки сеть с большим числом весов и не слишком большим набором обучающих данных, скорее всего, будет слишком близ­ко следовать обучающим данным («чрезмерная подгонка») и восприни­мать не столько структуру данных, сколько содержащиеся в них помехи.

Способность сети не только учиться на обучающих данных, но и показы­вать хорошие результаты на совершенно новых данных (т.е. таких, кото­рые сеть до того не видела), называется обобщением. Хорошо ли сеть обобщает, в пакете ST Neural Networks можно определить, следя за кон­трольной ошибкой - она должна быть достаточно мала. Может случиться так, что после нескольких прогонов обучающего алгоритма ошибка обу­чения падает почти до нуля, в то время как контрольная ошибка сначала убывает, а потом снова начинает расти. Это верный признак переобуче­ния, и при росте контрольной ошибки обучение следует прервать.

Если контрольное множество используется описанным способом, то, строго говоря, по окончании обучения следует проверить работу сети еще на одном - третьем множестве, которое вообще никак не участвовало в обучении и даже в контролировании результатов. Поскольку наилучшая сеть определяется по контрольному множеству, может получиться так, что выбранная сеть совершенно случайно дает на нем хорошие результа­ты. Чтобы избежать такой ситуации, нужно какое-то количество наблю­дений оставить для тестового множества. Оно будет использоваться толь­ко после того, как будет сформирован окончательный вариант сети. Если данных не слишком много и все их желательно использовать для обуче­ния и контроля, то с этим этапом возникают трудности. Многие пользова­тели нейронных сетей вообще не заботятся о тестовых множествах.

В пакете ST Neural Networks автоматически учитывается разбиение дан­ных на обучающее, контрольное и тестовое множества. Все алгоритмы используют для обучения только обучающее множество, а результаты и ошибки выводятся отдельно по каждому из этих трех множеств. Кроме того, как мы уже убедились, есть возможность не учитывать некоторые наблюдения. Это бывает полезно в тех случаях, когда данных слишком много или когда есть подозрение, что некоторые данные искажены.


Дата добавления: 2015-11-30; просмотров: 20 | Нарушение авторских прав



mybiblioteka.su - 2015-2024 год. (0.007 сек.)