Читайте также: |
|
Структура RBF-сетей.
RBF-сети имеют только один слой скрытых нейронов На рис. 6.1. показана структура RBF-сети. Она содержит один входной слой, один скрытый слой нейронов, число которых обычно соответствует числу элементов в обучающей последовательности, и один выходной слой из одного (на рис. 6.1. представлен именно такой случай) или нескольких нейронов. На рис. 6.1. единственный выходной нейрон выдает значение функции:
Таким образом, по своему построению RBF-сети – это двухслойные FF-сети первого порядка, причем оба слоя соединены весовой матрицей c. Входной вектор x передается на нейроны скрытого слоя. При этом каждый нейрон скрытого слоя получает полную информацию о входном векторе x.
Рис. 6.1. Структура RBF-сети.
Каждый нейрон i скрытого слоя рассчитывает значение одномерной функции hi (например, «колокол» Гаусса):
(6.1) |
где x – входной вектор, x i – i-я опорная точка или i-й образ обучающей последовательности, σi – параметр рассеяния для одномерной функции hi.
В качестве метрики || x – x i || обычно используется эвклидово расстояние:
(6.2) |
Радиальные базисные функции hi (6.1) выполняют предварительную обработку входных векторов, определяя их близость к центрам x i. Выходные значения hi(x) – это степени сходства между входным вектором x и отдельными центрами x i. На основе значений hi(x) определяется взвешенная сумма.
Центры x i определяются на основе обучающей последовательности и имеют ту же размерность n, что и входной вектор. Параметр σi определяется экспериментально. Рис. 6.2. иллюстрирует принцип работы нейрона скрытого слоя.
Рис. 6.2. Принцип работы нейрона скрытого слоя.
Из формулы (6.1) следует: выход нейрона i скрытого слоя тем больше, чем ближе текущий вход x к центру x i. Выход f RBF-сети определяется в виде взвешенной суммы
(6.3) |
Нейроны выходного слоя образуют, следовательно, линейную комбинацию выходов нейронов скрытого слоя (hidden layer). Их функция активации или выхода – это радиальная базисная функция (6.1).
Одномерные RBF-сети могут быть обобщены на многомерные функции. В этом случае в выходном слое размещаются m нейронов по числу аппроксимируемых (или интеполируемых) функций, причем значения на выходе j-го нейрона выходного слоя определяются следующим образом:
(6.4) |
В RBF-сетях в качестве опорных точек в простейшем случае могут быть использованы образы обучающей последовательности. Отметим два преимущества RBF-сетей по сравнению с другими нейросетями:
1. Функция активации или выхода скрытого нейрона принимает большие значения лишь в тех случаях, когда входной образ находится вблизи от опорной точки этого нейрона. Для входов вне области, «покрытой» образами обучающей последовательности, сеть формирует лишь небольшие значения на своих выходах, причем для сетей с сигмоидальными функциями активации или выхода (например, в многослойных перцептронах) эти выходы могут быть вообще не предсказуемы.
2. Простая структура RBF-сетей, содержащих только один слой скрытых нейронов, делает возможным прямой (не итеративный) расчет весов сети. В этом – их большое преимущество по сравнению с другими типами нейронных сетей, которые в большинстве случаев используют трудоемкие рекуррентные алгоритмы обучения. Заслуживает также внимания возможность инициализации RBF-сетей на основе прямого расчета весов с последующим их дообучением на основе алгоритмов обучения с поощрением (например, на основе алгоритма с обратным распространением ошибки – Backpropagation).
3. Формальные нейроны, входная функция и функции активации или выхода нейрона и их виды
Рассмотрим формальный нейрон – простейший элемент теории нейронных сетей. По структуре и принципу работы – это, по сути Персептрон Розенблатта, первой нейросетевой архитектуры.
Формальный нейрон
Нейрон состоит из взвешенного сумматора и нелинейного элемента. Функционирование нейрона определяется формулами:
Где - входные сигналы, совокупность которых формируют вектор ;
- весовые коэффициенты, совокупность которых образуют вектор весов ;
- взвешенная сумма входных сигналов, значение передается на нелинейный элемент;
- пороговый уровень данного нейрона;
- нелинейная функция, называемая функцией активации.
Нейрон имеет несколько входных сигналов и один выходной сигнал .
Виды функций активации
Рассмотрим наиболее распространненые функции активации .
1)Жесткая ступенька
Работа описывается следующей формулой:
2)Сигмоида (функция Ферми)
Функция описывающая сигмоиду:
Часто применяются для многослойных перцептронов и других сетей с непрерывными сигналами. Гладкость, непрерывность функции — важные положительные качества. Непрерывность первой производной позволяет обучать сеть градиентными методами (например, метод обратного распространения ошибки).
Функция симметрична относительно точки (NET=0, OUT=1/2), это делает равноправными значения OUT=0 и OUT=1, что существенно в работе сети. Тем не менее, диапазон выходных значенийот 0 до 1 несимметричен, из - за этого обучение значительно замедляется. Значение производной выражается через саму функцию, что приводит к увеличению скорости расчета производной при обучении сети (см. ниже).
3)Гиперболический тангенс
Функция:
Также часто применяется в сетях с непрерывными сигналами. Производная выражается через саму функцию.
4)SOFTMAX – функция
В данном случае суммирование ведется по всем нейронам данного слоя сети. Такой выбор обеспечивает сумму выходов слоя, равную единице при любых значениях сигнала данного слоя. Это позволяет трактовать выход как вероятность событий, совокупность которых образует полную группу.
Выбор функции активации выбирается в зависимости от задачи, удобством программной (аппартной) реализации, а также алгоритмом обучения.
Ограничения модели нейрона
-В теории нейронных сетей считается, что:
-Вычисления нейрона происходят мгновенно, не внося задержку.
-Нет четких алгоритмов для выбора функции активации.
-Нет механизмов регулирующих работу сети в целом, на подобии гормональной регуляции активности в нервных клетках.
-Модель формального нейрона не является биоподобной и это скорее математическая абстракция.
4. Интерполяция и аппроксимация функций с помощью RBF-сетей
5. Динамические нейронные сети. Сети с внешней и внутренней динамикой
Следующий класс нейронных сетей, который мы рассмотрим, — динамические, или рекуррентные, сети. Они построены из динамических нейронов, чье поведение описывается дифференциальными или разностными уравнениями, как правило, — первого порядка. Сеть организована так, что каждый нейрон получает входную информацию от других нейронов (возможно, и от себя самого) и из окружающей среды. Этот тип сетей имеет важное значение, так как с их помощью можно моделировать нелинейные динамические системы. Это — весьма общая модель, которую потенциально можно использовать в самых разных приложениях, например: ассоциативная память, нелинейная обработка сигналов, моделирование конечных автоматов, идентификация систем, задачи управления.
Нейронные сети с временной задержкой
Перед тем, как описать собственно динамические сети, рассмотрим, как сеть с прямой связью используется для обработки временных рядов. Метол состоит в том, чтобы разбить временной ряд на несколько отрезков и получить таким образом статический образец для подачи на вход многослойной сети с прямой связью. Это осуществляется с помощью так называемой разветвленной линии задержки, см. рис. 1.6.
Архитектура такой нейронной сети с временной задержкой позволяет моделировать любую конечную временную зависимость вида
Поскольку рекуррентные связи отсутствуют, такая сеть может быть обучена при помощи стандартного алгоритма обратного распространения ошибки или какого-то из его многочисленных вариантов. Сети такой конструкции успешно применялись в задачах распознавания речи, предсказания нелинейных временных рядов и нахождения закономерностей в хаосе.
Сети Хопфилда
С помощью рекуррентных сетей Хопфилда можно обрабатывать Неупорядоченные (рукописные буквы), упорядоченные по времени (временные ряды) или пространстве (графики, грамматики) образцы. Рекуррентная нейронная сеть простейшего вида была введена Хопфиллом;она построена из N нейронов, связанных каждый с каждым, причем все нейроны являются выходными.
Сети такой конструкции используются, главным образом, в качестве ассоциативной памяти, а также в задачах нелинейной фильтрации данных и грамматического вывода.
6. Применение сетей Хопфилда (Hopfield) для решения проблем оптимизации (TSP-проблема). Заданы 4 города A,B,C,D. Опишите маршрут С,B,D,A с помощью матрицы Хопфилда. Двунаправленная ассоциативная память
Дата добавления: 2015-11-30; просмотров: 99 | Нарушение авторских прав