Аппроксимация функций.

Читайте также:

Вторая задача, которую мы рассмотрим это задача аппроксимации функций. Рассмотрим теперь сеть, нейроны которой в качестве функции активации имеют не ступеньку, а некоторую непрерывную функцию, например, сигмоид. В этом случае выход сети будет некоторой непрерывной функцией ее входов. Конкретный вид этой функции определяется весовыми коэффициентами каждого из нейронов.

Возникает вопрос, какие функции могут быть аппроксимированы с помощью нейронной сети? Ответ дается обобщенной теоремой Стоуна. Не вдаваясь в математические тонкости ее можно интерпретировать как утверждение об универсальных аппроксимационных возможностях произвольной нелинейности: с помощью линейных операций и каскадного соединения можно из произвольного нелинейного элемента получить устройство, вычисляющее любую непрерывную функцию с любой наперед заданной точностью.

То есть нейросеть с произвольной функцией активации может аппроксимировать произвольную непрерывную функцию. При этом, как оказывается всегда достаточно трехслойной сети. Нужна большая точность – просто добавь нейронов.

Как частный случай задачи аппроксимации можно рассмотреть задачу предсказания временных рядов. На вход сети мы подаем некоторое количество предыдущих значений, затем, а на выходе ожидаем получить значение в следующий момент времени.

Мы рассмотрели некоторые возможности только многослойных сетей прямого распространения. Ясно, что они могут практически все, что угодно. Возникает вопрос, как подобрать такие весовые коэффициенты, чтобы сеть решала задачу распознавания или аппроксимировала некоторую функцию? Замечательное свойство нейронных сетей состоит в том, что их этому можно научить.

Алгоритмы обучения бывают 3-х видов:

1 Обучение с учителем. При этом сети предъявляется набор обучающих примеров. Каждый обучающий пример представляют собой пару: вектор входных значений и желаемый выход сети. Скажем, для обучения предсказанию временных рядов это может быть набор нескольких последовательных значений ряда и известное значение в следующий момент времени. В ходе обучения весовые коэффициенты подбираются таким образом, чтобы по этим входам давать выходы максимально близкие к правильным.

2 Обучение с поощрением. При этом сети не указывается точное значение желаемого выхода, однако, ей выставляется оценка хорошо она поработала или плохо.

3 Обучение без учителя. Сети предъявляются некоторые входные векторы и в ходе их обработки в ней происходят некоторые процессы самоорганизации, приводящие к тому, что сеть становиться способной решать какую-то задачу.

Теорема Колмогорова

Теорема Колмогорова (1957 г.):

Любая непрерывная функция от n переменных F  x 1, x 2,..., xn  может быть

представлена в виде

F  x 1, x 2,..., xn =Σ j =12n1 g j Σ i =1 nhij  xi , (1.9)

где g j и hij непрерывные

функции, причем hij не зависят от функции F.

Эта теорема означает, что для реализации функций многих переменных достаточно операций суммирования и композиции функций одной переменной. Конечно, применить эту теорему на практике достаточно сложно, поскольку ничего неизвестно о виде функций входящих в выражение для F. Однако эта теорема показала принципиальную возможность реализации сколь угодно сложных зависимостей с помощью относительно простой нейронной сети, называемой многослойным персептроном. Схема такой сети показана ниже на блоксхеме.

На данной схеме W матрица весов связей между входными нейронами и нейронами скрытого слоя, которые собственно и реализуют функцию активации; V матрица весов связей между выходами нейронов скрытого слоя и выходным нейроном сети. Собственно такую сеть называют трехслойным персептроном имея в виду входной слой, выходной слой и скрытый слой нейронов реализующих функцию активации. Такая сеть реализует следующее отображение:

y =Σ i =1 Hvi f  wi,0 wi,1 x 1 wi,2 x 2... wi,m xm , (1.10)

Здесь f – функция активации нейрона скрытого слоя.

Аппроксимация функции

В работах Кибенко [35], Фунахаши [36], и Хорника [37] было показано, что МСП может аппроксимировать непрерывную функцию любого типа. В [37] это свойство представлено в виде теоремы универсальной аппроксимации, которая гласит:

Пусть  () — непрерывная непостоянная функция, и пусть C —множество непрерывных функций, заданных на g. Тогда для любых fC и  >0 существует такое целое h и набор вещественных a i, bi, wij, где i= 1 ,...,h и j= 1 ,...,g, что

(1.14)

является аппроксимацией функции f (). То есть

(1.15)

для всех { x 1,..., xg } g.

Это — обобщение известной теоремы об аппроксимации конечными рядами Фурье [30]. Важно, что активационной функцией () может быть любая непрерывная непостоянная функция, а не только перечисленные выше (1.5)—(1.11).

Теорема универсальной аппроксимации является теоремой существования, она определяет необходимые, но не достаточные условия аппроксимации произвольной непрерывной функции. Как видно, (1.14) описывает трехслойный перцептрон, однако существуют аналоги этой теоремы для случая многослойного перцептрона и других типов ИНС. Тем не менее, ни одна из них не утверждает оптимальность того или иного типа ИНС. Теорема универсальной аппроксимации не дает также рекомендаций по выбору размера скрытого слоя h. Поэтому вопрос о типе и размере ИНС должен решаться в каждом конкретном случае опытным путем.

В работе [38] была рассмотрена трехслойная прямонаправленная сеть с сигмоидальной активационной функцией нейронов скрытого слоя. Для нее было показано, что в случае решения задачи аппроксимации некоторой непрерывной функции f (), общий риск r, определяемый как среднеквадратичная интегральная ошибка между функцией и ее аппроксимацией, ограничен величиной

, (1.16)

где h — размер скрытого слоя сети,

g — количество входных нейронов,

N — количество тренировочных шаблонов.

Риск r является оценкой возможности ИНС обобщать новые данные. Ограничение (1.16) показывает, что существуют два противоречивых условия, определяющие выбор размера скрытого слоя сети h:

ñточность наилучшей аппроксимации (по данным из тренировочного набора), которая в соответствии с теоремой универсальной аппроксимации требует достаточно большого количества скрытых нейронов h;

ñточность эмпирической аппроксимации (по данным не вошедшим в тренировочный набор), которая требует, чтобы отношение размера скрытого слоя к размеру тренировочного набора h / N было достаточно мало.

Отсюда следует, что в случае МСП достижение определенной точности аппроксимации не требует экспоненциального увеличения размера тренировочного набора данных. Другим важным выводом является то, что для больших N ошибка оценивания ИНС  o имеет порядок hg / N, а значит для достаточного уровня обобщения размер тренировочного набора данных должен быть

. (1.17)

То есть необходимая величина N прямо пропорциональна общему количеству настроечных параметров сети.

В [30] показано также, что скорость сходимости общего риска r для ИНС выражается функцией размера тренировочного набора данных порядка (1/N)1/2. В то же время в случае аппроксимации традиционными гладкими функциями, с ограниченными производными порядка s >0, скорость сходимости имеет порядок (1/N)2s/(2s+g). Зависимость скорости от размерности входного пространства g представляет собой проклятие размерности, ограничивающее применимость традиционных гладких функций, в тоже время ИНС не страдают этим недостатком. Это является еще одним важным свойством ИНС.

Дата добавления: 2015-11-30; просмотров: 59 | Нарушение авторских прав

mybiblioteka.su - 2015-2025 год. (0.008 сек.)