Kat&Pop - Склад - Устойчивость нейросетей (by Pop)

ВверхДомой

Государственный комитет Российской Федерации по высшей школе

Омский государственный технический университет

Кафедра информатики и вычислительной техники


Устойчивость нейросетей


Выполнил студент гр.ИВ-618

Борисов К.Е.

Руководитель работы

Потапов В.И.


Омск - 2003






1  Нейросети с обратными связями

Первые нейросети не имели обратных связей, т. е. связей, идущих от выходов сетей и их входам. Отсутствие обратной связи гарантирует безусловную устойчивость сетей. Они не могут войти в режим, когда выход беспрерывно блуждает от состояния к состоянию и не пригоден к использованию. Но это весьма желательное свойство достигается не бесплатно, сети без обратных связей обладают более ограниченными возможностями по сравнению с сетями с обратными связями.

Так как сети с обратными связями имеют пути, передающие сигналы от выходов к входам, то отклик таких сетей является динамическим, т.е. после приложения нового входа вычисляется выход и, передаваясь по сети обратной связи, модифицирует вход. Затем выход повторно вычисляется, и процесс повторяется снова и снова. Для устойчивой сети последовательные итерации приводят к все меньшим изменениям выхода, пока в конце концов выход не становится постоянным. Для многих сетей процесс никогда не заканчивается, такие сети называют неустойчивыми.

Проблема устойчивости ставила в тупик первых исследователей. Никто не был в состоянии предсказать, какие из сетей будут устойчивыми, а какие будут находиться в постоянном изменении. Более того, проблема представлялась столь трудной, что многие исследователи были настроены пессимистически относительно возможности бе решения. К счастью, в работе была получена теорема, описавшая подмножество сетей с обратными связями, выходы которых в конце концов достигают устойчивого состояния. Это замечательное достижение открыло дорогу дальнейшим исследованиям и сегодня многие ученые занимаются исследованием сложного поведения и возможностей этих систем.

На рис.  показана сеть с обратными связями, состоящая из двух слоев. Способ представления несколько отличается от использованного в работе Хопфилда и других, но эквивалентен им с функциональной точки зрения. Нулевой слой не выполняет вычислительной функции, а лишь распределяет выходы сети обратно на входы. Каждый нейрон первого слоя вычисляет взвешенную сумму своих входов, давая сигнал NET, который затем с помощью нелинейной функции F преобразуется в сигнал OUT.

Рис. 1: Простейшая сеть с обратными связями.

В первой работе Хопфилда функция F была просто пороговой функцией. Выход такого нейрона равен единице, если взвешенная сумма выходов с других нейронов больше порога Tj, в противном случае она равна нулю. Выход вычисляется следующим образом:


NETj= е
wijOUTi+INj,


OUT= м
п
н
п
о
1,
если NETj > Tj,
0,
если NETj < Tj,
OUTt-D
(не изменяется), если NETj = Tj.

Состояние сети - это просто множество текущих значений сигналов OUT от всех нейронов. В первоначальной сети Хопфилда состояние каждого нейрона менялось в дискретные случайные моменты времени, в последующей работе состояния нейронов могли меняться одновременно. Так как выходом бинарного нейрона может быть только ноль или единица (промежуточных уровней нет), то текущее состояние сети является двоичным числом, каждый бит которого является сигналом OUT некоторого нейрона. Функционирование сети легко визуализируется геометрически. В общем случае система с n нейронами имеет 2n различных состояний и представляется n-мерным гиперкубом.

Рис. 2: Пространство состояний нейросети с двумя и тремя нейронами.

Когда подается новый входной вектор, сеть переходит из вершины в вершину, пока не стабилизируется. Устойчивая вершина определяется сетевыми весами, текущими входами и величиной порога. Если входной вектор частично неправилен или неполон, то сеть стабилизируется в вершине, ближайшей к желаемой.

Как и в других сетях, веса между слоями в этой сети могут рассматриваться в виде матрицы W. Показано, что сеть с обратными связями является устойчивой, если ее матрица симметрична и имеет нули на главной диагонали, т. е. если wij =wji и wii=0 для всех i. Устойчивость такой сети может быть доказана с помощью элегантного математического метода. Допустим, что найдена функция, которая всегда убывает при изменении состояния сети. В конце концов эта функция должна достичь минимума и прекратить изменение, гарантируя тем самым устойчивость сети. Такая функция, называемая функцией Ляпунова, для рассматриваемых сетей с обратными связями может быть введена следующим образом:


E=- 1
2

е
i 

е
j 
wijOUTi OUTj-
е
j 
Ij OUTj+ TjOUTj,
где E - искусственная энергия сети, wij - вес от выхода нейрона j ко входу нейрона j, OUT - выход нейрона j, Ij - внешний вход нейрона j, Tj - порог нейронаj. Изменение энергии E, вызванное изменением состояния j-го нейрона есть


DE= ж
и

е
i j 
(wijOUTi)+Ij-Tj ц
ш
DOUTj = -(NETj-TjDOUTj,
где DOUTj - изменение выхода j-го нейрона.

Допустим, что величина NET нейрона j больше порога. Тогда выражение в скобках будет положительным, а выход нейрона j должен измениться в положительную сторону (или) остаться без изменения. Это значит, что DOUT может быть только положительным или нулем и DE должно быть отрицательным. Следовательно, энергия сети должна либо уменьшиться, либо остаться без изменения.

Далее, допустим, что величина NET меньше порога. Тогда величина DOUTj может быть только отрицательной или нулем. Следовательно, опять энергия должна уменьшиться или остаться без изменения. И наконец, если величина NET равна порогу, DOUTj равна нулю и энергия остается без изменения.

Это показывает, что любое изменение состояния нейрона либо уменьшит энергию, либо оставит ее без изменения. Благодаря такому непрерывному стремлению к уменьшению энергия в конце концов должна достигнуть минимума и прекратить изменение. По определению такая сеть является устойчивой.

Симметрия сети является достаточным, но не необходимым условием для устойчивости системы. Имеется много устойчивых систем (например, все сети прямого действия), которые ему не удовлетворяют. Можно продемонстрировать примеры, в которых незначительное отклонение от симметрии может приводить к непрерывным осцилляциям. Однако приближенной симметрии обычно достаточно для устойчивости.

2  Нейросеть как динамическая система

Общая форма нелинейной системы описывается следующим уравнением:


.
x
 
=f(x, u, t),
где x - вектор состояний, u=g(x) - вектор управления. Задачей управлящей системы является поиск такого u, чтобы x изменялся по заданному закону.

Когда переменная t (время) явно не присутствует в правой части уравнения, система называется автономной. Нейросистемы являются примером автономных систем.

2.1  Критерии устойчивости

Важным параметром нелинейной системы является ее устойчивость, то есть способность формировать некоторый определенный выходной сигнал при отсутствии изменения входного сигнала. Для обеспечения устойчивости применяют несколько методов:

  1. Метод фазовой диаграммы. Строится траектория x, начиная с некоторой начальной точки. Для дифференциальных уравнений в аналитической форме области устойчивости и неустойчивости могут быть легко определены. Трудности могут возникнуть лишь в случаях уравнений высоких порядков.
  2. Метод функции Ляпунова. То есть построение функции Ляпунова в окрестности заданной точки с помощью дифференциальных уравнений. Нет никакой гарантии, что функция Ляпунова может быть найдена, и отсутствие этой функции может служить доказательством неустойчивости.
  3. Метод возмущений. В исследованую систему можно вносить случайные изменения, оценивая результат. Подобные экспериментальные данные могут служить описанием класса возможных проблем.
  4. Метод линеаризации. Можно выделить окрестность заинтересовавшей нас точки и рассмотреть нелинейную систему как линейную для этой окрестности. Теория линейных систем позволяет провести полное исследование.

    В недавнее время появились результаты, имеющее непосредственное отношение к области нейросистем.

  5. Линейно дифференциальное включение [Танака, 1996]. Нейросистема представляется как линейная комбинация некоторого класса специальных нелинейных функций. Основываясь на свойствах этого класса и на коэффициентах линейной композиции, можно проверить устойчивость исследуемой нейросистемы.
  6. Метод матричной меры [Фэнг и Кинсайд, 1996]. Специальные матричные вычисления могут служить доказательствами устойчивости нейросистемы. Для некоторых нейросистем с помощью этого метода можно гарантировать устойчивость.

Некоторые методы были разработаны для обеспечения устойчивости нейросети во время обучения. Эти методы нацелены на обеспечение сходимости процесса обучения и устойчивости сети во время этого процесса.

2.2  устойчивость решения системы

Нейросистема описывается с помощью стандартной модели:


.
x
 
=-Cx+WF(x, t)+u(t)=F(x, u(t), t)
и обозначим функцию решения с начальной точкой x0 s(x0, u(t), t). Эта функция при подстановке вместо x(t) превращает уравнение в тождество для всех t > 0. Постоянное решение s(x0,[`u], t)=[`x], [([`x])\dot]=-C[`x]+WF([`x], t) +[`u]=F(x,[`u], t)=0 называется точкой равновесия. Существование точки равновесия очевидно требует, чтобы входное значение [`u](t) є [`u] было постоянным для всех t.

Определение. Точка равновесия [`x] является точкой локально устойчивого равновесия, если существует окрестность U([`x]) и e > 0 такие, что "x0: ||x0-[`x]|| < eЮ s(x0, t) О U([`x]) "t. Если [`x] локально устойчива для всех e > 0, то она глобально устойчива.

устойчивость указывает на то, что все решения, расположенные в некоторой окрестности равновесной точки [`x], остаются ограниченными.

Можно доказать, что все сети с обратной связью с сигмоидной функцией актиавации и постоянным входом u(t) є [`u] обладают глобальной устойчивостью.

Определение. Равновесная точка [`x] обладает локальной асимптотической устойчивостью, если существует e > 0 такой, что "||[`x]-x0|| < e



lim
t®Ґ 
s(x0, t)=
x
 
.
Если это равенство выполняется для всех e > 0, то речь идет о глобальной асимптотической устойчивости.

Хорошо известна динамическая линейная система [x\dot]=Ax, которая обладает глобальной асимптотической устойчивостью, если Re[li(A)] < 0, "i

2.3  Исследование устойчивости с помощью матричной меры

Будем считать, что [x\dot](t)=A(t)x(t), где A(t) О Cn×n кусочно непрерывна и имеется матричная мера m(·). Тогда решение s(x0, t) удовлетворяет условию


||x0||exp ж
и
t
у
х
0 
-m(-A(s)) ds ц
ш
Ј ||s(x0, t)|| Ј ||x0||exp ж
и
t
у
х
0 
m(-A(s)) ds ц
ш
.
Если существует скаляр am > 0 такой, что suptm(A(t)) < -am < 0 для достаточно большого t, следовательно решение обладает глобальной асимптотической сходимостью с порядком сходимости am > 0.

Конкретное значение величины a, которая ограничивает решение и порядок сходимости, зависит от выбора меры m. Оптимальный выбор [`(m)] соответствует supt[`(m)](A(t))=a[`(m)]=suptmaxiRe[li(A(t))]. Вопрос о том, как верно найти меру, остается открытым, поэтому на практике наиболее части выбирают меры m = m1,2, Ґ, построенные на основе норм векторов степени 1, 2, Ґ.

2.4  Доказательство устойчивости с помощью функций Ляпунова

Пусть s(x0, t) является решением данной системы и [`x] - устойчив. [`x] обладает локальной предельной устойчивостью, если существует некоторая окрестность U([`x]) фукнции Ляпунова V(x) такая, что:

  1. V([`x])=0;
  2. V(xў) > 0, x [`x], xў О U([`x]);
  3. [d/dt]V(s(x0, t)) < 0, x0 О U([`x]);

    То есть нам надо найти положительную функцию, которая ограничена снизу нулем, достигает нуля в положении равновесия и которая уменьшается. Если, кроме того

  4. lim||x||® ҐV(x)=Ґ и V(x) > 0 "x [`x],

    То [`x] обладает глобальной асимптотической устойчивостью.

В общем случае нет алгоритма нахождения функции Ляпунова для данной системы.

2.5  Подход Ляпунова к исследованию устойчивости

Рассмотрим систему уравнений


dxi
dt
=fi(t,x1,x2,ј,xn), i=1,2,јn,
(1)
или, в векторной записи


dx
dt
=f(t,x), x=(x1,ј, xn)
(2)

Пусть выполнено условие:


все fi и fi
xk
непрерывны при t0 Ј t < Ґ.
(*)

Заметим, что наличие или отсутствие устойчивости не зависит от выбора начального момента времени t0.

Вопрос об устойчивости данного решения [`x]=f(t) системы (2) сводится к вопросу об устойчивости нулевого решения y є 0 системы, полученной из (2) заменой y=x-[`x].

2.5.1  Исследование на устойчивость по первому приближению. Метод линеаризации.

Пусть xi(t) є 0  (i=1јn) - решение системы (1). Чтобы исследовать его на устойчивость, надо выделить из функций fi линейную часть вблизи точки x1=x2=ј = xn=0 по формуле Тейлора. Полученную систему часто можно исследовать с помощью следующей теоремы.

Теорема 1 (Теорема Ляпунова.) Рассмотрим систему


dxi
dt
=ai1x1јainxn+y(t,x1,x2,ј,xn), i=1,2,јn,
(3)
где aik - постоянные, а yi - бесконечно малые выше первого порядка, точнее при |x| < e0


|yi| Ј g(x)|x|,  i=1,ј,n,   g(x)® 0 при |x|®0,
(4)
где |x|=Ц{|x1|2+ј+|xn|2}.

Тогда если все собственные значения матрицы (aij),  i,k=1,ј,n, имеют отрицательные вещественные части, то нулевое решение системы (3) асимптотически устойчиво; если же хоть одно собственное значение имеет положительную вещественную часть, то нулевое решение неустойчиво.

Разложение в ряд Тейлора - это разложение по базису функций {xn}. Существует много других известных базисов. Например, базис Фурье {sinnx,cosnx}. На базе этих разложений можно построить другой метод исследования по первому приближению, отличный от метода линеаризации. Конечно, теорема Ляпунова в этом случае неприменима.

2.5.2  Исследование на устойчивость с помощью функции Ляпунова.

Производной от функции v(t,x1,ј, xn) в силу системы (1) называется функция


dv
dt
к
к

(1) 
= v
t
+ v
x1
f1+ј+ v
xn
fn,
где f1,ј,fn - правые части системы (1).

Теорема 2 (Теорема Ляпунова.) Если существует дифференцируемая функция v(x1,ј,xn), удовлетворяющая в области |x| < e0 условиям

  1. v > 0 при x 0,  v(0)=0,
  2. [dv/dt]|(1) Ј 0 при |x| < e0,  t > t0,

то нулевое решение системы (1) устойчиво.

Если вместо условия 2. выполнено более сильное условие

  1. [dv/dt]|(1) Ј -w(x) < 0 при 0 < |x| < e0,  t > t0,
а функция w(x) непрерывна при |x| < e0, то нулевое решение системы (1) асимптотически устойчиво.

Функция v называется функцией Ляпунова для системы (1).

Теорема 3 (Теорема Четаева.) Пусть система (1) обладает нулевым решением. Пусть в области V пространства x1,ј, xn существует дифференцируемая функция v(x), причем

  1. точка x=0 принадлежит границе области V,
  2. v=0 на границе области V при |x| < e0,
  3. в области V при t > t0 имеем v > 0,  [dv/dt]|(1) і w(x) > 0, функция w(x) непрерывна.
Тогда нулевое решение системы (1) неустойчиво.

Не существует общего метода построения функции Ляпунова v (когда решение системы (1) неизвестно). В ряде случаев функцию Ляпунова удается построить в виде квадратичной формы v=еi,jbi,jxixj или в виде суммы квадратичной формы и интегралов от нелинейных функций, входящих в правую часть данной системы.

2.6  Особые точки.

Особой точкой системы


dx
dt
=P(x)
(5)
где x=(x1, ј,xn) - вектор, а функция P непрерывно дифференцируема, называется такая точка [`x], в которой P([`x])=0.

Заметим, что все точки равновесия являются особыми точками системы. Поэтому для нахождения точек равновесия сначала находят и исследуют особые точки.

2.6.1  Особые точки на плоскости.

Будем исследовать на устойчивость в нуле систему из двух уравнений


dx
dt
=ax+by,  dy
dt
=cx+dy,
(6)
где a, b, c, d - вещественные постоянные. При помощи метода линеаризации любую систему из двух уравнений можно свести к такой системе.

Для исследования устойчивости необходимо найти корни характеристического уравнения


к
к
к
к
к
a-l
b
c
d-l
к
к
к
к
к
=0
(7)

Рис. 3: Траектории решений на плоскости.

На рис. 3 показано, как ведут себя решения уравнения (6) вблизи особой точки - нуля. Прямые, проходящие через особую точку на рисунке имеют направляющими векторами собственные вектора матрицы (
a
b
c
d
).

Если корни вещественные, различные и одного знака, особая точка называется узел (рис. 3а), если разных знаков - седло (рис. 3б), если корни комплексные с вещественной частью, отличной от нуля, то особая точка - фокус (рис. 3в), если чисто мнимые - центр (рис. 3г); если корни равные и ненулевые (т.е. l1=l2 0), то особая точка может быть вырожденным узлом (рис. 3д) или дикритическим узлом (рис. 3е), причем дикритический узел имеет место только в случае системы [dx/dt]=ax, [dy/dt]=ay, а во всех остальных случаях при l1=l2 0 особая точка является вырожденным узлом. Если же один или оба корня уравнения (7) равны нулю, то систему (6) можно привести к виду [dy/dx]=k, и решения на плоскости x, y изображаются параллельными прямыми.

2.7  Случай функции f(t,x), не удовлетворяющей условию (*).

Вышеизложеная теория работает в случае, когда все компоненты вектор-функции f(t,x) непрерывно дифференцируемы по крайней мере один раз (это условие (*) из раздела 2.5). На практике условие (*) может не выполняться. При исследовании этого случая существует два основных подхода.

Первый - равномерное приближение функции f(t,x) функциями gn(t,x), удовлетворяющим (*). Второй - исследование системы (2) в пространстве обобщенных функций Соболева-Шварца. Этот метод является более универсальным и позволяет получить большинство результатов, верных в обычном случае.

Пример определения устойчивости нейросети

Список литературы

[]
Горбань А.Н., Сенашова М.Ю. Глава 6. Погрешности в нейронных сетях // Нейроинформатика, Новосибирск: Наука, 1998г.
[]
Ф.Уоссермэн. Нейрокомпьютерная техника. М. Мир, 1992г.
[]
Joshen J. Steil <<Input-Output Stability of Recurrent Neural Networks>>, 1999г.
[]
Wu Wen, John Callahan, MArcello Napoliatno <<Verifying Stability of Dynamic Soft-computing Systems>>, 1997г.




File translated from TEX by TTH, version 2.89.
On 2 Jul 2004, 21:26.

ВверхДомой