Государственный комитет Российской Федерации по высшей школе
Омский государственный технический университет
Кафедра информатики и вычислительной техники
Устойчивость нейросетей
Выполнил студент гр.ИВ-618
Борисов К.Е. |
Руководитель работы
Потапов В.И. |
Так как сети с обратными связями имеют пути, передающие сигналы от выходов к входам, то отклик таких сетей является динамическим, т.е. после приложения нового входа вычисляется выход и, передаваясь по сети обратной связи, модифицирует вход. Затем выход повторно вычисляется, и процесс повторяется снова и снова. Для устойчивой сети последовательные итерации приводят к все меньшим изменениям выхода, пока в конце концов выход не становится постоянным. Для многих сетей процесс никогда не заканчивается, такие сети называют неустойчивыми.
Проблема устойчивости ставила в тупик первых исследователей. Никто не был в состоянии предсказать, какие из сетей будут устойчивыми, а какие будут находиться в постоянном изменении. Более того, проблема представлялась столь трудной, что многие исследователи были настроены пессимистически относительно возможности бе решения. К счастью, в работе была получена теорема, описавшая подмножество сетей с обратными связями, выходы которых в конце концов достигают устойчивого состояния. Это замечательное достижение открыло дорогу дальнейшим исследованиям и сегодня многие ученые занимаются исследованием сложного поведения и возможностей этих систем.
На рис. показана сеть с обратными связями, состоящая из двух слоев. Способ представления несколько отличается от использованного в работе Хопфилда и других, но эквивалентен им с функциональной точки зрения. Нулевой слой не выполняет вычислительной функции, а лишь распределяет выходы сети обратно на входы. Каждый нейрон первого слоя вычисляет взвешенную сумму своих входов, давая сигнал NET, который затем с помощью нелинейной функции F преобразуется в сигнал OUT.
В первой работе Хопфилда функция F была просто пороговой функцией. Выход такого нейрона равен единице, если взвешенная сумма выходов с других нейронов больше порога Tj, в противном случае она равна нулю. Выход вычисляется следующим образом:
|
|
Состояние сети - это просто множество текущих значений сигналов OUT от всех нейронов. В первоначальной сети Хопфилда состояние каждого нейрона менялось в дискретные случайные моменты времени, в последующей работе состояния нейронов могли меняться одновременно. Так как выходом бинарного нейрона может быть только ноль или единица (промежуточных уровней нет), то текущее состояние сети является двоичным числом, каждый бит которого является сигналом OUT некоторого нейрона. Функционирование сети легко визуализируется геометрически. В общем случае система с n нейронами имеет 2n различных состояний и представляется n-мерным гиперкубом.
Когда подается новый входной вектор, сеть переходит из вершины в вершину, пока не стабилизируется. Устойчивая вершина определяется сетевыми весами, текущими входами и величиной порога. Если входной вектор частично неправилен или неполон, то сеть стабилизируется в вершине, ближайшей к желаемой.
Как и в других сетях, веса между слоями в этой сети могут рассматриваться в виде матрицы W. Показано, что сеть с обратными связями является устойчивой, если ее матрица симметрична и имеет нули на главной диагонали, т. е. если wij =wji и wii=0 для всех i. Устойчивость такой сети может быть доказана с помощью элегантного математического метода. Допустим, что найдена функция, которая всегда убывает при изменении состояния сети. В конце концов эта функция должна достичь минимума и прекратить изменение, гарантируя тем самым устойчивость сети. Такая функция, называемая функцией Ляпунова, для рассматриваемых сетей с обратными связями может быть введена следующим образом:
|
|
Допустим, что величина NET нейрона j больше порога. Тогда выражение в скобках будет положительным, а выход нейрона j должен измениться в положительную сторону (или) остаться без изменения. Это значит, что DOUT может быть только положительным или нулем и DE должно быть отрицательным. Следовательно, энергия сети должна либо уменьшиться, либо остаться без изменения.
Далее, допустим, что величина NET меньше порога. Тогда величина DOUTj может быть только отрицательной или нулем. Следовательно, опять энергия должна уменьшиться или остаться без изменения. И наконец, если величина NET равна порогу, DOUTj равна нулю и энергия остается без изменения.
Это показывает, что любое изменение состояния нейрона либо уменьшит энергию, либо оставит ее без изменения. Благодаря такому непрерывному стремлению к уменьшению энергия в конце концов должна достигнуть минимума и прекратить изменение. По определению такая сеть является устойчивой.
Симметрия сети является достаточным, но не необходимым условием для устойчивости системы. Имеется много устойчивых систем (например, все сети прямого действия), которые ему не удовлетворяют. Можно продемонстрировать примеры, в которых незначительное отклонение от симметрии может приводить к непрерывным осцилляциям. Однако приближенной симметрии обычно достаточно для устойчивости.
|
Когда переменная t (время) явно не присутствует в правой части уравнения, система называется автономной. Нейросистемы являются примером автономных систем.
В недавнее время появились результаты, имеющее непосредственное отношение к области нейросистем.
Некоторые методы были разработаны для обеспечения устойчивости нейросети во время обучения. Эти методы нацелены на обеспечение сходимости процесса обучения и устойчивости сети во время этого процесса.
|
Определение. Точка равновесия [`x] является точкой локально устойчивого равновесия, если существует окрестность U([`x]) и e > 0 такие, что "x0: ||x0-[`x]|| < eЮ s(x0, t) О U([`x]) "t. Если [`x] локально устойчива для всех e > 0, то она глобально устойчива.
устойчивость указывает на то, что все решения, расположенные в некоторой окрестности равновесной точки [`x], остаются ограниченными.
Можно доказать, что все сети с обратной связью с сигмоидной функцией актиавации и постоянным входом u(t) є [`u] обладают глобальной устойчивостью.
Определение. Равновесная точка [`x] обладает локальной асимптотической устойчивостью, если существует e > 0 такой, что "||[`x]-x0|| < e
|
Хорошо известна динамическая линейная система [x\dot]=Ax, которая обладает глобальной асимптотической устойчивостью, если Re[li(A)] < 0, "i
|
Конкретное значение величины a, которая ограничивает решение и порядок сходимости, зависит от выбора меры m. Оптимальный выбор [`(m)] соответствует supt[`(m)](A(t))=a[`(m)]=suptmaxiRe[li(A(t))]. Вопрос о том, как верно найти меру, остается открытым, поэтому на практике наиболее части выбирают меры m = m1,2, Ґ, построенные на основе норм векторов степени 1, 2, Ґ.
То есть нам надо найти положительную функцию, которая ограничена снизу нулем, достигает нуля в положении равновесия и которая уменьшается. Если, кроме того
То [`x] обладает глобальной асимптотической устойчивостью.
В общем случае нет алгоритма нахождения функции Ляпунова для данной системы.
| (1) |
| (2) |
Пусть выполнено условие:
| (*) |
Заметим, что наличие или отсутствие устойчивости не зависит от выбора начального момента времени t0.
Вопрос об устойчивости данного решения [`x]=f(t) системы (2) сводится к вопросу об устойчивости нулевого решения y є 0 системы, полученной из (2) заменой y=x-[`x].
Теорема 1 (Теорема Ляпунова.)
Рассмотрим систему
Тогда если все собственные значения матрицы
(aij), i,k=1,ј,n, имеют отрицательные вещественные части,
то нулевое решение системы (3) асимптотически устойчиво; если же
хоть одно собственное значение имеет положительную вещественную часть, то нулевое
решение неустойчиво.
где aik - постоянные, а yi - бесконечно малые выше первого
порядка, точнее при |x| < e0
dxi
dt
=ai1x1јainxn+y(t,x1,x2,ј,xn), i=1,2,јn, (3)
где |x|=Ц{|x1|2+ј+|xn|2}.
|yi| Ј g(x)|x|, i=1,ј,n, g(x)® 0 при |x|®0, (4)
|
Теорема 2 (Теорема Ляпунова.)
Если существует дифференцируемая функция v(x1,ј,xn), удовлетворяющая
в области |x| < e0 условиям
то нулевое решение системы (1) устойчиво.
Если вместо условия 2. выполнено более сильное условие
а функция w(x) непрерывна при |x| < e0, то нулевое решение
системы (1) асимптотически устойчиво.
Теорема 3 (Теорема Четаева.)
Пусть система (1) обладает нулевым решением. Пусть в области V пространства
x1,ј, xn существует дифференцируемая функция v(x), причем
Тогда нулевое решение системы (1) неустойчиво.
Особой точкой системы
| (5) |
Заметим, что все точки равновесия являются особыми точками системы. Поэтому для нахождения точек равновесия сначала находят и исследуют особые точки.
| (6) |
Для исследования устойчивости необходимо найти корни характеристического уравнения
| (7) |
На рис. 3 показано, как ведут себя решения уравнения (6) вблизи особой точки - нуля. Прямые, проходящие через особую точку на рисунке имеют направляющими векторами собственные вектора матрицы (
|
| ||
|
|
Если корни вещественные, различные и одного знака, особая точка называется узел (рис. 3а), если разных знаков - седло (рис. 3б), если корни комплексные с вещественной частью, отличной от нуля, то особая точка - фокус (рис. 3в), если чисто мнимые - центр (рис. 3г); если корни равные и ненулевые (т.е. l1=l2 № 0), то особая точка может быть вырожденным узлом (рис. 3д) или дикритическим узлом (рис. 3е), причем дикритический узел имеет место только в случае системы [dx/dt]=ax, [dy/dt]=ay, а во всех остальных случаях при l1=l2 № 0 особая точка является вырожденным узлом. Если же один или оба корня уравнения (7) равны нулю, то систему (6) можно привести к виду [dy/dx]=k, и решения на плоскости x, y изображаются параллельными прямыми.
Вышеизложеная теория работает в случае, когда все компоненты вектор-функции f(t,x) непрерывно дифференцируемы по крайней мере один раз (это условие (*) из раздела 2.5). На практике условие (*) может не выполняться. При исследовании этого случая существует два основных подхода.
Первый - равномерное приближение функции f(t,x) функциями gn(t,x), удовлетворяющим (*). Второй - исследование системы (2) в пространстве обобщенных функций Соболева-Шварца. Этот метод является более универсальным и позволяет получить большинство результатов, верных в обычном случае.
Пример определения устойчивости нейросети