�ݺ�ߣ

Лекция 4 . Алгоритм обратного распространения ошибки. Обзор алгоритмов обучения

Классификация алгоритмов обучения 1. Фиксированные веса. Веса сети вычисляются заранее и не изменяются в процессе обучения. 2. Обучение с учителем. Обучающая выборка содержит входные сигналы, а также ожидаемые выходные сигналы. Подбор весов организован так, чтобы реальные выходы сети были как можно ближе к ожидаемым выходам. 3. Обучение без учителя. Нет знаний о желаемых выходах сети. - конкуренция нейронов между собой: Winner takes all (WTA); Winner takes most (WTM) . - учет корреляции обучающих и выходных сигналов (обучение по Хеббу).

Алгоритм обратного распространения ошибки Инициализировать веса сети Выбрать обучающую пару из обучающего множества. Подать на вход сети, вычислить выход Вычислить разность между реальным выходом и требуемым выходом Подкорректировать веса сети, так чтобы уменьшить ошибку Повторять шаги 2-5 для каждого вектора из обучающего множества, пока ошибка не достигнет приемлемого уровня Шаги 2, 3 – проход вперед Шаги 4, 5 – обратный проход

Алгоритм обратного распространения ошибки Необходимое условие: дифференцируемость функции активации. Выходной слой Скрытый слой

Алгоритм обратного распространения ошибки Минимизация целевой функции : d - желаемый выход y - реальный выход Метод обучения - градиентный спуск . Выходной слой

Алгоритм обратного распространения ошибки 1. Рассчитать выходы сети. 2. Рассчитать для выходного слоя: 3. Рассчитать для всех остальных слоев: 4. Скорректировать веса: 5. Если ошибка существенна, перейти на шаг 1.

Алгоритм обратного распространения ошибки Проблемы: 1. Паралич сети. 2. Обнаружение локального минимума. 3. Выбор скорости обучения.

Использование момента Один из способов ускорить сходимость алгоритма обратного распространения ошибки. Сделаем рекуррентные подстановки. Введем ряд по t . Решим разностное уравнение.

Использование момента (2) Для сходимости ряда необходимо Ускоряет спуск, если знак градиента не меняется Замедляет спуск, если знак градиента изменяется – стабилизирующий эффект. Помогает избежать локальных минимумов

Проблема переобучения НС Необходимо контролировать процесс обучения и регулировать число связей в НС.

Обучающая и подтверждающая выборки S L – обучающая выборка ; E learn – ошибка на обучающей выборке ; S V – подтверждающая выборка ; E val – ошибка на подтверждающей выборке ; Необходимо, чтобы E learn и E val в конце обучения достигли минимума

Методы редукции сети с учетом чувствительности ( OBD) Коэффициент ассиметрии: Обучить сеть Вычислить коэффициенты ассиметрии для каждой связи Отсечь веса с наименьшими значениями коэффициентов Перейти на п.1 Продолжать цикл пока все веса, оказывающие наименьшее влияние не будут удалены

Методы редукции сети с использованием штрафной функции - метод Weight Decay ; - метод Weight Elimination

Градиентные методы обучения H(w) - матрица вторых производных; Цель: подобрать p и  так, чтобы, для очередной точки w k+1 выполнялось условие: Обозначим w k -решение, полученное на k -ом шаге. w минимум E(w) , если g(w)=0, H(w) – положительно определена Минимизация целевой функции : d - желаемый выход y - реальный выход Метод обучения - градиентный спуск.

Схема универсального алгоритма обучения 1. Проверка оптимальности текущего решения w k . 2. Определение вектора направления оптимизации p k для точки w k . 3. Выбор шага  k в направлении p k , при котором выполняется условие E(w k+1 )< E(w k ) 4. Определение нового решения а также соответствующих ему значений функции ошибки, градиента, матрицы вторых производных. Переход на 1.

Алгоритм наискорейшего спуска Линейное приближение функции E(w) . Для выполнения условия E(w k+1 )< E(w k ) , надо Достоинства: - небольшая вычислительная сложность; - невысокие требования к памяти. Недостатки: - не учитывает информацию о кривизне функции; - замедление в случае маленького градиента; - медленная сходимость.

Наискорейший спуск с моментом  - коэффициент момента в интервале [0,1] На плоских участках: Условие учета момента в приращении весов (пример): Достоинство: ускорение сходимости на плоских участках и вблизи локальных экстремумов.

Метод переменной метрики Квадратичное приближение E(w) Используют приближение H(w) : где: V k - приближение Достоинство: быстрая сходимость. Недостатки: - вычислительная сложность; - требования к памяти.

Алгоритм сопряженных градиентов Направление поиска p k выбирается таким образом, чтобы оно было ортогональным и сопряженным ко всем предыдущим направлениям p 0 , p 1 ,…, p k-1 . Достоинство: - быстрее наискорейшего спуска; - невысокие требования к памяти. Недостаток: менее эффективен метода переменной метрики.

Алгоритм Quickprop  - определяется пользователем (10 -4 )  k =0 , если k>0 и

Упрощенная версия Quickprop

Простейшие методы подбора коэффициента обучения Если , то Если , то

Подбор на основе направленной минимизации

Стохастический метод обучения. Общая схема 1. Выполнить начальную инициализацию весов. 2. Вычислить выход для примера из обучающей выборки. 3. Вычислить ошибку: 4. Выбрать случайным образом вес и изменить его значение на случайную величину. Если проведенное изменение уменьшает целевую функцию (ошибку), то сохранить его, иначе вернуться к прежнему значению веса. 5. Повторять шаги 2, 3, 4, пока сеть не обучится.

Стохастический метод обучения. Недостатки общей схемы Проблема локального минимума. e - энергия; k - постоянная Больцмана; T - температура.

Алгоритм имитации отжига 1. Выполнить начальную инициализацию весов. Задать начальную температуру T=T max . Вычислить значение ошибки. 2 . Пока T>0 повторить L раз действия: 2.1. Выполнить случайную коррекцию весов w’=w+  w . 2.2. Вычислить разницу целевых функций c=E(w’)-E(w) . 2.3. Если с <0 , то w=w’ иначе принять w=w’ с вероятностью 3. Уменьшить температуру T . 4. Повторять 2, 3, 4 пока Т>0 или значение ошибки больше порога. Приращение весов  w :

Алгоритм имитации отжига (Коши) Скорость сходимости метода Больцмана: Распределение Коши: Скорость сходимости метода Коши:

Выбор параметров алгоритма имитации отжига 1. Приращение весов  w . 2. Начальная температура T max . 3. Количество циклов L . 4. Скорость уменьшения температуры.

Комбинированный метод обучения Объединение традиционного обратного распространения с обучением Коши. Преодоление сетевого паралича:

�ݺ�ߣ

Лекция 4

Recommended

More Related Content

Similar to Лекция 4 (20)

More from Ivan Stolyarov (7)

Лекция 4

Editor's Notes