ݺߣ

ݺߣShare a Scribd company logo
Лекция  4 .  Алгоритм обратного распространения ошибки. Обзор алгоритмов обучения
Классификация алгоритмов обучения 1.  Фиксированные веса. Веса сети вычисляются заранее и не изменяются в процессе обучения. 2. Обучение с учителем. Обучающая выборка содержит входные сигналы, а также ожидаемые выходные сигналы. Подбор весов организован так, чтобы реальные выходы сети были как можно ближе к ожидаемым выходам. 3. Обучение без учителя. Нет знаний о желаемых выходах сети. - конкуренция нейронов между собой:  Winner takes all (WTA); Winner takes most (WTM) . - учет корреляции обучающих и выходных сигналов  (обучение по Хеббу).
Алгоритм обратного распространения ошибки Инициализировать веса сети Выбрать обучающую пару из обучающего множества. Подать на вход сети, вычислить выход Вычислить разность между реальным выходом и требуемым выходом Подкорректировать веса сети, так чтобы уменьшить ошибку Повторять шаги 2-5 для каждого вектора из обучающего множества, пока ошибка не достигнет приемлемого уровня Шаги 2, 3 – проход вперед Шаги 4, 5 – обратный проход
Алгоритм обратного распространения ошибки Необходимое условие: дифференцируемость функции активации. Выходной слой Скрытый слой
Алгоритм обратного распространения ошибки Минимизация целевой функции : d  - желаемый выход y -  реальный выход Метод обучения - градиентный спуск .  Выходной слой
Алгоритм обратного распространения ошибки 1.  Рассчитать выходы сети. 2.  Рассчитать для выходного слоя: 3.  Рассчитать для всех остальных  слоев: 4.  Скорректировать веса: 5. Если ошибка существенна, перейти на шаг 1.
Алгоритм обратного распространения ошибки Проблемы: 1. Паралич сети. 2. Обнаружение локального минимума. 3. Выбор скорости обучения.
Использование момента Один из способов ускорить сходимость алгоритма обратного распространения ошибки. Сделаем рекуррентные подстановки. Введем ряд по  t . Решим разностное уравнение.
Использование момента (2) Для сходимости ряда необходимо Ускоряет спуск, если знак градиента не меняется Замедляет спуск, если знак градиента изменяется – стабилизирующий эффект. Помогает избежать локальных минимумов
Проблема переобучения НС Необходимо контролировать процесс обучения и регулировать число связей в НС.
Обучающая и подтверждающая выборки S L  –  обучающая выборка ; E learn  – ошибка на обучающей выборке ; S V  –  подтверждающая выборка ; E val  – ошибка на подтверждающей выборке ; Необходимо, чтобы  E learn   и  E val   в конце обучения достигли минимума
Методы   редукции сети с учетом чувствительности ( OBD) Коэффициент ассиметрии: Обучить сеть Вычислить коэффициенты ассиметрии для каждой связи Отсечь веса с наименьшими значениями коэффициентов Перейти на п.1 Продолжать цикл пока все веса, оказывающие наименьшее влияние не будут удалены
Методы   редукции сети с   использованием штрафной функции - метод  Weight Decay ; - метод  Weight Elimination
Градиентные методы обучения H(w) - матрица вторых производных;  Цель: подобрать  p  и     так, чтобы, для очередной точки  w k+1   выполнялось условие: Обозначим  w k  -решение, полученное на  k -ом шаге. w  минимум  E(w) ,  если  g(w)=0, H(w)   – положительно определена  Минимизация целевой функции : d  - желаемый выход y -  реальный выход Метод обучения - градиентный спуск.
Схема универсального алгоритма обучения 1. Проверка оптимальности текущего решения  w k  . 2. Определение вектора направления оптимизации  p k  для точки  w k  . 3. Выбор шага   k   в направлении  p k  , при котором выполняется условие E(w k+1 )< E(w k ) 4. Определение нового решения а также соответствующих ему значений функции ошибки, градиента, матрицы вторых производных. Переход  на 1.
Алгоритм наискорейшего спуска  Линейное приближение функции  E(w) . Для выполнения условия  E(w k+1 )< E(w k ) , надо Достоинства: - небольшая вычислительная сложность; - невысокие требования к памяти. Недостатки: - не учитывает информацию о кривизне функции; - замедление в случае маленького градиента; - медленная сходимость.
Наискорейший спуск с моментом     - коэффициент момента в интервале  [0,1]   На плоских участках:  Условие учета момента в приращении весов (пример):  Достоинство: ускорение сходимости на плоских участках и вблизи  локальных экстремумов.
Метод переменной метрики Квадратичное приближение  E(w)   Используют приближение  H(w) :  где:  V k  - приближение   Достоинство: быстрая сходимость. Недостатки:  - вычислительная сложность; - требования к памяти.
Алгоритм сопряженных градиентов Направление поиска  p k  выбирается таким образом, чтобы оно было ортогональным и сопряженным ко всем предыдущим направлениям  p 0 ,  p 1 ,…,  p k-1 . Достоинство:  - быстрее наискорейшего спуска; - невысокие требования к памяти. Недостаток: менее эффективен метода переменной метрики.
Алгоритм  Quickprop    - определяется пользователем (10 -4 )  k  =0 , если  k>0  и
Упрощенная версия  Quickprop
Алгоритм  RPROP
Простейшие методы подбора коэффициента обучения Если  , то  Если  , то
Подбор на основе направленной минимизации
Стохастический метод обучения.  Общая схема 1. Выполнить начальную инициализацию весов. 2. Вычислить выход для примера из обучающей выборки. 3. Вычислить ошибку:  4. Выбрать случайным образом  вес и изменить его значение на случайную  величину.  Если проведенное изменение уменьшает целевую функцию (ошибку), то сохранить его, иначе вернуться к прежнему значению веса. 5. Повторять шаги 2, 3, 4, пока сеть не обучится.
Стохастический метод обучения.  Недостатки общей схемы Проблема локального минимума. e  - энергия; k   - постоянная Больцмана; T  - температура.
Алгоритм имитации отжига 1. Выполнить начальную инициализацию весов. Задать начальную температуру  T=T max .   Вычислить значение ошибки. 2 . Пока  T>0  повторить  L  раз действия: 2.1. Выполнить случайную коррекцию весов  w’=w+  w . 2.2. Вычислить разницу целевых функций  c=E(w’)-E(w) . 2.3. Если  с <0 , то  w=w’ иначе принять  w=w’  с вероятностью 3. Уменьшить температуру  T . 4. Повторять  2, 3, 4 пока  Т>0  или значение ошибки больше порога. Приращение весов   w :
Алгоритм имитации отжига (Коши) Скорость сходимости метода Больцмана: Распределение Коши: Скорость сходимости метода Коши:
Выбор параметров алгоритма имитации отжига 1. Приращение весов   w . 2. Начальная температура  T max .   3. Количество циклов  L . 4. Скорость уменьшения температуры.
Комбинированный метод обучения Объединение традиционного обратного распространения с обучением Коши. Преодоление сетевого паралича:
Ad

Recommended

การสัง๶คราะห์ผลึกไททา๶Ȩยมไดออกไซด์
การสัง๶คราะห์ผลึกไททา๶Ȩยมไดออกไซด์
Weeraman Buraso
Surfaces of Metal Oxides.
Surfaces of Metal Oxides.
Sociedade Brasileira de Pesquisa em Materiais
Методы обучения линейных моделей
Методы обучения линейных моделей
Alex
Лекция 5
Лекция 5
Ivan Stolyarov
ПроектированиеОбучение
ПроектированиеОбучение
funkypublic
Лекция 11 Приближенные алгоритмы
Лекция 11 Приближенные алгоритмы
simple_people
Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014
Andrii Gakhov
Многослойній перцептрон- АОРО.ppt
Многослойній перцептрон- АОРО.ppt
AleksandrGozhyj
002умнов
002умнов
Yandex
002умнов
002умнов
Alexandra Kaminskaya
001умнов
001умнов
Alexandra Kaminskaya
37359 (1).pptx
37359 (1).pptx
AidaMustafyeva
Исследование операций и методы оптимизации
Исследование операций и методы оптимизации
Jakobow
лекция 14
лекция 14
student_kai
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Mail.ru Group
rus_Diploma_master_degree
rus_Diploma_master_degree
Sergey Komisarchik
презентации по информатике
презентации по информатике
Nick535
практика 14
практика 14
student_kai
Plakhov urfu 2013
Plakhov urfu 2013
Yandex
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Zolotykh
p01.pdf
p01.pdf
YerlanAbilmazhenov
Ivm1257
Ivm1257
Valerie Chopovda
Ivm1257
Ivm1257
Valerie Chopovda
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
Technosphere1
Лекция 13: Трудноразрешимые задачи. NP-полнота.
Лекция 13: Трудноразрешимые задачи. NP-полнота.
Mikhail Kurnosov
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"
Yandex
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
Technosphere1
СИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОД
IT_1315
Лекция 9
Лекция 9
Ivan Stolyarov
Лекция 8
Лекция 8
Ivan Stolyarov

More Related Content

Similar to Лекция 4 (20)

002умнов
002умнов
Yandex
002умнов
002умнов
Alexandra Kaminskaya
001умнов
001умнов
Alexandra Kaminskaya
37359 (1).pptx
37359 (1).pptx
AidaMustafyeva
Исследование операций и методы оптимизации
Исследование операций и методы оптимизации
Jakobow
лекция 14
лекция 14
student_kai
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Mail.ru Group
rus_Diploma_master_degree
rus_Diploma_master_degree
Sergey Komisarchik
презентации по информатике
презентации по информатике
Nick535
практика 14
практика 14
student_kai
Plakhov urfu 2013
Plakhov urfu 2013
Yandex
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Zolotykh
p01.pdf
p01.pdf
YerlanAbilmazhenov
Ivm1257
Ivm1257
Valerie Chopovda
Ivm1257
Ivm1257
Valerie Chopovda
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
Technosphere1
Лекция 13: Трудноразрешимые задачи. NP-полнота.
Лекция 13: Трудноразрешимые задачи. NP-полнота.
Mikhail Kurnosov
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"
Yandex
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
Technosphere1
СИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОД
IT_1315
002умнов
002умнов
Yandex
Исследование операций и методы оптимизации
Исследование операций и методы оптимизации
Jakobow
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Mail.ru Group
презентации по информатике
презентации по информатике
Nick535
Plakhov urfu 2013
Plakhov urfu 2013
Yandex
Machine Learning. Курс лекций
Machine Learning. Курс лекций
Zolotykh
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
Technosphere1
Лекция 13: Трудноразрешимые задачи. NP-полнота.
Лекция 13: Трудноразрешимые задачи. NP-полнота.
Mikhail Kurnosov
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"
Yandex
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
Technosphere1
СИМПЛЕКС-МЕТОД
СИМПЛЕКС-МЕТОД
IT_1315

More from Ivan Stolyarov (7)

Лекция 9
Лекция 9
Ivan Stolyarov
Лекция 8
Лекция 8
Ivan Stolyarov
Лекция 7
Лекция 7
Ivan Stolyarov
Лекция 6
Лекция 6
Ivan Stolyarov
Лекция 3
Лекция 3
Ivan Stolyarov
Лекция 2
Лекция 2
Ivan Stolyarov
Лекция 1
Лекция 1
Ivan Stolyarov
Ad

Лекция 4

  • 1. Лекция 4 . Алгоритм обратного распространения ошибки. Обзор алгоритмов обучения
  • 2. Классификация алгоритмов обучения 1. Фиксированные веса. Веса сети вычисляются заранее и не изменяются в процессе обучения. 2. Обучение с учителем. Обучающая выборка содержит входные сигналы, а также ожидаемые выходные сигналы. Подбор весов организован так, чтобы реальные выходы сети были как можно ближе к ожидаемым выходам. 3. Обучение без учителя. Нет знаний о желаемых выходах сети. - конкуренция нейронов между собой: Winner takes all (WTA); Winner takes most (WTM) . - учет корреляции обучающих и выходных сигналов (обучение по Хеббу).
  • 3. Алгоритм обратного распространения ошибки Инициализировать веса сети Выбрать обучающую пару из обучающего множества. Подать на вход сети, вычислить выход Вычислить разность между реальным выходом и требуемым выходом Подкорректировать веса сети, так чтобы уменьшить ошибку Повторять шаги 2-5 для каждого вектора из обучающего множества, пока ошибка не достигнет приемлемого уровня Шаги 2, 3 – проход вперед Шаги 4, 5 – обратный проход
  • 4. Алгоритм обратного распространения ошибки Необходимое условие: дифференцируемость функции активации. Выходной слой Скрытый слой
  • 5. Алгоритм обратного распространения ошибки Минимизация целевой функции : d - желаемый выход y - реальный выход Метод обучения - градиентный спуск . Выходной слой
  • 6. Алгоритм обратного распространения ошибки 1. Рассчитать выходы сети. 2. Рассчитать для выходного слоя: 3. Рассчитать для всех остальных слоев: 4. Скорректировать веса: 5. Если ошибка существенна, перейти на шаг 1.
  • 7. Алгоритм обратного распространения ошибки Проблемы: 1. Паралич сети. 2. Обнаружение локального минимума. 3. Выбор скорости обучения.
  • 8. Использование момента Один из способов ускорить сходимость алгоритма обратного распространения ошибки. Сделаем рекуррентные подстановки. Введем ряд по t . Решим разностное уравнение.
  • 9. Использование момента (2) Для сходимости ряда необходимо Ускоряет спуск, если знак градиента не меняется Замедляет спуск, если знак градиента изменяется – стабилизирующий эффект. Помогает избежать локальных минимумов
  • 10. Проблема переобучения НС Необходимо контролировать процесс обучения и регулировать число связей в НС.
  • 11. Обучающая и подтверждающая выборки S L – обучающая выборка ; E learn – ошибка на обучающей выборке ; S V – подтверждающая выборка ; E val – ошибка на подтверждающей выборке ; Необходимо, чтобы E learn и E val в конце обучения достигли минимума
  • 12. Методы редукции сети с учетом чувствительности ( OBD) Коэффициент ассиметрии: Обучить сеть Вычислить коэффициенты ассиметрии для каждой связи Отсечь веса с наименьшими значениями коэффициентов Перейти на п.1 Продолжать цикл пока все веса, оказывающие наименьшее влияние не будут удалены
  • 13. Методы редукции сети с использованием штрафной функции - метод Weight Decay ; - метод Weight Elimination
  • 14. Градиентные методы обучения H(w) - матрица вторых производных; Цель: подобрать p и  так, чтобы, для очередной точки w k+1 выполнялось условие: Обозначим w k -решение, полученное на k -ом шаге. w минимум E(w) , если g(w)=0, H(w) – положительно определена Минимизация целевой функции : d - желаемый выход y - реальный выход Метод обучения - градиентный спуск.
  • 15. Схема универсального алгоритма обучения 1. Проверка оптимальности текущего решения w k . 2. Определение вектора направления оптимизации p k для точки w k . 3. Выбор шага  k в направлении p k , при котором выполняется условие E(w k+1 )< E(w k ) 4. Определение нового решения а также соответствующих ему значений функции ошибки, градиента, матрицы вторых производных. Переход на 1.
  • 16. Алгоритм наискорейшего спуска Линейное приближение функции E(w) . Для выполнения условия E(w k+1 )< E(w k ) , надо Достоинства: - небольшая вычислительная сложность; - невысокие требования к памяти. Недостатки: - не учитывает информацию о кривизне функции; - замедление в случае маленького градиента; - медленная сходимость.
  • 17. Наискорейший спуск с моментом  - коэффициент момента в интервале [0,1] На плоских участках: Условие учета момента в приращении весов (пример): Достоинство: ускорение сходимости на плоских участках и вблизи локальных экстремумов.
  • 18. Метод переменной метрики Квадратичное приближение E(w) Используют приближение H(w) : где: V k - приближение Достоинство: быстрая сходимость. Недостатки: - вычислительная сложность; - требования к памяти.
  • 19. Алгоритм сопряженных градиентов Направление поиска p k выбирается таким образом, чтобы оно было ортогональным и сопряженным ко всем предыдущим направлениям p 0 , p 1 ,…, p k-1 . Достоинство: - быстрее наискорейшего спуска; - невысокие требования к памяти. Недостаток: менее эффективен метода переменной метрики.
  • 20. Алгоритм Quickprop  - определяется пользователем (10 -4 )  k =0 , если k>0 и
  • 23. Простейшие методы подбора коэффициента обучения Если , то Если , то
  • 24. Подбор на основе направленной минимизации
  • 25. Стохастический метод обучения. Общая схема 1. Выполнить начальную инициализацию весов. 2. Вычислить выход для примера из обучающей выборки. 3. Вычислить ошибку: 4. Выбрать случайным образом вес и изменить его значение на случайную величину. Если проведенное изменение уменьшает целевую функцию (ошибку), то сохранить его, иначе вернуться к прежнему значению веса. 5. Повторять шаги 2, 3, 4, пока сеть не обучится.
  • 26. Стохастический метод обучения. Недостатки общей схемы Проблема локального минимума. e - энергия; k - постоянная Больцмана; T - температура.
  • 27. Алгоритм имитации отжига 1. Выполнить начальную инициализацию весов. Задать начальную температуру T=T max . Вычислить значение ошибки. 2 . Пока T>0 повторить L раз действия: 2.1. Выполнить случайную коррекцию весов w’=w+  w . 2.2. Вычислить разницу целевых функций c=E(w’)-E(w) . 2.3. Если с <0 , то w=w’ иначе принять w=w’ с вероятностью 3. Уменьшить температуру T . 4. Повторять 2, 3, 4 пока Т>0 или значение ошибки больше порога. Приращение весов  w :
  • 28. Алгоритм имитации отжига (Коши) Скорость сходимости метода Больцмана: Распределение Коши: Скорость сходимости метода Коши:
  • 29. Выбор параметров алгоритма имитации отжига 1. Приращение весов  w . 2. Начальная температура T max . 3. Количество циклов L . 4. Скорость уменьшения температуры.
  • 30. Комбинированный метод обучения Объединение традиционного обратного распространения с обучением Коши. Преодоление сетевого паралича:

Editor's Notes

  • #8: Если выходы нейронов близки к нулю, то обучение замедляется. Кратковременное увеличение скорости обучения для новой попытки обучения, если конечное состояние такое же, значит минимум найден