2. Содержание
● Интеллектуальные агенты
■ Термины и понятия
■ Обучение и агенты: разновидности
● Обучение с подкреплением и MDP
■ Марковская модель принятия решений (MDP)
■ Алгоритмы решения MDP
● Обучение без модели и Q-обучение
■ Пассивное обучение (по значениям)
■ Активное обучение (по q-значениям)
2
3. Термины
Агент - все, что может воспринимать среду и воздействовать на
неё.
Среда - окружение, в котором агент находится и совершает
действия.
Восприятие - полученные агентом сенсорные данные в некоторый
момент времени.
Действие - влияние, которое агент оказывает на среду.
Автономность - свойство агента, выбирать действия на основании
опыта, а не данных о среде, которые заложил разработчик.
3
4. Агент
● Наблюдает среду с
помощью датчиков
● Воздействует на
среду с помощью
исполнительных
механизмов
● Выбор действия
может зависит от
восприятия
4
5. Проблемная среда
Включает в себя задачу, которую должен решить агент.
Свойства среды:
● Детерминированная
● Стохастическая
● Статическая
● Динамическая
● Дискретная
● Непрерывная
● Полностью наблюдаемая
● Частично наблюдаемая
● Эпизодическая
● Не эпизодическая
5
● Одноагентная
● Мультиагентная
7. ● Разновидность интеллектуального агента
● Агент, который для каждой возможной
последовательности актов восприятия выбирает
“правильное” действие
● “Правильное” действие - действие, которое позволяет
агенту действовать максимально успешно
Рациональность Всезнание
Рациональный агент
7
9. Обучение агента
Обучение - это процесс, в результате которого агент
может принимать решения на основе накопленного опыта
и текущего восприятия.
Обучение бывает:
9
● контролируемым
● неконтролируемым
● с подкреплением
10. Виды обучения
Контролируемое
обучение
(обучение с
учителем)
Вход: набор
примеров
Цель:
восстановление
поведения на основе
примеров
Неконтролируемое
обучение
(обучение без
учителя)
Вход: набор
данных
Цель: выявление
закономерностей во
входных данных
Обучение с
подкреплением
Наиболее общая
категория обучения
Обучение на основе
вознаграждения.
Нет сведений о
входных данных.
10
11. Обучение с подкреплением
● Во многих задачах является единственным возможным способом
обучения.
● Обучение происходит автономно, на основании проб и ошибок.
● Для моделирования среды используется марковский процесс принятия
решения - Markov’s Decision Process (MDP).
Обучение бывает:
11
● Активное
● Пассивное
● На основе модели
● Безмодельное
12. Марковский процесс принятия решения(MDP)
● Состояния S0
,S1
, … , S6
.
○ Начальное S0
.
○ Конечные S2
и S3
(если есть).
● Действия (стрелки):
○ оранжевая;
○ пунктирная фиолетовая;
○ точечная голубая;
● Вероятностная функция:
T(s,a,s’) - красные числа.
● Функция наград:
R(s,a,s’) - зеленые числа.
12
14. Что значит решить MDP?
14
● Найти оптимальное
действие a для каждого
состояния s, т.е.
выработать стратегию.
● При этом найти значение
V каждого состояния
(отражает потенц.
полезность)
Оптимальная стратегия
15. Вероятностный минимакс
● Имеет схожесть с алгоритмами
решения MDP.
● Принцип, применяемый в
играх с неопределённостью.
● Минимизирующие узлы
заменены усредняющими.
15
16. Решение MDP: Обозначения
● (s) - оптимальное действие в состоянии s.
● V(s) - ожидаемое значение состояния, если
действовать оптимально из s.
● Q(s,a) - значение, которое будет получено, если
действовать оптимально, после действия a в s.
● γ - коэффициент обесценивания наград.
16
19. Решение MDP: Итерация по значениям
0 1 2 3 n
V(s): ... 00 0 00
● Сложность O(n2
*len(A)).
● Итерационный процесс сходится из-за постоянного
влияния фактора γ.
19
Алгоритм
20. Решение MDP: Итерация по действиям
0 1 2 3 n
V(s): ... 00 0 00
0 1 2 3 n
(s): ... →→ → →→
● Сходится быстрее, чем итерация по значениям.
● Сразу получаем оптимальную стратегию. 20
21. Обучение без модели
● Предполагается марковская
модель решения, но неизвестны
T(s,a,s’) и R(s,a,s’)
● Обучение с подкреплением
(наградами)
● Опора на собственный опыт, а
не на модель
● Возможно пассивное и активное
обучение
21
Среда
Агент
Действие
Награда
Состояние
22. Пассивное обучение
● Задана некоторая стратегия действий
● Вместо T и R используем накопленный опыт
● sample - полученный опыт
● - коэффициент учета предыдущего опыта 22
23. Пассивное обучение: расчёт стратегии
● Для вычисления стратегии из значений состояний,
необходимо знать T(s,a,s’), но её нет!
● Фактически, можно проверить только предложенную
стратегию.
Выход: искать Q-значения сразу.
23
24. Активное обучение: Q - обучение
● Итерация не по V-значениям ,
а по Q-значениям.
● Нет необходимости хранить
V-значения и стратегию.
● Как и для пассивного
обучения, нет необходимости
строить модель -
безмодельное обучение.
0 1
2 3
n
V(s):
... 0
0
0
0
0
0
1
2
3
n
(s):
...
→
→
→
→
→
24
26. Q-обучение: особенности
0
50 0 0 0
0 10 0
0 0 0 0
0 0.1 0 0 0
0
-20
0
...
←
→
↑
↖
0 1 2 3 ... n
Состояния
...
...
Действия
26
● Хранятся только Q-
значения.
● Не требуется знать
T(s,a,s’)
● Не требуется знать
R(s,a,s’)
● Принцип выбора действия:
исследование или
применение опыта
27. Q-обучение: рандомизация
● Выгодные пути находятся достаточно быстро.
● Но что если существует нечто лучшее?
● Для полного изучения среды вводится фактор
рандомизации ε.
● В зависимости от ε, вместо более выгодного действия,
может выбираться новое.
27
28. Обучение с подкреплением: современное
состояние
● With deep learning
● Temporal Difference Learning (TD - learning)
● Double Q-learning
● Google Deep Mind
○ Mnih V. et al. Human-level control through deep reinforcement learning
//Nature. – 2015. – Т. 518. – №. 7540. – С. 529-533.
28