-
Introduction to Reinforcement Learning [lecture]
-
Markov Decision Process [lecture]
-
Planning by Dynamic Programming [lecture]
- Слайды
- Задание: Имплементировать алгоритмы Policy Iteration и Value Iteration для среды FrozenLake8x8-v0 https://gym.openai.com/envs/FrozenLake8x8-v0 (пояснения к задаче здесь https://gym.openai.com/envs/FrozenLake-v0 ) . Зарегистрироваться на https://gym.openai.com под именем с префиксом deepmipt_USER . Для последующей идентификации имя USER вводится в последнем разделе Quiz’а. Решения необходимо загрузить с префиксами PI_ (Policy Iteration) и VI_ (Value Iteration). * Используя Policy Iteration и Value Iteration решить задачу Taxi-v1 https://gym.openai.com/envs/Taxi-v1
-
Model-Free Prediction [lecture]
- Слайды
- Задание: Имплементировать алгоритмы Monte-Carlo Learning, TD-learning и TD(λ) для среды FrozenLake8x8-v0 https://gym.openai.com/envs/FrozenLake8x8-v0 и случайной политики.
-
Model-Free Control [lecture]
- Слайды
- Задание: Имплементировать алгоритмы On-Policy Monte-Carlo Control, Sarsa, Sarsa(lambda), Q-learning для сред FrozenLake8x8-v0 https://gym.openai.com/envs/FrozenLake8x8-v0 и Taxi-v1 https://gym.openai.com/envs/Taxi-v1.
-
Value Function Approximation [lecture]
- Слайды
- Задание: Имплементировать алгоритм нейросетевого обучения с подкреплением для задачи Mountain Car https://gym.openai.com/envs/MountainCar-v0 .
-
Policy Gradient Methods [lecture]
- Слайды
- Задание: Имплементировать Actor-Critic алгоритм для задачи Mountain Car https://gym.openai.com/envs/MountainCar-v0 .
-
Integrating Learning and Planning [lecture]
- Слайды
- Задание: Имплементировать Dyna-Q алгоритм для задач FrozenLake8x8-v0 https://gym.openai.com/envs/FrozenLake8x8-v0 и Taxi-v1 https://gym.openai.com/envs/Taxi-v1. Имплементировать DQN для https://gym.openai.com/envs/CartPole-v0
-
Exploration and Exploitation [lecture]
- Слайды
- Задание: Доделать максимальное число домашних заданий по предыдущим лекциям.