强化学习  081104M05021H

学期:2020—2021学年(春)第二学期 | 课程属性:专业普及课 | 任课教师:赵冬斌,张启超,朱圆恒
授课时间: 星期五,第5、6、7 节
授课地点: 教一楼208
授课周次: 3、4、5、6、7、8、9、10、11、12、13、14、15
课程编号: 081104M05021H 课时: 40 学分: 2.00
课程属性: 专业普及课 主讲教师:赵冬斌,张启超,朱圆恒 助教:李论通
英文名称: Reinforcement Learning 召集人:

教学目的、要求

强化学习是人工智能中最活跃的研究领域之一。强化学习不同于监督学习,强化学习根据系统的状态作出动作,由环境给出奖惩信号,通过学习获得使累计奖惩最高的动作策略。也就是一种基于数据通过自学习方式获得最优决策和控制的方法。在棋类博弈、智能驾驶、机器人控制等领域都有广泛成功的应用。希望学生掌握强化学习理论与技术的基本思想与基本方法,了解强化学习的最新研究进展,运用强化学习方法解决工程应用中的实际问题。
课程基本要求:建议学生掌握Matlab,Python,或C++等编程语言,学生应掌握强化学习设计的一般过程,运用相关平台搭建系统,分析并解决问题。

预修课程

高等数学,矩阵论,随机过程

教 材

主要内容

1	强化学习概述 (3学时)
1.1 强化学习介绍
1.2 强化学习与其它机器学习的不同
1.3 强化学习发展历史 
1.4 强化学习基本元素
1.5 强化学习算法分类
2. 马尔可夫过程(3学时)
2.1马尔可夫性
2.2马尔可夫过程
2.3马尔可夫奖励过程
2.4 马尔可夫决策过程
2.5 策略与价值
2.6 最优化原理
2.7 MDPs扩展
3 动态规划(3学时)
3.1 动态规划
3.2 价值迭代
3.3策略迭代
3.4迭代策略评估
3.5广义策略迭代
4无模型预测方法 (3学时)
4.1 蒙特卡洛方法
4.2 时间差分学习
4.3 n-步回报 
4.4 资格迹
4.5 TD(λ)算法
5无模型控制方法 (3学时)
5.1 蒙特卡洛控制 
5.2 Sarsa算法
5.3 Q学习算法
5.4 探索与利用
6基于函数逼近器的强化学习 (3学时)
6.1 空间离散化
6.2函数逼近器
6.3基于函数逼近器的预测算法
6.4基于函数逼近器的控制算法
6.5 经验回放
6.6 线性最小二乘预测和控制 
7 华为云/Atlas介绍与小组研讨课1(3学时)
7.1 华为云/Atlas介绍
7.2讲解自动学习机的基本应用案例
7.3部分学生汇报第一次实验作业
8 策略梯度方法(3学时)
8.1策略梯度
8.2有限差分策略梯度
8.3 蒙特卡洛策略梯度
8.4Actor-critic
8.5优势函数 
8.6 自然策略梯度
9深度强化学习(3学时)
9.1 深度强化学习的分类
9.2 深度Q学习系列
9.3 优先级经验回放
9.4 深度确定性策略梯度
9.5 深度actor-critic系列
9.6 置信域深度策略梯度
10 逆强化学习(3学时)
10.1 行为克隆
10.2 学徒学习
10.3 最大边际化逆强化学习
10.4最大熵逆强化学习
10.5深度逆强化学习
11深度强化学习和游戏人工智能应用(3学时)
12.1 深度强化学习算法和游戏人工智能问题
12.2 深度强化学习算法和单人游戏
12.3 深度强化学习算法和多人游戏
12.4 深度强化学习算法和游戏智能应用展望
12 深度强化学习和智能驾驶应用(3学时)
11.1 深度强化学习算法和智能驾驶问题
11.2 深度强化学习算法和横纵向控制
11.3 深度强化学习算法和智能驾驶决策
11.4 深度强化学习算法和智能驾驶应用展望
13小组研讨课2(3学时)
13.1 学生分组报告第2次作业
13.2 算法测试与报告评价
13.3 作业交流与答疑

参考文献

[1] 	Sutton &Barto, 1998/2018, “Reinforcement Learning: An Introduction”
[2] 	David Silver, University College London Course on Reinforcement Learning
[3] 	Emma Brunskill, Stanford CS234 Reinforcement Learning
[4] 	Sergey Levine, UC Berkeley CS 294 Deep ReinforcementLearning