机器人强化学习笔记(0)
机器学习分类
强化学习问题
- 监督学习:监督学习由任务驱动,需要创造外部的“导师”,“导师”拥有外部环境的所有先验信息,并教导 Agent 完成特定的任务。但是 Agent 可以用很多种子任务相结合的方式去完成相同的任务。所以创造一个全能的“导师”来训练 Agent 在实际中几乎是不可能的。
- 非监督学习:非监督学习是由数据驱动,主要目的是找到底层的模式而不是映射关系。例如给用户推荐新闻时,非监督学习主要是根据用户先前阅读过的新闻来推荐相似的新闻。
- 强化学习:和上面两种方法相比较,强化学习主要是从自身的经验来获取知识,在输入和输出之间存在着映射关系。强化学习将奖励函数作为行为的反馈。
解决强化学习问题的框架和算法
强化学习需要平衡 exploration vs exploitation 困境。
马尔可夫决策过程(Markov Decision Process)
在强化学习场景下,数学模型为马尔可夫决策过程,表示为
- 状态集合:S
- 动作集合:A
- 奖励函数:R
- 策略:Pi
- 值:V
从起始状态到结束状态$S$需要经过动作集合 A。执行每个动作后,都会获得奖励 R,每个动作可能会导致好的或者坏的奖励函数值。策略(Policy)就是采取某个系列动作的方法,并且会相应的得到奖励函数的值。因此,求解强化学习的目标就是要选取最佳策略(Policy),在所有可能的状态和时间范围内使得评估函数最大,即
最短路径问题(Shortest Path Problem)
求解以最小代价,从地点 A 到地点 F 的最短路径问题,转化为
- 节点集合 {A, B, C, D, E, F}
- 从点到点移动成为动作,{A->B, C->D}
- 奖励函数为每条边的花费
- 完成 A 点到 F 行走路线成为策略,如 {A->B->D->F}