机器人强化学习笔记(0)

机器学习分类

Machine Learning
Machine Learning

强化学习问题

RL problem
RL problem
Child walk
Child walk
  • 监督学习:监督学习由任务驱动,需要创造外部的“导师”,“导师”拥有外部环境的所有先验信息,并教导 Agent 完成特定的任务。但是 Agent 可以用很多种子任务相结合的方式去完成相同的任务。所以创造一个全能的“导师”来训练 Agent 在实际中几乎是不可能的。
  • 非监督学习:非监督学习是由数据驱动,主要目的是找到底层的模式而不是映射关系。例如给用户推荐新闻时,非监督学习主要是根据用户先前阅读过的新闻来推荐相似的新闻。
  • 强化学习:和上面两种方法相比较,强化学习主要是从自身的经验来获取知识,在输入和输出之间存在着映射关系。强化学习将奖励函数作为行为的反馈。

解决强化学习问题的框架和算法

强化学习需要平衡 exploration vs exploitation 困境。

马尔可夫决策过程(Markov Decision Process)

在强化学习场景下,数学模型为马尔可夫决策过程,表示为

  • 状态集合:S
  • 动作集合:A
  • 奖励函数:R
  • 策略:Pi
  • 值:V

从起始状态到结束状态\(S\)需要经过动作集合 A。执行每个动作后,都会获得奖励 R,每个动作可能会导致好的或者坏的奖励函数值。策略(Policy)就是采取某个系列动作的方法,并且会相应的得到奖励函数的值。因此,求解强化学习的目标就是要选取最佳策略(Policy),在所有可能的状态和时间范围内使得评估函数最大,即

最短路径问题(Shortest Path Problem)

求解以最小代价,从地点 A 到地点 F 的最短路径问题,转化为

  • 节点集合 {A, B, C, D, E, F}
  • 从点到点移动成为动作,{A->B, C->D}
  • 奖励函数为每条边的花费
  • 完成 A 点到 F 行走路线成为策略,如 {A->B->D->F}