我一直觉得强化学习是走向强人工智能的一个必经过程,现有的许多问答系统中也时常会出现强化学习的身影。本文使用策略网络玩强化学习入门的平衡杆游戏。
代码参考自龙良曲的tensorflow2开源书籍。
|
|
代码中唯一的trick是 因果性 ,只考虑从某时间戳开始的累积回报,而不是总回报,所以代码中是逆序计算梯度的。代码中的策略网络使用两层全连接层实现的,其实可以换成任何其他形式。
我一直认为朴素的策略网络梯度更新的思想其实十分简单直观:当回报是正的,就提高做过的动作的概率,反之就降低。当然这过于朴素了,所以才有了后面众多的改进措施。