Sources

误区:Actor的loss值是不是越小越好? 首先要纠正一点,critic的优化目标是:最小化criticloss;而actor的优化目标是:最大化critic网 络给出的Q值估计(相当于最小化critic网络给出的Q值估计的负值)。强行把actor的优化目标说 成loss值,会影响自己的很多判断。例如问出这样的问题:loss值是衡量预测值与标签的距离,为 什么距离会小于0啊?我的Actor的loss值怎么一会儿大于0,一会儿小于0呢? 强行把actor的优化目标说成loss值是不对的。 1.对critic的训练,可以看成一个回归任务:训练一个估值网络,拟合我们用贝尔曼公式算出的Q 直标签 2.Critic网络的优化目标objective是:根据损失函数lossfunction(MSE)提供的梯度,更新 critic网络的参数,最小化网络输出的Q值与标签的距离 3.也可以说成是:通过训练让criticloss接近于0。 4.在策略给定,state给定的情况下,越小的loss值,表明在训练数据上,critic的拟合精度越高 深度神经网络的训练,需要有一个优化目标,而critic网络的优化目标恰好是最小化criticloss actor网络的优化目标不是最小化loss 1.对actor的训练,则是一个双层优化任务:先训练一个估值网络,让估值网络为另一个网络提供 更新的梯度 2.Actor网络的优化目标objective是:根据损失函数lossfunction(critic网络)提供的梯度 更新actor网络的参数,最大化critic网络给出的Q值估计值。 3.也可以说成是:通过训练让critic网络的Q值估计尽可能大。 4.在策略给定,state给定的情况下,越大的Q值估计,表明在训练数据上,actor的表现越好 5.但这里的Q值是估计值,critic网络提供的梯度带有很大的噪声。所以在强化学习里,智能体需 要在仿真环境中验证自己学到策略是不是真的可行:直接让智能体与环境交互获取最新的奖励信 问题:loss值是衡量预测值与标签的距离,为什么距离会小于0啊?我的Actor的loss值怎么一会 儿大于0,一会儿小于0呢? 回答:被错误地称为actorloss的数值其实是Actor的优化目标,它不是“衡量预测值与标签的距 离”,它是critic网络给出来的Q值估计值,可以是任意实数。我们只要观察到Critic给Actor评估 的Q值,保持了和learningcurve相似的增减趋势,就表明当前的策略梯度优化过程在平稳地进 行。 想要了解更多,可以着强化学习中“策略梯度定理”的规范表达、推导与讨论-Beaman

Podcast Editor
Podcast.json
Preview
Audio