强化学习中的误区与真相 | PodLM - AI Podcast Generator

Sources

误区：Actor的loss值是不是越小越好？首先要纠正一点，critic的优化目标是：最小化criticloss；而actor的优化目标是：最大化critic网络给出的Q值估计（相当于最小化critic网络给出的Q值估计的负值）。强行把actor的优化目标说成loss值，会影响自己的很多判断。例如问出这样的问题：loss值是衡量预测值与标签的距离，为什么距离会小于0啊？我的Actor的loss值怎么一会儿大于0，一会儿小于0呢？强行把actor的优化目标说成loss值是不对的。 1.对critic的训练，可以看成一个回归任务：训练一个估值网络，拟合我们用贝尔曼公式算出的Q 直标签 2.Critic网络的优化目标objective是：根据损失函数lossfunction（MSE）提供的梯度，更新 critic网络的参数，最小化网络输出的Q值与标签的距离 3.也可以说成是：通过训练让criticloss接近于0。 4.在策略给定，state给定的情况下，越小的loss值，表明在训练数据上，critic的拟合精度越高深度神经网络的训练，需要有一个优化目标，而critic网络的优化目标恰好是最小化criticloss actor网络的优化目标不是最小化loss 1.对actor的训练，则是一个双层优化任务：先训练一个估值网络，让估值网络为另一个网络提供更新的梯度 2.Actor网络的优化目标objective是：根据损失函数lossfunction（critic网络）提供的梯度更新actor网络的参数，最大化critic网络给出的Q值估计值。 3.也可以说成是：通过训练让critic网络的Q值估计尽可能大。 4.在策略给定，state给定的情况下，越大的Q值估计，表明在训练数据上，actor的表现越好 5.但这里的Q值是估计值，critic网络提供的梯度带有很大的噪声。所以在强化学习里，智能体需要在仿真环境中验证自己学到策略是不是真的可行：直接让智能体与环境交互获取最新的奖励信问题：loss值是衡量预测值与标签的距离，为什么距离会小于0啊？我的Actor的loss值怎么一会儿大于0，一会儿小于0呢？回答：被错误地称为actorloss的数值其实是Actor的优化目标，它不是“衡量预测值与标签的距离”，它是critic网络给出来的Q值估计值，可以是任意实数。我们只要观察到Critic给Actor评估的Q值，保持了和learningcurve相似的增减趋势，就表明当前的策略梯度优化过程在平稳地进行。想要了解更多，可以着强化学习中“策略梯度定理”的规范表达、推导与讨论-Beaman

Podcast Editor

Podcast.json

Preview

Audio

Title

Description

Topics