时序差分学习与致命三角：深度强化学习的稳定性探讨 | PodLM - AI Podcast Generator

Sources

首发于决策智能与强化学习前沿进展写文章点击打开微尘-黄含驰的主页最前沿———决策智能与强化学习（8）：TD Learning （时序差分学习）中的值函数收敛性询问ChatGPT 最前沿———决策智能与强化学习（8）：TD Learning （时序差分学习）中的值函数收敛性 DILab决策实验室 DILab决策实验室知乎知识会员 OpenDILab 开源决策智能平台知识传播星球已关注杨晓萌等 35 人赞同了该回答目录收起 0. 概览 1. Deep Reinforcement Learning and the Deadly Triad 1.1 简介 1.2 深度强化学习中的致命三角 1.3 一个直观示例 1.4 假设 1.5 实验 2. Breaking the Deadly Triad with a Target Network 2.1 简介 2.2 背景知识 2.3 目标网络收敛性的分析 2.4 实验 2.5 讨论 3. 关于 TD 学习中值函数收敛性的其他工作 3.1 TD Convergence: An Optimization Perspective [3] 3.2 Resetting the Optimizer in Deep RL: An Empirical Study [4] 3.3 Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [5] 3.4 Stop Regressing: Training Value Functions via Classification for Scalable Deep RL [6] 4. 总结 5. 参考文献上期回顾： DILab决策实验室：最前沿———决策智能与强化学习（7）：重放比率（replay ratio） 33 赞同 · 0 评论文章 0. 概览在强化学习（RL）领域，TD Learning （时序差分学习）方法通过引导（bootstrap）机制来估计值函数，因其计算效率高而备受青睐。然而，当 TD 学习与函数近似（例如用神经网络拟合某个函数）及 off-policy 学习相结合时，可能会导致算法的不稳定，甚至出现发散现象。这种现象被称为“致命三角”（deadly triad），是强化学习中的核心挑战之一。为了解决这一问题，研究者们提出了多种方法，其中引入目标网络（target network）是提高算法收敛性与稳定性的重要手段。本文首先介绍了 TD 学习的基本概念，并深入探讨了“致命三角”形成的机理及其影响。接着，分析了以 DQN 为代表的深度强化学习算法如何通过目标网络等技术应对这一问题，重点介绍了主网络与目标网络双时间尺度框架的设计，并展示了其理论收敛性。最后，讨论了近年来关于 TD 学习中值函数收敛性的最新研究成果。本文的结构如下： TD 学习与致命三角 [1]：讨论 off-policy 学习、函数逼近与引导结合时可能产生的问题。通过目标网络打破致命三角 [2]：详细介绍目标网络的工作机制及其在 DQN 和其他算法中的应用。 TD 学习收敛性的最新研究 [3,4,5,6]：总结了近年来关于 TD 学习收敛性的理论分析与实证研究成果，涵盖了从优化角度对 TD 学习的收敛性研究、强化学习中优化器的改进、离线强化学习中的发散问题，以及基于交叉熵损失的值函数训练方法等内容。通过对上述问题的探讨，本文提供了 TD 学习的机制和值函数收敛性的深入理解，并为未来研究方向提供有价值的见解。笔者注：为方便读者检索，博客中图片索引保持与原论文中的一致。由于博客篇幅较长，难免有疏忽遗漏之处，敬请读者在评论区讨论指正。电脑端阅读体验更佳。 1. Deep Reinforcement Learning and the Deadly Triad 1.1 简介本文探讨了使用时间差分（TD）方法来学习价值函数的问题。状态或动作的价值是从该点出发，遵循某一策略时所能获得的预期折扣回报。 off-policy 学习算法可以估计与实际行为不同的策略的价值，使得智能体能够学习多种策略，并行优化。通过直接估计当前价值函数的贪婪策略的价值，这种方法还能提升策略改进效率，正如在价值迭代和Q学习中所示。在最简单的TD学习形式中，立即奖励加上后续状态的折扣价值被用作目标来更新前一状态的价值。这意味着一个状态的价值估计用于更新前一状态的估计，称为引导（bootstrap）。这种方法广泛应用于策略梯度和演员-评论家方法中来学习价值函数。对于大型问题，单独学习每个状态的价值通常不可行，此时需要通过价值函数逼近在状态间进行泛化。当TD学习与函数逼近结合时，更新一个状态的价值可能会影响其他状态的估计，包括那些用于引导的状态。如果智能体足够频繁地更新这些引导值，问题不大；但在 off-policy 学习中，更新可能不够频繁，导致学习不稳定甚至函数参数发散。这种函数逼近、 off-policy 学习和引导的结合被称为“致命三角”，因其可能导致发散问题。尽管已有部分解决方案被提出，但大多未能推广到非线性函数逼近，且在实践中应用有限。Sutton 和 Barto指出， off-policy 学习的潜力虽大，但其最佳实现方法仍是未解之谜。另一方面，许多算法成功结合了致命三角的所有要素。深度Q网络（DQN）智能体使用深度神经网络逼近动作值，并通过Q学习（一种 off-policy 算法）更新。DQN使用经验回放来采样过去的转移，进一步增强了 off-policy 特性。此外，DQN采用一步Q学习，依赖于引导机制。尽管结合了致命三角的所有组成部分，DQN仍成功地学会了玩许多 Atari 2600 游戏。论文 [1] 进行了一项实证研究，分析了何时致命三角会对算法产生不利影响，特别是探讨了DQN算法的变体，考察了其稳定性及影响学习效果的关键因素。 1.2 深度强化学习中的致命三角如果致命三角确实存在，为什么 DQN 仍能正常工作？为更深入理解这一问题，首先需要注意三角的每个组成部分并非二元的，而是可以通过以下方式调节：引导（bootstrap）：通过使用多步回报调节引导的影响。增加步数可减少引导的影响。在某些 DQN 变体中，多步回报已被证明能提高性能。函数逼近：通过改变函数空间容量调整函数逼近的泛化效果和别名问题。可以通过改变神经网络的大小来实现。 off-policy ：通过改变经验回放采样的状态分布，调整 off-policy 程度。优先经验回放可以通过优先考虑某些转移来实现，而更高的优先级可能导致更多的 off-policy 更新。通过系统调节这些因素，可以研究算法在实践中何时变得不稳定，并深入理解三角组成部分与学习动态的关系，尤其是在训练过程中不稳定性出现的条件。首先，论文 [1] 在一个经典玩具示例中分析了致命三角的学习动态，以便建立对问题的直观理解。随后，在Atari 2600游戏中进行更广泛的实验，确保结论同样适用于更复杂的环境。 1.3 一个直观示例 TD学习旨在更新价值函数 v_w 的参数 w ，使其接近策略 \pi 的真实价值 v_\pi ，即： v_w(s) \approx v_\pi(s) = \mathbb{E} [R_{t+1} + \gamma R_{t+2} + \dots | S_t = s, A_{t+i} \sim \pi(S_{t+i}), \forall i > 0] TD学习通过以下更新公式实现对价值函数的改进： \Delta w \propto (R_{t+1} + \gamma v_w(S_{t+1}) - v_w(S_t)) \nabla_w v_w(S_t), 其中， v_w(S_{t+1}) 用于估计状态 S_{t+1} 之后的未来回报。 (论文[1]-图 1：当且 v(s) = w \phi(s) 且对每个状态进行等频采样时，示例 1a 会发散（如 1b 所示）。然而，当引入一个额外的参数时，即 v(s) = w(\phi(s) + u) ，系统会收敛（如 1c 所示）。两个系统都初始化为相同的状态（其中 u = 0 ）并以相同的方式进行优化。x 轴显示学习更新的次数，y 轴以对数刻度显示相应的值。) 在文献中，有多个关于发散的例子。接下来，将使用Tsitsiklis和Van Roy（1997）的示例来说明这一问题的本质。如图1a所示，假设每个状态由一个标量特征 \phi 描述，令 \phi(s_1) = 1 和 \phi(s_2) = 2 ，估计值为 v(s) = w \times \phi ，其中 \phi 是待更新的参数。具体而言， v(s_1) = w ， v(s_2) = 2w 。图中的圆圈表示这些值的估计。由于所有奖励均为0，当 w^* = 0 时，价值预测是完美的。如果按动态（on-policy）更新每个状态的价值，那么 s_2 的价值会在每次更新 s_1 之前多次更新，最终权重 w 会收敛到最优值 w^* = 0 。现在，考虑仅更新 s_1 的值而不更新s_2的情况。这是一个off-policy更新，因为 s_2 的更新频率与其实际访问频率不匹配。根据TD更新公式： \Delta w \propto \gamma 2w - w = (2\gamma - 1)w 对于折扣因子 \gamma > 1/2 ，由于 2\gamma > 1 ，任何非零的 w 都会偏离零，导致发散。即使 s_2 的更新频率增加，但如果不足以与 on-policy 情况匹配，且 \gamma 足够大，发散仍然会发生（如图1b所示）。从直觉上看，这个例子揭示了一个关键问题：由于函数逼近的泛化，更新某些状态值时可能无意中影响其他状态的值。对于off-policy学习，未能充分纠正这些无意的更新可能导致参数和价值估计发散。然而，通过对函数形式进行小的调整，该问题可以得到解决。假设状态值定义为 v(s_i) = w(\phi(s_i)) + u ，其中 u 是可学习的参数。如果固定 u = 0 ，则恢复经典示例。但允许 w 和 u 一同通过TD更新时，尽管初期似乎会发散，但最终会恢复并收敛到最优值 v(s_1) = v(s_2) = 0 （见图1c）。尽管线性函数逼近在强化学习中已有广泛研究，但发散的例子通常是人为构造的。当使用深度非线性函数空间时，关于发散问题的普遍性及其原因仍缺乏明确的指导。 1.4 假设在本节，作者将探讨几项关于不同算法组件如何导致学习过程发散的假设。从一个标准的DQN算法变体出发，确保结论不仅适用于极端情况，还具有广泛的实际意义。为了验证这些假设，作者研究了多个DQN变体，采用不同的超参数进行训练，并系统性地追踪发散发生的具体位置。假设1（深度发散, Deep divergence）：当结合Q学习和常规深度强化学习函数空间时，无界发散并不常见。该假设基于线性函数逼近的经验结果，假设类似现象也适用于深度网络。尽管Q学习中的off-policy和ϵ-贪婪策略可能理论上导致发散，但实际中这种情况较少见。作者通过一系列深度强化学习实验，验证了这一现象是否在实际中也成立。以下两个假设涉及Q学习更新规则的变体。它们并不直接对应于介绍的三元组的组成部分，但它们可能会与学习动态相互作用，使发散的可能性更大或更小。所有更新都具有如下形式： ∆θ ∝ (G^{(n)}_t − q(S_t, A_t))∇_θq(S_t, A_t) 其中，t是经验回放中的时间步长，G^{(n)}_t = R_{t+1} + ... + γ^{(n−1)}R_{t+n} + γ^nv(S_{t+n}) 是n步回报。例如，对于标准的一步Q学习，v(s) = max_a q(s, a) 且 n = 1。假设2（目标网络）：当在不同网络上进行bootstrap时，发散的情况较少。 Mnih等人（2015）展示了在 v(s) = max_a q'(s, a) 上bootstrap的方案，其中 q' 是在线网络 q 的一个间歇性更新的独立副本，称为目标Q学习。在致命三元组的背景下，这种做法可能有益，因为如果使用独立网络，其对应的 bootstrap 目标不会被立即更新。然而，目标网络并不能作为解决致命三元组的充分条件。当将这些目标网络应用于带有线性函数逼近的标准Tsitsiklis和Van Roy示例（图1a）时，权重仍然会发散，即便使用目标网络，发散速度有所减缓。假设3（过高估计）：当修正过高估计偏差时，发散较少。标准Q学习和目标Q学习已知存在过高估计偏差。为了防止这种情况，可以通过在 bootstrap 目标中分离动作选择与动作评估来解决这一问题，使用 v(s) = q'(s, \arg \max q(s,a)) 。这被称为双Q学习。如上定义的双Q学习，与DQN中的方式相同，使用慢速更新的副本 q' 来评估所选择的动作。这结合了通过分离动作选择与评估来减少过高估计的好处，以及使用独立静态目标网络的好处。为了分离这些效果，作者定义一个新的双Q学习变体，即在更新q时，在 v(s) = q(s, \arg \max q'(s,a)) 上bootstrap。作者称之为反向双Q学习。它使用与正在更新的同一网络q来获取值估计，但使用独立的目标网络来确定动作。因此，它具有减少过高估计的好处，但没有使用独立目标网络进行bootstrap的好处。基于此，作者提出了四种bootstrap目标： v(s) = q(s, \arg \max_a q(s, a)) = \max_a q(s, a) (Q学习） v(s) = q'(s, \arg \max_a q'(s, a)) = \max_a q'(s, a) （目标Q学习） v(s) = q(s, \arg \max_a q'(s, a)) （反向双Q学习） v(s) = q'(s, \arg \max_a q(s, a)) （双Q学习）如果假设2成立，作者预计（目标Q ≺ Q）和（反向双Q ≺ 双Q），其中“≺”松散地定义为“比……更不容易发散”。假设3则意味着（反向双Q ≺ Q）和（双Q ≺ 目标Q）。综合起来，这些将定义出一个部分排序，其中Q学习最容易发散，双Q学习最不容易发散，其他变体处于两者之间。假设4（多步）: 较长的多步回报更不易发散。多步回报可以减少 bootstrap 的频率。单步情况下，学习更新中的收缩与折扣因子γ ∈ [0, 1]成正比。当在2个步骤后bootstrap时，尽管更新噪声增大，但预期收缩为γ²。直观上，使用多步更新时（在 G^{(n)}_t 的定义中使用较大的n），bootstrap较少，发散的可能性也较低。在线性函数逼近的情况下，这一假设成立，但在深度网络估值时仍需进一步验证。假设5（容量）: 较大、更加灵活的网络将不太容易发散。发散问题部分源于跨状态的泛化不当。如果所有值都独立存储在函数逼近器中，发散将不会发生，这也是表格形式的off-policy TD不会发散的原因。作者假设，更灵活的函数逼近器可能表现得更像表格情形，从而减少发散的可能性。假设6（优先级）: 更新的优先级越强，发散的可能性越大。大多数反例通过修改状态分布来诱发发散，例如通过等频率地更新所有状态，而不是使用 on-policy 的分布（Baird，1995；Tsitsiklis和Van Roy，1997）。为了修改这一分布，作者可以使用优先级回放（Schaul等人，2016）。具体来说，选择状态-动作对 (S_k, A_k) 的概率 p_k 是TD误差的函数： p_k ∝ |G^{(n)}_k − q(S_k, A_k)|^α 其中， q(S_k, A_k) 和多步回报 G^{(n)}_k 分别是状态-动作对 (S_k, A_k) 的值首次被放入回放中和该样本上次被用于更新时的值。对于α = 0，作者得到均匀随机回放。对于α > 0，可以通过将结果更新与重要性采样修正 1/(N p_k)^β 相乘来朝向均匀采样分布进行修正，其中N是回放区的大小。作者可以通过α和β来调节更新的off-polcy程度。 1.5 实验为了验证假设，作者在Atari学习环境中基于DQN变体进行了实验。实验的预处理步骤与Mnih等人（2015）的工作一致。在实验中，作者系统地调整了以下参数：算法参数包括从四种自举目标中选择一个，以及在 n = 1 、n = 3或n = 10时的自举步数。作者还测试了四个不同的优先级水平，分别为 \alpha \in \{0, 1/2, 1, 2\} ，并考虑了两种重要性采样修正的情况（有修正\beta = 0.4 和无修正 \beta = 0 ）。此外，作者检验了四种不同规模的网络，分别为小型、中型、大型和超大型。这些参数组合产生了336种配置，涵盖了57个游戏。每个配置在单个CPU核心上运行了约2000万帧。虽然每次运行的时间不足以达到最优性能，但足以分析学习动态，并检查广泛的配置集。为保证结果的可靠性，作者重复了3次独立实验。实验过程中，作者每隔50K至100K帧跟踪多项统计数据，重点关注最大绝对动作值估计（“最大|Q|”），以评估值估计的稳定性。由于奖励被剪切至[-1, 1]，且折扣因子 \gamma = 0.9 ，理论上的最大绝对值为 1 + γ + γ² + ... = 1/(1-γ) = 100 （实际上可达到的值通常要小得多）。若$$|q| > 10$$，作者称之为软发散 (soft divergence)。 1.5.1 无界发散的检验（假设1） (论文[1]-图 2：最大绝对动作值分布。左图展示了软发散（即值超出可实现范围的 [−100, 100]）发生的次数，并根据 bootstrap 类型进行划分。右图展示了两个不同网络规模下最大绝对 Q 值的百分位数，纵轴为对数刻度。多个运行中的值迅速上升至不现实的数量级，但随后收缩至合理的范围。) 作者首先探讨值是否会像致命三角中的经典现象一样发散。结果表明，尽管确实存在软发散（即值超过100），并且偶尔会达到极高的值估计，但从未出现无界发散现象（即未导致浮点数NaN）。因此，尽管致命三角可能导致无界发散，但在深度Q学习及其变体中，这种情况并不常见，支持了假设1。 1.5.2 自举目标的稳定性（假设2, 假设3）鉴于无界发散较为罕见，作者进一步分析了软发散的出现情况。在336种参数设置和3次重复实验中，作者跟踪了最大绝对Q值的变化。首先，作者评估了不同更新规则对软发散的敏感性：Q学习、目标Q学习、逆双重Q学习和双重Q学习。结果显示，Q学习的稳定性最差（61%不稳定性）；目标Q学习和双重Q学习通过目标网络减少了泛化问题，是最稳定的。逆双重Q学习虽解决了Q学习的高估偏差问题，但其软发散率仍适中（33%）。这些结果支持了假设2和假设3：高估偏差与发散的关联更强，且在自举同一网络时问题更为严重。为进一步理解软发散，作者还跟踪了最大绝对值随时间的变化。尽管值估计经常迅速增长至百万级，但通常会回落至100以下。不同网络规模下的Q值分布显示，随着可学习参数的增加，值估计最初迅速上升，但随后回归到更准确的估计，这与Tsitsiklis和Van Roy（1997）模型的扩展一致。 1.5.3 致命三角的检验（假设4, 假设5, 假设6） (论文[1]-图 3：软发散。作者分别绘制了每种 bootstrap 类型在不同条件下出现软发散（即值超出可实现范围 [−100, 100]）的运行比例，作为 bootstrap 长度、网络规模和优先级类型的函数。百分比统计涵盖了所有其他参数配置，并做了 3 次复现。（a）增加 bootstrap 长度可减少不稳定性（支持假设 4）。（b）增加网络容量会增加不稳定性（与假设 5 相悖）。（c）增加优先级会增加不稳定性（支持假设 6）。) 接下来，作者研究了多步回报、网络容量和优先级在致命三角中的作用。图3显示了不同自举长度、网络规模和优先级下各自举目标的软发散比例。图3a表明，随着自举长度增加，发散率显著降低。一步Q学习（ n = 1 ）在94%的实验中出现软发散，而 n = 10 时这一比例降至21%。这为假设4提供了有力支持。图3b显示了网络容量的影响。结果与假设5相违背：Q学习中，小型网络的发散率更低（53%），而大型网络更高（67%）。对于更稳定的更新规则，如双重Q学习，网络容量对发散率的影响较小（大约为约10%）。图3c展示了优先级的影响。随着优先级的增强，Q学习的发散率从52%升至77%，双重Q学习则从2%升至23%。重要性采样修正（标记为“P”）显著降低了发散风险，尤其在强优先级下（ \alpha =1 和 \alpha = 2 ）。这些结果支持了假设6。 1.5.4 智能体性能 (论文[1]-图 4：在这些图中，每个点的坐标对应于 57 个游戏中的最大值估计中值和人类标准化表现中值。第一行展示了完整的数据集，按不同的算法选择进行了标记和着色。第二行分别根据是否使用重要性采样校正进行划分（右侧为使用，左侧为不使用），并根据优先级参数 \alpha 进行着色。虚线垂直线表示可能的最大值 100。总体来看，不现实的值估计通常对应较差的表现。) 软发散与较差的控制性能密切相关。未出现软发散的实验往往具有较好的控制性能，而出现软发散的实验则表现较差。图4左上角显示了不同自举方法的表现：Q学习和逆双重Q学习最易出现软发散，且性能较差。然而，某些Q学习实验尽管存在不现实的值（如1000），但仍表现出不错的性能，表明高估偏差未必影响动作值的排序。图4中间展示了不同自举长度的影响：更长的多步回报（）对应于更少的不稳定性和更好的表现，而的实验则表现出较差的性能和不现实的值估计。网络容量的影响（图4右上角）显示，大型和超大型网络架构在表现最好的实验中占主导地位。然而，最大网络在Q学习中也有最多的不现实高值估计。图4底部展示了优先级对性能的影响。过度优先级（或）与高值估计和性能下降相关，尤其是在无重要性采样修正的情况下。 2. Breaking the Deadly Triad with a Target Network 2.1 简介致命三元组指的是基于值的强化学习（RL）算法在同时采用 off-policy 学习、函数逼近和引导（bootstrapping）时引发的不稳定性问题。与 on-policy 方法不同， off-policy 方法通过执行不同于目标策略的行为策略来收集数据，通常更为安全且数据效率更高。函数逼近通过参数化函数代替查找表来表示感兴趣的量，适用于大规模问题。bootstrap 方法利用递归估计来构造更新目标，相比蒙特卡罗方法，它具有较低的方差。然而，三者的结合常导致算法不稳定，值估计容易发散，这构成了所谓的“致命三元组”。一个典型的例子是使用线性函数逼近的 Q 学习，其发散性在 Baird (1995) [8] 中有详细讨论。相较之下，DQN 结合深度神经网络函数逼近，取得了显著的实证成功。DQN 的一项关键改进是引入目标网络，该网络是主网络的副本，并定期与之同步。DQN 的 bootstrap 目标通过目标网络计算，而非主网络，从而提高了训练过程的稳定性。Lillicrap 等 (2015) 提出的 Polyak-平均风格的更新策略替代了周期性的同步更新，进一步增强了稳定性。受目标网络在深度强化学习中成功应用的启发，论文[2] 从理论上探讨了目标网络作为打破致命三元组的潜力。作者提出一个双时间尺度框架 (two-timescale framework): 主网络更新比目标网络快。通过使用目标网络构造bootstrap 目标，主网络更新可转化为最小二乘回归（least squares regression）。在向这个最小二乘问题引入岭正则化（Tikhonov et al., 2013），作者证明了主网络和目标网络的收敛性。岭正则化（Ridge Regularization），也称为岭回归（Ridge Regression），是一种用于解决线性回归中过拟合问题的技术。岭正则化通过在损失函数中加入对模型权重的惩罚项，使得模型更具鲁棒性，并在面对复杂或者噪声较多的数据时表现得更好。论文[2] 的主要贡献包括两点：首先，提出了一种新颖的目标网络更新规则，结合了 Polyak-平均和双投影技术，理论上保证了目标网络的收敛性。其次，展示了该方法在多种发散算法中的应用，证明其收敛至正则化 TD 的固定点。作者还提出了首个在非约束行为策略下收敛的线性 Q 学习算法，适用于折扣和平均回报（discounted and average-reward）设置，且不依赖双层优化。官方代码：https://github.com/ShangtongZhang/DeepRL 2.2 背景知识设为一个正定矩阵，为向量，表示由诱导的范数，表示对应的诱导矩阵范数。当是单位矩阵时，省略下标。当不会引起混淆时，作者将向量与函数交替使用，所有向量均为列向量。表示全1向量，维度由上下文推断，同理。作者考虑一个无限时间的马尔可夫决策过程（MDP），其包含有限状态空间、有限动作空间、转移核和奖励函数。在时间步，智能体在状态下执行动作，其中策略。智能体接收奖励，并转移至新状态。在折扣设置中，折扣因子为，时间步的回报（return）定义为：对应的动作价值函数为：动作价值函数是贝尔曼算子的唯一不动点：其中）是转移矩阵。假设 2.1：在平均回报设置中，假设策略诱导的链是遍历的 (ergodic)。遍历性（ergodicity）是指的是该链的长期行为能够覆盖状态空间中的所有状态，并且不依赖于初始状态。在这个假设基础上，定义奖励率（reward rate）为：差分动作价值函数（differential actionvalue function））定义为：差分贝尔曼方程为：其中和是自由变量（free variables）。上述方程的解集为: 。策略评估（policy evaluation）旨在估计或，控制（Control）问题则是找到最大化 q_\pi(s, a) 或 \bar{r}_\pi 的策略。在线性函数逼近中，用 x(s, a)^\top w 逼近 q_\pi(s, a) 或 \bar{q}_\pi(s, a) ，其中 x: S \times A \to \mathbb{R}^K 为特征映射， w \in \mathbb{R}^K 为可学习的参数。作者使用 X \in \mathbb{R}^{|\mathcal{S}||\mathcal{A}| \times K} 表示特征矩阵，其中每一行是 x(s, a)^\top，并假设：假设 2.2: 特征矩阵 X 拥有线性独立的列。在平均回报设置中，作者引入附加参数\bar{r} \in \mathbb{R}来逼近 \bar{r}_\pi 。在 off-policy 学习中，数据由行为策略 \mu 收集，目标策略 \pi 则不同于行为策略。在本文的其余部分中，关注 off-policy 的线性函数近似情境，假设 A_t \sim \pi(\cdot | S_t) 始终成立。为简化符号表示，定义： x_t := x(S_t, A_t); \quad \bar{x}_t := \sum_a \pi(a | S_t) x(S_t, a) 策略评估（Policy Evaluation）在 discounted setting下，类似于时间差分学习（TD），可以使用 Off-Policy Expected SARSA 来估计 q_\pi，其更新规则为： \delta_t = R_{t+1} + \gamma \bar{x}_{t+1}^\top w_t - x_t^\top w_t; \\w_{t+1} = w_t + \alpha_t \delta_t x_t; \ (2) \\ 其中，\{\alpha_t\} 为学习率。在 average-reward setting 中，方程 \rho_\pi = d^\top (r + P_\pi q_\pi - q_\pi) 对任意概率分布 d 都成立，因此对 d = d_\pi 也成立。为估计 q_\pi 和 \rho_\pi ，Wan 等人（2020）和 Zhang 等人（2021）提出以下更新规则：w_{t+1} = w_t + \alpha_t \left( R_{t+1} - \rho_t + \gamma \bar{x}_{t+1}^\top w_t - x_t^\top w_t \right) x_t; \\\rho_{t+1} = \rho_t + \alpha_t \left( R_{t+1} + \gamma \bar{x}_{t+1}^\top w_t - x_t^\top w_t - \rho_t \right) \ (3) \\ 然而，方程 (2) 和 (3) 可能会发散，这已在 discounted 和 average-reward setting 下分别被 Tsitsiklis 和 Van Roy（1997）及 Zhang 等人（2021）指出，体现了“致命三元组”问题。控制（Control）在 discounted setting 中，Q-learning 结合线性函数近似的更新规则为： \delta_t = R_{t+1} + \gamma \max_{a'} x(S_{t+1}, a')^\top w_t - x_t^\top w_t; \\w_{t+1} = w_t + \alpha_t \delta_t x_t \ (4) \\在 average-reward setting 下，(Wan et al., 2020) 提出的 Differential Q-learning 结合线性函数近似，更新如下： \delta_t = R_{t+1} - \rho_t + \gamma \max_{a'} x(S_{t+1}, a')^\top w_t - x_t^\top w_t; \\w_{t+1} = w_t + \alpha_t \delta_t x_t; \quad \bar{r}_{t+1} = \bar{r}_t + \alpha_t \delta_t \ (5) \\ 不幸的是，方程 (4) 和 (5) 同样可能发散，这在 Baird（1995）及 Zhang 等人（2021）中已有讨论，表明该问题仍然受“致命三元组”影响。目标网络与正则化受深度强化学习中目标网络成功应用的启发，可以在线性函数近似环境下引入目标网络。例如，在方程 (4) 中引入目标网络的更新方式为： \delta_t = R_{t+1} + \gamma \max_{a'} x(S_{t+1}, a')^\top \theta_t - x_t^\top w_t; \\w_{t+1} = w_t + \alpha_t \delta_t x_t \ (6) \\\theta_{t+1} = \theta_t + \beta_t (w_t - \theta_t) \ (7) \\其中，\theta 表示目标网络， \{\beta_t\} 是学习率，采用 Polyak-平均风格的更新方式。然而，上述方程的收敛性尚未得到验证。此外，正则化技术在深度强化学习中也被广泛应用。例如，Mnih 等人（2015）引入 Huber 损失替代均方损失；Lillicrap 等人（2015）在更新Q值时使用了 \ell_2 权重衰减。 2.3 目标网络收敛性的分析在原论文的第 4 和第 5 节，会讨论目标网络在几种 linear RL算法中的优势。（第4和5节 Application to Off-Policy Policy Evaluation 和 Application to Off-Policy Policy Control 请参考原论文。）作者在本节首先提出并分析了一种新的目标网络更新规则： \theta_{t+1} = \Gamma_{B_1} (\theta_t) + \beta_t (\Gamma_{B_2}(w_t) - \theta_t). \ (8) \\ , 其中，w 表示主网络， \theta 为目标网络。投影算子 \Gamma_{B_1}: \mathbb{R}^K \to \mathbb{R}^K 将向量投影到球 B_1 = \{x \in \mathbb{R}^K \mid \|x\| \leq R_{B_1}\} 上： \Gamma_{B_1}(x) = xI_{\|x\| \leq R_{B_1}} + \left( \frac{R_{B_1} x}{\|x\|} \right) I_{\|x\| > R_{B_1}}, \\ 其中 I 是 indicator 函数。\Gamma_{B_2} 是投影到半径为 R_{B_2} 的球 B_2 上的算子。作者对学习率做出以下假设：假设 3.1： \{\beta_t\} 是确定的正值非增序列，满足 \sum_{t} \beta_t = \infty ， \sum_{t} \beta_t^2 < \infty 。虽然公式 (8) 仅描述了 \theta 的更新，但假设 w 的更新使其能够跟踪 (track) \theta ，具体如下：假设 3.2：存在函数 w^: \mathbb{R}^K \to \mathbb{R}^K，使得 \lim_{t \to \infty} \|w_t - w^(\theta_t)\| = 0 几乎必然成立。在针对 w^* 进行下面一些额外假设后，作者得出了目标网络的收敛性结论。假设 3.3： \sup_{\theta} \|w^(\theta)\| < R_{B_2} < R_{B_1} < \infty 。假设 3.4：w^ 是关于范数 \|\cdot\| 的压缩映射（contraction mapping）。定理 1（目标网络的收敛性）：在假设 3.1-3.4 下，由公式 (8) 生成的迭代序列 \{\theta_t\} （almost surely）满足： \lim_{t \to \infty} w_t = \lim_{t \to \infty} \theta_t = \theta^， \\ ，其中 \theta^ 为 w^(\cdot) 的唯一不动点。假设 3.2 - 3.4 目前是临时的，待第 4 和第 5 节中明确主网络 w 的更新规则后，将证明其成立。假设 3.2 很可能成立，因为目标网络更新速度远慢于主网络，主网络的更新会逐渐表现为传统的最小二乘回归，其解 w^ 通常存在。假设 3.4 也可能成立，因为将岭正则化（ridge regularization）应用到最小二乘问题上会使 w^* 随回归目标的变化不会过快。公式 (8) 的更新规则与公式 (7) 相同，区别在于两个投影操作，其中 \Gamma_{B_1} 是标准做法，而 \Gamma_{B_2} 的引入较为新颖，且在作者的分析中至关重要。如果仅有 \Gamma_{B_1} ，迭代序列 \{\theta_t\} 将收敛到以下微分方程的不变集： \frac{d\theta(t)}{dt} = w^(\theta(t)) - \theta(t) + \zeta(t), \ (9) \\ 其中 \zeta(t) 是当 \theta(t) 变得过大时将其反射回 B_1 的反射项（reflection term）。由于该反射项的存在， \theta(t) 可能无限次访问 B_1 的边界，导致不变集不明确。通过引入第二个投影 \Gamma_{B_2} 并确保 R_{B_1} > R_{B_2} ，可以消除反射项，证明迭代序列 \{\theta_t\} 跟踪的微分方程为： \frac{d\theta(t)}{dt} = w^(\theta(t)) - \theta(t), \\在假设 3.4 下，其不变集为单点集 \{\theta^\} 。具体证明见定理 1 的微分方程方法分析（Kushner & Yin, 2003；Borkar, 2009），详见原论文附录 A.1。此外，为了确保主网络能够在第 4 和第 5 节中的应用中跟踪 (track) 目标网络（假设 3.2），关键是目标网络的变化速度足够慢，具体如下：引理 1：存在常数 C_0 > 0 ，使得 \|\theta_{t+1} - \theta_t\| \leq \beta_t C_0 。若无 \Gamma_{B_2} ，引理 1 将不成立，具体证明见原论文附录 A.2。第 4 和第 5 节讨论了定理 1 在 discounted 和 average-reward setting 下的应用，涵盖策略评估与控制。作者采用双时间尺度框架，目标网络的更新速度较主网络更慢。设 \{\alpha_t\} 为更新主网络 w 的学习率，假设如下：假设 3.5： \{\alpha_t\} 是确定的正值非增序列，满足 \sum_{t} \alpha_t = \infty ， \sum_{t} \alpha_t^2 < \infty ，且存在 d > 0，使得 \sum_{t} (\beta_t/\alpha_t)^d < \infty 。算法1：使用 target network 的 Q 值评估。其中 η 是岭回归项的权重。算法3：使用 target network 的 Q 学习（Control）。其中 η 是岭回归项的权重。 2.4 实验 (论文[2]-图1:（a）正则化对 Kolter 例子[7] 的影响。是真实的状态值函数。（b）在 Baird 例子 [8]上的策略评估。（c）在 Baird 例子上使用固定行为策略的控制。（d）在 Baird 例子上使用与动作值相关的行为策略的控制。在（b）（c）（d）中，曲线是30次独立运行的平均结果，阴影区域表示一个标准差。是最优的动作值函数。是岭回归项的权重。标记为“ours”的是作者提出的算法曲线；标记为“standard”的是标准的 semi-gradient off-policy 算法。有趣的是，三个“standard”曲线重叠并迅速发散。) 作者首先使用 Kolter 的示例 [7] 来研究策略评估设置中的性能表现（详细信息见原论文附录 D.1）。该示例是一个两状态马尔可夫决策过程（MDP），其表征误差很小（即很小）。通过改变状态的采样概率，作者解析计算了相应的。图 1a 显示，当且接近 0.71 时，的性能显著下降。即便，spike 仍然存在。随着增加到 0.02 和 0.03，的性能趋于稳定，验证了正则化 TD 固定点的优势。接着，作者使用 Baird 的示例 [8] 实证验证所提出算法的收敛性（详细信息见原论文附录 D.2）。实验包括三种情况：策略评估（图 1b）、固定行为策略下的控制（图 1c）以及基于动作值的行为策略控制（图 1d）。在策略评估中，作者比较了算法 1 的 TD 版本与标准 off-policy 线性 TD（带或不带岭正则化）。在两种控制设置中，作者将算法 3 与标准线性 Q 学习（带或不带岭正则化）进行比较。所有算法均使用恒定学习率，且不采用任何投影，具体更新规则见原论文附录 D.2。图 1b-d 显示，即便，作者的算法（带目标网络）在测试域中收敛性良好，而标准 off-policy 算法即使施加了轻度正则化，在没有目标网络时仍然发散。由此验证了目标网络在稳定训练中的关键作用。 2.5 讨论在作者提出的算法中，目标网络与岭正则化均起到了重要作用。一个自然的问题是：是否仅通过岭正则化而不使用目标网络也能确保收敛？符号说明：雅可比矩阵是一个函数所有一阶偏导数的矩阵，用于描述函数输出如何随输入变化。设，其中是一个对角矩阵，其对角线元素是，即由策略诱导的稳态状态-动作分布。定义为：为投影到的列空间的矩阵。在策略评估设置中，这是可能的。通过直接在式 (2) 中应用岭正则化，得到以下更新规则：其中定义于式 (2) 中。上式的期望更新为：。根据论文[9]的5.5节，若雅可比矩阵是负定的，则期望上是收敛的。通过保证，可以实现负定性。然而，在控制设置中，直接岭正则化并不奏效。例如，应用于线性 Q 学习时，期望更新的雅可比矩阵为，且无法通过调整保证其负定性。通过引入目标网络，转化为，使得变成了，总是负定。同样地，在算法 3 中，雅可比矩阵也总是负定，因此主网络的收敛性是可预期的。目标网络的收敛性则由定理 1 保证。这表明，在“致命三角”问题中，目标网络通过确保雅可比矩阵负定，有效稳定了训练过程。另一个问题是：是否仅通过目标网络而不使用岭正则化也能确保收敛？目前对此尚无明确答案。在图 1 中看到，即使，算法在测试域中仍然收敛。一般而言，的最小值及其是否可以为 0 仍是未解决的问题。此外，岭正则化通常会影响算法的收敛速度，这也是未来研究的方向。 3. 关于 TD 学习中值函数收敛性的其他工作本节总结了近年来关于 TD 学习收敛性的理论分析与实证研究成果，涵盖了从优化角度对 TD 学习的收敛性研究、强化学习中优化器的改进、离线强化学习中的发散问题，以及基于交叉熵损失的值函数训练方法等内容。本节旨在对核心方法和实验进行概览，更多细节请参阅相关的原始论文。 3.1 TD Convergence: An Optimization Perspective [3] 3.1.1 简介该研究从优化的角度分析了时序差分学习算法的收敛性。作者提出，TD 学习可以被视为一个迭代优化算法，其目标函数在每次迭代中不断变化。通过分析经典反例中的发散现象，作者发现了影响 TD 收敛或发散的两种主要因素（target force 和 optimization force）。在具有二次函数损失的线性 TD 设置（linear TD setting with quadratic loss）中，作者对这些因素进行了形式化描述，并证明了它们的交互作用决定了 TD 的收敛性。作者进一步扩展了这一优化视角，证明了 TD 学习在超出线性逼近和平方损失的更广泛场景下的收敛性。这些结果为 TD 学习在强化学习中的成功应用提供了理论支持。 3.1.2 TD Learning as Iterative Optimization 本节讨论了常见的价值函数预测方法如何作为迭代优化算法来理解，每次迭代中目标函数动态变化。作者首先回顾了基于经验元组的 TD 更新方法，并介绍了一种改进，即解耦目标参数 \theta 和优化参数 w ，并减少目标参数的更新频率。在每次迭代 t 中，算法会进行 K 次梯度更新，如下公式所示： w_{t,k+1} \leftarrow w_{t,k} + \alpha \left( r + \gamma v(s'; \theta_t) - v(s; w_{t,k}) \right) \nabla_w v(s; w_{t,k}) 在每次迭代后，目标参数 \theta 会更新为最终的优化参数 w ，即 \theta_{t+1} \leftarrow w_{t,K} 。当 K = 1 时，该算法退化为标准的 TD 更新。尽管目标函数依赖于两个独立的输入变量 \theta 和 w ，但在优化过程中会忽略它们之间的某些依赖。接下来，定义了以下目标函数： H(\theta, w) = \frac{1}{2} \sum_s d(s) \left( \mathbb{E}_{r, s'}[r + \gamma v(s'; \theta)] - v(s; w) \right)^2 这里， d(s) 是任意分布。优化参数w的梯度与上述梯度更新公式一致，因此，TD 和 DQN 等算法可以视为通过一阶优化方法来近似求解优化问题 \theta_{t+1} \approx \arg\min_w H(\theta_t, w)。这一优化视角揭示了目标函数 H 具有的一个重要特性：其参数之一依赖于上一次迭代的输出。这一特性对强化学习算法中的优化器设计具有重要意义。通过该优化框架，可以灵活使用不同的损失函数和函数逼近方法，形成不同的目标函数 H ，例如使用 Huber 损失或深度神经网络。作者进一步讨论了另一种优化形式，即每次迭代精确求解 \theta_{t+1} \leftarrow \arg\min_w H(\theta_t, w)，类似于拟合值迭代（Fitted Value Iteration）。当环境模型已知且可解析时，精确优化是可行的。论文还对两类算法进行了比较：一种是通过精确求解每次迭代，另一种是通过梯度更新进行近似求解。两者的收敛点 \theta^ 均满足 \nabla_w H(\theta^, \theta^) = 0 。尽管精确求解在理论上易于理解，但实际应用中的难度较高；而近似方法虽更易操作，但其理论分析更加复杂。作者在后续章节中将通过构建反例和形式化分析，对这两类算法的收敛性进行深入探讨。具体内容请参考原论文。论文[3]-图1: 2种值函数优化的方式。 3.2 Resetting the Optimizer in Deep RL: An Empirical Study [4] 3.2.1 简介本研究聚焦于深度强化学习中近似最优价值函数的任务，该任务包含一系列迭代优化问题，每次迭代的损失函数都发生变化。通常使用现代随机梯度下降算法（如 Adam）解决这些问题，而这些优化器会通过更新一阶和二阶矩估计来累积历史信息。然而，作者发现，由于强化学习在线训练时，优化目标在多个迭代间波动，累积的矩估计可能会受到污染。为此，作者提出在每轮迭代开始时重置优化器的内部参数。通过将这一策略应用于 Rainbow 算法，实验显示，此简单修改显著提升了深度强化学习在 Atari 基准测试中的表现。 3.2.2 Revisiting Adam in RL Optimization 在深度强化学习中，常用的优化算法通常被视为一系列优化问题的求解过程，其中每次迭代都通过一阶优化算法进行近似求解。最基础的优化器是随机梯度下降（SGD），它通过估计梯度并沿下降方向更新参数。然而，在深度强化学习中，直接使用 SGD 往往效率低下，因此更复杂的变体取得了更好的效果。例如，DQN 算法使用了RMSProp，而 Rainbow 则采用了 Adam 优化器，后者可以看作是带动量的 RMSProp 版本。假设要最小化某个损失函数 J(w)，从初始参数 w_0 开始，Adam 通过计算梯度的一阶和二阶矩的移动平均进行以下更新： m_i \leftarrow \beta_1 m_{i-1} + (1 - \beta_1) g_i, \quad v_i \leftarrow \beta_2 v_{i-1} + (1 - \beta_2) (g_i)^2, 其中 g_i 是损失函数的近似梯度， (g_i)^2 表示对梯度逐元素平方。Adam 初始化 m_0 = 0和 v_0 = 0 ，因此在最初的几步中，这些估计值往往向0偏移。为了消除这种偏差，Adam 采用了去偏操作： \hat{m} \leftarrow \frac{m_i}{1 - \beta_1^i}, \quad \hat{v} \leftarrow \frac{v_i}{1 - \beta_2^i}, 最终通过以下公式更新参数： w_i \leftarrow w_{i-1} - \alpha \frac{\hat{m}}{\sqrt{\hat{v}} + \epsilon}, 其中 \epsilon 是防止除以零的常数， \alpha 是学习率。在深度强化学习中，通常最小化一系列损失函数，而不是单个固定的损失函数，这与 Adam 的标准应用有所不同。其目标函数表示为： H(\theta, w)=\frac{1}{2} \sum_{\left\langle s, a, r, s^{\prime}\right\rangle \in \mathcal{B}}\left(r+\gamma \max _{a^{\prime}} q\left(s^{\prime}, a^{\prime} ; \theta\right)-q(s, a ; w)\right)^2 。其中目标网络参数 \theta 一般每 K 个梯度步骤更新为和前网络参数 w 一致（即 target network 机制）。以下是 DQN 算法中使用 Adam 优化器的伪代码，它主要展示了更新目标网络参数 \theta 和当前网络参数 w 的步骤。伪代码中，t 表示损失函数的序列（外部迭代），k 表示每次外部迭代中的梯度更新步骤（内部迭代），而 i是随着每次梯度更新递增的索引。论文[4]-图 0：使用带有 reset Adam 的 DQN 算法伪代码。通过观察伪代码可以看出，如果索引 i 不重置，去偏量1 - \beta_1^i和 1 - \beta_2^i 将迅速趋近于1，去偏步骤的影响将非常微弱，甚至可能不再产生作用。在这种情况下，Adam 的更新策略相当于在每次外部迭代开始时，使用前一迭代的动量（m）和二阶矩（v）估计值来初始化当前迭代的估计。这种做法偏离了 Adam 的原始设计，但在某些情况下可能是合理的。如果前几次迭代的优化场景与当前迭代相似，这种选择是可以接受的。然而，在深度强化学习中，优化场景经常变化，导致智能体可能需要耗费大量梯度更新来“清除”前几次迭代对内部参数 m 和 v 的影响，这类似于“污染效应”，对优化过程产生负面影响。幸运的是，有一个简单的解决方案。Adam 优化器本身可以将动量估计重置为0，尽管这会引入偏差，但通过去偏操作可以有效应对。此方法不仅简单实用，还不会增加额外的计算开销或引入新的超参数，是一种廉价且便捷的修复方案。论文[4]-图 1：展示了在重置与不重置 Adam 优化器的情况下，以及 K = 8000 的默认值下，Rainbow 算法在 12 个随机选择的 Atari 游戏中的表现。所有结果均为 10 个随机种子的平均值。通常，重置优化器能显著提升智能体的性能。横轴是训练的帧数。 3.3 Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [5] 3.3.1 简介 Q 值发散是离线强化学习中的关键问题，特别是在智能体无法访问真实动态环境的情况下。传统观点认为，这种不稳定性源于对分布外动作的值估计，尽管策略约束或保守的 Q 值估计可以缓解该问题，但其潜在机制的理论理解仍然不足。在该工作中，作者确认了一个核心模式——自激现象（self-excitation）是 Q 值发散的主要原因。基于此，作者提出了一种基于神经切线核（NTK）的自激特征值度量（Self-Excite Eigenvalue Measure, SEEM），用于分析 Q 网络在训练中的演化轨迹。该指标能在训练早期预测发散的发生，甚至能预测在使用随机梯度下降（SGD）优化时，Q 值增长的 order、模型范数及训练崩溃的时间步数。实验结果验证了理论分析的准确性。基于这一发现，作者提出对神经网络的泛化行为进行正则化来解决发散问题。通过广泛实验证明，LayerNorm 是一种有效的解决方案，能够在不引入偏差 (bias) 的前提下预防发散，进而提升性能。特别是在仅使用 1% 数据集大小的情况下，该方法显著优于以往方法，并能轻松集成到现代离线强化学习算法中，取得多个任务上的 SOTA 结果。作者还提供了关于该方法有效性的独到见解。官方代码：https://offrl-seem.github.io 3.3.2 核心方法与实验论文[4]-图0: SEEM 的定义。（论文[4]-图3：SEEM 作为实验是否发散的指标。左图展示了不同折扣因子下的 SEEM 值。定理 3 表明，较大的 γ 对应较大的 SEEM 值。星号点表示模型的预测在训练过程中超过了一个大的阈值（10^6），即发散。可以看到，正的 SEEM 值能够准确指示发散情况。在训练过程中，这一现象同样成立。从中图和右图可以看出，当标准化核矩阵的 SEEM（红色）上升到较大的正值时，预测的 Q 值（蓝色）先保持稳定，之后模型的发散现象便可观察到。）（论文[4]-图5：2 层 ReLU MLP 的标准化 NTK 图，分别展示了有和没有 LayerNorm 的情况。输入和隐藏层的维度分别为 2 和 10,000。可以看到，对于没有 LayerNorm 的 MLP (左边)，处的预测变化对远处的点（如）有显著影响，意味着的微小变化会显著改变（约 4.5 倍）。然而，配备了 LayerNorm 的 MLP 显示了良好的 local property。）论文[4]-图9：使用相同 X% 数据集的基线算法在有和无 LayerNorm 情况下的 performance difference。误差棒表示基于 10 个随机种子的标准差。 3.4 Stop Regressing: Training Value Functions via Classification for Scalable Deep RL [6] 3.4.1 简介在强化学习中，价值函数是其关键组件之一。传统上，这些函数通过神经网络进行参数化，并采用均方误差回归目标训练，以逼近 bootstrap target value。然而，当 value-based RL 方法被应用于大型网络（例如高容量的transformer）时，扩展性成为一个重大挑战。这与监督学习形成了鲜明对比——监督学习通过交叉熵分类损失，已经成功实现了对大规模网络的扩展。基于这种差异，本文探讨了将价值函数的训练从回归改为分类是否能提升RL agent 的可扩展性。通过实验展示了使用类别交叉熵训练价值函数，在多个领域显著改善了性能和扩展性。具体而言，作者在以下多个任务中取得了最先进的成果：使用 SoftMoEs 在 Atari 2600 游戏上的单任务 RL、基于大规模 ResNets 的 Atari 多任务 RL、Q-transformers 驱动的机器人操控任务、无需搜索的国际象棋对弈，以及使用高容量 Transformers 完成的语言代理任务（如 Wordle）。作者的分析表明，类别交叉熵的主要优势在于能够缓解 value-based RL 中的固有问题，如目标值的噪声和不稳定性。总体来看，简单地将价值函数的训练方式改为类别交叉熵，几乎不增加额外成本，却能显著提升深度强化学习的可扩展性。 3.4.2 核心实验（论文[5]-图1：HL-Gauss 交叉熵损失（§3.1）相比用于训练价值网络的 MSE 回归损失，在包括 MoEs（§4.2.1）、ResNets（§4.2）和 Transformers（§4.3）等现代架构中展示了性能提升。横轴标签对应领域名称，括号内为训练方法。对于多任务强化学习的结果，汇报了基于 ResNet-101作为骨干网络的性能提升，这是实验中使用的最大网络。对于国际象棋任务，报告了相对于教师模型 Stockfish 引擎的性能差距改善，使用的是包含270M参数的 Transformer 模型。针对 Wordle 任务，报告了使用 0.1 行为正则化的结果。）（论文[5]-图2：Regression as Classification。数据点 x_i 通过神经网络和 softmax 转换为类别分布（categorical distribution）。该类别分布的期望值 \hat{y} 被视为预测值。网络输出的 logits 根据与目标分布之间的交叉熵损失通过梯度下降进行优化，而该目标分布的均值即为回归目标 y_i 。图3展示了构建和映射目标分布的三种方法。）论文[5]-图3：交叉熵损失下的时序差分学习目标值类别分布的可视化。Two-Hot 方法（左，§3.1）将概率质量集中在两个具体位置；HL-Gauss 方法（中，§3.1）将概率质量分布到相邻位置（类似于平滑目标值）；CDRL 方法（右，§3.2）对类别回报分布进行建模，将概率质量按比例分布到相邻位置。论文[5]-图4：回归与交叉熵损失在（左）在线强化学习和（右）离线强化学习中的表现对比（§4.1）。HL-Gauss 和 CDRL 的表现优于 MSE，且 HL-Gauss 表现最佳。此外，Two-Hot 损失的表现略逊于 MSE，但在离线强化学习的长期训练中展现出更高的稳定性，类似于其他基于交叉熵的损失。详情参见§4.1。 4. 总结本文首先对强化学习中的 TD 学习及其收敛性问题进行了详细讨论，重点阐述了致命三角的形成机制与应对策略。接着通过对 DQN 等算法的深入分析，展示了如何通过目标网络提高学习稳定性，并在理论上探讨了主网络与目标网络双时间尺度框架的收敛性。最后概述了关于 TD 学习中值函数收敛性的其他工作。未来的研究方向可以进一步聚焦于以下几个方面：首先，如何在不依赖目标网络的前提下，设计更为鲁棒的 off-policy 学习算法。其次，探索更广泛场景下TD学习的收敛性，特别是针对非线性函数逼近的优化方法。最后，随着离线强化学习的广泛应用，解决Q值发散问题将成为提升算法在实际应用中表现的关键挑战。通过引入正则化技术（更加鲁棒的数据增强方式，网络架构，损失函数等），有望进一步提高深度强化学习算法的稳定性和数据效率。 5. 参考文献 [1] Van Hasselt, Hado, et al. "Deep reinforcement learning and the deadly triad." arXiv preprint arXiv:1812.02648 (2018). [2] Zhang, Shangtong, Hengshuai Yao, and Shimon Whiteson. "Breaking the deadly triad with a target network." International Conference on Machine Learning. PMLR, 2021. [3] Asadi, Kavosh, et al. "Td convergence: An optimization perspective." Advances in Neural Information Processing Systems 36 (2024). [4] Asadi, Kavosh, Rasool Fakoor, and Shoham Sabach. "Resetting the optimizer in deep rl: An empirical study." Advances in Neural Information Processing Systems 36 (2024). [5] Yue, Yang, et al. "Understanding, predicting and better resolving Q-value divergence in offline-RL." Advances in Neural Information Processing Systems 36 (2024). [6] Farebrother, Jesse, et al. "Stop regressing: Training value functions via classification for scalable deep rl." arXiv preprint arXiv:2403.03950 (2024). [7] Kolter, J. Z. The fixed points of off-policy td. In Advances in Neural Information Processing Systems, 2011. [8] Baird, L. Residual algorithms: Reinforcement learning with function approximation. Machine Learning, 1995. [9] Vidyasagar, M. Nonlinear systems analysis. SIAM, 2002. 编辑于 2024-10-31 19:54・IP 属地广东内容所属专栏决策智能与强化学习前沿进展决策智能与强化学习前沿进展决策智能与强化学习前沿理论和应用的深入解析订阅专栏决策智能与强化学习前沿进展决策智能与强化学习前沿进展决策智能与强化学习前沿理论和应用的深入解析订阅专栏时序差分学习收敛性强化学习赞同 35 1 条评论分享喜欢收藏申请转载理性发言，友善互动 1 条评论默认最新缄默大师缄默大师关注我的人高水平！ 11-02 · 北京回复喜欢推荐阅读基于差分变量去相关的稳定学习基于差分变量去相关的稳定学习 Torea 线性收敛的随机优化算法之 SAG、SVRG 线性收敛的随机优化算法之 SAG、SVRG li Et... 发表于EtaLi... 4 L1和l2正则化详解（花书7.1 参数范数惩罚） 7.1 参数范数惩罚许多正则化方法通过对目标函数 J 添加一个参数范数惩罚 \Omega (\theta) ，限制模型（如神经网络、线性回归和逻辑回归）的学习能力。将正则化后的目标函数记为： \tilde{J… w3dian0 机器学习中的优化理论（二）机器学习中的优化理论（二）离衡发表于组会小记选择语言

Podcast Editor

Podcast.json

Preview

Audio

Title

Description

Topics