决策变换器：强化学习的序列建模革命 | PodLM - AI Podcast Generator

Sources

决策变换器——将强化学习转化为序列建模问题来自：深蓝学院全域星球用户头像扫地猿 2024年09月19日 12:44 Decision Transformer: Reinforcement Learning via Sequence Modeling 本篇资源分享是「预测决策」方向的论文全译，欢迎大家交流见解。更多学习资源，3个实践项目深入《自动驾驶预测与决策规划》核心，点击进入华为天才少年丁文超老师的课程队伍，探究预测到决策规划的全过程。研读有言：起笔之初，作为研读者，在此想先对本论文作者们，表示诚挚的谢意。学海浩渺，因有诸位执炬先行者，才使我等后辈读者得以循光而行。感谢各位作者。——梁松（文末↓获取原文）摘要我们引入了一个将强化学习（RL）抽象为序列建模问题的框架。这使我们能够利用Transformer架构的简单性和可扩展性，以及GPT - x和BERT等语言建模方面的相关进展。特别是，我们提出了决策Transformer，一种将RL问题转化为条件序列建模的架构。与之前通过拟合价值函数或计算策略梯度的RL方法不同，决策Transformer通过利用因果掩码的Transformer简单地输出最优动作。通过根据期望回报（奖励）、过去的状态和动作对自回归模型进行条件设置，我们的决策Transformer模型可以生成实现期望回报的未来动作。尽管它很简单，但决策Transformer在Atari、OpenAI Gym和Key - to - Door任务上与最先进的无模型离线RL基准的性能相匹配或超过。图1：决策Transformer架构1. 状态、动作和回报被输入到特定模态的线性嵌入中，并添加位置性的情节时间步编码。令牌被输入到GPT架构中，该架构使用因果自注意力掩码自回归地预测动作。一、引言最近的工作表明，Transformers[1]可以大规模地建模高维语义概念的分布，包括在语言中的有效零样本泛化[2]和分布外图像生成[3]。鉴于此类模型的成功应用的多样性，我们寻求研究它们在形式化为强化学习（RL）的顺序决策问题中的应用。与之前使用Transformers作为传统RL算法组件的架构选择的工作不同[4, 5]，我们试图研究生成轨迹建模 - 即对状态、动作和奖励序列的联合分布进行建模 - 是否可以替代传统的RL算法。我们考虑以下范式转变：我们将使用序列建模目标在收集的经验上训练Transformer模型，而不是通过传统的RL算法如时间差分（TD）学习来训练策略[6]。这将使我们绕过对长期信用分配进行自举的需求 - 从而避免已知会破坏RL稳定性的“致命三联征”之一[6]。它还避免了像在TD学习中通常所做的那样对未来奖励进行折扣，这可能会导致不良的短视行为。此外，我们可以利用在语言和视觉中广泛使用的现有Transformer框架，这些框架易于扩展，并利用大量研究Transformer模型稳定训练的工作。除了其展示的对长序列进行建模的能力外，Transformers还有其他优点。与Bellman备份缓慢传播奖励并容易受到“干扰”信号的影响不同，Transformers可以通过自注意力直接进行信用分配[7]。这可以使Transformers在存在稀疏或干扰奖励的情况下仍然有效地工作。最后，经验证据表明，Transformer建模方法可以对广泛的行为分布进行建模，从而实现更好的泛化和迁移[3]。我们通过考虑离线RL来探索我们的假设，在离线RL中，我们将任务代理从次优数据中学习策略 - 从固定、有限的经验中产生最有效的行为。由于误差传播和价值高估，这项任务传统上具有挑战性[8]。然而，当使用序列建模目标进行训练时，这是一个自然的任务。通过在状态、动作和回报的序列上训练自回归模型，我们将策略采样简化为自回归生成建模。我们可以通过选择期望的回报令牌来指定策略的专业知识 - 要查询的“技能” - 作为生成的提示。说明性示例。为了直观地理解我们的提议，考虑在有向图上找到最短路径的任务，这可以被视为一个RL问题。当智能体处于目标节点时，奖励为0，否则为-1。我们训练一个GPT[9]模型来预测回报 - 到 - 去（未来奖励的总和）、状态和动作序列中的下一个令牌。仅在随机游走数据上进行训练 - 没有专家演示 - 我们可以通过添加先验来生成尽可能高的回报（在附录中查看更多细节和实证结果），并随后通过条件生成相应的动作序列，从而在测试时生成最优轨迹。因此，通过将序列建模的工具与后见回报信息相结合，我们实现了策略改进，而无需动态规划。图2：将固定图（左）上找到最短路径的问题表示为强化学习的说明性示例。训练数据集由随机游走轨迹及其每个节点的回报 - 到 - 去组成（中）。基于起始状态并在每个节点生成最大可能的回报，决策Transformer序列出最优路径。受到这一观察的启发，我们提出了决策Transformer，其中我们使用GPT架构来自回归地建模轨迹（如图1所示）。我们研究序列建模是否可以通过在Atari[10]、OpenAI Gym[11]和Key - to - Door[12]环境中的离线RL基准上评估决策Transformer来执行策略优化。我们表明 - 无需使用动态规划 - 决策Transformer与最先进的无模型离线RL算法的性能相匹配或超过[13, 14]。此外，在需要长期信用分配的任务中，决策Transformer能够胜过RL基准。通过这项工作，我们旨在将序列建模和Transformers与RL联系起来，并希望序列建模成为RL的强大算法范式。二、预备知识 2.1 离线强化学习我们考虑在由元组（S，A，P，R）描述的马尔可夫决策过程（MDP）中学习。MDP元组由状态s ∈ S、动作a ∈ A、转移动力学P（s'|s，a）和奖励函数r = R（s，a）组成。我们使用st，at和rt = R（st，at）分别表示时间步t的状态、动作和奖励。轨迹由状态、动作和奖励的序列组成：τ = （s0，a0，r0，s1，a1，r1，...，sT，aT，rT）。轨迹在时间步t的回报是该时间步开始的未来奖励的总和。强化学习的目标是在MDP中学习一个策略，以最大化期望回报在离线强化学习中，我们不是通过与环境交互来获取数据，而是只能访问由任意策略的轨迹展开组成的一些固定有限的数据集。这种设置更难，因为它消除了智能体探索环境并收集额外反馈的能力。 2.2 Transformers Vaswani等人[1]提出Transformers作为一种有效地对序列数据进行建模的架构。这些模型由具有残差连接的堆叠自注意力层组成。每个自注意力层接收对应于唯一输入令牌的n个嵌入并输出n个嵌入保留输入维度。第i个令牌通过线性变换映射到键ki、查询qi和值vi。自注意力层的第i个输出通过将值vj乘以查询qi和其他键kj的归一化点积的softmax来给出：正如我们稍后将看到的，这允许该层通过查询和键向量的相似性（最大化点积）隐式地形成状态 - 回报关联来分配“信用”。在这项工作中，我们使用GPT架构[9]，它通过因果自注意力掩码修改了Transformer架构，以实现自回归生成，将对n个令牌的求和/softmax替换为仅序列中的先前令牌（j ∈ [1, i]）。我们将其他架构细节推迟到原始论文中。三、方法在本节中，我们介绍决策Transformer，它通过对Transformer 架构进行最小修改来自回归地建模轨迹，如图1和算法1所示。轨迹表示。我们在选择轨迹表示时的关键需求是，它应该使Transformers能够学习有意义的模式，并且我们应该能够在测试时有条件地生成动作。由于我们希望模型根据未来期望的回报而不是过去的奖励来生成动作，因此对奖励进行建模并不简单。因此，我们不是直接输入奖励，而是向模型输入returns-to-go 这导致了以下轨迹表示，它适合自回归训练和生成：在测试时，我们可以指定期望的性能（例如1表示成功或0表示失败）以及环境的起始状态作为条件信息来启动生成。在执行当前状态生成的动作后，我们将目标回报减去获得的奖励，并重复直到情节终止。架构。我们将最后K个时间步输入到决策Transformer中，总共3K个令牌（每个模态一个：回报 - 到 - 去、状态或动作）。为了获得令牌嵌入，我们为每个模态学习一个线性层，该层将原始输入投影到嵌入维度，然后进行层归一化[15]。对于具有视觉输入的环境，状态被输入到卷积编码器而不是线性层中。此外，为每个时间步学习一个嵌入并添加到每个令牌中 - 请注意，这与Transformers使用的标准位置嵌入不同，因为一个时间步对应三个令牌。然后，令牌由GPT[9]模型处理，该模型通过自回归建模预测未来的动作令牌。训练。我们获得了离线轨迹的数据集。我们从数据集中采样长度为K的小批量序列。与输入令牌st对应的预测头被训练来预测at - 对于离散动作使用交叉熵损失，对于连续动作使用均方误差 - 并且每个时间步的损失被平均。我们没有发现预测状态或回报 - 到 - 去可以提高性能，尽管在我们的框架内这是完全允许的（如第5.4节所示），并且对于未来的工作将是一个有趣的研究。图 3：在 Atari、OpenAI Gym 和 Minigrid 上将 Decision Transformer（我们的）与 TD 学习（CQL）和行为克隆进行比较的结果。在一系列不同的任务中，Decision Transformer 的表现与传统方法相当甚至更好。性能通过标准化情节回报来衡量（详情请参阅正文）。四、离线RL基准测试的评估在本节中，我们研究决策Transformer相对于专用的离线RL和模仿学习算法的性能。特别是，我们的主要比较点是基于TD - 学习的无模型离线RL算法，因为我们的决策Transformer架构本质上也是无模型的。此外，TD - 学习是RL中样本效率的主导范式，并且在许多基于模型的RL算法中也作为子例程突出显示[16, 17]。我们还与行为克隆和变体进行比较，因为它也涉及与我们类似的基于似然的策略学习公式。具体的算法取决于环境，但我们的动机如下： • TD学习：这些方法中的大多数使用动作空间约束或价值悲观主义，并且将是与决策Transformer最忠实的比较，代表标准的RL方法。一种最先进的无模型方法是保守Q - 学习（CQL）[14]，它作为我们的主要比较对象。此外，我们还与其他先前的无模型RL算法如BEAR[18]和BRAC[19]进行比较。 • 模仿学习：这个机制同样使用监督损失进行训练，而不是Bellman备份。我们在这里使用行为克隆，并在第5.1节中进行更详细的讨论。我们在离散（Atari[10]）和连续（OpenAI Gym[11]）控制任务上进行评估。前者涉及高维观察空间并且需要长期信用分配，而后者需要精细的连续控制，代表了一组不同的任务。我们的主要结果总结在图3中，其中我们展示了每个域的平均归一化性能。 4.1 Atari 由于其高维视觉输入以及动作和结果奖励之间的延迟导致的信用分配困难，Atari基准[10]具有挑战性。我们按照Agarwal等人[13]的方法，在DQN - 回放数据集中的所有样本的1%上评估我们的方法，代表在线DQN智能体在训练期间观察到的5000万个转换中的50万个；我们报告3个种子的平均值和标准差。我们根据专业游戏玩家对分数进行归一化，遵循Hafner等人[21]的协议，其中100代表专业游戏玩家的分数，0代表随机策略。我们在四个Atari任务（Breakout、Qbert、Pong和Seaquest）上与CQL[14]、REM[13]和QR - DQN[22]进行比较，这些任务在Agarwal等人[13]中进行了评估。我们使用K = 30的上下文长度用于决策Transformer（除了Pong的K = 50）。我们还报告了行为克隆（BC）的性能，它使用与决策Transformer相同的网络架构和超参数，但没有回报 - 到 - 去条件2。对于CQL、REM和QR - DQN基准，我们直接从CQL和REM论文中报告数字。我们在表1中展示结果。我们的方法在4个游戏中的3个与CQL具有竞争力，并且在所有4个游戏中优于或匹配REM、QR - DQN和BC。表1：1% DQN - 回放Atari数据集的游戏玩家归一化分数。我们报告3个种子的平均值和方差。最佳平均分数以粗体突出显示。决策Transformer（DT）在4个游戏中的3个与CQL表现相当，并且在大多数游戏中优于其他基准。 4.2 OpenAI Gym 在本节中，我们考虑来自D4RL基准[23]的连续控制任务。我们还考虑了一个不属于基准的2D机械臂（Reacher）环境，并使用与D4RL基准类似的方法生成数据集。机械臂是一个目标条件任务，并且具有稀疏奖励，因此它代表了与标准运动环境（HalfCheetah、Hopper和Walker）不同的设置。不同的数据集设置如下所述。中等：由一个“中等”策略生成的100万时间步，该策略实现了大约专家策略三分之一的分数。中等 - 回放：训练到中等策略性能的智能体的回放缓冲区（在我们的环境中大约为25k - 400k时间步）。中等 - 专家：由中等策略生成的100万时间步与由专家策略生成的100万时间步连接而成。我们与CQL [14]、BEAR [18]、BRAC [19]和AWR [24]进行比较。CQL代表了无模型离线RL的最新技术，是具有价值悲观主义的TD学习的实例。分数被归一化，使得100代表专家策略，如Fu等人[23]所述。CQL的数字来自原始论文；BC的数字由我们运行；其他方法的数字来自D4RL论文。我们的结果显示在表2中。决策Transformer在大多数任务中取得了最高分数，并且在其余任务中与最先进技术具有竞争力。表2：D4RL数据集的结果3。我们报告3个种子的平均值和方差。决策Transformer（DT）在几乎所有任务上都优于传统的RL算法。五、讨论 5.1 决策Transformer是否在数据的子集上执行行为克隆？在本节中，我们试图深入了解决策Transformer是否可以被视为在具有特定回报的数据子集上进行模仿学习。为了研究这个问题，我们提出了一种新的方法，百分位行为克隆（%BC），其中我们仅在数据集中按情节回报排序的前X%的时间步上运行行为克隆。百分位X%在标准BC（X = 100%）（在整个数据集上训练）和仅克隆最佳观察轨迹（X → 0%）之间进行权衡，在通过在更多数据上训练来实现更好的泛化与训练专注于数据子集的专业模型之间进行权衡。我们在表3中展示了比较%BC与决策Transformer和CQL的完整结果，遍历X ∈ [10%，25%，40%，100%]。请注意，选择克隆的最佳子集的唯一方法是使用环境的展开来评估，因此%BC不是一种现实的方法；相反，它有助于深入了解决策Transformer的行为。当数据充足时 - 如在D4RL机制中 - 我们发现%BC可以匹配或击败其他离线RL方法。在大多数环境中，决策Transformer与最佳%BC的性能具有竞争力，表明它在整个数据集分布上训练后可以专注于特定子集。表3：决策Transformer（DT）和百分位行为克隆（%BC）的比较。相反，当我们研究低数据机制时 - 例如Atari，我们使用回放缓冲区的1%作为数据集 - %BC表现较弱（如表4所示）。这表明在数据量相对较少的情况下，决策Transformer可以通过使用数据集中的所有轨迹来提高泛化能力，从而优于%BC，即使这些轨迹与回报条件目标不太相似。我们的结果表明，决策Transformer可以比在数据集的子集上简单地进行模仿学习更有效。在我们考虑的任务上，决策Transformer要么优于要么与%BC具有竞争力，而无需选择最佳子集的混淆。表4：Atari的%BC分数。我们报告3个种子的平均值和方差。决策Transformer（DT）在大多数游戏中优于所有版本的%BC。 5.2 决策Transformer对回报分布的建模效果如何？我们通过在广泛的范围内改变期望目标回报来评估决策Transformer理解回报 - 到 - 去令牌的能力 - 评估Transformers的多任务分布建模能力。图4显示了智能体在评估情节过程中累积的平均采样回报，对于不同的目标回报值。在每个任务上，期望的目标回报和真实观察到的回报高度相关。在一些任务上，如Pong、HalfCheetah和Walker，决策Transformer生成的轨迹几乎完美地匹配期望的回报（如与oracle线的重叠所示）。此外，在一些Atari任务上，如Seaquest，我们可以用高于数据集中最大情节回报的回报来提示决策Transformer，表明决策Transformer有时能够进行外推。图4：当以指定的目标（期望）回报为条件时，决策Transformer累积的采样（评估）回报。上：Atari。下：D4RL中等 - 回放数据集。 5.3 使用更长的上下文长度有什么好处？为了评估访问先前状态、动作和回报的重要性，我们对上下文长度K进行了消融实验。这很有趣，因为通常认为当使用帧堆叠时，先前的状态（即K = 1）对于强化学习算法来说就足够了，正如我们所做的那样。表5显示，当K = 1时，决策Transformer的性能明显更差，这表明过去的信息对Atari游戏是有用的。一个假设是，当我们表示策略的分布时 - 如使用序列建模 - 上下文允许Transformer识别生成动作的策略，从而实现更好的学习和/或改善训练动态。表5：上下文长度的消融实验。决策Transformer（DT）在使用更长的上下文长度（Pong的K = 50，其他的K = 30）时表现更好。 5.4 决策Transformer是否执行有效的长期信用分配？为了评估我们模型的长期信用分配能力，我们考虑了Mesnard等人[12]提出的Key - to - Door环境的一个变体。这是一个基于网格的环境，具有三个阶段的序列：（1）在第一阶段，智能体被放置在一个有钥匙的房间里；（2）然后，智能体被放置在一个空房间里；（3）最后，智能体被放置在一个有门的房间里。智能体在第三阶段到达门时会收到一个二进制奖励，但只有在第一阶段拿起钥匙时才会收到。这个问题对于信用分配来说很困难，因为信用必须从情节的开始传播到结束，跳过中间采取的动作。我们在通过应用随机动作生成的轨迹数据集上进行训练，并在表6中报告成功率。此外，对于Key - to - Door环境，我们使用整个情节长度作为上下文，而不是像在其他环境中那样具有固定的内容窗口。使用后见回报信息的方法：我们的决策Transformer模型和%BC（仅在成功的情节上训练）能够学习有效的策略 - 产生接近最优的路径，尽管仅在随机游走上进行训练。TD学习（CQL）无法在涉及的长范围内有效地传播Q值，并且表现不佳。表6：Key - to - Door环境的成功罕见。使用后见（决策Transformer，%BC）的方法可以学习成功的策略，而TD学习难以进行信用分配。 5.5 Transformers能否在稀疏奖励设置中成为准确的评论家？在前面的章节中，我们确定决策Transformer可以产生有效的策略（演员）。我们现在评估Transformer模型是否也可以成为有效的评论家。我们修改决策Transformer，使其在Key - to - Door环境上除了输出动作令牌外，还输出回报令牌。此外，第一个回报令牌不被给出，而是被预测（即模型学习初始分布p（Ri），类似于标准的自回归生成模型。我们发现Transformer根据情节中的事件不断更新奖励概率，如图5（左）所示。此外，我们发现Transformer关注情节中的关键事件（拿起钥匙或到达门），如图5（右）所示，表明形成了状态 - 奖励关联，如Raposo等人[25]所讨论的，并能够进行准确的价值预测。图5：左：Transformer模型为三种情节结果预测的运行回报概率的平均值。右：对于一个特定的成功情节，所有时间步的Transformer注意力权重叠加。模型关注情节中关键事件附近的步骤，如拿起钥匙和到达门。 5.6 决策Transformer在稀疏奖励设置中表现如何？ TD学习算法的一个已知弱点是，它们需要密集的奖励才能表现良好，这可能不现实和/或昂贵。相比之下，决策Transformer可以提高在这些设置中的鲁棒性，因为它对奖励的密度做出了最小的假设。为了评估这一点，我们考虑D4RL基准的延迟回报版本，其中智能体在轨迹上不接收任何奖励，而是在最后时间步接收轨迹的累积奖励。我们在表7中展示了延迟回报的结果。延迟回报对决策Transformer的影响最小；并且由于训练过程的性质，虽然模仿学习方法对奖励是不可知的。当TD学习崩溃时，决策Transformer和%BC仍然表现良好，表明决策Transformer对延迟奖励更具鲁棒性。表7：D4RL数据集延迟（稀疏）奖励的结果。决策Transformer（DT）和模仿学习受去除密集奖励的影响最小，而CQL失败。 5.7 为什么决策Transformer避免了对价值悲观主义或行为正则化的需求？决策Transformer与之前的离线RL算法的一个关键区别是，我们不需要策略正则化或保守主义来实现良好的性能。我们的推测是，基于TD学习的算法学习一个近似的价值函数，并通过优化这个价值函数来改进策略。这种优化学习函数的行为可能会加剧和利用价值函数近似中的任何不准确之处，导致策略改进的失败。由于决策Transformer不需要使用学习函数作为目标进行显式优化，它避免了对正则化或保守主义的需求。 5.8 决策Transformer如何有益于在线RL机制？离线RL和建模行为的能力有可能为下游任务实现样本高效的在线RL。研究从离线到在线过渡的工作通常发现，像我们的序列建模目标这样的基于似然的方法更成功[26, 27]。因此，尽管我们在这项工作中研究了离线RL，但我们相信决策Transformer可以通过作为行为生成的强大模型来有意义地改进在线RL方法。例如，决策Transformer可以作为强大的“记忆引擎”，并且与强大的探索算法如Go - Explore[28]结合，有可能同时建模和生成多样化的行为。六、相关工作 6.1 离线强化学习为了减轻离线RL中分布偏移的影响，之前的算法要么（a）约束策略动作空间[29, 30, 31]，要么（b）纳入价值悲观主义[29, 14]，要么（c）将悲观主义纳入学习的动力学模型[32, 33]。由于我们不使用决策Transformer来显式学习动力学模型，我们在工作中主要与无模型算法进行比较；特别是，添加动力学模型往往会提高无模型算法的性能。另一项工作探索通过从离线数据集中学习与任务无关的技能集来学习广泛的行为分布，要么使用基于似然的方法[34, 35, 36, 37]，要么通过最大化互信息[38, 39, 40]。我们的工作与基于似然的方法类似，它们不使用迭代Bellman更新 - 尽管我们使用更简单的序列建模目标而不是变分方法，并使用奖励来条件生成行为。 6.2 强化学习设置中的监督学习一些先前的强化学习方法与静态监督学习更相似，例如Q - 学习[41, 42]，它仍然使用迭代备份，或者像行为克隆这样的基于似然的方法，它不使用（在前面的章节中讨论过）。最近的工作[43, 44, 45]研究了“倒置”强化学习（UDRL），它们与我们的方法类似，寻求通过基于目标回报的监督损失来建模行为。我们工作的一个关键区别是动机转向序列建模而不是监督学习：虽然实际方法主要在上下文长度和架构上有所不同，但序列建模即使在没有访问奖励的情况下也能够进行行为建模，类似于语言[9]或图像[46]，并且已知能够很好地扩展[2]。Kumar等人[44]提出的方法与我们的方法最相似，K = 1，我们发现序列建模/长上下文优于它（见第5.3节）。Ghosh等人[47]将先前的UDRL方法扩展到使用状态目标条件，而不是奖励，并且Paster等人[48]进一步使用具有状态目标条件的LSTM用于目标条件的在线RL设置。与我们的工作同时，Janner等人[49]提出了轨迹Transformer，它与决策Transformer类似，但另外使用状态和回报预测，以及离散化，这包含了基于模型的组件。我们相信，他们的实验，以及我们的结果，突出了序列建模成为强化学习普遍适用的想法的潜力。 6.3 信用分配许多工作研究了通过状态关联来更好地进行信用分配，学习一种分解奖励函数的架构，使得某些“重要”状态包含大部分信用[50, 51, 12]。他们使用学习到的奖励函数来改变演员 - 评论家算法的奖励，以帮助在长范围内传播信号。特别是，与我们的长期设置类似，一些工作具体表明这种状态关联架构在延迟奖励设置中可以表现更好[52, 7, 53, 25]。相比之下，我们允许这些属性在Transformer架构中自然出现，而无需显式学习奖励函数或评论家。 6.4 条件语言生成各种工作研究了图像[54]和语言[55, 56]的引导生成。一些工作[57, 58, 59, 60, 61, 62]探索了对模型进行训练或微调以进行可控文本生成。类条件语言模型也可以用于学习判别器来引导生成[63, 55, 64, 65]。然而，这些方法大多假设恒定的“类”，而在强化学习中，奖励信号是时变的。此外，更自然的是提示模型期望的目标回报，并随着时间的推移通过观察到的奖励不断减少它，因为Transformer模型和环境共同生成轨迹。 6.5 注意力和Transformer模型 Transformers[1]已成功应用于自然语言处理[66, 9]和计算机视觉[67, 68]中的许多任务。然而，由于问题的性质不同，如训练中的更高方差，Transformers在RL中相对未被研究。Zambaldi等人[5]表明，通过关系推理增强Transformers可以提高在组合环境中的性能，Ritter等人[69]表明迭代自注意力允许RL智能体更好地利用情节记忆。Parisotto等人[4]讨论了在高方差RL设置中更稳定地训练Transformers的设计决策。与我们的工作不同，这些仍然使用演员 - 评论家算法进行优化，专注于架构的新颖性。此外，在模仿学习中，一些工作研究了将Transformers作为LSTMs的替代品：Dasari和Gupta[70]研究了一次性模仿学习，Abramson等人[71]结合了语言和图像模态用于文本条件的行为生成。七、结论我们提出了决策Transformer，旨在统一语言/序列建模和强化学习的思想。在标准的离线RL基准上，我们展示了决策Transformer可以通过对标准语言建模架构的最小修改来匹配或超越专门为离线RL设计的强大算法。我们希望这项工作激发更多关于使用大型Transformer模型进行RL的研究。我们在实验中使用了一个简单的监督损失，它是有效的，但应用于大规模数据集可能受益于自监督预训练任务。此外，可以考虑为回报、状态和动作使用更复杂的嵌入 - 例如，通过对回报分布进行条件设置来建模随机设置，而不是确定性回报。Transformer模型还可以用于建模轨迹的状态演化，有可能作为基于模型的RL的替代方案，我们希望在未来的工作中探索这一点。对于实际应用，重要的是理解Transformers在MDP设置中犯的错误类型和可能的负面后果，这是未被充分探索的。考虑我们训练模型的数据集也很重要，这可能会潜在地增加破坏性的偏差，特别是当我们考虑使用可能来自可疑来源的更多数据来增强RL智能体时。例如，恶意行为者的奖励设计可能会导致我们的模型通过根据期望回报生成行为而产生意想不到的行为。 ——该内容整合来自：深蓝学院-幕后爆肝团队更多学习内容↓ 更多学习资源，5个实践项目深入《自动驾驶预测与决策规划》核心，扫码👇进入华为天才少年丁文超老师的课程队伍，探究预测到决策规划的全过程。论文原文↓ 原文📃文件：【注】论文相关参考资料请见原文：点击获取原文；点击获取代码知识星球扫码加入星球查看更多优质内容

Podcast Editor

Podcast.json

Preview

Audio

Title

Description

Topics