Sources
北京星动纪元联合清华大学推出用于「人形机器人运动控制」的端到端的强化学习框架DWL 来自: 深蓝学院全域星球 用户头像 悦雯 2024年09月19日 12:04 Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning 本篇资源分享是「机器人」方向的论文全译,欢迎大家交流见解。 更多资源,学习《移动机器人运动规划》点击进入跟随高飞大佬做6个项目实践,掌握研发,冲击顶会 研读有言: 起笔之初,作为研读者,在此想先对本论文作者们,表示诚挚的谢意。学海浩渺,因有诸位执炬先行者,才使我等后辈读者得以循光而行。感谢各位作者。——梁松 (文末↓获取原文) 图 1:使用所提框架广泛展示运动技能。显示的序列说明了人形机器人在现实世界的挑战性环境中熟练地执行各种运动任务。 摘要 仿人机器人因其类人的骨骼结构,特别适合在以人为中心的环境中执行任务。然而,这种结构在运动控制器设计方面带来了额外的挑战,特别是在复杂的现实环境中。因此,现有的仿人机器人仅限于相对简单的地形,无论是基于模型的控制还是无模型的强化学习。在这项工作中,我们介绍了去噪世界模型学习(DWL),这是一种用于仿人机器人运动控制的端到端强化学习框架,它展示了世界上第一个仿人机器人能够掌握现实世界中具有挑战性的地形,如野外的雪地和倾斜地面、上下楼梯和极其不平坦的地形。所有场景都运行相同的学习神经网络,具有零样本从仿真到现实的迁移能力,表明了所提出方法的卓越鲁棒性和泛化能力。 一、引言 现代环境主要是为人类设计的。因此,具有类人骨骼结构的仿人机器人特别适合在以人为中心的环境中执行任务,并且比其他类型的机器人具有独特的优势。它们的移动能力对于在现实世界中完成各种任务至关重要,突出了它们在复杂地形上行走能力的必要性。 以前,基于模型的控制技术,如零力矩点(ZMP)和模型预测控制(MPC)与全身控制(WBC)相结合,显著提高了仿人机器人的运动能力,使其能够具备行走、跳跃甚至后空翻等技能[2, 38, 5]。然而,这些方法的成功取决于对环境动力学的准确建模,这可能使得处理与环境的复杂交互变得困难,例如在具有挑战性的地形上导航。 另一方面,强化学习(RL)较少依赖于精确的环境建模。无模型强化学习的最新进展显示出巨大的潜力,特别是在开发自适应腿部运动控制器方面[28]。这使得机器人能够学习并适应各种情况,往往超越了传统基于模型的控制方法的能力[22]。 然而,与四足[28]和两足[27]机器人相比,确保仿人机器人的鲁棒性涉及解决一些额外的挑战。这些挑战包括但不限于更高的重心、腿部摆动时的不稳定性、更大的腿部惯性、躯干和手臂的额外重量以及它们总体上更大的尺寸。因此,迄今为止,如最近的研究[26]所示,强化学习在控制仿人机器人的实际应用中仅限于相对简单的地形。 在这项工作中,我们介绍了用于控制仿人机器人在各种复杂地形上的去噪世界模型学习(DWL)。据我们所知,DWL是世界上第一个仿人机器人能够通过端到端的强化学习和零样本从仿真到现实的迁移来掌握现实世界中具有挑战性的地形。如图1所示,我们的仿人机器人能够稳定地在野外的雪地倾斜地面、楼梯、不规则表面等地形上导航,并能够抵抗大的外部干扰。所有场景都运行相同的学习神经网络策略,表明其鲁棒性和泛化性。DWL的关键要素在于建立一个有效的表示学习框架,以对扩大仿真与现实差距的因素进行去噪。此外,我们是第一个使用具有闭环运动链踝关节机制的主动2自由度踝关节控制进行仿人机器人运动学习的(如图2所示)。与之前只有1个自由度踝关节控制或被动踝关节控制的研究[32]不同,我们的方法使机器人变得极其鲁棒。我们工作的贡献总结如下: 通过零样本从仿真到现实的迁移,展示了世界上第一个通过端到端强化学习掌握现实世界中具有挑战性地形的仿人机器人。 提出DWL,一种新颖的强化学习框架,以弥合仿真与现实之间的差距并实现鲁棒的可泛化性能。 展示了第一个使用具有强化学习的闭环运动链踝关节机制的主动2自由度踝关节控制的仿人机器人,这大大增强了机器人的稳定性和灵活性。 图2:仿人机器人硬件结构和闭环运动链踝关节机制的图示。该机制的特点是每个踝关节提供两个自由度,同时减少腿部惯性。我们的工作在两种不同尺寸的仿人机器人上进行测试,即Robot Era提供的XBot - S和XBot - L。 机器人的稳定性和灵活性。 二、相关工作 a)学习机器人运动:强化学习已变得更有希望使机器人能够进行稳定的运动[35, 12, 18]。与之前使用四足机器人[28]和像Cassie这样的两足机器人[21, 17]的强化学习努力相比,我们对仿人机器人的关注呈现出更具挑战性的设置。我们提出的方法擅长自动化状态表示学习[19],掌握用于预测和适应的端到端学习,并通过有效弥合仿真与现实之间的差距促进无缝的零样本转移到现实世界场景。 此外,传统方法通常包括多阶段训练过程[1]、详细的奖励设计[39]或行为克隆[24],通常在动态和不可预测的现实世界场景中失败。另一方面,DWL而是在编码器 - 解码器框架内集成了一个世界模型,使用掩蔽损失从观察中预测状态。 b)仿人机器人运动控制:仿人运动的发展始于早期的概念和基本模型,如20世纪70年代的WABOT - 1[13]所示。传感器和控制算法的进步增强了仿人机器人的稳定性和适应性。基于模型的控制技术[16]如ZMP[34]、MPC[33, 20]和WBC[30]显著提高了运动能力。基于学习的方法不太依赖精确的动态模型,提供了更好的适应性和鲁棒性。尽管如此,如[26, 8]所示,强化学习在仿人控制的实际应用中取得了成功,但仅限于更简单的地形。 三、问题设定 A. 强化学习背景 我们的方法利用强化学习问题设定,封装在元组M = ⟨S, A, T, O, R, γ⟩中。这里,S和A表示状态和动作空间,转换动态为T(s′|s, a),奖励函数为R(s, a),折扣因子为γ ∈ [0, 1]。O表示观察空间。 我们的框架明显适应模拟和现实世界环境。在模拟中,智能体可以完全看到状态s ∈ S。另一方面,现实世界受到部分可观察性的困扰。智能体只能访问部分观察o ∈ O,由于感官限制和环境噪声,这些观察提供了关于状态的不完整信息。策略\pi(a|o≤t)将历史观察映射到动作的分布上。因此,智能体在离散时间部分可观察马尔可夫决策过程(POMDP)中运行,需要基于零星和部分数据进行决策。主要目标是优化此策略π以最大化期望总回报 B. 仿人机器人硬件 我们在实验中使用两种不同尺寸的仿人机器人,如图2所示。XBot - S重38千克,高1.2米。该机器人配备了26个驱动电机:每个手臂7个,每个腿6个。XBot - L重57千克,高1.65米。该机器人配备了54个驱动电机。出于本研究的目的,我们专注于腿部控制,保持手臂电机静止。每个腿由6个电机驱动:偏航和滚动关节电机的峰值扭矩为100N·m,俯仰和膝关节电机为250N·m,每个脚踝有2个电机,每个提供36N·m的扭矩(XBot - L中为50N·m)。脚踝电机位于膝盖附近,通过如图2所示的闭环运动链踝关节机制运行。这种设计旨在减少腿部惯性,同时确保足够的自由度。 四、方法 A. 去噪世界模型学习 利用强化学习,可以在仿真中学习到各种技能,但过渡到现实世界的机器人面临重大挑战,主要是由于仿真与现实的差距,这主要是由机器人硬件的仿真不准确和车载传感器提供的有限信息引起的。为了克服这一障碍,我们引入了去噪世界模型学习(DWL),它通过表示学习实现在线适应和状态估计。DWL具有以下两个主要特点: 用于世界模型学习的编码器-解码器架构,有效地将部分观察到的历史原始传感器数据嵌入潜在空间,并从中重建机器人的完整状态。 政策梯度方法,通过环境互动促进控制器的迭代改进,允许优化复杂的目标。 1)DWL的编码器-解码器架构:一个完美的仿真器具有完全可观测的状态和精确的传感器将消除仿真与现实的差距。然而,现实世界场景只为我们提供嘈杂的、部分观察到的传感器数据。仿真与现实的差距可以视为在真实状态上添加了以下类型的噪声: 环境噪声:现实世界的环境复杂且不可预测,呈现出诸如在挑战性地形上导航或施加在机器人上的意外外力等挑战。 动力学噪声:准确模拟物理世界的真实动力学是不可行的,导致仿真中的简化,例如对地面摩擦或物体变形的近似。 传感器噪声:物理传感器固有地包含测量噪声,例如IMU漂移和关节位置读取的不准确。 掩蔽噪声:由于机器人上缺少特定传感器,某些信息可能在现实中无法获取,例如线速度和接触力测量。这种部分可观测性可以视为添加了掩蔽噪声。 为了减轻这些噪声,我们开发了一个框架,首先在仿真中模拟嘈杂的观测值,然后采用编码器-解码器架构来去噪这些观测值并准确恢复真实状态和动力学,如图3所示。 此外,为了模拟部分可观测性的限制,我们屏蔽了在现实机器人上无法观测到的某些信息。我们利用域随机化(DR)方法来模拟环境、动力学和传感器噪声。在这种方法中,我们对实际状态和动力学引入随机扰动,例如角速度和PD参数的扰动。这一过程符合如下的观测模型。 一个编码器-解码器架构被设计用于去噪观测值。循环编码器从机器人的历史嘈杂传感器观测值中提取潜在状态z。这种潜在表示是状态估计的核心,提供了机器人的情境意识的丰富、浓缩的摘要。随后,解码器努力从这种潜在状态中重建机器人的真实状态。该模型的正式表达如下: 其中,P(\tilde{s_t})表示对真实状态分布P(s)的估计。编码器捕捉了给定嘈杂历史观测值o的这些潜在变量的条件分布P_{\text{Encoder}},解码器P_{\text{Decoder}}则从潜在表示z中重建状态。 必须认识到,o的维度比z大得多,这意味着z是一个有效的信息瓶颈。这使得DWL能够优先处理传感输入的显著方面。此外,为了增强状态估计的效率和鲁棒性,寻求潜在表示的稀疏性。这是通过在潜在域中引入L1正则化项实现的。而且,由于无需从潜在空间生成新数据,而仅仅是一个纯粹的去噪过程,可以采用确定性损失而不是变分损失。去噪损失表达如下: 其中,λ_r表示正则化系数。通过将特权信息(如地面的摩擦系数、执行器的扭矩值和地形高度扫描)融入状态,代理能够有效地进行在线适应和系统识别。 2)DWL中的策略学习:在DWL框架中,采用了不对称的Actor-Critic架构,借鉴了以前工作的特权学习概念。这种架构对于增强训练阶段的数据利用率非常有用,特别是在现实世界中直接状态信息无法获得的情况下。模型的Actor部分通过近端策略优化(PPO)计算其损失,表达如下: 其中,\pi表示要优化的目标策略,\pi_b是用于数据采样的行为策略,c1和c2代表PPO的剪辑范围。在DWL的编码器-解码器结构中,Actor策略定义为π(a_t|P_{\text{Encoder}}(z_t|o_{\leq t}))。另一方面,Critic可以使用状态信息来计算值函数。因此,critic的损失给出如下公式: 在这个公式中,R_t表示时间t的累积回报,V(s_t)是critic在状态s_t时确定的值函数。在状态表示中集成特权信息,使学习代理能够做出明智的决策。这种方法与DWL框架无缝对接。通过采用统一的状态定义进行状态估计和值函数评估,无需设计特权信息。 3)公式化DWL的损失函数:DWL框架通过整合状态重建和策略优化的各个方面,综合其学习目标。总损失函数是去噪损失、策略损失和值损失的加权和,正式表达如下: 其中,λπ和λv是策略和值损失部分的权重因子。这种方法使DWL能够微调学习过程,确保精确的状态估计并基于这些估计做出明智的决策。通过从掩蔽损失和域随机化噪声中重建状态,DWL在复杂的现实世界场景中展示了其鲁棒性和适应性。 总之,掩蔽噪声和域随机化噪声的集成培养了一个鲁棒的潜在空间,用于端到端的状态表示学习。当与策略梯度损失结合时,这一策略推动了状态估计和策略优化的综合方法。这个精炼的系统能够缩小仿真与现实的差距,有效地将仿真训练的模型应用于现实世界。 B. 奖励函数制定 我们的奖励函数引导机器人遵循速度命令,保持稳定的步态,并确保轻柔的接触,从而实现跨越挑战性地形和地上障碍物的稳健运动。 1) 奖励的组成:奖励函数由四个关键部分构成:(1) 速度跟踪,(2) 周期性奖励,(3) 足部轨迹跟踪,(4) 正则化项。我们的方法借鉴了先前的研究[31, 26, 32],使用周期性奖励来促进自然步态学习。此外,我们引入了一个跟踪损失,定义为 其中 e 表示跟踪误差,w 表示误差容忍强度。详细计算见附录 B 部分。 我们奖励设计的一个新颖方面是解决了接触力反馈稀疏的问题。我们系统不单纯依赖于接触力,而是专注于足部速度跟踪。通过设计在地面接触时包含预定速度的足部轨迹,确保每一步都有一致且稳健的奖励信号。这种策略促进了轻柔的地面接触,减少了冲击力,并增强了模拟到现实转移的效果。 2) 五次多项式足部轨迹插值:我们的方法通过战略设计足部轨迹来优化人形机器人的运动。我们使用五次多项式插值来确定这些轨迹,这种方法特别有效地满足人形机器人步态周期的精确运动学要求。该技术不仅有助于实现更平滑的运动,还确保了足部位置的准确性,这是保持稳定性和提高人形机器人步态效率的关键因素。 五次多项式插值在机器人运动规划中具有优势,因为它能够提供平滑的轨迹,并对速度和加速度进行精确控制。五次多项式的一般形式如下: 图 3:去噪世界模型学习框架说明。该图详细说明了在模拟和现实世界环境中从感官输入到动作输出的信息流。原始观测值是通过向特权观测值添加掩蔽和 DR 噪声生成的。然后将其编码为潜在状态并通过去噪过程解码以重建真实状态。 令t表示时间变量,a_0、a_1、……、a_5为需要确定的系数。我们用T表示摆动时间。在我们的周期性奖励设计中,一条腿处于摆动阶段意味着另一条腿处于站立阶段。一个摆动阶段和一个站立阶段共同完成一个完整的步态周期。机器人脚在摆动阶段的轨迹由f(t)定义,它是通过机器人步态关键时刻的一系列运动学约束来形成的。这些约束如下: t = 0时的初始脚高度,由f(0) = h_0给出,其中 h_0为初始高度。 t = 0时的初始脚速度,由f'(0) = v_0确定,v_0为初始速度。 初始脚加速度,用f''(0) = acc_0表示,acc_0为初始加速度。 在摆动阶段的中点达到最大脚高度,f(T/2) = h_{max},其中h_{max}为目标脚高度。 摆动阶段结束时的最终脚高度,f(T) = h_{swing},h_{swing}为最终高度。 摆动阶段结束时的最终脚速度,f'(T) = v_{swing},v_{swing}为最终速度。 为了推导系数a_0、a_1、……、a_5,我们采用了数值优化技术。一旦确定了系数,它们便可以简洁地描述脚的垂直轨迹(即摆动高度)。五次多项式插值有助于确保人形机器人运动中的软着陆,提供对机器人摆动高度、脚加速度和速度曲线的精细控制。附录表 IV 和图 7 显示了一个优化结果和相应的轨迹图。 该方法有助于操纵高阶导数以减弱脚步时的冲击力。通过调整五次多项式的系数,可以设计出轨迹,不仅可以抬高脚以克服障碍,还可以保持平稳运动并减轻接触时的冲击力。这些流畅的过渡使着陆更加平稳,增强了机器人的稳定性,并推动了高效、适应性强的机器人的创造,这些机器人能够安全地穿越各种地形。 C. DWL训练过程的配置 在我们的DWL框架中,如图3所示,我们使用门控循环单元(GRU)进行编码过程,并使用两层多层感知机进行解码和演员网络。训练配置的详细信息可以在附录C节中找到。 机器人的基础姿势用Pb表示,脚的姿势用Pf表示。姿势包括位置和方向,用六维向量[x, y, z, α, β, γ]表示。这里,x, y, z指定位置,α, β, γ表示欧拉角中的方向。策略网络的输入包括本体感受传感器数据和周期性时钟信号,表示为(sin(t), cos(t)),以及定义所需速度Px,y,γ的命令输入。这些观察结果在表I中详细说明。状态包括特权观察,这通常是物理机器人上的标准本体感受传感器无法获得的。该状态还集成了当前步骤的奖励,将奖励模型与世界模型相结合,预计这将增强编码器在潜在空间中捕获环境上下文的能力。 状态的其他重要组成部分是周期性姿势掩模I(t),它是预期脚接触模式的二进制指标,用于周期性步态,以及周期时间,这对于根据(6)计算脚轨迹至关重要。脚的运动,表示脚的位置P^f_{xyz}和速度\dot{P}^f_{xyz}。此外,高度扫描提供了一个近似的高度图,以进一步增强状态的估计。请注意,我们的策略的输入仅包括本体感受传感器数据,不包含任何激光雷达或深度相机信息。表I中列出的高度扫描是评论家在训练期间使用的特权观察。 表I:观察空间总结。该表将观察空间的组件分类为观察和状态。该表还详细说明了它们的维度。 表II:域随机化概述。呈现的是域随机化术语和相关的参数范围。加性随机化通过在指定范围内增加一个值来递增参数,而缩放随机化通过来自相同范围的乘法因子来调整它。 每个动作a_t ∈ R^{12}决定执行器的目标位置,然后由比例 - 微分控制器转换为关节扭矩。我们的控制策略以100Hz运行,超过了基于强化学习的运动策略中的通常速率(50Hz),从而为机器人的运动提供了更精细的粒度和更高的精度。内部PD控制器以更高的频率500Hz运行。 对于我们的模拟,我们使用Isaac Gym环境[23]。然而,它对我们脚踝控制中使用的闭环运动链缺乏支持,因此需要在模拟器中添加两个虚拟电机。然后,我们将关节目标重新映射到实际电机进行部署。策略优化使用带有Adam优化器的DWL损失函数(参考方程5)[14]。这种方法利用了DWL框架的固有优势来优化强大的运动策略,超参数可以在附录表VIII中找到。值得注意的是,生成的策略可以直接应用于物理机器人,无需进一步调整,体现了从模拟到现实部署的无缝零样本转移。 D. 域随机化 为了弥合模拟和现实之间的差距,我们的方法强调对关键动力学参数进行广泛的域随机化。这解决了现实世界可变性的主要来源:环境噪声、动力学噪声和感官噪声。 随机化涵盖了环境元素,如地板摩擦、方向和机器人特定方面,如质量和质心位置。引入了电机参数的变化,包括PD控制器设置,以使策略适应一系列电机行为。 此外,我们纳入了系统延迟,并在机器人的质心中注入随机偏差,使策略能够处理现实环境中不可预见的干扰。这种彻底的随机化策略对于确保策略在实际部署场景中的弹性和灵活性至关重要。更多细节在表II中给出。 五、实验 在本节中,我们主要关注室内和室外环境中具有挑战性的设置的性能。下面讨论的基准比较均使用身高1.2米的较小仿人机器人进行。此外,我们在如图6所示的身高1.65米的较大仿人机器人上部署了我们的算法。 A. 基准比较 为了对我们的方法进行实证评估,我们使用XBot - S和XBot - L进行了一系列实验,将学习到的策略应用于零样本转移到现实世界的设置中。这种部署涵盖了一系列复杂和具有挑战性的地形,测试了我们机器人运动能力的极限。据我们所知,这代表了世界上第一个使用端到端强化学习来稳健地导航如此复杂环境的仿人机器人。 我们的评估框架包括与两种基线方法的比较,为我们的方法提供的有效性和进步提供了全面的视角。总之,我们运行了三种算法: 图 4:踝关节控制机制的动态适应。A) 上图展示了人形机器人的踝关节控制系统在不平坦的地形上主动保持平衡。相关扭矩图揭示了控制系统在稳定运动过程中的调整。B) 下图显示了系统在静态站立期间对外部扰动的弹性,其中 2-DoF 踝关节控制在保持稳定性方面起着关键作用。 DWL基线(我们的):该基线涉及应用具有主动踝关节控制的DWL策略。对于此配置,我们将踝关节的PD增益设置为Kp = 20和Kd = 5。DWL的网络架构细节可以在附录表VI中找到。DWL演员的总可训练参数约为320,192。 具有踝关节控制的PPO:在这里,我们消除了去噪损失组件,同时保留了我们方法的其他方面。此设置旨在强调与传统方法相比,我们方法的增强适应性。PPO的网络架构细节可以在附录表VII中找到。PPO演员的总可训练参数约为333,312。 没有踝关节控制的DWL:鉴于在两足和仿人机器人中建模闭环运动链踝关节机制的复杂性,许多以前基于强化学习的运动控制都使用了被动踝关节策略。我们与使用被动踝关节控制1(K_p = 0和K_d = 10)的DWL变体进行比较,以针对这种常见方法进行基准测试。 我们在我们的上下文中指定“被动”踝关节控制意味着踝关节的运动不直接受策略控制,而是基于预定义的物理阻尼特性做出响应,这与主动 RL 代理决策不同。 我们的实验场景多种多样,包括雪地、上下楼梯和抗干扰等任务。在这些任务中,机器人的手臂保持静止,以隔离对运动性能的评估。这种实验设置提供了一个测试平台,以评估我们的运动控制策略在现实世界条件下的多功能性和鲁棒性。随后的基准比较仅使用XBot - S进行,以确保我们评估的一致性。 表III:在各种地形上的真实机器人测试。粗体值是我们具有踝关节控制的DWL,DWLp是具有被动踝关节的DWL,PPO也控制踝关节。 B. 室内实验验证 进行了一系列全面的现实世界试验,以评估我们的算法在控制仿人机器人穿越一系列具有挑战性的地形时的鲁棒性和适应性。我们的室内实验采用了四种不同难度的不同地形类型,详细如下: 斜坡过渡(图1F):一个坡度为0.25的倾斜平台,用于测试机器人熟练地从平面运动转换为倾斜运动的能力,包括上升和下降。 楼梯下降(图1D):机器人负责向下穿越,遇到楼梯,每个楼梯宽20厘米,高10厘米,从顶部开始。 楼梯上升(图1B):与下降楼梯的尺寸相匹配,机器人面临着在有限的传感器观察下上升楼梯的挑战。 不规则地形(图1E):一个定制设计的景观,高度变化可达10厘米,模拟具有挑战性地形的不可预测性。 这些实验的结果,如表III所示,揭示了重要的见解。当将具有踝关节控制的PPO与我们的DWL框架进行比较时,我们的方法在行走性能方面显示出显著的改进,在各种地形上实现了100%的成功率。这突出了我们方法卓越的仿真到现实能力及其对不同地形的强大适应性。对于相对简单的任务,如导航斜坡和下楼梯,PPO和DWL的被动变体(DWLp)都展示了足够的成功率。然而,在具有挑战性的情况下,如在不规则地形上行走或爬楼梯,DWL明显表现出色,展示了我们方法的适应性和鲁棒性。 C. 室外实验 除了在各种复杂地形上进行广泛的室内测试外,我们还在不同和具有挑战性的景观中进行了长时间的室外行走测试。我们评估了在不同表面和条件下的行走性能,包括水泥地面、砖路、土壤和雪地地形。我们的算法允许机器人在上述各种不同的道路条件下展示稳定的行走。特别值得注意的是在积雪地形上的行走评估(图1A),这是一项极具挑战性的任务。雪具有可变形的性质,机器人的脚可能会陷入其中,这带来了困难,这种情况很难模拟。此外,雪表面往往很滑,使机器人容易滑动。然而,我们的DWL算法在雪地地形上长时间行走时表现出显著的稳定性,证实了我们的算法对不同地形的鲁棒性和适应性。 D. 鲁棒性测试 域随机化是实现鲁棒控制器的常见方法。然而,其有效性往往受到仿真到现实差距的限制,以及考虑到每一个可能的现实世界场景的不切实际性。 在我们的框架中,智能体被设计为预测真实状态,从而使控制器能够快速适应各种情况。例如,如果有跌倒的趋势,控制器可以快速识别并采取行动来保持平衡。为了评估我们控制器的鲁棒性,我们进行了以下实验: 质量位移:如图1G所示,机器人携带一个袋子,我们在它行走时逐渐向其中添加重物。即使额外重量高达15千克,超过机器人重量的三分之一,它仍能保持稳定的运动。 载重:我们进行了两个实验,如图1H所示。它成功地携带了高达20千克的额外负载行走,尽管由于增加的重量而高度略有降低。此外,我们将机器人的手效应器连接到一辆装载的手推车(图1I),机器人能够推动一辆装载60千克的手推车,展示了控制器处理重大负载的适应性。 推力恢复:在我们的实验中,当机器人执行连续站立命令时,我们使它受到来自多个方向的外力。这些测试在平坦(图1C)和倾斜地形(图4)上进行,机器人在两种情况下都成功地保持了站立。 六、结果分析 在本节中,我们深入研究了将DWL框架部署在仿人机器人上获得的实证结果,特别关注其在地形穿越方面的性能。我们的结果如图5所示。 图5:DWL促进的复杂地形穿越和适应的状态估计结果。该序列图像可视化了当仿人机器人在斜坡和楼梯上导航时,模型对脚接触、基础速度和高度图的预测。结果展示了DWL在状态估计和在线适应方面的有效性。 1)地形高度扫描预测和步态适应:我们的发现突出了DWL预测地形高度的显著能力,这是地形适应性的关键因素。仅使用本体感受输入,而不依赖激光雷达或深度相机,我们的系统能够估计地形的大致轮廓。乍一看,这似乎不可信,但我们的方法能够辨别地形的总体趋势,如图5所示。DWL的内部模型巧妙地编码具有明显可分离性的环境特征,从而有助于准确的地形识别。机器人可以识别它是在上坡还是下楼梯。虽然精确的形状预测仍然具有挑战性,但即使是粗略的估计也非常有用。这种能力对机器人的步态至关重要,正如观察到它从斜坡过渡到楼梯时的情况。这种步态修改不仅对于导航障碍物至关重要,而且对于确保在不同地形上的平衡和稳定性也是必不可少的。 2)脚接触检测及其影响:如图5所示,脚接触模式表明与遇到的地形类型相关。在仿人运动中,特别是在单腿支撑阶段,准确检测脚接触对于稳定性至关重要。DWL框架有助于预测这些接触实例,从而改进腿部摆动轨迹的规划,并促进有效的障碍物避免。脚接触的频率和模式在状态估计的指导下动态变化,导致关键的步态调整和适应复杂地形导航。 3)速度估计:速度预测,尤其是线速度,很难直接从本体感受传感器获得,但对于成功运动至关重要。DWL 有效地在统一框架内估计速度状态,解决了 IMU 角偏航漂移等挑战,如附录图 10 所示。这种估计增强了命令跟随并防止偏航偏差。在我们的实验中观察到的实际速度和估计速度之间的一致性显着有助于机器人的运动,确保更平稳和更可预测的运动。由于无法在现实环境中直接获得真实状态,我们使用 sim2sim 传输来验证我们的状态预测。我们在 MuJoCo 中测试了我们的策略,并将状态估计与基本事实进行了比较。线速度和欧拉偏航的预测结果显示在附录图 12 和图 11 中。 在 sim-to-sim 场景中,60 秒内前向速度估计的均方误差 (MSE) 为 0.046,而在真实世界实验中 IMU 漂移减少了约 87%。这些比较清楚地证明了 DWL 算法的精确状态估计能力。 4)踝关节控制的好处和重要性:通过允许对踝关节的两个自由度进行激活控制,机器人能够穿越复杂地形并抵抗额外的力量。踝关节控制的作用至关重要,因为它使机器人能够保持平衡,即使在单腿支撑的情况下,也能产生类似人类的稳定性。值得注意的是,当在不规则块上行走和上楼梯时,如图4所示,以及在变形地面上时,踝关节控制变得尤为明显。如果没有踝关节控制,机器人的脚在接触不平地面时会明显变形,无法恢复。这伴随着踝关节接触力不足,增加了失衡和跌倒的风险。相比之下,我们的踝关节控制方法通过在踝关节处的自适应接触力轻松地在这些地形上导航,如图4中的扭矩图所示,使机器人能够适应各种地形。 七、结论 在这项工作中,我们提出了用于复杂仿人机器人运动技能学习的去噪世界模型学习(DWL)。该框架首先掩盖了特权信息,并将适当的噪声注入到模拟中观察到的真实状态中。然后,它设计了一个自动编码器架构来对观察进行去噪并重建真实状态。我们在各种复杂环境的广泛现实世界实验中取得了成功,如雪地、楼梯、变形地面和不规则表面。展示了世界上第一个通过端到端强化学习和零样本从仿真到现实的转移来掌握具有挑战性地形的仿人机器人。深入的结果分析表明了状态估计能力的有效性和主动2自由度踝关节控制的重要性。未来,将添加视觉信息,以在保持鲁棒性的同时,更有效地在具有挑战性的地形中导航。 图 6:我们将 DWL 代理部署在大型人形机器人(1.65 米高,57 公斤)上,以评估其在各种场景(包括极具挑战性的可变形条件)下的性能。事实证明,2-DOF 踝关节的主动控制对于保持站立时的平衡、从外部干扰中恢复以及穿越复杂且可变形的地形特别有益。 八、更多学习内容 更多资源,学习《移动机器人运动规划》扫码👇进入跟随高飞大佬做6个项目实践,掌握研发,冲击顶会 九、论文原文↓ 原文📃文件: 暂时无法在飞书文档外展示此内容 【注】论文相关链接请见原文:点击获取原文 知识星球 扫码加入星球 查看更多优质内容
Podcast Editor
Podcast.json
Preview
Audio
