Revive 1.0: 数据驱动的强化学习工业决策软件 | PodLM - AI Podcast Generator

Sources

大家好，非常荣幸向大家介绍revive 1.0。Revive是由南迁先策开发的数据驱动。强化学习工业决策软件在工业场景中，很多时候我们面临的都是决策任务，例如工业机器人的控制、物流、交通调度、化工生产和能源管理等。那么强化学习作为一种自主智能决策的技术，他可以不借助人类专家，通过自己和仿真环境进行大量交互，取得超越人类的决策水平，目前已经在围棋等游戏场景中取得了超越顶尖人类的决策性。遗憾的是，工业场景的需求和现有强化学习算法之间存在显著的鸿沟。例如，我们想在工业场景当中运行经典强化学习，那就需要先获得环境的观测信息，然后智能体根据自己的策略执行动作，环境会根据执行的动作返回对应的奖励信号，智能体需要不断重复和环境进行交互，来最大化自己的长期回报。那么以往的强化学习在使用的时候通常需要大量算力，这个算力一方面是用来运行仿真环境，进行大量的快速采样，另一方面是对策略进行训练。然而，工业环境下所能提供的算力通常是非常有限的。第二个，在工业环境当中，很多时候并不具备快速的仿真环境。如果我们直接在现实环境当中去进行交互，那交互的速度就会变得很慢。因为现实环境没有办法像计算机一样，通过并行来进行加速采样。与之而来的其实还有一个更严重的问题，这是由于强化学习的试错特性导致的。如果我们直接在真实环境中去进行交互试错，那么强化学习的策略可能会对整个系统的运行带来很多危险的行为。对生产人员以及设备造成不可恢复的一些灾难性损坏。我们观测到在工业决策场景当中，会沉淀历史这个决策数据。基于这些数据，其实我们可以从历史数据来进行决策。因此我们也开发了revive数据驱动的强化学习工业决策软件。Revive在学习的过程当中不和真实的工业环境进行交互。在业务环境当中收集到数据以后，我们从这些历史数据当中学习虚拟环境，然后在虚拟环境当中进行强化学习的训练，得到控制策略，最后对控制策略进行校验以后，就可以将策略在业务环境部署上线。 Remap的整体工作流程并不复杂，在数据采集完以后，我们根据具体的业务场景去设计决策流图。决策流图描述了业务场景的观测和决策量，也就是动作之间的关系。在有了数据和决策流程以后，我们就可以启动虚拟环境的训练。在虚拟环境训练的过程当中，我们需要不断的去对当前生成的虚拟环境进行验证和校验。在通过验证以后，得到了虚拟环境就可以开始进行策略学习。最后在策略学习也完成以后，我们在虚拟环境当中对策略进行联合校验。在策略的性能符合性能要求以后，我们就可以开始准备部署上线的工作。接下来我们以一个倒立摆的控制任务为例，来说明rab的一个应用效果。在倒立摆的控制任务当中，可能我们一开始只能收集到比较差的控制策略产生的控制数据。然后我们将这些数据放到rap当中进行环境的训练和策略的学习。经过一次迭代以后，可以看到新的这个控制策略可以更快更稳定的对倒立摆进行悬停。实际上revive也经过了很多的迭代。在21年的12月我们发布了0.5版本，这是第一次正式对外提供服务。在22年的一月，我们紧急上线了0.6，减少了对依赖包的一些安装需求，同时修复了一些bug。在22年的四月，我们增加了新的任务案例，同时优化了对时序任务的效果。在22年的九月我们上线了0.8，在0.8里面支持更灵活的定义决策流程，同时支持对部分数据缺失的任务进行训练。在22年的11月，我们上线了0.9，0.9支持了新的策略训练方法，并且优化了算法的稳定性，完善了中英的双语文档。在今年4月我们将正式对外推出revive 1.0。在revive 1.0当中，首先对算法进行调优升级，能够提供更好更稳定的训练效果。同时支持了更丰富的内置函数和功能，使用起来更加的灵活。另外我们还对代码进行了底层优化训练，速度能够变得更快。通过对算法进行调优升级，策略控制的效果和稳定性可以获得大幅的提升。在不同的数据集上进行验证review，be 1.0相比0.93可以更稳定地获得超越数据集的策略的性能。同时相比0.93有更显著的性能提升。我们通过对底层代码进行优化，对资源进行并行，最高实现了超过50%的训练速度提升。在某九口号7发任务上，在构建机器人的对应虚拟环境任务时，使用1.0以后对比0.9.3，当我们的环境步长是20的时候，可以提速超过50%。而当环境步长变为100的时候，也可以达到34%的一个速度提升。在面对实际的工业系统时，现在的工业系统都非常的复杂，具体体现在他们里面的工艺设备和流程往往都是不一样的。输入输出的变量很多，变量之间的关系也很复杂，呈现高度的非线性性。这些都为决策建模带来了巨大的全新的挑战。为了解决工业系统中数据的复杂性，我们在M1.0当中新增了attention backbone，也就是注意力机制。通过引入的注意力机制，在不借助专家知识的情况下，我们的模型可以自动调整注意力的权重，从而自适应的捕捉数据之间的关系，实现对复杂的工艺控制和系统的有效建模。在DFIL的数据集上进行对比，可以看到当使用了attention机制以后，我们的环境建模误差得到了显著的下降。工业环境中另一个普遍的现象是传感器存在采样延迟、信号传输延迟和响应延迟等等延迟。那么对应的我们的控制就呈现出来有实质和滞后性。例如在化工领域普遍存在的反应时间流动实验和观测实验。这些实验会使得系统的因果关系变得更加的复杂和难以分析，我们难以通过单步的态势去做更好的一个决策，这对我们的控制也带来了更高的一个要求。为了应对工业控制中的时序问题，我们优化了RN backbone的实现。RN本身是一种针对时序任务设计的模型，我们在rab 1.0中进一步对其进行了优化，使得我们的模型能够更高效的提取和传递实时信息，能够显著提升在管网控制化工过程等长流程和大实质任务场景上的性能。在冰箱温度控制策略优化的任务上，测试结果表明使用RN后端以后，我们的策略控制性能还可以得到进一步的提升。在工业环境中另一个比较头疼的问题是，我们能够收集到的数据往往是基于部分工况下采集得到的。基于部分工况我们来构建完虚拟环境，然后在虚拟环境中进行策略学习，得到策略。最后在部署的时候，很遗憾我们经常会遇到一些新的违建工况。由于历史数据仅仅包含了过去的某些特定工况下的轨迹，由此构建出来的虚拟环境在未见工况上它的泛化性其实受到了非常大的一个挑战。为了提升策略模型的泛化性，我们新增了神经网络干扰器，从而能够有效适应不同的工况。具体来说，在虚拟环境训练完成以后，我们在策略训练的同时增加了多个神经网络干扰器。通过这些神经网络干扰器，我们得到的策略可以更加的鲁棒，能够在不同的工况下都进行一个比较良好的控制。我们在摩擦力系数变化的一个机器人控制任务上进行了对比。通过在策略训练的过程中开启干扰器，可以带来一倍以上的性能提升。另外reap 1.0当中还集成了丰富的内置函数功能。具体来说现在rab 1.0可以支持自动解析残差节点，同时可以内置拼帧节点来应对时序的一些任务。另外我们还提供了自动生成时间部的信息节点功能，帮助解决一些需要对实践部有依赖的任务。很多工业场景下都需要对算法进行比较灵活的定制，那么在1.0当中，我们支持对算法进行高阶的自定义操作。比如工业场景中通常会对模型生成的数据之间的关系有一些约束，那么在1.0当中可以通过增加函数节点来增加这些专家约束。另一方面，现在支持用户自定义神经网络节点和这些神经网络节点的损失能够自动进行更新。Revive 1.0的全新升级使得我们的rap变得更加灵活易用，有更稳定有效的算法效果，同时有更快的运行速度。关于rev 1.0的更多详细信息，欢迎访问我们的官网ref dot CN进行访问。大家好，我是南希监测项目总监高永健。我们接到了一个水务行业的客户需求，询问我们是否可以帮助他们把出厂水量控制的更加精准。这是一个水源厂受调度中心的要求往下游输送原水，目前客户的控制方式是一个粗密度的控制档位，根据调度指令去控制出厂水流量。客户希望我们能够利用人工智能技术，将出厂水流量的控制精度提高一倍。如果能在此基础上实现节能降耗，甚至全智能化控制就更好了。这其实是一个普遍存在的需求。随着工业生产的标准日益提高，而设备性能又在不断的衰退，单纯依靠人工经验控制或者单一的自动化控制已经很难满足生产要求。我们通过实地与客户进行沟通，详细了解了客户需求和现场状况。比如说当前有几个机组，设备参数是多少，是否支持变频调节，是否具有压力流量、电镀等仪表，想要实现什么样的控制效果等等。在了解到客户的需求以后，我们会根据系统的历史数据，用荣耀平台将泵房重建出来。这里的重建是加引号的，本质上就是构建了泵房的世界模型。我们还特别注意到客户希望了解水泵当前的性能偏差情况。基于我们还原的世界模型，我们就可以显示出每台水泵在不同频率下的实时特性曲线。通过与出厂时的这个特性曲线做对比，就可以了解到水泵的性能偏差情况，从而实现客户的需求。我们的世界模型是基于实际生产数据构建的，所以跟实际泵房环境非常接近。建模出的这个实时特性曲线与实际工况的偏差小于2%。有了世界模型以后，我们再使用深度强化学习算法，基于这个克隆出来的泵房去训练我们的智能体策略。通过智能体亿万次不断的与世界模型进行交互训练，最终得出最优的控制策略。这个控制策略就是咱们最终的人工智能洞房调控专家，它能够实现对系统的全天候实时控制，在保障生产安全的情况下实现精准控制，提高出水精度的同时还能够实现节能降耗。当然在将策略部署到生产环境前，为了保证生产安全，我们会通过多种方式进行安全性和可行性的一个评估。评估通过以后，我们就可以到真实环境中去部署上线。现在这个泵房已经完全交给人工智能去控制了。智能控制系统的稳定交付，不仅达到了客户最初定下的精准控制目标，还产生了节能降耗，减少运营管理成本的效果。我们收到了智能制造和流程工业领域越来越多的需求，基于revive强化学习技术，助力更多的工业企业进行智能化升级，为人工智能加智能制造的心智生产力发展做出我们的贡献。

Podcast Editor

Podcast.json

Preview

Audio

Title

Description

Topics