Sources
有人用过MARLlib这个库,自定义过环境吗? 有没有推荐的跑单纯离散环境的算法,我看关于离散环境的方法比较少 DQN[表情] 请教一下各位大佬,有没有推荐的对于稀疏奖励较好的网络训练方式 用¥¥¥¥¥ 用her 采样 怎么能增强dqn的泛化能力啊[表情],我的智能体训练过后始终找不到目标点 有大佬能解释一下经过训练,改变起始点目标点,智能体也能找到目标的原因吗 这个我不太理解,网络是咋学的呢? 懂了[表情] @湖南-强化学习控制 建议找懂强化学习的人帮助 提前告知目的: - 为了确认训练达到收敛,模型的训练已经尽力 - 为了得到更好的模型去使用 再确认奖励跳动的原因: - 模型参数更新太快 - 环境随机性 - 策略随机性 对应的讨论方向是: - 探索强度衰减,学习率衰减 - 增加验证时的评估次数,挑选高分的checkpoint - 设置专门用于 验证的env,减少验证环节的随机性,挑选表现平稳的checkpoint - 判断是否与稀疏奖励相关 mark攒着写博客yonv1943 建议找懂强化学习的人帮助 提前告知目的: - 为了确认训练达到收敛,模型的训练已经尽力 - 为了得到更好的模型去使用 再确认奖励跳动的原因: - 模型参数更新太快 - 环境随机性 - 策略随机性 对应的讨论方向是: - 探索强度衰减,学习率衰减 - 增加验证时的评估次数,挑选高分的checkpoint - 设置专门用于 验证的env,减少验证环节的随机性,挑选表现平稳的checkpoint - 判断是否与稀疏奖励相关 mark攒着写博客yonv1943 我是觉得只要在现实环境训练,都会遇到环境初始化的问题 [表情] @湖南-强化学习控制 这句描述信息含量太低了 “在***里训练,都会遇到环境初始化的问题”,把*** 换成什么能让这句话不成立? 请问,如果我设置的最大步长为1000,我设置了到达目标点就退出,可能步长没到1000就退出了。这样训练会不稳定吗,epoch-per-step是不是还是应该设置1000的倍数? 还是有其他的更好的设置方法让agent能更好地记住到达目标点那个epoch? 我现在训练经常找到目标点奖励就特别大,没找到就特别小,是不是就很难收敛[表情] @湘大-强化学习 不会。常见算法不要求 固定步长 这个问题很奇怪大佬们有做RL和MPC结合的吗 自己改reward好难啊,我训练的网络说啥就找不到goal 大概率是思路错了 找不到goal,那就是你调整的思路错了 你应该在思考下,你这么修改合理不 怎么判断自己写的reward是否收敛啊?训练时我发现即使训练到2000轮,输出的reward仍然有很大的变化幅度 加个0 看看是不是基本 平稳了 一般收敛了就会在那个值附近波动,可能偶尔会偏差很大。但是基本就是哪个附近了。 我个人猜想的 有可视化吗,看看任务完成的怎么样@沈阳-SAU-千里马 uav路径规划一直不收敛,也有可能是奖励函数设计的不好或者算法调参没调好 有可视化,模型训练之后,输入随机起始点和目标点,就是找不到目标点,总会陷入踱步之中 可以看看各项奖励的权重是否合适 也有可能任务太复杂了 屏幕录制 2024-11-20 165041.mp4 9.9 MB 这种症状会一直持续吗 @辽宁-冰淇淋-推荐系统 是的,训练之后多次测试都是这样是不是碰撞惩罚给大了,agent不敢往前走了 @山大-MARL导航避障 给小了的话必撞啊[表情]。agent就不把惩罚当回事了 @沈阳-SAU-千里马 uav路径规划 你在训练的时候能看效果吗 你看看训练得时候是不是就出现了这种情况 踱步 嘶,有道理,我应该把训练过程也展示出来。我就训练一轮展示一次吧 [表情]不用,你在训练的时候动态执行一下action就行。 或者你打印action出来 看看是不是反复就那么几个,如果是的话,估计就是方法或者输入特征有问题?好的,谢谢[表情] 你把重复位置惩罚调大试试呢?(我也不是很懂) 等会 我突然意识到一个问题 你是不是单纯的加了一个走一步没撞就给奖励? @辽宁-冰淇淋-推荐系统 是的,+了个1,可视话之后我发现问题了,貌似每回训练agent根本就没找到goal,我这个按回合更新的策略是不是不对啊?是不是应该按步更新啊? @东大-小明-智能体博弈对抗 配电网优化不就是这个 传统用MATLAB就是mpc 维新派就是用rl @沈阳-SAU-千里马 uav路径规划 你有没有想过一个问题,你每走一回合就给他一个奖励,他来回夺步,有没有可能奖励会更大? 如果你不限制他行走的步数的话,他来回踱步疯狂叠,可能比你最终吃到goal的总奖励还大 然后就陷入了这个局部的最优解。 你要不改一下,限制一个最大部署,即使他来回踱步,他所得到的总奖励也不如达到目标的奖励 或者你直接是一个限制,如果他往回走就不给他奖励 我想到这个问题了,然后写了一个函数,但是好像没写对 因为你要用内存去记录他走过的地方, 假设你记录他走五步,万一他找到了一个六步的圈子呢?他依然还是可能会转 您说对,占内容确实不是很好,我应该改成其他策略 话说你能知道目标的位置吗? 如果可以的话,你可以把目标代理距离当成奖励 你可以让他没走一步就给一个小惩罚,同时给一个有截断的距离奖励。我猜的。 @辽宁-冰淇淋-推荐系统 嘶,这个还真没想过,很新颖诶[表情] 不知道可不可信,你也可以试试把惩罚去掉。 惩罚主要是让代理在刚开始的时候尽可能快的去探索接近目标。 @武汉-智能电网 没了解过配电网优化[表情] 我有一个问题,按步训练和按回合训练有什么效果上的区别呢? @东大-小明-智能体博弈对抗 配电网优化除去潮流那些电力系统分析的内容 大致上就是 目标函数比如购电成本最小 约束条件比如蓄电池电量不能超出阈值理解思路就行,其实数学模型把电力系统分析的抛了没太复杂 [表情]我不是很理解 不也是按回合训练吗?轨迹没执行一个action不应该就有一个reward吗 可能是我理解有问题。。我是新手[表情],我只是会用unity那个插件 @武汉-智能电网 这个是mpc或强化学习还是这两个算法结合成一个新的算法啊 mpc问题的思路和模型用深度强化学习求解 就比如之前是2+2+2你用了2*3 @辽宁-冰淇淋-推荐系统 感觉您蛮厉害的了,我确实是纯小白[表情] @武汉-智能电网 好滴好滴大佬,我再了解一哈 我被气乐了 怎么了 让我也乐乐 我改一下午reward没改名白踱步问题,打印出来发现没问题,结果是显示功能出的问题,显示写错了 没事 发现问题就好了 改正以后呢? @沈阳-SAU-千里马 uav路径规划 你在沈阳什么地方?[表情]我也在沈阳附近哦 改正以后能找到了,我再训练试试
Podcast Editor
Podcast.json
Preview
Audio
