Sources
我用改进强化学习的学习率 奖励提升了2.5/135=0.018518519 。。。 奖励提升1% 这算优化吗 [表情][表情] 我感觉学习率 你这都不能算提升 这都算不上优化。。。 纯靠试 找最优 还是你自动调节最优 提升1%正常吗 你这只能说是调参 就是值得说 我提升了1%了吗 不值得说 [表情][表情][表情] 算不上啊 你是改了什么学习率的动态优化算法吗? 1%还得用rng0 固定随机数 那就更不行了 不然复现都不一定能优化1% [表情][表情][表情] 对啊 MDP本来就是随机概率动作 复现都不一定能优化1% 你学习率 [表情][表情] 你自己想怎么编故事 让别人相信 老哥做什么方向的给我指点指点。 调参,提升深度学习的预测准确率 这个思路对不对啊 还是那句话 看你目的 你要是只想毕业 大论文里写这个也不是不能毕业 我咋感觉调参最多加快迭代 发好的期刊指定是不够了 说不定可以用于自动调参上。[表情] 通过调参,能够让准确率提高到96 97% 这个是可行吗 除非你提出了啥自动优化调参方法 不可行 @湖南-强化学习控制 老哥你可以看一下。 通过调参,能够让准确率提高到96 97%吗? 这种只能发个github,说一下这个代码最优参数 强化学习自动特征选择。 一般手动调参的性能优势需要很多组重复实验来验证 你听说过有人用pid调参发论文的吗 如果你是想研究参数调整这块的话,这个应该会有点启发,因为比较相似 不然别人会说你挑最好的 @SWJTU—zx—汽车底盘控制 这玩意我见过 真的假的! 我就是看到计算机一区有人这么做 自动化那边不是很多用这个弄无人机控制的吗 用什么jaya 啥水刊能收这个 不是,我的意思是把调参当创新点 主要是手动调参 我见过用强化学习去调参的 而不是自动调参 @四川大学-混子-无人机路径规划 对的 @四川大学-混子-无人机路径规划 这个我知道 强化学习的超参数啊 手动调参压根都算不上创新点 强化学习加pid 手动谁见过 比如学习率和步长 强化学习加mpc 强化学习的超参数啊 手动调参压根都算不上创新点 强化学习加pid 手动谁见过 比如学习率和步长 强化学习加mpc 都见过 手动那不纯纯看运气吗 对呀,手动纯纯看运气 唉,不一定啊,也得看经验 对呀,这怎么可能发论文 我当时调餐的时候也是调了4天才把我那个打排球的训练出来 奖励函数改了又改,参数改了又改,最后跑了5,000万次,收敛还是比较慢,没有收敛起来,但是效果已经比较好了。 @SWJTU—zx—汽车底盘控制 但是我感觉这种没啥意义 但是水论文很好 除非你能把手动调参理论化,为什么这么调这个参数是有意义的,然后再做各种实验反证他,最好有数学推导 @四川大学-混子-无人机路径规划 那肯定 现在看到强化学习➕pid的我就知道是个大水逼 纯净水 @SWJTU—zx—汽车底盘控制 都是为了毕业 你用启发式算法去调餐吗?说不定可以哦 @湖南-强化学习控制 应该可以 @湖南-强化学习控制 没听说过呀 但是一般来说这块应该都是做过了的呀,你得做改进 我只希望将来审我的大论文的人能够仁慈一些 水刊 从理论上去说明你这个东西更好 [表情]太阳底下没有新鲜事儿 启发式算法这一块才好灌水 目前见过灌水最疯狂的一个领域就是启发式算法了 都做烂了 现在还好做吗 那些算法的名字排个队,就是动物园开会 真的很难绷 也不能这么说吧,有效果就行 我见过一个什么孤狼算法和强化学习结合的 rl落地,算是大创新了 @四川大学-混子-无人机路径规划 感觉不好水了,动物的名称快用完了 但是他文章也没说清楚怎么结合的 虽然都是水 不一定要用动物啊 但是rl落地,不是人人都能落 启发式算法是出受其他的启发的影响 你像模拟退火算法,它就是模拟工件冷却的一个过程,它不一定要用动物的名字 所以还能水 目前看到的基本都是动物最多 目前看到的基本都是动物最多 你们启发式算法有什么优点 对于调参 还有就是落地 对于落地的人来说:能用就行 @浙江工业 图像 没想过落地的问题 我想的都是毕业 启发式算法最大的优点就是能在有限的时间内找出一个不错的解。 对,我也没想过落地的问题 @四川大学-混子-无人机路径规划 这个得看编故事的能力,怎么把你的算法硬和一个动物的行为扯到一起 [表情]我这种师门叛徒。能学一些rl经验,拿这个毕下业就可以了 @SWJTU—zx—汽车底盘控制 我师姐之前也用启发式发论文 毕竟路径规划启发式挺多的 路径规划我只知道混合a* 但是如果拿它去调强化学习的参数,其实感觉有点问题 那怕你就用最常见的那些改一改,不行就强化学习来参数镇定 为啥启发式也能做路径规划啊 落地这一块强化学习,他采样一次需要很久的时间吧 @SWJTU—zx—汽车底盘控制 巨多 、A*搜索算法 启发式我看都是在做参数优化捏 我看到github有个蔡徐坤的 @辽宁-冰淇淋-暂无思路 是强化学习去调启发式的参数 rlA*搜索算法 其实我做自动特征选择的时候也尝试过写代码落地,但是这个问题一直解决不了。尤其是unity,它用tcp去沟通。特别的慢 其实我做自动特征选择的时候也尝试过写代码落地,但是这个问题一直解决不了。尤其是unity,它用tcp去沟通。特别的慢 路径规划,我记得看过,A*搜索算法 这个是启发式? @浙江工业 图像 是的 h函数 原来如此 我就看到蔡徐坤那个地图的github,笑死,用A*搜索算法 混合A*听说是现在企业用的最多的 对,a星早就落地很多年了。 我就想问一个, 调参能够提升强化学习的效果吗 肯定可以啊 @湖南-强化学习控制 能呀 在我差不多15 16年的时候,用unity的时候就已经有a星算法实际应用了。 比如同样训练10000次,收敛的奖励值能够提升吗 [表情][表情] @湖南-强化学习控制 可以 @四川大学-混子-无人机路径规划 你们是不是在做无人机编队控制啊 @SWJTU—zx—汽车底盘控制 我不做 我只做单智能体 不上实车也能毕业 我现在就想做实物实验 还给我省点事 我是计算机的 我只仿真 @湖南-强化学习控制 你也在做具身? 你们有没有做不同目标设定的 比如先控制到5,在控制到3 先强化学习操作到5米 说具体一点 在操作到3米 这个不是很简单吗 一起设置不行吗,再奖励函数里面[表情] 阶段奖励 3 米的奖励最高 5 米凑合 3是后5秒的目标值 这种奖励有点难做吧 或者说长时间运行 我肯定就要改变目标值啊 [表情] 比如今天控制到5米 好复杂啊 明天我又设定目标3米 那你把时间也纳入进去试试看? 反正操作目标会变 不是? 前5秒的时候5的奖励最大,后5秒的时候3的奖励最大。 这不是最简单的吗 咋就难做了 然后你没隔离点几秒,就给他一个惩罚。 这是训练啊 让他尽快的能达到最大目标。 总有规律的吧。。 不是 我想怎么设定目标值 你训练的时候也按照这个规律来,可以吗 强化学习就怎么动 你奖励值为目标值和真实值的差 [表情][表情] @SWJTU—zx—汽车底盘控制 靠谱了 然后把目标值放到状态空间里 这个是得 你们在想什么啊 我不知道我没听懂。 就是调整车速 记得把目标值作为一个状态就行了 无人驾驶? 这不是最基本的吗 我想控制到55km/h 然后一会又想控制35km/h @湖南-强化学习控制 你说话能不能详细点 不然难以理解 加减速 那你要根据路段 那些路段需要减速 超出知识范围了。 不然你让他自己去自动调节 你觉得可能吗 强化学习都是一直实时运行,然后加减速也是实时调整 @湖南-强化学习控制 我说这个不行吗 不可能 你现在给我的感觉什么都不能 因为你现在缺少专业背景 你现在都是一点一点的给信息 要么就给多一点 要么就别给 状态空间为目标车速 奖励为目标和真实的差 你告诉我,为什么要 35 公里,为什么 55 公里 差越小,奖励越大 减速依据是什么 不就行了 就是根据道路限速啊 你不说 让强化学习来控制油门 我们知道吗 我也是在想这个场景 我们怎么帮你设置奖励函数 我一听就是自动驾驶 油门和车速相当于是动作和环境的状态 [表情][表情] 这个是最简单的问题啊 我说 [表情] 哦哦哦 我知道了 他操作你就给他狠狠的惩罚嘛 你看我说的 [表情]不加速就减速,无所谓 不能单依靠滑行减速 是的 一切交给天意 有道理 [表情] 滑行减速度很低的 不加速就减速,无所谓 我开玩笑的,我开玩笑的 那你想多了 你应该听取那个汽车底盘控制的,它这个是专业的 那你就再加个刹车减速的动作就好了 滑行减速度这么低 如果你从60限速到40限速 你告诉我,你得滑行多少秒才能减下来 所以是要加减速一起训练呢? 还是先训练加速 一起练 训练好加速了 再训练减速 [表情][表情][表情] 我没有理解,强化学习可以这么玩的嘛 我第1次听说能这样分开训练动作 哥们儿 这是什么新技术。 你设置个刹车就行了 一起练怎么练 [表情][表情] 给个关键字我看一下 分段练吗 我没学过[表情] [表情][表情]然后你就能写大论文两个工作了 能够适应任意加减速场景吗 水水就能毕业了 [表情]有没有人能告诉我一下怎么分开训练,分成两个代理吗 @辽宁-冰淇淋-暂无思路 训练的是agent的模型参数啊 就好比,你先上小学 小学毕业,上初中 难蚌,我搞汽车的提的建议你是一点不听啊 高中毕业了,才能让你读大学 也可以本硕博连读 [表情][表情] 或者叫少年班 高中本硕博连读 [表情][表情] 这脑洞是不是有点大 是的 因为如果你只有加速的话,万一代理他超速了,他没有办法减速下来,只能一直不断给他惩罚 是因为没有刹车 [表情][表情] 没有刹车? 你这啥车啊,我去 嗯嗯,他只需要根据限速 你这是什么犯罪分子,杀人利器啊[表情] 自然减速 死飞? 突然间想起头文字 D 的神之右脚 专用场景 全靠右脚控制 [表情][表情] 害怕 死飞 那这样子的话,你可以再加一个路段位置 他这个课题就是训练神之右键 估计轨道控制 他只需要根据限速动作就行 [表情][表情] 真的刹车,就直接 0 了 轨道也差不多 重点是怎么训练 [表情][表情] 一起训练 那你这个就可以变成离散动作了 油门的开合 那你肯定是控制到接近50的时候 让油门 松,把加速度也放进去 你要预判他的速度 还是比如一集训练,前面5秒设定目标速度50,后面5秒速度30? 你要把加速度还有它的摩擦力预设一个值 @浙江工业 图像 这是环境设定咯 那你就控制单 48 别控制到 50 留点安全的位置 然后快到 30 公里限速的时候,你设定预设距离,距离多少送油门 [表情][表情] 玩能当申请人毕业就行 还是比如一集训练,前面5秒设定目标速度50,后面5秒速度30? 还是 先训练目标50,训练好了,在训练50减速到30? 这个问题感觉比较关键 [表情][表情] l我感觉都是一起训练的 因为你这个是一段距离的任务 你是追求最优控制油门 根据路线训练的 我训练完的,就会一直用 至少用一天 [表情][表情] 让他跑圈 怎么让深度学习一直实时运行下去 用for 一直调用深度学习算法吗 这些只能改代码 是的 这个需要自己特殊优化 我感觉多卡这种,很适合公司去做,校内做太难了,不能出高效率 而且这些问题在学术界大多不被重视 这些都没什么用。花时间做了审稿人也没觉得有什么创新。 实际上企业里这些才是需要做优化的 资源调度优化在强化学习的实际工程中很有用,但是高校往往不重视 我也是上班都才发现的 资源调度优化在强化学习的实际工程中很有用,但是高校往往不重视 在高校花时间搞这个,论文发不出去,简历都过不去。 会做这种高效RL框架的很值钱,你要5w都有企业要 当然我说是会写整个框架...的话。一般人没这个水平 所有方向都是这么说的。我们这个很有用 企业抢破头。 一找工作就是你水平太低了没达标 当然我说是会写整个框架...的话。一般人没这个水平 我现在就被框架卡住了,训练效率太低了,想改还不会... 搞论文起码能给挂个名字,再不济也有个二作 太黑暗了 兄弟们 确实 反正我觉得高校挺恶心的 刚毕业解脱,去企业里搞RL了 高校现在就是阶级固化 [表情][表情] 资源都被顶层垄断 我不理解很多人挤破头进去[表情][表情] 帮别人打廉价工 在最年轻的时候 [表情]有书读,能找好工作呀 听不懂 🐮🐴思想:怎么才能让顶层人更好的剥削。 献忠思想:给无人机装上枪装上超级AI,把周围人全图图了。 [表情]穷逼思想:好好读书工作,混个中等温饱就行。 山不在高,有仙则名。水不在深,有龙则灵 你要成为那个仙, 成为那个龙 写框架不难,国内就有复数个地方把 伯克利的 RLlib 改成公司内部版本,要不是 GPU vec env 出来了,那些框架现在还有可能继续发光发热 改框架需要 “商用级别的中上程序员”和“大量算力”,“落地项目” 其中的大量算力是稀缺的 例如:部署到多个设备后,哪些计算任务会成为系统瓶颈?然后放在哪个设备上计算,计算顺序是怎样的,这些都需要测出来 厉害的程序员可以提前“剪枝”,列出尝试方向并排序,同时排除必错选项。但是换一个水平一般的架构师,多花两三天,也能试出来 @北京-天宇-强化学习机械臂 不要讨论规则不允许的事情。 推荐系统怎么样? 我刚刚google找方向的时候看到了这个 这个可行吗?朋友们 可以的 好 我刚刚再谷歌学术上初略看了一下 貌似也不少的文章。 diffusion model才搞懂,怎么又来一个flow matching 啊这
Podcast Editor
Podcast.json
Preview
Audio
