关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3011人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

智驾研发迎分水岭?小鹏第二代VLA直奔L4, 何小鹏:完全自动驾驶将在未来1-3年内完全到来

时代财经 浏览 881

推广中奖名单-更新至2025年9月8日推广

黎贝卡的异想世界 浏览 4474

叶总逼走李匆匆,才知肖格格攀上吴总的真相

阿腩讲娱乐 浏览 1770

特朗普强调美以两军配合默契:以装备并操作大量美制武器系统

极目新闻 浏览 576

净利润减少超50%,珍酒李渡能靠“大珍”走出低谷吗?

征探财经 浏览 907

巴勒斯坦多派别谴责以方持续违反停火协议

国际在线 浏览 1459

王大陆逃兵役案新后续,贾静雯老公受牵连

查尔菲的笔记 浏览 2272

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

网易汽车 浏览 1811

王诗龄放假回北京了,照片曝光很漂亮

瞻史 浏览 2717

脑机接口再获突破,核心龙头布局多点开花

览富财经网 浏览 2736

76岁“欢喜哥”许绍雄病危,tvb多名艺人紧急探望,众人神情严肃

不八卦会死星人 浏览 2515

北汽集团10月整车销量160133辆 同比增长11%

网易汽车 浏览 2608

CBA唯一11战全败!四川最多落后31分惨负山西 原帅17分引6人上双

醉卧浮生 浏览 1739

MIT研究发现:人工智能已经可以取代美国11.7%的劳动力

华尔街见闻官方 浏览 2191

好美啊!58岁的她开挂了

黎贝卡的异想世界 浏览 1767

管网检测、墙板安装……全国顶尖建筑机器人来渝亮“绝招”

上游新闻 浏览 2721

华南理工大学发生车祸致1死1伤 目击者:车头明显受损

封面新闻 浏览 36281

英法空袭叙利亚中部地区 宣称打击极端组织"伊斯兰国"

环球网资讯 浏览 1757

王健林限高已解除,虚惊一场?

财视传播 浏览 3308

短剧副导演拍摄结束两天后在家猝死 两女儿刚放学回家

中国青年报 浏览 32082

女子1天接五六通催收电话崩溃:欠钱的是不熟的前同事

环球网资讯 浏览 35845
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1