关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2714人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

世卫组织:6名苏丹医务人员被武装分子绑架

国际在线 浏览 2737

18平米校园苗圃起步!大学生创业团队,带着AI制造闯港股|港E声

时代周报 浏览 1570

德媒:面对美军进逼 委内瑞拉亮出俄制武器

参考消息 浏览 2641

联想moto X70 Air手机现身:5.3mm超薄机身+159g轻盈重量

IT之家 浏览 2899

丹麦国防部称格陵兰岛军事演习将持续到年底

上观新闻 浏览 1615

万斯称美国正考虑向乌克兰提供“战斧”导弹

央视新闻客户端 浏览 35449

追觅超跑亮相CES 1903马力 零百加速仅需1.8秒

网易汽车 浏览 1750

小李子携27岁意大利女友首次亮相奥斯卡颁奖礼

时光在作祟 浏览 609

佛罗伦萨,不只是法比安。《民族报》:“准备好为托尔斯泰特报价”

绿茵情报局 浏览 1655

近2万亿债务推进 出险房企提速化债

北京商报 浏览 2428

南亚空战启示录:枭龙碾压S400背后工业革命

浏览 5892

历史首次,“三桶油”收盘全部涨停!

红星资本局 浏览 933

172个观众,首日票房仅7365元,2025年11月最惨新片诞生了

靠谱电影君 浏览 2427

对话 vivo OS 产品副总裁:AI 不会产生新的需求,通往远方是马车还是蒸汽机是产品形式问题

爱范儿 浏览 2840

普京:俄方已无兴趣等待乌从其占领区撤出

每日经济新闻 浏览 1925

收购两公司 探路者加码芯片业务

北京商报 浏览 2152

北京大学联合多所知名高校突破机器人视角转换技术

科技行者 浏览 2523

‍曼联向韦伯投诉裁判误判!曝阿莫林将用442,赛季成败在此一举

罗米的曼联博客 浏览 2117

一小米SU7在行驶中突然失控:前轮车轴完全断裂

PChome电脑之家 浏览 2795

视界大会后台社交名利场!欧豪起身主动接杨幂,剧组之间互相抱团

萌神木木 浏览 2494

大迫敬介:巴西的球员个人能力出色,高位逼抢可能会效果不佳

懂球帝 浏览 2850
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1