关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2679人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一网友称车辆在京东养车做保养后发动机报废

大象新闻 浏览 2215

纯电移动"游戏机" 索尼本田合资AFEELA 1亮相CES

网易汽车 浏览 1734

打破惯例!iPad 12被曝或搭载iPhone 17同款A19芯片

环球网资讯 浏览 2135

挥别日上 免税市场洗牌

北京商报 浏览 1786

中方回应美100%关税威胁:动辄以高额关税进行威胁,不是与中方相处的正确之道

环球网资讯 浏览 2849

佩斯科夫:"海燕"巡航导弹试验不应影响俄美互动

国际在线 浏览 2645

马杜罗社交平台发布照片 配文称"被绑架已11天"

红星新闻 浏览 7314

让“死嘴”会说多说,不太好听又如何

时尚COSMO 浏览 2505

中国留学生目击拦截导弹空中爆炸:不时传来哭声

极目新闻 浏览 895

BeingBeyond团队让30种机器人共享一个"大脑"

科技行者 浏览 1496

张彬彬人笨又勤快,帮毛晓彤提裙子差点让她走光

石场阿鑫 浏览 1927

小米REDMI Turbo 5 Max手机“续航耐力赛”直播战报出炉

IT之家 浏览 1672

选来选去还是这些穿搭最适合秋天,不老气、不死板,舒适大方

静儿时尚达人 浏览 2501

丈夫因妻子"买肉价格低"疑其出轨 捅刺结婚30多年妻子

红星新闻 浏览 2967

徐彬:邵指导是第一个想让我出去踢球的;拿手菜有把子肉

懂球帝 浏览 1430

斯塔默:允许美使用英方有关军事基地打击伊朗导弹设施

环球网资讯 浏览 41005

女子患小脑萎缩症加重 前男友复合帮她完成100个心愿

极目新闻 浏览 14529

今年春天一定要拥有的针织,这样穿减龄又好看!

LinkFashion 浏览 989

300万中产宝妈,买出一个IPO

豹变 浏览 3290

在特斯拉model Y和小米 YU7里二选一,怎么选?

蜗牛车志V 浏览 1621

邓卓翔:球员状态并不让人满意,技战术也没有可圈可点的地方

懂球帝 浏览 2521
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1