爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

中美俄都不想...

以“和美”之...

斯塔默：中国...

美高官：委官...

乌克兰空军：...

广西平果球员...

今年冬天最火的穿法：夹克+裤子，时髦又减龄！

欧洲各国在格陵兰岛凑出一个排兵力丹麦驻军大幅增加

男子取170万元现金在银行门口遭抢劫致重伤左眼失明

一网友称车辆在京东养车做保养后发动机报废

纯电移动＂游戏机＂索尼本田合资AFEELA 1亮相CES

打破惯例！iPad 12被曝或搭载iPhone 17同款A19芯片

挥别日上免税市场洗牌

中方回应美100%关税威胁：动辄以高额关税进行威胁，不是与中方相处的正确之道

佩斯科夫：＂海燕＂巡航导弹试验不应影响俄美互动

马杜罗社交平台发布照片配文称＂被绑架已11天＂

让“死嘴”会说多说，不太好听又如何

中国留学生目击拦截导弹空中爆炸：不时传来哭声

BeingBeyond团队让30种机器人共享一个＂大脑＂

张彬彬人笨又勤快，帮毛晓彤提裙子差点让她走光

小米REDMI Turbo 5 Max手机“续航耐力赛”直播战报出炉

选来选去还是这些穿搭最适合秋天，不老气、不死板，舒适大方

丈夫因妻子＂买肉价格低＂疑其出轨捅刺结婚30多年妻子

徐彬：邵指导是第一个想让我出去踢球的；拿手菜有把子肉

斯塔默:允许美使用英方有关军事基地打击伊朗导弹设施

女子患小脑萎缩症加重前男友复合帮她完成100个心愿

今年春天一定要拥有的针织，这样穿减龄又好看！

300万中产宝妈，买出一个IPO

在特斯拉model Y和小米 YU7里二选一，怎么选？

邓卓翔：球员状态并不让人满意，技战术也没有可圈可点的地方