爆点资讯

这篇由微软亚洲研究院的王思维、沈依飞、孙皓然等研究人员领衔完成的重要研究发表于2025年9月，论文编号为arXiv:2509.22613v1。研究团队还包括来自北京大学、哈佛大学和南加州大学的学者，这项跨机构合作的成果为我们揭开了一个重要谜题：为什么OpenAI的o1等先进AI模型在解决复杂问题时表现如此出色。

当我们看到ChatGPT或Claude能够解决复杂的数学题、编写完整的代码，或者制定详细的旅行计划时，我们可能会好奇：这些AI是如何学会"思考"和"规划"的？就像一个孩子从简单地记住答案，成长为能够分析问题、制定策略的成熟思考者一样，AI模型也经历了类似的学习过程。

在AI的世界里，存在两种截然不同的学习方式。第一种叫做"监督微调"，就像传统的填鸭式教育，老师告诉学生标准答案，学生机械地记住每个问题对应的答案。这种方法看似简单有效，但问题在于，当遇到新情况时，学生往往束手无策，因为他们只是在背诵，而没有真正理解解题的逻辑。

第二种方法叫做"强化学习"，这更像是让孩子在实践中摸索。孩子可以尝试不同的方法，如果成功了就得到奖励，失败了就调整策略。通过这种方式，孩子

微软亚研院突破：强化学习赋予语言模型规划能力

美以对伊朗动...

天啊！看到林...

特朗普＂闯祸...

一周AI大事...

科瓦奇：本塞...

特朗普或为中...

乌克兰将在德国和丹麦设立武器出口办事处

曾遭遇心脏骤停，洛克耶跟随老东家布里斯托尔流浪者训练

“这件衣服”今年春天太流行了！谁穿谁好看

路易斯破82天球荒！复出后首球，申花锁定胜局，马纳法精妙助攻

辽宁无缘决赛采访！杨鸣回应赵继伟伤势，再谈辽粤对决展伤感话题

男子夜钓遭枪击家属：行凶者把猎枪扔河里警方找7天

北青：中国女足亚洲杯首战主裁来自泰国，已分析摸底孟加拉

无方向盘设计曝特斯拉Cybercab路试谍照

2025款奔驰GLB 220典藏版上市售价34.99万

特朗普为美军袭击委内瑞拉附近海域“贩毒船”辩护

内容“新物种”，全球“闪电战”｜2025中国短剧出海报告

百亿之后，珀莱雅失速

江一燕官宣离婚后首发声

有多想不开才去巴西投资？

能否复刻N7的成功？日产N6申报图现身

TA：告别全白球衣，阿森纳将在足总杯第3轮穿回传统红白球衣

夫妇盯上2‰自然损耗规则上千吨粮食遭盗卖价值500万

餐馆称免费加面游客二次续面却被要求付3元官方通报

《一路繁花2》要封神？5位综艺强者登场，预告连刷4遍不过瘾

收评：沪指涨超1%逼近4000点两市放量超3600亿

工银安盛一年赚了25亿，三款“鑫如意”产品退保却达28亿

学者：欧洲想实现核心发展目标除了中国没有其他选择

一封AI邮件，竟让Go语言之父爆起粗口

遭老板性侵女高管怒怼网友：开价2000万私了是戏谑