关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者1424人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

为拍电影与父母闹掰的翁虹 不让女儿进娱乐圈

二妹扯娱 浏览 2864

小米成都车祸引解锁争议 打不开的电动车门成监管焦点

界面新闻 浏览 7125

面见查尔斯后,哈里夫妇首度合体亮相

草莓解说体育 浏览 3447

哔哩哔哩CEO陈睿:优质创作者是社会的财富丨2025世界互联网大会

红星资本局 浏览 2516

万科的“至暗时刻”

翠鸟资本 浏览 2717

闫妮姚晨合拍大片,梦回《武林外传》

蕾爸退休日记 浏览 2576

资源品价值重估,“新周期”启幕

智谷趋势 浏览 1954

魏晨一家三口合体,妻子抱着儿子看他演唱会

柠檬有娱乐 浏览 2482

留几手维护闫学晶翻车!嘲讽短视频用户自卑又敏感,网友呼吁封号

萌神木木 浏览 1655

宏碁正式推出Swift 16 AI旗舰轻薄本,至高酷睿Ultra X9 388H

IT之家 浏览 1760

海尔集团与阿里巴巴达成全面AI合作

环球网资讯 浏览 2910

被大空头狙击的明星AI股Palantir,华尔街怎么看

第一财经资讯 浏览 2588

站在2025年底,小红书商业正跨过一个新门槛

36氪 浏览 2024

中国灵芝第一股寿仙谷,致敬保健产业30年

证券市场周刊 浏览 3537

美联储,重磅来袭!降息传出大消息

券商中国 浏览 3403

熊园:9月进出口均走高的背后

首席经济学家论坛 浏览 2832

联合国秘书长呼吁抓住机遇 结束加沙冲突

国际在线 浏览 2817

香波特:讨厌在尼克斯&骑士打3D 到了国王才感觉解放

直播吧 浏览 3474

已攻入24球,广西恒宸费尔南多打破中乙球员单赛季进球纪录

懂球帝 浏览 2757

50岁女性过冬穿搭:有大衣和羽绒服就够了,简约从容才是优雅

静儿时尚达人 浏览 1042

技能养宠人,好麻烦,好费钱!

时尚COSMO 浏览 2731
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1