关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2660人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"杭州湾X5"来了 40万级性能插混极氪8X官宣

网易汽车 浏览 1780

杜兰特:谢泼德站了出来,我甚至无法形容他今晚有多么出色

懂球帝 浏览 1972

全红婵换新发型!在老家摘草莓好惬意

无处不风景love 浏览 1725

奥斯瓦尔多:我想看到迪巴拉加盟博卡,但他不大可能去

懂球帝 浏览 2037

今年一定要拥有这件“爆火单品”,让你美出新高度

LinkFashion 浏览 1602

斯洛特:尽管我们取得四连胜,但球队的表现并不完美

懂球帝 浏览 1944

继星巴克之后,汉堡王中国也被卖了!中国资管巨头3.5亿美元接手

深蓝财经 浏览 2458

邓莎每个月生活费曝光,路行一个字都没有说错

贵州小娟 浏览 2640

拿地即亮相!首钢·璟瑞长安择址长安街,解锁京西人居新篇

365财经plus 浏览 1414

雅斯特酒店回应房客发病送药不及时死亡:送药者未告知病情,隐私考虑未查看药品

封面新闻 浏览 2257

雷军辟谣:小米SU3渲染图肯定是假的 目前还没有规划

太平洋汽车 浏览 1771

多家房企称已不被要求上报三道红线 仍需提交资产负债率指标

财联社 浏览 1511

谢霆锋演唱会遇连场暴雨,苏炳添携妻探班引热议

黔乡小姊妹 浏览 3510

"最快女护士"辞职后首战重马获国内第四 本人回应

封面新闻 浏览 5685

迈向智能化 广汽丰田雷凌L新老款车型对比

车质网 浏览 1547

baby相隔17年同角度怼脸拍!全脸变化肉眼可见

萌神木木 浏览 965

重庆一大学生发帖称老师"刻薄" 老师不接受道歉将起诉

封面新闻 浏览 8584

特朗普或为中国制造三大机遇,中国如何利用?

浏览 25292

俄称今年已控制205个居民点 乌称对俄港口及战机发动袭击

极目新闻 浏览 3324

何猷君为6岁儿子何广燊庆生,儿子神似赌王

王稱吃吃喝喝 浏览 2765

开撕了!亲爹是首富,嫡长公主租房住?

Yuki女人故事 浏览 4455
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1