关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者1688人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2天票房3亿,看完《疯狂动物城2》,我想说:好莱坞大片赌对了

娱乐圈笔娱君 浏览 2288

牛弹琴:特朗普没想到 抓马杜罗后西方情绪总体很稳定

现代快报 浏览 6769

再次掀翻AI圈!Sora2面前,MiniMax的另类打法

南方都市报 浏览 2564

张维伊把婚房订成三人间,董璇直接傻了眼

烟云过眼 浏览 3200

还是这些穿搭最适合秋天,以基础款为主、针织衫配裙子,很显气质

静儿时尚达人 浏览 2648

北约将北极地区所有北欧国家纳入同一指挥体系

国际在线 浏览 1567

近7场1胜6负,河床近期战绩非常糟糕

懂球帝 浏览 2858

将于北京车展首发 奕境旗下首款量产车路试谍照曝光

网易汽车 浏览 1692

冲着陈晓去看《大生意人》,却被满脸狰狞的两位东北跨界演员惊艳

娱乐圈笔娱君 浏览 1810

燃油车的“智能”反击!2025广州车展燃油新车盘点

车市红点 浏览 2255

美航母大火持续超30小时后被扑灭 600多人无床可睡

环球网资讯 浏览 102531

赖清德宣布追加400亿美元用于对美军购 提及2个时间点

经济观察报 浏览 31256

玩物造心 | 指尖上的治愈与反骨

时尚COSMO 浏览 2326

赖清德求特朗普让中国大陆放弃对台用武 朱立伦怒批

海峡导报社 浏览 17870

苹果发完M5芯片,最开心的是M1钉子户

机器之心Pro 浏览 2761

美国防部将提供“战斧”决定权交给总统

国际在线 浏览 2503

五十岁的女人,牢记这 “三不穿”,便能轻松平衡优雅与减龄

静儿时尚达人 浏览 4266

特朗普:格陵兰岛仅靠狗拉雪橇进行防卫

环球网资讯 浏览 1697

米体:尤文和米兰都有意金玟哉,但球员的高薪成为主要障碍

懂球帝 浏览 2787

双红会3亿强援替补!维尔茨谢什科遭弃用,媒体人:斯洛特真大胆

奥拜尔 浏览 2782

京东将造“廉价版蔚来”?可充可换电,价格将很感人

明镜pro 浏览 2827
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1