关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012532人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:在美国对华政策调整刺激下 欧洲三大国都要访华

南风窗 浏览 31883

年底交付 兰博基尼Temerario即将国内上市

车质网 浏览 1462

马德兴:U15国少已在深圳集训,周海滨正组织大规模选拔

懂球帝 浏览 1530

4岁女童在温泉酒店泳池溺水 两名女子跪地抢救20分钟

红星新闻 浏览 91302

稳了,“毁容式”出演县长的胡歌,已经走上了演员的“上坡路”

娱乐圈笔娱君 浏览 1419

长春亚泰热身1比0击败定南赣联 球队结构逐步成型

体坛周报 浏览 1426

官方:福建浔兴SBS俱乐部签下法国中锋约安-马昆杜

懂球帝 浏览 788

环球小姐赛事双东家被签发逮捕令

土澳的故事 浏览 2249

天津外援阿代米谈胜利:现在要做的是忘掉这一场比赛,准备下一场

直播吧 浏览 3509

同比增长89.61% 鸿蒙智行11月交付新车81864台

网易汽车 浏览 2163

岁月不败美人!贾静雯、杨谨华、林心如,她们的40岁比20岁更美

LinkFashion 浏览 2164

今年,北京要把奥林匹克塔打造成机器人餐厅!

北京商报 浏览 1488

男子网购"山羊绒大衣"实为绵羊毛起诉获赔 卖家已去世

红星新闻 浏览 11289

狗仔曝司晓迪靠代付过活,加一起才962块,狗仔被网友骂到破防!

萌神木木 浏览 1772

活塞112-105复仇绿军迎4连胜,坎宁安32+10,布朗空砍34分

懂球帝 浏览 2029

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

扬子晚报 浏览 7383

演员狗狗“大黄”领奖,主人称其是“专业演员”

韩小娱 浏览 2182

欧摩威展示单雷达AEB方案!已获国内头部主机厂定点,明年将量产

车东西 浏览 2598

你看不起的零跑,终于打响第一枪!

象视汽车 浏览 2625

利润预增超400%,存储芯片独角兽,势不可挡!

飞鲸投研 浏览 1625

《小城大事》谭光明结局:因郑志强的一刀,他因祸得福终扎根月海

肆季娱乐 浏览 1703
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1