关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2814人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美业数字化再添新助力 成都美博会AI美业工具受追捧丨新经济观察

封面新闻 浏览 2736

苹果M5芯片,击败高通新旗舰

半导体行业观察 浏览 2901

维权女车主“赢”特斯拉

电动知家 浏览 3507

车崇健被嘉宾集体吐槽!Papi直言他听不懂人话,网友喊话别复合了

萌神木木 浏览 2539

阿尔巴:对我帮助最关键的是埃梅里;我心中梅西就是历史最佳

懂球帝 浏览 2669

纳米级OLED突破:科学家开发出全球最小发光像素,仅 300nm² 见方

IT之家 浏览 2676

AWS推出AI图像编辑新突破:用说话就能精准移动图片中的物体!

科技行者 浏览 1726

德国外长:台海要是打起来 将严重影响世界经济贸易

澎湃新闻 浏览 8461

媒体:郑丽文"由绿转蓝"成功逆袭 支持基础系三股力量

上游新闻 浏览 7596

香港三天两夜,满载而归(附攻略)

黎贝卡的异想世界 浏览 566

陈妍希带娃现身海口,儿子小星星近状曝光,母子俩牵手同行好温馨

扒虾侃娱 浏览 2067

羊绒专场|| 如果秋冬只买一件针织衫,我一定毫不犹豫选它(已穿上)

黎贝卡的异想世界 浏览 4366

今年最好看的4件毛衣!

LinkFashion 浏览 2094

iPhone17在中国卖爆,苹果成为全球手机出货第一

观察者网 浏览 1657

伊姐周日热推:电视剧《狙击蝴蝶》;电视剧《天书黎明》......

伊周潮流 浏览 1851

千问App宣布投入30亿元启动春节活动,2月6日上线

大象新闻 浏览 1458

从北京到平壤的火车线路被指将于周四开通 外交部回应

外交部网站 浏览 31007

鲁豫想穿成她,章小蕙也爱她,152cm的她为什么能成为风格偶像?

黎贝卡的异想世界 浏览 590

伊姐周六热推:电视剧《寻雪迷踪》;电视剧《秋雪漫过的冬天》......

伊周潮流 浏览 1621

邮报:弗林蓬因伤预计缺席6周,将在国际比赛日后回归

懂球帝 浏览 2590

曝保时捷正在重新设计718 EV跑车,“反向”适配燃油动力

IT之家 浏览 2130
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1