关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2953人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2025羽绒服8大流行趋势,温暖时髦过冬天!

LinkFashion 浏览 2162

MCON推出滑盖外接手柄,致敬PSP Go/Xperia Play滑盖掌机

IT之家 浏览 3075

涉嫌违反美国移民法规则 吴佩慈"婆婆"在美国被捕

红星新闻 浏览 13296

与孙继海翻脸!董路:我的对手们甘愿被当枪使,自降身价智商全无

念洲 浏览 2046

北京拿下“五万亿之城”,为何还成了AI之城?

BT财经 浏览 1006

推广|| 35+变化好大?不愧是2025年花得最值的一笔钱

黎贝卡的异想世界 浏览 2676

"不要国王"抗议席卷全美 特朗普发布AI视频回应

看看新闻Knews 浏览 7333

新年第一周,省委书记密集提出新要求!

国是直通车 浏览 1668

最强“卖铲人” 寒武纪靠AI芯片疯狂掘金

21世纪经济报道 浏览 3424

看完《阿凡达3》,心情很复杂

独立鱼 浏览 1537

冬天的“销冠”,已被羽绒服预定

时尚COSMO 浏览 1945

伊朗曾组建反间谍机构 结果最后发现负责人就是以间谍

扬子晚报 浏览 42640

从全球榜单看中国创新

海外网 浏览 1735

伊朗就新的最高领袖人选作出最终决定

新华社 浏览 704

被拐25年的解清帅大婚 婚礼现场有主播直播带货

半岛官网 浏览 2803

女生高考604分放弃本科就读高职 被质疑"没苦硬吃"

环球网资讯 浏览 7965

安东尼奥:难以置信的比赛,球员们真是不可思议

懂球帝 浏览 1663

王楚钦横扫帕尔采访!太久没打直呼生疏,亲承中国是最好办赛环境

篮球资讯达人 浏览 1396

惨!拍完被雪藏8年,李幼斌耗资1亿拍战争大片,没上映就被判死刑

靠谱电影君 浏览 2560

王励勤出任乒羽中心副主任

体坛周报 浏览 2214

“苏超”MVP范厚泰:感恩亚泰,感恩泰州,感恩“苏超”平台

懂球帝 浏览 2288
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1