研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容榆林市某某海绵制品客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功榆林市某某海绵制品客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:时尚)
-
俄罗斯地方官员9日在第十五届“北极:现状和未来”国际论坛上表示,跨北极运输走廊是一条重要的国际运输通道,俄方借助北极航道建立了常态化北方物资运输保障体系,欢迎外国合作伙伴参与跨北极运输走廊建设。
...[详细]
-
当地时间7月1日下午,巴拿马当选总统何塞·劳尔·穆利诺在巴拿马首都巴拿马城的阿特拉帕会议中心宣誓就职。 今年5月5日,巴拿马选举法院宣布,穆利诺当选巴拿马新任总统。穆利诺1959年生于巴拿马西部
...[详细]
-
中新健康丨4款临床急需特医食品纳入优先审评审批程序2024-07-02 14:19:39 来源:中国新闻网
...[详细]
-
想去高原耍一耍?先收好这份“高反”防治宝典 | 科普时间2024-07-02 16:10:04 来源:健康中国微信公众号
...[详细]
-
五十岁女人的搭配既要舒服,还得显气质,可冬天的衣服都很厚,层数也多,搭不好特容易显臃肿、显老气。尤其是 “衣服穿得花里胡哨” 和 “裤子穿得紧绷绷” 这两个坑,好多中年大妈一不小心就踩进去了。但咱们也
...[详细]
-
自7月1日起,黄河正式进入主汛期。综合考虑汛前腾库迎汛、抗旱保灌和生态补水等需求,水利部黄河水利委员会自6月23日开展黄河干流重点水库应急抗旱调度,目前已接近尾声。 预计7月5日前后,小浪底水库
...[详细]
-
江西地处我国内陆腹地,三面环山、北临长江,自然资源丰富,也是文化大省。牢牢把握江西在构建新发展格局中的定位,立足特色和优势,着眼高质量发展、绿色发展、低碳发展等新要求,江西努力在加快革命老区高质量发展
...[详细]
-
忻州中考成绩公布时间安排今年初二、初三两个年级参加中考,预计7月8日公布初三年级考生的中考成绩,7月9日公布初二年级考生的中考成绩。届时,考生可登录山西招生考试网“中考考生网上服务平台”https:/
...[详细]
-
据《米兰体育报》报道,罗马即将在卡利亚里的客场比赛将成为埃文-弗格森的最后机会,这位前锋必须说服教练和俱乐部不要终止他的租借合同。报道称,弗格森在罗马的未来尚待确定,罗马甚至可能在明年1月转会窗口决定
...[详细]
-
总台记者7月2日获悉,在美东时间1日的纽约外汇市场上,日元对美元汇率一度跌至1美元兑换161.72日元,创下自1986年12月以来的最低水平。总台记者林博翰)
...[详细]

起底高市早苗背后的“金主”:谁在捐款?
大湾区多城二手房迅速回暖,少数业主开始涨价
中新真探:酷暑天喝冰水微血管会爆裂吗?
