研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容福建某某企业管理咨询专卖店便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功福建某某企业管理咨询专卖店实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
来源:大河报 据体坛报,近日,北京市高级专业技术资格评审委员会发布公示一则,曹缘等14人名单附后)通过了国家级教练专业技术资格评审。其中,乒乓球运动员马龙在列,获得国家级教练资格。 据此前报道2025-12-29
55岁邓文迪闪耀MetGala,中规中矩却也点题,圆润的大女儿相伴
当地时间5月6日晚,邓文迪在社交媒体上分享了一张华丽的照片,是她和大女儿格蕾丝·默多克的合影,母女俩看上去都很夺目。像往年一样,5月的第一个星期一对于邓文迪来说,是个注定要盛装面对镜头的日子。今年的大2025-12-29
嘿嘿,又来给你们安利新剧了——《小巷人家》。该剧以1970年代为背景,勾勒了小巷子里三户人家的日常生活,演员阵容也是足够强大。其中范丞丞和关晓彤在剧中饰演的是一对亲姐弟,也是俩人继《曾少年》后的二搭,2025-12-29
Elektrobit:提供汽车开源操作系统解决方案 助力汽车安全
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车5月6日报道在本届北京车展上,Elektrobit在车展现场展示了用于高性能计算的突破性开源操作系统解决方案,以及交互式汽车操作系统、ECU虚2025-12-29
证券时报记者 李明珠 在A股持续围绕科技主线演绎的2025年,部分公募机构调整定增策略,将资金密集投向硬科技与新兴产业,此举已初见成效。数据显示,相关投资目前浮盈逾百亿元,其中对电子、医药生物等2025-12-29
如果你想要学习穿搭,那么你真的很有必要来看一看这些日本女生的穿搭,她们的造型基本上没有运用大牌堆砌,大多数都是一些很简单的服装,但是却能够被她们穿出十分高级的感觉,这其中包括她们运用了特别多的穿衣技巧2025-12-29

最新评论