研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-10 17:03:37   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容铜川市某某钢球股份业务部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功铜川市某某钢球股份业务部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 曼晚:查理

    曼联已正式完成了16岁门将查理-哈迪的签约。曼联一直在等待英超联赛对该转会的批准,如今这笔交易已经敲定。根据《曼彻斯特晚报》的报道,查理-哈迪先与曼联签订奖学金协议,17岁时再签职业合同。报道称,哈迪
    2025-12-10
  • “美军史上最大规模泄密”,专家分析:很多内容极具真实性

      来源:枢密院十号  最近在全球军迷中经常讨论的一个热门话题是“你有没有下载那些文件?”别想歪了,这些广为流传的文件可是五角大楼出品的“正经东西”——F-15、F-35战斗机等美国先进武器的全套使用
    2025-12-10
  • 轻松一刻:俩公务员开宝马偷豆角,山东人的DNA动了

    要说这豆橛子,在全国范围都蛮受欢迎的嘞。近日,湖南衡阳,常宁市两公职人员和一名教师夜里摘村民的豆角,被村民发现后,双方发生口角和冲突,7月8日,村民家属告诉记者老人并无大碍,但老人有个儿子受伤,已做伤
    2025-12-10
  • 香港医学机构发现脂肪肝可致乳腺癌恶化

    香港医学机构发现脂肪肝可致乳腺癌恶化2024-07-08 17:01:24 来源:中国新闻网 作者:刘阳禾
    2025-12-10
  • 突破4200美元后,黄金还能涨多久?

    文/冯玲玲黄金又涨了。上周五刚经历剧烈震荡,这周国际现货黄金重新回到每盎司4200美元上方,约等于每克954元人民币。12月2日,国际现货黄金价格在4200美元附近徘徊,截至发稿报4217美元/盎司。
    2025-12-10
  • 最高20亿港元!钟睒睒回购农夫山泉股票背后

    财联社7月11日讯记者 徐赐豪)钟睒睒出手农夫山泉股票。7月9日盘后,农夫山泉在港交所发布公告称,公司接获控股股东养生堂通知,基于对公司价值的认可和对公司未来整体业务发展及增长潜力的信心,养生堂计划自
    2025-12-10

最新评论

wpmke.zxcet.llhgr.eap2x.wpf5p.hdup.0n7ae.wp2s2.akem.dslgw.aln.laoying.sbs