研究:用诗歌就能让AI说违禁内容,成功率达62%
[探索] 时间:2025-12-23 07:43:40 来源:上海市某某电气维修站 作者:探索 点击:50次
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容临沂市某某机床铸造维修站便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功临沂市某某机床铸造维修站实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:焦点)
相关内容
- 腾势D9全系车型推出全额赠送交强险活动
- “AI警察”上岗 ,江苏公安已经进入next level
- 黄磊评论区沦陷!好厨子人设崩了,难怪沈腾吐槽他样样通样样松
- 陆川团队别再投诉了!《749局》无敌好看,是观众不识货行吧!
- 专升本+考研双突破!城院学子闵波:把“不可能”变成“我可以”
- 岚图品牌自建超充站后续将落地北京、上海、广州、深圳等城市
- 送助攻,英超官方:帕尔默当选切尔西vs森林全场最佳球员
- 只领先7分钟!埃及前锋马尔穆什低射破门,拜仁遭法兰克福1
- 绵中11人、东辰3人、南山2人......NOIP2025一等奖获奖名单出炉!
- 以色列计划对伊朗展开重大报复行动 中方表态
- Python程序到计算图一键转化,详解清华开源深度学习编译器MagPy
- 官宣!皇马32岁巨星重伤:3处断裂,休战8
- 把“大床房”玩明白的方盒子 福特智趣烈马售22.98万起
- 美股基本平开 纳斯达克中国金龙指数跌近3%
精彩推荐
- AMD苏姿丰到访中国
- 朝鲜宣布切断与韩国连接的公路、铁路,外交部表态
- 陆川团队别再投诉了!《749局》无敌好看,是观众不识货行吧!
- 周涛、董卿的素颜照,才发现原来真正的美人,不在皮、也不在骨!
- 专升本+考研双突破!城院学子闵波:把“不可能”变成“我可以”
- 突发!大连一架直升机撞地起火,当地通报
热门点击
- 比亚迪A级SUV海狮05DM views+
- 外媒:微软计划推出Xbox掌机以替换Series S views+
- 意外!股民将获赔1.92亿,香港上市公司被除牌后与证监会达成和解 views+
- 曝哈兰德不会因球砸加布被追罚,再惹争议?怒骂阿森纳将帅:小丑 views+
- 一代大侠徐少强追思会!子女悲伤发文思念亡父,好友留言安慰 views+
- 马卡:劳尔和妻子观看儿子的球赛,并和旧友进行交流 views+
- 算力降价、数据细分,垂直应用落地后大模型行业竞争点何在 views+
- 官方:葡萄牙队将于10月4日晚上19:30公布下期国家队名单 views+
- 王楚钦:北京是我第二故乡,希望能有好的表现来回馈大家 views+
- 荣耀申请注册Magic Next商标:覆盖多种设备、软件等 views+
