OpenAI 于 10 月正式推出内置在 ChatGPT 中的 Atlas AI 浏览器后,安全研究人员随即演示,只需在 Google Docs 等页面中写入寥寥数语,即可悄然改变浏览器底层行为,这凸显了“代理模式”在访问用户邮箱、网站等开放环境时,安全攻击面被显著放大。 在内部测试中,攻击机器人可以先在模拟环境中发动攻击,系统会展示目标 AI 在看到这类攻击时的“思考过程”以及可能采取的动作,攻击机器人再据此调整策略并反复尝试。 OpenAI 表示,其强化学习攻击者能够引导代理执行复杂的、由数十步甚至数百步组成的有害操作流程,并在这一过程中摸索出此前在人类红队演练或外部报告中从未出现过的新型攻击路径。
Published at: 2025-12-22 23:35:13
Still want to read the full version? Full article