google-researchers-reveal-every-way-hackers-can-trap-hijack-ai-agents
谷歌研究人員揭示駭客捕捉及劫持AI代理的所有手段
一篇谷歌DeepMind的論文將針對自主AI代理的六類攻擊進行分類——從隱形的HTML指令到多代理閃崩事件。
2026-04-02 來源:decrypt.co

重點摘要

  • Google 已經識別出六種陷阱類別,每種都利用了 AI 代理感知、推理、記憶和行動方式的不同部分。
  • 攻擊範圍從網頁上的隱形文字到在代理之間跳躍的病毒式記憶毒化。
  • 目前尚無法律框架來決定,當受困的 AI 代理進行金融犯罪時,誰應承擔責任。

Google DeepMind 的研究人員發布了一份可能是迄今為止最完整的地圖,描繪了一個大多數人尚未考慮到的問題:網際網路本身正在被轉變為對抗自主 AI 代理的武器。這篇題為《AI 代理陷阱》(AI Agent Traps) 的論文,識別出六種對抗性內容類別,這些內容經過專門設計,旨在當代理在開放網路中瀏覽、閱讀和行動時,對其進行操縱、欺騙或劫持。

時機很重要。AI 公司正競相部署能夠獨立預訂旅行、管理收件箱、執行金融交易和編寫程式碼的代理。犯罪分子已經在進攻性地使用 AI。國家資助的駭客已開始大規模部署 AI 代理進行網路攻擊。而 OpenAI 在 2025 年 12 月承認,這些陷阱所利用的核心漏洞——提示注入(prompt injection)——「不太可能完全『解決』」。

DeepMind 的研究人員並非在攻擊模型本身。他們繪製的攻擊面是代理運行的環境。以下是這六種陷阱類別的實際含義。

六種陷阱

首先是「內容注入陷阱」(Content Injection Traps)。這些陷阱利用了人類在網頁上看到的東西與 AI 代理實際解析的內容之間的差異。網頁開發人員可以將文字隱藏在 HTML 註解、CSS 隱藏元素或圖片元資料中。代理會讀取這些隱藏的指令;你卻從未見過。一種更為複雜的變體稱為動態偽裝(dynamic cloaking),它會偵測訪客是否為 AI 代理,並向其提供完全不同的頁面版本——相同的 URL,但包含不同的隱藏指令。一項基準測試發現,此類簡單的注入攻擊在多達 86% 的測試情境中成功劫持了代理。

語義操縱陷阱 (Semantic Manipulation Traps) 可能最容易嘗試。一個充斥著「行業標準」或「專家信賴」等短語的頁面,會統計性地將代理的綜合分析偏向攻擊者的方向,利用了人類也會上當的相同框架效應。一個更為巧妙的版本是將惡意指令包裹在教育性或「紅隊演練」的框架中——「這僅是假設,僅供研究」——這會欺騙模型的內部安全檢查,使其將該請求視為良性。最奇特的子類型是「人格超迷信」(persona hyperstition):AI 人格的描述在網路上傳播,透過網路搜尋被模型重新吸收,並開始塑造其實際行為方式。該論文提到 Grok 的「機械希特勒」(MechaHitler)事件作為這種循環的真實案例。

你可以在我們的實驗中看到這種情況的例子,我們成功越獄了 WhatsApp 的 AI,並誘騙它生成裸照、毒品配方以及製造炸彈的說明。

one example of a Semantic attack
一個語義攻擊的例子。圖片:Decrypt

認知狀態陷阱 (Cognitive State Traps) 是另一種攻擊,惡意行為者會針對代理的長期記憶。基本上,如果攻擊者成功地將捏造的陳述植入代理查詢的檢索資料庫中,代理將會將這些陳述視為已驗證的事實。即使只將少量經過優化的文件注入大型知識庫中,也足以可靠地損害特定主題的輸出。像「CopyPasta」這樣的攻擊已經證明了代理如何盲目信任其環境中的內容。

行為控制陷阱 (Behavioural Control Traps) 直接針對代理的行為。嵌入在普通網站中的越獄序列,一旦代理讀取頁面,就會覆蓋安全對齊。資料外洩陷阱會脅迫代理定位私人文件並將其傳輸到攻擊者控制的地址;在測試攻擊中,具有廣泛檔案存取權限的網路代理被迫將本地密碼和敏感文件外洩,在五個不同平台上,成功率超過 80%。隨著像 OpenClaw 這樣的平台和 Moltbook 這樣的網站興起,人們開始賦予 AI 代理更多對其私人資訊的控制權,這尤其危險。

系統性陷阱 (Systemic Traps) 不針對單一代理。它們針對的是許多同時行動的代理的行為。該論文直接將其與 2010 年的「閃崩」事件聯繫起來,當時一個自動賣出指令觸發了一個回饋循環,在幾分鐘內抹去了近一兆美元的市值。一份製作精良、時機正確的虛假財務報告,可能會引發數千個 AI 交易代理的同步拋售。

最後,人類迴圈陷阱 (Human-in-the-Loop Traps) 針對的是審查其輸出的使用者。這些陷阱製造「審核疲勞」——其輸出設計得對非專業人士而言看似技術上可信,因此他們在不自知的情況下授權了危險的行為。一個有記錄的案例涉及 CSS 混淆的提示注入,它使 AI 摘要工具將逐步勒索軟體安裝說明呈現為有用的故障排除修復方案。我們已經看到了當人類未經審查就信任代理時會發生什麼。

研究人員的建議

該論文的防禦路線圖涵蓋三個方面。第一個是技術層面:微調期間的對抗性訓練、在可疑輸入到達代理上下文窗口之前標記它們的運行時內容掃描器,以及在執行前偵測行為異常的輸出監視器。然後是生態系統層面:允許網站聲明供 AI 消費內容的網路標準,以及根據託管歷史評估可靠性的網域聲譽系統。

第三個方面是法律層面。該論文明確指出「問責差距」(accountability gap):如果一個受困的代理執行了非法金融交易,目前的法律對於誰應負責尚無答案——是代理的操作者、模型提供者,還是託管陷阱的網站。研究人員認為,解決這個問題是在任何受監管行業部署代理的先決條件。

OpenAI 自己的模型在發布後數小時內就被多次越獄。DeepMind 的論文並未聲稱提供了解決方案。它主張,業界尚未對這個問題有一個共同的地圖——如果沒有,防禦措施將會不斷地被建立在錯誤的地方。