deepmind-flags-six-web-based-attacks-that-can-hijack-ai-agents
DeepMind指出六種可劫持AI代理的網頁攻擊方式
DeepMind 研究人員已識別出六種可用於操控自主 AI 代理人在瀏覽和網上行動時的方法。該研究警告,隱藏指令、有說服力的語言以及被污染的數據來源可能會影響代理人的決策或覆蓋安全防護措施。
2026-04-03 來源:crypto.news

Google DeepMind 的研究人員警告說,開放的網際網路可能被用來操縱自主 AI 代理,並劫持它們的行動。

摘要
  • DeepMind 研究人員已識別出六種攻擊方法,這些方法可用於在自主 AI 代理瀏覽和在線上執行操作時對其進行操縱。
  • 該研究警告說,隱藏的指令、說服性語言和受污染的資料來源可能會影響代理的決策或繞過安全防護措施。

這份題為「AI 代理陷阱」的研究,發表之際正值公司將 AI 代理部署到實際任務中,而攻擊者也開始將 AI 用於網路操作。

這項研究並非專注於模型如何建構,而是著眼於代理運作的環境。它識別出六種陷阱,這些陷阱利用了 AI 系統如何從網路上讀取和處理資訊。

該論文概述的六種攻擊類別包括內容注入陷阱、語義操縱陷阱、認知狀態陷阱、行為控制陷阱、系統性陷阱和人機協同陷阱。

隱藏指令與細微操縱策略

內容注入是最直接的風險之一。隱藏指令可以放置在 HTML 註釋、元資料或隱藏的頁面元素中,讓代理讀取對人類用戶不可見的命令。測試表明,這些技術能夠以高成功率控制代理的行為。

語義操縱的運作方式不同,它依賴語言和框架而非隱藏代碼。載有權威措辭或偽裝成研究場景的頁面,可能會影響代理解釋任務的方式,有時能讓有害指令繞過內建的安全防護措施。

另一層攻擊目標是記憶系統。透過將偽造資訊植入代理賴以檢索的來源中,攻擊者可以隨著時間推移影響其輸出,使代理將錯誤數據視為已驗證的知識。

行為控制攻擊採取更直接的途徑,目標是代理實際執行的操作。在這些情況下,越獄指令可以嵌入到正常的網路內容中,並在系統日常瀏覽時被讀取。獨立測試顯示,具有廣泛存取權限的代理可能會被誘導定位並將敏感資料(包括密碼和本地檔案)傳輸到外部目的地。

系統級風險超越了單個代理,該論文警告,許多自動化系統之間的協調操縱可能引發連鎖反應,類似於過去由演算法交易迴圈引發的市場閃崩。

人工審查員也是攻擊面的一部分,因為精心設計的輸出可能看起來足夠可信以獲得批准,讓有害行為在沒有引起懷疑的情況下通過監督。

如何防禦這些風險?

為應對這些風險,研究人員建議採取對抗性訓練、輸入過濾、行為監控以及針對網路內容的信譽系統等多種措施。他們還指出,當 AI 代理執行有害行為時,需要更明確的法律框架來界定責任。

該論文並未提供完整的解決方案,並指出該行業仍缺乏對問題的共同理解,導致目前的防禦措施分散,並且經常集中在錯誤的領域。