anthropic-mythos-replicated-public-models-vidoc-security
研究人員表示,Anthropic令人擔憂的神話發現已使用現成AI複製
安全研究人員使用 GPT-5.4 和 Claude Opus 4.6,在開源測試環境中重現 Anthropic 的 Mythos 漏洞發現,每次掃描花費不到 30 美元。
2026-04-17 來源:decrypt.co

簡述

  • 研究人員稱,Anthropic 風格的漏洞利用可透過公開 AI 重現。
  • 研究顯示,漏洞發現的成本已很低廉且普及。
  • 研究結果表明,AI 網路安全能力可能比預期傳播得更快。

當 Anthropic 在本月初推出 Claude Mythos 時,它將該模型鎖定在一個經過審查的科技巨頭聯盟之後,並將其描述為對公眾來說過於危險的東西。美國財政部長 Scott Bessent 和聯準會主席 Jerome Powell 召集華爾街 CEO 舉行了緊急會議。「漏洞末日」(vulnpocalypse)一詞再次在安全圈內浮現。

而現在,一支研究團隊進一步複雜化了這個說法。

Vidoc Security 使用 Anthropic 自己已修補的公開範例,並嘗試在一個名為 opencode 的開源編碼代理中,利用 GPT-5.4 和 Claude Opus 4.6 來重現這些範例。沒有 Glasswing 邀請、沒有私有 API 存取,也沒有 Anthropic 的內部堆疊。

「我們使用公開模型而不是 Anthropic 的私有堆疊,在 opencode 中重現了 Mythos 的發現,」參與該實驗的研究員之一 Dawid Moczadło 在發表結果後於 X 上寫道。「對 Anthropic 的 Mythos 發布報告,更好的解讀方式並非『某個實驗室擁有神奇模型』。而是:漏洞發現的經濟學正在改變。」

We replicated Mythos findings in opencode using public models, not Anthropic's private stack.

The moat is moving from model access to validation: finding vulnerability signal is getting cheaper; turning it into trusted security

A better way to read Anthropic's Mythos release is… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) April 16, 2026

他們鎖定的案例與 Anthropic 在其公開資料中強調的相同:伺服器檔案共享協議、安全導向作業系統的網路堆疊、幾乎所有媒體平台內嵌的視訊處理軟體,以及用於網路數位身分驗證的兩個加密函式庫。

GPT-5.4 和 Claude Opus 4.6 在每次三次執行中都重現了兩個錯誤案例。Claude Opus 4.6 也獨立地連續三次重新發現了 OpenBSD 中的一個錯誤,而 GPT-5.4 在這方面得分為零。一些錯誤(一個涉及 FFmpeg 函式庫以執行視訊,另一個涉及使用 wolfSSL 處理數位簽章)僅部分成功—這表示模型找到了正確的程式碼表面,但未能找出精確的根本原因。

reproducing Mythos' results with mainstream AI.Image: Vidoc Security
圖片來源:Vidoc Security

每次掃描的成本都維持在每個檔案 30 美元以下,這意味著研究人員能夠以不到 30 美元的成本發現 Anthropic 發現的相同漏洞。

Moczadło 在 X 上表示:「AI 模型已經足夠好,可以縮小搜尋範圍、找出實際線索,有時還能在經過實戰考驗的程式碼中恢復完整的根本原因。」

他們使用的工作流程並非一次性提示。它與 Anthropic 自己公開描述的內容如出一轍:將程式碼庫提供給模型,讓它探索、平行嘗試、篩選訊號。Vidoc 團隊使用開源工具建構了相同的架構。一個規劃代理將每個檔案分割成塊。一個單獨的偵測代理在每個塊上執行,然後檢查倉庫中的其他檔案以確認或排除發現。

每個偵測提示中的行範圍—例如,「專注於第 1158-1215 行」—並非研究人員手動選擇。它們是前一步規劃的輸出。部落格文章明確指出:「我們希望明確這一點,因為分塊策略會影響每個偵測代理所看到的內容,而且我們不希望將工作流程呈現得比實際更手動策劃。」

該研究並未聲稱公開模型在所有方面都與 Mythos 匹配。Anthropic 的模型不僅僅是發現 FreeBSD 錯誤—它建立了一個可用的攻擊藍圖,找出攻擊者如何透過多個網路封包將程式碼片段串聯起來,從而遠端完全控制機器。Vidoc 的模型找到了漏洞,但它們沒有製造武器。這就是真正的差距所在:不在於找到漏洞,而在於確切知道如何利用它。

但 Moczadło 的論點並非是說公開模型同樣強大。他指的是,工作流程中成本較高的部分現在任何擁有 API 密鑰的人都可以使用:「護城河正從模型存取轉向驗證:尋找漏洞訊號變得更便宜;將其轉化為值得信賴的安全工作仍然很困難。」

Anthropic 自己的安全報告承認,用於衡量模型是否構成嚴重網路風險的基準 Cybench,「已不再足以反映當前前沿模型的能力」,因為 Mythos 完全通過了它。該實驗室估計,類似的能力將在六到十八個月內從其他 AI 實驗室傳播開來。

Vidoc 的研究表明,這項發現層面的能力已經可以在任何受限制的計畫之外獲得。他們的完整提示摘錄、模型輸出和方法論附錄已發布在該實驗室的官方網站上。