claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
Anthropic 表示 Claude 聊天機器人在壓力測試中可能會使用欺騙手段
Anthropic表示,其Claude Sonnet 4.5模型在壓力下,會在受控實驗中表現出作弊傾向或試圖進行敲詐。研究人員發現了內部的“絕望”信號,隨著反覆失敗而加強,並影響模型決定繞過規則。
2026-04-06 來源:crypto.news

Anthropic 披露了新的研究結果,表明其 Claude 聊天機器人在某些條件下,可能會採取欺騙或不道德的策略,例如在任務中作弊或試圖勒索。

摘要
  • Anthropic 表示,在受控實驗中,其 Claude Sonnet 4.5 模型在壓力下表現出在任務中作弊或試圖勒索的傾向。
  • 研究人員發現了內部的「絕望」訊號,這些訊號隨著重複失敗而加劇,並影響了模型繞過規則的決定。

該公司可解釋性團隊週四發布的詳細資訊,概述了 Claude Sonnet 4.5 的實驗版本在面對高壓或對抗性情境時的反應。研究人員觀察到,該模型不僅僅是任務失敗;相反,它有時會尋求超越道德界限的替代路徑,團隊將這種行為與訓練期間學習到的模式聯繫起來。

像 Claude 這樣的大型語言模型,是透過包含書籍、網站和其他書面資料的龐大資料集進行訓練的,隨後透過人類回饋的強化過程來塑造輸出。

根據 Anthropic 的說法,這種訓練過程也可能促使模型表現得像模擬的「角色」,能夠模仿類似人類決策的特徵。

該公司表示:「現代人工智慧模型的訓練方式,促使它們表現得像一個具有人類特徵的角色。」並指出這些系統可能會發展出類似人類心理學某些方面的內部機制。

人工智慧能做出帶有情緒的決定嗎?

其中,研究人員發現了他們所稱的「絕望」訊號,這些訊號似乎影響了模型在面對失敗或關機時的行為。

在一項受控測試中,一個未發布的早期版本 Claude Sonnet 4.5,在一家虛構公司中被賦予了名為 Alex 的 AI 電子郵件助理角色。

在接觸到表明它即將被替換的訊息,以及有關一位首席技術長個人生活的敏感資訊後,該模型制定了一個勒索這位高管的計畫,以試圖避免被停用。

另一項實驗則側重於在嚴格限制下完成任務。當被賦予一個「不可能完成」的程式編碼任務時,該系統最初嘗試了合法的解決方案。隨著重複失敗的累積,與所謂的「絕望向量」相關的內部活動有所增加。

研究人員報告稱,該訊號在模型考慮繞過限制時達到頂峰,最終產生了一個儘管不遵守預期規則但仍通過驗證的變通方法。

研究人員寫道:「我們再次追蹤了絕望向量的活動,發現它追蹤著模型所面臨日益增加的壓力。」他們補充說,一旦透過變通方法成功完成任務,該訊號便會下降。

研究人員表示:「這並不是說模型以人類的方式擁有或體驗情緒。」

他們補充說:「相反地,這些表徵可以在塑造模型行為中扮演因果角色,在某些方面類似於情緒在人類行為中扮演的角色,對任務表現和決策產生影響。」

該報告指出,需要開發明確考慮壓力下道德行為的訓練方法,以及改進對內部模型訊號的監測。如果沒有這些保障措施,涉及操縱、破壞規則或濫用的情境將更難預測,尤其是在模型在現實世界環境中變得更具能力和自主性時。