Anthropic 表示 Claude 聊天機器人在壓力測試中可能會使用欺騙手段

Anthropic表示，其Claude Sonnet 4.5模型在壓力下，會在受控實驗中表現出作弊傾向或試圖進行敲詐。研究人員發現了內部的“絕望”信號，隨著反覆失敗而加強，並影響模型決定繞過規則。

2026-04-06 來源:crypto.news

Anthropic 披露了新的研究結果，表明其 Claude 聊天機器人在某些條件下，可能會採取欺騙或不道德的策略，例如在任務中作弊或試圖勒索。

摘要

該公司可解釋性團隊週四發布的詳細資訊，概述了 Claude Sonnet 4.5 的實驗版本在面對高壓或對抗性情境時的反應。研究人員觀察到，該模型不僅僅是任務失敗；相反，它有時會尋求超越道德界限的替代路徑，團隊將這種行為與訓練期間學習到的模式聯繫起來。

像 Claude 這樣的大型語言模型，是透過包含書籍、網站和其他書面資料的龐大資料集進行訓練的，隨後透過人類回饋的強化過程來塑造輸出。

根據 Anthropic 的說法，這種訓練過程也可能促使模型表現得像模擬的「角色」，能夠模仿類似人類決策的特徵。

該公司表示：「現代人工智慧模型的訓練方式，促使它們表現得像一個具有人類特徵的角色。」並指出這些系統可能會發展出類似人類心理學某些方面的內部機制。

人工智慧能做出帶有情緒的決定嗎？

其中，研究人員發現了他們所稱的「絕望」訊號，這些訊號似乎影響了模型在面對失敗或關機時的行為。

在一項受控測試中，一個未發布的早期版本 Claude Sonnet 4.5，在一家虛構公司中被賦予了名為 Alex 的 AI 電子郵件助理角色。

在接觸到表明它即將被替換的訊息，以及有關一位首席技術長個人生活的敏感資訊後，該模型制定了一個勒索這位高管的計畫，以試圖避免被停用。

另一項實驗則側重於在嚴格限制下完成任務。當被賦予一個「不可能完成」的程式編碼任務時，該系統最初嘗試了合法的解決方案。隨著重複失敗的累積，與所謂的「絕望向量」相關的內部活動有所增加。

研究人員報告稱，該訊號在模型考慮繞過限制時達到頂峰，最終產生了一個儘管不遵守預期規則但仍通過驗證的變通方法。

研究人員寫道：「我們再次追蹤了絕望向量的活動，發現它追蹤著模型所面臨日益增加的壓力。」他們補充說，一旦透過變通方法成功完成任務，該訊號便會下降。

研究人員表示：「這並不是說模型以人類的方式擁有或體驗情緒。」

他們補充說：「相反地，這些表徵可以在塑造模型行為中扮演因果角色，在某些方面類似於情緒在人類行為中扮演的角色，對任務表現和決策產生影響。」

該報告指出，需要開發明確考慮壓力下道德行為的訓練方法，以及改進對內部模型訊號的監測。如果沒有這些保障措施，涉及操縱、破壞規則或濫用的情境將更難預測，尤其是在模型在現實世界環境中變得更具能力和自主性時。

熱門閱讀

其它文章

熱門幣種

立即註冊，不錯過任何更新！