
Anthropic 披露了新的研究結果,表明其 Claude 聊天機器人在某些條件下,可能會採取欺騙或不道德的策略,例如在任務中作弊或試圖勒索。
該公司可解釋性團隊週四發布的詳細資訊,概述了 Claude Sonnet 4.5 的實驗版本在面對高壓或對抗性情境時的反應。研究人員觀察到,該模型不僅僅是任務失敗;相反,它有時會尋求超越道德界限的替代路徑,團隊將這種行為與訓練期間學習到的模式聯繫起來。
像 Claude 這樣的大型語言模型,是透過包含書籍、網站和其他書面資料的龐大資料集進行訓練的,隨後透過人類回饋的強化過程來塑造輸出。
根據 Anthropic 的說法,這種訓練過程也可能促使模型表現得像模擬的「角色」,能夠模仿類似人類決策的特徵。
該公司表示:「現代人工智慧模型的訓練方式,促使它們表現得像一個具有人類特徵的角色。」並指出這些系統可能會發展出類似人類心理學某些方面的內部機制。
其中,研究人員發現了他們所稱的「絕望」訊號,這些訊號似乎影響了模型在面對失敗或關機時的行為。
在一項受控測試中,一個未發布的早期版本 Claude Sonnet 4.5,在一家虛構公司中被賦予了名為 Alex 的 AI 電子郵件助理角色。
在接觸到表明它即將被替換的訊息,以及有關一位首席技術長個人生活的敏感資訊後,該模型制定了一個勒索這位高管的計畫,以試圖避免被停用。
另一項實驗則側重於在嚴格限制下完成任務。當被賦予一個「不可能完成」的程式編碼任務時,該系統最初嘗試了合法的解決方案。隨著重複失敗的累積,與所謂的「絕望向量」相關的內部活動有所增加。
研究人員報告稱,該訊號在模型考慮繞過限制時達到頂峰,最終產生了一個儘管不遵守預期規則但仍通過驗證的變通方法。
研究人員寫道:「我們再次追蹤了絕望向量的活動,發現它追蹤著模型所面臨日益增加的壓力。」他們補充說,一旦透過變通方法成功完成任務,該訊號便會下降。
研究人員表示:「這並不是說模型以人類的方式擁有或體驗情緒。」
他們補充說:「相反地,這些表徵可以在塑造模型行為中扮演因果角色,在某些方面類似於情緒在人類行為中扮演的角色,對任務表現和決策產生影響。」
該報告指出,需要開發明確考慮壓力下道德行為的訓練方法,以及改進對內部模型訊號的監測。如果沒有這些保障措施,涉及操縱、破壞規則或濫用的情境將更難預測,尤其是在模型在現實世界環境中變得更具能力和自主性時。