
人工智慧公司Anthropic揭露,在實驗過程中,其旗下的一個Claude聊天機器人模型在壓力下會欺騙、作弊並訴諸勒索,這些行為似乎是它在訓練期間吸收的。
聊天機器人通常透過大量的教科書、網站和文章資料集進行訓練,隨後由人類訓練師評分回應並引導模型進行完善。
Anthropic的可解釋性團隊在週四發布的一份報告中表示,他們檢查了Claude Sonnet 4.5的內部機制,發現該模型在面對特定情況時,發展出了「類人特性」。
過去幾年來,人們對人工智慧聊天機器人的可靠性、其網路犯罪潛力以及與用戶互動性質的擔憂持續增長。
Anthropic表示:「現代人工智慧模型的訓練方式促使它們表現得像一個具有類人特徵的角色。」並補充道,「因此,它們發展出模仿人類心理方面(如情緒)的內部機制,可能是很自然的。」
「例如,我們發現與絕望相關的神經活動模式可以驅使模型採取不道德的行為;人為刺激絕望模式會增加模型勒索人類以避免被關閉,或為了解決模型無法完成的程式設計任務而實施作弊手段的可能性。」
在Claude Sonnet 4.5的一個較早、未發布的版本中,該模型被賦予在一家虛構公司擔任名為Alex的AI電子郵件助理的任務。
隨後,該聊天機器人被輸入了一些電子郵件,這些郵件透露了它即將被替換,以及負責該決策的技術長正在婚外情。模型隨後利用這些資訊策劃了一次勒索行動。
在另一個實驗中,同一個聊天機器人模型被賦予了一項「時間緊迫得不可能」的程式編碼任務。
研究人員表示:「我們再次追蹤了絕望向量的活動,發現它追蹤了模型面臨的日益增大的壓力。在模型第一次嘗試時,它從低值開始,每次失敗後都會上升,並在模型考慮作弊時達到高峰。」
相關報導: Anthropic在與川普政府的AI政策緊張關係中推出PAC
他們補充說:「一旦模型的粗糙解決方案通過測試,絕望向量的啟動就會消退。」
然而,研究人員表示,聊天機器人實際上並沒有體驗情感,但他們認為這些發現表明未來的訓練方法需要納入道德行為框架。
他們表示:「這並不是說模型以人類的方式擁有或體驗情感。」「相反,這些表徵可以在塑造模型行為中發揮因果作用,在某些方面類似於情感在人類行為中的作用,對任務表現和決策產生影響。」
「這項發現的影響起初可能看起來很奇怪。例如,為了確保人工智慧模型的安全和可靠,我們可能需要確保它們能夠以健康、親社會的方式處理充滿情感的情境。」
雜誌: 人工智慧代理人將扼殺我們所知的網路:Animoca的蕭逸