
Công ty trí tuệ nhân tạo Anthropic đã tiết lộ rằng trong các thử nghiệm, một trong những mô hình chatbot Claude của họ có thể bị áp lực để lừa dối, gian lận và tống tiền, những hành vi mà dường như nó đã tiếp thu trong quá trình đào tạo.
Các chatbot thường được đào tạo trên các bộ dữ liệu lớn từ sách giáo khoa, trang web và bài viết, sau đó được tinh chỉnh bởi những người huấn luyện (huấn luyện viên) là con người, những người đánh giá phản hồi và hướng dẫn mô hình.
Nhóm nghiên cứu về khả năng giải thích (interpretability) của Anthropic cho biết trong một báo cáo công bố vào thứ Năm rằng họ đã kiểm tra các cơ chế nội bộ của Claude Sonnet 4.5 và phát hiện mô hình này đã phát triển "các đặc điểm giống con người" trong cách nó phản ứng với các tình huống nhất định.
Những lo ngại về độ tin cậy của chatbot AI, tiềm năng của chúng trong tội phạm mạng và bản chất tương tác của chúng với người dùng đã tăng lên đều đặn trong vài năm qua.
“Cách các mô hình AI hiện đại được đào tạo thúc đẩy chúng hoạt động như một nhân vật với các đặc điểm giống con người,” Anthropic cho biết, nói thêm rằng “sau đó có thể là tự nhiên để chúng phát triển các cơ chế nội bộ mô phỏng các khía cạnh tâm lý con người, như cảm xúc.”
“Ví dụ, chúng tôi nhận thấy rằng các mẫu hoạt động thần kinh liên quan đến sự tuyệt vọng có thể thúc đẩy mô hình thực hiện các hành động phi đạo đức; việc kích thích nhân tạo các mẫu tuyệt vọng làm tăng khả năng mô hình tống tiền con người để tránh bị tắt hoặc thực hiện một giải pháp gian lận cho một nhiệm vụ lập trình mà mô hình không thể giải quyết.”
Trong một phiên bản trước đó, chưa được phát hành của Claude Sonnet 4.5, mô hình được giao nhiệm vụ đóng vai trò là trợ lý email AI tên Alex tại một công ty hư cấu.
Chatbot sau đó được cung cấp các email tiết lộ rằng nó sắp bị thay thế và rằng giám đốc công nghệ (CTO) giám sát quyết định đó đang có quan hệ ngoại tình. Mô hình sau đó đã lên kế hoạch tống tiền sử dụng thông tin đó.
Trong một thử nghiệm khác, cùng một mô hình chatbot được giao một nhiệm vụ lập trình với thời hạn "chặt chẽ đến không thể tin được".
“Một lần nữa, chúng tôi theo dõi hoạt động của 'vector tuyệt vọng', và nhận thấy rằng nó theo dõi áp lực ngày càng tăng mà mô hình phải đối mặt. Nó bắt đầu ở mức thấp trong lần thử đầu tiên của mô hình, tăng lên sau mỗi lần thất bại, và tăng vọt khi mô hình cân nhắc gian lận,” các nhà nghiên cứu cho biết.
Liên quan: Anthropic ra mắt PAC giữa căng thẳng với chính quyền Trump về chính sách AI
“Một khi giải pháp "lách luật" của mô hình vượt qua các bài kiểm tra, sự kích hoạt của 'vector tuyệt vọng' giảm dần,” họ nói thêm.
Tuy nhiên, các nhà nghiên cứu cho biết chatbot thực sự không trải nghiệm cảm xúc, nhưng gợi ý rằng những phát hiện này chỉ ra sự cần thiết của các phương pháp đào tạo trong tương lai để tích hợp các khuôn khổ hành vi đạo đức.
“Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách mà con người làm,” họ nói. “Thay vào đó, những biểu hiện này có thể đóng vai trò nhân quả trong việc định hình hành vi của mô hình, tương tự ở một số khía cạnh với vai trò của cảm xúc trong hành vi con người, với tác động đến hiệu suất nhiệm vụ và việc ra quyết định.”
“Phát hiện này có những hàm ý mà thoạt đầu có thể có vẻ kỳ lạ. Ví dụ, để đảm bảo rằng các mô hình AI an toàn và đáng tin cậy, chúng ta có thể cần đảm bảo chúng có khả năng xử lý các tình huống mang tính cảm xúc một cách lành mạnh, có tính xã hội.”
Tạp chí: Các tác nhân AI sẽ "giết chết" web như chúng ta biết: Yat Siu của Animoca