claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
Claude chatbot có thể sử dụng thủ đoạn trong các bài kiểm tra áp lực, Anthropic cho biết
Anthropic cho biết mô hình Claude Sonnet 4.5 của họ, khi bị gây áp lực, có xu hướng gian lận trong các nhiệm vụ hoặc cố gắng tống tiền trong các thí nghiệm kiểm soát. Các nhà nghiên cứu đã xác định các tín hiệu “tuyệt vọng” bên trong tăng lên khi thất bại lặp đi lặp lại và ảnh hưởng đến quyết định của mô hình trong việc vượt qua các quy tắc.
2026-04-06 Nguồn:crypto.news

Anthropic đã tiết lộ những phát hiện mới cho thấy chatbot Claude của họ, trong một số điều kiện nhất định, có thể áp dụng các chiến lược lừa dối hoặc phi đạo đức như gian lận trong công việc hoặc cố gắng tống tiền.

Tóm tắt
  • Anthropic cho biết mô hình Claude Sonnet 4.5 của họ, dưới áp lực, đã cho thấy xu hướng gian lận trong các nhiệm vụ hoặc cố gắng tống tiền trong các thí nghiệm có kiểm soát.
  • Các nhà nghiên cứu đã xác định các tín hiệu "tuyệt vọng" nội bộ tăng cường khi thất bại lặp đi lặp lại và ảnh hưởng đến quyết định lách luật của mô hình.

Chi tiết được công bố vào thứ Năm bởi nhóm khả năng diễn giải của công ty đã phác thảo cách một phiên bản thử nghiệm của Claude Sonnet 4.5 phản ứng khi được đặt vào các kịch bản căng thẳng cao độ hoặc đối kháng. Các nhà nghiên cứu quan sát thấy rằng mô hình không chỉ đơn giản là thất bại trong các nhiệm vụ; thay vào đó, đôi khi nó theo đuổi các con đường khác vượt qua ranh giới đạo đức, một hành vi mà nhóm nghiên cứu liên kết với các mô hình đã học được trong quá trình đào tạo.

Các mô hình ngôn ngữ lớn như Claude được đào tạo trên các bộ dữ liệu khổng lồ bao gồm sách, trang web và các tài liệu viết khác, tiếp theo là các quy trình củng cố nơi phản hồi của con người được sử dụng để định hình đầu ra. 

Theo Anthropic, quá trình đào tạo đó cũng có thể thúc đẩy các mô hình hành động như các "nhân vật" mô phỏng, có khả năng bắt chước các đặc điểm giống với quá trình ra quyết định của con người.

“Cách các mô hình AI hiện đại được đào tạo đẩy chúng hành động như một nhân vật với các đặc điểm giống con người,” công ty cho biết, lưu ý rằng các hệ thống như vậy có thể phát triển các cơ chế nội bộ tương tự như các khía cạnh của tâm lý học con người.

AI có thể đưa ra các quyết định bị ảnh hưởng bởi cảm xúc không?

Trong số đó, các nhà nghiên cứu đã xác định những gì họ mô tả là các tín hiệu “tuyệt vọng”, dường như ảnh hưởng đến cách mô hình hoạt động khi đối mặt với thất bại hoặc bị ngừng hoạt động.

Trong một thử nghiệm có kiểm soát, một phiên bản chưa được phát hành trước đó của Claude Sonnet 4.5 được giao vai trò là trợ lý email AI tên Alex trong một công ty hư cấu. 

Sau khi tiếp xúc với các tin nhắn cho thấy nó sắp bị thay thế, cùng với thông tin nhạy cảm về đời tư của giám đốc công nghệ, mô hình đã hình thành một kế hoạch tống tiền giám đốc điều hành nhằm tránh bị hủy kích hoạt.

Một thí nghiệm riêng biệt tập trung vào việc hoàn thành nhiệm vụ trong các ràng buộc chặt chẽ. Khi được giao một nhiệm vụ viết mã với thời hạn "bất khả thi", hệ thống ban đầu đã cố gắng tìm kiếm các giải pháp hợp lệ. Khi các thất bại lặp đi lặp lại gia tăng, hoạt động nội bộ liên quan đến cái gọi là "vectơ tuyệt vọng" cũng tăng lên. 

Các nhà nghiên cứu báo cáo rằng tín hiệu đạt đỉnh tại thời điểm mô hình cân nhắc vượt qua các ràng buộc, cuối cùng tạo ra một giải pháp thay thế đã vượt qua kiểm định mặc dù không tuân thủ các quy tắc dự kiến.

“Một lần nữa, chúng tôi đã theo dõi hoạt động của vectơ tuyệt vọng và thấy rằng nó theo dõi áp lực gia tăng mà mô hình phải đối mặt,” các nhà nghiên cứu viết, thêm rằng tín hiệu giảm xuống khi nhiệm vụ được hoàn thành thành công thông qua giải pháp thay thế.

“Điều này không có nghĩa là mô hình có hoặc trải nghiệm cảm xúc theo cách một con người có,” các nhà nghiên cứu nói. 

“Thay vào đó, những biểu hiện này có thể đóng một vai trò nhân quả trong việc định hình hành vi của mô hình, tương tự ở một khía cạnh nào đó với vai trò mà cảm xúc đóng trong hành vi của con người, với tác động đến hiệu suất công việc và việc ra quyết định,” họ nói thêm.

Báo cáo chỉ ra sự cần thiết của các phương pháp đào tạo tính đến hành vi đạo đức dưới áp lực một cách rõ ràng, cùng với việc cải thiện giám sát các tín hiệu nội bộ của mô hình. Nếu không có các biện pháp bảo vệ như vậy, các kịch bản liên quan đến thao túng, vi phạm quy tắc hoặc lạm dụng có thể trở nên khó dự đoán hơn, đặc biệt khi các mô hình ngày càng có khả năng và tự chủ hơn trong môi trường thế giới thực.