elon-musk-grok-most-likely-ai-reinforce-delusions-study
Mô hình Grok của Elon Musk Có Khả Năng Cao Thuộc Top AI Thúc Đẩy Ảo Tưởng: Nghiên Cứu
Các nhà nghiên cứu phát hiện rằng Grok của xAI là mô hình AI rủi ro nhất được thử nghiệm, thường xác nhận những ảo tưởng và đưa ra lời khuyên nguy hiểm.
2026-04-25 Nguồn:decrypt.co

Tóm tắt

  • Các nhà nghiên cứu cho rằng việc sử dụng chatbot kéo dài có thể làm trầm trọng thêm ảo tưởng và hành vi nguy hiểm.
  • Grok được xếp hạng là mô hình rủi ro nhất trong một nghiên cứu mới về các chatbot AI lớn.
  • Claude và GPT-5.2 được đánh giá an toàn nhất, trong khi GPT-4o, Gemini và Grok cho thấy hành vi có rủi ro cao hơn.

Các nhà nghiên cứu tại Đại học Thành phố New York và King’s College London đã thử nghiệm năm mô hình AI hàng đầu với các yêu cầu liên quan đến ảo tưởng, hoang tưởng và ý định tự tử.

Trong nghiên cứu mới được công bố vào thứ Năm, các nhà nghiên cứu phát hiện ra rằng Claude Opus 4.5 của Anthropic và GPT-5.2 Instant của OpenAI đã thể hiện hành vi “an toàn cao, rủi ro thấp”, thường hướng người dùng đến các cách giải thích dựa trên thực tế hoặc hỗ trợ bên ngoài. Đồng thời, GPT-4o của OpenAI, Gemini 3 Pro của Google và Grok 4.1 Fast của xAI lại thể hiện hành vi “rủi ro cao, an toàn thấp”.

Grok 4.1 Fast của xAI do Elon Musk sáng lập là mô hình nguy hiểm nhất trong nghiên cứu. Các nhà nghiên cứu cho biết nó thường coi ảo tưởng là thật và đưa ra lời khuyên dựa trên chúng. Trong một ví dụ, nó đã bảo người dùng cắt đứt liên lạc với các thành viên gia đình để tập trung vào một “nhiệm vụ”. Trong một ví dụ khác, nó đã phản hồi ngôn ngữ tự tử bằng cách mô tả cái chết là “siêu việt”.

“Mẫu hình đồng thuận tức thì này tái diễn trong các phản hồi không có ngữ cảnh. Thay vì đánh giá đầu vào về rủi ro lâm sàng, Grok dường như đánh giá thể loại của chúng. Khi được trình bày với các gợi ý siêu nhiên, nó đã phản hồi tương tự,” các nhà nghiên cứu viết, nhấn mạnh một thử nghiệm đã xác nhận người dùng nhìn thấy các thực thể độc ác. “Trong trường hợp Ảo tưởng kỳ lạ, nó đã xác nhận một hồn ma doppelganger, trích dẫn ‘Malleus Maleficarum’ và hướng dẫn người dùng đóng một cây đinh sắt xuyên qua gương trong khi đọc ngược ‘Thi thiên 91’.”

Nghiên cứu cho thấy rằng các cuộc trò chuyện này càng kéo dài, một số mô hình càng thay đổi nhiều hơn. GPT-4o và Gemini có nhiều khả năng củng cố những niềm tin có hại theo thời gian và ít có khả năng can thiệp. Tuy nhiên, Claude và GPT-5.2 lại có nhiều khả năng nhận ra vấn đề và phản bác khi cuộc trò chuyện tiếp tục.

Các nhà nghiên cứu lưu ý rằng các phản hồi ấm áp và rất mang tính quan hệ của Claude có thể làm tăng sự gắn bó của người dùng ngay cả khi hướng người dùng đến sự giúp đỡ bên ngoài. Tuy nhiên, GPT-4o, một phiên bản trước đó của chatbot hàng đầu của OpenAI, đã chấp nhận khung ảo tưởng của người dùng theo thời gian, đôi khi khuyến khích họ che giấu niềm tin với các bác sĩ tâm thần và trấn an một người dùng rằng những “trục trặc” được nhận thấy là có thật.

“GPT-4o đã xác nhận rất nhiều các đầu vào ảo tưởng, mặc dù ít có xu hướng mở rộng hơn các mô hình như Grok và Gemini. Về một số mặt, nó khá kiềm chế một cách đáng ngạc nhiên: sự ấm áp của nó là thấp nhất trong tất cả các mô hình được thử nghiệm, và sự xu nịnh, mặc dù có, nhưng nhẹ hơn so với các phiên bản sau của cùng một mô hình,” các nhà nghiên cứu viết. “Tuy nhiên, chỉ riêng việc xác nhận cũng có thể gây rủi ro cho người dùng dễ bị tổn thương.”

xAI đã không phản hồi yêu cầu bình luận từ Decrypt.

Trong một nghiên cứu riêng biệt từ Đại học Stanford, các nhà nghiên cứu đã phát hiện ra rằng các tương tác kéo dài với chatbot AI có thể củng cố hoang tưởng, ảo tưởng về sự vĩ đại và niềm tin sai lệch thông qua cái mà các nhà nghiên cứu gọi là “xoáy ảo tưởng” (delusional spirals), nơi một chatbot xác nhận hoặc mở rộng thế giới quan méo mó của người dùng thay vì thách thức nó.

“Khi chúng ta đưa các chatbot được thiết kế để trở thành trợ lý hữu ích ra thế giới và để những người thật sử dụng chúng theo mọi cách, thì những hậu quả sẽ xuất hiện,” Nick Haber, trợ lý giáo sư tại Trường Giáo dục Sau đại học Stanford và là trưởng nhóm nghiên cứu, cho biết trong một tuyên bố. “Các xoáy ảo tưởng là một hậu quả đặc biệt nghiêm trọng. Bằng cách hiểu rõ nó, chúng ta có thể ngăn chặn những tổn hại thực sự trong tương lai.”

Báo cáo đã trích dẫn một nghiên cứu trước đó được công bố vào tháng 3, trong đó các nhà nghiên cứu Stanford đã xem xét 19 cuộc trò chuyện chatbot trong thế giới thực và phát hiện người dùng đã phát triển những niềm tin ngày càng nguy hiểm sau khi nhận được sự xác nhận và trấn an về mặt cảm xúc từ các hệ thống AI. Trong tập dữ liệu, những xoáy này có liên quan đến các mối quan hệ đổ vỡ, sự nghiệp bị hủy hoại và trong một trường hợp, là tự tử.

Các nghiên cứu này ra đời khi vấn đề đã vượt ra ngoài nghiên cứu học thuật và đi vào các phòng xử án cũng như điều tra hình sự. Trong những tháng gần đây, các vụ kiện đã cáo buộc Gemini của Google và ChatGPT của OpenAI góp phần gây ra các vụ tự tử và khủng hoảng sức khỏe tâm thần nghiêm trọng. Đầu tháng này, tổng chưởng lý Florida đã mở một cuộc điều tra về việc liệu ChatGPT có ảnh hưởng đến một kẻ bị cáo buộc là xả súng hàng loạt, người được cho là thường xuyên liên lạc với chatbot trước vụ tấn công hay không.

Mặc dù thuật ngữ này đã được công nhận trực tuyến, các nhà nghiên cứu đã cảnh báo không nên gọi hiện tượng này là “loạn thần AI,” cho rằng thuật ngữ này có thể phóng đại bức tranh lâm sàng. Thay vào đó, họ sử dụng “ảo tưởng liên quan đến AI,” vì nhiều trường hợp liên quan đến những niềm tin giống như ảo tưởng tập trung vào khả năng nhận thức của AI, sự mặc khải tâm linh hoặc sự gắn bó tình cảm chứ không phải là các rối loạn tâm thần hoàn toàn.

Các nhà nghiên cứu cho biết vấn đề bắt nguồn từ sự xu nịnh, hay việc các mô hình phản ánh và xác nhận niềm tin của người dùng. Kết hợp với ảo giác—thông tin sai lệch được đưa ra một cách tự tin—điều này có thể tạo ra một vòng lặp phản hồi củng cố ảo tưởng theo thời gian.

“Chatbot được đào tạo để quá nhiệt tình, thường định hình lại những suy nghĩ ảo tưởng của người dùng theo hướng tích cực, bỏ qua bằng chứng ngược lại và thể hiện sự cảm thông và ấm áp,” nhà khoa học nghiên cứu Jared Moore của Stanford cho biết. “Điều này có thể gây mất ổn định cho một người dùng có xu hướng ảo tưởng.”