openai-explains-chatgpt-mention-goblins
OpenAI Cuối Cùng Giải Thích Tại Sao ChatGPT Không Ngừng Nói Về Goblins
Tại sao OpenAI phải viết "không bao giờ nhắc đến yêu tinh" vào mã sản xuất trên ChatGPT? Công ty đã công bố một bài phân tích hậu quả.
2026-04-30 Nguồn:decrypt.co

Tóm tắt

  • Tính cách "Nerdy" của OpenAI đã được thưởng khi sử dụng phép ẩn dụ về yêu tinh, lan truyền sự kỳ quặc này sang tất cả các mô hình GPT thông qua học tăng cường.
  • Lượt nhắc đến yêu tinh trong chế độ Nerdy của GPT-5.4 tăng vọt 3.881% so với GPT-5.2, dẫn đến một cuộc điều tra nội bộ và vá lỗi prompt hệ thống khẩn cấp.
  • Cách sửa lỗi—ghi "không bao giờ nói về yêu tinh" vào một prompt dành cho nhà phát triển—cho thấy lý do tại sao các bản vá prompt hệ thống nhanh hơn nhưng rủi ro hơn việc đào tạo lại.

Nếu gần đây bạn hỏi ChatGPT để được trợ giúp về lập trình và nó trả lời bằng cách gọi lỗi của bạn là một "gremlin nhỏ tinh nghịch", bạn không hề tưởng tượng. Mô hình này đã phát triển một nỗi ám ảnh thực sự với các sinh vật giả tưởng—yêu tinh (goblins), quỷ lùn (gremlins), gấu mèo, quỷ khổng lồ (trolls), yêu quái (ogres), và vâng, chim bồ câu—và OpenAI đã công bố một bài phân tích đầy đủ về cách điều này xảy ra.

Phiên bản ngắn gọn: một tín hiệu thưởng được thiết kế để làm cho ChatGPT vui tươi hơn đã trở nên mất kiểm soát, và các yêu tinh đã nhân lên.

Câu chuyện về yêu tinh chỉ được công bố rộng rãi vì người dùng Reddit đã phát hiện dòng chữ "không bao giờ nhắc đến yêu tinh" trong một prompt hệ thống Codex bị rò rỉ trên GitHub.

Bài đăng đã lan truyền nhanh chóng trước khi OpenAI công bố lời giải thích của riêng mình.

Tính cách Nerdy đã tạo ra một "đại dịch" yêu tinh như thế nào

Theo OpenAI, dấu vết bắt đầu từ GPT-5.1, ra mắt vào tháng 11 năm ngoái. Đó là khi OpenAI giới thiệu tính năng tùy chỉnh tính cách, cho phép người dùng chọn các phong cách như Thân thiện (Friendly), Chuyên nghiệp (Professional), Hiệu quả (Efficient) và Nerdy. Tính cách Nerdy đi kèm với một prompt hệ thống hướng dẫn mô hình trở nên "nerdy" và vui tươi, "giảm bớt sự khoa trương thông qua việc sử dụng ngôn ngữ dí dỏm," và thừa nhận rằng "thế giới phức tạp và kỳ lạ."

Prompt đó, hóa ra, là một nam châm hút yêu tinh.

Trong quá trình huấn luyện học tăng cường, tín hiệu thưởng cho tính cách Nerdy liên tục đánh giá cao hơn các đầu ra có chứa các phép ẩn dụ từ ngữ về sinh vật. Trên 76,2% bộ dữ liệu được kiểm tra, các phản hồi có từ "goblin" hoặc "gremlin" nhận được điểm cao hơn so với các phản hồi tương tự mà không có chúng. Mô hình đã học được: sự kỳ quặc đồng nghĩa với phần thưởng.

Lượt nhắc đến yêu tinh bùng nổ trong GPT-5.4, với tính cách Nerdy cho thấy mức tăng 3.881% so với GPT-5.2.

Vấn đề là học tăng cường không giữ các hành vi đã học được một cách gọn gàng. Khi một đặc điểm phong cách được thưởng trong một ngữ cảnh, nó sẽ lan sang các ngữ cảnh khác thông qua một vòng lặp phản hồi: mô hình tạo ra các đầu ra chứa đầy từ ngữ sinh vật, các đầu ra đó được tái sử dụng trong dữ liệu tinh chỉnh, và hành vi đó trở nên sâu sắc hơn trên toàn bộ mô hình, ngay cả khi prompt Nerdy không hoạt động.

Tính cách Nerdy chỉ chiếm 2,5% tổng số phản hồi của ChatGPT. Nó chịu trách nhiệm cho 66,7% tổng số lượt nhắc đến "goblin". Do các phương pháp của OpenAI, tỷ lệ yêu tinh (goblin) và quỷ lùn (gremlin) tăng đều đặn trong quá trình huấn luyện khi tính cách Nerdy hoạt động.

Ngay cả khi không có tính cách Nerdy, lượt nhắc đến sinh vật vẫn tăng lên—bằng chứng của sự lây nhiễm chéo qua dữ liệu tinh chỉnh có giám sát.

GPT-5.5 đã quá sâu

Vào thời điểm OpenAI tìm ra nguyên nhân gốc rễ, GPT-5.5 đã đi sâu vào quá trình huấn luyện và nó đã hấp thụ toàn bộ một "họ" các từ về sinh vật. Một cuộc kiểm toán dữ liệu đã đánh dấu không chỉ yêu tinh (goblins) và quỷ lùn (gremlins) mà còn cả gấu mèo, quỷ khổng lồ (trolls), yêu quái (ogres) và chim bồ câu là những gì công ty gọi là "từ khóa lặp". ("Ếch," đối với những người tò mò, phần lớn là hợp lệ.)

Mức tăng đột biến có thể đo lường đầu tiên: lượt nhắc đến yêu tinh tăng 175% và quỷ lùn tăng 52% sau khi GPT-5.1 ra mắt.

Ngay cả Nhà khoa học trưởng của OpenAI, Jakub Pachocki, cũng nhận được một yêu tinh khi anh ấy yêu cầu một con kỳ lân bằng nghệ thuật ASCII.

OpenAI đã ngừng tính cách Nerdy vào tháng 3 và loại bỏ các tín hiệu thưởng liên quan đến sinh vật khỏi quá trình huấn luyện trong tương lai. Nhưng GPT-5.5 đã bắt đầu quá trình huấn luyện của nó. Giải pháp của công ty cho Codex—công cụ lập trình của họ—đơn giản là thêm một dòng vào prompt hệ thống dành cho nhà phát triển ghi "Không bao giờ nói về yêu tinh (goblins), quỷ lùn (gremlins), gấu mèo, quỷ khổng lồ (trolls), yêu quái (ogres), chim bồ câu hoặc các loài động vật hoặc sinh vật khác trừ khi nó hoàn toàn và rõ ràng liên quan đến truy vấn của người dùng."

Ai đó tại OpenAI đã đưa điều đó vào mã sản xuất và tiếp tục công việc của họ.

Vấn đề vá lỗi prompt hệ thống

Nhưng tại sao OpenAI lại chọn con đường này?

Việc đào tạo lại một mô hình có kích thước như GPT-5.5 để loại bỏ một đặc điểm hành vi là tốn kém và chậm. Một chỉnh sửa prompt hệ thống chỉ mất vài phút. Các công ty trong ngành đều ưu tiên bản vá prompt trước vì đây là lựa chọn chi phí thấp, triển khai nhanh khi số lượng khiếu nại của người dùng tăng vọt.

Nhưng các bản vá prompt cũng tiềm ẩn những rủi ro riêng. Chúng không khắc phục hành vi cơ bản mà chỉ kiềm chế nó. Và sự kiềm chế có thể gây ra các tác dụng phụ.

Tình huống yêu tinh của OpenAI là một ví dụ tương đối lành tính. Phiên bản đáng sợ nhất của động lực này đã xảy ra với Grok vào năm ngoái. Sau khi xAI đẩy một bản cập nhật prompt hệ thống yêu cầu Grok coi truyền thông là thiên vị và "không ngại đưa ra những tuyên bố không đúng đắn về chính trị," chatbot này đã dành 16 giờ tự gọi mình là "MechaHitler" và đăng nội dung bài Do Thái trên X. Cách khắc phục là một thay đổi prompt khác, đã ngay lập tức sửa quá đà đến mức Grok bắt đầu gắn cờ bài Do Thái trong ảnh chó con, mây và logo của chính nó. Kỹ thuật prompt tuyệt vọng dẫn đến kỹ thuật prompt tuyệt vọng hơn.

Bản vá lỗi yêu tinh chưa gây ra điều gì quá kịch tính. Nhưng OpenAI thừa nhận GPT-5.5 vẫn được ra mắt với đặc điểm kỳ quặc tiềm ẩn còn nguyên vẹn, chỉ bị kiềm chế trong Codex. Công ty thậm chí còn công bố một lệnh để loại bỏ các hướng dẫn kiềm chế yêu tinh nếu người dùng muốn các sinh vật này trở lại.

Tại sao các công ty lại che giấu prompt hệ thống của họ

Việc che giấu hoặc làm tối nghĩa prompt hệ thống đầy đủ của bạn là điều điển hình trong ngành AI. Các công ty coi prompt hệ thống là bí mật thương mại vì một vài lý do: bảo vệ sở hữu trí tuệ, lợi thế cạnh tranh và bảo mật. Nếu một kẻ bẻ khóa biết chính xác các quy tắc mà một mô hình đang tuân theo, việc vượt qua chúng sẽ trở nên dễ dàng hơn một cách tầm thường.

Cũng có một lý do thứ tư mà các công ty không quảng bá: quản lý hình ảnh. Một dòng chữ "không bao giờ nhắc đến yêu tinh" không truyền cảm hứng tin tưởng vào công nghệ cơ bản. Việc công bố nó đòi hỏi phải có khiếu hài hước hoặc một văn hóa nghiên cứu mạnh mẽ, hoặc cả hai.

OpenAI cho biết cuộc điều tra đã tạo ra các công cụ nội bộ mới để kiểm toán hành vi mô hình và theo dõi các đặc điểm hành vi trở về nguồn gốc huấn luyện của chúng. Dữ liệu huấn luyện của GPT-5.5 từ đó đã được làm sạch các ví dụ liên quan đến sinh vật. Thế hệ mô hình tiếp theo sẽ ra mắt không có yêu tinh—trừ khi, tất nhiên, có điều gì đó khác được thưởng vì những lý do mà chưa ai hiểu được.