openmythos-claude-mythos-architecture-open-source-reconstruction
Ai Đã Xây Dựng Một 'Thuyết Giả Thuyết' Mã Nguồn Mở Để Phân Tích Ngược AI Nguy Hiểm Nhất Của Anthropic
OpenMythos là nỗ lực xây dựng lại kiến trúc phía sau Claude Mythos từ đầu, mô hình có khả năng mạng do Anthropic từ chối phát hành. Đây là sự suy đoán dưới dạng mã nguồn.
2026-05-04 Nguồn:decrypt.co

Tóm tắt

  • OpenMythos là một bản tái cấu trúc hoàn chỉnh kiến trúc Claude Mythos, được xây dựng chỉ từ các tài liệu nghiên cứu công khai và những phỏng đoán có căn cứ.
  • Claude Mythos là mô hình mạnh nhất của Anthropic, bị khóa trong Dự án Glasswing vì nó tự động phát hiện 271 lỗ hổng Firefox và các cuộc tấn công mạng 32 bước.
  • Kho lưu trữ này là một khung lý thuyết—mã nguồn không có trọng số đã được huấn luyện. Nó phản ánh một nỗ lực riêng biệt của Vidoc Security đã tái tạo các phát hiện lỗ hổng của Mythos bằng cách sử dụng các mô hình có sẵn.

Nếu Anthropic không tiết lộ những gì bên trong AI nguy hiểm nhất của họ, thì ai đó trên GitHub sẽ thử đoán.

Một nhà phát triển tên Kye Gomez đã xuất bản OpenMythos, một bản tái cấu trúc mã nguồn mở về những gì anh ấy nghĩ rằng Claude Mythos trông như thế nào bên trong. Kho lưu trữ này đã thu hút hơn 10.000 sao trên GitHub chỉ trong vài tuần sau khi phát hành và đi kèm với một tệp “readme” đầy đủ các phương trình, trích dẫn và một tuyên bố từ chối trách nhiệm lịch sự rằng nó không liên quan gì đến Anthropic.

Đây là suy đoán. Nhưng đó là suy đoán có cấu trúc, dưới dạng mã.

Dưới đây là một phần tổng quan nhanh về Mythos: Mythos đã bị rò rỉ ra công chúng vào cuối tháng 3, khi Anthropic vô tình xuất bản các tài liệu dự thảo mô tả nó là mô hình có khả năng nhất của công ty cho đến nay—một cấp độ cao hơn Opus. Phiên bản tiếp theo, Mythos Preview, hóa ra lại quá giỏi về an ninh mạng đến mức không thể phát hành.

Theo Anthropic, Mythos đã tìm thấy 271 lỗ hổng trong Firefox trong quá trình thử nghiệm của Mozilla. Nó trở thành mô hình AI đầu tiên hoàn thành mô phỏng tấn công mạng doanh nghiệp 32 bước. Anthropic đã khóa nó bên trong Dự án Glasswing, một liên minh được kiểm duyệt gồm khoảng 40 đối tác, bao gồm Microsoft, Apple, Amazon và NSA.

Công chúng không bao giờ có thể tiếp cận nó. Vì vậy, Gomez đã cố gắng tìm hiểu cách nó hoạt động.

Phỏng đoán chính của OpenMythos là Mythos là một Recurrent-Depth Transformer—còn được gọi là looped transformer (bộ biến đổi lặp). Các mô hình tiêu chuẩn xếp chồng hàng trăm lớp độc đáo. Các mô hình lặp lấy một chồng nhỏ hơn và chạy nó qua chính nó nhiều lần mỗi lần chuyển tiếp.

Nói cách khác, đó là cùng một trọng số trải qua nhiều lần lặp hơn. Tư duy sâu hơn, trong không gian tiềm ẩn liên tục, trước khi bất kỳ token nào được phát ra.

Kho lưu trữ lập luận rằng điều này sẽ giải thích hai đặc điểm kỳ lạ nhất của Mythos: Nó suy luận thông qua các vấn đề mới mà không mô hình nào khác có thể giải quyết, nhưng khả năng ghi nhớ thô của nó lại không đồng đều. Đó là dấu ấn kiến trúc của việc lặp lại—tổng hợp thay vì lưu trữ.

OpenMythos trích dẫn Parcae, một bài báo tháng 4 năm 2026 từ Đại học California San Diego và Together AI đã giải quyết vấn đề bất ổn lâu đời trong các mô hình lặp—một mô hình Parcae 770 triệu tham số có chất lượng tương đương với một bộ biến đổi độ sâu cố định 1,3 tỷ tham số, với các quy luật mở rộng có thể dự đoán được về số lượng vòng lặp cần chạy. Kho lưu trữ này cũng mượn Multi-Latent Attention của DeepSeek để nén bộ nhớ và thiết lập Mixture-of-Experts để xử lý độ rộng trên các miền.

Điều nó không có là trọng số (weights), vì vậy về cơ bản nó là một kỹ thuật không có bộ thực thi.

OpenMythos mang tính lý thuyết. Mã nguồn định nghĩa các biến thể mô hình từ 1 tỷ đến 1 nghìn tỷ tham số, nhưng bạn phải tự huấn luyện chúng—tệp readme chỉ ra một kịch bản huấn luyện 3 tỷ tham số trên FineWeb-Edu và mục tiêu 30 tỷ token được điều chỉnh theo Chinchilla, đây là loại chi phí tính toán có thể lên đến hàng trăm nghìn đô la trên các GPU H100. Chưa ai làm điều đó.

Vậy tại sao điều này lại quan trọng?

Bởi vì đây là lần thứ hai trong một tháng có người phá vỡ bức tường xung quanh Mythos. Lần đầu tiên là một nghiên cứu từ Vidoc Security, đã tái tạo một số phát hiện lỗ hổng đáng báo động nhất của Mythos bằng cách sử dụng GPT-5.4 và Claude Opus 4.6 bên trong một tác nhân mã nguồn mở. Không cần quyền truy cập Glasswing, và với chi phí dưới 30 đô la mỗi lần quét. Góc độ khác, cùng kết luận: Hào bảo vệ xung quanh Mythos có thể mỏng hơn những gì tiếp thị đã gợi ý.

OpenMythos và bản sao Vidoc đang thực hiện các công việc khác nhau. Vidoc đã tái tạo các kết quả đầu ra của Mythos—chính các phát hiện lỗ hổng—bằng cách sử dụng các mô hình hiện có. OpenMythos đang cố gắng tái tạo kiến trúc—cỗ máy thực tế tạo ra các kết quả đó. Một bên nói rằng bạn không cần Mythos để tìm thấy các lỗi mà Mythos đã tìm thấy. Bên kia nói rằng, cuối cùng, bạn có thể tự xây dựng một thứ gì đó giống như Mythos.

Anthropic gần như chắc chắn không công khai các phỏng đoán kiến trúc của Gomez, và một số lựa chọn thiết kế trong OpenMythos là những biện pháp phòng ngừa rõ ràng—tệp readme đảm bảo đủ mơ hồ để người dùng biết đây chỉ là một cách tiếp cận. Nó liên tục nói "có khả năng", "nghi ngờ" và "gần như chắc chắn". Mythos thực sự có thể không phải là một looped transformer chút nào. Hoặc nó có thể là một mô hình với những chi tiết mà Gomez chưa đảo ngược kỹ thuật được.

Điều mà OpenMythos chứng minh là tài liệu nghiên cứu đã chứa hầu hết các mảnh ghép. Looped transformers, Mixture of Experts, Multi-Latent Attention, Adaptive Computation Time, bản vá ổn định của Parcae—không có gì trong số đó là độc quyền. Kho lưu trữ này, hơn bất cứ điều gì khác, là một kho tàng những gì đã được công chúng biết đến về cách xây dựng một mô hình đẳng cấp Mythos.

Kho lưu trữ này được cấp phép MIT và đã có 2.700 fork. Kịch bản huấn luyện đang chờ đợi ai đó với cụm GPU và một luận điểm cần chứng minh.