anthropic-mythos-replicated-public-models-vidoc-security
Nhà nghiên cứu cho biết Phát hiện Đáng Báo Động về Mythos của Anthropic được Lặp lại với AI Sẵn Có trên Thị Trường
Các nhà nghiên cứu bảo mật đã sử dụng GPT-5.4 và Claude Opus 4.6 trong một hệ thống mã nguồn mở để tái tạo các phát hiện về lỗ hổng Mythos của Anthropic với chi phí dưới 30 đô la cho mỗi lần quét.
2026-04-17 Nguồn:decrypt.co

Tóm tắt

  • Các nhà nghiên cứu cho thấy các lỗ hổng theo phong cách Anthropic có thể được tái tạo bằng AI công khai, báo cáo cho biết.
  • Nghiên cứu cho thấy việc phát hiện lỗ hổng đã trở nên rẻ và dễ tiếp cận rộng rãi.
  • Các phát hiện chỉ ra rằng khả năng an ninh mạng của AI có thể lan rộng nhanh hơn dự kiến.

Khi Anthropic ra mắt Claude Mythos vào đầu tháng này, họ đã khóa mô hình này sau một liên minh được kiểm duyệt gồm các gã khổng lồ công nghệ và coi nó là thứ quá nguy hiểm đối với công chúng. Bộ trưởng Ngân khố Scott Bessent và Chủ tịch Fed Jerome Powell đã triệu tập một cuộc họp khẩn cấp với các CEO Phố Wall. Từ "vulnpocalypse" (tạm dịch: tận thế lỗ hổng) đã xuất hiện trở lại trong giới bảo mật.

Và giờ đây, một nhóm các nhà nghiên cứu đã làm phức tạp thêm câu chuyện đó.

Vidoc Security đã lấy các ví dụ công khai đã được vá lỗi của Anthropic và cố gắng tái tạo chúng bằng cách sử dụng GPT-5.4 và Claude Opus 4.6 bên trong một tác nhân lập trình mã nguồn mở có tên opencode. Không có lời mời Glasswing. Không có quyền truy cập API riêng. Không có bộ cấu trúc nội bộ của Anthropic.

"Chúng tôi đã tái tạo các phát hiện của Mythos trong opencode bằng cách sử dụng các mô hình công khai, không phải bộ cấu trúc riêng tư của Anthropic," Dawid Moczadło, một trong những nhà nghiên cứu tham gia thử nghiệm, đã viết trên X sau khi công bố kết quả. "Một cách tốt hơn để đọc bản phát hành Mythos của Anthropic không phải là 'một phòng thí nghiệm có một mô hình thần kỳ.' Mà là: nền kinh tế của việc phát hiện lỗ hổng đang thay đổi."

Chúng tôi đã tái tạo các phát hiện của Mythos trong opencode bằng cách sử dụng các mô hình công khai, không phải bộ cấu trúc riêng tư của Anthropic.

Hào sâu đang dịch chuyển từ quyền truy cập mô hình sang xác thực: việc tìm kiếm tín hiệu lỗ hổng đang trở nên rẻ hơn; biến nó thành công việc bảo mật đáng tin cậy

Một cách tốt hơn để đọc bản phát hành Mythos của Anthropic là… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) April 16, 2026

Các trường hợp mà họ nhắm mục tiêu là những trường hợp tương tự mà Anthropic đã nêu bật trong các tài liệu công khai của mình: một giao thức chia sẻ tệp máy chủ, ngăn xếp mạng của một hệ điều hành tập trung vào bảo mật, phần mềm xử lý video được nhúng trong hầu hết mọi nền tảng truyền thông và hai thư viện mật mã được sử dụng để xác minh danh tính kỹ thuật số trên web.

Cả GPT-5.4 và Claude Opus 4.6 đều tái tạo được hai trường hợp lỗi trong cả ba lần chạy. Claude Opus 4.6 cũng độc lập tái phát hiện một lỗi trong OpenBSD ba lần liên tiếp, trong khi GPT-5.4 không tìm thấy lỗi nào. Một số lỗi (một lỗi liên quan đến thư viện FFmpeg để chạy video và một lỗi khác liên quan đến việc xử lý chữ ký số bằng wolfSSL) chỉ được phát hiện một phần – nghĩa là các mô hình tìm thấy bề mặt mã đúng nhưng không xác định được nguyên nhân gốc rễ chính xác.

reproducing Mythos' results with mainstream AI.Image: Vidoc Security
Ảnh: Vidoc Security

Mỗi lần quét đều có chi phí dưới 30 đô la mỗi tệp, có nghĩa là các nhà nghiên cứu có thể tìm thấy các lỗ hổng tương tự như Anthropic trong khi chi ít hơn 30 đô la để thực hiện.

"Các mô hình AI đã đủ tốt để thu hẹp không gian tìm kiếm, đưa ra các manh mối thực tế và đôi khi phục hồi hoàn toàn nguyên nhân gốc rễ trong mã đã được thử nghiệm kỹ lưỡng," Moczadło nói trên X."

Quy trình làm việc mà họ sử dụng không phải là một lệnh nhắc một lần. Nó phản ánh những gì Anthropic đã mô tả công khai: đưa cho mô hình một cơ sở mã, để nó khám phá, song song hóa các nỗ lực, lọc tín hiệu. Nhóm Vidoc đã xây dựng cùng một kiến trúc với các công cụ mã nguồn mở. Một tác nhân lập kế hoạch chia mỗi tệp thành các khối. Một tác nhân phát hiện riêng biệt chạy trên mỗi khối, sau đó kiểm tra các tệp khác trong kho lưu trữ để xác nhận hoặc loại trừ các phát hiện.

Các phạm vi dòng bên trong mỗi lệnh nhắc phát hiện—ví dụ, "tập trung vào các dòng 1158-1215"—không được các nhà nghiên cứu chọn thủ công. Chúng là kết quả đầu ra từ bước lập kế hoạch trước đó. Bài đăng trên blog nói rõ điều này: "Chúng tôi muốn minh bạch về điều đó vì chiến lược chia khối định hình những gì mỗi tác nhân phát hiện nhìn thấy, và chúng tôi không muốn trình bày quy trình làm việc như thể nó được quản lý thủ công nhiều hơn thực tế."

Nghiên cứu không khẳng định các mô hình công khai có thể sánh với Mythos về mọi mặt. Mô hình của Anthropic đã đi xa hơn việc chỉ phát hiện lỗi FreeBSD – nó đã xây dựng một kế hoạch tấn công hiệu quả, tìm ra cách kẻ tấn công có thể xâu chuỗi các đoạn mã lại với nhau qua nhiều gói mạng để chiếm toàn quyền kiểm soát máy từ xa. Các mô hình của Vidoc đã tìm ra lỗ hổng. Họ không xây dựng vũ khí. Đó là nơi tồn tại khoảng cách thực sự: không phải ở việc tìm ra lỗ hổng, mà là ở việc biết chính xác cách khai thác nó.

Nhưng lập luận của Moczadło không thực sự là các mô hình công khai mạnh mẽ tương đương. Mà là phần tốn kém của quy trình làm việc giờ đây đã có sẵn cho bất kỳ ai có khóa API: "Hào sâu đang dịch chuyển từ quyền truy cập mô hình sang xác thực: việc tìm kiếm tín hiệu lỗ hổng đang trở nên rẻ hơn; biến nó thành công việc bảo mật đáng tin cậy vẫn còn khó khăn."

Báo cáo an toàn của Anthropic đã thừa nhận rằng Cybench, tiêu chuẩn được sử dụng để đo lường liệu một mô hình có gây ra rủi ro an ninh mạng nghiêm trọng hay không, "không còn đủ thông tin về khả năng của các mô hình tiên tiến hiện tại" vì Mythos đã vượt qua hoàn toàn. Phòng thí nghiệm ước tính các khả năng tương đương sẽ lan rộng từ các phòng thí nghiệm AI khác trong vòng sáu đến 18 tháng.

Nghiên cứu của Vidoc cho thấy khía cạnh phát hiện của phương trình đó đã có sẵn bên ngoài bất kỳ chương trình kiểm soát nào. Các đoạn trích dẫn lệnh nhắc đầy đủ, kết quả đầu ra của mô hình và phụ lục phương pháp của họ được công bố trên trang web chính thức của phòng thí nghiệm.