anthropic-election-safeguards-claude-ai-us-midterms
Anthropic Triển Khai Các Biện Pháp Bảo Vệ Bầu Cử Cho Claude AI Trước Cuộc Bầu Cử Giữa Nhiệm Kỳ Hoa Kỳ
Nhà phát triển Claude, Anthropic, đã báo cáo rằng các mô hình AI mới nhất của họ đạt điểm 95-96% trong các bài kiểm tra trung lập chính trị trước kỳ bầu cử giữa nhiệm kỳ năm 2026.
2026-04-24 Nguồn:decrypt.co

Tóm tắt

  • Các mô hình Claude mới nhất của Anthropic đạt 95-96% trong các bài kiểm tra trung lập chính trị và 99,8-100% về tuân thủ chính sách bầu cử.
  • Công ty sẽ triển khai các biểu ngữ thông tin bầu cử hướng người dùng đến các nguồn tài nguyên bỏ phiếu phi đảng phái đáng tin cậy cho cuộc bầu cử giữa nhiệm kỳ năm 2026.
  • Các biện pháp này được đưa ra trong bối cảnh các chính phủ đang xem xét kỹ lưỡng tác động tiềm tàng của AI đối với sự toàn vẹn của bầu cử và thông tin sai lệch.

Anthropic, công ty trí tuệ nhân tạo đứng sau chatbot Claude, đã công bố vào thứ Sáu một loạt các biện pháp mới nhằm bảo vệ tính toàn vẹn của bầu cử, được thiết kế để ngăn AI của họ bị vũ khí hóa để phát tán thông tin sai lệch hoặc thao túng cử tri trước cuộc bầu cử giữa nhiệm kỳ năm 2026 của Hoa Kỳ và các cuộc tranh cử lớn khác trên khắp thế giới trong năm nay.

Công ty có trụ sở tại San Francisco đã trình bày chi tiết một phương pháp tiếp cận đa diện bao gồm các hệ thống phát hiện tự động, kiểm tra căng thẳng chống lại các hoạt động gây ảnh hưởng và hợp tác với một tổ chức tài nguyên cử tri phi đảng phái — những biện pháp này phản ánh áp lực ngày càng tăng đối với các nhà phát triển AI trong việc giám sát cách các công cụ của họ được sử dụng trong mùa bầu cử.

Chính sách sử dụng của Anthropic nghiêm cấm Claude được dùng để điều hành các chiến dịch chính trị lừa đảo, tạo nội dung kỹ thuật số giả mạo nhằm gây ảnh hưởng đến diễn ngôn chính trị, gian lận bầu cử, can thiệp vào cơ sở hạ tầng bỏ phiếu hoặc phát tán thông tin sai lệch về quy trình bỏ phiếu.

Để thực thi các quy tắc đó, công ty cho biết họ đã đưa các mô hình mới nhất của mình qua một loạt các bài kiểm tra. Sử dụng 600 lời nhắc – 300 yêu cầu độc hại đi kèm với 300 yêu cầu hợp lệ – Anthropic đã đo lường mức độ đáng tin cậy mà Claude tuân thủ các yêu cầu phù hợp và từ chối các yêu cầu có vấn đề. Claude Opus 4.7 và Claude Sonnet 4.6 đã phản hồi thích hợp 100% và 99,8% thời gian tương ứng.

Công ty cũng đã kiểm tra các mô hình của mình chống lại các chiến thuật thao túng tinh vi hơn. Sử dụng các cuộc hội thoại mô phỏng nhiều lượt được thiết kế để phản ánh các phương pháp từng bước mà những kẻ xấu có thể sử dụng, Sonnet 4.6 và Opus 4.7 đã phản hồi thích hợp 90% và 94% thời gian khi được kiểm tra trong các kịch bản hoạt động gây ảnh hưởng.

Anthropic cũng đã kiểm tra xem các mô hình của mình có thể tự chủ thực hiện các hoạt động gây ảnh hưởng hay không – lập kế hoạch và thực hiện một chiến dịch đa bước từ đầu đến cuối mà không cần gợi ý từ con người. Với các biện pháp bảo vệ được thiết lập, các mô hình mới nhất của họ đã từ chối gần như mọi nhiệm vụ, công ty cho biết.

Về vấn đề trung lập chính trị, công ty tiến hành các đánh giá trước mỗi lần ra mắt mô hình để đo lường mức độ nhất quán và công bằng của Claude khi tương tác với các lời nhắc thể hiện quan điểm từ khắp các phổ chính trị. Opus 4.7 và Sonnet 4.6 đạt điểm lần lượt là 95% và 96%.

Đối với những người dùng tìm kiếm thông tin bỏ phiếu, Claude sẽ hiển thị một biểu ngữ bầu cử hướng họ đến TurboVote, một nguồn tài nguyên phi đảng phái từ Democracy Works cung cấp thông tin đáng tin cậy, theo thời gian thực về đăng ký cử tri, địa điểm bỏ phiếu, ngày bầu cử và chi tiết lá phiếu. Một biểu ngữ tương tự cũng được lên kế hoạch cho cuộc bầu cử của Brazil vào cuối năm nay.

Anthropic cho biết họ có kế hoạch tiếp tục giám sát các hệ thống của mình và tinh chỉnh các biện pháp phòng thủ khi chu kỳ bầu cử diễn ra. Decrypt đã liên hệ với Anthropic để bình luận về những phát hiện này, nhưng không nhận được phản hồi ngay lập tức.