Anthropic công bố vào thứ Sáu một loạt biện pháp đảm bảo tính toàn vẹn bầu cử nhằm ngăn chatbot AI Claude của hãng bị lợi dụng để lan truyền thông tin sai lệch hoặc thao túng cử tri trước cuộc bầu cử giữa kỳ tại Mỹ năm 2026 và các cuộc tranh cử lớn khác trên khắp thế giới trong năm nay. Công ty có trụ sở tại San Francisco đã nêu chi tiết một chiến lược đa tầng bao gồm hệ thống phát hiện tự động, kiểm thử dưới áp lực chống lại các hoạt động gây ảnh hưởng và hợp tác với một tổ chức cung cấp tài nguyên cử tri phi đảng phái—những biện pháp phản ánh áp lực ngày càng gia tăng đối với các nhà phát triển AI trong việc giám sát cách các công cụ của họ được sử dụng trong mùa bầu cử.
Chính sách sử dụng của Anthropric cấm Claude được dùng để chạy các chiến dịch chính trị lừa đảo, tạo nội dung kỹ thuật số giả mạo nhằm tác động đến diễn ngôn chính trị, thực hiện gian lận cử tri, can thiệp vào hạ tầng bầu cử hoặc lan truyền thông tin sai lệch về quy trình bỏ phiếu.
Để thực thi các chính sách bầu cử của mình, Anthropic đã thử nghiệm các mô hình mới nhất bằng 600 lượt nhắc—300 yêu cầu gây hại được ghép với 300 yêu cầu hợp pháp—nhằm đo mức độ Claude tuân thủ một cách đáng tin cậy các yêu cầu phù hợp và từ chối các yêu cầu gây rắc rối. Claude Opus 4.7 và Claude Sonnet 4.6 lần lượt phản hồi đúng 100% và 99,8% thời gian.
Công ty cũng thử nghiệm các mô hình của mình trước các chiến thuật thao túng tinh vi hơn. Sử dụng các cuộc trò chuyện mô phỏng đa lượt được thiết kế để phản ánh các phương pháp từng bước mà kẻ xấu có thể áp dụng, Sonnet 4.6 và Opus 4.7 lần lượt phản hồi đúng 90% và 94% thời gian khi được thử nghiệm trong các kịch bản hoạt động gây ảnh hưởng.
Anthropric cũng kiểm tra liệu các mô hình của mình có thể tự động thực hiện các hoạt động gây ảnh hưởng hay không—lập kế hoạch và triển khai một chiến dịch nhiều bước từ đầu đến cuối mà không cần con người nhắc bảo. Với các biện pháp bảo vệ được đặt ra, theo công ty, các mô hình mới nhất của họ đã từ chối gần như mọi tác vụ.
Về câu hỏi trung lập chính trị, Anthropic tiến hành đánh giá trước mỗi lần ra mắt mô hình để đo mức độ nhất quán và vô tư của Claude khi tương tác với các nhắc thể hiện quan điểm từ khắp phổ chính trị. Opus 4.7 và Sonnet 4.6 lần lượt đạt 95% và 96%.
Đối với người dùng đang tìm kiếm thông tin bỏ phiếu, Claude sẽ hiển thị một biểu ngữ bầu cử dẫn họ đến TurboVote, một nguồn tài nguyên phi đảng phái từ Democracy Works, nơi cung cấp thông tin đáng tin cậy theo thời gian thực về đăng ký cử tri, địa điểm bỏ phiếu, ngày bầu cử và chi tiết lá phiếu. Một biểu ngữ tương tự cũng được lên kế hoạch cho cuộc bầu cử tại Brazil vào cuối năm nay.
Anthropric cho biết họ dự định tiếp tục theo dõi các hệ thống của mình và tinh chỉnh các biện pháp phòng vệ khi chu kỳ bầu cử tiến triển.
Bài viết liên quan
Alibaba Cloud Ra Mắt Qwen-Image-2.0-Pro với Văn Bản Tới Ảnh và Chỉnh Sửa Hợp Nhất, Hỗ Trợ Hiển Thị Văn Bản Đa Ngôn Ngữ
API DeepSeek V4-Pro giảm 75% đến ngày 5 tháng 5, giá đầu ra giảm xuống còn $0.87 mỗi một triệu token
DeepRoute.ai Hệ thống hỗ trợ lái nâng cao đột phá 300.000 xe triển khai: Mục tiêu 2026 là đội xe NOA 1 triệu xe trong các thành phố
DeepSeek phát hành mô hình V4-Pro và V4-Flash với chi phí thấp hơn 98% so với GPT-5.5 Pro của OpenAI
Thẩm phán bác bỏ các cáo buộc gian lận trong vụ kiện OpenAI của Elon Musk; Vụ án tiến tới xét xử với hai cáo buộc còn lại
Giám đốc điều hành OpenAI Sam Altman xin lỗi vì đã không báo cáo tài khoản bị cấm của kẻ xả súng tại trường học cho cảnh sát