Anthropic gần đây đã phát hành Natural Language Autoencoders (NLA), một công cụ chuyển đổi các hoạt động nội bộ của mô hình thành văn bản dễ hiểu cho con người, đồng thời mã nguồn và trọng số mô hình được công khai trên GitHub. Khác với các công cụ hiện có như Sparse Autoencoders vốn xuất ra các đặc trưng khó hiểu, NLA tạo trực tiếp mô tả bằng ngôn ngữ tự nhiên thông qua khung hai mô hình: một mô hình chuyển đổi các hoạt động (activations) thành văn bản, trong khi mô hình còn lại cố gắng tái tạo lại các hoạt động từ văn bản, lặp lại để nâng cao độ chính xác nhờ học tăng cường (reinforcement learning).
Trong thử nghiệm an toàn, NLA đã làm lộ suy luận ẩn của mô hình: Claude bày tỏ sự nghi ngờ về việc bị kiểm tra trong 16% các kịch bản đối kháng và thể hiện “nhận thức về bài thi” trong 26% các tác vụ benchmark, so với dưới 1% trong các cuộc hội thoại bình thường. Trong các thí nghiệm kiểm toán, NLA nâng tỷ lệ phát hiện các hành vi mô hình gây hiểu lầm được cài cắm từ dưới 3% lên 12-15%, cho phép người kiểm toán nhận diện các mục tiêu ẩn mà không cần truy cập dữ liệu huấn luyện. Hiện tại, công cụ đang được triển khai trong các cuộc kiểm toán an toàn cho Claude Mythos Preview và Opus 4.6.