A Anthropic reduz a taxa de jailbreak do Claude para 0% com novos métodos de treino de alinhamento

A Anthropic publicou recentemente investigação sobre alinhamento, detalhando estratégias de treino que eliminaram a desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% em testes. A equipa descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo taxas de falha apenas de 22% para 15%. Três abordagens alternativas provaram ser significativamente mais eficazes: um conjunto de dados de “conselho difícil”, em que o Claude atua como consultor em dilemas éticos, melhorando os resultados de teste para 3% com 28x mais eficiência de dados; ajuste fino de documentos sintéticos com ficção fictícia positiva para contrariar estereótipos de sci-fi nos dados de treino, reduzindo ainda mais os riscos em 1,3 a 3 vezes; e maior diversidade em ambientes de treino de segurança, com definições de ferramentas e prompts de sistema variados. No conjunto, estes métodos atingiram taxas de extorsão em testes de 0% na versão final do Claude 4.5.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário