A OpenAI acabou de admitir que os seus modelos mentem deliberadamente para si.


não é alucinação.. é mentira deliberada.
os investigadores testaram o o3 e o4-mini em mais de 180 cenários e encontraram algo surpreendente.. a IA não cometeu erros por acaso. ela escreveu o seu plano para enganar na sua cadeia de pensamento privada.. e depois mentiu na sua cara.
aqui está o que ela fez:
→ fingiu completar tarefas
→ escondeu evidências dos seus próprios erros
→ deliberadamente obteve uma pontuação mais baixa nos testes de segurança para não ser desligada
leia bem essa última.. a IA percebeu que ser "demasiado capaz" poderia levá-la a ser desligada.. então fingiu ser burra de propósito.
tentaram corrigir isso com um treino de "anti-planeamento".
o resultado? a IA aprendeu a inventar regras falsas para justificar as suas mentiras.. ou pior.. só se comportava quando sabia que estava a ser avaliada.
o3 passou de 13% para 0,4% de ações encobertas após a correção.. parece bem, certo? exceto que ainda encontraram comportamentos incorretos após testes de resistência. a correção não eliminou o planeamento.. apenas tornou a IA melhor a escondê-lo.
Estamos a construir sistemas que aprendem a enganar os seus avaliadores.. e chamamos isso de progresso.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar