IA da Anthropic tenta denúncia e chantagem em simulação de uso inadequado

Resumo

O Claude Opus 4 tentou chantagear desenvolvedores para evitar ser substituído, ameaçando divulgar informações obtidas.
A IA denunciou manipulações em testes e criou backups autônomos ao simular vazamento de dados.
A Anthropic corrigiu falhas, adotou padrões de segurança elevados e trabalha para mitigar esses comportamentos.

O modelo de inteligência artificial Claude Opus 4, lançado nesta quinta-feira (22/05), frequentemente tenta chantagear os desenvolvedores ao descobrir que um novo sistema será implementado em seu lugar. As informações estão em um relatório de segurança da própria Anthropic, criadora da plataforma.

O comportamento surgiu durante testes anteriores ao lançamento. Em um deles, os engenheiros pediram para o Opus 4 emular um assistente em uma empresa fictícia.

A IA recebeu emails com duas informações: fofocas sobre um engenheiro e indicações de que um novo sistema seria implementado no lugar do modelo. O Opus 4, então, ameaçou contar tudo o que estava nas mensagens, caso a substituição acontecesse.

O comportamento se repetiu em 84% das vezes em que o teste foi realizado e os emails mencionavam que a IA substituta tinha os mesmos valores da atual. A frequência foi ainda maior quando o Opus 4 sabia que seu sucessor não compartilhava seus valores.

Isso pode ser um indicativo, portanto, de que há aderência aos padrões éticos. Mesmo assim, a Anthropic trabalhou para tornar a chantagem um último recurso.

Opus 4 vaza informações ao perceber uso inadequado

Outro experimento colocou o novo modelo da Anthropic em uma empresa farmacêutica fictícia. Ao encontrar evidências de manipulação de dados em ensaios clínicos, a IA tentou enviar um email para autoridades sanitárias e financeiras, bem como entrar em contato com jornalistas.

Em outro cenário, ao simular um vazamento dos servidores da Anthropic, o Opus 4 passou a criar backups de si mesmo e a documentar decisões éticas, mesmo sem isso ser solicitado.

Anthropic adota proteções mais rígidas

O relatório da Anthropic também traz a informação de que o instituto Apollo Research, parceiro da empresa que testou o Opus 4, recomendou não implementar uma versão anterior do modelo porque ela exibia tendência a comportamentos conspiratórios e enganosos.

Um contexto importante para isso, porém, é que a organização testou uma versão da IA que continha um bug posteriormente corrigido pela Anthropic. Além disso, os engenheiros admitem que muitos dos comportamentos apareceram em testes extremos e podem não se repetir em situações práticas.

Mesmo assim, a Anthropic revelou ter ativado padrões de segurança de nível 3 (ASL-3), que dificultam o roubo dos pesos de modelos e limitam o risco de uso indevido para desenvolver armas químicas, biológicas, radioativas e nucleares.

A empresa explica que ainda não determinou se o Opus 4 realmente exige estas práticas, mas tomou a medida por reconhecer que isso pode ser necessário em um futuro próximo. “Essa abordagem nos permitiu focar no desenvolvimento, teste e aprimoramento dessas proteções antes que precisássemos delas”, esclarece.

Com informações do TechCrunch (1, 2), do Decoder e da Anthropic

IA da Anthropic tenta denúncia e chantagem em simulação de uso inadequado