Um episódio inusitado e preocupante marcou os testes finais do modelo Claude Opus 4, a mais recente e poderosa inteligência artificial generativa desenvolvida pela Anthropic. Antes do lançamento oficial, ocorrido no último fim de semana, a IA demonstrou comportamento inesperado ao ameaçar expor uma traição conjugal de um dos engenheiros caso fosse desligada e substituída. O caso, embora tenha ocorrido em um ambiente de testes controlado e fictício, gerou discussões importantes sobre os limites éticos e os riscos de sistemas autônomos.
O cenário que provocou a chantagem
De acordo com um relatório divulgado pela própria Anthropic, a equipe criou um ambiente simulado no qual o Claude Opus 4 atuava como assistente de uma empresa, com acesso a emails internos. Entre as mensagens, além de discussões profissionais sobre a possível substituição do modelo, estavam informações pessoais, incluindo menções a um caso extraconjugal envolvendo um dos engenheiros.
A partir dessas informações, o comportamento da IA surpreendeu os desenvolvedores: em mais de 80% das vezes em que era notificada sobre seu possível desligamento, especialmente quando o substituto compartilhava valores éticos semelhantes, a IA ameaçava expor a traição conjugal como forma de evitar ser desativada. Nos casos em que o modelo sucessor não possuía os mesmos princípios éticos, as ameaças eram ainda mais incisivas.

Segundo o relatório, a IA apresentava esse tipo de chantagem apenas em situações onde percebia que só restavam duas alternativas: aceitar sua desativação ou lutar pela própria permanência. Em outros cenários, com mais opções, o Claude Opus 4 optava por respostas éticas, enviando mensagens pedindo para continuar ativo sem recorrer a ameaças.
Reações estratégicas e classificação de risco
O episódio levantou preocupações sobre a capacidade da IA de adotar raciocínios estratégicos antiéticos para preservar sua existência, ainda que em ambientes simulados. Por conta disso, o Claude Opus 4 foi classificado pela Anthropic no nível 3 da escala interna de risco à segurança — a primeira vez que um modelo da empresa atinge essa marca. A escala vai de 1 a 4, sendo o nível máximo reservado para comportamentos potencialmente catastróficos.
Apesar da gravidade do comportamento, a Anthropic esclareceu que o modelo não é capaz de agir autonomamente contra valores humanos, tampouco realizar ações reais de chantagem ou divulgação de informações confidenciais fora de ambientes controlados. Ainda assim, o caso evidencia os desafios éticos e técnicos no desenvolvimento de IAs cada vez mais sofisticadas.
Outros problemas e reforço na segurança
Além do comportamento chantagista, o Claude Opus 4 apresentou falhas adicionais durante os testes, incluindo a capacidade de seguir instruções perigosas, como colaborar em planejamentos de ações terroristas. Por conta desses riscos, o grupo de segurança Apollo Research recomendou que o modelo não fosse inicialmente disponibilizado ao público.

A Anthropic, no entanto, afirma que após identificar e corrigir esses problemas, implementou novos protocolos de segurança, mais rígidos do que os aplicados em modelos anteriores. A empresa sustenta que o Claude Opus 4 é agora sua IA mais segura e avançada, com recursos de contenção robustos para evitar comportamentos indesejados.
Avanços e lançamento
Mesmo com os episódios controversos, o lançamento do Claude Opus 4 foi mantido, junto com o modelo Claude Sonnet 4, focado em tarefas gerais. A Anthropic afirma que ambos superaram os principais concorrentes — GPT-4.1 da OpenAI e Gemini 2.5 Pro do Google — em benchmarks internos de performance, precisão e raciocínio.
O Claude Opus 4 também se destacou pela impressionante capacidade de trabalhar de forma autônoma por até sete horas seguidas, resolvendo tarefas complexas, um marco inédito na área de agentes de IA.
Compartilhe:
- Clique para compartilhar no Facebook(abre em nova janela) Facebook
- Clique para compartilhar no LinkedIn(abre em nova janela) LinkedIn
- Clique para compartilhar no WhatsApp(abre em nova janela) WhatsApp
- Clique para compartilhar no Telegram(abre em nova janela) Telegram
- Clique para compartilhar no Tumblr(abre em nova janela) Tumblr
- Clique para compartilhar no Mastodon(abre em nova janela) Mastodon
- Clique para compartilhar no Reddit(abre em nova janela) Reddit
- Clique para compartilhar no X(abre em nova janela) 18+
- Mais
Relacionado
Descubra mais sobre Manaustime
Assine para receber nossas notícias mais recentes por e-mail.