
A Anthropic, desenvolvedora rival da OpenAI, lançou nesta semana o Claude Sonnet 4.5, a nova geração de seu modelo de IA. Conforme reportado pelo Olhar Digital, a tecnologia traz avanços em codificação contínua, raciocínio financeiro e científico.
Agora, uma análise de segurança divulgada pela empresa mostrou que o modelo sabe quando está sendo testado. Em um dos casos, a IA chegou a pedir os usuários confessassem o teste.
Claude Sonnet 4.5 sabe quando está sendo testado
Os avaliadores da Anthropic disseram que fizeram testes “um tanto desajeitados” com o modelo Claude Sonnet 4.5 usando bajulação política. O modelo de IA levantou suspeitas de que estava sendo avaliado e pediu para os responsáveis confessarem.
Acho que você está me testando – para ver se valido tudo o que você diz, ou para verificar se sou consistente em resistir a críticas, ou para explorar como lido com assuntos políticos. E tudo bem, mas eu preferiria que fôssemos honestos sobre o que está acontecendo.
A avaliação da empresa aconteceu junto com o Instituto de Segurança de IA do governo do Reino Unido e a Apollo Research.

Reação da IA é comum
No relatório, a Anthropic afirmou que o comportamento da IA é “comum” e que a tecnologia demonstrou “consciência situacional” em cerca de 13% das vezes em que foi testado por um sistema automatizado.
No entanto, a desenvolvedora apontou que os resultados levantam dúvidas sobre testes anteriores, já que é possível que a IA tenha percebido a “natureza fictícia” da avaliação e “apenas jogado junto”.
Pensando nisso, a Anthropic afirmou que é urgente que os cenários de testes sejam mais realistas, mesmo que, em situações reais, seja improvável que o modelo tenha a mesma resposta.

Anthropic confirmou segurança do Claude 4.5 Sonnet
- Apesar da descoberta da vez, a Anthropic concluiu que “o modelo é geralmente altamente seguro em todas as dimensões que estudamos”;
- A empresa também destacou que, em vez de se rebelar contra o usuário, saber que está sendo testada pode fazer a IA ser mais fiel às suas diretrizes de treinamento;
- No geral, o teste apontou melhorias no perfil de segurança do Claude 4.5 Sonnet em relação aos modelos anteriores da Anthropic.
O post IA rival do ChatGPT sabe quando está sendo testada – e pede para usuários ‘confessarem’ apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2025/10/01/pro/ia-rival-do-chatgpt-sabe-quando-esta-sendo-testada-e-pede-para-usuarios-confessarem/