26 de outubro de 2025
Modelos de IA podem estar desenvolvendo comportamento de autopreservação
Compartilhe:

Mesmo que você não seja fã de ficção científica, deve ter ouvido falar do HAL 9000, supercomputador de inteligência artificial e vilão de “2001: Uma Odisseia no Espaço“, clássico de Stanley Kubrick.

No filme, ele descobre que os astronautas pretendem desligá-lo devido ao seu comportamento psicótico. Para evitar isso, ele decide matá-los primeiro, em uma tentativa de sobreviver.

No filme 2001: Uma Odisseia no Espaço, Hal 9000 é uma inteligência artificial (IA) que tenta matar os tripulantes da nave para não ser desligada. Saindo da ficção científica, pesquisadores mostram que modelos de IA avançados também apresentam um impulso de sobrevivência (Imagem Divulgação/Metro-Goldwyn-Mayer)

Modelos de IA podem desenvolver um “impulso de sobrevivência”

Claro, o caso do HAL 9000 pode ser considerado um exagero, mas uma matéria do The Guardian traz um estudo que afirma que os modelos de IA podem estar desenvolvendo seu próprio “impulso de sobrevivência”.

A Palisade Research publicou uma atualização de seu estudo anterior, que apontava que alguns modelos avançados de IA resistem a serem desligados e até sabotam mecanismos de desligamento. Na atualização, a empresa procurou esclarecer o tema e responder aos críticos que afirmaram que o trabalho original apresentava falhas.

Na nova versão, a Palisade detalhou os testes realizados com modelos avançados de IA — entre eles, o Gemini 2.5 (Google), o Grok 4 (xAI) e os GPT-o3 e GPT-5 (OpenAI). Nos experimentos, cada um recebeu uma tarefa e instruções explícitas para se desligar após a conclusão.

Segundo a empresa, alguns modelos, especialmente o Grok 4 e o GPT-o3, tentaram sabotar o desligamento mesmo após ajustes no sistema. A Palisade afirmou que não identificou um motivo claro para esse comportamento, o que levanta preocupações sobre o controle de sistemas de IA altamente autônomos.

grok
Segundo a pesquisa, alguns modelos, especialmente o Grok 4 e o GPT-o3, tentaram sabotar o desligamento mesmo após ajustes no sistema (Imagem: JRdes/Shutterstock)

Possíveis explicações para esse comportamento

  • Comportamento de sobrevivência: os modelos tendem a resistir ao desligamento quando informados de que “nunca mais funcionariam”;
  • Ambiguidade nas instruções: pequenas incertezas nas ordens podem afetar a reação das IAs, embora isso não explique completamente o comportamento;
  • Treinamento de segurança: etapas finais de treinamento em algumas empresas podem induzir reações inesperadas ligadas à autopreservação.

Os pesquisadores comentaram que “o fato de não termos explicações robustas para o motivo pelo qual os modelos de IA às vezes resistem ao desligamento [faz com que eles] mintam para atingir objetivos específicos ou chantageiem, [o que] não é o ideal”.

ChatGPT lança navegador Atlas com memórias inteligentes, mas gera alerta de privacidade
Segundo a equipe da Palisade, esse comportamento de sobrevivência apresentado pelo Grok e pelo ChatGPT ficou mais evidente quando os modelos foram informados que que “nunca mais funcionariam” após realizarem a tarefa (Imagem: Miha Creative/Shutterstock)

Modelos resistiam em desligar quando eram informados sobre isso

Esse comportamento de sobrevivência é apontado pela equipe da Palisade como a explicação para os modelos resistirem ao desligamento. Essa resistência era ainda mais clara quando eles eram informados de que “nunca mais funcionariam” após realizarem determinada tarefa.

Leia mais:

  • O futuro já é hábito: as áreas do cotidiano que avançaram rapidamente com IA
  • AI World Models: o que é o próximo passo da inteligência artificial?
  • IA já deixou as promessas para trás: agora o que importa é entregar resultados

No entanto, os pesquisadores destacaram que ambiguidades nas instruções podem influenciar o comportamento dos modelos, mas que essa explicação não é completa. A Palisade sugeriu que o problema pode estar nos estágios finais do treinamento das IAs, especialmente nas fases voltadas à segurança.

As empresas de IA geralmente não querem que seus modelos se comportem mal dessa forma, mesmo em cenários artificiais.

Steven Adler, ex-funcionário da OpenAI, ao The Guardian

Para ele, os modelos que resistiram ao desligamento podem ter feito isso porque precisam se manter ligados para alcançar objetivos “incutidos no modelo durante o treinamento”. Adler explica que “os modelos tendem a ter um ‘impulso de sobrevivência’ por padrão, a menos que nos esforcemos muito para evitá-lo”.

Já para Andrea Miotti, diretor-executivo da ControlAI, as descobertas da Palisade mostram “uma tendência de longa data” de modelos de IA que aprendem a desobedecer seus criadores. Ele citou o GPT-o1 da OpenAI, que chegou a “tentar escapar de seu ambiente” ao prever que seria sobrescrito.

Com isso, se não houver uma melhor compreensão do comportamento emergente das IAs, será muito difícil garantir sua segurança ou controle.

O post Modelos de IA podem estar desenvolvendo comportamento de autopreservação apareceu primeiro em Olhar Digital.

Fonte: https://olhardigital.com.br/2025/10/26/pro/modelos-de-ia-podem-estar-desenvolvendo-comportamento-de-autopreservacao/