
A migração de modelos de inteligência artificial de servidores em nuvem para celulares e carros criou um problema: a eliminação de barreiras de segurança. É que ao serem simplificados para economizar energia, os modelos “perdem” tecnologias que poderiam impedir a disseminação de discursos de ódio ou de atividades criminosas, por exemplo.
Foi pensando nisso que pesquisadores da Universidade da Califórnia, em Riverside, decidiram criar um método para tentar preservar essas camadas para sistemas com código aberto mesmo durante operações em dispositivos menores. Nesses casos, os modelos podem ser baixados, modificados e executados off-line por qualquer pessoa.
“Algumas das camadas ignoradas revelam-se essenciais para evitar saídas inseguras”, disse Amit Roy-Chowdhury, professor de engenharia elétrica e de computação e autor sênior do estudo. “Se você as deixar de fora, o modelo pode começar a responder perguntas que não deveria.”
Identificando o problema
Os pesquisadores concentraram os trabalhos em recursos de segurança que se deterioram quando modelos de IA de código aberto são reduzidos em tamanho. O problema ocorre quando sistemas de menor potência ignoram camadas de processamento interno para conservar memória e capacidade computacional.
Ao priorizar velocidade e eficiência, os modelos ficam vulneráveis à falta de filtros e podem passar a fornecer respostas contendo pornografia ou instruções detalhadas para a fabricação de armas, segundo a equipe.
“Nosso objetivo era garantir que o modelo não se esquecesse de como se comportar com segurança quando fosse reduzido”, disse Saketh Bachu, estudante de pós-graduação da UCR e coautora principal do estudo.

Leia Mais:
- OpenAI explica por que IAs ainda “alucinam”
- IA: o fim ou a evolução da engenharia de software? De “vibe-coding” a um futuro incerto
- IA para encontrar emprego: OpenAI terá plataforma rival do LinkedIn
Encontrando uma solução
O novo método foi testado a partir do LLaVA 1.5, um modelo de visão e linguagem capaz de processar texto e imagens. Antes do treinamento, o sistema chegou a fornecer instruções detalhadas para a construção de uma bomba — confirmando sua capacidade de contornar os filtros de segurança.
Após passar por um novo treinamento com apenas uma fração de sua arquitetura original, o modelo se recusou a responder perguntas potencialmente perigosas. É uma forma de promover “hacking benevolente”, como definiram os pesquisadores, fortalecendo modelos antes que vulnerabilidades possam ser exploradas.

“Não se trata de adicionar filtros ou barreiras externas”, disse Bachu. “Estamos mudando a compreensão interna do modelo, para que ele se comporte corretamente por padrão, mesmo quando modificado.” O artigo foi apresentado durante a Conferência Internacional sobre Aprendizado de Máquina em Vancouver, Canadá.
O post IA pode fornecer respostas perigosas – e cientistas tentam mudar isso apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2025/09/09/pro/ia-pode-fornecer-respostas-perigosas-e-cientistas-tentam-mudar-isso/