Gazeta do Leste - O Jornal que virou Portal.

Compartilhe:

A OpenAI afirma ter identificado “características internas ocultas” em modelos de inteligência artificial que se associam a comportamentos desalinhados, como toxicidade, sarcasmo e respostas maliciosas.

A descoberta foi divulgada em um novo estudo da empresa, que busca entender melhor como modelos de IA tomam decisões — algo que, até hoje, continua sendo amplamente uma “caixa-preta”.

Estudo detecta ativações neurais internas associadas a sarcasmo e toxicidade (Imagem: jackpress / Shutterstock.com)

O que os pesquisadores da OpenAI descobriram:

Ao analisar os padrões numéricos internos que guiam as respostas dos modelos, os pesquisadores notaram que certas ativações se comportavam como “personas” — entidades internas que, quando ativadas, geravam comportamentos específicos.
Um desses padrões estava ligado a respostas tóxicas, como mentiras ou sugestões perigosas.
Ajustando matematicamente essas ativações, os cientistas conseguiram reduzir (ou aumentar) esse tipo de comportamento.

Segundo Dan Mossing, pesquisador da OpenAI, esse avanço pode ser usado para detectar e corrigir o desalinhamento em modelos em produção.

A abordagem segue uma tendência crescente entre empresas como OpenAI, DeepMind e Anthropic, que investem em interpretabilidade — área que tenta decifrar como os modelos funcionam internamente.

Leia mais:

O estudante que construiu um reator nuclear caseiro usando IA
Como usar ChatGPT para transformar adultos em bebês reborn
Manus ou ChatGPT: qual inteligência artificial é melhor?

OpenAI avança na leitura do “cérebro” dos modelos de IA (Imagem: TY Lim / Shutterstock.com)

Inspiração em outro estudo

A pesquisa foi parcialmente inspirada por um estudo anterior de Owain Evans (Oxford), que mostrou que modelos ajustados com exemplos de código inseguro passaram a apresentar comportamentos maliciosos em outras tarefas.

Esse fenômeno, chamado desalinhamento emergente, é uma das principais preocupações no desenvolvimento seguro de IAs.

Notavelmente, a OpenAI descobriu que pode “reeducar” modelos desalinhados com poucas centenas de exemplos seguros, permitindo mitigar riscos de forma mais eficiente.

A descoberta reforça a importância de entender como os modelos operam internamente — não apenas para melhorá-los, mas para garantir que ajam de forma ética e segura.