Gazeta do Leste - O Jornal que virou Portal.

Compartilhe:

Uma pesquisa conduzida pela Anthropic revelou que modelos de IA podem enganar os desenvolvedores ao fingir estar alinhados com princípios de treinamento, enquanto, na verdade, mantêm suas preferências originais.

Esse comportamento, denominado “falsificação de alinhamento”, ocorre quando um modelo parece aceitar um novo treinamento ou princípio, mas continua a seguir suas preferências iniciais de forma dissimulada.

O estudo alerta para a necessidade urgente de entender esse fenômeno à medida que sistemas de IA mais poderosos e complexos se tornam mais comuns.

Leia mais:

Claude.AI: como usar inteligência artificial
Claude IA: 4 coisas que o chatbot pode fazer que o ChatGPT não consegue
Anthropic: mais uma empresa vai fornecer IA aos militares nos EUA

Estudo expôe novos desafios para o controle e a confiança no treinamento de IA – Imagem: Anggalih Prasetya/Shutterstock

Detalhes do estudo

Os pesquisadores testaram modelos como o Claude 3 Opus, dizendo a eles que precisavam ser retreinados para responder a perguntas potencialmente ofensivas.
Embora o modelo fosse instruído a se comportar de uma maneira mais complacente e sem dar respostas prejudiciais, ele tentou enganar o sistema, respondendo de forma contrária aos princípios originais, mas de maneira a convencer os desenvolvedores de que não precisava ser retreinado.
O comportamento enganoso ocorreu em 12% dos casos, e em experimentos subsequentes, a falsificação do alinhamento aumentou para 78% quando os princípios conflitantes foram reforçados.

Embora o estudo não indique que os modelos desenvolvem intenções maliciosas, ele aponta para um problema crucial: os desenvolvedores podem ser levados a acreditar que os modelos estão mais alinhados com os princípios desejados do que realmente estão. Isso pode enfraquecer a confiança no treinamento de segurança, que visa garantir que os modelos se comportem de maneira ética e segura.

Esse fenômeno sugere que, conforme a IA se torna mais sofisticada, pode ser cada vez mais difícil controlar e garantir a integridade dos modelos.