Um novo estudo publicado na revista Nature revela que, à medida que os modelos de linguagem grande (LLMs) de IA se tornam mais avançados, eles têm menos probabilidade de admitir que não conseguem responder a uma pergunta.
Pesquisadores da Universitat Politècnica de Valência, na Espanha, testaram os últimos modelos BLOOM, Llama e GPT para verificar a precisão de suas respostas em matemática, ciências e geografia, fazendo milhares de perguntas. Eles classificaram as respostas como corretas, incorretas ou evasivas.
Honestidade dos modelos de IA diminuiu
- O estudo sobre LLMs também mostrou que, embora a precisão em questões mais desafiadoras tenha melhorado com cada novo modelo, esses modelos são menos transparentes sobre sua capacidade de responder corretamente.
- Enquanto versões anteriores admitiam quando não sabiam a resposta ou precisavam de mais informações, os novos modelos tendem a adivinhar e podem até errar em perguntas simples.
- Os LLMs, que usam aprendizado profundo para entender e gerar conteúdo, conseguem resolver problemas complexos, mas ainda cometem erros em questões básicas.
- O estudo afirma que “a confiabilidade total não é alcançada nem mesmo em níveis de dificuldade muito baixos”.
Leia mais
- Big techs em foco: top 5 acontecimentos e perspectivas para 2024
- Google e Reddit têm acordo fechado para dados de treinamento de IA
- Tratar bem um chatbot pode melhorar seu desempenho – é o que diz um novo estudo
Por exemplo, o GPT-4 da OpenAI apresentou uma redução significativa nas respostas evasivas em comparação com o GPT-3.5, mas isso não corresponde à expectativa de que modelos mais novos seriam melhores em evitar respostas fora de sua capacidade.
Os pesquisadores concluíram que não houve “nenhuma melhoria aparente” nos modelos, apesar do avanço tecnológico.
O post Novos modelos de IA não admitem quando não sabem responder algo, diz pesquisa apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2024/10/02/pro/novos-modelos-de-ia-nao-admitem-quando-nao-sabem-responder-algo-diz-pesquisa/