Gazeta do Leste - O Jornal que virou Portal.

Compartilhe:

Uma equipe de especialistas em tecnologia lançou uma iniciativa global chamada “Último Exame da Humanidade”, que busca formular perguntas desafiadoras para sistemas de inteligência artificial, agora capazes de superar testes de benchmark comuns com facilidade. As informações são da Reuters.

Organizada pelo Center for AI Safety (CAIS) e pela startup Scale AI, a chamada pretende avaliar o nível de sofisticação da IA especializada, garantindo relevância mesmo com os avanços futuros.

A iniciativa surgiu após o lançamento do modelo OpenAI o1, que superou benchmarks populares de raciocínio, segundo Dan Hendrycks, diretor-executivo do CAIS.

Hendrycks, coautor de estudos sobre testes de IA, destacou a evolução das respostas, que antes eram aleatórias e agora estão significativamente melhores.

Ideia do teste é avaliar qual o nível de sofisticação que os modelos mais potentes de IA já atingiram (Imagem: Gorodenkoff / Shutterstock.com)

Leia mais:

Modelo de IA recém-lançado promete ser concorrente forte ao ChatGPT
IA Generativa: promessa de um futuro com mais criatividade e inovação
Como a IA generativa se tornou tendência na segurança cibernética em 2024

Embora os modelos de IA, como o Claude da Anthropic, tenham melhorado suas pontuações em exames, a eficácia de benchmarks comuns é questionada. Pesquisas indicam que esses modelos têm desempenho inferior em testes menos frequentes, como raciocínio abstrato e quebra-cabeças visuais.

Detalhes do “Último Exame da Humanidade”

Os organizadores afirmam que o “Último Exame da Humanidade” incluirá pelo menos mil perguntas, com uma data de entrega marcada para 1º de novembro.
As perguntas, que serão revisadas por pares, não poderão envolver armamentos, em consideração aos riscos associados.
Os vencedores poderão coautorar o exame e receber prêmios de até US$ 5 mil. A meta é estabelecer testes mais rigorosos para medir o rápido avanço da IA, conforme enfatizado por Alexandr Wang, CEO da Scale AI.