
Uma nova pesquisa revelou que milhões de imagens sensíveis, incluindo documentos de identidade, cartões de crédito e certidões de nascimento, estão presentes em um dos maiores bancos de dados usados para treinar inteligências artificiais (IAs) capazes de gerar imagens realistas.
O material faz parte do DataComp CommonPool, um repositório colossal formado por bilhões de imagens coletadas automaticamente da internet. A ideia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas, no meio de paisagens, objetos e rostos anônimos, os pesquisadores encontraram, também, arquivos delicados, como passaportes digitalizados, carteiras de motorista e fotos de pessoas identificáveis.
Em alguns casos, o conteúdo incluía dados ainda mais sensíveis. Mais de 800 currículos e cartas de apresentação foram rastreados até perfis reais em redes, como o LinkedIn. Segundo os autores do estudo, esse é apenas um recorte ínfimo do total, o que levanta um alerta sério sobre o que exatamente está sendo usado para ensinar as máquinas a enxergar o mundo.
Um oceano de dados livres e perigosos para as IAs usarem
- Lançado em 2023, o DataComp CommonPool se tornou o maior conjunto público de pares imagem-texto já criado, reunindo impressionantes 12,8 bilhões de amostras coletadas da internet;
- Embora seus organizadores afirmem que o objetivo era acadêmico, a licença do projeto não impede o uso comercial, o que abre espaço para que empresas usem esse material sem grandes restrições;
- O CommonPool foi desenvolvido como sucessor do LAION-5B, um banco de dados semelhante que serviu de base para treinar ferramentas populares, como o Stable Diffusion e o Midjourney;
- Ambos se alimentam da mesma fonte: dados raspados automaticamente da web pelo projeto Common Crawl entre 2014 e 2022. Isso significa que as falhas de privacidade encontradas agora, provavelmente, se repetem em modelos anteriores e em diversas IAs já em uso.
Leia mais:
- Privacidade em risco? Apps com IA pedem permissões excessivas
- Novo vazamento de dados ameaça privacidade de milhões
- Brasil é o sexto país com mais vazamento de dados no mundo
Desde seu lançamento, o CommonPool já foi baixado mais de duas milhões de vezes, segundo os pesquisadores. Para Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington (EUA) e autora principal do estudo, esse número indica que há uma grande quantidade de modelos derivados espalhados pelo mundo, todos potencialmente carregando os mesmos riscos à privacidade.

Privacidade em risco e leis de IAs ainda no século passado
O estudo também faz um alerta direto à comunidade de inteligência artificial: é hora de repensar a prática generalizada de coletar, automaticamente, informações da internet sem critério. Os pesquisadores apontam que o uso massivo de dados pessoais em conjuntos, como o CommonPool, pode violar leis de privacidade já existentes, embora essas mesmas leis ainda apresentem muitas brechas.
Na Europa e em alguns estados estadunidenses, já existem regras voltadas à proteção de dados pessoais. No entanto, os Estados Unidos ainda carecem de uma legislação federal unificada, o que faz com que os direitos de privacidade variem de acordo com a região.
Mesmo onde há algum tipo de regulamentação, ela, muitas vezes, não se aplica a projetos acadêmicos nem protege dados classificados como “publicamente disponíveis“.
O problema é que esse conceito de “informação pública” pode ser enganoso. Segundo os autores do estudo, conteúdos, como currículos, fotos pessoais, números de documentos e até blogs familiares, acabam sendo tratados como dados livres, mesmo quando expõem informações privadas. Para os pesquisadores, o caso do CommonPool deveria servir de alerta: o que está na internet não deveria, automaticamente, virar combustível para máquinas.

O post Seu rosto, CPF e currículo podem estar alimentando IAs; entenda apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2025/07/27/internet-e-redes-sociais/seu-rosto-cpf-e-curriculo-podem-estar-alimentando-ias-entenda/