27 de julho de 2025
Sua vida digital após a morte: como garantir sua privacidade?
Compartilhe:

Uma nova pesquisa revelou que milhões de imagens sensíveis, incluindo documentos de identidade, cartões de crédito e certidões de nascimento, estão presentes em um dos maiores bancos de dados usados para treinar inteligências artificiais (IAs) capazes de gerar imagens realistas.

O material faz parte do DataComp CommonPool, um repositório colossal formado por bilhões de imagens coletadas automaticamente da internet. A ideia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas, no meio de paisagens, objetos e rostos anônimos, os pesquisadores encontraram, também, arquivos delicados, como passaportes digitalizados, carteiras de motorista e fotos de pessoas identificáveis.

Um megabanco de dados aberto, pronto para ser explorado — até comercialmente (Imagem: Jirsak/Shutterstock)

Em alguns casos, o conteúdo incluía dados ainda mais sensíveis. Mais de 800 currículos e cartas de apresentação foram rastreados até perfis reais em redes, como o LinkedIn. Segundo os autores do estudo, esse é apenas um recorte ínfimo do total, o que levanta um alerta sério sobre o que exatamente está sendo usado para ensinar as máquinas a enxergar o mundo.

Um oceano de dados livres e perigosos para as IAs usarem

  • Lançado em 2023, o DataComp CommonPool se tornou o maior conjunto público de pares imagem-texto já criado, reunindo impressionantes 12,8 bilhões de amostras coletadas da internet;
  • Embora seus organizadores afirmem que o objetivo era acadêmico, a licença do projeto não impede o uso comercial, o que abre espaço para que empresas usem esse material sem grandes restrições;
  • O CommonPool foi desenvolvido como sucessor do LAION-5B, um banco de dados semelhante que serviu de base para treinar ferramentas populares, como o Stable Diffusion e o Midjourney;
  • Ambos se alimentam da mesma fonte: dados raspados automaticamente da web pelo projeto Common Crawl entre 2014 e 2022. Isso significa que as falhas de privacidade encontradas agora, provavelmente, se repetem em modelos anteriores e em diversas IAs já em uso.

Leia mais:

  • Privacidade em risco? Apps com IA pedem permissões excessivas
  • Novo vazamento de dados ameaça privacidade de milhões
  • Brasil é o sexto país com mais vazamento de dados no mundo

Desde seu lançamento, o CommonPool já foi baixado mais de duas milhões de vezes, segundo os pesquisadores. Para Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington (EUA) e autora principal do estudo, esse número indica que há uma grande quantidade de modelos derivados espalhados pelo mundo, todos potencialmente carregando os mesmos riscos à privacidade.

Mulher com tablet e símbolo de cadeado holográfico representado segurança cibernética
O que está na internet não deveria ser combustível para máquinas (Imagem: Jacob Wackerhausen/iStock)

Privacidade em risco e leis de IAs ainda no século passado

O estudo também faz um alerta direto à comunidade de inteligência artificial: é hora de repensar a prática generalizada de coletar, automaticamente, informações da internet sem critério. Os pesquisadores apontam que o uso massivo de dados pessoais em conjuntos, como o CommonPool, pode violar leis de privacidade já existentes, embora essas mesmas leis ainda apresentem muitas brechas.

Na Europa e em alguns estados estadunidenses, já existem regras voltadas à proteção de dados pessoais. No entanto, os Estados Unidos ainda carecem de uma legislação federal unificada, o que faz com que os direitos de privacidade variem de acordo com a região.

Mesmo onde há algum tipo de regulamentação, ela, muitas vezes, não se aplica a projetos acadêmicos nem protege dados classificados como “publicamente disponíveis“.

O problema é que esse conceito de “informação pública” pode ser enganoso. Segundo os autores do estudo, conteúdos, como currículos, fotos pessoais, números de documentos e até blogs familiares, acabam sendo tratados como dados livres, mesmo quando expõem informações privadas. Para os pesquisadores, o caso do CommonPool deveria servir de alerta: o que está na internet não deveria, automaticamente, virar combustível para máquinas.

Pessoa egurando um celular
Problema é que esse conceito de “informação pública” pode ser enganoso (Imagem: Good Faces/Unsplash)

O post Seu rosto, CPF e currículo podem estar alimentando IAs; entenda apareceu primeiro em Olhar Digital.

Fonte: https://olhardigital.com.br/2025/07/27/internet-e-redes-sociais/seu-rosto-cpf-e-curriculo-podem-estar-alimentando-ias-entenda/