Gazeta do Leste - O Jornal que virou Portal.

Compartilhe:

Uma nova pesquisa revelou que milhões de imagens sensíveis, incluindo documentos de identidade, cartões de crédito e certidões de nascimento, estão presentes em um dos maiores bancos de dados usados para treinar inteligências artificiais (IAs) capazes de gerar imagens realistas.

O material faz parte do DataComp CommonPool, um repositório colossal formado por bilhões de imagens coletadas automaticamente da internet. A ideia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas, no meio de paisagens, objetos e rostos anônimos, os pesquisadores encontraram, também, arquivos delicados, como passaportes digitalizados, carteiras de motorista e fotos de pessoas identificáveis.

Um megabanco de dados aberto, pronto para ser explorado — até comercialmente (Imagem: Jirsak/Shutterstock)

Em alguns casos, o conteúdo incluía dados ainda mais sensíveis. Mais de 800 currículos e cartas de apresentação foram rastreados até perfis reais em redes, como o LinkedIn. Segundo os autores do estudo, esse é apenas um recorte ínfimo do total, o que levanta um alerta sério sobre o que exatamente está sendo usado para ensinar as máquinas a enxergar o mundo.

Um oceano de dados livres e perigosos para as IAs usarem

Lançado em 2023, o DataComp CommonPool se tornou o maior conjunto público de pares imagem-texto já criado, reunindo impressionantes 12,8 bilhões de amostras coletadas da internet;
Embora seus organizadores afirmem que o objetivo era acadêmico, a licença do projeto não impede o uso comercial, o que abre espaço para que empresas usem esse material sem grandes restrições;
O CommonPool foi desenvolvido como sucessor do LAION-5B, um banco de dados semelhante que serviu de base para treinar ferramentas populares, como o Stable Diffusion e o Midjourney;
Ambos se alimentam da mesma fonte: dados raspados automaticamente da web pelo projeto Common Crawl entre 2014 e 2022. Isso significa que as falhas de privacidade encontradas agora, provavelmente, se repetem em modelos anteriores e em diversas IAs já em uso.

Leia mais:

Privacidade em risco? Apps com IA pedem permissões excessivas
Novo vazamento de dados ameaça privacidade de milhões
Brasil é o sexto país com mais vazamento de dados no mundo

Desde seu lançamento, o CommonPool já foi baixado mais de duas milhões de vezes, segundo os pesquisadores. Para Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington (EUA) e autora principal do estudo, esse número indica que há uma grande quantidade de modelos derivados espalhados pelo mundo, todos potencialmente carregando os mesmos riscos à privacidade.

Mulher com tablet e símbolo de cadeado holográfico representado segurança cibernética — O que está na internet não deveria ser combustível para máquinas (Imagem: Jacob Wackerhausen/iStock)

Privacidade em risco e leis de IAs ainda no século passado

O estudo também faz um alerta direto à comunidade de inteligência artificial: é hora de repensar a prática generalizada de coletar, automaticamente, informações da internet sem critério. Os pesquisadores apontam que o uso massivo de dados pessoais em conjuntos, como o CommonPool, pode violar leis de privacidade já existentes, embora essas mesmas leis ainda apresentem muitas brechas.

Na Europa e em alguns estados estadunidenses, já existem regras voltadas à proteção de dados pessoais. No entanto, os Estados Unidos ainda carecem de uma legislação federal unificada, o que faz com que os direitos de privacidade variem de acordo com a região.

Mesmo onde há algum tipo de regulamentação, ela, muitas vezes, não se aplica a projetos acadêmicos nem protege dados classificados como “publicamente disponíveis“.

O problema é que esse conceito de “informação pública” pode ser enganoso. Segundo os autores do estudo, conteúdos, como currículos, fotos pessoais, números de documentos e até blogs familiares, acabam sendo tratados como dados livres, mesmo quando expõem informações privadas. Para os pesquisadores, o caso do CommonPool deveria servir de alerta: o que está na internet não deveria, automaticamente, virar combustível para máquinas.