Uma investigação realizada pela Organização Não Governamental (ONG) Human Rights Watch revelou que 170 fotografias e dados pessoais de crianças e adolescentes brasileiros foram utilizados sem consentimento para treinar ferramentas de Inteligência Artificial (IA). Essas imagens teriam sido extraídas de blogs pessoais e vídeos no YouTube com baixo alcance, publicados desde meados da década de 1990 até o ano passado.
O relatório apontou que as informações pessoais e os links para as fotos foram incorporados ao LAION-5B, um conjunto de dados amplamente empregado no treinamento de sistemas de IA. Esse repositório foi criado pela LAION, uma organização sem fins lucrativos com sede na Alemanha, e atualmente conta com mais de 5,85 bilhões de pares de imagens e legendas de acesso público.
O LAION-5B foi utilizado para treinar ferramentas como o Stable Diffusion, um gerador de imagens desenvolvido pela Stability AI. No entanto, conforme reportado pela Wired, o porta-voz da LAION, Nate Tyler, informou que “o LAION-5B foi retirado do ar em resposta a um relatório de Stanford que encontrou links no dataset apontando para conteúdo ilegal na web pública”. Ele acrescentou que os esforços da organização estão concentrados em “remover todas as referências conhecidas a conteúdo ilegal.”
Hye Jung Han, pesquisadora de direitos da criança e tecnologia na Human Rights Watch, expressa preocupação de que o dataset possa revelar informações confidenciais das crianças e adolescentes, como suas localizações ou dados médicos. Ela adverte: “Qualquer criança que tenha fotos ou vídeos de si mesma on-line está em risco, porque qualquer pessoa mal-intencionada pode obter essa imagem e usar as ferramentas para manipulá-la como quiser.”