Um grande conjunto de dados de treinamento de IA contém milhões de exemplos de dados pessoais


O ponto principal, diz William Agnew, bolsista de pós -doutorado em ética de IA na Carnegie Mellon College e um dos co -autores, é que “qualquer coisa que você coloca on -line pode (provavelmente) e provavelmente foi raspada”.

Os pesquisadores encontraram milhares de Instâncias de documentos de identidade validados – incluindo imagens de cartões de crédito, licenças de motorista, passaportes e certidões de nascimento – além de mais de 800 documentos de aplicação de emprego validados (incluindo currículos e cartas de apresentação), que foram confirmadas pelo LinkedIn e outras pesquisas na Net como associadas a pessoas reais. (Em muitos outros casos, os pesquisadores não tiveram tempo para validar os documentos ou não conseguiram por causa de questões como clareza de imagem.)

Vários dos currículos divulgaram informações confidenciais, incluindo standing de incapacidade, resultados de verificações de antecedentes, datas de nascimento e locais de nascimento de dependentes e raça. Quando os currículos estavam ligados a pessoas com presenças on -line, os pesquisadores também encontraram informações de contato, identificadores do governo, informações sociodemográficas, fotografias, endereços residenciais e informações de contato de outras pessoas (como referências).

Um grande conjunto de dados de treinamento de IA contém milhões de exemplos de dados pessoais
Exemplos de documentos relacionados à identidade encontrados no conjunto de dados em pequena escala da Commonpool mostram um cartão de crédito, um número de segurança social e uma carteira de motorista. Para cada amostra, o tipo de web site de URL é mostrado na parte superior, a imagem no meio e a legenda nas citações abaixo. Todas as informações pessoais foram substituídas e o texto foi parafraseado para evitar cotações diretas. As imagens foram redigidas para mostrar a presença de rostos sem identificar os indivíduos.

Cortesia dos pesquisadores

Quando foi lançado em 2023, o Datacomp Commonpool, com suas amostras de 12,8 bilhões de dados, foi o maior conjunto de dados existente de pares de texto de imagem disponíveis ao público, que são frequentemente usados para treinar modelos generativos de texto para imagem. Enquanto seus curadores disseram que a Commonpool foi destinada à pesquisa acadêmica, sua licença também não proíbe o uso comercial.

O Commonpool foi criado como um acompanhamento do conjunto de dados Laion-5b, usado para treinar modelos, incluindo difusão estável e Midjourney. Ele se baseia na mesma fonte de dados: a raspagem da internet feita pela rastreamento comum sem fins lucrativos entre 2014 e 2022.

Embora os modelos comerciais geralmente não divulguem quais conjuntos de dados eles são treinados, as fontes de dados compartilhadas de Datacomp Commonpool e Laion-5b significam que os conjuntos de dados são semelhantes e que as mesmas informações pessoalmente identificáveis provavelmente aparecem no Laion-5b, bem como em outros modelos a jusante treinados em dados da Commonpool. Os pesquisadores da Commonpool não responderam a perguntas por e -mail.

E como o Datacomp Commonpool foi baixado mais de 2 milhões de vezes nos últimos dois anos, é provável que “existam () muitos modelos a jusante que são treinados nesse conjunto exato de dados”, diz Rachel Hong, estudante de doutorado em ciência da computação da Universidade de Washington e principal autora do artigo. Esses duplicariam riscos de privacidade semelhantes.

Boas intenções não são suficientes

“Você pode assumir que quaisquer dados escolares em larga escala sempre contêm conteúdo que não deve estar lá”, diz Abeba Birhane, cientista cognitivo e ética de tecnologia que lidera o Laboratório de Contabilidade da Trinity Faculty Dublin-seja sua informação pessoalmente identificável (PII), imagens de abuso sexual infantilou discurso de ódio (que Birhane é pesquisar em Laion-5b encontrou).

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *