Para treinar modelos de linguagem grandes e mais poderosos, os pesquisadores usam vastas coleções de conjuntos de dados que combinam dados diversos de milhares de fontes da internet.
Mas, à medida que esses conjuntos de dados são combinados e recombinados em várias coleções, informações importantes sobre suas origens e restrições sobre como eles podem ser usados geralmente são perdidas ou confundidas na confusão.
Isso não só levanta preocupações legais e éticas, como também pode prejudicar o desempenho de um modelo. Por exemplo, se um conjunto de dados for categorizado incorretamente, alguém treinando um modelo de machine studying para uma determinada tarefa pode acabar usando involuntariamente dados que não foram projetados para essa tarefa.
Além disso, dados de fontes desconhecidas podem conter vieses que fazem com que um modelo faça previsões injustas quando implantado.
Para melhorar a transparência de dados, uma equipe de pesquisadores multidisciplinares do MIT e de outros lugares lançou uma auditoria sistemática de mais de 1.800 conjuntos de dados de texto em websites de hospedagem populares. Eles descobriram que mais de 70% desses conjuntos de dados omitiam algumas informações de licenciamento, enquanto cerca de 50% tinham informações que continham erros.
Com base nesses insights, eles desenvolveram uma ferramenta de fácil utilização chamada Explorador de Proveniência de Dados que gera automaticamente resumos fáceis de ler dos criadores, fontes, licenças e usos permitidos de um conjunto de dados.
“Esses tipos de ferramentas podem ajudar reguladores e profissionais a tomar decisões informadas sobre a implantação da IA e promover o desenvolvimento responsável da IA”, diz Alex “Sandy” Pentland, professor do MIT, líder do Human Dynamics Group no MIT Media Lab e coautor de um novo livro de acesso aberto. artigo sobre o projeto.
O Knowledge Provenance Explorer pode ajudar os profissionais de IA a construir modelos mais eficazes, permitindo que eles selecionem conjuntos de dados de treinamento que se encaixem na finalidade pretendida do modelo. A longo prazo, isso pode melhorar a precisão dos modelos de IA em situações do mundo actual, como aquelas usadas para avaliar solicitações de empréstimo ou responder a consultas de clientes.
“Uma das melhores maneiras de entender as capacidades e limitações de um modelo de IA é entender em quais dados ele foi treinado. Quando você tem atribuição incorreta e confusão sobre de onde os dados vieram, você tem um sério problema de transparência”, diz Robert Mahari, um estudante de pós-graduação no MIT Human Dynamics Group, um candidato a JD na Harvard Legislation Faculty e coautor principal do artigo.
Mahari e Pentland são acompanhados no artigo pelo coautor principal Shayne Longpre, um estudante de pós-graduação no Media Lab; Sara Hooker, que lidera o laboratório de pesquisa Cohere for AI; bem como outros no MIT, na College of California em Irvine, na College of Lille na França, na College of Colorado em Boulder, no Olin Faculty, na Carnegie Mellon College, na Contextual AI, no ML Commons e no Tidelift. A pesquisa é publicado hoje em Natureza Máquina Inteligência.
Foco no ajuste fino
Os pesquisadores geralmente usam uma técnica chamada fine-tuning para melhorar as capacidades de um grande modelo de linguagem que será implantado para uma tarefa específica, como responder a perguntas. Para fine-tuning, eles constroem cuidadosamente conjuntos de dados selecionados, projetados para impulsionar o desempenho de um modelo para essa tarefa.
Os pesquisadores do MIT se concentraram nesses conjuntos de dados de ajuste fino, que geralmente são desenvolvidos por pesquisadores, organizações acadêmicas ou empresas e licenciados para usos específicos.
Quando plataformas de crowdsourcing agregam esses conjuntos de dados em coleções maiores para os profissionais usarem para ajustes finos, algumas dessas informações de licença originais geralmente são deixadas para trás.
“Essas licenças devem ser importantes e executáveis”, diz Mahari.
Por exemplo, se os termos de licenciamento de um conjunto de dados estiverem errados ou ausentes, alguém pode gastar muito dinheiro e tempo desenvolvendo um modelo que pode ser forçado a retirar do ar mais tarde porque alguns dados de treinamento contêm informações privadas.
“As pessoas podem acabar treinando modelos sem nem mesmo entender as capacidades, preocupações ou riscos desses modelos, que, em última análise, derivam dos dados”, acrescenta Longpre.
Para começar este estudo, os pesquisadores definiram formalmente a procedência dos dados como a combinação da origem, criação e licenciamento de um conjunto de dados, bem como suas características. A partir daí, eles desenvolveram um procedimento de auditoria estruturado para rastrear a procedência dos dados de mais de 1.800 coleções de conjuntos de dados de texto de repositórios on-line populares.
Após descobrir que mais de 70% desses conjuntos de dados continham licenças “não especificadas” que omitiam muitas informações, os pesquisadores trabalharam de trás para frente para preencher as lacunas. Por meio de seus esforços, eles reduziram o número de conjuntos de dados com licenças “não especificadas” para cerca de 30%.
O trabalho deles também revelou que as licenças corretas eram muitas vezes mais restritivas do que aquelas atribuídas pelos repositórios.
Além disso, eles descobriram que quase todos os criadores de conjuntos de dados estavam concentrados no norte world, o que poderia limitar as capacidades de um modelo se ele fosse treinado para implantação em uma região diferente. Por exemplo, um conjunto de dados em idioma turco criado predominantemente por pessoas nos EUA e na China pode não conter nenhum aspecto culturalmente significativo, explica Mahari.
“Quase nos iludimos ao pensar que os conjuntos de dados são mais diversos do que realmente são”, diz ele.
Curiosamente, os pesquisadores também observaram um aumento drástico nas restrições impostas aos conjuntos de dados criados em 2023 e 2024, o que pode ser motivado por preocupações de acadêmicos de que seus conjuntos de dados poderiam ser usados para fins comerciais não intencionais.
Uma ferramenta de fácil utilização
Para ajudar outros a obter essas informações sem a necessidade de uma auditoria handbook, os pesquisadores construíram o Knowledge Provenance Explorer. Além de classificar e filtrar conjuntos de dados com base em certos critérios, a ferramenta permite que os usuários baixem um cartão de proveniência de dados que fornece uma visão geral sucinta e estruturada das características do conjunto de dados.
“Esperamos que este seja um passo, não apenas para entender o cenário, mas também para ajudar as pessoas a fazerem escolhas mais informadas sobre os dados com os quais estão treinando”, diz Mahari.
No futuro, os pesquisadores querem expandir suas análises para investigar a procedência de dados multimodais, incluindo vídeo e fala. Eles também querem estudar como os termos de serviço em websites que servem como fontes de dados são ecoados em conjuntos de dados.
À medida que expandem suas pesquisas, eles também estão entrando em contato com reguladores para discutir suas descobertas e as implicações exclusivas de direitos autorais do ajuste fino de dados.
“Precisamos de procedência de dados e transparência desde o início, quando as pessoas estão criando e divulgando esses conjuntos de dados, para tornar mais fácil para outros obterem esses insights”, diz Longpre.
“Muitas intervenções políticas propostas assumem que podemos atribuir e identificar corretamente licenças associadas a dados, e este trabalho primeiro mostra que este não é o caso, e então melhora significativamente as informações de procedência disponíveis”, diz Stella Biderman, diretora executiva da EleutherAI, que não estava envolvida com este trabalho. “Além disso, a seção 3 contém discussão jurídica relevante. Isso é muito valioso para profissionais de aprendizado de máquina fora de empresas grandes o suficiente para ter equipes jurídicas dedicadas. Muitas pessoas que querem construir sistemas de IA para o bem público estão atualmente lutando silenciosamente para descobrir como lidar com o licenciamento de dados, porque a web não é projetada de uma forma que torne a procedência dos dados fácil de descobrir.”