Estamos ficando sem dados de treinamento para o GenAI?


Estamos ficando sem dados de treinamento para o GenAI?

(Anders78/Shutterstock)

O advento da IA ​​generativa supercarregou o apetite do mundo por dados, especialmente dados de alta qualidade de procedência conhecida. No entanto, à medida que os modelos de linguagem grande (LLMs) ficam maiores, os especialistas estão alertando que podemos estar ficando sem dados para treiná-los.

Uma das grandes mudanças que ocorreram com os modelos de transformadores, que foram inventados por Google em 2017, é o uso de aprendizado não supervisionado. Em vez de treinar um modelo de IA de forma supervisionada sobre quantidades menores de dados de alta qualidade, curados por humanos, o uso de treinamento não supervisionado com modelos transformadores abriu a IA para grandes quantidades de dados de qualidade variável na Internet.

À medida que os LLMs pré-treinados se tornaram maiores e mais capazes ao longo dos anos, eles exigiram conjuntos de treinamento maiores e mais elaborados. Por exemplo, quando IA aberta lançou seu modelo GPT-1 unique em 2018, o modelo tinha cerca de 115 milhões de parâmetros e foi treinado em LivroCorpusque é uma coleção de cerca de 7.000 livros inéditos, compreendendo cerca de 4,5 GB de texto.

O GPT-2, que a OpenAI lançou em 2019, representou uma ampliação direta de 10x do GPT-1. A contagem de parâmetros expandiu para 1,5 bilhão e os dados de treinamento se expandiram para cerca de 40 GB por meio do uso do WebText pela empresa, um novo conjunto de treinamento criado com base em hyperlinks extraídos de usuários do Reddit. O WebText continha cerca de 600 bilhões de palavras e pesava cerca de 40 GB.

Crescimento do LLM por número de parâmetros (Imagem cortesia de Corus Greyling, Humano em Primeiro Lugar)

Com o GPT-3, a OpenAI expandiu sua contagem de parâmetros para 175 bilhões. O modelo, que estreou em 2020, foi pré-treinado em 570 GB de texto extraído de fontes abertas, incluindo BookCorpus (Book1 e Book2), Widespread Crawl, Wikipedia e WebText2. Ao todo, totalizou cerca de 499 bilhões de tokens.

Embora o tamanho oficial e os detalhes do conjunto de treinamento sejam escassos para o GPT-4, que a OpenAI estreou em 2023, as estimativas fixam o tamanho do LLM em algo entre 1 trilhão e 1,8 trilhão, o que o tornaria de cinco a ten vezes maior que o GPT-3. O conjunto de treinamento, enquanto isso, foi relatado como sendo de 13 trilhões de tokens (aproximadamente 10 trilhões de palavras).

À medida que os modelos de IA ficam maiores, os criadores de modelos de IA vasculham a Internet em busca de novas fontes de dados para treiná-los. No entanto, isso está ficando mais difícil, pois os criadores e coletores de dados da Internet têm imposto cada vez mais restrições ao uso de dados para treinar IA.

Dario Amodei, CEO da Antrópicoestimou recentemente que há 10% de probability de ficarmos sem dados suficientes para continuar dimensionando os modelos.

“…(N)ós podemos ficar sem dados”, disse Amodei a Dwarkesh Patel em uma entrevista recente. “Por várias razões, acho que isso não vai acontecer, mas se você olhar com muita ingenuidade, não estamos tão longe de ficar sem dados.”

Em breve, usaremos todos os novos dados de texto humano para treinamento de LLM, dizem pesquisadores (Ficaremos sem dados? Limites do dimensionamento de LLM com base em dados gerados por humanos”)

Este tópico também foi abordado em um artigo recente intitulado “Ficaremos sem dados? Limites de escalabilidade do LLM com base em dados gerados por humanos,” onde os pesquisadores sugerem que o ritmo atual de desenvolvimento de LLM em dados baseados em humanos não é sustentável.

Nas taxas atuais de escala, um LLM treinado em todos os dados de texto humano disponíveis será criado entre 2026 e 2032, eles escreveram. Em outras palavras, podemos ficar sem dados novos que nenhum LLM viu em menos de dois anos.

“No entanto, depois de contabilizar as melhorias constantes na eficiência dos dados e a promessa de técnicas como a aprendizagem por transferência e a geração de dados sintéticos, é provável que estejamos
capaz de superar esse gargalo na disponibilidade de serviços públicos
dados de texto humano”, escrevem os pesquisadores.

Em um novo artigo do Iniciativa de Proveniência de Dados intitulado “Consentimento em crise: o rápido declínio do AI Knowledge Commons” (pdf), pesquisadores afiliados ao Instituto de Tecnologia de Massachusetts analisaram 14.000 websites para determinar até que ponto os operadores de websites estão tornando seus dados “rastreáveis” por coletores de dados automatizados, como aqueles usados ​​pelo Widespread Crawl, o maior rastreamento público disponível da Web.

A conclusão deles: Muitos dos dados estão cada vez mais fora dos limites dos rastreadores da Internet, seja por política ou incompatibilidade tecnológica. Além disso, os termos de uso que ditam como os operadores de websites permitem que seus dados sejam usados ​​cada vez mais não combinam com o que os websites realmente permitem por meio de seus arquivos robotic.txt, que contêm regras que bloqueiam o acesso ao conteúdo.

Os operadores de websites estão colocando restrições na coleta de dados (Cortesia de “Consent in Disaster: The Speedy Decline of the AI ​​Knowledge Commons”)

“Observamos uma proliferação de cláusulas específicas de IA para limitar o uso, diferenças agudas em restrições sobre desenvolvedores de IA, bem como inconsistências gerais entre as intenções expressas dos websites em seus Termos de Serviço e seus robots.txt”, escreveram os pesquisadores da Knowledge Provenance Initiative. “Nós diagnosticamos isso como sintomas de protocolos da net ineficazes, não projetados para lidar com a ampla reutilização da web para IA.”

Rastejamento comum vem registrando a Web desde 2007, e hoje é composto por mais de 250 bilhões de páginas da Internet. O repositório é gratuito e aberto para qualquer pessoa usar, e cresce de 3 bilhões a 5 bilhões de novas páginas por mês. Grupos como C4, RefinadoWebe Dolmaque foram analisados ​​pelos pesquisadores do MIT, oferecem versões limpas dos dados no Widespread Crawl.

Os pesquisadores da Knowledge Provenance Initiative descobriram que, desde que o ChatGPT da OpenAI explodiu em cena no remaining de 2022, muitos websites impuseram restrições ao rastreamento com o propósito de coletar dados. Nas taxas atuais, quase 50% dos websites devem ter restrições totais ou parciais até 2025, concluem os pesquisadores. Da mesma forma, restrições também foram impostas aos termos de serviço (ToS) do web site, com a porcentagem de websites sem restrições caindo de cerca de 50% em 2023 para cerca de 40% até 2025.

Os pesquisadores da Knowledge Provenance Initiative descobriram que os rastreadores do OpenAI são mais frequentemente restritos, cerca de 26% das vezes, seguidos pelos rastreadores do Anthropic e Widespread Crawl (cerca de 13%), o rastreador de IA do Google (cerca de 10%), Cohere (cerca de 5%) e Meta (cerca de 4%).

Patrick Collison entrevistas Sam Altman, CEO da OpenAI

A Web não foi criada para fornecer dados para treinar modelos de IA, escrevem os pesquisadores. Enquanto websites maiores são capazes de implementar controles de consentimento sofisticados que permitem que eles exponham alguns conjuntos de dados com procedência completa enquanto restringem outros, muitos operadores de websites menores não têm recursos para implementar tais sistemas, o que significa que eles estão escondendo todo o seu conteúdo atrás de paywalls, escrevem os pesquisadores. Isso impede que as empresas de IA cheguem a eles, mas também impede que esses dados sejam usados ​​para usos mais legítimos, como pesquisa acadêmica, nos afastando ainda mais dos primórdios abertos da Web.

“Se não desenvolvermos melhores mecanismos para dar aos proprietários de websites controle sobre como seus dados são usados, devemos esperar ver ainda mais reduções na net aberta”, escrevem os pesquisadores da Knowledge Provenance Initiative.

Gigantes da IA ​​começaram recentemente a procurar outras fontes de dados para treinar seus modelos, incluindo enormes coleções de vídeos postados na Web. Por exemplo, um conjunto de dados chamado YouTube Subtitles, que faz parte de um conjunto de dados maior e de código aberto criado por EleutherAI chamado de Pile, está sendo usado por empresas como Maçã, Nvidiae Antrópico para treinar modelos de IA.

O movimento tem irritou alguns criadores de conteúdo menoresque dizem que nunca concordaram em ter seu trabalho protegido por direitos autorais usado para treinar modelos de IA e não foram compensados ​​como tal. Além disso, eles expressaram preocupação de que seu conteúdo possa ser usado para treinar modelos generativos que criam conteúdo que compete com seu próprio conteúdo.

As empresas de IA estão cientes da iminente represa de dados, mas já têm potenciais soluções alternativas em andamento. O CEO da OpenAI, Sam Altman, reconheceu a situação em uma entrevista recente com o empresário irlandês Patrick Collison.

“Desde que você consiga superar o horizonte de eventos de dados sintéticos, onde o modelo é inteligente o suficiente para criar dados sintéticos, acho que vai ficar tudo bem”, disse Altman. “Precisamos de novas técnicas, com certeza. Não quero fingir o contrário de forma alguma. Mas o plano ingênuo de escalar um transformador com tokens pré-treinados da Web — isso vai acabar. Mas esse não é o plano.”

Itens relacionados:

Os gigantes da tecnologia estão ‘acumulando’ pequenos criadores de conteúdo para treinar sua IA?

Repensando o ‘Aberto’ para IA

Aumenta a raiva sobre os abusos de Large Knowledge das Large Techs


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *