Em 22 de abril de 2022, recebi um texto fora do início de Sam Altman perguntando sobre a possibilidade de treinar o GPT-4 nos livros de O’Reilly. Recebemos uma ligação alguns dias depois para discutir a possibilidade.
Pelo que me lembro de nossa conversa, disse a Sam que estava intrigado, mas com reservas. Expliquei a ele que só poderíamos licenciar nossos dados se eles tivessem algum mecanismo para rastrear o uso e compensar autores. Sugeri que isso deveria ser possível, mesmo com LLMs, e que poderia ser a base de uma economia participativa de conteúdo para a IA. (Mais tarde escrevi sobre essa ideia em uma peça chamada “Como consertar ‘ai do pecado authentic’. ”) Sam disse que não havia pensado nisso, mas que a idéia period muito interessante e que ele voltaria para mim. Ele nunca o fez.
E agora, é claro, dados relatos de que a Meta treinou Llama em Libgen, o banco de dados russo de livros piratas, é preciso se perguntar se o Openai fez o mesmo. Então, trabalhando com colegas no Projeto de divulga a IA No Conselho de Pesquisa em Ciências Sociais, decidimos dar uma olhada. Nossos resultados foram publicados hoje no documento de trabalho “Além do acesso público em dados de pré-treinamento LLM”De Sruly Rosenblat, Tim O’Reilly e Ilan Strauss.
Há uma variedade de técnicas estatísticas para estimar a probabilidade de uma IA ter sido treinada em conteúdo específico. Escolhemos um chamado De-Cop. Para testar se um modelo foi treinado em um determinado livro, fornecemos ao modelo um parágrafo citado no livro escrito por humanos, juntamente com três permutações do mesmo parágrafo, e depois pedimos ao modelo que identificasse a passagem “literal” (ou seja, correta) do livro em questão. Repetimos isso várias vezes para cada livro.
O’Reilly estava em posição de fornecer um conjunto de dados exclusivo a ser usado com o COP. Durante décadas, publicamos dois capítulos de amostra de cada livro na Web pública, além de uma pequena seleção das páginas de abertura de si. O restante de cada livro está por trás de uma assinatura Paywall como parte do nosso serviço on-line O’Reilly. Isso significa que podemos comparar os resultados dos dados disponíveis ao público com os resultados dos dados que eram privados, mas do mesmo livro. Uma verificação adicional é fornecida executando os mesmos testes contra o materials publicado após a knowledge de treinamento de cada modelo e, portanto, não poderia ter sido incluído. Isso fornece um bom sinal para acesso não autorizado.
Dividimos nossa amostra de livros de O’Reilly de acordo com o período e a acessibilidade, o que nos permite testar corretamente as violações de acesso ao modelo:
Utilizamos uma medida estatística chamada AUROC para avaliar a separabilidade entre amostras potencialmente no conjunto de treinamento e amostras conhecidas fora de dados. No nosso caso, as duas lessons foram (1) livros de O’Reilly publicados antes do corte de treinamento do modelo (T – N) e (2) os publicados posteriormente (T + N). Em seguida, usamos a taxa de identificação do modelo como métrica para distinguir entre essas lessons. Essa classificação baseada no tempo serve como um proxy necessário, pois não podemos saber com certeza quais livros específicos foram incluídos nos conjuntos de dados de treinamento sem divulgação do OpenAI. Usando essa divisão, quanto maior a pontuação do AUROC, maior a probabilidade de o modelo ter sido treinado em livros de O’Reilly publicados durante o período de treinamento.
Os resultados são intrigantes e alarmantes. Como você pode ver na figura abaixo, quando o GPT-3.5 foi lançado em novembro de 2022, demonstrou algum conhecimento de conteúdo público, mas pouco do conteúdo privado. Quando chegarmos ao GPT-4O, lançado em maio de 2024, o modelo parece conter mais conhecimento de conteúdo privado do que conteúdo público. Curiosamente, os números do GPT-4O Mini são aproximadamente iguais e ambos quase aleatórios sugerindo que pouco foi treinado ou pouco foi retido.
As pontuações do AUROC baseadas na “taxa de adivinhação” dos modelos mostram reconhecimento de dados pré-treinamento:
Escolhemos um subconjunto de livros relativamente pequeno; O teste pode ser repetido em escala. O teste não fornece nenhum conhecimento de como o OpenAI pode ter obtido os livros. Como o Meta, o OpenAI pode ter treinado em bancos de dados de livros piratas. (O Atlânticomecanismo de pesquisa contra Libgen revela que praticamente todos os livros de O’Reilly foram pirateados e incluídos lá.)
Dado as reivindicações em andamento do OpenAI que, sem a capacidade ilimitada de grandes desenvolvedores de modelos de idiomas treinarem dados protegidos por direitos autorais sem compensação, o progresso da IA será interrompido e “perderemos para a China”, é provável que eles considerem todo o conteúdo protegido por direitos autorais como um jogo justo.
O fato de a Deepseek ter feito ao OpenAI exatamente o que o OpenAI fez com autores e editores não parece impedir os líderes da empresa. O principal lobista do Openai, Chris Lehane, “comparou os métodos de treinamento do OpenAi para ler um livro da biblioteca E aprender com isso, enquanto os métodos da Deepseek são mais como colocar uma nova capa em um livro da biblioteca e vendê -lo como seu. ” Discordamos. pode Substitua para muitos dos trabalhos originais, assim como o Deepseek está se tornando um substituto digno de crédito para o ChatGPT.
Há um precedente claro para o treinamento em dados publicamente disponíveis. Quando os livros do Google leem os livros para criar um índice que ajudasse os usuários a pesquisá -los, period como ler um livro da biblioteca e aprender com ele. Foi um uso justo transformador.
A geração de obras derivadas que podem competir com o trabalho authentic definitivamente não é um uso justo.
Além disso, há uma questão do que é verdadeiramente “público”. Como mostrado em nossa pesquisa, os livros de O’Reilly estão disponíveis de duas formas: porções são públicas para os mecanismos de pesquisa encontrarem e para que todos leem na net; Outros são vendidos com base no acesso por usuário, impresso ou por meio da oferta de assinatura por assento. No mínimo, o acesso não autorizado da OpenAI representa uma clara violação de nossos Termos de Uso.
Acreditamos em respeitar os direitos dos autores e outros criadores. É por isso que na O’Reilly, construímos um sistema que nos permite criar saídas de IA com base no trabalho de nossos autores, mas usa RAG (geração de recuperação de agitação) e outras técnicas para rastrear o uso e pagar royalties, Assim como fazemos para outros tipos de uso de conteúdo em nossa plataforma. Se pudermos fazer isso com nossos recursos muito mais limitados, é certo que o OpenAI também poderia fazê -lo, se eles tentassem. Period isso que eu estava pedindo a Sam Altman em 2022.
E eles deve tentar. Uma das grandes lacunas da IA de hoje é a falta de um círculo virtuoso de sustentabilidade (o que Jeff Bezos chamou de “o volante).
Na O’Reilly, não estamos apenas no negócio de fornecer excelente conteúdo para nossos clientes. Estamos dentro o negócio de incentivar sua criação. Procuramos lacunas de conhecimento – isto é, encontramos coisas que algumas pessoas sabem, mas outras não e desejam que elas fizessem – e ajudem os que estão na vanguarda da descoberta a compartilhar o que aprendem, Através de livros, vídeos e cursos ao vivo. Pagar a eles pelo tempo e esforço que eles fizeram para compartilhar o que eles sabem é uma parte crítica de nossos negócios.
Lançamos nossa plataforma on -line em 2000, depois de obter um discurso de uma startup de agregação de e -books, livros 24 × 7, que se ofereceu para licenciá -los por nós para o que chegou a um centavo por livro por cliente – o que deveríamos compartilhar com nossos autores. Em vez disso, convidamos nossos maiores concorrentes para se juntarem a nós em uma plataforma compartilhada que preservaria a economia da publicação e incentivaria os autores a continuar gastando tempo e esforço para criar ótimos livros. Esse é o conteúdo que os provedores da LLM sentem o direito de tomar sem compensação.
Como resultado, os detentores de direitos autorais estão processando, colocando blocos mais fortes e mais fortes contra os rastreadores da IA ou saindo do negócio. Isso não é uma coisa boa. Se os provedores da LLM perderem seus processos, estarão em um mundo de mágoa, pagando grandes multas, reengendo seus produtos para colocar em guarda contra emitir conteúdo infrator e descobrir como fazer o que deveriam ter feito em primeiro lugar. Se eles vencerem, todos nós acabaremos com mais pobres, porque aqueles que fazem o trabalho actual de criar o conteúdo enfrentarão concorrência injusta.
Não são apenas os detentores de direitos autorais que desejam um mercado de IA no qual os direitos dos autores são preservados e recebem novas maneiras de monetizar; Os desenvolvedores da LLM também devem querer isso. A Web como a conhecemos hoje se tornou tão fértil, porque fez um bom trabalho ao preservar os direitos autorais. Empresas como o Google encontraram novas maneiras de ajudar os criadores de conteúdo monetizarem seu trabalho, mesmo em áreas que eram controversas. Por exemplo, diante das demandas das empresas de música para retirar vídeos gerados pelo usuário usando músicas protegidas por direitos autorais, o YouTube desenvolvido ID do conteúdoque lhes permitiu reconhecer o conteúdo protegido por direitos autorais e compartilhar os recursos com o criador do trabalho derivado e o detentor de direitos autorais originais. Existem inúmeras startups propondo fazer o mesmo para obras derivadas geradas pela IA, mas, até agora, nenhuma delas tem a escala necessária. Os grandes laboratórios de IA devem aceitar isso.
Em vez de permitir a abordagem de esmagamento dos desenvolvedores de LLM de hoje, devemos olhar para um mundo em que grandes modelos centralizados de IA podem ser treinados em todos Conteúdo público e Conteúdo privado licenciadomas reconheça que também existem muitos modelos especializados treinados em Conteúdo privado que eles não podem e não devem acessar. Think about um LLM que foi inteligente o suficiente para dizer: “Não sei se tenho a melhor resposta para isso; deixe -me perguntar Bloomberg (ou deixe -me perguntar a O’Reilly; deixe -me perguntar Natureza; Ou deixe-me perguntar a Michael Chabon, ou George RR Martin (ou qualquer um dos outros autores que processaram, como um substituto para os milhões de outros que podem muito bem ter)) E eu vou voltar para você em um momento. ” Esta é uma oportunidade perfeita para uma extensão para MCP Isso permite conversas de direitos autorais de mão dupla e negociação de compensação apropriada. A primeira LLM de direitos autorais de uso geral terá uma vantagem competitiva única. Vamos fazer isso.