
(Jirsak/Shutterstock)
O progresso da IA é frequentemente medido por escala. Modelos maiores, mais dados, mais músculos de computação. Todo salto em frente parecia provar o mesmo ponto: se você pudesse jogar mais, os resultados seguiriam. Durante anos, essa equação se sustentou e cada novo conjunto de dados desbloqueou outro nível de habilidade de IA. No entanto, agora há sinais de que a fórmula está começando a rachar. Até os maiores laboratórios, com todos os fundos e infraestrutura de sobra, estão silenciosamente fazendo uma nova pergunta. De onde vem a próxima rodada de dados de treinamento verdadeiramente úteis?
Essa é a preocupação que a diretora de dados do Goldman Sachs, Neema Raphael, criou em um podcast recente: Ai trocada: o papel dos dadosonde ele discutiu o assunto com George Lee, co-diretor do Instituto International do Goldman Sachs, e Allison Nathan, estrategista sênior da Goldman Sachs Analysis. “Já ficamos sem dados”, disse ele.
O que ele quis dizer não é que a informação desapareceu, mas que os melhores dados da Web já foram raspados e consumidos, deixando os modelos para alimentar cada vez mais a saída sintética, e essa mudança pode definir a próxima fase da IA.
De acordo com Raphael, a próxima fase da IA será impulsionada pelos estoques profundos de dados proprietários que ainda estão esperando para serem organizados e colocados para o trabalho. Para ele, a corrida do ouro não acabou. Está simplesmente se movendo para uma nova fronteira.
Para entender o papel crítico dos dados em Genai, devemos lembrar que um modelo só pode desempenhar, bem como o materials com o qual aprende e a frescura e o alcance desse materials moldam seus resultados. Os primeiros ganhos vieram de raspar a Internet Open, puxar fatos estruturados da Wikipedia, conversas do Reddit e codificar do GitHub.
Essas fontes deram aos modelos uma amplitude suficiente para passar de ferramentas estreitas para sistemas que poderiam escrever, traduzir e até gerar software program. No entanto, após anos de colheita, esse estoque é amplamente gasto. O suprimento que uma vez alimentou o salto em Genai não está mais se expandindo com rapidez suficiente para sustentar o mesmo ritmo de progresso.
Raphael apontou para o Deepseek da China como exemplo. Os observadores sugeriram que um dos motivos pelos quais ele pode ter sido desenvolvido a um custo relativamente baixo é que ele se baseou pesadamente nos resultados de modelos anteriores, em vez de depender apenas de novos dados. Ele disse que a questão importante agora é quanto da próxima geração de IA será moldada pelo materials que os sistemas anteriores já produziram.
Com as partes mais úteis da Internet já colhidas, muitos desenvolvedores agora estão apoiando -se nos dados sintéticos na forma de texto, imagens e código gerados pela máquina. Raphael descreveu seu crescimento como explosivo, observando que os computadores podem gerar materials de treinamento quase ilimitado.
Essa abundância pode ajudar a estender o progresso, mas ele questionou quanto disso é verdadeiramente valioso. A linha entre informações úteis e enchimento é fina, e ele alertou que isso poderia levar a um platô criativo. Na sua opinião, os dados sintéticos podem desempenhar um papel no suporte à IA, mas não podem substituir a originalidade e a profundidade que vêm apenas de fontes criadas pelo homem.
Raphael não é o único que leva o alarme. Muitos no campo agora falam sobre “Knowledge Peak”, o ponto em que o melhor da internet já foi usado. Desde que o Chatgpt decolou há três anos, esse aviso ficou mais alto.
Em dezembro do ano passado, o co -fundador da Openai, Ilya Sutskever, disse a uma audiência da conferência que quase todo o materials útil on -line havia sido consumido por modelos existentes. “Os dados são o combustível fóssil da IA”, disse Sutskever enquanto fala na conferência sobre sistemas de processamento de informações neurais (Neurips) em Vancouver.
Sutskever disse que o ritmo acelerado do progresso da IA ”vai acabar inquestionavelmente” assim que a fonte se for. Raphael compartilhou a mesma preocupação, mas argumentou que a resposta pode estar em encontrar e preparar novos swimming pools de informações que permanecem inexploradas.
O aperto de dados não é apenas um desafio técnico; Tem grandes consequências econômicas. O treinamento dos maiores sistemas já atinge centenas de milhões de dólares, e o custo aumentará ainda mais à medida que o fornecimento fácil de materials da Internet desaparece. Deepseek chamou a atenção porque se diz ter treinado um modelo forte em uma fração das despesas usuais reutilizando saídas anteriores.
Se essa abordagem for eficaz, poderá desafiar o domínio dos laboratórios americanos que se basearam em orçamentos maciços. Ao mesmo tempo, é provável que a busca por conjuntos de dados confiáveis direcione mais negócios, pois as empresas de finanças, assistência médica e ciência procuram bloquear os dados que podem lhes dar uma vantagem.
Raphael enfatizou que a escassez de materials aberto da internet não significa que o poço esteja seco. Ele apontou para grandes conjuntos de dados ainda ocultos dentro de empresas e instituições. Registros financeiros, interações com clientes, arquivos de saúde e registros industriais são exemplos de dados proprietários que permanecem subutilizados.
A dificuldade não é apenas colecioná -lo. Grande parte desse materials foi tratada como resíduos, espalhados por sistemas e cheios de inconsistências. Transformar -o em algo útil requer um trabalho cuidadoso. Os dados devem ser limpos, organizados e vinculados antes de serem confiados por um modelo.
Se esse trabalho for feito, essas reservas poderão levar a IA para a frente de maneiras que o conteúdo da Internet não pode mais. A corrida favorecerá aqueles que controlam as lojas mais valiosas, levantando questões sobre poder e acesso. A Internet aberta pode ter dado à IA seu primeiro grande salto, mas esse capítulo está fechando. Se novos swimming pools de dados forem desbloqueados, o progresso continuará, embora provavelmente em um ritmo mais lento e desigual. Caso contrário, a indústria já pode ter passado sua marca de alta água.
Itens relacionados
Os espancamentos da IA continuarão até que os dados melhorem
O Google empurra os agentes da IA para as tarefas de dados diários