Modelos de IA ampliados em 10.000x são possíveis até 2030, diz relatório


O progresso recente em IA se resume em grande parte a uma coisa: escala.

Por volta do início desta década, os laboratórios de IA notaram que tornar seus algoritmos — ou modelos — cada vez maiores e alimentá-los com mais dados consistentemente levou a enormes melhorias no que eles podiam fazer e quão bem eles faziam isso. A última safra de modelos de IA tem centenas de bilhões a mais de um trilhão de conexões de rede interna e aprende a escrever ou codificar como nós, consumindo uma fração saudável da web.

É preciso mais poder de computação para treinar algoritmos maiores. Então, para chegar a esse ponto, a computação dedicada ao treinamento de IA vem quadruplicando a cada ano, de acordo com a organização de pesquisa de IA sem fins lucrativos, Época IA.

Se esse crescimento continuar até 2030, os futuros modelos de IA serão treinados com 10.000 vezes mais computação do que os algoritmos de última geração atuais, como o GPT-4 da OpenAI.

“Se prosseguirmos, poderemos ver até ao ultimate da década avanços na IA tão drásticos como a diferença entre a geração rudimentar de texto do GPT-2 em 2019 e as sofisticadas capacidades de resolução de problemas do GPT-4 em 2023”, escreveu Epoch numa relatório de pesquisa recente detalhando a probabilidade de esse cenário ser possível.

Mas a IA moderna já suga uma quantidade significativa de energia, dezenas de milhares de chips avançados e trilhões de exemplos on-line. Enquanto isso, a indústria sofreu com a escassez de chips, e estudos sugerem que ela pode ficar sem dados de treinamento de qualidade. Supondo que as empresas continuem investindo em escalonamento de IA: o crescimento nessa taxa é tecnicamente possível?

Em seu relatório, a Epoch analisou quatro das maiores restrições ao dimensionamento de IA: energia, chips, dados e latência. TLDR: Manter o crescimento é tecnicamente possível, mas não certo. Aqui está o porquê.

Poder: Precisaremos de muito

A energia é a maior restrição ao dimensionamento da IA. Armazéns lotados de chips avançados e o equipamento para fazê-los funcionar — ou information facilities —são porcos de poder. O mais recente modelo de fronteira da Meta foi treinado em 16.000 dos chips mais poderosos da Nvidia, consumindo 27 megawatts de eletricidade.

Isso, de acordo com a Epoch, é igual ao consumo anual de energia de 23.000 lares nos EUA. Mas mesmo com ganhos de eficiência, treinar um modelo de IA de fronteira em 2030 precisaria de 200 vezes mais energia, ou aproximadamente 6 gigawatts. Isso é 30 por cento da energia consumida por todos os information facilities hoje.

Existem poucas usinas de energia que podem reunir tanto, e a maioria provavelmente está sob contrato de longo prazo. Mas isso pressupõe que uma estação de energia eletrificaria um information heart. A Epoch sugere que as empresas buscarão áreas onde possam obter energia de várias usinas de energia por meio da rede native. Considerando o crescimento planejado de serviços públicos, seguir esse caminho é difícil, mas possível.

Para quebrar melhor o gargalo, as empresas podem, em vez disso, distribuir o treinamento entre vários information facilities. Aqui, elas dividiriam lotes de dados de treinamento entre vários information facilities geograficamente separados, diminuindo os requisitos de energia de qualquer um. A estratégia exigiria conexões de fibra de alta largura de banda e extremamente rápidas. Mas é tecnicamente factível, e a execução de treinamento do Google Gemini Extremely é um exemplo inicial.

No whole, a Epoch sugere uma gama de possibilidades de 1 gigawatt (fontes de energia locais) até 45 gigawatts (fontes de energia distribuídas). Quanto mais as empresas de energia exploram, maiores os modelos que elas podem treinar. Dadas as restrições de energia, um modelo poderia ser treinado usando cerca de 10.000 vezes mais poder de computação do que o GPT-4.

Modelos de IA ampliados em 10.000x são possíveis até 2030, diz relatório
Crédito: Época IA, CC BY 4.0

Chips: eles fazem computação?

Toda essa energia é usada para executar chips de IA. Alguns deles servem modelos de IA completos para os clientes; alguns treinam a próxima safra de modelos. A Epoch deu uma olhada de perto neste último.

Os laboratórios de IA treinam novos modelos usando unidades de processamento gráficoou GPUs, e a Nvidia é a líder em GPUs. A TSMC fabrica esses chips e os intercala com memória de alta largura de banda. A previsão tem que levar todas as três etapas em consideração. De acordo com a Epoch, provavelmente há capacidade ociosa na produção de GPU, mas a memória e o empacotamento podem atrasar as coisas.

Dado o crescimento projetado da indústria na capacidade de produção, eles acreditam que entre 20 e 400 milhões de chips de IA podem estar disponíveis para treinamento de IA em 2030. Alguns deles servirão modelos existentes, e os laboratórios de IA só poderão comprar uma fração do todo.

A ampla faixa é indicativa de uma boa quantidade de incerteza no modelo. Mas, dada a capacidade esperada do chip, eles acreditam que um modelo poderia ser treinado em cerca de 50.000 vezes mais poder de computação do que o GPT-4.

Crédito: Época IA, CC BY 4.0

Dados: Educação On-line da IA

A fome da IA ​​por dados e sua iminente escassez são uma limitação bem conhecida. Algumas previsões o fluxo de dados de alta qualidade e disponíveis publicamente acabará até 2026. Mas a Epoch não acredita que a escassez de dados restringirá o crescimento dos modelos até pelo menos 2030.

Na taxa de crescimento atual, eles escrevem, os laboratórios de IA ficarão sem dados de texto de qualidade em cinco anos. Processos de direitos autorais também podem impactar o fornecimento. A Epoch acredita que isso adiciona incerteza ao seu modelo. Mas mesmo que os tribunais decidam em favor dos detentores de direitos autorais, a complexidade na execução e nos acordos de licenciamento como os buscados pela Vox Media, Time, The Atlantic e outros significam que o impacto no fornecimento será limitado (embora a qualidade das fontes possa sofrer).

Mas, fundamentalmente, os modelos agora consomem mais do que apenas texto no treinamento. Gêmeos do Google foi treinado em dados de imagem, áudio e vídeo, por exemplo.

Dados não textuais podem ser adicionados ao fornecimento de dados textuais por meio de legendas e transcrições. Eles também podem expandir as habilidades de um modelo, como reconhecer os alimentos em uma imagem da sua geladeira e sugerir um jantar. Pode até mesmo, mais especulativamente, resultar em aprendizado de transferência, onde modelos treinados em vários tipos de dados superam aqueles treinados em apenas um.

Há também evidências, diz Epoch, de que dados sintéticos podem aumentar ainda mais o quantity de dados, embora não esteja claro em quanto. A DeepMind usa há muito tempo dados sintéticos em seus algoritmos de aprendizado por reforço, e a Meta empregou alguns dados sintéticos para treinar seus modelos de IA mais recentes. Mas pode haver limites rígidos até que ponto pode ser usado sem qualidade do modelo degradante. E também exigiria ainda mais poder computacional — e mais caro — para ser gerado.

No whole, incluindo dados textuais, não textuais e sintéticos, a Epoch estima que haverá o suficiente para treinar modelos de IA com 80.000 vezes mais poder de computação do que o GPT-4.

Crédito: Época IA, CC BY 4.0

Latência: Maior é mais lento

A última restrição está relacionada ao tamanho dos algoritmos futuros. Quanto maior o algoritmo, mais tempo leva para os dados atravessarem sua rede de neurônios artificiais. Isso pode significar que o tempo que leva para treinar novos algoritmos se torna impraticável.

Esta parte fica técnica. Em resumo, a Epoch analisa o tamanho potencial de modelos futuros, o tamanho dos lotes de dados de treinamento processados ​​em paralelo e o tempo que leva para que esses dados sejam processados ​​dentro e entre servidores em um information heart de IA. Isso produz uma estimativa de quanto tempo levaria para treinar um modelo de um determinado tamanho.

A principal lição: treinar modelos de IA com a configuração atual vai eventualmente atingir um teto — mas não por um tempo. A Epoch estima que, sob as práticas atuais, poderíamos treinar modelos de IA com mais de 1.000.000 de vezes mais poder de computação do que o GPT-4.

Crédito: Época IA, CC BY 4.0

Aumentando a escala em 10.000x

Você notará que a escala de possíveis modelos de IA fica maior sob cada restrição — ou seja, o teto é maior para chips do que para energia, para dados do que para chips, e assim por diante. Mas se considerarmos todos eles juntos, os modelos só serão possíveis até o primeiro gargalo encontrado — e, neste caso, é a energia. Mesmo assim, um dimensionamento significativo é tecnicamente possível.

“Quando considerados juntos, (esses gargalos de IA) implicam que execuções de treinamento de até 2e29 FLOP seriam viáveis ​​até o ultimate da década”, escreve Epoch.

“Isso representaria um aumento de escala de aproximadamente 10.000 vezes em relação aos modelos atuais, e significaria que a tendência histórica de aumento de escala poderia continuar ininterrupta até 2030.”

Crédito: Época IA, CC BY 4.0

O que você fez por mim ultimamente?

Embora tudo isso sugira que o escalonamento contínuo seja tecnicamente possível, também faz uma suposição básica: que o investimento em IA crescerá conforme necessário para financiar o escalonamento e que o escalonamento continuará a gerar avanços impressionantes — e, mais importante, úteis.

Por enquanto, há todas as indicações de que as empresas de tecnologia continuarão investindo quantias históricas de dinheiro. Impulsionadas pela IA, os gastos com novos equipamentos e imóveis já saltou para níveis não vistos há anos.

“Quando você passa por uma curva como essa, o risco de subinvestimento é dramaticamente maior do que o risco de superinvestimento”, disse o CEO da Alphabet, Sundar Pichai, na teleconferência de resultados do último trimestre como justificativa.

Mas os gastos precisarão crescer ainda mais. CEO da Anthropic, Dario Amodei estimativas modelos treinados hoje podem custar até US$ 1 bilhão, os modelos do ano que vem podem chegar perto de US$ 10 bilhões, e os custos por modelo podem chegar a US$ 100 bilhões nos anos seguintes. Esse é um número estonteante, mas é um preço que as empresas podem estar dispostas a pagar. A Microsoft já está supostamente comprometendo tanto com seus Supercomputador Stargate AIum projeto conjunto com a OpenAI com lançamento previsto para 2028.

Nem é preciso dizer que o apetite para investir dezenas ou centenas de bilhões de dólares — mais do que o PIB de muitos países e uma fração significativa das receitas anuais atuais dos maiores gamers de tecnologia — não é garantido. À medida que o brilho se esvai, se o crescimento da IA ​​é sustentável pode se resumir a uma questão de “O que você fez por mim ultimamente?”

Os investidores já estão verificando o resultado ultimate. Hoje, o o valor investido supera em muito o valor retornado. Para justificar maiores gastos, as empresas terão que mostrar provas de que a escala continua a produzir modelos de IA cada vez mais capazes. Isso significa que há uma pressão crescente sobre os próximos modelos para ir além de melhorias incrementais. Se os ganhos diminuírem ou se pessoas suficientes não estiverem dispostas a pagar por produtos de IA, a história pode mudar.

Além disso, alguns críticos acreditam que os grandes modelos de linguagem e multimodais provarão ser um beco sem saída caro. E sempre há an opportunity de um avanço, como o que deu início a esta rodada, mostrar que podemos realizar mais com menos. Nossos cérebros aprender continuamente com o equivalente a uma lâmpada de energia e nada perto do equivalente a uma web de dados.

Dito isso, se a abordagem atual “puder automatizar uma parte substancial das tarefas econômicas”, o retorno financeiro pode chegar a trilhões de dólares, mais do que justificando o gasto, de acordo com a Epoch. Muitos na indústria estão dispostos a fazer essa aposta. Ninguém sabe como isso vai acontecer ainda.

Crédito da imagem: Werclive 👹 / Desaparecer

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *