
(Gerado por IA/Shutterstock)
UM relatório recente do Goldman Sachs disse que a falta de um “aplicativo matador” para IA generativa além de chatbots e copilotos poderia dificultar sua adoção. O que a GenAI precisa, escreveram os analistas, eram aplicativos com infusão de IA que pudessem realizar ações por si mesmos. Um novo tipo de modelo, denominado modelo de grande ação, ou LAM, poderia se encaixar na conta?
O conceito LAM começou a surgir no remaining de 2023 como uma continuação pure dos grandes modelos de linguagem (LLMs), que chamaram a atenção do mundo pelas respostas de texto semelhantes às humanas que podem gerar. Os LAMs vão além das capacidades de geração de texto de um LLM ao realmente executar alguma ação dentro de um programa de software program.
“Os LLMs são bons em uma troca unilateral de ‘Aqui está minha pergunta, responda-me’”, diz Pankaj Chawla, diretor de inovação da consultoria de tecnologia sediada na Virgínia 3 Pilares. “Mas o que eu faço com isso depois? É aí que a mágica dos grandes modelos de ação entra em jogo.”
A 3Pillar está criando LAMs para clientes que veem valor nos LLMs, mas querem dar o próximo passo e automatizar tarefas repetitivas para obter um maior retorno sobre seu investimento, diz Chawla, que atende pelo nome de PC.
Os LAMs executam ações usando caminhos programáticos existentes, como APIs, ou em alguns casos interagindo diretamente com a interface do usuário de um aplicativo, o que é semelhante à automação de processos robóticos (RPA), diz ele.
Por exemplo, se um executivo estiver viajando a negócios, um LAM poderia ser criado para responder à instrução humana “Encontre-me voos de classe econômica plus e um resort quatro estrelas para Milão, Itália, de 10 a 17 de outubro”. O LAM poderia não apenas responder a essa solicitação com sugestões, mas também navegar pelos sistemas necessários e chamar os dados necessários para garantir reservas.
Outra maneira de pensar sobre os LAMS é que eles continuam onde os copilotos param, diz PC.
“Um copiloto é, na minha opinião, algo com o qual você ainda está interagindo como humano, mas você não está costurando várias coisas para fazer juntas para realizar um resultado, um resultado comercial ou um resultado pessoal”, ele diz Datanami. “O copiloto vai um pouco nessa direção, mas (LAM) é sobre criar um script de autoaprendizagem e, como ele faz essa ação mais de uma vez, ele fica melhor nisso.”
Nem todas as empresas usam a mesma terminologia. Gartnerpor exemplo, chama isso de IA neurosimbólica, que é a combinação de redes neurais e programação simbólica (ou seja, programação determinística tradicional).
Amazon e sua subsidiária AWS investiram substancialmente no desenvolvimento do que chamam de agentes semiautônomos, que vão além de copilotos de codificação para lidar com tarefas básicas de codificação. Andy Jassy, o antigo chefe da AWS que assumiu o lugar de Jeff Bezos há dois anos, disse recentemente que esses agentes economizaram para a empresa 4.500 anos de desenvolvimento na manutenção de seu código Java.
Outro exemplo de LAM é o Coelho r1que é um assistente pessoal baseado em GPT-3.5 que implementa uma interface no estilo LAM para permitir interações automatizadas com determinados websites, incluindo Spotify, Apple Music, Midjourney, Suno, Uber e DoorDash.
Inteligência Appleatualmente em fase de pré-visualização, é outro exemplo de um sistema do tipo LAM, como é o que Força de vendas está fazendo com seu conjunto de computação empresarial, diz a PC. “A Salesforce tem falado sobre usar LAMs para trabalhar nos bastidores com seus dados do Salesforce para executar uma série de ações, como lançar uma campanha e realmente rastrear os resultados”, diz ele.
Em julho, a McKinsey publicou um relatório intitulado “Por que os agentes são a próxima fronteira da IA generativa” que exaltou o potencial dos agentes para impulsionar a próxima geração de GenAI.
“Estamos começando uma evolução de ferramentas baseadas em conhecimento e alimentadas por IA gen — digamos, chatbots que respondem a perguntas e geram conteúdo — para ‘agentes’ habilitados por IA gen que usam modelos de base para executar fluxos de trabalho complexos e de várias etapas em um mundo digital”, escrevem analistas da gigante de consultoria. “Em suma, a tecnologia está passando do pensamento para a ação.”
Os agentes de IA, diz a McKinsey, serão capazes de automatizar “casos de uso complexos e abertos” graças a três características que possuem, incluindo: a capacidade de gerenciar multiplicidade; a capacidade de ser direcionado pela linguagem pure; e a capacidade de trabalhar com ferramentas e plataformas de software program existentes.
Esses “colegas de trabalho virtuais hipereficientes”, como a McKinsey os chama, poderão em breve ser vistos em áreas específicas, como subscrição de empréstimos, documentação e modernização de códigos e criação de campanhas de advertising and marketing on-line.
“Embora a tecnologia de agentes seja bastante incipiente, o aumento dos investimentos nessas ferramentas pode resultar em sistemas de agentes alcançando marcos notáveis e sendo implantados em escala nos próximos anos”, escreve a empresa.
O PC reconhece que há alguns desafios para construir aplicativos automatizados com a arquitetura LAM neste momento. LLMs são probabilísticos e às vezes podem sair dos trilhos, então é importante mantê-los no caminho certo combinando-os com programação clássica usando técnicas determinísticas.
Por exemplo, a 3Pillar está atualmente desenvolvendo um aplicativo LAM que interage com as pessoas e faz perguntas a elas, mas o LLM às vezes se desvia ou sugere coisas que não são legais.
“Então é a programação determinística que mantém isso no caminho certo, mantém isso (dentro) dos guardrails, mas ainda alavanca o poder dos LLMs”, ele diz. “Nós executamos gráficos de conhecimento nos bastidores, então… as respostas são muito mais focadas, precisas e não alucinadas porque vão contra esse conjunto de dados.”

Tarefas repetitivas realizadas por funcionários humanos podem ser potencialmente automatizadas por uma combinação de programação probabilística e determinística (Gorodenkoff/Shutterstock)
Os aplicativos de backoffice podem ser o melhor campo de testes para LAMs, pois não expõem a empresa a tanta responsabilidade de um LLM que sai dos trilhos, diz a PC. Os conjuntos de ERP integrados de grandes empresas de software program têm acesso a muitos dados intersetoriais e fluxos de trabalho interdisciplinares, que informarão e conduzirão LAMs e IA baseada em agentes.
Hoje, o LAM é apenas um conceito arquitetônico, mas com o tempo, o conceito será desenvolvido e haverá estruturas baseadas em software program que as empresas poderão usar para acelerar o desenvolvimento de sistemas de agentes de LAM e IA, afirma a PC.
“Acho que haverá mais frameworks que permitem que você chegue lá com integrações predefinidas, chamadas, o que for para sistemas comumente usados, muito parecido com os adaptadores para barramentos de serviços corporativos como você vê hoje”, ele diz. “Então pode haver um adaptador para Oracle para isso e aquilo e APIs que estão disponíveis para executar ações, e então frameworks para realmente construir e criar essas ações por meio de mais configuração e apontar e clicar versus código.”
No entanto, o potencial de vantagem com LAMs baseados no consumidor e agentes de IA autônomos é realmente enorme, e é apenas uma questão de tempo até que os consumidores comecem a vê-los em ação, diz a PC.
“Vejo isso em um horizonte para os próximos dois a cinco anos”, ele diz. “Você começará a ver esses tipos de aplicações que são soluções reais, orientadas por IA, chegando (onde) o chatbot e o LLM são apenas blocos de construção. Ainda temos problemas com alucinações e tudo mais. Mas prevejo de dois a cinco anos antes de começarmos a ver aplicações no mundo actual.”
Itens relacionados: