Nos últimos anos, as operações de aprendizado de máquina (MLOps) tornaram-se a prática padrão para desenvolver, implantar e gerenciar modelos de aprendizado de máquina. MLOps padroniza processos e fluxos de trabalho para implantação de modelos mais rápida, escalonável e sem riscos, centralizando o gerenciamento de modelos, automatizando CI/CD para implantação, fornecendo monitoramento contínuo e garantindo governança e práticas recomendadas de liberação.
No entanto, o rápido crescimento dos grandes modelos de linguagem (LLMs) introduziu novos desafios em torno do custo da computação, das necessidades de infraestrutura, da engenharia imediata e de outras técnicas de otimização, governança e muito mais. Isso requer uma evolução dos MLOps para o que hoje chamamos de “operações de modelos de linguagem de grande porte” (LLMOps).
Vamos explorar algumas áreas-chave de diferenciação onde os LLMOps introduzem novos processos e fluxos de trabalho em comparação com os MLOps tradicionais.
- Expandindo a Persona do Construtor: As aplicações tradicionais de ML envolvem em grande parte cientistas de dados que constroem modelos, com engenheiros de ML focando em pipelines e operações. Com os LLMs, esse paradigma mudou. Os cientistas de dados não são mais os únicos envolvidos – equipes de negócios, gerentes de produto e engenheiros desempenham um papel mais ativo, principalmente porque os LLMs reduzem a barreira de entrada para aplicativos orientados por IA. A ascensão de modelos de código aberto (por exemplo, Llama, Mistral) e de serviços proprietários (por exemplo, OpenAI) eliminou grande parte do trabalho pesado em torno da construção e treinamento de modelos. Esta democratização é uma faca de dois gumes. Embora os LLMs possam ser facilmente integrados aos produtos, novos desafios como custo de computação, necessidades de infraestrutura, governança e qualidade devem ser abordados.
- Low-Code/No-Code como recurso principal: No MLOps, as ferramentas foram projetadas principalmente para cientistas de dados, com foco em APIs e integrações com Python ou R. Com o LLMOps, as ferramentas de baixo código/sem código tornaram-se essenciais para atender a um conjunto mais amplo de usuários e tornar os LLMs acessíveis a várias equipes. . Uma tendência importante é como as plataformas LLMOps agora enfatizam interfaces fáceis de usar, permitindo que partes interessadas não técnicas construam, experimentem e implantem LLMs com conhecimento mínimo de codificação.
- Mais foco na otimização do modelo: Ao usar LLMs, as equipes geralmente trabalham com modelos de uso geral, ajustando-os para necessidades comerciais específicas usando dados proprietários. Portanto, as técnicas de otimização de modelos estão se tornando centrais para LLMOps. Essas técnicas, como quantização, poda e engenharia imediata, são essenciais para refinar os LLMs para adequá-los aos casos de uso específicos. A otimização não apenas melhora o desempenho, mas é essencial para gerenciar o custo e a escalabilidade dos aplicativos LLM.
- Engenharia imediata: Um conceito completamente novo introduzido pelo LLMOps é a engenharia imediata – a prática de elaborar instruções precisas para orientar o comportamento do modelo. Isto é tanto uma arte como uma ciência, servindo como um método chave para melhorar a qualidade, relevância e eficiência das respostas do LLM. As ferramentas para gerenciamento de prompts incluem encadeamento de prompts, playgrounds para testes e conceitos avançados, como técnicas de meta-promting, em que os usuários aproveitam um immediate para melhorar outro immediate, que deve fazer parte de uma pilha de LLMOps. Técnicas como Cadeia de Pensamentos e Experiência Assumida estão se tornando estratégias padrão neste novo domínio.
- O surgimento da geração aumentada de recuperação (RAG): Ao contrário dos modelos tradicionais de ML, muitos casos de uso de GenAI de nível empresarial envolvendo LLMs dependem da recuperação de dados relevantes de fontes externas, em vez de apenas gerar respostas a partir de conhecimento pré-treinado. Isto levou ao surgimento de arquiteturas de geração aumentada de recuperação (RAG), que integram modelos de recuperação para extrair informações de bases de conhecimento empresariais e, em seguida, classificar e resumir essas informações usando LLMs. O RAG reduz significativamente as alucinações e oferece uma maneira econômica de aproveitar os dados corporativos, tornando-o um novo pilar dos LLMOps. Construir e gerenciar pipelines RAG é um desafio completamente novo que não fazia parte do cenário MLOps. No ciclo de vida do LLMOps, a construção e o gerenciamento de um pipeline RAG substituíram o treinamento do modelo tradicional como foco principal. Embora o ajuste fino dos LLMs ainda seja crítico (e semelhante ao treinamento de modelos de ML), ele traz novos desafios em relação à infraestrutura e aos custos. Além disso, o uso de dados empresariais em pipelines RAG cria novos desafios de gerenciamento de dados. Recursos como armazenamento vetorial, pesquisa semântica e incorporações tornaram-se partes essenciais do fluxo de trabalho LLMOps – áreas que eram menos predominantes em MLOps.
- Avaliação e monitoramento são menos previsíveis: Avaliar e monitorar LLMs é mais complexo do que com modelos de ML tradicionais. As aplicações de LLM são frequentemente específicas do contexto, exigindo contribuições significativas de especialistas no assunto (SMEs) durante a avaliação. Estruturas de autoavaliação, onde um LLM é usado para avaliar outro, estão começando a surgir. No entanto, desafios como a imprevisibilidade dos modelos generativos e questões como as alucinações continuam difíceis de resolver. Para enfrentar esses desafios, muitas empresas implantam primeiro casos de uso internos de LLM, como assistentes de agentes, para criar confiança antes de lançar aplicativos voltados para o cliente.
- Gestão de Risco e Governança: A gestão de risco de modelo sempre foi um foco crítico para MLOps, mas LLMOps introduz novas preocupações. A transparência sobre os dados em que os LLMs são treinados é muitas vezes obscura, levantando preocupações sobre privacidade, direitos autorais e preconceitos. Além disso, tornar os LLMs auditáveis e explicáveis continua a ser um problema não resolvido. As empresas estão começando a adotar estruturas de risco de IA, mas as melhores práticas ainda estão evoluindo. Por enquanto, focar na avaliação minuciosa, no monitoramento contínuo, na criação de um catálogo de modelos aprovados e no estabelecimento de políticas de governança são primeiros passos essenciais. A governança da IA será um pilar central das ferramentas LLMOps daqui para frente.
À medida que as empresas adotam LLMs, a mudança de MLOps para LLMOps é essencial para enfrentar os seus desafios únicos. LLMOps enfatiza engenharia imediata, otimização de modelo e RAG. Também introduz novas complexidades na governação, gestão de riscos e avaliação, tornando os LLMOps cruciais para dimensionar e gerir com sucesso estes modelos avançados em produção.
Para empresas interessadas em aprender mais sobre como aproveitar os LLMs, Clique aqui.