

Tradicionalmente, os desenvolvedores usam o desenvolvimento orientado a testes (TDD) para validar aplicativos antes de implementar a funcionalidade actual. Nesta abordagem, os desenvolvedores seguem um ciclo em que escrevem um teste projetado para falhar e executar o código mínimo necessário para fazer o teste passar, refatorar o código para melhorar a qualidade e repetir o processo adicionando mais testes e continuando essas etapas iterativamente.
À medida que os agentes da IA entraram na conversa, a maneira como os desenvolvedores usam o TDD mudou. Em vez de avaliar as respostas exatas, eles estão avaliando comportamentos, raciocínio e tomada de decisão. Para levar ainda mais longe, eles devem se ajustar continuamente com base no suggestions do mundo actual. Esse processo de desenvolvimento também é extremamente útil para ajudar a mitigar e evitar alucinações imprevistas, à medida que começamos a dar mais controle à IA.
O processo preferrred de desenvolvimento de produtos de IA segue o formato de experimentação, avaliação, implantação e monitoramento. Os desenvolvedores que seguem essa abordagem estruturada podem criar melhores fluxos de trabalho agênticos confiáveis.
Etapa 1: Experimentação: Nesta primeira fase dos desenvolvedores orientados a testes, os desenvolvedores testam se os modelos podem resolver um caso de uso pretendido. As práticas recomendadas incluem experimentar técnicas de solicitação e teste em várias arquiteturas. Além disso, a utilização de especialistas no assunto para experimentar nesta fase ajudará a economizar o tempo de engenharia. Outras práticas recomendadas incluem o provedor de modelos e o fornecedor de inferência agnóstico e a experiência com diferentes modalidades.
Etapa 2: Avaliação: A próxima fase é a avaliação, onde os desenvolvedores criam um conjunto de dados de centenas de exemplos para testar seus modelos e fluxos de trabalho. Nesta fase, os desenvolvedores devem equilibrar a qualidade, custo, latência e privacidade. Como nenhum sistema de IA atenderá perfeitamente a todos esses requisitos, os desenvolvedores fazem algumas compensações. Nesta fase, os desenvolvedores também devem definir suas prioridades.
Se dados da verdade no solo está disponível, isso pode ser usado para avaliar e testar seus fluxos de trabalho. As verdades terrestres são frequentemente vistas como a espinha dorsal da validação do modelo de IA como é Exemplos de alta qualidade demonstrando saídas ideais. Se você não tiver dados de verdade, os desenvolvedores podem usar outro LLM para considerar a resposta de outro modelo. Nesse estágio, os desenvolvedores também devem usar uma estrutura flexível com várias métricas e um grande banco de casos de teste.
Os desenvolvedores devem executar avaliações em todas as etapas e ter o Guardrails para verificar os nós internos. Isso garantirá que seus modelos produza respostas precisas em todas as etapas do seu fluxo de trabalho. Uma vez que houver dados reais, os desenvolvedores também podem retornar a esse estágio.
Etapa 3: implantação: Depois que o modelo é implantado, os desenvolvedores devem monitorar mais coisas do que saídas determinísticas. Isso inclui o registro de todas as chamadas LLM e as entradas de rastreamento, latência de saída e as etapas exatas que o sistema de IA tomou. Ao fazer isso, os desenvolvedores podem ver e entender como a IA opera a cada etapa. Esse processo está se tornando ainda mais crítico com a introdução de fluxos de trabalho agênticos, pois essa tecnologia é ainda mais complexa, pode seguir diferentes caminhos de fluxo de trabalho e tomar decisões de forma independente.
Nesta fase, os desenvolvedores devem manter chamadas de API com estado, repetir e fazer lógica de fallback para lidar com interrupções e limites de avaliação. Por fim, os desenvolvedores nesse estágio devem garantir um controle de versão razoável usando ambientes em pé e executando testes de regressão para manter a estabilidade durante as atualizações.
Etapa 4: Monitoramento: Depois que o modelo é implantado, os desenvolvedores podem coletar respostas do usuário e criar um loop de suggestions. Isso permite que os desenvolvedores identifiquem casos de borda capturados na produção, melhorem continuamente e tornem o fluxo de trabalho mais eficiente.
O papel do TDD na criação de aplicativos AI agênticos resilientes
Um recente Gartner A pesquisa revelou que, até 2028, 33% dos aplicativos de software program corporativo incluirão a IA Agentic. Esses investimentos maciços devem ser resistentes para alcançar as equipes de ROI que estão esperando.
Como os fluxos de trabalho agênticos usam muitas ferramentas, eles têm estruturas multi-agentes que executam tarefas em paralelo. Ao avaliar os fluxos de trabalho agênticos usando a abordagem orientada por teste, não é mais basic apenas medir o desempenho em todos os níveis; Agora, os desenvolvedores devem avaliar o comportamento dos agentes para garantir que estejam tomando decisões precisas e seguindo a lógica pretendida.
Redfin anunciou recentemente Pergunte a Redfinum chatbot de IA que alimenta conversas diárias para milhares de usuários. Usando VelinoO desenvolvedor Sandbox, a equipe Redfin colaborou em prompts Para escolher a combinação de immediate/modelo certa, a lógica de assistente digital complexa da IA, conectando etapas de manipulação de dados, e as etapas de manipulação de dados e avaliaram sistematicamente a pré-produção imediata usando centenas de casos de teste.
Após uma abordagem de desenvolvimento orientada a testes, sua equipe pode simular várias interações do usuário, testar instruções diferentes em vários cenários e criar confiança no desempenho de seu assistente antes de enviar para a produção.
Verifique a realidade em tecnologias Agentic
Todo fluxo de trabalho da IA tem algum nível de comportamentos agênticos. Na Vellum, acreditamos em uma estrutura de seis níveis que divide os diferentes níveis de autonomia, controle e tomada de decisão para os sistemas de IA: de L0: fluxos de trabalho baseados em regras, onde não há inteligência, para L4: totalmente criativo, onde a IA está criando sua própria lógica.
Hoje, mais aplicativos de IA estão em L1. O foco está na orquestração – otimizando como os modelos interagem com o restante do sistema, ajustes de ajustes, otimizando a recuperação e as evalas e experimentando diferentes modalidades. Eles também são mais fáceis de gerenciar e controlar na produção – a debutação é um pouco mais fácil hoje em dia, e os modos de falha são meio previsíveis.
O desenvolvimento orientado a testes realmente faz seu caso aqui, pois os desenvolvedores precisam melhorar continuamente os modelos para criar um sistema mais eficiente. Este ano, é provável que vejamos mais inovação em L2, com agentes de IA sendo usados para planejar e raciocinar.
À medida que os agentes da IA aumentam a pilha, o desenvolvimento orientado a testes apresenta uma oportunidade para os desenvolvedores melhorarem, avaliarem e refinarem seus fluxos de trabalho. As plataformas de desenvolvedores de terceiros oferecem às empresas e equipes de desenvolvimento uma plataforma para definir facilmente e avaliar comportamentos agênticos e melhorar continuamente os fluxos de trabalho em um só lugar.