Amazon Rufus: como construímos um assistente de compras com tecnologia de IA -itstec.com.br. All rights reserved.

“O que eu preciso para jogar golfe em climas frios?”

“Quais são as diferenças entre tênis de trilha e tênis de corrida?”

“Quais são os melhores brinquedos de dinossauros para uma criança de cinco anos?”

Estas são algumas das perguntas abertas que os clientes podem fazer a um vendedor prestativo em uma loja física. Mas como os clientes podem obter respostas a perguntas semelhantes enquanto fazem compras on-line?

A resposta da Amazon é Rufoum assistente de compras desenvolvido por IA generativa. Rufus ajuda Amazônia os clientes tomam decisões de compra mais informadas, respondendo a uma ampla variedade de perguntas no aplicativo Amazon. Os usuários podem obter detalhes do produto, comparar opções e receber recomendações de produtos.

Lidero a equipe de cientistas e engenheiros que construiu o modelo de linguagem grande (LLM) que alimenta Rufus. Para construir um assistente de compras conversacional útil, usamos técnicas inovadoras em vários aspectos da IA generativa. Construímos um LLM personalizado especializado em compras; empregou geração de recuperação aumentada com uma variedade de novas fontes de evidências; aprendizagem por reforço aproveitada para melhorar as respostas; fez avanços na computação de alto desempenho para melhorar a eficiência da inferência e reduzir a latência; e implementou uma nova arquitetura de streaming para obter respostas dos compradores com mais rapidez.

Como Rufus obtém respostas

A maioria dos LLMs são primeiro treinados em um amplo conjunto de dados que informa o conhecimento e as capacidades gerais do modelo e, em seguida, são personalizados para um domínio específico. Isso não funcionaria para Rufus, já que nosso objetivo period treiná-lo em dados de compras desde o início – todo o catálogo da Amazon, para começar, bem como avaliações de clientes e informações de postagens de perguntas e respostas da comunidade. Portanto, nossos cientistas criaram um LLM personalizado que foi treinado nessas fontes de dados junto com informações públicas na internet.

Mas para estar preparado para responder à vasta gama de perguntas que poderiam ser feitas, o Rufus deve estar capacitado para ir além dos dados de treinamento inicial e trazer informações novas. Por exemplo, para responder à pergunta: “Esta panela pode ser lavada na máquina de lavar louça?” o LLM primeiro analisa a questão e depois descobre quais fontes de recuperação o ajudarão a gerar a resposta.

Nosso LLM usa geração aumentada de recuperação (RAG) para obter informações de fontes reconhecidamente confiáveis, como catálogo de produtos, avaliações de clientes e postagens de perguntas e respostas da comunidade; ele também pode chamar APIs relevantes das Amazon Shops. Nosso sistema RAG é extremamente complexo, tanto pela variedade de fontes de dados utilizadas quanto pela relevância diferente de cada uma, dependendo da questão.

Cada LLM e cada uso de IA generativa é um trabalho em andamento. Para que Rufus melhore com o tempo, ele precisa aprender quais respostas são úteis e quais podem ser melhoradas. Os clientes são a melhor fonte dessas informações. A Amazon incentiva os clientes a dar suggestions a Rufus, informando ao modelo se gostaram ou não da resposta, e essas respostas são usadas em um processo de aprendizagem por reforço. Com o tempo, a Rufus aprende com o suggestions dos clientes e melhora suas respostas.

Chips especiais e técnicas de manuseio para Rufus

Rufus precisa ser capaz de interagir com milhões de clientes simultaneamente, sem qualquer atraso perceptível. Isto é particularmente desafiador, uma vez que as aplicações generativas de IA exigem muita computação, especialmente na escala da Amazon.

Para minimizar o atraso na geração de respostas e ao mesmo tempo maximizar o número de respostas que nosso sistema poderia lidar, recorremos aos chips de IA especializados da Amazon, Treinamento e Inferênciaque são integrados ao núcleo Amazon Internet Providers (AWS). Colaboramos com a AWS em otimizações que melhoram a eficiência da inferência de modelos, que foram então disponibilizadas para todos os clientes da AWS.

Mas os métodos padrão de processamento de solicitações de usuários em lotes causarão problemas de latência e de rendimento porque é difícil prever quantos tokens (nesse caso, unidades de texto) um LLM gerará à medida que compõe cada resposta. Nossos cientistas trabalharam com a AWS para permitir que Rufus usasse lote contínuouma nova técnica LLM que permite ao modelo começar a atender novas solicitações assim que a primeira solicitação do lote terminar, em vez de esperar que todas as solicitações de um lote terminem. Essa técnica melhora a eficiência computacional dos chips de IA e permite que os compradores obtenham respostas rapidamente.

Queremos que Rufus forneça a resposta mais relevante e útil para qualquer pergunta. Às vezes, isso significa uma resposta de texto longo, mas às vezes é um texto curto ou um hyperlink clicável para navegar na loja. E tivemos que garantir que as informações apresentadas seguissem um fluxo lógico. Se não agruparmos e formatarmos as coisas corretamente, poderemos acabar com uma resposta confusa que não será muito útil para o cliente.

É por isso que Rufus usa uma arquitetura de streaming avançada para fornecer respostas. Os clientes não precisam esperar que uma resposta longa seja totalmente gerada; em vez disso, eles recebem a primeira parte da resposta enquanto o restante é gerado. Rufus preenche a resposta de streaming com os dados corretos (um processo chamado hidratação) fazendo consultas a sistemas internos. Além de gerar o conteúdo da resposta, também gera instruções de formatação que especificam como os diversos elementos da resposta devem ser exibidos.

Embora a Amazon use IA há mais de 25 anos para melhorar a experiência do cliente, a IA generativa representa algo novo e transformador. Estamos orgulhosos do Rufus e dos novos recursos que ele oferece aos nossos clientes.

Dos artigos do seu web site

Amazon Rufus: como construímos um assistente de compras com tecnologia de IA

Como Rufus obtém respostas

Chips especiais e técnicas de manuseio para Rufus

Deixe um comentário Cancelar resposta

Plataforma receptora GNSS do sistema InTerra SmarTarget

Quantum Techniques e ADV Protection assinam memorando de entendimento para fortalecer a cooperação de defesa germano-lituana – sUAS Information

Nanopartículas de lantanídeos “ligadas” por transferência de energia tripla

Diferença significativa na transferência de carga nas etapas das superfícies Ag (100) e Cu (100) reveladas pela ressonância de emissão de campo

Movimento de alta precisão para indústrias exigentes

Um novo nanorreator sono-ativável induz geração de juglona intratumoral de precisão e piroptose mediada por caspase 3/GSDME para tratamento de câncer de bexiga | Revista de Nanobiotecnologia

IIGF 2025 se reunirá em Nova Delhi de 27 a 28 de novembro

“Muito acessível e muito rápido” – 5G privado plug-and-play

Amazon Route 53 lança recuperação acelerada para gerenciamento de registros DNS públicos

AWS planeja expansão de IA e supercomputação para o governo dos EUA

Podcast: A revolução dos carros conectados finalmente chegou ou ainda estamos em ponto morto?

Nanopartículas de lantanídeos “ligadas” por transferência de energia tripla