Como Cerebras + DataRobot acelera o desenvolvimento de aplicativos de IA -itstec.com.br. All rights reserved.

Mais rápido, mais inteligente, mais responsivo Aplicações de IA – é isso que seus usuários esperam. Mas quando os grandes modelos de linguagem (LLMs) demoram a responder, a experiência do usuário é prejudicada. Cada milissegundo conta.

Com os endpoints de inferência de alta velocidade da Cerebras, você pode reduzir a latência, acelerar as respostas do modelo e manter a qualidade em escala com modelos como o Llama 3.1-70B. Seguindo algumas etapas simples, você poderá personalizar e implantar seus próprios LLMs, proporcionando o controle para otimizar a velocidade e a qualidade.

Neste weblog, orientaremos você sobre como:

Configure o Llama 3.1-70B no Parque DataRobot LLM.
Gere e aplique uma chave de API para aproveitar o Cerebras para inferência.
Personalize e implante aplicativos mais inteligentes e rápidos.

Ao closing, você estará pronto para implantar LLMs que oferecem velocidade, precisão e capacidade de resposta em tempo actual.

Prototipar, personalizar e testar LLMs em um só lugar

A prototipagem e o teste de modelos generativos de IA geralmente exigem uma colcha de retalhos de ferramentas desconectadas. Mas com um ambiente unificado e integrado para LLMstécnicas de recuperação e métricas de avaliação, você pode passar da ideia ao protótipo funcional com mais rapidez e menos obstáculos.

Esse processo simplificado significa que você pode se concentrar na criação de aplicativos de IA eficazes e de alto impacto, sem o incômodo de reunir ferramentas de diferentes plataformas.

Vamos examinar um caso de uso para ver como você pode aproveitar esses recursos para desenvolver aplicativos de IA mais inteligentes e rápidos.

Caso de uso: Acelerando a interferência LLM sem sacrificar a qualidade

A baixa latência é essencial para criar aplicativos de IA rápidos e responsivos. Mas as respostas aceleradas não têm de ser feitas à custa da qualidade.

A velocidade de Inferência cerebral supera outras plataformas, permitindo que os desenvolvedores criem aplicativos que pareçam suaves, responsivos e inteligentes.

Quando combinado com uma experiência de desenvolvimento intuitiva, você pode:

Reduza a latência do LLM para interações mais rápidas do usuário.
Experimente com mais eficiência com novos modelos e fluxos de trabalho.
Implantar aplicativos que respondem instantaneamente às ações do usuário.

Os diagramas abaixo mostram o desempenho da Cerebras no Llama 3.1-70B, ilustrando tempos de resposta mais rápidos e menor latência do que outras plataformas. Isso permite iteração rápida durante o desenvolvimento e desempenho em tempo actual na produção.

Como Cerebras + DataRobot acelera o desenvolvimento de aplicativos de IA

Imagem mostrando o tempo de resposta da lhama 3.1 70B com Cerebras

Como o tamanho do modelo afeta a velocidade e o desempenho do LLM

À medida que os LLMs se tornam maiores e mais complexos, os seus resultados tornam-se mais relevantes e abrangentes — mas isto tem um custo: maior latência. A Cerebras enfrenta esse desafio com cálculos otimizados, transferência de dados simplificada e decodificação inteligente projetada para velocidade.

Estas melhorias de velocidade já estão a transformar as aplicações de IA em indústrias como a farmacêutica e a IA de voz. Por exemplo:

GlaxoSmithKline (GSK) usa o Cerebras Inference para acelerar a descoberta de medicamentos, aumentando a produtividade.
Equipment ao vivo impulsionou o desempenho do pipeline de modo de voz do ChatGPT, alcançando tempos de resposta mais rápidos do que as soluções de inferência tradicionais.

Os resultados são mensuráveis. No Llama 3.1-70B, o Cerebras oferece inferência 70x mais rápida do que as GPUs vanilla, permitindo interações mais suaves e em tempo actual e ciclos de experimentação mais rápidos.

Esse desempenho é alimentado pelo Wafer-Scale Engine (WSE-3) de terceira geração da Cerebras, um processador personalizado projetado para otimizar as operações de álgebra linear esparsas baseadas em tensores que impulsionam a inferência LLM.

Ao priorizar desempenho, eficiência e flexibilidade, o WSE-3 garante resultados mais rápidos e consistentes durante o desempenho do modelo.

A velocidade do Cerebras Inference reduz a latência de aplicações de IA alimentadas por seus modelos, permitindo um raciocínio mais profundo e experiências de usuário mais responsivas. Acessar esses modelos otimizados é simples: eles estão hospedados no Cerebras e acessíveis por meio de um único endpoint, para que você possa começar a aproveitá-los com configuração mínima.

Imagem mostrando tokens por segundo no Cerebras Inference

Passo a passo: como personalizar e implantar o Llama 3.1-70B para IA de baixa latência

Integrando LLMs como Llama 3.1-70B da Cerebras em DataRobot permite personalizar, testar e implantar modelos de IA em apenas algumas etapas. Este processo oferece suporte a desenvolvimento mais rápido, testes interativos e maior controle sobre a personalização do LLM.

1. Gere uma chave API para Llama 3.1-70B na plataforma Cerebras.

Imagem mostrando geração e chave API no Cerebras

2. No DataRobot, crie um modelo personalizado no Mannequin Workshop que chame o endpoint Cerebras onde o Llama 3.1 70B está hospedado.

Imagem do workshop de modelos no DataRobot (1)

3. Dentro do modelo customizado, coloque a chave API Cerebras dentro do arquivo customized.py.

Imagem de colocar a chave da API Cerebras em um arquivo py personalizado no DataRobot (1)

4. Implante o modelo personalizado em um terminal no console DataRobot, permitindo que os projetos LLM o aproveitem para inferência.

Imagem da implantação do lhama 3.1 70B no Cerebras no DataRobot

5. Adicione seu Cerebras LLM implantado ao blueprint LLM no DataRobot LLM Playground para começar a conversar com o Llama 3.1 -70B.

Imagem da adição de um LLM ao playground no DataRobot

6. Depois que o LLM for adicionado ao blueprint, teste as respostas ajustando os parâmetros de solicitação e recuperação e examine os resultados com outros LLMs diretamente na GUI do DataRobot.

Expanda os limites da inferência LLM para suas aplicações de IA

Implantar LLMs como o Llama 3.1-70B com baixa latência e capacidade de resposta em tempo actual não é uma tarefa fácil. Mas com as ferramentas e fluxos de trabalho certos, você pode conseguir ambos.

Ao integrar LLMs ao LLM Playground da DataRobot e aproveitar a inferência otimizada da Cerebras, você pode simplificar a personalização, acelerar os testes e reduzir a complexidade – tudo isso enquanto mantém o desempenho que seus usuários esperam.

À medida que os LLMs se tornam maiores e mais poderosos, ter um processo simplificado para testes, personalização e integração será essencial para as equipes que desejam permanecer à frente.

Discover você mesmo. Acesso Inferência cerebralgere sua chave de API e comece a criar Aplicações de IA no DataRobot.

Sobre o autor

Kumar Venkateswar

Vice-presidente de Produto, Plataforma e Ecossistema

Kumar Venkateswar é vice-presidente de produto, plataforma e ecossistema da DataRobot. Ele lidera o gerenciamento de produtos para os serviços fundamentais e parcerias de ecossistemas da DataRobot, preenchendo as lacunas entre infraestrutura eficiente e integrações que maximizam os resultados da IA. Antes da DataRobot, Kumar trabalhou na Amazon e na Microsoft, incluindo liderança de equipes de gerenciamento de produtos para Amazon SageMaker e Amazon Q Enterprise.

Conheça Kumar Venkateswar

Nathaniel Daly

Gerente de Produto Principal

Nathaniel Daly é gerente de produto sênior da DataRobot com foco em AutoML e produtos de série temporal. Ele está focado em trazer avanços na ciência de dados aos usuários, para que eles possam aproveitar esse valor para resolver problemas de negócios do mundo actual. Ele é formado em Matemática pela Universidade da Califórnia, Berkeley.

Conheça Nathaniel Daly

Como Cerebras + DataRobot acelera o desenvolvimento de aplicativos de IA

Prototipar, personalizar e testar LLMs em um só lugar

Caso de uso: Acelerando a interferência LLM sem sacrificar a qualidade

Como o tamanho do modelo afeta a velocidade e o desempenho do LLM

Passo a passo: como personalizar e implantar o Llama 3.1-70B para IA de baixa latência

Expanda os limites da inferência LLM para suas aplicações de IA

Deixe um comentário Cancelar resposta

DJI Flip vs Mini 4 Professional: Qual é a melhor atualização para você?

Qual drone Micro FPV de 3 polegadas com DJI O4 devo comprar? Comparação de especificações e guia do comprador

Nanoporos inovadores de imagem espelhada abrem portas para novas aplicações biomédicas

Propriedades antibacterianas e mecanismos subjacentes de MXenes Mo2TiC2Tx e Mo2Ti2C3Tx direcionados a Escherichia coli (bactéria Gram-negativa)

Um cristal anisotrópico van der Waals recorde? – Mundo da Física

Estágio Linear de Precisão com Resolução de Encoder de 1 nm

Google investirá US$ 10 bilhões em Andhra Pradesh; TCS planeja US$ 6 a 7 bilhões para infraestrutura de IA

“Totalmente conectado” – BMW abre fábrica de carros com IA “mais inovadora” na Hungria

Anunciamos o Amazon Fast Suite: seu companheiro de equipe agente para responder perguntas e tomar medidas

Google se expande na Bélgica e enfrenta escrutínio antitruste de IA dos EUA

Bambu Lab lança Belief Heart para aumentar a transparência na segurança e privacidade de impressoras 3D

Dados de inventário de rede podem se tornar o maior ponto cego das telecomunicações…