Agradecimentos especiais a Daniel Benito (CTO, Bitext), Antonio Valderrabanos (CEO, Bitext), Chen Wang (Lead Resolution Architect, AI21 Labs), Robbin Jang (Alliance Supervisor, AI21 Labs) e Alex Godfrey (Accomplice Advertising Lead, AI21 Labs) por seus valiosos insights e contribuições para este weblog
Temos o prazer de compartilhar a disponibilidade geral do compartilhamento de modelos de IA no Databricks Delta Sharing e no Databricks Market. Este marco segue o Anúncio de visualização pública em janeiro de 2024. Desde o lançamento do Public Preview, trabalhamos com novos clientes e provedores de compartilhamento de modelo de IA, como Bitexto, Laboratórios AI21e Ripple para simplificar ainda mais o compartilhamento de modelos de IA.
Você pode compartilhar e servir facilmente modelos de IA com segurança usando o Delta Sharing. O compartilhamento pode ser dentro da sua organização ou externamente em nuvens, plataformas e regiões. Além disso, Mercado de blocos de dados agora tem mais de 75 modelos de IA, incluindo novos modelos de IA específicos do setor de John Snow Labs, OLA Krutrim e Bitext, bem como modelos básicos como Databricks DBRX, Llama 3, AI21 Labs, Mistral e vários outros. Neste weblog, revisaremos a necessidade comercial de compartilhamento de modelos de IA e nos aprofundaremos nos casos de uso impulsionados pelo modelo básico Jamba 1.5 Mini da AI21 e pelos modelos Bitext.
Os modelos de IA agora também estão prontamente disponíveis imediatamente no Catálogo de Unidadesimplificando o processo para que os usuários acessem e implantem modelos com eficiência. Este desenvolvimento não só simplifica a experiência do utilizador, mas também melhora a acessibilidade dos modelos de IA, apoiando a integração e implementação perfeitas em várias plataformas e regiões.
3 benefícios do compartilhamento de modelo de IA
Aqui estão os três benefícios do compartilhamento de modelo de IA com Databricks que vimos com os primeiros usuários e parceiros de lançamento
- Custo mais baixo: O compartilhamento de modelos de IA com Delta Sharing reduz o custo complete de propriedade, minimizando despesas de aquisição, desenvolvimento e infraestrutura. As organizações podem acessar modelos pré-construídos ou de terceiros, seja Delta Shared ou do Databricks Market, reduzindo o investimento inicial e o tempo de desenvolvimento. O compartilhamento de modelos com o Delta Sharing entre nuvens e plataformas otimiza o uso da infraestrutura, reduzindo a redundância e as despesas, ao mesmo tempo em que implanta modelos mais próximos dos usuários finais para minimizar a latência.
- Qualidade de Produção: o Delta Sharing permite adquirir modelos adequados aos casos de uso dos clientes e aumentá-los com uma única plataforma para todo o ciclo de vida da IA. Ao compartilhar modelos na plataforma Databricks Mosaic AI, os clientes obtêm acesso a recursos de IA e governança para produzir qualquer modelo. Isso inclui recursos completos de desenvolvimento de modelos, desde a veiculação de modelos até o ajuste fino, juntamente com os recursos de segurança e gerenciamento do Unity Catalog, como monitoramento de linhagem e Lakehouse, garantindo alta confiança nos modelos e nos dados associados.
- Controle Completo: ao trabalhar com modelos de terceiros, o compartilhamento de modelos de IA permite que você tenha controle complete sobre os modelos e conjuntos de dados correspondentes. Como o Delta Sharing permite que os clientes adquiram pacotes completos de modelos, o modelo e seus dados permanecem na infraestrutura do cliente, sob seu controle. Eles não precisam enviar dados confidenciais a um fornecedor que atenda o modelo em nome do cliente.
Então, como funciona o compartilhamento de modelo de IA?
O compartilhamento de modelo de IA é desenvolvido pela Delta Sharing. Os provedores podem compartilhar modelos de IA com clientes diretamente usando o Delta Sharing ou listando-os no Databricks Market, que também usa o Delta Sharing.
O Delta Sharing facilita o uso de modelos de IA onde quer que você exact deles. Você pode treinar modelos em qualquer lugar e usá-los em qualquer lugar sem precisar movê-los manualmente. Os pesos do modelo (ou seja, parâmetros que o modelo de IA aprendeu durante o treinamento) serão automaticamente puxados para o endpoint de serviço (ou seja, o native onde o modelo “vive”). Isso elimina a necessidade de movimentação complicada do modelo após cada treinamento ou ajuste fino do modelo, garantindo uma única fonte de verdade e agilizando o processo de veiculação. Por exemplo, os clientes podem treinar modelos na nuvem e na região que fornece a infraestrutura de treinamento mais barata e, em seguida, servir o modelo em outra região mais próxima dos usuários finais para minimizar a latência de inferência (ou seja, reduzindo o tempo que leva para um modelo de IA processar dados e fornecer resultados).
O Databricks Market, desenvolvido pela Delta Sharing, permite que você encontre e use facilmente mais de 75 modelos de IA. Você pode configurar esses modelos como se estivessem em seu sistema native, e o Delta Sharing os atualiza automaticamente durante a implantação ou atualizações. Você também pode personalizar modelos com seus dados para tarefas como gerenciar uma base de conhecimento. Como fornecedor, só precisa de uma cópia do seu modelo para partilhá-lo com todos os seus clientes Databricks.
Qual é o impacto nos negócios?
Desde que a visualização pública do compartilhamento de modelos de IA foi anunciada em janeiro de 2024, trabalhamos com vários clientes e parceiros para garantir que o compartilhamento de modelos de IA proporcione economias de custos significativas para as organizações
“Usamos modelos de aprendizagem por reforço (RL) em alguns de nossos produtos. Em comparação com modelos de aprendizagem supervisionada, os modelos RL têm tempos de treinamento mais longos e muitas fontes de aleatoriedade no processo de treinamento. Esses modelos RL precisam ser implantados em 3 espaços de trabalho em AWS separados regiões. Com o compartilhamento de modelos, podemos ter um modelo RL disponível em vários espaços de trabalho sem precisar treiná-lo novamente ou sem quaisquer etapas manuais complicadas para mover o modelo.”
— Mihir Mavalankar Engenheiro de aprendizado de máquina, Ripple
Jamba 1.5 Mini da AI21 Labs: Trazendo modelos de IA de grande contexto para o Databricks Market
AI21 Labs, líder em IA generativa e grandes modelos de linguagem, publicou Jamba 1.5 Mini, parte da família de modelos Jamba 1.5, no Databricks Market. Jamba 1.5 Mini da AI21 Labs apresenta uma nova abordagem para modelos de linguagem de IA para uso empresarial. Sua inovadora arquitetura híbrida Mamba-Transformer permite uma janela de contexto efetiva de token de 256K, juntamente com velocidade e qualidade excepcionais. Com a otimização do Mini para uso eficiente da computação, ele pode lidar com comprimentos de contexto de até 140 mil tokens em uma única GPU.
“AI21 Labs tem o prazer de anunciar que o Jamba 1.5 Mini está agora no Databricks Market. Com o Delta Sharing, as empresas podem acessar nossa arquitetura Mamba-Transformer, apresentando uma janela de contexto de 256K, garantindo velocidade e qualidade excepcionais para soluções transformadoras de IA”
– Pankaj Dugar, vice-presidente sênior e gerente geral, AI21 Labs
Uma janela de contexto efetiva de token de 256K em modelos de IA refere-se à capacidade do modelo de processar e considerar 256.000 tokens de texto de uma vez. Isto é significativo porque permite que o modelo AI21 Fashions lide com conjuntos de dados grandes e complexos, tornando-o particularmente útil para tarefas que requerem compreensão e análise de informações extensas, como documentos longos ou fluxos de trabalho intrincados com muitos dados, e melhorando o estágio de recuperação de qualquer Fluxo de trabalho baseado em RAG. A arquitetura híbrida do Jamba garante que a qualidade do modelo não se degrade à medida que o contexto aumenta, ao contrário do que normalmente é visto nas janelas de contexto reivindicadas dos LLMs baseados em Transformer.
Confira este vídeo tutorial que demonstra como obter o modelo AI21 Jamba 1.5 Mini do Databricks Market, ajustá-lo e servi-lo
Casos de uso
A janela de contexto de 256k do Jamba 1.5 Mini significa que os modelos podem lidar com eficiência com o equivalente a 800 páginas de texto em um único immediate. Aqui estão alguns exemplos de como os clientes do Databricks em diferentes setores podem usar esses modelos
- Processamento de Documentos: Os clientes podem usar o Jamba 1.5 Mini para resumir rapidamente longos relatórios, contratos ou documentos de pesquisa. Para instituições financeiras, os modelos podem resumir relatórios de lucros, analisar tendências de mercado a partir de extensos documentos financeiros ou extrair informações relevantes de registros regulatórios.
- Aprimorando os fluxos de trabalho dos agentes: Para os prestadores de cuidados de saúde, o modelo pode auxiliar em processos complexos de tomada de decisões médicas, analisando múltiplas fontes de dados de pacientes e fornecendo recomendações de tratamento.
- Melhorando os processos de geração aumentada de recuperação (RAG): Nos sistemas RAG para empresas de varejo, os modelos podem gerar respostas mais precisas e contextualmente relevantes às consultas dos clientes, considerando uma gama mais ampla de informações sobre produtos e histórico do cliente.
Como os modelos de IA verticalizados Bitext no Databricks Market melhoram a integração do cliente
Bitext oferece modelos verticalizados pré-treinados no Databricks Market. Estes modelos são versões do modelo Mistral-7B-Instruct-v0.2 afinadas para a criação de chatbots, assistentes virtuais e copilotos para o domínio da Banca de Retalho, proporcionando aos clientes respostas rápidas e precisas sobre as suas necessidades bancárias. Estes modelos podem ser produzidos para qualquer família de modelos de fundação: GPT, Llama, Mistral, Jamba, OpenELM…
Caso de uso: Melhorando a integração com IA
Um aplicativo líder de negociação social estava enfrentando altas taxas de abandono durante a integração do usuário. Ele alavancou Modelos bancários verticalizados pré-treinados do Bitext para renovar seu processo de integração, transformando formulários estáticos em uma experiência de usuário conversacional, intuitiva e personalizada.
Bitext compartilhou o modelo verticalizado de IA com o cliente. Usando esse modelo como base, um cientista de dados fez o ajuste inicial com dados específicos do cliente, como perguntas frequentes comuns. Esta etapa garantiu que o modelo entendesse os requisitos e a linguagem exclusivos da base de usuários. Isto foi seguido por ajuste fino avançado com Databricks Mosaic AI.
Depois que o modelo Bitext foi ajustado, ele foi implantado usando o Databricks AI Mannequin Serving.
- O modelo ajustado foi registrado no Catálogo Unity
- Um terminal foi criado.
- O modelo foi implantado no endpoint
A colaboração estabeleceu um novo padrão na interação dos utilizadores no setor das finanças sociais, melhorando significativamente o envolvimento e a retenção dos clientes. Graças ao impulso inicial fornecido pelo modelo de IA compartilhado, toda a implementação foi concluída em 2 semanas.
Dê uma olhada na demonstração que mostra como instalar e ajustar o modelo Bitext Verticalized AI do Databricks Market aqui
“Ao contrário dos modelos genéricos que precisam de muitos dados de treinamento, começar com um modelo especializado para um setor específico reduz os dados necessários para personalizá-lo. Isso ajuda os clientes a implantar rapidamente modelos de IA personalizados. Estamos entusiasmados com o compartilhamento de modelos de IA. Nossos clientes têm obtivemos uma redução de até 60% nos custos de recursos (menos cientistas de dados e menores requisitos computacionais) e economias de até 50% em interrupções operacionais (testes e implantação mais rápidos) com nossos modelos especializados de IA disponíveis no Databricks Market.”
– Antonio S. Valderrábanos, fundador e CEO, Bitext
Economia de custos com a abordagem de treinamento do modelo de duas etapas da Bitext
Componentes de custo | Abordagem genérica de LLM | Modelo verticalizado da Bitext no Databricks Market | Economia de custos (%) |
Verticalização | Alto – Ajuste extensivo para setor e caso de uso | Baixo – Comece com LLM vertical pré-ajustado | 60% |
Personalização com dados da empresa | Médio – É necessário ajuste adicional | Baixo – É necessária personalização específica | 30% |
Tempo complete de treinamento | 3-6 meses | 1-2 meses | Redução de 50-60% |
Alocação de recursos | Alto – Mais cientistas de dados e poder computacional | Baixo – Menos intensivo | 40-50% |
Interrupção Operacional | Alto – Fases de integração e teste mais longas | Baixo – Implantação mais rápida | 50% |
Chamada para ação
Agora que a partilha de modelos de IA está geralmente disponível (GA) tanto para Delta Sharing como para novos modelos de IA no Databricks Market, encorajamo-lo a: