Como os modelos de texto de código aberto do Snowflake e modelos de inferência do Ártico resolvem as duas maiores dores de cabeça da IA ​​da IA ​​da empresa


Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


Floco de neve tem milhares de clientes corporativos que usam a empresa Dados e tecnologias de IA. Embora muitos problemas com a IA generativa sejam resolvidos, ainda há muito espaço para melhorias.

Duas dessas questões são uma consulta de texto para SQL e inferência de IA. O SQL é a linguagem de consulta usada para bancos de dados e existe de várias formas há mais de 50 anos. Os grandes modelos de idiomas existentes (LLMS) possuem recursos de texto para SQL que podem ajudar os usuários a escrever consultas SQL. Fornecedores, incluindo o Google, introduziram Recursos avançados de SQL de linguagem pure. A inferência também é uma capacidade madura, com tecnologias comuns, incluindo a Tensorrt da Nvidia sendo amplamente implantada.

Embora as empresas tenham implantado amplamente as duas tecnologias, elas ainda enfrentam problemas não resolvidos que exigem soluções. Os recursos de texto para SQL existentes no LLMS podem gerar consultas de aparência plausível, no entanto, elas geralmente quebram quando executadas contra bancos de dados corporativos reais. Quando se trata de inferência, velocidade e eficiência de custos, são sempre áreas em que todas as empresas procuram fazer melhor.

É aí que um par de novos esforços de fonte aberta do Snowflake pretende fazer a diferença: Arctic-Text2SQL-R1 e Inferência do Ártico.

A abordagem do Snowflake à pesquisa de IA é sobre a empresa

A pesquisa de IA do Snowflake está abordando as questões da otimização de texto para SQL e inferência, repensando fundamentalmente as metas de otimização.

Em vez de perseguir os benchmarks acadêmicos, a equipe se concentrou no que realmente importa na implantação corporativa. Uma questão é garantir que o sistema possa se adaptar aos padrões reais de tráfego sem forçar trade-offs caros. A outra questão é entender se o SQL gerado realmente é executado corretamente contra bancos de dados reais? O resultado são duas tecnologias inovadoras que abordam pontos de dor persistentes corporativos, em vez de avanços incrementais de pesquisa.

“Queremos oferecer pesquisas práticas de IA no mundo actual que resolvem desafios críticos da empresa”, disse Dwarak Rajagopal, vice-presidente de engenharia e pesquisa da IA ​​em Snowflake à VentureBeat. “Queremos ultrapassar os limites da IA ​​de código aberto, tornando a pesquisa de ponta acessível e impactante”.

Por que o texto-para-SQL não é um problema resolvido (ainda) para a IA e dados corporativos

Vários LLMs tiveram a capacidade de gerar SQL a partir de consultas básicas de linguagem pure. Então, por que se preocupar em criar mais um modelo de texto para SQL?

O Snowflake avaliou os modelos existentes para primeiro ver se de fato o texto para SQL period ou não, um problema resolvido.

“Os LLMs existentes podem gerar SQL que parece fluente, mas quando as consultas ficam complexas, elas geralmente falham”, explicou Yuxiong, ele, distinto engenheiro de software program de IA em Snowflake ao VentureBeat. “Os casos de uso do mundo actual geralmente têm esquema maciço, entrada ambígua, lógica aninhada, mas os modelos existentes simplesmente não são treinados para realmente abordar esses problemas e obter a resposta certa, eles foram treinados para imitar padrões”.

Como a aprendizagem de reforço alinhada à execução melhora o texto para SQL

O Arctic-Text2SQL-R1 aborda os desafios do texto para SQL através de uma série de abordagem.
Ele usa o aprendizado de reforço alinhado à execução que treina modelos diretamente sobre o que mais importa: o SQL é executado corretamente e retorna a resposta certa? Isso representa uma mudança basic da otimização da similaridade sintática ao otimizar para a correção da execução.

“Em vez de otimizar a semelhança de texto, treinamos o modelo diretamente no que mais nos preocupamos. Uma consulta é executada corretamente e usamos isso como uma recompensa simples e estável?” ela explicou.

A família Arctic-Text2SQL-R1 alcançou o desempenho de ponta em vários benchmarks. A abordagem de treinamento usa o Otimização de Política Relativa do Grupo (GRPO). A abordagem GRPO usa um sinal de recompensa simples com base na correção da execução.

Como os modelos de texto de código aberto do Snowflake e modelos de inferência do Ártico resolvem as duas maiores dores de cabeça da IA ​​da IA ​​da empresa

O paralelismo de mudança ajuda a melhorar a inferência de IA de código aberto

Os sistemas de inferência de IA atuais forçam as organizações a uma escolha basic: otimizam a capacidade de resposta e a geração rápida ou otimizam a eficiência de custos por meio de alta utilização de rendimento de recursos caros da GPU. Esta decisão ou ou seja, decorre de estratégias de paralelização incompatíveis que não podem coexistir em uma única implantação.

A inferência do Ártico resolve isso através do paralelismo de mudança. É uma nova abordagem que alterna dinamicamente entre estratégias de paralelização com base em padrões de tráfego em tempo actual, mantendo os layouts de memória compatíveis. O sistema usa o paralelismo do tensor quando o tráfego é baixo e muda para o paralelismo da sequência do Ártico quando os tamanhos dos lote aumentam.

A inovação técnica centra -se no paralelismo da sequência do Ártico, que divide as sequências de entrada nas GPUs para paralalizar o trabalho dentro de solicitações individuais.

“A inferência do Ártico torna a inferência da IA ​​até duas vezes mais receptiva do que qualquer oferta de código aberto”, disse Samyam Rajbhandari, arquiteto principal da AI da Snowflake, à VentureBeat.

Para as empresas, a inferência do Ártico provavelmente será particularmente atraente, pois pode ser implantada com a mesma abordagem que muitas organizações já estão usando para inferência. A inferência do Ártico provavelmente atrairá empresas porque as organizações podem implantá -la usando suas abordagens de inferência existentes. vllm plugin. A tecnologia VLLM é um servidor de inferência de código aberto amplamente usado. Como tal, é capaz de manter a compatibilidade com os kubernetes existentes e os fluxos de trabalho de steel nua, patchando automaticamente o VLLM com otimizações de desempenho. ““

“Quando você instala a inferência do Ártico e a VLLM juntos, simplesmente funciona fora da caixa, não exige que você altere nada no seu fluxo de trabalho VLM, exceto que seu modelo é mais rápido”, disse Rajbhandari.

Implicações estratégicas para a IA corporativa

Para as empresas que desejam liderar o caminho na implantação de IA, esses lançamentos representam uma maturação da infraestrutura da IA ​​corporativa que prioriza as realidades da implantação de produção.

A inovação de texto para SQL afeta particularmente as empresas que lutam contra a adoção de usuários de negócios de ferramentas de análise de dados. Ao treinar modelos sobre correção de execução, em vez de padrões sintáticos, o Arctic-Text2SQL-R1 aborda a lacuna crítica entre as consultas geradas pela IA que parecem corretas e aquelas que realmente produzem insights de negócios confiáveis. O impacto do Arctic-Text2SQL-R1 para empresas provavelmente levará mais tempo, pois muitas organizações provavelmente continuarão a confiar em ferramentas internas dentro de sua plataforma de banco de dados de escolha.

A inferência do Ártico oferece a promessa de desempenho muito melhor do que qualquer outra opção de código aberto, com um caminho fácil para implantar também. Para empresas atualmente gerenciando implantações de inferência de IA separadas para diferentes requisitos de desempenho, a abordagem unificada da Inferência do Ártico pode reduzir significativamente a complexidade e os custos da infraestrutura, melhorando o desempenho em todas as métricas.

Como tecnologias de código aberto, os esforços do Snowflake têm o potencial de beneficiar todas as empresas que procuram melhorar os desafios que ainda não foram resolvidos inteiramente.


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *