Apresentando o buying para R...e Python -itstec.com.br. All rights reserved.

O começo

Há alguns meses, enquanto trabalhava no workshop Databricks with R, me deparei com algumas de suas funções SQL personalizadas. Essas funções específicas são prefixadas com “ai_” e executam PNL com uma simples chamada SQL:

> SELECT ai_analyze_sentiment('I'm completely happy');
  constructive

> SELECT ai_analyze_sentiment('I'm unhappy');
  detrimental

dbplyr podemos acessar funções SQL em R, e foi ótimo vê-las funcionar:

orders |>
  mutate(
    sentiment = ai_analyze_sentiment(o_comment)
  )
#> # Supply:   SQL (6 x 2)
#>   o_comment                   sentiment
#>                               
#> 1 ", pending theodolites …    impartial  
#> 2 "uriously particular foxes …   impartial  
#> 3 "sleep. courts after the …  impartial  
#> 4 "ess foxes might sleep …      impartial  
#> 5 "ts wake blithely uncommon … combined    
#> 6 "hins sleep. fluffily …     impartial

Lhama de Meta
e mecanismos de interação entre plataformas, como Ollamaviabilizaram a implantação desses modelos, oferecendo uma solução promissora para empresas que buscam integrar LLMs em seus fluxos de trabalho.

O projeto

Este projeto começou como uma exploração, impulsionado pelo meu interesse em aproveitar um LLM de “uso geral” para produzir resultados comparáveis aos das funções de IA do Databricks. O principal desafio foi determinar quanta configuração e preparação seriam necessárias para que tal modelo fornecesse resultados confiáveis e consistentes.

Sem acesso a um documento de design ou código-fonte aberto, confiei apenas nos resultados do LLM como campo de testes. Isto apresentou vários obstáculos, incluindo as inúmeras opções disponíveis para o ajuste fino do modelo. Mesmo dentro da engenharia imediata, as possibilidades são vastas. Para garantir que o modelo não fosse muito especializado ou focado em um assunto ou resultado específico, precisei encontrar um equilíbrio delicado entre precisão e generalidade.

Felizmente, depois de realizar testes extensivos, descobri que um simples immediate “one-shot” produzia os melhores resultados. Por “melhor”, quero dizer que as respostas foram precisas para uma determinada linha e consistentes em várias linhas. A consistência period essential, pois significava fornecer respostas que fossem uma das opções especificadas (positiva, negativa ou neutra), sem quaisquer explicações adicionais.

A seguir está um exemplo de immediate que funcionou de maneira confiável no Llama 3.2:

>>> You're a useful sentiment engine. Return solely one of many 
... following solutions: constructive, detrimental, impartial. No capitalization. 
... No explanations. The reply is predicated on the next textual content: 
... I'm completely happy
constructive

Como observação lateral, minhas tentativas de enviar várias linhas de uma vez não tiveram sucesso. Na verdade, passei muito tempo explorando diferentes abordagens, como enviar 10 ou 2 linhas simultaneamente, formatando-as nos formatos JSON ou CSV. Os resultados eram muitas vezes inconsistentes e não pareciam acelerar o processo o suficiente para valer a pena o esforço.

Depois que me senti confortável com a abordagem, a próxima etapa foi agrupar a funcionalidade em um pacote R.

A abordagem

Um dos meus objetivos period tornar o pacote do buying o mais “ergonômico” possível. Em outras palavras, eu queria garantir que o uso do pacote em R e Python se integrasse perfeitamente à forma como os analistas de dados usam sua linguagem preferida diariamente.

Para R, isso foi relativamente simples. Eu simplesmente precisava verificar se as funções funcionavam bem com pipes (%>% e |>) e poderia ser facilmente incorporado em pacotes como os do tidyverse:

opinions |> 
  llm_sentiment(assessment) |> 
  filter(.sentiment == "constructive") |> 
  choose(assessment) 
#>                                                               assessment
#> 1 This has been the perfect TV I've ever used. Nice display, and sound.

>>> import polars as pl
>>> import mall
>>> df = pl.DataFrame(dict(x = ("I'm completely happy", "I'm unhappy")))
>>> df.llm.sentiment("x")
form: (2, 2)
┌────────────┬───────────┐
│ x          ┆ sentiment │
│ ---        ┆ ---       │
│ str        ┆ str       │
╞════════════╪═══════════╡
│ I'm completely happy ┆ constructive  │
│ I'm unhappy   ┆ detrimental  │
└────────────┴───────────┘

Acho que será mais fácil saber o que está por vir mall uma vez que a comunidade o use e forneça suggestions. Prevejo que adicionar mais back-ends LLM será a solicitação principal. A outra melhoria possível será quando novos modelos atualizados estiverem disponíveis e os prompts poderão precisar ser atualizados para esse modelo específico. Eu experimentei isso indo do Llama 3.1 para o Llama 3.2. Houve necessidade de ajustar um dos prompts. O pacote está estruturado de forma que ajustes futuros como esse serão acréscimos ao pacote, e não substituições aos prompts, de modo a manter a compatibilidade com versões anteriores.

https://mlverse.github.io/mall/

Apresentando o buying para R…e Python

O começo

O projeto

A abordagem

Deixe um comentário Cancelar resposta

DJI Flip vs Mini 4 Professional: Qual é a melhor atualização para você?

Qual drone Micro FPV de 3 polegadas com DJI O4 devo comprar? Comparação de especificações e guia do comprador

Propriedades antibacterianas e mecanismos subjacentes de MXenes Mo2TiC2Tx e Mo2Ti2C3Tx direcionados a Escherichia coli (bactéria Gram-negativa)

Um cristal anisotrópico van der Waals recorde? – Mundo da Física

Estágio Linear de Precisão com Resolução de Encoder de 1 nm

Testamos se um pó magnético especializado poderia remover microplásticos da água potável: a resposta é sim

Google investirá US$ 10 bilhões em Andhra Pradesh; TCS planeja US$ 6 a 7 bilhões para infraestrutura de IA

“Totalmente conectado” – BMW abre fábrica de carros com IA “mais inovadora” na Hungria

Anunciamos o Amazon Fast Suite: seu companheiro de equipe agente para responder perguntas e tomar medidas

Google se expande na Bélgica e enfrenta escrutínio antitruste de IA dos EUA

Resumos de notícias sobre impressão 3D, 11 de outubro de 2025: pó metálico, texturização, apnéia do sono e muito mais – 3DPrint.com

NVIDIA GB300 NVL72: infraestrutura de IA de próxima geração em escala