Elastic adota abordagem mais eficiente para armazenar dados vetorizados


Elastic adota abordagem mais eficiente para armazenar dados vetorizadosElastic adota abordagem mais eficiente para armazenar dados vetorizados

A Elastic está implementando uma nova abordagem para armazenar dados vetorizados que exigirá 95% menos memória.

Higher Binary Quantization, ou BBQ, é baseada em uma técnica chamada RaBitQque foi desenvolvido no início deste ano por pesquisadores da Nanyang Technological College Singapore.

De acordo com a Elastic, as maiores diferenças entre BBQ e quantização binária nativa são:

  1. Todos os vetores são normalizados em torno de um centróide
  2. Vários valores de correção de erros são armazenados
  3. A quantização assimétrica aumenta a qualidade da pesquisa sem aumentar os custos de armazenamento
  4. A maneira como os vetores de consulta são quantizados e transformados permite operações bit a bit mais eficientes

“O Elasticsearch está evoluindo para se tornar um dos melhores bancos de dados vetoriais do mundo, e vemos nossos usuários querendo colocar cada vez mais dados vetorizados nele”, disse Ajay Nair, gerente geral de plataforma da Elastic. “A Higher Binary Quantization é nossa mais recente inovação para reduzir os recursos necessários para armazenar dados vetorizados e fornecer liberdade aos nossos usuários para vetorizar todas as coisas.”

O BBQ está atualmente disponível como uma prévia técnica para usuários autogerenciados e do Elasticsearch na nuvem. Para usar o churrasco, os usuários podem definir dense_vector.index_type como bbq_hnsw ou bbq_flat. A empresa também contribuirá com a técnica para o Apache Lucene.

Mais informações sobre essa nova técnica, incluindo dados de benchmarking, podem ser encontradas no web site da Elastic postagem no weblog sobre churrasco.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *