

A Elastic está implementando uma nova abordagem para armazenar dados vetorizados que exigirá 95% menos memória.
Higher Binary Quantization, ou BBQ, é baseada em uma técnica chamada RaBitQque foi desenvolvido no início deste ano por pesquisadores da Nanyang Technological College Singapore.
De acordo com a Elastic, as maiores diferenças entre BBQ e quantização binária nativa são:
- Todos os vetores são normalizados em torno de um centróide
- Vários valores de correção de erros são armazenados
- A quantização assimétrica aumenta a qualidade da pesquisa sem aumentar os custos de armazenamento
- A maneira como os vetores de consulta são quantizados e transformados permite operações bit a bit mais eficientes
“O Elasticsearch está evoluindo para se tornar um dos melhores bancos de dados vetoriais do mundo, e vemos nossos usuários querendo colocar cada vez mais dados vetorizados nele”, disse Ajay Nair, gerente geral de plataforma da Elastic. “A Higher Binary Quantization é nossa mais recente inovação para reduzir os recursos necessários para armazenar dados vetorizados e fornecer liberdade aos nossos usuários para vetorizar todas as coisas.”
O BBQ está atualmente disponível como uma prévia técnica para usuários autogerenciados e do Elasticsearch na nuvem. Para usar o churrasco, os usuários podem definir dense_vector.index_type
como bbq_hnsw
ou bbq_flat
. A empresa também contribuirá com a técnica para o Apache Lucene.
Mais informações sobre essa nova técnica, incluindo dados de benchmarking, podem ser encontradas no web site da Elastic postagem no weblog sobre churrasco.