Desbloqueando insights mais rápidos: como Cloudera e Cohere podem fornecer análises de documentos mais inteligentes


Hoje temos o prazer de anunciar o lançamento de um novo Cloudera Acelerador para projetos de aprendizado de máquina (ML) (AMP) para análise de documentos PDF, “Análise de Documentos com Comando R e FAISS”, aproveitando o Command R Massive Language Mannequin (LLM) da Cohere, o Cohere Toolkit para aplicativos de geração aumentada de recuperação (RAG) e o AI Similarity Search (FAISS) do Fb.

A análise de documentos é essential para extrair insights de grandes volumes de texto com eficiência. Possui aplicações amplas, incluindo pesquisa jurídica, análise de mercado e pesquisa científica. Por exemplo, os investigadores do cancro podem utilizar a análise documental para compreender rapidamente as principais conclusões de milhares de artigos de investigação sobre um determinado tipo de cancro, ajudando-os a identificar tendências e lacunas de conhecimento necessárias para definir novas prioridades de investigação.

Antes do uso generalizado de LLMs, a análise de documentos period conduzida principalmente por meio de métodos manuais e sistemas baseados em regras. Esses métodos costumavam ser demorados, trabalhosos e limitados em sua capacidade de lidar com nuances complexas de linguagem e dados não estruturados.

O desenvolvimento de LLMs avançados, como o Command R da Cohere, e plataformas de IA, como Cloudera Synthetic Intelligence (CAI), tornou mais fácil do que nunca para as empresas implantarem aplicativos de análise de documentos de alto impacto. Criamos nosso AMP “Análise de Documentos com Comando R e FAISS” para tornar esse processo ainda mais fácil.

A família de modelos Command R da Cohere são LLMs avançados que aproveitam arquiteturas de transformadores de última geração para lidar com tarefas complexas de geração e compreensão de texto com alta precisão e velocidade, tornando-os adequados para aplicativos de nível empresarial e necessidades de processamento em tempo actual. Eles foram feitos para serem facilmente integrados a diversas aplicações, oferecendo escalabilidade e flexibilidade para implementações em pequena e grande escala. O Cohere Toolkit é uma coleção de componentes pré-construídos que permite aos desenvolvedores construir e implantar rapidamente aplicativos de geração aumentada de recuperação (RAG).

CAI é uma plataforma robusta para cientistas de dados e profissionais de Inteligência Synthetic (IA) construir, treinar, implantar e gerenciar modelos e aplicações em escala. AMPs são implantações com um clique de protótipos baseados em IA/ML comumente usados ​​que reduzem o tempo de obtenção de valor, fornecendo exemplos de referência de alta qualidade, aproveitando a pesquisa e a experiência da Cloudera para apresentar aplicativos de IA de ponta.

Este AMP é um projeto único lançado pelo CAI que implanta automaticamente um aplicativo, carrega vetores em um armazenamento de vetores FAISS e permite a interface com o Command R LLM da Cohere para realizar análise de documentos. A imagem abaixo ilustra a arquitetura Retrieval-Augmented Era (RAG) usada pelo AMP e como os componentes do Cohere, FAISS, a base de conhecimento do usuário e Streamlit trabalham juntos para criar um caso de uso de IA generativa pronto para uso.

Desbloqueando insights mais rápidos: como Cloudera e Cohere podem fornecer análises de documentos mais inteligentes

Este projeto reúne vários novos temas interessantes para a biblioteca AMP da Cloudera, especialmente em termos de RAG. O FAISS de código aberto do Fb é uma biblioteca para pesquisa eficiente de similaridade e agrupamento de vetores densos. Contém algoritmos que pesquisam em conjuntos de vetores de qualquer tamanho, até aqueles que possivelmente não cabem na RAM. Ao aproveitá-lo neste AMP, a Cloudera demonstra sua flexibilidade em aplicativos de pesquisa vetorial e adiciona esse recurso à adoção de Milvus, Chroma, Pinecone e outros em seu catálogo AMP existente.

Além disso, o AMP aproveita o equipment de ferramentas de IA da LangChain que aproveita conectores personalizados para Cohere e FAISS para permitir recursos avançados de pesquisa semântica e resumo em uma base de código limpa e fácil de entender. Ele também utiliza o modelo embed-english-v3.0 da Cohere, feito sob medida para gerar incorporações de texto de alta qualidade a partir de entradas no idioma inglês e é excelente na captura de nuances semânticas. Ao usar o Streamlit para a IU, os usuários têm um modelo inicial simples, que pode ser a base para uma implantação de produção em grande escala.

Mais sobre como funciona o AMP “Análise de Documentos com Comando R e FAISS” e como implantá-lo pode ser encontrado em este repositório Github.

Fique atento a mais novidades da Cohere e da Cloudera enquanto trabalhamos juntos para tornar mais fácil do que nunca a implantação de aplicativos de IA de alto desempenho.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *