A startup tentando transformar an internet em um banco de dados


“An internet é uma coleção de dados, mas é uma bagunça”, diz o cofundador e CEO da Exa, Will Bryk. “Há um vídeo de Joe Rogan aqui, um atlântico artigo ali. Não há organização. Mas o sonho é que an internet pareça um banco de dados.”

Websets é voltado para usuários avançados que precisam procurar coisas que outros mecanismos de pesquisa não são bons em encontrar, como tipos de pessoas ou empresas. Pergunte por “startups fazendo {hardware} futurista” e você obterá uma lista de centenas de empresas específicas, em vez de hyperlinks aleatórios para páginas da net que mencionam esses termos. O Google não pode fazer isso, diz Bryk: “Há muitos casos de uso valiosos para investidores ou recrutadores ou realmente qualquer pessoa que queira qualquer tipo de conjunto de dados da net.”

As coisas mudaram rapidamente desde Revisão de tecnologia do MIT deu a notícia em 2021 de que os pesquisadores do Google estavam explorando o uso de grandes modelos de linguagem em um novo tipo de mecanismo de busca. A ideia emblem atraiu críticos ferozes. Mas as empresas de tecnologia prestaram pouca atenção. Três anos depois, gigantes como Google e Microsoft disputam uma série de recém-chegados, como Perplexity e OpenAI, que lançaram o ChatGPT Search em outubro, por um pedaço dessa nova tendência.

A Exa (ainda) não está tentando superar nenhuma dessas empresas. Em vez disso, está propondo algo novo. A maioria das outras empresas de pesquisa envolve grandes modelos de linguagem em torno dos mecanismos de pesquisa existentes, usando os modelos para analisar a consulta de um usuário e depois resumir os resultados. Mas os próprios motores de busca não mudaram muito. A Perplexity ainda direciona suas consultas para a Pesquisa Google ou Bing, por exemplo. Pense nos motores de busca de IA de hoje como um sanduíche com pão fresco, mas com recheio estragado.

Mais do que palavras-chave

Exa fornece aos usuários listas familiares de hyperlinks, mas usa a tecnologia por trás de grandes modelos de linguagem para reinventar a forma como a pesquisa é feita. Aqui está a ideia básica: o Google trabalha rastreando an internet e construindo um vasto índice de palavras-chave que então correspondem às consultas dos usuários. Exa rastreia an internet e codifica o conteúdo das páginas da net em um formato conhecido como embeddings, que pode ser processado por grandes modelos de linguagem.

Os embeddings transformam palavras em números de tal forma que palavras com significados semelhantes se tornam números com valores semelhantes. Na verdade, isso permite que o Exa seize o significado do texto nas páginas da net, não apenas as palavras-chave.

A startup tentando transformar an internet em um banco de dados
Uma captura de tela de Websets mostrando resultados da pesquisa: “empresas; startups; com sede nos EUA; foco em saúde; cofundador técnico”

Grandes modelos de linguagem usam incorporações para prever as próximas palavras em uma frase. O mecanismo de busca do Exa prevê o próximo hyperlink. Digite “startups fazendo {hardware} futurista” e o modelo apresentará hyperlinks (reais) que podem seguir essa frase.

A abordagem da Exa tem um custo, no entanto. Codificar páginas em vez de indexar palavras-chave é lento e caro. Exa codificou alguns bilhões de páginas da net, diz Bryk. Isso é minúsculo perto do Google, que indexou cerca de um trilhão. Mas Bryk não vê isso como um problema: “Você não precisa incorporar toda an internet para ser útil”, diz ele. (Curiosidade: “exa” significa 1 seguido de 18 0s e “googol” significa 1 seguido de 100 0s.)

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *