
Desde que foi revelado pela primeira vez em junho, o interesse no projeto Apache Polaris aumentou, à medida que as organizações buscam o catálogo de metadados para ajudá-las a controlar seus huge knowledge e o acesso às suas tabelas Apache Iceberg. À medida que o projeto se encaminha para se tornar um Projeto de Nível Superior em algum momento de 2025, os membros da Apache Software program Basis reservaram um tempo para discutir o estado atual do projeto com BigDATAwirebem como para onde ele pode ir no futuro.
Apache Polaris, que fez sua grande estreia em Floco de neveO Knowledge Cloud Summit 2024 é um catálogo de metadados técnicos que usa a especificação Apache Iceberg REST para ajudar a intermediar o acesso às tabelas Iceberg pelos vários mecanismos de computação que consumiriam os dados. A Snowflake doou o Polaris para o Fundação Apache Software program neste verão, e se tornou um projeto de incubação em agosto.
Polaris tem potencial para se tornar um Projeto de Nível Superior (TLP) em meados de 2025, diz Jean-Baptiste (JB) Onofré, Dremioengenheiro de software program principal e membro de longa knowledge da ASF, onde é membro permanente do conselho e participa de vários comitês de gerenciamento de projetos (PMCs).
“Eu sou mentor de muitos projetos Apache”, diz Onofré. “Acho que o mais rápido que poderíamos fazer é provavelmente algo em torno de 10 meses (a partir de agosto de 2024). Provavelmente é o mais rápido que podemos fazer. Mais razoavelmente, acho que um ano é o que podemos almejar.”
Há vários obstáculos que um projeto precisa superar antes que a ASF dê a um projeto em incubação a autorização para se tornar um TLP, incluindo verificações de direitos autorais, verificações de licenciamento e demonstração do crescimento da comunidade do projeto, diz ele.
“Temos um comunicado interno para o PPMC (Podling PMC) e depois vamos para o IPMC (Incubator PMC) apenas para verificar se está tudo bem”, disse Onofré. BDW. “Por experiência, o primeiro lançamento é sempre um pouco doloroso. Sabemos disso. Então eu diria que o lançamento é o próximo marco.”
No entanto, em termos de software program executável, o Polaris está pronto para uso agora, diz o engenheiro de software program principal da Snowflake, Russell Spitzer, que é membro do PMC do Apache Iceberg e do PPMC do Apache Polaris.
“Quero deixar claro: o Polaris está pronto para uso agora mesmo. De um ponto de vista técnico, pronto para ir”, ele diz. “Não posso fazer muitas declarações prospectivas, mas acho que as ofertas gerenciadas do Polaris estarão disponíveis em breve.”
O mercado de casas de lago aberto já se uniu em torno do Iceberg, que se tornou o formato de mesa padrão de fato quando Tijolos de dados adquirido Tabulara empresa por trás do Iceberg, o dia seguinte A Snowflake anunciou o Polaris no início de junho. Esse ímpeto por trás do Iceberg parece estar se traduzindo em ímpeto por trás do Polaris, diz Spitzer.
“Das minhas próprias conversas individuais com pessoas de outras empresas, eles estão entusiasmados”, diz Spitzer. Eles estão “muito mais animados com o projeto do que pensavam que ficariam. Eles apenas veem que isso tira muito do fardo do que costumavam ter que fazer.”
Apache Iceberg é um dos três formatos de tabela aberta que surgiram há cerca de cinco anos, junto com Databricks Delta Lake e Apache Hudi, para resolver um dos principais desafios de gerenciamento de dados enfrentados pelos membros da comunidade Hadoop. Muitos clientes usaram o Apache Hive Metastore (HMS) para acompanhar as alterações feitas em tabelas de dados, mas ele deixou muito a desejar. Os desenvolvedores estavam por conta própria para evitar problemas de corrupção de dados, até que os formatos de tabela controlassem a situação.
“Quase todo mundo na comunidade Iceberg costumava usar a integração básica do metastore do Hive, que é aquele estilo antigo de catálogo… e todas essas pessoas estavam procurando a próxima opção”, diz Spitzer. “Tenho pessoas de todas as empresas diferentes que continuam nos contatando e dizendo, como faço para me envolver? Porque quero descartar o que estávamos fazendo e quero mudar para isso. Quero estar no projeto em que todos estamos trabalhando, para não ter que manter minha própria versão.”
Os projetos Iceberg e Polaris estão intimamente ligados devido à natureza dos projetos, e há muitos membros do PMC que estão em ambos os projetos, incluindo Spitzer. Isso levanta a questão: por que dois projetos são necessários? Mas, como Spitzer e Onofré deixaram claro, há uma clara separação de responsabilidades entre os dois projetos.
A diferença mais importante é que é responsabilidade da comunidade Iceberg definir a especificação para a API REST que a Polaris usa, e é tarefa do projeto Polaris expor essa especificação REST para o mundo externo. “É tremendous importante que não nos desviemos da especificação REST da Iceberg”, diz Onofré. “É claramente um requisito, um requisito forte.”
Misturar especificações abertas com implementação do lado do servidor dessas especificações é uma receita ruim, de acordo com Spitzer. Ao ter o Iceberg definindo as especificações e o Polaris sendo a implementação do lado do servidor delas, cada equipe pode avançar sem fazer concessões, ele diz.
“Acho que muitas pessoas envolvidas no projeto Iceberg foram queimadas em componentes anteriores de servidor de código aberto”, ele diz. “Quando você está desse lado, assim como do lado do formato, você acaba tendo que fazer concessões às vezes entre o que você quer focar e o que você quer realmente na especificação versus fora da especificação.”
Essa separação também dá à Polaris a liberdade de potencialmente trabalhar com outros bancos de dados e se tornar uma espécie de tremendous catálogo de metadados que se sustenta por si só. No futuro, a equipe da Polaris pode procurar ajudar a gerenciar o acesso a dados armazenados em coisas como Apache Kafka ou Apache Cassandra, diz Spitzer.
Ao considerar a história dos catálogos, cada mecanismo de computação precisava de seu próprio catálogo, diz Onofré. Mas cada catálogo funcionava de maneiras ligeiramente diferentes e tinha requisitos diferentes. Com o Polaris, há a oportunidade de fornecer um único catálogo que abrange o ambiente de dados distribuídos de hoje em mecanismos de consulta, armazenamentos de dados e linguagens.
“Pessoalmente, acho que period uma peça que faltava no ecossistema”, ele diz. “Tínhamos a especificação REST, que é uma grande melhoria no Iceberg, mas não tínhamos o projeto Apache Basis que implementasse totalmente essa especificação, então period uma espécie de coisa que faltava no ecossistema.”
Embora o potencial de longo prazo do Polaris seja brilhante, a lista de itens de trabalho de curto prazo está ficando maior. Isso é consequência de uma base de usuários interessados que estão ansiosos para conectar o Polaris ao seu ambiente de huge knowledge, diz Spitzer.
“As pessoas estão tipo, precisamos de integrações de autenticação aberta, precisamos desse tipo de armazenamento de back-end”, ele diz. “Estamos querendo obter manutenção de tabela o mais rápido possível. Apenas todas as coisas em que as pessoas estavam trabalhando. Tem sido ótimo. Tem sido muito mais standard do que eu pensava que seria.”
Itens relacionados:
Databricks pega o Iceberg-Maker Tabular para gerar uniformidade de tabela
Snowflake adota dados abertos com o Polaris Catalog
Apache Iceberg: o centro de um ecossistema emergente de serviços de dados?