Por que os Knowledge Lakehouses estão preparados para um grande crescimento em 2025


Por que os Knowledge Lakehouses estão preparados para um grande crescimento em 2025

(bsd-studio/Shutterstock)

O humilde information lakehouse surgiu há cerca de oito anos, quando as organizações buscavam um meio-termo entre a confusão dos information lakes e a agitação bloqueada dos information warehouses. O padrão arquitetônico atraiu alguns seguidores, mas o crescimento não foi espetacular. No entanto, ao iniciarmos 2025, o information lakehouse está preparado para crescer de forma bastante robusta, graças a uma confluência de fatores.

No início da period do huge information, em 2010, o Hadoop period a tecnologia mais avançada do mercado, pois fornecia uma maneira de construir grandes clusters de servidores X86 baratos e padrão da indústria para armazenar e processar petabytes de dados de maneira muito mais barata do que os caros information warehouses e dispositivos. construído em {hardware} especializado que veio antes deles.

Ao permitir que os clientes despejassem grandes quantidades de dados semiestruturados e não estruturados em um sistema de arquivos distribuído, os clusters Hadoop lhes valeram o apelido de “information lakes”. Os clientes poderiam processar e transformar os dados sob demanda para suas necessidades analíticas específicas, ou o que é chamado de abordagem de “estrutura na leitura”.

Isso period bem diferente da abordagem de “estrutura na gravação” usada com o information warehouse típico da época. Antes do Hadoop, os clientes dedicavam algum tempo para transformar e limpar seus dados transacionais antes de carregá-los no information warehouse. Obviamente, isso consumia mais tempo e period mais caro, mas period necessário maximizar o uso de recursos caros de armazenamento e computação.

À medida que o experimento Hadoop avançava, muitos clientes descobriram que seus information lakes haviam se transformado em pântanos de dados. Embora o despejo de dados brutos no HDFS ou S3 tenha aumentado radicalmente a quantidade de dados que eles poderiam reter, isso ocorreu ao custo de dados de qualidade inferior. Especificamente, o Hadoop não possuía os controles que permitiam aos clientes gerenciar seus dados de maneira eficaz, o que reduzia a confiança nas análises do Hadoop.

Em meados da década de 2010, diversas equipes independentes trabalhavam em uma solução. A primeira equipe foi liderada por Vinoth Chandar, engenheiro da Uber, que precisava resolver o problema de arquivo rápido para o aplicativo de compartilhamento de carona. Chandar liderou o desenvolvimento de um formato de tabela que permitiria ao Hadoop processar dados de forma mais semelhante a um banco de dados tradicional. Ele o chamou de Hudi, que significa upserts, exclusões e incrementais do Hadoop. A Uber implantou o Hudi em 2016.

Um ano depois, duas outras equipes lançaram soluções semelhantes para information lakes HDFS e S3. Netflix engenheiro Ryan Blue e Maçã o engenheiro Daniel Weeks trabalhou em conjunto para criar um formato de tabela chamado Iceberg que buscava trazer recursos de transação e reversões semelhantes ao ACID para tabelas do Apache Hive. No mesmo ano, Blocos de dados lançou o Lago Delta, que se fundiu os recursos de estrutura de dados dos information warehouses com seu information lake em nuvem para trazer “bom, melhor, melhor” ao gerenciamento e qualidade dos dados.

Esses três formatos de tabela impulsionaram em grande parte o crescimento dos information lakehouses, pois permitiram que técnicas tradicionais de gerenciamento de dados de banco de dados fossem aplicadas como uma camada sobre os information lakes estilo Hadoop e S3. Isso proporcionou aos clientes o melhor dos dois mundos: a escalabilidade e a acessibilidade dos information lakes e a qualidade e confiabilidade dos dados dos information warehouses.

Outras plataformas de dados começaram a adotar um dos formatos de tabela, incluindo AWS, Google Nuveme Floco de neve. Iceberg, que se tornou um projeto Apache de alto nível em 2020, ganhou grande parte de sua força do ecossistema Hadoop de código aberto. Databricks, que inicialmente manteve controle sobre Delta Lake e seu formato de tabela subjacente antes de se abrir gradualmente, também se tornou fashionable à medida que a empresa sediada em São Francisco rapidamente adicionou clientes. Hudi, que se tornou um projeto Apache de nível superior em 2019, foi o terceiro formato mais fashionable.

A batalha entre Apache Iceberg e Delta Lake pelo domínio do formato de mesa estava em um deadlock. Então, em junho de 2024, a Snowflake reforçou seu apoio ao Iceberg lançando um catálogo de metadados para Iceberg chamado Polaris (agora Apache Polaris). Um dia depois, a Databricks respondeu anunciando o aquisição de Tabulara empresa Iceberg fundada por Blue, Weeks e o ex-engenheiro da Netflix Jason Reid, por entre US$ 1 bilhão e US$ 2 bilhões.

Os executivos da Databricks anunciaram que os formatos Iceberg e Delta Lake seriam reunidos ao longo do tempo. “Vamos liderar o caminho na compatibilidade de dados para que você não fique mais limitado pelo formato lakehouse em que seus dados estão”, disseram os executivos, liderados pelo CEO Ali Ghodsi.

O CEO da Tabular, Ryan Blue (à direita), e o CEO da Databricks, Ali Ghodsi, no palco do Knowledge + AI Summit em junho de 2024

O impacto do lançamento do Polaris e das aquisições da Tabular foi enorme, especialmente para a comunidade de fornecedores que desenvolvem mecanismos de consulta independentes, e imediatamente gerou um aumento no impulso por trás do Apache Iceberg. “Se você faz parte da comunidade Iceberg, este é o momento de entrar na próxima period”, Learn Maloney, Drêmiodiretor de advertising da, disse a esta publicação em junho passado.

Sete meses depois, esse ímpeto continua forte. Na semana passada, Dremio publicou um novo relatório, intitulado “Estado do Knowledge Lakehouse na Period da IA”, que encontrou apoio crescente para information lakehouses (que agora são considerados baseados em Iceberg, por padrão).

“Nossa análise revela que os information lakehouses atingiram um limite crítico de adoção, com 55% das organizações executando a maioria de suas análises nessas plataformas”, disse Dremio em seu relatório, que se baseia em uma pesquisa do quarto trimestre com 563 decisões de dados. fabricantes pelo McKnight Consulting Group. “Este número deverá atingir 67% nos próximos três anos, de acordo com os entrevistados, indicando uma mudança clara na estratégia de dados empresariais.”

Dremio afirma que a eficiência de custos continua a ser o principal impulsionador do crescimento do information lakehouse, citado por 19% dos entrevistados, seguido pelo acesso unificado aos dados e maior facilidade de uso (17% respectivamente) e análise de autoatendimento (13%). Dremio descobriu que 41% dos usuários de lakehouse migraram de information warehouses em nuvem e 23% fizeram a transição de information lakes padrão.

A análise de dados melhor e mais aberta está no topo da lista de motivos para migrar para um information lakehouse, mas Dremio encontrou um número surpreendente de clientes usando seu information lakehouse para apoiar outro caso de uso: o desenvolvimento de IA.

A empresa descobriu que surpreendentes 85% dos usuários de lakehouses estão atualmente usando seu warehouse para desenvolver modelos de IA, com outros 11% afirmando na pesquisa que planejavam fazê-lo. Isso deixa impressionantes 4% dos clientes da Lakehouse dizendo que não têm planos de apoiar o desenvolvimento de IA; é basicamente todo mundo.

Embora as aspirações da IA ​​sejam universais neste momento, ainda existem grandes obstáculos a superar antes que as organizações possam realmente alcançar o sonho da IA. Na sua pesquisa, a Dremio descobriu que as organizações relataram sérios desafios para alcançar o sucesso com a preparação de dados de IA. Especificamente, 36% dos entrevistados afirmam que a governança e a segurança para casos de uso de IA são o principal desafio, seguido pelo alto custo e complexidade (citado por 33%) e pela falta de uma infraestrutura unificada pronta para IA (20%).

A arquitetura lakehouse é um ingrediente chave para a criação de produtos de dados bem governados e amplamente acessíveis, que são essenciais para permitir que as organizações desenvolvam aplicativos de IA com mais facilidade, disse James Rowland-Jones (JRJ), vice-presidente de gerenciamento de produtos da Dremio.

“É como eles compartilham (os dados) e o que vem com eles”, disse JRJ BigDATAwire na conferência re:Invent no mês passado. “Como isso é enriquecido. Como você entende e raciocina sobre isso como usuário closing? Você obtém uma amostra estatística dos dados? Você consegue ter uma ideia do que são esses dados? Foi documentado? É governado? Existe um glossário? O glossário é reutilizável em todas as visualizações para que as pessoas não dupliquem todo esse esforço?”

Dremio é talvez mais conhecido por desenvolver um mecanismo de consulta aberto, disponível sob uma licença Apache 2, que pode ser executado em uma variedade de back-ends diferentes, incluindo bancos de dados, HDFS, S3 e outros sistemas de arquivos e armazenamentos de objetos. Mas a empresa tem se esforçado mais ultimamente para construir uma plataforma lakehouse completa que possa ser executada em qualquer lugar, inclusive nas principais nuvens, no native e em implantações híbridas. A empresa foi uma das primeiras apoiadoras do Iceberg com o Projeto Nessie, seu catálogo de metadados. Em 2025, a empresa planeja colocar mais foco no reforço da governança e segurança de dados e na construção de produtos de dados, disseram executivos da empresa na re:Invent.

Os maiores beneficiários do surgimento de plataformas lakehouse abertas baseadas em Iceberg são as empresas, que não estão mais em dívida com fornecedores de plataformas de nuvem monolíticas que desejam bloquear os dados dos clientes para que possam extrair mais dinheiro deles. Um efeito colateral da ascensão das lakehouses é que fornecedores como a Dremio agora têm a capacidade de vender seus produtos aos clientes, que são livres para escolher um mecanismo de consulta que atenda às suas necessidades específicas.

“O panorama da arquitetura de dados encontra-se num ponto essential onde as exigências da IA ​​e da análise avançada estão a transformar as abordagens tradicionais à gestão de dados”, disse Maloney num comunicado de imprensa. “Este relatório destaca como e por que as empresas estão aproveitando os information lakehouses para impulsionar a inovação e, ao mesmo tempo, enfrentar desafios críticos como eficiência de custos, governança e prontidão para IA.”

Itens relacionados:

Como o Apache Iceberg venceu as guerras de mesa aberta

Chegou a hora dos Lakehouses de dados abertos

Databricks Nabs Iceberg-Maker Tabular para gerar uniformidade de tabela

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *