
(amgun/Shutterstock)
A revolução GenAI aumentou as expectativas sobre o que as empresas podem fazer com os dados. Mas também expôs algumas deficiências graves na forma como as empresas gerem os dados. Esse é o pano de fundo contra o qual nos aprofundaremos neste lote de previsões de gerenciamento de large information.
Obter acesso aos dados sempre foi um desafio para análise e IA. Em 2025, o nível a que as organizações ativar o acesso aos dados determinará seu sucesso com IA, prevê Haoyuan “HY” Li, fundador e CEO da Aluxio.
“Em 2025, as organizações enfrentarão uma pressão crescente para resolver os desafios de acesso a dados à medida que as cargas de trabalho de IA se tornarem mais exigentes e distribuídas”, escreve Li. “A explosão de dados em múltiplas nuvens, regiões e sistemas de armazenamento criou gargalos significativos na disponibilidade e movimentação de dados, especialmente para treinamento de IA com uso intensivo de computação. As organizações precisarão gerenciar com eficiência o acesso aos dados em seus ambientes distribuídos, minimizando ao mesmo tempo a movimentação e a duplicação de dados. Veremos um foco maior em tecnologias que podem fornecer acesso rápido e simultâneo aos dados, independentemente de sua localização, mantendo a localidade dos dados para desempenho.”
Os arquivos de dados são normalmente vistos como contendo informações menos interessantes. Com a revolução da IA em 2025, aqueles tesouros de dados históricos encontrará novos usos, prevê Lenley Hensarling, consultor técnico do criador de banco de dados NoSQL Aerospike.
“A IA generativa depende de uma ampla gama de dados estruturados, não estruturados, internos e externos. Seu potencial depende de um forte ecossistema de dados que suporta treinamento, ajuste fino e geração aumentada de recuperação (RAG)”, diz Hensarling. “Para modelos específicos do setor, as organizações devem reter grandes volumes de dados ao longo do tempo. À medida que o mundo muda, os dados relevantes tornam-se aparentes apenas em retrospectiva, revelando ineficiências e oportunidades. Ao reter dados históricos e integrá-los com insights em tempo actual, as empresas podem transformar a IA de uma ferramenta experimental em um ativo estratégico, gerando valor tangível em toda a organização.”
Quando as organizações analisam dados de treinamento facilmente obtidos, muitas vezes recorrem a dados sintéticos para manter o aprimoramento de seus modelos. Em 2025, o uso de dados sintéticos se tornará fashionable, diz Susan Haller, diretora sênior de análise avançada da SAS.
“À medida que mais organizações descobrem o incrível potencial dos dados sintéticos – dados estatisticamente congruentes com os dados do mundo actual, sem recorrer à recolha handbook ou à aquisição de dados de terceiros – a perceção desta tecnologia mudará inevitavelmente”, afirma Haller. “Tornar a geração de dados sintéticos mais acessível em vários setores, desde a saúde até a manufatura, provará ser uma vantagem estratégica significativa. As possibilidades futuras para aproveitar este tipo de dados são infinitas.”
As GPUs são os aceleradores essenciais para cargas de trabalho de IA. Em 2025, as organizações que dominam o orquestração de dados para GPUs terá uma grande vantagem, diz Molly Presley, vice-presidente sênior de advertising and marketing international da Espaço do martelo.
“À medida que avançamos para 2025, um dos desafios nas arquiteturas de IA e aprendizado de máquina (ML) continua a ser a movimentação eficiente de dados para e entre GPUs, especialmente GPUs remotas”, diz Presley. “As soluções tradicionais de orquestração de dados, embora valiosas, são cada vez mais inadequadas para as demandas da computação acelerada por GPU. O gargalo não se trata apenas do gerenciamento do fluxo de dados – trata-se especificamente da otimização do transporte de dados para GPUs, muitas vezes para locais remotos, para dar suporte à computação de alto desempenho (HPC) e modelos avançados de IA. Como resultado, a indústria verá um aumento na inovação em torno de soluções de orquestração de dados centradas em GPU. Esses novos sistemas minimizarão a latência, maximizarão a largura de banda e garantirão que os dados possam se mover perfeitamente entre GPUs locais e remotas.”
Em vez de tentar resolver problemas de gerenciamento de dados à medida que ocorrem em sistemas downstream, as empresas tentarão resolvê-los emblem no fluxo de trabalho, diz ConfluenteAdam Bellemare, principal tecnólogo do Grupo de Estratégia de Tecnologia da empresa.
“As organizações adotarão uma ‘deslocar para a esquerda’ abordagem para melhorar a qualidade dos dados, reduzir custos e eliminar processamento redundante”, afirma Bellemare. “As empresas se concentrarão no processamento de cargas de trabalho mais cedo no pipeline de dados, permitindo que os dados sejam limpos, padronizados e processados antes de chegarem a um information lake ou information warehouse em nuvem. Esta mudança dissociará ainda mais os dados do seu armazenamento, permitindo maior flexibilidade no processamento e utilização de dados em diferentes plataformas, inclusive para treinamento em IA e inferência em tempo actual. As empresas não só reduzirão os custos ao evitar o processamento redundante, mas também permitirão uma arquitetura mais flexível e interoperável onde os dados podem ser conectados a vários sistemas downstream sem duplicação excessiva.”
Abrir formatos de tabela teve um grande ano em 2024. Em 2025, o impulso por trás de formatos como Apache Iceberg e Delta Lake continuará crescendo, diz Emmanuel Darras, CEO e cofundador da Kestradesenvolvedor de uma plataforma de orquestração de código aberto.
“O Iceberg fornece um formato de tabela padronizado e o integra com mecanismos SQL como Spark, DuckDB, Trino e Dremio, bem como com plataformas de dados como Snowflake e Databricks, permitindo que consultas SQL sejam executadas com eficiência em information lakes e information warehouses”, Darras diz. “Contar com formatos de tabelas abertas permite que as empresas gerenciem e consultem grandes conjuntos de dados sem depender apenas de information warehouses tradicionais. Com as organizações planejando adotar o Iceberg em vez de outros formatos como o Delta Lake, espera-se que seu papel no gerenciamento de large information se expanda, graças ao seu forte foco em padrões de acesso a dados independentes de fornecedor, evolução de esquema e interoperabilidade.”
Outro grande evento em gerenciamento de dados em 2024 foi o surgimento de metadados técnicos catálogos, como Apache Polaris e Unity Catalog. A batalha pela supremacia dos metadados técnicos ficará ainda mais intensa em 2025, prevê Alex Merced, evangelista sênior de tecnologia da Drêmio.
“A competição para dominar o espaço do catálogo de dados se tornará um confronto de alto risco”, diz Merced BigDATAwire. “À medida que os ecossistemas híbridos e multinuvem crescem, as organizações exigirão interoperabilidade contínua, impulsionando inovações ferozes em governança, linhagem e funções definidas pelo usuário (UDFs). O Apache Iceberg emergirá como um participante importante, redefinindo os padrões para formatos de tabelas abertas com seus recursos de catálogo híbrido. Esta corrida não irá apenas remodelar a arquitetura de dados – ela decidirá quem controla o futuro da portabilidade de dados.”
Quando sua curva de crescimento de dados atinge um determinado ponto na curva de custos, isso pode causar azia ao seu CFO. Em 2025, novas soluções de arquivo de armazenamento serão necessários para garantir a saúde digestiva de seus CFOs, diz Arcitecta CEOJason Lohrey.
“À medida que os volumes de dados crescem, soluções de armazenamento de arquivos mais eficientes e econômicas tornam-se essenciais”, diz Lohrey. “As opções de armazenamento baseadas em flash e disco, embora rápidas, acarretam custos elevados quando dimensionadas para grandes capacidades. Isto levou ao ressurgimento do armazenamento em fita como uma solução viável para as necessidades modernas e à introdução de novas tecnologias emergentes, como o armazenamento em vidro. As empresas procurarão agregar unidades menores em configurações maiores que combinem a escalabilidade da fita com a flexibilidade dos padrões de nuvem. O interesse renovado em fitas e outras soluções de armazenamento de arquivos continuará a se expandir à medida que as demandas do gerenciamento moderno de dados evoluem.”
As GPUs são normalmente vistas como aceleradores para HPC, IA e cargas de trabalho com muitos gráficos (daí o nome unidade de processamento gráfico). Mas o potencial para GPUs para acelerar banco de dados as cargas de trabalho serão algo que ficará mais claro em 2025, prevê Gopi Duddi, vice-presidente sênior de engenharia do desenvolvedor de banco de dados NoSQL Sofá.
“A revolução da IA não está apenas transformando aplicativos – ela está preparada para revolucionar fundamentalmente a arquitetura de banco de dados em sua essência. Depois de meio século de design de banco de dados baseado em CPU, o paralelismo massivo oferecido pelas GPUs está forçando uma repensação completa de como os bancos de dados processam e gerenciam os dados”, diz Duddi. “O potencial para bancos de dados alimentados por GPU é impressionante: operações que tradicionalmente exigiam processamento paralelo complexo baseado em CPU poderiam ser executadas em milhares de threads de GPU simultaneamente, proporcionando potencialmente desempenho semelhante ao ChatGPT para operações de banco de dados.”
PostgreSQL tem sido o banco de dados mais fashionable dos últimos anos. Não espere que essa tendência acabe tão cedo, diz Avthar Sewrathan, líder de produto de IA da Escala de tempoum banco de dados de série temporal baseado no PostgreSQL.
“Em 2025, o PostgreSQL solidificará sua posição como o ‘banco de dados de tudo’ – o primeiro a integrar totalmente a funcionalidade de IA, como incorporações diretamente em seu ecossistema principal”, escreve Sewrathan. “Isso simplificará os fluxos de trabalho de dados, eliminará a necessidade de ferramentas de processamento externas e permitirá que as empresas gerenciem tipos de dados complexos em um só lugar. Com seus recursos de extensão exclusivos, o PostgreSQL está liderando o caminho em direção a um futuro onde as empresas não precisarão mais depender de bancos de dados independentes ou especializados.”
As divisões tradicionais entre engenheiros de dados, analistas de dados e cientistas de dados estão se desintegrando, à medida que as equipes de dados modernas precisam lidar cada vez mais com fluxos de trabalho de ponta a ponta com velocidade e autonomia. Em 2025, veremos o surgimento de uma nova função, diz Prat Moghe, CEO da Promécio: o “herói dos dados”.
“Esses indivíduos versáteis combinarão um nível sólido de habilidades técnicas com profundo conhecimento de domínio, permitindo-lhes trabalhar perfeitamente na descoberta de dados, montagem e criação de produtos”, diz Moghen. “Atuando como ponte crítica entre os dados e os negócios, os heróis dos dados impulsionarão um maior alinhamento, insights mais rápidos e tomadas de decisão mais impactantes no próximo ano. No entanto, para apoiar esta evolução, deve surgir uma nova geração de ferramentas de dados, adaptadas especificamente às necessidades do herói dos dados. Ao contrário das ferramentas legadas que atendem a funções separadas e desarticuladas, essas plataformas modernas unificarão capacidades e simplificarão a colaboração multifuncional, capacitando os heróis dos dados a desbloquear o verdadeiro valor dos dados em um cenário em rápida mudança.”
Estrutura de dados não é um conceito novo, mas também não ganhou o tipo de força que muitos observadores de large information esperavam. Isso começará a mudar em 2025, à medida que as empresas procurarem melhores abordagens de gestão para lidar com o dilúvio de large information induzido pela IA, prevê Dwaine Plauche, gestor sénior de advertising and marketing de produtos da Tecnologia Aspen.
“À medida que o gerenciamento de dados se torna mais assustador para as empresas industriais, especialmente porque elas priorizam aplicações de IA e iniciativas de transformação digital, veremos elas recorrerem a estruturas de dados (operacionais) de TO para agilizar milhares de conexões de TI e TO e tornar os dados mais acessíveis e acionáveis em todo o negócio. As estruturas de dados de TO são capazes de ingerir diversos dados que conectam pessoas, máquinas, fábricas, logística e sistemas de TI em toda a empresa, para que os dados possam ser dimensionados com mais facilidade para liberar o potencial de novas oportunidades de negócios, como IA, no futuro.”
Aerospike, Aluxio, Arcitecta, AspenTech, Confluente, Sofá, Drêmio, Espaço do martelo, Kestra, Promécio, SAS, Escala de tempo