MinIO lança DataPod, uma arquitetura de referência para armazenamento de IA em exaescala


MinIO lança DataPod, uma arquitetura de referência para armazenamento de IA em exaescala

Arquitetura de referência do MinIO DataPod (Imagem cortesia do MinIO)

O número de empresas que planejam armazenar um exabyte de dados ou mais está disparando, graças à revolução da IA. Para ajudar a agilizar as construções de armazenamento e acalmar os estômagos enjoados dos CFOs, a MinIO propôs na semana passada uma arquitetura de referência para armazenamento exascale que permite que as empresas cheguem ao exascale em incrementos repetíveis de 100 PB usando infraestrutura pronta para uso padrão da indústria, chamada DataPod.

Dez anos atrás, no auge do increase do huge knowledge, a implantação média de análise entre empresas estava na casa dos petabytes de um dígito, e apenas as maiores empresas que priorizavam dados tinham conjuntos de dados que excediam 100 PB, geralmente em clusters HDFS, de acordo com AB Periasamy, cofundador e co-CEO da MinIO.

“Isso mudou completamente agora”, disse Periasamy. “De cem a 200 petabytes são os novos petabytes de um dígito, e a organização que prioriza dados está se movendo em direção à consolidação de todos os seus dados. Eles estão realmente indo para exabytes.”

A revolução da IA ​​generativa está levando as empresas a repensar suas arquiteturas de armazenamento. As empresas estão planejando construir esses enormes clusters de armazenamento no native, já que colocá-los na nuvem seria de 60% a 70% mais caro, diz o MinIO. Muitas vezes, as empresas já investiram em GPUs e precisam de armazenamento maior e mais rápido para mantê-las alimentadas com dados.

O MinIO explica exatamente o que está incluído em sua arquitetura de referência DataPod exascale (Imagem cortesia do MinIO)

A arquitetura de referência DataPod da MinIO apresenta servidores X86 padrão da indústria Dell, HPEe Supermicrounidades NVMe, switches Ethernet e sistema de armazenamento de objetos compatível com S3 da MinIO.

Cada DataPod de 100 PB é composto por 11 racks idênticos, e cada rack é composto por 11 servidores de armazenamento 2U, dois switches de camada 2 de topo de rack (TOR) e um change de gerenciamento. Cada servidor de armazenamento 2U no rack é equipado com um processador de soquete único de 64 núcleos, 256 GB de RAM, uma NIC Ethernet 200 Gbe de porta dupla, 24 baias de unidade NVMe U.2 de 2,5” e fontes de alimentação redundantes de 1.600 W. A especificação exige unidades NVMe de 30 TB, para um complete de 720 TB de capacidade bruta por servidor.

Graças à demanda repentina pelo desenvolvimento de IA, as empresas agora estão adotando conceitos sobre escalabilidade que as pessoas no mundo do HPC vêm usando há anos, diz Periasamy, que é cocriador do sistema de arquivos distribuídos Gluster, usado em supercomputação.

“Na verdade, é um termo simples que usamos no caso da supercomputação. Nós o chamamos de unidades escaláveis”, ele conta Datanami. “Quando você constrói sistemas muito grandes, como você os constrói e os envia? Nós os entregamos em unidades escaláveis. Foi assim que eles planejaram tudo, da logística à implementação. Um sistema operacional central foi projetado em termos de unidades escaláveis. E foi assim que eles também se expandiram.

O MinIO usa switches 100GbE duplos com sua arquitetura de referência DataPod (Imagem cortesia do MinIO)

“Nessa escala, você realmente não pensa em termos de ‘Ah, vou adicionar mais algumas unidades, mais alguns gabinetes, mais alguns servidores’”, ele continua. “Você não faz um servidor, dois servidores. Você pensa em termos de unidades de rack. E agora que estamos falando em termos de exascale, quando você está olhando para exascale, sua unidade é diferente. Essa unidade da qual estamos falando é o DataPod.”

A MinIO trabalhou com clientes suficientes com planos exascale nos últimos 18 meses e se sentiu confortável em definir os princípios básicos em uma arquitetura de referência, com a esperança de que isso simplifique a vida dos clientes no futuro.

“O que aprendemos com nossos principais clientes, agora estamos vendo um padrão comum emergindo para a empresa”, diz Periasamy. “Estamos simplesmente ensinando aos clientes que, se você seguir esse modelo, sua vida será fácil. Não precisamos reinventar a roda.”

O MinIO validou essa arquitetura com vários clientes e pode garantir que ela pode ser dimensionada para um exabyte de dados e além, afirma o CMO do MinIO, Jonathan Symonds.

“Isso simplesmente tira muito atrito da equação, porque eles não vão e voltam”, diz Symonds. “Isso facilita para eles ‘É assim que se pensa sobre o problema’. Quero pensar sobre isso em termos de A, unidades de medida, unidades construíveis; B, a parte da rede; e C, esses são os tipos de fornecedores e esses são os tipos de caixas.”

AB Periasamy, cofundador e co-CEO da MinIO

A MinIO trabalhou com a Dell, HPE e Supermicro para criar essa arquitetura de referência, mas isso não significa que ela se limita a elas. Os clientes podem conectar outros fornecedores de {hardware} à equação e até mesmo misturar e combinar seus fornecedores de servidores e drives conforme constroem seus DataPods.

As empresas estão preocupadas em atingir os limites de sua escalabilidade, algo que a MinIO levou em consideração ao desenvolver a arquitetura, diz Symonds.

“’Software program inteligente, {hardware} burro’ está muito incorporado no tipo de corpus que o DataPod oferece”, ele diz. “Agora você pode pensar sobre isso e pensar, tudo bem, posso planejar o futuro de uma forma que eu possa entender a economia, porque eu sei quanto essas coisas custam e posso entender as implicações de desempenho disso, particularmente que elas podem escalar linearmente. Porque esse é um grande problema: uma vez que você pode chegar a 100 petabytes ou 200 petabytes ou até um exabyte, esse é o conceito de desempenho em escala. Esse é o grande desafio.”

Em seu white paper, a MinIO publicou o preço médio de rua, que period de US$ 1,50 por TB/mês para o {hardware} e US$ 3,54 por TB/mês para o software program MinIO. A uma taxa de cerca de US$ 5 por TB por mês, um sistema de 100 PiB (pebibyte) custaria aproximadamente US$ 500.000 por mês. Multiplique isso por 10 para obter o custo aproximado de um sistema exabyte.

Os altos custos podem fazer você olhar duas vezes, mas é importante ter em mente que, se você decidir armazenar tantos dados na nuvem, o custo seria de 60% a 70% maior, diz Periasamy. Além disso, custaria muito mais para realmente mover esses dados para a nuvem se eles já não estivessem lá, ele acrescenta.

“Mesmo que você queira levar centenas de petabytes para a nuvem, a coisa mais próxima que você tem é UPS e FedEx”, diz Periasamy. “Você não tem o tipo de largura de banda na rede, mesmo que ela seja gratuita. Mas a rede é muito cara, comparada até mesmo aos custos de armazenamento.”

Quando você considera o quanto os clientes podem economizar no lado computacional da equação usando seus próprios clusters de GPU, a economia realmente aumenta, ele diz.

“GPUs são ridiculamente caras na nuvem”, diz Periasamy. “Por algum tempo, a nuvem realmente ajudou, porque esses fornecedores podiam obter todas as GPUs disponíveis na época e essa period a única maneira de fazer qualquer tipo de experimentação de GPU. Agora que isso está diminuindo, os clientes estão descobrindo que indo para o co-lo, eles economizam toneladas, não apenas no lado do armazenamento, mas na parte oculta – a rede e o lado da computação. É aí que todas as economias são enormes.”

Você pode ler mais sobre o DataPod da MinIO aqui.

Itens relacionados:

Dados são a base para GenAI, afirma MIT Tech Evaluate

GenAI nos mostra o que é mais importante, diz o criador do MinIO: nossos dados

MinIO, agora avaliada em US$ 1 bilhão, ainda faminta por dados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *