Quando lançamos a Amazon Sagemaker AI em 2017, tivemos uma missão clara: colocar o aprendizado de máquina nas mãos de qualquer desenvolvedor, independentemente de seu nível de habilidade. Queríamos engenheiros de infraestrutura que fossem “Noobs totais no aprendizado de máquina” para obter resultados significativos em uma semana. Para remover os obstáculos que tornaram o ML acessível apenas a alguns poucos com profunda experiência.
Oito anos depois, essa missão evoluiu. Os construtores de ML de hoje não estão apenas treinando modelos simples – eles estão construindo aplicativos generativos de IA que exigem computação maciça, infraestrutura complexa e ferramentas sofisticadas. Os problemas ficaram mais difíceis, mas nossa missão permanece a mesma: eliminar o levantamento pesado indiferenciado para que os construtores possam se concentrar no que mais importa. No ano passado, me encontrei com clientes que estão fazendo um trabalho incrível com a IA generativa-treinando modelos maciços, ajustando finos para casos de uso específicos, construindo aplicativos que pareceriam ficção científica há apenas alguns anos. Mas nessas conversas, ouço as mesmas frustrações. As soluções alternativas. As escolhas impossíveis. O tempo perdeu para o que deve ser resolvido problemas. Algumas semanas atrás, lançamos alguns recursos que abordam esses pontos de atrito: permitindo conexões remotas com segurança com a Sagemaker AI, observabilidade abrangente para o desenvolvimento de modelos em larga escala, implantando modelos em sua computação hiperpod existente e treinamento de resiliência para as cargas de trabalho de Kubernetes. Deixe -me orientá -lo por eles.
O imposto de solução alternativa
Aqui está um problema com o qual ainda não esperava lidar em 2025 – os desenvolvedores tenham que escolher entre o ambiente de desenvolvimento preferido e o acesso a uma computação poderosa.
Conversei com um cliente que descreveu o que eles chamavam de “SSH alternativa de cancelamento” – o custo de tempo e complexidade da tentativa de conectar suas ferramentas de desenvolvimento native à computação da Sagemaker AI. Eles construíram esse sistema elaborado de túneis SSH e encaminhamento de portas que funcionavam, mais ou menos, até que não o fizesse. Quando passamos do clássico para a versão mais recente do Sagemaker Studio, sua solução alternativa quebrou completamente. Eles tiveram que fazer uma escolha: abandonar suas configurações de código vs cuidadosamente personalizadas com todas as suas extensões e fluxos de trabalho ou perder o acesso à computação necessária para suas cargas de trabalho de ML.
Os construtores não precisam escolher entre suas ferramentas de desenvolvimento e computação em nuvem. É como ser forçado a escolher entre ter eletricidade e água corrente em sua casa – tanto é essencial, e a escolha em si é o problema.
O desafio técnico foi interessante. Os espaços de estúdio da Sagemaker são ambientes gerenciados isolados, com seu próprio modelo de segurança e ciclo de vida. Como você túnei com segurança as conexões de IDE por meio da infraestrutura da AWS sem expor credenciais ou exigir que os clientes se tornem especialistas em rede? A solução necessária para trabalhar para diferentes tipos de usuários-alguns que queriam acesso com um clique diretamente do Sagemaker Studio, outros que preferiram começar o dia no IDE native e gerenciar todos os seus espaços a partir daí. Precisávamos melhorar o trabalho que foi feito para o Sagemaker SSH Helper.
Então, construímos um novo API de partida Isso cria conexões seguras especificamente para os espaços da Sagemaker AI, estabelecendo túneis SSH-Over-SSM através do AWS Programs Supervisor, que mantêm todos os limites de segurança da Sagemaker AI, fornecendo acesso contínuo. Para usuários de código vs vindos do Studio, o contexto de autenticação é transportado automaticamente. Para aqueles que desejam o IDE native como ponto de entrada principal, os administradores podem fornecer credenciais locais que funcionam através do AWS Toolkit vs Código plug-in. E o mais importante, o sistema lida com as interrupções da rede de maneira graciosa e automática, porque sabemos que os construtores odeiam perder seu trabalho quando as conexões caem.
Isso abordou a solicitação de recurso número um para a Sagemaker AI, mas à medida que nos aprofundamos no que estava diminuindo a velocidade das equipes de ML, descobrimos que o mesmo padrão estava ocorrendo em uma escala ainda maior na infraestrutura que suporta o treinamento do modelo.
O paradoxo de observabilidade
O segundo problema é o que eu chamo de “paradoxo de observabilidade”. O próprio sistema projetado para evitar problemas se torna a fonte dos próprios problemas.
Quando você está executando trabalhos de treinamento, ajuste fino ou inferência em centenas ou milhares de GPUs, as falhas são inevitáveis. Superaquecimentos de {hardware}. As conexões de rede caem. A memória é corrompida. A questão não é se os problemas ocorrerão – é se você os detectará antes de cascatas em falhas catastróficas que desperdiçam dias de tempo de computação caro.
Para monitorar esses aglomerados maciços, as equipes implantam sistemas de observabilidade que coletam métricas de todas as GPU, toda interface de rede, todos os dispositivos de armazenamento. Mas o próprio sistema de monitoramento se torna um gargalo de desempenho. Os colecionadores auto-gerenciados atingem as limitações da CPU e não conseguem acompanhar a escala. Os agentes de monitoramento preenchem o espaço do disco, causando as mesmas falhas de treinamento que eles devem prevenir.
Vi equipes executando o treinamento de modelos de fundação em centenas de instâncias sofrendo falhas em cascata que poderiam ter sido evitadas. Alguns superaquecendo as GPUs iniciam a limitação térmica, em todo o trabalho de treinamento distribuído. As interfaces de rede começam a soltar pacotes sob aumento da carga. O que deve ser um problema menor de {hardware} se torna uma investigação de vários dias em sistemas de monitoramento fragmentados, enquanto o computo caro fica ocioso.
Quando algo dá errado, os cientistas de dados se tornam detetives, reunindo pistas em ferramentas fragmentadas – cloudwatch para contêineres, painéis personalizados para GPUs, monitores de rede para interconexões. Cada ferramenta mostra um pedaço do quebra -cabeça, mas correlacioná -las leva manualmente dias.
Essa foi uma daquelas situações em que vimos clientes fazendo um trabalho que não tinha nada a ver com os problemas de negócios reais que estavam tentando resolver. Por isso, nos perguntamos: como você constrói a infraestrutura de observabilidade que escala com cargas de trabalho de IA maciças sem se tornar o gargalo que pretende impedir?
O Solução que construímos repensa a arquitetura de observabilidade desde o início. Em vez de colecionadores de thread único lutando para processar métricas de milhares de GPUs, implementamos colecionadores de escala automática que crescem e encolhem com a carga de trabalho. O sistema correlaciona automaticamente as métricas de alta cardinalidade geradas no HyperPod usando algoritmos projetados para dados de séries temporais em grande escala. Ele detecta não apenas falhas binárias, mas o que chamamos de falhas cinzentas – problemas parcial e intermitentes que são difíceis de detectar, mas lentamente degradam o desempenho. Pense nas GPUs que desaceleram automaticamente devido ao superaquecimento ou interfaces de rede que soltam pacotes sob carga. E você obtém tudo isso pronta para uso, em um único painel com base nas lições de clusters de GPU de treinamento aprendidas em escala-com nenhuma configuração necessária.
As equipes que costumavam passar dias detectando, investigando e remediando problemas de desempenho da tarefa agora identificam causas raiz em minutos. Em vez de solucionar problemas reativos após falhas, eles recebem alertas proativos quando o desempenho começa a degradar.
O efeito composto
O que me impressiona sobre esses problemas é como eles se compostos de maneiras que não são imediatamente óbvias. O imposto alternativo da SSH não custa apenas tempo – desencoraja o tipo de rápida experimentação que leva a avanços. Ao configurar seu ambiente de desenvolvimento, leva horas em vez de minutos, é menos provável que você tente essa nova abordagem ou teste essa arquitetura diferente.
O paradoxo de observabilidade cria uma barreira psicológica semelhante. Quando os problemas de infraestrutura levam dias para diagnosticar, as equipes se tornam conservadoras. Eles permanecem com experimentos menores e seguros, em vez de ultrapassar os limites do que é possível. Eles superam os recursos para evitar falhas em vez de otimizar a eficiência. O atrito da infraestrutura se torna atrito da inovação.
Mas esses não são os únicos pontos de atrito que estamos trabalhando para eliminar. In my expertise constructing distributed methods at scale, probably the most persistent challenges has been the synthetic boundaries we create between totally different phases of the machine studying lifecycle—organizations sustaining separate infrastructure for coaching fashions and serving them in manufacturing, a sample that made sense when these workloads had basically totally different traits, however one which has turn into more and more inefficient as each have converged on comparable compute necessities. Com Os novos recursos de implantação de modelos da Sagemaker Hyperpodestamos eliminando completamente esse limite, permitindo que você treine seus modelos de fundação em um cluster e os implante imediatamente na mesma infraestrutura, maximizando a utilização de recursos e reduzindo a complexidade operacional que vem do gerenciamento de vários ambientes.
Para equipes usando Kubernetes, adicionamos um Operador de treinamento de hiperpod Isso traz melhorias significativas para a recuperação de falhas. Quando ocorrem falhas, reinicia apenas os recursos afetados e não todo o trabalho. O operador também monitora questões de treinamento comuns, como lotes paralisados e valores de perda não numérica. As equipes podem definir políticas de recuperação personalizadas por meio de configurações diretas da YAML. Esses recursos reduzem drasticamente o desperdício de recursos e a sobrecarga operacional.
Essas atualizações – permitindo conexões remotas, coletores de observabilidade automaticamente, implantando modelos perfeitamente de ambientes de treinamento e melhorando a recuperação de falhas – trabalham juntos para abordar os pontos de atrito que impedem os construtores de se concentrarem no que mais importa: a criação de melhores aplicativos de IA. Quando você take away esses pontos de atrito, você não apenas torna os fluxos de trabalho existentes mais rapidamente; Você permite maneiras inteiramente novas de trabalhar.
Isso continua a evolução de nossa visão authentic da Sagemaker. Cada passo em frente nos aproxima do objetivo de colocar o aprendizado de máquina nas mãos de qualquer desenvolvedor, com o mínimo possível de trabalho pesado indiferenciado.
Agora, vá construir!