Os dados de uma organização podem vir de várias fontes, incluindo pipelines baseados em nuvem, ecossistemas de parceiros, formatos de tabela aberta, como Apache Iceberg, Software program como uma plataformas de serviço (SaaS) e aplicativos internos. Embora grande parte desses dados seja crítica nos negócios, a capacidade de torná-los documentados e descobertos em escala continua a desafiar as equipes-especialmente quando os ativos não se originam de fontes baseadas em AWS pré-integradas.
Para ajudar a preencher essa lacuna, Catálogo da Amazon Sagemaker– Parte da próxima geração de Amazon Sagemaker-Agora suporta recomendações generativas de IA para descrições de negócios, incluindo resumos de tabela, casos de uso e descrições no nível da coluna para ativos estruturados personalizados registrados programaticamente. Essa nova capacidade, alimentada por grandes modelos de linguagem (LLMS) na Amazon Bedrock, estende a geração automatizada de metadados até o espectro mais amplo de dados corporativos, incluindo tabelas de iceberg em Amazon Easy Storage Service (Amazon S3) ou conjuntos de dados de aplicativos de terceiros e internos.
Com apenas alguns cliques, você pode criar sugestões geradas pela IA, revisar e refinar descrições e publicar metadados de ativos enriquecidos diretamente no catálogo. Isso ajuda a reduzir o esforço de documentação handbook, melhora a consistência dos metadados e acelera a descoberta de ativos entre as organizações.
Este lançamento faz parte de nosso investimento mais amplo em catalogação generativa de AI e inteligência de metadados em todo o catálogo de sagemaker. Ao combinar o aprendizado de máquina (ML) com os controles de supervisão e governança humana, estamos tornando simples para as organizações escalar dados confiáveis e utilizáveis nas unidades de negócios.
Neste publish, demonstramos como gerar recomendações de IA para descrições de negócios para ativos estruturados personalizados no catálogo de sagemaker.
Desafios ao usar metadados incompletos para dados personalizados e externos
O Sagemaker Catalog suporta documentação automatizada para ativos colhidos de serviços centrados na AWS como Aws cola e Amazon Redshift. Essas integrações internas puxam automaticamente o esquema e geram metadados contextuais, tornando-o direto para os consumidores de dados descobrirem e entenderem o que está disponível.
No entanto, muitos conjuntos de dados críticos se originam fora desses serviços, como:
- Mesas de iceberg armazenadas na Amazon S3
- Conjuntos de dados estruturados de plataformas de terceiros, como floco de neve ou banco de dados
- Ativos relacionais registrados manualmente usando APIs
Como resultado, os clientes tiveram que inserir manualmente as descrições de negócios e o contexto no nível da coluna-um processo que atrasa a publicação, introduz inconsistência e mina a descoberta de ativos importantes.
Com este lançamento, o Sagemaker Catalog adiciona suporte à geração generativa de metadados de IA para ativos de dados personalizados baseados em esquema registrados programaticamente através da APIs. Utilizamos grandes modelos de linguagem (LLMS) na Amazon Bedrock para gerar automaticamente elementos -chave para ativos estruturados personalizados. Isso inclui o fornecimento de um resumo abrangente da tabela, descrições detalhadas no nível da coluna e sugerindo possíveis casos de uso analítico. Esses recursos automatizados ajudam a simplificar o processo de documentação, garantindo consistência e eficiência entre os ativos de dados.
Highlight do cliente
Em todos os setores, os clientes estão gerenciando milhares de conjuntos de dados estruturados que não se originam de pipelines nativos da AWS. Esses conjuntos de dados geralmente não têm documentação-não porque não são importantes, mas porque documentá-los é demorado, repetitivo e frequentemente deprinciados.
Como as finanças da Amazon estão revolucionando o gerenciamento de dados com a geração de metadados movidos a IA
Como uma organização em larga escala com diversas necessidades de dados, a equipe financeira da Amazon gerencia milhares de ativos de dados. Dentro da organização financeira, vários conjuntos de dados geralmente não têm documentação adequada, criando gargalos que dificultam a análise financeira crítica e a tomada de decisões.
Balaji Kumar Gopalakrishnan, engenheiro principal em Amazon Finanças, compartilha como a capacidade de geração de metadados movida a IA está transformando sua abordagem de gerenciamento de dados:
“Como uma organização financeira, gerenciamos vários conjuntos de dados que não possuem documentação adequada, criando gargalos para análise financeira crítica. A capacidade de documentação automática movida a IA seria transformadora para nossa equipe-alleviando o esforço de documentação handbook que atrasa a descoberta de ativos e a usabilidade.
Isso capacita equipes como o Amazon Finance para otimizar a geração e a documentação de metadados, facilitando o acesso e o trabalho dos dados financeiros críticos. Ao automatizar a criação de metadados, as equipes podem se concentrar em análises de alto impacto, acelerando seu processo de tomada de decisão e melhorando a eficiência geral da organização.
Principais benefícios
Este novo recurso aborda diretamente os principais desafios enfrentados pelas equipes de catalogação, permitindo -lhes:
- Acelerar tempo para publicar: Reduce o atraso entre a disponibilidade de dados e a prontidão do catálogo.
- Melhorar a qualidade dos metadados: Garanta o contexto consistente e gerado por LLM, independentemente dos autores de esquema.
- Aprimorar a descoberta: Habilite acesso rápido e fácil aos dados por meio de descrições ricas e pesquisáveis.
- Construir confiança: Forneça sugestões transparentes e editáveis de IA para garantir que os metadados alinhem às necessidades organizacionais e precisão do domínio.
Para os produtores de dados, esse recurso elimina a necessidade de documentação repetitiva e handbook, economizando tempo valioso. Ao automatizar a geração de metadados, também padroniza como os metadados são escritos e estruturados entre ativos, resultando em publicação mais rápida e acesso de dados mais rápido para os consumidores.
No lado do consumidor, os metadados aprimorados oferecem maior clareza, permitindo que os usuários entendam os dados e seu uso rapidamente. Com metadados completos e com curadoria, eles podem confiar na fonte, enquanto trabalham de forma mais independente e reduzindo a dependência de especialistas no assunto (PMEs) e administradores de dados para interpretação.
Visão geral da solução
Nesta postagem, demonstramos como criar manualmente um ativo estruturado e usar a nova capacidade de IA para gerar metadados de negócios para melhorar a usabilidade dos ativos. O ativo que adicionamos é uma tabela de inventário de produtos com as seguintes colunas:
Pré -requisitos
Para seguir este publish, você deve ter um Amazon Sagemaker Unified Studio O domínio configurado com um proprietário de domínio ou privilégios do proprietário da unidade de domínio. Você deve ter um projeto que usaremos para publicar ativos. Para obter instruções, consulte o Sagemaker Unified Studio Começando guia.
Criar um ativo
Full as seguintes etapas para criar manualmente o ativo:
- Os tipos de ativos registrados manualmente precisam usar o
amazon.datazone.RelationalTableFormType
Tipo de formulário. Obtenha a revisão mais recente em seu domínio. Execute o seguinte comando, substituindo odomain-identifier
com seu domínio:
A última revisão retornada é 7
que usamos nas próximas etapas:
- Criar um novo tipo de ativo que use o
amazon.datazone.RelationalTableFormType
Revisão retornada na etapa anterior:
Você receberá uma resposta de sucesso semelhante ao seguinte:
- Crie o ativo para a tabela usando o tipo de ativo e substituindo os identificadores de domínio e projeto em seu domínio. Para este exemplo, também habilitamos
businessNameGeneration
:
A seguir, é apresentado um exemplo de resposta de sucesso após a criação do ativo:
Quando um ativo é criado com businessNameGeneration
Ativado, gera as previsões de nomes de negócios de forma assíncrona. Depois que eles são gerados, eles são devolvidos como sugestões sob o ativo readOnlyForms
.
Gerar metadados de negócios
Full as seguintes etapas para gerar metadados:
- Faça login no portal do Sagemaker Unified Studio, abra o projeto que você usou e escolha Ativos no painel de navegação.
O nome comercial já foi gerado para o ativo e as colunas.
- Para gerar descrições, escolha Gerar descrições.
A captura de tela a seguir mostra os nomes gerados no Esquema guia.
- Se você aprovar os nomes gerados, escolha Aceitar tudo.
- Escolher Aceitar tudo novamente para confirmar.
- Escolher Gerar descrições Para criar descrições de tabela e coluna sugeridas.
- Revise as recomendações geradas e escolha Aceitar tudo Se parecer preciso.
A captura de tela a seguir mostra as descrições geradas.
Mesmo quando os ativos são registrados como personalizados, você pode usar esse recurso para gerar contexto de negócios e publicá -lo perfeitamente no catálogo Sagemaker.
Conclusão
À medida que os ambientes de dados corporativos se tornam cada vez mais distribuídos e provenientes de diversas plataformas, a manutenção da qualidade dos metadados em escala apresenta um desafio. Esse recurso usa IA generativa para automatizar a criação de descrições de negócios, incluindo resumos de tabela, casos de uso e metadados no nível da coluna, reduzindo o esforço handbook, preservando o alinhamento com os requisitos de governança.
O recurso está disponível na próxima geração de sagemaker através do catálogo de sagemaker para ativos estruturados personalizados (com esquema) registrados programaticamente usando uma API. Para detalhes da implementação, consulte o Documentação do produto.
Sobre os autores
Ramesh H Singh é um gerente sênior de produtos técnicos (serviços externos) da AWS em Seattle, Washington, atualmente com a equipe da Amazon Sagemaker. Ele é apaixonado por construir produtos de ML/AI e análise de alto desempenho que permitem que os clientes corporativos atinjam suas metas críticas usando tecnologia de ponta. Conecte -se a ele LinkedIn.
Pradeep Misra é um arquiteto principal da Analytics Options da AWS. Ele trabalha em toda a Amazon para arquitetar e projetar soluções de análise distribuída moderna e plataforma AI/ML. Ele é apaixonado por resolver os desafios dos clientes usando dados, análises e IA/ml. Fora do trabalho, Pradeep gosta de explorar novos lugares, experimentar novas cozinhas e jogar jogos de tabuleiro com sua família. Ele também gosta de fazer experimentos científicos, construir Legos e assistir anime com suas filhas.
Balaji Kumar Gopalakrishnan é engenheiro principal da Amazon Finance Know-how. Ele está na Amazon desde 2013, resolvendo desafios do mundo actual através da tecnologia que afeta diretamente a vida dos clientes da Amazon. Fora do trabalho, Balaji gosta de fazer caminhadas, pintar e passar tempo com sua família. Ele também é um fã de cinema!
Mohit Dawar é um engenheiro sênior de software program da AWS que trabalha no Datazone e no Sagemaker Unified Studio. Nos últimos três anos, ele liderou os esforços em torno do catálogo de metadados centrais, curadoria de metadados generativa de IA e visualização de linhagem. Ele gosta de trabalhar em sistemas distribuídos em larga escala, experimentar a IA para melhorar a experiência do usuário e criar ferramentas que fazem com que a governança de dados pareça sem esforço. Conecte -se a ele LinkedIn.
Mark Horta é gerente de desenvolvimento de software program da AWS que trabalha no Datazone e Sagemaker Unified Studio. Ele é responsável por liderar os esforços de engenharia do catálogo de sagemaker, com foco na geração generativa de metadados-AI e na curadoria e na linhagem de dados.