As organizações estão ampliando seus catálogos de dados mais rápido do que nunca. Manter padrões consistentes de metadados entre as equipes continua sendo um desafio. Os glossários de negócios definem a linguagem da empresa – termos como Buyer Profile, Transactionou Confidential Knowledge—mas os ativos são frequentemente publicados sem essas classificações, levando a metadados inconsistentes e baixa capacidade de descoberta.
Para resolver isso, Catálogo Amazon SageMaker agora oferece suporte a regras de aplicação de metadados para classificação de termos de glossário (marcação) no nível do ativo. Com esse recurso, os administradores podem exigir que os ativos incluam termos ou classificações comerciais específicas. Os produtores de dados devem aplicar os termos ou classificações exigidos do glossário antes que um ativo possa ser publicado. Isso reforça a consistência dos metadados em todo o catálogo e garante que os ativos carreguem o contexto de negócios necessário para uma descoberta e governança eficazes.
Esse recurso se baseia em recursos de regras de metadados existentes para aplicação de campos de metadados obrigatórios durante a publicação de ativos. A nova adição amplia essas regras para cobrir a validação de termos do glossário, fortalecendo o vínculo entre a linguagem comercial e os ativos de dados técnicos.
Nesta postagem, mostramos como aplicar regras de classificação de glossário comercial no Catálogo SageMaker.
Por que a aplicação de metadados é importante
Um desafio comum de governança é a falta de marcação e classificação padronizadas para ativos que entram em catálogos empresariais. Sem fiscalização, os produtores de dados podem publicar ativos sem termos comerciais exigidos (como nível de sensibilidade dos dados ou domínio do produto), resultando em metadados inconsistentes que confundem os usuários empresariais, resultados de pesquisa e filtragem não confiáveis e limpeza handbook e riscos de conformidade downstream.
Ao validar automaticamente os metadados no momento da publicação, o SageMaker Catalog valida os metadados quando os ativos são publicados. Isso oferece os seguintes benefícios principais:
- Os ativos são classificados com termos comerciais aprovados antes da publicação
- A validação apoia a conformidade com glossários internos e padrões de classificação
- A marcação consistente aumenta a precisão da pesquisa e reduz o ruído
- Recursos incompletos ou marcados incorretamente não chegam aos consumidores
Como funciona a aplicação de metadados
No Estúdio unificado Amazon SageMaker console, os administradores navegam para Catálogo, Governança, Regras e criar regras de metadados direcionadas ao fluxo de trabalho de publicação de ativos. As regras podem especificar termos de glossário ou campos de classificação obrigatórios (por exemplo, Enterprise Unit, PII Classou Knowledge Sensitivity). As regras podem ser aplicadas em toda a organização ou em domínios ou projetos específicos.
Quando um produtor tenta publicar um ativo, o Catálogo SageMaker verifica se o ativo inclui os termos ou classificações do glossário necessários. Se algum metadado necessário estiver faltando, a ação de publicação falhará com uma mensagem de erro clara. Depois que os metadados forem adicionados, o ativo poderá ser publicado com sucesso.
A marcação imposta garante que os ativos publicados possam ser pesquisados e filtrados usando terminologia comercial consistente, melhorando a usabilidade do catálogo para analistas e usuários empresariais.
Visão geral da solução
Para esta postagem, exploramos um caso de uso de serviços financeiros. Nosso exemplo, uma empresa de serviços financeiros, outline uma regra que exige que todos os conjuntos de dados publicados no projeto tenham ‘Finance‘ glossário associado:
- Um produtor de dados que tenta publicar um novo conjunto de dados sem esta tag recebe um erro de validação
- Depois de aplicar a classificação correta, o conjunto de dados é publicado com sucesso
- Os analistas agora podem filtrar o catálogo para encontrar apenas
Financeconjuntos de dados ou recursos de junção consistentemente marcados com o mesmo termo do glossário
Nas seções a seguir, percorremos as etapas para configurar esta solução. Criamos uma regra segundo a qual todos os ativos publicados de um projeto específico devem ter uma tag de unidade de negócios chamada Finance.
Pré-requisitos
Para testar esta solução, você deve ter um domínio do SageMaker Unified Studio configurado com privilégios de proprietário de domínio ou proprietário de unidade de domínio. Você também deve ter um projeto existente para publicar ativos e catalogar ativos. Para obter instruções sobre como criar esses ativos, consulte o Começando guia.
Neste exemplo, criamos um projeto chamado financial_analysis e uma mesa de teste. Para obter instruções sobre como criar uma tabela, consulte Comece a usar tabelas do Amazon S3 no Amazon SageMaker Unified Studio. Para ingerir os dados de amostra no Catálogo SageMaker e gerar metadados de negócios, consulte Crie uma fonte de dados do Amazon SageMaker Unified Studio para o Amazon Redshift no catálogo de projetos.
Crie glossário e adicione termos
Conclua as etapas a seguir para criar um novo glossário e adicionar termos:
- No SageMaker Unified Studio, na página Descobrir menu, escolha Glossários.

- Escolher Criar glossário.

- Forneça detalhes para o seu glossário, incluindo nome, projeto proprietário e descrição opcional.
- Para Restrição do glossárioligar Habilitado.
- Escolher Criar.

- Crie o termo
FinancenoEnterprise Unit Particularsglossário.

Criar regra para aplicar termos do glossário
Conclua as etapas a seguir para criar uma regra para definir termos do glossário:
- No Governar menu, escolha Unidades de domínio.

- No Regras guia, escolha Adicionar.

- Adicione uma regra de publicação para o
Financeprojeto para ter oFinancetag para todos os ativos publicados no catálogo. - Escolher Adicionar regra.

A captura de tela a seguir mostra os detalhes de configuração da sua nova regra.

Publicar ativo com regras aplicadas
Conclua as etapas a seguir para publicar seu ativo com as regras aplicadas:
- No
financial_analysispágina do projeto, vá para o seu ativo. - No Termos do glossário seção, escolha Adicionar termos.

Se você escolher Publicar sem adicionar o termo necessário, você receberá um erro informando oFinancetermo deve ser atribuído.

- Escolher Financiar para adicionar o termo necessário.

- Escolher Publicar recurso.

A captura de tela a seguir mostra o ativo publicado e os termos obrigatórios no glossário.

Conclusão
Com regras de aplicação de metadados para termos de glossário, o SageMaker Catalog traz maior controle e consistência à forma como as organizações publicam e gerenciam seus ativos de dados. Ao exigir classificações comerciais aprovadas antes da publicação, as equipes podem garantir que os ativos cumpram os padrões de metadados corporativos, melhorando a governança, a descoberta e a confiança em catálogos compartilhados. Esse recurso ajuda as organizações a dimensionar a governança de seus catálogos sem adicionar sobrecarga handbook, incorporando conformidade e qualidade diretamente no fluxo de trabalho de publicação.
As regras de aplicação de metadados para termos de glossário estão disponíveis nas regiões da AWS onde o SageMaker Catalog opera. Para começar com esse recurso, consulte o guia do usuário.











