Filtre ativos de catálogo usando filtros de pesquisa de metadados personalizados no Amazon SageMaker Unified Studio


Encontrar os ativos de dados certos em catálogos de grandes empresas pode ser um desafio, especialmente quando milhares de conjuntos de dados são catalogados com metadados específicos da organização. Estúdio unificado Amazon SageMaker agora oferece suporte a filtros de pesquisa de metadados personalizados. Você pode filtrar ativos de catálogo usando seus próprios campos de formulário de metadados, como área terapêutica, sensibilidade de dados ou região geográfica, em vez de depender apenas da pesquisa de texto livre. Os formulários de metadados customizados são modelos estruturados que definem atributos adicionais que podem ser anexados aos ativos do catálogo.

Nesta postagem, você aprenderá como criar formulários de metadados personalizados, publicar ativos com valores de metadados e usar filtros estruturados para descobrir esses ativos. Exploramos um caso de uso de saúde e ciências biológicas. Uma organização de pesquisa cataloga métricas no Amazon SageMaker Catalog usando formulários de metadados personalizados com campos como Área terapêutica e Tamanho da amostra. Os pesquisadores que criam modelos de aprendizado de máquina agora podem pesquisar conjuntos de dados com base em filtros personalizados em centenas de ativos catalogados para identificar os melhores conjuntos de dados para treinar seus modelos.

Principais capacidades

Os filtros de pesquisa de metadados personalizados no SageMaker Unified Studio oferecem os seguintes recursos principais:

  • Filtros de formulário de metadados personalizados – você pode filtrar os resultados da pesquisa usando quaisquer campos de formulário de metadados personalizados definidos em seu catálogo. Por exemplo, um pesquisador pode filtrar por Área Terapêutica = Oncologia e Sensibilidade dos Dados = Confidencial para localizar conjuntos de dados específicos.
  • Filtros de nome e descrição – você pode adicionar filtros direcionados a nomes ou descrições de ativos usando um operador de pesquisa de texto, permitindo a descoberta direcionada sem verificar os resultados completos da pesquisa.
  • Filtros de intervalo de datas – você pode filtrar ativos por information usando operadores em, antes, depois e entre, facilitando a localização de ativos atualizados recentemente ou historicamente relevantes.
  • Filtros combináveis ​​– você pode combinar vários filtros para construir consultas precisas. Por exemplo, filtrar por Região da AWS = EUA AND Classificação = PII AND Atualizado após 01/01/2026 retorna apenas ativos que atendem a todos os três critérios.
  • Seleções de filtros persistentes – Você pode filtrar configurações armazenadas em seu navegador e que não são compartilhadas entre dispositivos ou outros usuários. Posteriormente, você poderá retornar ao catálogo e encontrar os filtros previamente definidos.

Visão geral da solução

Nas seções a seguir, demonstramos como configurar formulários de metadados personalizados, publicar ativos com valores de metadados e usar filtros de pesquisa de metadados personalizados para descobrir esses ativos. Concluímos as três etapas a seguir para a demonstração.

  1. Crie um formulário de metadados personalizado
  2. Crie e publique ativos com metadados
  3. Use filtros de pesquisa de metadados personalizados

Pré-requisitos

Para acompanhar esta postagem, você deve ter:

Para obter instruções sobre como configurar um domínio e um projeto, consulte o Começando guia.

Para criar um formulário de metadados personalizado

Conclua as etapas a seguir para criar um formulário de metadados personalizado com campos filtráveis:

  1. No SageMaker Unified Studio, escolha Visão geral do projeto no painel de navegação.
  2. Sob Catálogo de projetosescolher Entidades de metadados.

    Filtre ativos de catálogo usando filtros de pesquisa de metadados personalizados no Amazon SageMaker Unified Studio
  3. Escolher Criar formulário de metadados.

  4. Para criar um novo formulário de metadados ‘research_metadata’ use os detalhes a seguir e escolha Criar formulário de metadados.

  5. Defina os campos do formulário. Para esta demonstração, adicionamos os seguintes campos:

    Criar primeiro campo Área Terapêutica (String) – Marcar como Pesquisável



    Criar segundo campo Contagem de assuntos (inteiro) – Marcar como filtrável por intervalo

  6. Marque o formulário como ‘Ativado’ para que ele fique visível e possa ser usado.

Crie e publique com metadados

Nesta seção, você cria um ativo personalizado e anexa o formulário research_metadata criado na etapa anterior.

  1. Em Catálogo de projetos no painel de navegação, escolha Entidades de metadados. Escolha a guia ‘TIPOS DE ATIVO’ e selecione “CRIAR TIPO DE ATIVO’.

  2. Crie um novo tipo de ativo e anexe o formulário de metadados que criamos na etapa anterior.



    Uma nova ‘métrica’ de tipo de ativo é criada.

  3. A seguir, criaremos duas métricas. Sob Catálogo de projetos no painel de navegação, escolha Ativos. Na página Ativo, escolha CRIAR, e então escolha Criar recurso do cardápio.

  4. Nesta demonstração, você cria duas métricas.

Para a primeira métrica ‘drug_1_treatment’, forneça o seguinte nome e descrição do ativo.

Adicione os seguintes valores ao formulário de metadados.

Valide todos os campos e escolha CRIAR.

Publique o ativo no catálogo.

A seguir, criaremos a segunda métrica ‘drug_1_treatment’. Repita as etapas do procedimento anterior e insira os valores mostrados.

  • Contagem de assuntos = 450
  • Área Terapêutica = Oncologia

Use filtros de pesquisa de metadados personalizados

Depois de publicar ativos com metadados personalizados, vá para a página Navegar nos ativos página para usar os filtros.

Para procurar ativos e visualizar filtros

  1. No SageMaker Unified Studio, escolha Descobrir na barra de navegação e selecione Catálogo, Navegar nos ativos.
  2. A página de pesquisa é exibida com a barra lateral de filtro à esquerda. Você pode ver os filtros do sistema existentes (tipo de dados, termos do glossário, tipo de ativo, projeto proprietário, região de origem, conta de origem, unidade de domínio) junto com as novas seções Intervalo de datas e Adicionar filtro.

Adicione um filtro personalizado

  1. Escolher + Adicionar filtro na parte inferior da barra lateral do filtro. Para Tipo de filtroselecione Formulário de metadados. Para Formulário de metadadosselecione pesquisa_metadados e adicione um filtro conforme mostrado na imagem a seguir. Escolher Aplicar quando terminar.



    Os resultados da pesquisa são atualizados para mostrar apenas ativos onde ‘subject_count’ é maior que 50.

Para combinar vários filtros

  1. Escolher + Adicionar filtro de novo. Para Tipo de filtroselecione Formulário de metadados. Para Formulário de metadadosselecione pesquisa_metadados e adicione um filtro conforme mostrado na imagem a seguir. Escolher Aplicar quando terminar.

Gerenciar filtros personalizados

As configurações de filtro são armazenadas no navegador do usuário e não são compartilhadas entre dispositivos ou usuários.

Para personalizar a pesquisa, você pode:

  • Alternar filtros – Use as caixas de seleção ao lado de cada filtro personalizado para ativá-los ou desativá-los sem excluí-los.
  • Editar ou excluir – Escolha o menu kebab (⋮) ao lado de qualquer filtro personalizado para editar seus valores ou excluí-lo.
  • Limpar tudo – Escolha LIMPAR ao lado do cabeçalho Filtros personalizados para desmarcar todos os filtros personalizados de uma vez.
  • Persistência – Seus filtros personalizados persistem nas sessões do navegador. Ao retornar à página Procurar ativos, seus filtros definidos anteriormente ainda estarão listados na barra lateral, prontos para serem ativados.

Usando a API SearchListings

Para pesquisar ativos de catálogo programaticamente, você pode usar a API SearchListings em Zona de dados da Amazonque oferece suporte aos mesmos recursos de filtragem da IU do SageMaker Unified Studio. O exemplo a seguir filtra ativos em que um campo de string personalizado contém um valor específico e um campo numérico está dentro de um intervalo:

aws datazone search-listings 
    --domain-identifier "dzd_your_domain_id" 
    --filters '{ "and": (
        { "filter": { "attribute": "research_metadata.TherapeuticArea", "worth": "Oncology", "operator": "TEXT_SEARCH" } },
        { "filter": { "attribute": "research_metadata.SubjectCount", "intValue": 100, "operator": "GT" } }
    ) }'

Para mais detalhes, consulte o Documentação da API SearchListings na Referência da API do Amazon DataZone.

Melhores práticas

Considere as seguintes práticas recomendadas ao usar filtros de pesquisa de metadados personalizados:

  • Defina seus formulários de metadados antes de publicar ativos em grande escala. Se você publicar ativos antes da finalização dos formulários, talvez seja necessário etiquetar novamente os ativos existentes, o que é um processo demorado em catálogos grandes.
  • Defina formulários de metadados alinhados com as necessidades de descoberta da sua organização (áreas terapêuticas, classificações de dados, regiões geográficas) antes de publicar ativos em escala.
  • Use valores específicos e consistentes em campos de metadados para obter resultados de filtro precisos. Por exemplo, make the most of valores padronizados (por exemplo, make the most of “Oncologia” de forma consistente em vez de “oncologia” ou “Onc”) em todos os ativos.
  • Mix vários filtros para restringir os resultados de forma eficiente, em vez de examinar conjuntos amplos de resultados.
  • Use o filtro de intervalo de datas junto com filtros de metadados personalizados para localizar ativos em janelas de tempo específicas.

Limpar recursos

Para obter instruções sobre como excluir os ativos adicionados, consulte Excluir um ativo do Amazon SageMaker Unified Studio.

Para obter instruções sobre como excluir os formulários de metadados, consulte Excluir um formulário de metadados no Amazon SageMaker Unified Studio.

Conclusão

Os filtros de pesquisa de metadados personalizados no Amazon SageMaker Unified Studio oferecem aos consumidores de dados a capacidade de encontrar ativos exatos usando filtros estruturados com base nos campos de metadados da própria organização. Ao combinar vários filtros em formulários de metadados personalizados, nomes de ativos, descrições e intervalos de datas, os consumidores de dados podem construir consultas precisas que revelam os conjuntos de dados certos sem examinar resultados de pesquisa amplos. A persistência do filtro nas sessões do navegador simplifica ainda mais os fluxos de trabalho de descoberta repetidos.

Filtros de pesquisa de metadados personalizados agora estão disponíveis em regiões da AWS onde o Amazon SageMaker é compatível.

Para saber mais sobre o Amazon SageMaker, consulte o Documentação do Amazon SageMaker. Para começar com esse recurso, consulte o Guia do usuário do Amazon SageMaker Unified Studio.


Sobre os autores

Ramesh Singh

Ramesh Singh

Ramesh é gerente técnico sênior de produtos (serviços externos) na AWS em Seattle, Washington, atualmente na equipe Amazon SageMaker. Ele é apaixonado por criar produtos de análise e ML/IA de alto desempenho que ajudam os clientes corporativos a atingir seus objetivos críticos usando tecnologia de ponta.

Pradeep Misra

Pradeep Misra

Pradeep é arquiteto principal de soluções de análise e IA aplicada na AWS. Ele é apaixonado por resolver os desafios dos clientes usando dados, análises e IA aplicada. Fora do trabalho, ele gosta de explorar novos lugares e jogar badminton com a família. Ele também gosta de fazer experimentos científicos, construir LEGOs e assistir animes com suas filhas.

Alexandra von der Goltz

Alexandra von der Goltz

Alexandra é Engenheiro de Desenvolvimento de Software program (SDE) na AWS baseado na cidade de Nova York, na equipe Amazon SageMaker. Ela trabalha nas experiências de catálogo e descoberta de dados no Unified Studio.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *