
(Anton Balazh/Shutterstock)
A NASA coleta todos os tipos de dados. Parte disso vem de satélites que orbitam o planeta. Alguns deles viajam de instrumentos flutuando pelo espaço profundo. Ao longo dos anos, esses esforços criaram uma coleção enorme: imagens, medições, sinais, varreduras. É uma mina dourada de informação, mas chegar a ela e entender isso, nem sempre é simples.
Para muitos cientistas, o problema começa com o básico. Um arquivo pode não dizer quando foi registrado, qual ferramenta a reuniu ou o que os números significam. Sem essa informação, até pesquisadores experientes podem ficar presos.
Com os sistemas de IA, os desafios são ainda mais complexos. As máquinas podem aprender com os padrões, mas ainda precisam de alguma estrutura. Se os dados forem vagos ou com a falta de etiquetas -chave, o modelo não pode fazer muito com isso ou pode ter que conectar pontos que estão muito distantes. Isso significa que alguns dos dados mais valiosos acabam esquecidos ou a saída não é confiável.
A NASA desenvolveu novas ferramentas para resolver o problema. Isso inclui pipelines de metadados automatizados que processam e padronizam informações sobre os vastos conjuntos de dados da agência.
Esses pipelines automatizados limpam e esclarecem os metadados, que são as informações sobre os próprios dados. Uma vez que essa camada é sólida, os conjuntos de dados se tornam mais fáceis de encontrar, mais fáceis de classificar e mais úteis para humanos e máquinas. O objetivo é disponibilizar esses metadados aprimorados em plataformas familiares como Information.gov, Geoplatform e Portais de dados da NASA. A esperança é que essa mudança suportasse pesquisas mais rápidas e melhores resultados em uma ampla gama de projetos.
Parte desse esforço é sobre abrir o acesso além das redes usuais da NASA. Nem todo mundo que procura dados está familiarizado com ferramentas internas ou sistemas técnicos. Esse desafio faz parte da razão pela qual esses dutos existem. “Na ciência da Terra da NASA, temos nosso próprio catálogo on -line, chamado Repositório de metadados comum (CMR), isso é particularmente voltado para a nossa comunidade de usuários da NASA ”, disse Newman.
“A CMR funciona muito bem neste caso, mas as pessoas fora de nossa comunidade imediata podem não ter a familiaridade e o conhecimento específico necessário para obter os dados de que precisam. Portais mais gerais, como o Information.gov, são um lugar pure para eles optarem por dados do governo, para que seja importante que tenhamos presença lá.”
Os novos oleodutos de metadados da NASA são uma tentativa de facilitar a descoberta dessas histórias. A primeira fase do esforço é centrada em mais de 10.000 coleções de dados públicos, cobrindo mais de 1,8 bilhão de registros científicos individuais. Eles estão sendo reformatados e alinhados com padrões abertos para que possam ser compartilhados por meio de plataformas como Information.gov e Geoplatform, onde pesquisadores fora da NASA têm maior probabilidade de pesquisar. Essa mudança também ajuda os sistemas de IA. Quando a estrutura é clara e consistente, os modelos são mais capazes de interpretar os dados e aplicá -los sem fazer suposições desnecessárias.
Melhorar a estrutura é apenas parte do processo. A NASA também está analisando atentamente a qualidade dos próprios metadados. Esse trabalho é tratado através do Projeto ARCabreviação de análise e revisão da CMR. O objetivo é garantir que os registros não sejam apenas formatados corretamente, mas também precisos, completos e consistentes. Ao revisar e fortalecer esses registros, o ARC ajuda a garantir que o que apareça nos resultados da pesquisa não seja apenas visível, mas também confiável o suficiente para ser usado com confiança.
Traduzir os metadados internos da NASA em formatos que funcionam em plataformas públicas requer trabalhos detalhados e técnicos. Esse esforço está sendo liderado por Kaylin Bugbee, um gerente de dados do Workplace do Diretor de Dados de Ciência da NASA. Ela ajuda a executar o Science Discovery Engine, um sistema que suporta acesso aberto às ferramentas, dados e software program de pesquisa da NASA.
Bugbee e sua equipe estão construindo um processo que reúne metadados de toda a agência e o mapeia para os formatos usados por plataformas como o Information.gov. É um fluxo de trabalho cuidadoso e passo a passo que precisa corresponder aos termos exclusivos da NASA com os padrões mais universais. “Estamos no processo de testar cada etapa do caminho e continuar a melhorar o mapeamento de metadados, para que funcione bem com os portais”, disse Bugbee.
A NASA também está trabalhando em dados geoespaciais. Alguns desses conjuntos de dados são usados por outras agências para coisas como mapeamento, transporte e planejamento de emergência. Eles são conhecidos como ativos nacionais de dados geoespaciais, ou NGDAs.
A equipe da Bugbee está construindo um sistema que ajuda a conectar esses arquivos ao geoplatform.gov, com hyperlinks que enviam os usuários diretamente à pesquisa EarthData da NASA. O processo se baseia nos metadados que a NASA já possui, o que economiza tempo e reduz a necessidade de começar do zero. Eles começaram com produtos MODIS e ASTER da plataforma Terra e se expandirão a partir daí. O objetivo é facilitar o acesso desses conjuntos de dados, mantendo a estrutura clara e consistente entre as plataformas que atendem usuários públicos e científicos.
Itens relacionados
O novo modelo geoespacial da IBM sobre abraçar os dados da NASA para a ciência climática
IA agêntica e a revolução dos dados científicos em ciências da vida
NIH destaca a IA e a computação avançada em novo plano estratégico de ciência de dados