Emblem após o Administração Trump assumiu o cargo no Estados Unidos No last de janeiro, mais de 8.000 páginas em vários websites do governo e bancos de dados foram derrubados, o New York Instances encontrado. Embora muitos deles já tenham sido restaurados, milhares de páginas foram expurgadas de referências a iniciativas de gênero e diversidade, por exemplo, e outros, incluindo o web site da Agência para o Desenvolvimento Internacional dos EUA (USAID).
Até 11 de fevereiro, um O juiz federal decidiu que as agências governamentais devem restaurar o acesso público às páginas e conjuntos de dados mantidos pelos Centros de Controle e Prevenção de Doenças (CDC) e a Meals and Drug Administration (FDA). Enquanto muitos cientistas fugiram para arquivos on -line em pânico, ironicamente, tele do Departamento de Justiça argumentou que os médicos que trouxeram o caso não foram prejudicados porque as informações removidas eram Disponível no arquivo da Web‘s Wayback Machine. Em resposta, um juiz federal escreveu“O Tribunal não está persuadido”, observando que um usuário deve conhecer o URL unique de uma página arquivada para vê -la.
O argumento authorized do governo “foi um elogio interessante”, diz Mark Grahamdiretor do Wayback Machineque acredita que a decisão do juiz foi “apropriada”. Nas últimas semanas, o Web O arquivo e outros websites de arquivo receberam atenção para preservar bancos de dados e websites do governo. Mas esses projetos estão em andamento há anos. O Arquivo da Webpor exemplo, foi fundada como uma organização sem fins lucrativos dedicada a fornecer acesso common ao conhecimento há quase 30 anos e agora registra mais de um bilhão de URLs todos os dias, diz Graham.
Desde 2008, o Web Archive também hospeda uma cópia acessível do FIM DO TERNO ARQUIVO DE WEBuma colaboração que documenta muda nos websites do governo federal antes e depois da administração muda. Na coleção mais recente, já arquivou mais de 500 terabytes de materials.
Rastreios complementares
A força do Web Archive é a escala, diz Graham. “Muitas vezes, podemos (preservar) as coisas rapidamente, em escala. Mas não temos uma experiência profunda em análise. ” Enquanto isso, grupos como o Iniciativa de Dados Ambientais e Governança e o Jornalistas da Associação de Cuidados de Saúde Forneça ajuda para ativistas e acadêmicos identificando e documentando mudanças.
O laboratório de inovação da biblioteca em Harvard Faculdade de direito também se juntou aos esforços com seu arquivo de dados.govuma coleção de 16 TB que inclui mais de 311.000 conjuntos de dados públicos e está sendo atualizado diariamente com novos dados. O projeto começou no last de 2024, quando a biblioteca percebeu que Conjuntos de dados muitas vezes são perdidos em outros rastreios da net, diz Jack Cushmanum engenheiro de software program e diretor do Laboratório de Inovação da Biblioteca.
“Você pode perder qualquer coisa em que tenha que interagir com JavaScript ou com um botão ou com um formulário. ” – Jack Cushman, Laboratório de Inovação da Biblioteca
Um rastreamento típico não tem problemas para capturar básico HtmlArquivos pdf ou csv. Mas arquivar serviços interativos da Internet que são conduzidos pelos bancos de dados representa um desafio. Seria impossível arquivar um web site como Amazonpor exemplo, diz Graham.
Os conjuntos de dados que o Laboratório de Inovação da Biblioteca (LIL) está trabalhando para arquivar são igualmente difíceis de capturar. “Se você está fazendo um rastreamento na net e apenas clicando no hyperlink para o hyperlink, como o Finish of Time period Archive, pode perder qualquer coisa em que exact interagir com JavaScript ou com um botão ou com um formulário, onde você deve perguntar Para permissão e registrar ou baixar algo ”, explica Cushman.
“Queríamos fazer algo que fosse complementar aos rastreamentos da net existentes, e a maneira como fizemos isso foi entrar em APIs”, diz ele. Ao entrar nas APIs, que ignoram diretamente as páginas da Internet para acessar dados, o programa do LIL poderia buscar um catálogo completo dos conjuntos de dados – seja CSV, Excel, XML ou outros tipos de arquivos – e puxe os URLs associados para criar um arquivo. No caso do Information.gov, Cushman e seus colegas escreveram um script para enviar as 300 consultas certas que buscariam 1.000 itens por consulta e depois passariam pelo whole de 300.000 itens para coletar os dados. “O que estamos procurando são áreas onde alguns automação Desbloqueará muitos dados novos que, de outra forma, não seriam desbloqueados ”, diz Cushman.
O outro fator importante para o arquivo LIL period garantir que os dados estivessem em um formato utilizável. “Você pode obter algo em um rastreamento na net onde (os dados) estão lá em 100.000 páginas da net, mas é muito difícil colocá -lo de volta em uma planilha ou algo que você pode analisar”, diz Cushman. Tornando -o utilizável, tanto no formato de dados quanto interface do usuárioajuda a criar um arquivo sustentável.
Muitas cópias mantêm as coisas seguras
A chave para preservar os dados da Web é um princípio que passa pelo acrônimo Lockss: muitas cópias mantêm as coisas seguras.
Quando o Web Archive sofreu um ataque cibernético em outubro passado, o arquivo derrubou o web site por um período de três semanas e meia para auditar todo o web site e implementar atualizações de segurança. “As bibliotecas têm tradicionalmente sempre esteve sob ataqueentão isso não é diferente ”, diz Graham. Como parte de sua defesa, o arquivo agora tem várias cópias dos materiais em locais físicos díspares, dentro e fora dos EUA
“O governo dos EUA é o maior editor do mundo”, observa Graham. Ele publica materials sobre uma ampla gama de tópicos, e “grande parte é benéfica para as pessoas, não apenas neste país, mas em todo o mundo, seja sobre energia ou saúde ou agricultura ou segurança. ” E o fato de muitos indivíduos e organizações estarem contribuindo para a preservação do mundo digital é realmente uma coisa boa.
“O objetivo é que essas cópias sejam diversas em todas as métricas que você possa pensar. Eles devem estar em diferentes tipos de mídia. Eles devem ser controlados por pessoas diferentes, com diferentes fontes de financiamento, em diferentes formatos ”, diz Cushman. “Toda forma de semelhança entre seus backups cria um risco de perda.” O arquivo Information.gov possui sua cópia principal armazenada através de um serviço em nuvem com outras pessoas como backup. O arquivo também inclui código aberto software program para facilitar a replicação.
Além de manter cópias, Cushman diz que é importante incluir assinaturas criptográficas e registros de information e hora. Cada vez que um arquivo é criado, é assinado com a prova criptográfica do endereço e tempo de e mail do criador, o que pode ajudar a verificar a validade de um arquivo.
Um desafio contínuo
Desde Presidente Trump assumiu o cargo, muito materials foi removido dos websites federais dos EUA–Quantifiavelmente mais do que novas administrações anteriores, diz Graham. Em escala world, no entanto, isso não é sem precedentes, acrescenta ele.
Nos EUA, os websites oficiais do governo foram alterados a cada nova administração desde o Invoice Clinton’s, Notas Jason Scottum “arquivista ao ar livre” no Web Archive e co-fundador do web site de preservação digital Equipe de arquivo. “Este é mais caótico”, diz Scott. Mas “an online é muito alta entropia entidade … Google é um arquivo como um supermercado é um museu de alimentos. ”
O trabalho dos arquivistas digitais é difícil, especialmente com um atraso de websites que existiram em toda a evolução dos padrões da Web. Mas esses esforços não são novos. “O aumento da campanha será apenas em termos de espaço em disco e recursos de largura de banda, não o processo que está em andamento”, diz Scott.
Para Cushman, trabalhar neste projeto enfatizou o valor dos dados públicos. “Os dados do governo que temos é como um GPS sinal ”, diz ele. “Isso não nos diz para onde ir, mas nos diz o que está ao nosso redor, para que possamos tomar decisões. Envolver -se com isso pela primeira vez dessa maneira realmente me ajudou a apreciar o tesouro que temos. ”
Dos artigos do seu web site
Artigos relacionados ao redor da net