Novo método protege eficientemente dados de treinamento de IA sensíveis | MIT Information



Novo método protege eficientemente dados de treinamento de IA sensíveis | MIT Information

A privacidade dos dados tem um custo. Existem técnicas de segurança que protegem dados sensíveis do usuário, como endereços de clientes, de invasores que podem tentar extraí -los dos modelos de IA – mas geralmente tornam esses modelos menos precisos.

Os pesquisadores do MIT desenvolveram recentemente uma estrutura, baseada em um Nova métrica de privacidade Chamado PAC Privateness, que poderia manter o desempenho de um modelo de IA, garantindo dados confidenciais, como imagens médicas ou registros financeiros, permanecem a salvo dos invasores. Agora, eles deram um passo adiante, tornando sua técnica mais eficiente computacionalmente, melhorando a troca entre precisão e privacidade e criando um modelo formal que pode ser usado para privatizar praticamente qualquer algoritmo sem precisar de acesso ao funcionamento interno desse algoritmo.

A equipe utilizou sua nova versão do PAC Privateness para privatizar vários algoritmos clássicos para análise de dados e tarefas de aprendizado de máquina.

Eles também demonstraram que mais algoritmos “estáveis” são mais fáceis de privatizar com seu método. As previsões de um algoritmo estável permanecem consistentes, mesmo quando seus dados de treinamento são ligeiramente modificados. Maior estabilidade ajuda um algoritmo a fazer previsões mais precisas sobre dados anteriormente invisíveis.

Os pesquisadores dizem que o aumento da eficiência da nova estrutura de privacidade do PAC e o modelo de quatro etapas que se pode seguir para implementá-lo facilitaria a técnica em situações do mundo actual.

“Tendemos a considerar robustez e privacidade como não relacionados, ou talvez até em conflito com, construindo um algoritmo de alto desempenho. Primeiro, fazemos um algoritmo de trabalho, então o tornamos robusto e, em seguida. estudante de pós -graduação e principal autor de um artigo sobre esta estrutura de privacidade.

Ela se junta ao artigo de Hanshen Xiao PhD ’24, que começará como professor assistente na Universidade de Purdue no outono; e o autor sênior Srini Devadas, o professor de engenharia elétrica de Edwin Sibley Webster no MIT. A pesquisa será apresentada no Simpósio IEEE sobre Segurança e Privacidade.

Estimando ruído

Para proteger dados confidenciais usados ​​para treinar um modelo de IA, os engenheiros geralmente adicionam ruído ou aleatoriedade genérica ao modelo, para que se torne mais difícil para um adversário adivinhar os dados originais de treinamento. Esse ruído reduz a precisão de um modelo; portanto, quanto menos ruído se pode adicionar, melhor.

A PAC Privateness estima automaticamente a menor quantidade de ruído que é preciso adicionar a um algoritmo para atingir o nível de privacidade desejado.

O algoritmo de privacidade PAC authentic executa o modelo de AI de um usuário muitas vezes em diferentes amostras de um conjunto de dados. Ele mede a variação, bem como as correlações entre essas muitas saídas e usa essas informações para estimar quanto ruído precisa ser adicionado para proteger os dados.

Essa nova variante da privacidade do PAC funciona da mesma maneira, mas não precisa representar toda a matriz de correlações de dados nas saídas; Só precisa das variações de saída.

“Como o que você está estimando é muito, muito menor que toda a matriz de covariância, você pode fazê -lo muito, muito mais rápido”, explica Sridhar. Isso significa que se pode escalar conjuntos de dados muito maiores.

Adicionar ruído pode prejudicar a utilidade dos resultados e é importante minimizar a perda de utilidade. Devido ao custo computacional, o algoritmo authentic de privacidade do PAC foi limitado à adição de ruído isotrópico, que é adicionado uniformemente em todas as direções. Como a nova variante estima o ruído anisotrópico, que é adaptado às características específicas dos dados de treinamento, um usuário pode adicionar menos ruído geral para alcançar o mesmo nível de privacidade, aumentando a precisão do algoritmo privatizado.

Privacidade e estabilidade

Ao estudar a privacidade do PAC, Sridhar levantou a hipótese de que algoritmos mais estáveis ​​seriam mais fáceis de privatizar com essa técnica. Ela usou a variante mais eficiente da privacidade do PAC para testar essa teoria em vários algoritmos clássicos.

Os algoritmos mais estáveis ​​têm menos variação em seus resultados quando seus dados de treinamento mudam ligeiramente. O PAC Privateness divide um conjunto de dados em pedaços, executa o algoritmo em cada pedaço de dados e mede a variação entre as saídas. Quanto maior a variação, mais ruído deve ser adicionado para privatizar o algoritmo.

Empregar técnicas de estabilidade para diminuir a variação nas saídas de um algoritmo também reduziria a quantidade de ruído que precisa ser adicionado para privatizá -lo, explica ela.

“Nos melhores casos, podemos obter esses cenários em que todos ganham”, diz ela.

A equipe mostrou que essas garantias de privacidade permaneceram fortes, apesar do algoritmo que testaram e que a nova variante da privacidade do PAC exigia uma ordem de magnitude menos ensaios para estimar o ruído. Eles também testaram o método em simulações de ataque, demonstrando que suas garantias de privacidade poderiam suportar ataques de ponta.

“Queremos explorar como os algoritmos podem ser co-projetados com a privacidade do PAC, para que o algoritmo seja mais estável, seguro e robusto desde o início”, diz Devadas. Os pesquisadores também desejam testar seu método com algoritmos mais complexos e explorar ainda mais a troca de privacidade-utilidade.

“A questão agora é: quando acontecem essas situações em que todos ganham e como podemos fazer com que aconteçam com mais frequência?” Sridhar diz.

“I believe the important thing benefit PAC Privateness has on this setting over different privateness definitions is that it’s a black field — you needn’t manually analyze every particular person question to denationalise the outcomes. It may be achieved fully robotically. We’re actively constructing a PAC-enabled database by extending current SQL engines to help sensible, automated, and environment friendly non-public knowledge analytics,” says Xiangyao Yu, an assistant professor within the pc sciences division on the College de Wisconsin em Madison, que não estava envolvido com este estudo.

Esta pesquisa é apoiada, em parte, pela Cisco Programs, Capital One, pelo Departamento de Defesa dos EUA e uma Mathworks Fellowship.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *