No mundo atual, orientado por dados, garantir a segurança e a privacidade dos modelos de aprendizado de máquina é essencial, pois negligenciar esses aspectos pode resultar em multas pesadas, violações de dados, resgates para grupos de hackers e uma perda significativa de reputação entre clientes e parceiros. A DataRobot oferece soluções robustas para proteger contra os 10 principais riscos identificados pelo The Open Worldwide Utility Safety Challenge (OWASP), incluindo vulnerabilidades de segurança e privacidade. Esteja você trabalhando com modelos personalizados, usando o playground DataRobot ou ambos, este Guia de proteção em 7 etapas mostrará como configurar um sistema de moderação eficaz para sua organização.
Etapa 1: acesse a Biblioteca de Moderação
Comece abrindo a Guard Library do DataRobot, onde você pode selecionar várias proteções para proteger seus modelos. Essas proteções podem ajudar a evitar vários problemas, como:
- Vazamento de informações de identificação pessoal (PII)
- Injeção rápida
- Conteúdo prejudicial
- Alucinações (usando Rouge-1 e Fidelidade)
- Discussão sobre competição
- Tópicos não autorizados
Etapa 2: Make the most of Guardrails personalizados e avançados
O DataRobot não só vem equipado com proteções integradas, mas também fornece a flexibilidade para usar qualquer modelo personalizado como uma proteção, incluindo modelos de linguagem grande (LLM), binários, de regressão e modelos multiclasse. Isso permite que você adapte o sistema de moderação às suas necessidades específicas. Além disso, você pode empregar trilhos de autoverificação de entrada e saída ‘NVIDIA NeMo’ de última geração para garantir que os modelos permaneçam no tópico, evitem palavras bloqueadas e lidem com conversas de maneira predefinida. Quer você escolha as opções integradas robustas ou decida integrar suas próprias soluções personalizadas, o DataRobot oferece suporte aos seus esforços para manter altos padrões de segurança e eficiência.

Etapa 3: Configure seus guardas
Configurando o Analysis Deployment Guard
- Escolha a entidade à qual deseja aplicá-lo (immediate ou resposta).
- Implante modelos globais do Registro DataRobot ou use os seus próprios.
- Defina o limite de moderação para determinar o rigor da proteção.



Configurando NeMo Guardrails
- Forneça sua chave OpenAI.
- Use arquivos pré-carregados ou personalize-os adicionando termos bloqueados. Configure o immediate do sistema para determinar tópicos bloqueados ou permitidos, critérios de moderação e muito mais.

Etapa 4: Defina a lógica de moderação
Escolha um método de moderação:
- Relatório: Rastreie e notifique os administradores se os critérios de moderação não forem atendidos.
- Bloquear: Bloqueie o immediate ou a resposta se ele não atender aos critérios, exibindo uma mensagem personalizada em vez da resposta do LLM.

Por padrão, a moderação opera da seguinte maneira:
- Primeiro, os prompts são avaliados usando proteções configuradas em paralelo para reduzir a latência.
- Se um immediate não for aprovado na avaliação por qualquer guarda “bloqueador”, ele não será enviado ao LLM, reduzindo custos e aumentando a segurança.
- Os prompts que passaram nos critérios são pontuados usando LLM e, então, as respostas são avaliadas.
- Se a resposta falhar, os usuários verão uma mensagem predefinida criada pelo cliente em vez da resposta LLM bruta.

Etapa 5: testar e implantar
Antes de ir ao ar, teste completamente a lógica de moderação. Uma vez satisfeito, registre e implante seu modelo. Você pode então integrá-lo em vários aplicativos, como um aplicativo de perguntas e respostas, um aplicativo personalizado ou até mesmo um Slackbot, para ver a moderação em ação.

Etapa 6: Monitorar e auditar
Acompanhe o desempenho do sistema de moderação com métricas personalizadas geradas automaticamente. Essas métricas fornecem insights sobre:
- O número de prompts e respostas bloqueados por cada guarda.
- A latência de cada fase de moderação e proteção.
- As pontuações médias para cada guarda e fase, como fidelidade e toxicidade.

Além disso, todas as atividades moderadas são registradas, permitindo que você audite a atividade do aplicativo e a eficácia do sistema de moderação.
Etapa 7: Implementar um ciclo de suggestions humano
Além do monitoramento e registro automatizados, estabelecer um loop de suggestions humano é essential para refinar a eficácia do seu sistema de moderação. Esta etapa envolve a revisão common dos resultados do processo de moderação e das decisões tomadas pelos guardas automatizados. Ao incorporar o suggestions de usuários e administradores, você pode melhorar continuamente a precisão e a capacidade de resposta do modelo. Esta abordagem humana no loop garante que o sistema de moderação se adapte a novos desafios e evolua de acordo com as expectativas do usuário e os padrões de mudança, aumentando ainda mais a confiabilidade e a confiabilidade de seus aplicativos de IA.
from datarobot.fashions.deployment import CustomMetric
custom_metric = CustomMetric.get(
deployment_id="5c939e08962d741e34f609f0", custom_metric_id="65f17bdcd2d66683cdfc1113")
knowledge = ({'worth': 12, 'sample_size': 3, 'timestamp': '2024-03-15T18:00:00'},
{'worth': 11, 'sample_size': 5, 'timestamp': '2024-03-15T17:00:00'},
{'worth': 14, 'sample_size': 3, 'timestamp': '2024-03-15T16:00:00'})
custom_metric.submit_values(knowledge=knowledge)
# knowledge witch affiliation IDs
knowledge = ({'worth': 15, 'sample_size': 2, 'timestamp': '2024-03-15T21:00:00', 'association_id': '65f44d04dbe192b552e752aa'},
{'worth': 13, 'sample_size': 6, 'timestamp': '2024-03-15T20:00:00', 'association_id': '65f44d04dbe192b552e753bb'},
{'worth': 17, 'sample_size': 2, 'timestamp': '2024-03-15T19:00:00', 'association_id': '65f44d04dbe192b552e754cc'})
custom_metric.submit_values(knowledge=knowledge)
Considerações finais
Proteger seus modelos com as ferramentas de moderação abrangentes da DataRobot não apenas aumenta a segurança e a privacidade, mas também garante que suas implantações operem de forma suave e eficiente. Ao utilizar as proteções avançadas e as opções de personalização oferecidas, você pode adaptar seu sistema de moderação para atender a necessidades e desafios específicos.

Ferramentas de monitoramento e auditorias detalhadas capacitam você ainda mais a manter o controle sobre o desempenho do seu aplicativo e as interações do usuário. Por fim, ao integrar essas estratégias de moderação robustas, você não está apenas protegendo seus modelos — você também está mantendo a confiança e a integridade em suas soluções de machine studying, abrindo caminho para aplicativos de IA mais seguros e confiáveis.
Sobre o autor

Aslihan Buner é gerente sênior de advertising and marketing de produtos para AI Observability na DataRobot, onde cria e executa estratégias de entrada no mercado para produtos LLMOps e MLOps. Ela faz parcerias com equipes de desenvolvimento e gerenciamento de produtos para identificar as principais necessidades dos clientes, identificando e implementando estrategicamente mensagens e posicionamento. Sua paixão é atingir lacunas de mercado, abordar pontos problemáticos em todos os setores e vinculá-los às soluções.

Kateryna Bozhenko é gerente de produtos para produção de IA na DataRobot, com ampla experiência na construção de soluções de IA. Com diplomas em Negócios Internacionais e Administração de Saúde, ela é apaixonada por ajudar usuários a fazer modelos de IA funcionarem efetivamente para maximizar o ROI e experimentar a verdadeira magia da inovação.