Faz menos de três anos desde que o Openai lançou o ChatGPT, desencadeando o growth de Genai. Mas nesse curto período de tempo, o desenvolvimento de software program transformou: os assistentes completos de código evoluíram para a “codificação de vibração” baseada em bate-papo, e agora estamos entrando na period do agente, onde os desenvolvedores podem em breve estar gerenciando frotas de codificadores autônomos (Se as previsões de Steve Yegge estiverem corretas). O código de escrever nunca foi tão fácil, mas garantir que não tenha acompanhado o ritmo. Os maus atores não perderam tempo visando vulnerabilidades em código gerado pela IA. Para organizações nativas da IA, a segurança atrasada não é apenas um passivo-é um risco existencial. Então a pergunta não é apenas “podemos construir?” É “podemos construir com segurança?”
As conversas de segurança ainda tendem a centrar -se ao redor do modelo. De fato, um novo documento de trabalho do projeto de divulgações da IA constata que os laboratórios corporativos da IA concentram -se a maior parte de suas pesquisas em “pré-implantação, pré-mercado, preocupações como alinhamento, benchmarking e interpretabilidade. ”1 Enquanto isso, a superfície de ameaça actual emerge depois Implantação. É quando os aplicativos da Genai são vulneráveis a injeção solicitada, envenenamento por dados, manipulação da memória do agente e vazamento de contexto – a versão de injeção de SQL da Right now. Infelizmente, muitos aplicativos da Genai têm uma higienização mínima de entrada ou validação no nível do sistema. Isso tem que mudar. Como Steve Wilson, autor de O handbook do desenvolvedor para grande segurança de modelos de idiomasadverte: “Sem um mergulho profundo nas águas obscuras dos riscos de segurança da LLM e como navegá -los, não estamos apenas arriscando pequenas falhas; estamos cortejando grandes catástrofes”.
E se você é “totalmente dado (ing) para as vibrações”E o código gerado pela IA que você não revisou, você está agravando o problema. Quando os padrões inseguros são assados, eles são difíceis de detectar-e até mais difíceis de relaxar em escala. Você não tem idéia que vulnerabilidades pode estar surgindo.
A segurança pode ser “responsabilidade de todos”, mas nos sistemas de IA, nem as responsabilidades de todos são as mesmas. Os provedores de modelos devem garantir que seus sistemas resistam à manipulação rápida, higienize dados de treinamento e mitigam saídas nocivas. Mas a maioria dos riscos de IA surge quando esses modelos são implantados em sistemas vivos. As equipes de infraestrutura devem bloquear a autenticação de dados e o acesso interagente usando princípios de confiança zero. Os desenvolvedores de aplicativos mantêm a linha de frente, aplicando princípios tradicionais seguros por design em modelos de interação totalmente novos.
Trabalho recente da Microsoft na AI Pink Teaming Mostra como as estratégias do Guardrail devem ser adaptadas (em alguns casos radicalmente), dependendo do caso de uso: o que funciona para um assistente de codificação pode falhar em um agente de vendas autônomo, por exemplo. A pilha compartilhada não implica responsabilidade compartilhada; Requer funções claramente delineadas e propriedade proativa de segurança em todas as camadas.
No momento, não sabemos o que não sabemos sobre os modelos de IA – e como Bruce Schneier apontou recentemente (em resposta a novas pesquisas sobre desalinhamento emergente): “As propriedades emergentes do LLMS são tão, tão estranhos. ” Acontece que os modelos sintonizados em avisos inseguros desenvolvem outras saídas desalinhadas A codificação pode ajudá -lo a aumentar rapidamente um projeto, mas como Steve Yegge alerta, “Você não pode confiar em nada. Você tem que validar e verificar. ” (Addy Osmani coloca de maneira um pouco diferente: “A codificação da vibração não é uma desculpa para o trabalho de baixa qualidade. ”) Sem um foco intencional na segurança, seu destino pode ser“ protótipo hoje, discover amanhã ”.
O próximo passo evolutivo-coordenação agente para agente-amplia apenas a superfície da ameaça. Antrópico Modelo Protocolo de contexto e Google’s Agente2agent Permitir que os agentes atuem em várias ferramentas e fontes de dados, mas essa interoperabilidade pode aprofundar as vulnerabilidades se assumido seguro por padrão. A camada de A2A em pilhas existentes sem equipes vermelhas ou princípios de confiança zero é como conectar microsserviços sem gateways da API. Essas plataformas devem ser projetadas com a primeira rede de segurança, as permissões e a observabilidade da segurança. As boas notícias: as habilidades fundamentais ainda funcionam. Defesas em camadas, equipes vermelhas, permissões de menor privilégio e interfaces de modelo seguro ainda são suas melhores ferramentas. Os guardrails não são novos. Eles são apenas mais essenciais do que nunca.
O fundador de O’Reilly, Tim O’Reilly, gosta de citar o designer Edwin Schlossberg, que observou que “a habilidade de escrever é criar um contexto em que outras pessoas possam pensar”. Na period da IA, os responsáveis por manter os sistemas seguros devem ampliar o contexto em que nós todos Pense em segurança. A tarefa é mais importante – e mais complexa – do que sempre. Não espere até que você esteja se movendo rápido para pensar em guardrails. Construa -os primeiro e depois construa com segurança a partir daí.
Notas de rodapé
- Ilan Strauss, Isobel Moure, Tim O’Reilly e Sruly Rosenblat, “Lacunas do mundo actual na pesquisa de governança de IA”O projeto de divulgação da IA, 2024. O projeto de divulgações da IA é co-liderado pelo fundador da O’Reilly Media, Tim O’Reilly, e pelo economista Ilan Strauss.
Junte -se a Tim O’Reilly e Steve Wilson em 3 de junho para construir código seguro na period da codificação da vibração – é gratuito e aberto a todos. Após uma conversa introdutória com Tim sobre como a codificação da AI-assistida (e a codificação da vibe em specific) apresenta novas courses de vulnerabilidades de segurança, Steve responderá a perguntas dos participantes, dando a você an opportunity de entender melhor como suas idéias se aplicam à sua própria situação e experiências. Registre -se agora para salvar seu lugar.