Banco ExCyTIn é o mais novo da Microsoft código aberto ferramenta de benchmarking projetada para avaliar quão bem os sistemas de IA executam investigações de segurança cibernética no mundo actual.1 Ele ajuda os líderes empresariais a avaliar modelos de linguagem, simulando cenários realistas de ameaças cibernéticas e fornecendo insights claros e práticos sobre como essas ferramentas resolvem problemas complexos. Em contraste com os benchmarks anteriores que se concentravam em curiosidades sobre inteligência de ameaças ou conhecimento estático, este benchmark avalia agentes de IA em cenários de ataques cibernéticos de várias etapas, ricos em dados e em vários estágios, dentro de um centro de operações de segurança (SOC) simulado no Microsoft Azure. Ele incorpora 57 tabelas de log de Microsoft Sentinela e serviços relacionados para refletir a escala, o ruído e a complexidade de incidentes reais e operações SOC.2
Por que o ExCyTIn-Bench é importante para os negócios
Para diretores de segurança da informação (CISOs), líderes de TI e compradores, o ExCyTIn-Bench oferece uma maneira clara e objetiva de avaliar os recursos de IA para segurança. Não se trata apenas de precisão em relatórios de ameaças cibernéticas, curiosidades ou simulações de brinquedos, mas de quão bem a IA pode investigar, adaptar e explicar suas descobertas diante de ameaças cibernéticas do mundo actual. À medida que os ataques cibernéticos crescem em sofisticação, ferramentas como o ExCyTIn-Bench ajudam as organizações a selecionar soluções que realmente melhoram a detecção, a resposta e a resiliência.
A Microsoft usa essa estrutura internamente para fortalecer seus recursos de segurança baseados em IA e testar sua capacidade de resistir a ataques cibernéticos no mundo actual. Nossos modelos internos com foco na segurança contam com o suggestions do ExCyTIn para descobrir pontos fracos na lógica de detecção, recursos de ferramentas e navegação de dados. Para uma integração mais ampla, também estamos colaborando com produtos de segurança como Copiloto de segurança da MicrosoftMicrosoft Sentinel e Microsoft Defender para avaliar e fornecer suggestions sobre seus recursos de IA. Além disso, os proprietários de produtos de segurança da Microsoft podem monitorar o desempenho de diferentes modelos e quanto custam, permitindo-lhes escolher modelos apropriados para recursos específicos.
Como o ExCyTIn-Bench melhora os benchmarks tradicionais
Ao contrário dos benchmarks tradicionais3,4 que dependem de questões de múltipla escolha – que muitas vezes são suscetíveis a suposições – o ExCyTIn-Bench adota uma metodologia inovadora e baseada em princípios para gerar perguntas e respostas de gráficos de investigação de ameaças. Os analistas humanos conceituam as investigações de ameaças usando gráficos de incidentes, especificamente gráficos bipartidos de entidades de alerta.5 Eles servem como informações básicas, apoiando a criação de pares explicáveis de perguntas e respostas com base em dados de segurança autênticos. Isto permite uma análise rigorosa de qualidade da estratégia, não apenas respostas finais. Mesmo publicações recentes do setor, como CyberSOCEval,3 concentre-se em empacotar cenários SOC realistas e avaliar como os modelos investigam evidências estáticas neles. ExCyTIn adota uma abordagem diferente tanto no design quanto na implementação técnica, posicionando o agente dentro de um ambiente controlado do Azure SOC: onde o agente consulta tabelas de log ao vivo, transições entre fontes de dados e planeja investigações em várias etapas.
Como resultado, ExCyTIn avalia raciocínio abrangente processos, incluindo decomposição de metas, uso de ferramentas e síntese de evidências, sob restrições que simulam o fluxo de trabalho de um analista. Ao definir verdades rigorosas e estruturas extensíveis, o ExCyTIn-Bench permite experimentação realista, multivoltas e baseada em agente, colaboração e autoaperfeiçoamento contínuotudo reforçado por mecanismos de recompensa verificáveis e refinados para defesa cibernética alimentada por IA.6
Inovações ExCyTIn-Bench que agregam valor estratégico
- Avaliação de segurança realista. Ao contrário da maioria dos benchmarks de código aberto,3,4 O ExCyTIn-Bench captura a complexidade e a ambiguidade das investigações cibernéticas reais. Os agentes de IA são desafiados a analisar dados de segurança barulhentos e multitabelas, construir consultas avançadas e descobrir indicadores de comprometimento (IoCs), espelhando o trabalho de analistas humanos de SOC.
- Métricas transparentes e acionáveis. O benchmark fornece sinais de recompensa detalhados e passo a passo para cada ação investigativa sobre métricas binárias básicas de sucesso e fracasso encontradas nos benchmarks atuais. Esta transparência ajuda as organizações a compreender não apenas o que um modelo pode fazer, mas também como chega às suas conclusões – basic para a capacidade de ação, a confiança e a conformidade.
- Acelerando a inovação. ExCyTIn-Bench é de código aberto e projetado para colaboração. Pesquisadores e fornecedores em todo o mundo podem usá-lo para testar, comparar e melhorar novos modelos, impulsionando um rápido progresso na defesa cibernética automatizada.
- Benchmarks personalizados (em breve). Crie benchmarks de investigação de ameaças cibernéticas personalizados e específicos para as ameaças que ocorrem em cada locatário do cliente.
Resultados mais recentes – os modelos de linguagem estão ficando mais inteligentes
Avaliações recentes mostram que os modelos mais recentes estão a fazer progressos significativos:

- GPT-5 (Excessive Reasoning) lidera com recompensa média de 56,2%superando os modelos anteriores e demonstrando o valor do raciocínio avançado para tarefas de segurança.
- Modelos menores com raciocínio eficaz de cadeia de pensamento (CoT)—como o GPT-5-mini—agora rivalizam com modelos maiores, oferecendo forte desempenho a custo mais baixo.
- O raciocínio explícito é importante—Configurações de raciocínio mais baixas no GPT-5 reduzem o desempenho em quase 19%, destacando que o raciocínio profundo e passo a passo é essencial para investigações complexas.
- Modelos de código aberto estão fechando a lacuna com soluções proprietárias, tornando a automação de segurança de alta qualidade mais acessível.
- Novos modelos estão se aproximando das principais técnicas de CoT (ReAct, reflexão e BoN em 56,3%), mas não os supere, sugerindo raciocínio comparável durante a inferência.
Envolva-se
Banco ExCyTIn é de código aberto e de acesso gratuito. Os desenvolvedores de modelos e as equipes de segurança são convidados a contribuir, avaliar e compartilhar resultados por meio do website oficial Repositório GitHub. Para dúvidas ou oportunidades de parceria, entre em contato com a equipe em msecaimrbenchmarking@microsoft.com.
Obrigado à equipe de Benchmarking do MSECAI por ajudar isso a se tornar realidade.
Para saber mais sobre as soluções de segurança da Microsoft, visite nosso website. Marque o Weblog de segurança para acompanhar nossa cobertura especializada em questões de segurança. Além disso, siga-nos no LinkedIn (Segurança da Microsoft) e X (@MSFTSegurança) para obter as últimas notícias e atualizações sobre segurança cibernética.
1Comparando agentes LLM em investigação de ameaças cibernéticas
2https://huggingface.co/datasets/anandmudgerikar/excytin-bench
4(2406.07599) CTIBench: uma referência para avaliação de LLMs em inteligência de ameaças cibernéticas
5Os gráficos de investigação de incidentes ou ameaças retratam ataques em vários estágios, vinculando alertas, eventos e indicadores de comprometimento (IoCs) em uma visão unificada. Os nós denotam alertas (por exemplo, downloads de arquivos suspeitos) ou entidades (por exemplo, contas de usuários), enquanto as bordas capturam seus relacionamentos (por exemplo, um e-mail de phishing que aciona um obtain malicioso).
6(2507.14201) ExCyTIn-Bench: Avaliando agentes LLM na investigação de ameaças cibernéticas