A estrutura do Ghostbuster, nosso novo método de última geração para detectar texto gerado por IA.
Grandes modelos de linguagem como o ChatGPT escrevem impressionantemente bem — tão bem, na verdade, que se tornaram um problema. Os alunos começaram a usar esses modelos para escrever tarefas fantasmas, levando algumas escolas a banir ChatGPT. Além disso, esses modelos também são propensos a produzir textos com erros factuais, então leitores cautelosos podem querer saber se ferramentas de IA generativa foram usadas para escrever artigos de notícias ou outras fontes antes de confiar nelas.
O que professores e consumidores podem fazer? Ferramentas existentes para detectar texto gerado por IA às vezes funcionam mal em dados que diferem daqueles com os quais foram treinados. Além disso, se esses modelos classificarem falsamente a escrita humana actual como gerada por IA, eles podem colocar em risco alunos cujo trabalho genuíno é questionado.
Nosso artigo recente apresenta o Ghostbuster, um método de última geração para detectar texto gerado por IA. O Ghostbuster funciona encontrando a probabilidade de gerar cada token em um documento sob vários modelos de linguagem mais fracos e, em seguida, combinando funções com base nessas probabilidades como entrada para um classificador last. O Ghostbuster não precisa saber qual modelo foi usado para gerar um documento, nem a probabilidade de gerar o documento sob esse modelo específico. Essa propriedade torna o Ghostbuster particularmente útil para detectar texto potencialmente gerado por um modelo desconhecido ou um modelo de caixa preta, como os populares modelos comerciais ChatGPT e Claude, para os quais as probabilidades não estão disponíveis. Estamos particularmente interessados em garantir que o Ghostbuster generalize bem, então avaliamos uma variedade de maneiras pelas quais o texto pode ser gerado, incluindo diferentes domínios (usando conjuntos de dados recém-coletados de ensaios, notícias e histórias), modelos de linguagem ou prompts.
Exemplos de textos criados por humanos e gerados por IA em nossos conjuntos de dados.
Por que essa abordagem?
Muitos sistemas atuais de detecção de texto gerados por IA são frágeis para classificar diferentes tipos de texto (por exemplo, diferentes escritas estilosou geração de texto diferente modelos ou avisos). Modelos mais simples que usam perplexidade sozinhos normalmente não conseguem capturar recursos mais complexos e se saem especialmente mal em novos domínios de escrita. Na verdade, descobrimos que uma linha de base somente de perplexidade period pior do que aleatória em alguns domínios, incluindo dados de falantes não nativos de inglês. Enquanto isso, classificadores baseados em grandes modelos de linguagem como RoBERTa capturam facilmente recursos complexos, mas superajustam-se aos dados de treinamento e generalizam mal: descobrimos que uma linha de base RoBERTa tinha desempenho de generalização de pior caso catastrófico, às vezes até pior do que uma linha de base somente de perplexidade. Métodos de tiro zero que classificam texto sem treinamento em dados rotulados, calculando a probabilidade de que o texto tenha sido gerado por um modelo específico, também tendem a ter um desempenho ruim quando um modelo diferente foi realmente usado para gerar o texto.
Como funciona o Ghostbuster
O Ghostbuster usa um processo de treinamento de três estágios: cálculo de probabilidades, seleção de recursos e treinamento de classificadores.
Calculando probabilidades:Convertemos cada documento em uma série de vetores calculando a probabilidade de gerar cada palavra no documento sob uma série de modelos de linguagem mais fracos (um modelo unigrama, um modelo trigrama e dois modelos GPT-3 não ajustados por instrução, ada e davinci).
Selecionando recursos:Usamos um procedimento de busca estruturado para selecionar recursos, que funciona (1) definindo um conjunto de operações vetoriais e escalares que combinam as probabilidades e (2) buscando combinações úteis dessas operações usando seleção de recursos avançada, adicionando repetidamente o melhor recurso restante.
Treinamento de classificador:Treinamos um classificador linear com base nos melhores recursos baseados em probabilidade e alguns recursos adicionais selecionados manualmente.
Resultados
Quando treinado e testado no mesmo domínio, o Ghostbuster atingiu 99,0 F1 em todos os três conjuntos de dados, superando o GPTZero por uma margem de 5,9 F1 e o DetectGPT por 41,6 F1. Fora do domínio, o Ghostbuster atingiu 97,0 F1 em média em todas as condições, superando o DetectGPT por 39,6 F1 e o GPTZero por 7,5 F1. Nossa linha de base RoBERTa atingiu 98,1 F1 quando avaliada no domínio em todos os conjuntos de dados, mas seu desempenho de generalização foi inconsistente. O Ghostbuster superou a linha de base RoBERTa em todos os domínios, exceto escrita criativa fora do domínio, e teve um desempenho muito melhor fora do domínio do que o RoBERTa em média (margem de 13,8 F1).
Resultados sobre o desempenho dentro e fora do domínio do Ghostbuster.
Para garantir que o Ghostbuster seja robusto à gama de maneiras pelas quais um usuário pode solicitar um modelo, como solicitar diferentes estilos de escrita ou níveis de leitura, avaliamos a robustez do Ghostbuster a diversas variantes de immediate. O Ghostbuster superou todas as outras abordagens testadas nessas variantes de immediate com 99,5 F1. Para testar a generalização entre modelos, avaliamos o desempenho em texto gerado por Cláudioonde Ghostbuster também superou todas as outras abordagens testadas com 92,2 F1.
Detectores de texto gerados por IA foram enganados por edições leves do texto gerado. Examinamos a robustez do Ghostbuster para edições, como troca de frases ou parágrafos, reordenação de caracteres ou substituição de palavras por sinônimos. A maioria das alterações no nível de frase ou parágrafo não afetou significativamente o desempenho, embora o desempenho tenha diminuído suavemente se o texto foi editado por meio de paráfrases repetidas, usando evasores de detecção comerciais como Undetectable AI ou fazendo inúmeras alterações no nível de palavra ou caractere. O desempenho também foi melhor em documentos mais longos.
Como os detectores de texto gerados por IA pode classificar incorretamente texto de falantes não nativos de inglês como gerado por IA, avaliamos o desempenho do Ghostbuster na escrita de falantes não nativos de inglês. Todos os modelos testados tiveram mais de 95% de precisão em dois dos três conjuntos de dados testados, mas se saíram pior no terceiro conjunto de ensaios mais curtos. No entanto, o tamanho do documento pode ser o principal fator aqui, já que o Ghostbuster se sai quase tão bem nesses documentos (74,7 F1) quanto em outros documentos fora do domínio de tamanho semelhante (75,6 a 93,1 F1).
Usuários que desejam aplicar o Ghostbuster a casos reais de uso potencialmente fora dos limites de geração de texto (por exemplo, redações de alunos escritas pelo ChatGPT) devem observar que os erros são mais prováveis para textos mais curtos, domínios distantes daqueles treinados pelo Ghostbuster (por exemplo, diferentes variedades de inglês), texto por falantes não nativos de inglês, gerações de modelos editados por humanos ou texto gerado ao solicitar que um modelo de IA modifique uma entrada de autoria humana. Para evitar a perpetuação de danos algorítmicos, desencorajamos fortemente a penalização automática do suposto uso de geração de texto sem supervisão humana. Em vez disso, recomendamos o uso cauteloso e humano do Ghostbuster se classificar a escrita de alguém como gerada por IA puder prejudicá-lo. O Ghostbuster também pode ajudar com uma variedade de aplicações de menor risco, incluindo a filtragem de texto gerado por IA de dados de treinamento de modelo de linguagem e a verificação se fontes de informação on-line são geradas por IA.
Conclusão
Ghostbuster é um modelo de detecção de texto gerado por IA de última geração, com desempenho de 99,0 F1 em domínios testados, representando um progresso substancial em relação aos modelos existentes. Ele generaliza bem para diferentes domínios, prompts e modelos, e é bem adequado para identificar texto de modelos de caixa preta ou desconhecidos porque não requer acesso a probabilidades do modelo específico usado para gerar o documento.
As direções futuras para Ghostbuster incluem fornecer explicações para decisões de modelos e melhorar a robustez para ataques que tentam especificamente enganar detectores. Abordagens de detecção de texto geradas por IA também podem ser usadas junto com alternativas como marca d’água. Também esperamos que o Ghostbuster possa ajudar em uma variedade de aplicações, como filtrar dados de treinamento de modelos de linguagem ou sinalizar conteúdo gerado por IA na net.
Experimente o Ghostbuster aqui: caça-fantasmas.app
Saiba mais sobre Ghostbuster aqui: ( papel ) (código)
Tente adivinhar se o texto foi gerado por IA aqui: ghostbuster.app/experiment