Pesquisadores do MIT usam grandes modelos de linguagem para sinalizar problemas em sistemas complexos | MIT Information



Pesquisadores do MIT usam grandes modelos de linguagem para sinalizar problemas em sistemas complexos | MIT Information

Identificar uma turbina defeituosa em um parque eólico, o que pode envolver a análise de centenas de sinais e milhões de pontos de dados, é como encontrar uma agulha no palheiro.

Os engenheiros geralmente simplificam esse problema complexo usando modelos de aprendizado profundo que podem detectar anomalias em medições feitas repetidamente ao longo do tempo por cada turbina, conhecidas como dados de séries temporais.

Mas com centenas de turbinas eólicas registrando dezenas de sinais a cada hora, treinar um modelo de aprendizado profundo para analisar dados de séries temporais é custoso e trabalhoso. Isso é agravado pelo fato de que o modelo pode precisar ser retreinado após a implantação, e os operadores de parques eólicos podem não ter a experience necessária em aprendizado de máquina.

Em um novo estudo, pesquisadores do MIT descobriram que modelos de linguagem grande (LLMs) têm o potencial de serem detectores de anomalias mais eficientes para dados de séries temporais. É importante ressaltar que esses modelos pré-treinados podem ser implantados imediatamente.

Os pesquisadores desenvolveram uma estrutura, chamada SigLLM, que inclui um componente que converte dados de séries temporais em entradas baseadas em texto que um LLM pode processar. Um usuário pode alimentar esses dados preparados para o modelo e pedir que ele comece a identificar anomalias. O LLM também pode ser usado para prever pontos de dados de séries temporais futuras como parte de um pipeline de detecção de anomalias.

Embora os LLMs não pudessem superar os modelos de aprendizado profundo de última geração na detecção de anomalias, eles tiveram um desempenho tão bom quanto algumas outras abordagens de IA. Se os pesquisadores puderem melhorar o desempenho dos LLMs, essa estrutura poderá ajudar os técnicos a sinalizar problemas potenciais em equipamentos como máquinas pesadas ou satélites antes que eles ocorram, sem a necessidade de treinar um modelo caro de aprendizado profundo.

“Como esta é apenas a primeira iteração, não esperávamos chegar lá desde o início, mas esses resultados mostram que há uma oportunidade aqui para alavancar LLMs para tarefas complexas de detecção de anomalias”, diz Sarah Alnegheimish, uma estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autora principal de um artigo sobre SigLLM.

Seus coautores incluem Linh Nguyen, um estudante de pós-graduação do EECS; Laure Berti-Equille, diretora de pesquisa do Instituto Nacional Francês de Pesquisa para o Desenvolvimento Sustentável; e o autor sênior Kalyan Veeramachaneni, um cientista pesquisador principal no Laboratório de Sistemas de Informação e Decisão. A pesquisa será apresentada na Conferência do IEEE sobre Ciência de Dados e Análise Avançada.

Uma solução pronta para uso

Grandes modelos de linguagem são autorregressivos, o que significa que eles podem entender que os valores mais novos em dados sequenciais dependem de valores anteriores. Por exemplo, modelos como GPT-4 podem prever a próxima palavra em uma frase usando as palavras que a precedem.

Como os dados de séries temporais são sequenciais, os pesquisadores pensaram que a natureza autorregressiva dos LLMs poderia torná-los adequados para detectar anomalias nesse tipo de dados.

No entanto, eles queriam desenvolver uma técnica que evitasse o ajuste fino, um processo no qual os engenheiros retreinam um LLM de propósito geral em uma pequena quantidade de dados específicos da tarefa para torná-lo um especialista em uma tarefa. Em vez disso, os pesquisadores implantam um LLM pronto para uso, sem etapas adicionais de treinamento.

Mas antes que pudessem implantá-lo, eles tiveram que converter dados de séries temporais em entradas baseadas em texto que o modelo de linguagem pudesse manipular.

Eles conseguiram isso por meio de uma sequência de transformações que capturam as partes mais importantes da série temporal enquanto representam dados com o menor número de tokens. Tokens são as entradas básicas para um LLM, e mais tokens exigem mais computação.

“Se você não seguir essas etapas com muito cuidado, poderá acabar cortando alguma parte dos seus dados que realmente importa, perdendo essas informações”, diz Alnegheimish.

Depois de descobrirem como transformar dados de séries temporais, os pesquisadores desenvolveram duas abordagens de detecção de anomalias.

Abordagens para detecção de anomalias

No primeiro, que eles chamam de Prompter, eles alimentam o modelo com os dados preparados e o solicitam a localizar valores anômalos.

“Tivemos que iterar várias vezes para descobrir os prompts certos para uma série temporal específica. Não é fácil entender como esses LLMs ingerem e processam os dados”, acrescenta Alnegheimish.

Para a segunda abordagem, chamada Detector, eles usam o LLM como um previsor para prever o próximo valor de uma série temporal. Os pesquisadores comparam o valor previsto com o valor actual. Uma grande discrepância sugere que o valor actual é provavelmente uma anomalia.

Com o Detector, o LLM seria parte de um pipeline de detecção de anomalias, enquanto o Prompter completaria a tarefa sozinho. Na prática, o Detector teve um desempenho melhor que o Prompter, o que gerou muitos falsos positivos.

“Acho que, com a abordagem Prompter, estávamos pedindo para o LLM passar por muitos obstáculos. Estávamos dando a ele um problema mais difícil de resolver”, diz Veeramachaneni.

Quando compararam ambas as abordagens às técnicas atuais, o Detector superou os modelos de IA baseados em transformadores em sete dos 11 conjuntos de dados avaliados, embora o LLM não exigisse treinamento ou ajuste fino.

No futuro, um LLM também poderá fornecer explicações em linguagem simples com suas previsões, para que um operador possa entender melhor por que um LLM identificou um determinado ponto de dados como anômalo.

No entanto, os modelos de aprendizado profundo de última geração superaram os LLMs por uma ampla margem, mostrando que ainda há trabalho a ser feito antes que um LLM possa ser usado para detecção de anomalias.

“O que será necessário para chegar ao ponto em que ele esteja se saindo tão bem quanto esses modelos de última geração? Essa é a pergunta de um milhão de dólares que está diante de nós agora. Um detector de anomalias baseado em LLM precisa ser um divisor de águas para que possamos justificar esse tipo de esforço”, diz Veeramachaneni.

No futuro, os pesquisadores querem ver se o ajuste fino pode melhorar o desempenho, embora isso exija mais tempo, custo e experiência para treinamento.

Suas abordagens LLM também levam entre 30 minutos e duas horas para produzir resultados, então aumentar a velocidade é uma área-chave de trabalho futuro. Os pesquisadores também querem sondar LLMs para entender como eles realizam a detecção de anomalias, na esperança de encontrar uma maneira de aumentar seu desempenho.

“Quando se trata de tarefas complexas como detecção de anomalias em séries temporais, os LLMs realmente são um concorrente. Talvez outras tarefas complexas possam ser abordadas com LLMs também?”, diz Alnegheimish.

Esta pesquisa foi apoiada pela SES SA, Iberdrola e ScottishPower Renewables, e Hyundai Motor Firm.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *