A nova ferramenta avalia o progresso na aprendizagem de reforço | MIT Information



A nova ferramenta avalia o progresso na aprendizagem de reforço | MIT Information

Se há uma coisa que caracteriza dirigir em qualquer cidade importante, é a constante parada e vá à medida que os semáforos mudam e, à medida que carros e caminhões se fundem, se separam e se separam e estacionam. Essa parada e partida constante é extremamente ineficiente, aumentando a quantidade de poluição, incluindo gases de efeito estufa, que é emitida por milha de direção.

Uma abordagem para combater isso é conhecida como direção ecológica, que pode ser instalada como um sistema de controle em veículos autônomos para melhorar sua eficiência.

Quanta diferença isso poderia fazer? O impacto de tais sistemas na redução das emissões valeria o investimento na tecnologia? Abordar essas questões é uma de uma ampla categoria de problemas de otimização que foram difíceis de abordar e tem sido difícil testar as soluções que eles apresentam. Esses são problemas que envolvem muitos agentes diferentes, como os muitos tipos diferentes de veículos em uma cidade e fatores diferentes que influenciam suas emissões, incluindo velocidade, clima, condições da estrada e tempo de semáforos.

“Fomos interessados ​​há alguns anos na pergunta: há algo que os veículos automatizados podem fazer aqui em termos de mitigação de emissões?” diz Cathy Wu, Thomas D. e Virginia W. Cabot Profession Improvement Professor Associada do Departamento de Engenharia Civil e Ambiental e do Instituto de Dados, Sistemas e Sociedade (IDSS) do MIT e um investigador principal no laboratório de sistemas de informação e decisão. “É uma gota no balde ou é algo para pensar?”, Ela se perguntou.

Para abordar essa questão envolvendo tantos componentes, o primeiro requisito é coletar todos os dados disponíveis sobre o sistema, de várias fontes. Uma é o structure da topologia da rede, diz Wu, neste caso um mapa de todos os cruzamentos em cada cidade. Depois, existem dados de pesquisas geológicas dos EUA mostrando as elevações, para determinar o grau das estradas. Também existem dados sobre temperatura e umidade, dados sobre a mistura de tipos de veículos e idades e na mistura de tipos de combustível.

A direção ecológica envolve fazer pequenos ajustes para minimizar o consumo desnecessário de combustível. Por exemplo, quando os carros se aproximam de um semáforo que ficou vermelho, “não faz sentido dirigir o mais rápido possível para a luz vermelha”, diz ela. Apenas na costa, “não estou queimando gás ou eletricidade nesse meio tempo”. Se um carro, como um veículo automatizado, diminuir a velocidade na aproximação de um cruzamento, os carros convencionais e não automatizados por trás dele também serão forçados a desacelerar, de modo que o impacto de uma condução tão eficiente pode se estender muito além do carro que o está fazendo.

Essa é a idéia básica por trás de dirigir ecológico, diz Wu. Mas, para descobrir o impacto de tais medidas, “esses são problemas desafiadores de otimização”, envolvendo muitos fatores e parâmetros diferentes, “então há uma onda de interesse agora em como resolver problemas de controle duro usando a IA”.

O novo sistema de benchmark que Wu e seus colaboradores desenvolveram com base na direção ecológica urbana, que eles chamam de “intersectionzoo”, destina-se a ajudar a atender a parte dessa necessidade. A referência foi descrita em detalhes em um papel Apresentado na Conferência Internacional de 2025 sobre representação de aprendizado em Cingapura.

Olhando para abordagens que foram usadas para abordar problemas complexos, Wu diz que uma categoria importante de métodos é a aprendizagem de reforço profundo (DRL) de vários agentes, mas a falta de benchmarks padrão adequados para avaliar os resultados de tais métodos dificultou o progresso no campo.

A nova referência visa abordar uma questão importante que Wu e sua equipe identificaram há dois anos, que é a maioria dos algoritmos de aprendizado de reforço profundo, quando treinados para uma situação específica (por exemplo, uma interseção específica), o resultado não é relevante quando as pequenas modificações são feitas, como se acrescentam uma cenário ou a mudança de tempo de um tráfego de um tráfego de um tráfego, quando é possível que a pista de trânsito seja que se altera o tempo de tráfego de um tempo de tráfego, quando é possível que seja relevante.

De fato, Wu ressalta, esse problema de não generalizabilidade “não é exclusivo do tráfego”, diz ela. “Ele volta até as tarefas canônicas que a comunidade usa para avaliar o progresso no design do algoritmo”. Mas como a maioria dessas tarefas canônicas não envolve fazer modificações, “é difícil saber se seu algoritmo está progredindo nesse tipo de problema de robustez, se não avaliarmos isso”.

Embora existam muitos parâmetros de referência que atualmente são usados ​​para avaliar o progresso algorítmico no DRL, ela diz: “Esse problema ecológico apresenta um rico conjunto de características que são importantes na solução de problemas do mundo actual, especialmente do ponto de vista da generalização, e que nenhum outro referência satisfaz”. É por isso que os 1 milhão de cenários de tráfego orientados a dados na Intersecçãozoo a posicionam exclusivamente para promover o progresso na generalização da DRL. Como resultado, “esse referência aumenta a riqueza de maneiras de avaliar algoritmos profundos de RL e progresso”.

E, quanto à pergunta inicial sobre o tráfego da cidade, um foco do trabalho em andamento será aplicar essa ferramenta de benchmarking recém-desenvolvida para abordar o caso explicit de quanto impacto nas emissões viria da implementação do eco-dirigido em veículos automatizados em uma cidade, dependendo de qual porcentagem desses veículos é realmente implantada.

Mas a WU acrescenta que “em vez de fazer algo que possa implantar a direção ecológica em uma escala da cidade, o principal objetivo deste estudo é apoiar o desenvolvimento de algoritmos de aprendizado de reforço profundo, que podem ser aplicados a esse aplicativo, mas também a todos esses outros aplicativos-de controle autônomo, problemas de segurança, problemas de segurança, problemas de robóticos, louvor, que estão de acordo.”.

Wu acrescenta que “o objetivo do projeto é fornecer isso como uma ferramenta para os pesquisadores, que está disponível abertamente”. IntersectionZoo e a documentação sobre como usá -lo, estão disponíveis gratuitamente em Github.

A WU é acompanhada pelo artigo pelos autores principais Vindula Jayawardana, um estudante de pós -graduação no Departamento de Engenharia Elétrica e Ciência da Computação (EECs) do MIT; Baptiste Freydt, um estudante de graduação da ETH Zurich; e co-autores Ao Qu, um estudante de pós-graduação em transporte; Cameron Hickert, um estudante de pós -graduação da IDSS; e Zhongxia Yan PhD ’24.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *