

Andrew G. Barto e Richard S. Sutton foram nomeados como os destinatários do 2024 ACM AM TURING AND por suas contribuições para o campo de aprendizado de reforço a partir da década de 1980.
A aprendizagem de reforço é um método de treinamento para sistemas de IA que os ensina a tomar as decisões mais ideais por meio de uma série de sinais conhecidos como recompensas. O ChatGPT, por exemplo, foi treinado usando um método chamado Aprendizagem de Reforço do Suggestions Humano (RLHF).
Eles escreveram o livro “Aprendizagem de reforço: uma introdução” em 1998, e ainda é uma referência padrão no campo, tendo sido citado mais de 75.000 vezes.
Barto e Sutton foram responsáveis pelo desenvolvimento de muitas das abordagens algorítmicas básicas usadas no aprendizado de reforço, incluindo aprendizado de diferenças temporais, métodos de gradiente de políticas e uso de redes neurais para representar funções aprendidas.
Seu trabalho também levou a descobertas no campo da neurociência, especificamente que certos algoritmos de aprendizado de reforço podem explicar o sistema de dopamina no cérebro.
“O trabalho de Barto e Sutton demonstra o imenso potencial de aplicar uma abordagem multidisciplinar aos desafios de longa information em nosso campo”, disse Yannis Ioannidis, presidente da ACM. “As áreas de pesquisa que variam de ciência cognitiva e psicologia à neurociência inspiraram o desenvolvimento da aprendizagem de reforço, que lançou os fundamentos para alguns dos avanços mais importantes da IA e nos deu uma melhor visão de como o cérebro funciona. O trabalho de Barto e Sutton não é um trampolim que agora seguimos. A aprendizagem de reforço continua a crescer e oferece grande potencial para novos avanços na computação e muitas outras disciplinas. É apropriado que estejamos honrando -os com o prêmio de maior prestígio em nosso campo. ”
Barto é professor emérito de informação e ciências da computação na Universidade de Massachusetts Amherst, e Sutton é professor de ciência da computação na Universidade de Alberta, cientista de pesquisa da Eager Applied sciences e membro do Alberta Machine Intelligence Institute.