Repensando o papel do PPO em RLHF – The Berkeley Synthetic Intelligence Analysis Weblog



Repensando o papel do PPO no RLHF

Resumo: Em RLHF, há tensão entre a fase de aprendizado de recompensa, que usa a preferência humana na forma de comparações, e a fase de ajuste fino de RL, que otimiza uma única recompensa não comparativa. E se realizássemos RL de forma comparativa?

Repensando o papel do PPO em RLHF – The Berkeley Synthetic Intelligence Analysis Weblog

Figura 1:
Este diagrama ilustra a diferença entre o aprendizado por reforço e o aprendizado por absoluto suggestions e relativo suggestions. Ao incorporar um novo componente – gradiente de política em pares, podemos unificar o estágio de modelagem de recompensa e o estágio RL, permitindo atualizações diretas com base em respostas em pares.

Os Grandes Modelos de Linguagem (LLMs) têm alimentado assistentes virtuais cada vez mais capazes, como GPT-4, Cláudio-2, Bardo e Bate-papo do Bing. Esses sistemas podem responder a consultas complexas de usuários, escrever código e até mesmo produzir poesia. A técnica subjacente a esses incríveis assistentes virtuais é o Reinforcement Studying with Human Suggestions (RLHF). O RLHF visa alinhar o modelo com valores humanos e eliminar comportamentos não intencionais, que muitas vezes podem surgir devido à exposição do modelo a uma grande quantidade de dados de baixa qualidade durante sua fase de pré-treinamento.

Otimização de Política Proximal (PPO), o otimizador RL dominante neste processo, foi relatado como exibindo instabilidade e complicações de implementação. Mais importante, há uma discrepância persistente no processo RLHF: apesar do modelo de recompensa ser treinado usando comparações entre várias respostas, o estágio de ajuste fino do RL funciona em respostas individuais sem fazer nenhuma comparação. Essa inconsistência pode exacerbar problemas, especialmente no desafiador domínio de geração de linguagem.

Dado esse cenário, surge uma questão intrigante: é possível projetar um algoritmo RL que aprenda de forma comparativa? Para explorar isso, apresentamos a Pairwise Proximal Coverage Optimization (P3O), um método que harmoniza os processos de treinamento tanto no estágio de aprendizagem de recompensa quanto no estágio de ajuste fino do RLHF, fornecendo uma solução satisfatória para esse problema.

Fundo



Figura 2:
Uma descrição dos três estágios do RLHF a partir de uma Postagem do weblog OpenAI. Observe que o terceiro estágio se enquadra no Aprendizado por Reforço com Suggestions Absoluto, conforme mostrado no lado esquerdo da Figura 1.

Em configurações tradicionais de RL, a recompensa é especificada manualmente pelo designer ou fornecida por uma função de recompensa bem definida, como nos jogos Atari. No entanto, para direcionar um modelo para respostas úteis e inofensivas, definir uma boa recompensa não é simples. RLHF aborda esse problema aprendendo a função de recompensa a partir do suggestions humano, especificamente na forma de comparações, e então aplicando RL para otimizar a função de recompensa aprendida.

O pipeline do RLHF é dividido em várias etapas, detalhadas a seguir:

Estágio de ajuste fino supervisionado: O modelo pré-treinado sofre a perda máxima de verossimilhança em um conjunto de dados de alta qualidade, onde aprende a responder a consultas humanas por meio de imitação.

Estágio de modelagem de recompensa: O modelo SFT é solicitado com prompts (x) para produzir pares de respostas (y_1,y_2sim pi^{textual content{SFT}}(yvert x)). Essas respostas geradas formam um conjunto de dados. Os pares de respostas são apresentados a rotuladores humanos que expressam uma preferência por uma resposta sobre a outra, denotada como (y_w succ y_l). Uma perda comparativa é então usada para treinar um modelo de recompensa (r_phi):

(mathcal{L}_R = mathbb{E}_{(x,y_l,y_w)simmathcal{D}}log sigmaesquerda(r_phi(y_w|x)-r_phi(y_l|x)direita))

Estágio de ajuste fino RL: O modelo SFT serve como inicialização deste estágio, e um algoritmo RL otimiza a política para maximizar a recompensa enquanto limita o desvio da política inicial. Formalmente, isso é feito por meio de:

(max_{pi_theta}mathbb{E}_{xsim mathcal{D}, ysim pi_theta(cdotvert x)}esquerda(r_phi(yvert x)-beta D_{texto{KL}}(pi_theta(cdotvert x)Vert pi^{texto{SFT}}(cdotvert x))direita))

Um desafio inerente a essa abordagem é a não unicidade da recompensa. Por exemplo, dada uma função de recompensa (r(yvert x)), uma simples mudança na recompensa do immediate para (r(yvert x)+delta(x)) cria outra função de recompensa válida. Essas duas funções de recompensa resultam na mesma perda para quaisquer pares de respostas, mas diferem significativamente quando otimizadas com RL. Em um caso extremo, se o ruído adicionado fizer com que a função de recompensa tenha um grande intervalo, um algoritmo RL pode ser induzido a aumentar a probabilidade de respostas com recompensas maiores, mesmo que essas recompensas possam não ser significativas. Em outras palavras, a política pode ser interrompida pelas informações da escala de recompensa no immediate (x), mas falha em aprender a parte útil – preferência relativa representada pela diferença de recompensa. Para abordar esse problema, nosso objetivo é desenvolver um algoritmo RL que seja invariante para recompensar tradução.

Derivação de P3O

Nossa ideia decorre do gradiente de política de baunilha (VPG). O VPG é um otimizador RL de primeira ordem amplamente adotado, favorecido por sua simplicidade e facilidade de implementação. Em um bandido contextual (CB) configuração, o VPG é formulado como:

(nabla mathcal{L}^{textual content{VPG}} = mathbb{E}_{ysimpi_{theta}} r(y|x)nablalogpi_{theta }(y|x))

Por meio de alguma manipulação algébrica, podemos reescrever o gradiente de política em uma forma comparativa que envolve duas respostas do mesmo immediate. Nós o chamamos de Gradiente de política em pares:

(mathbb{E}_{y_1,y_2simpi_{theta}}esquerda(r(y_1vert x)-r(y_2vert x)direita)nablaesquerda(logfrac{pi_theta(y_1vert x)}{pi_theta(y_2vert x)}direita)/2)

Ao contrário do VPG, que depende diretamente da magnitude absoluta da recompensa, o PPG usa a diferença de recompensa. Isso nos permite contornar o problema acima mencionado da tradução de recompensa. Para aumentar ainda mais o desempenho, incorporamos um buffer de repetição usando Amostragem de Importância e evitar grandes atualizações de gradiente by way of Recorte.

Amostragem de importância: Amostramos um lote de respostas do buffer de repetição que consiste em respostas geradas de (pi_{textual content{previous}}) e então calculamos a taxa de amostragem de importância para cada par de respostas. O gradiente é a soma ponderada dos gradientes computados de cada par de respostas.

Recorte: Cortamos a taxa de amostragem de importância, bem como a atualização do gradiente para penalizar atualizações excessivamente grandes. Essa técnica permite que o algoritmo compense a divergência de KL e recompense de forma mais eficiente.

Existem duas maneiras diferentes de implementar a técnica de clipping, distinguidas por clipping separado ou conjunto. O algoritmo resultante é chamado de Pairwise Proximal Coverage Optimization (P3O), com as variantes sendo V1 ou V2, respectivamente. Você pode encontrar mais detalhes em nosso unique papel.

Avaliação



Figura 3:
Fronteira KL-Recompensa para TL;DR, tanto KL quanto recompensa em sequência são calculados em média sobre 200 prompts de teste e computados a cada 500 passos de gradiente. Descobrimos que uma função linear simples se ajusta bem à curva. P3O tem o melhor trade-off KL-Recompensa entre os três.

Exploramos duas tarefas diferentes de geração de texto aberto, resumo e perguntas e respostas. Em resumo, utilizamos o Resumo conjunto de dados onde o immediate (x) é uma postagem de fórum do Reddit e (y) é um resumo correspondente. Para responder a perguntas, usamos Anthropic Useful and Innocent (Sua Alteza), o immediate (x) é uma consulta humana sobre vários tópicos, e a política deve aprender a produzir uma resposta envolvente e útil (y).

Nós comparamos nosso algoritmo P3O com várias abordagens eficazes e representativas para o alinhamento do LLM. Começamos com o SFT política treinada por máxima verossimilhança. Para algoritmos RL, consideramos a abordagem dominante PPO e o recém-proposto EPD. O DPO otimiza diretamente a política em direção à solução de forma fechada do problema RL restrito por KL. Embora seja proposto como um método de alinhamento offline, nós o tornamos on-line com a ajuda de uma função de recompensa proxy.






Figura 4:
Fronteira KL-Reward para HH, cada ponto representa uma média de resultados em 280 prompts de teste e calculados a cada 500 atualizações de gradiente. As duas figuras da esquerda comparam P3O-V1 e PPO com tamanhos de modelo base variados; As duas figuras da direita comparam P3O-V2 e DPO. Resultados mostrando que P3O pode não apenas atingir maior recompensa, mas também produzir melhor controle de KL.

Desviar muito da política de referência levaria a política on-line a cortar custos do modelo de recompensa e produzir continuações incoerentes, como apontado por trabalhos anteriores. Estamos interessados ​​não apenas na métrica bem estabelecida na literatura de RL – a recompensa, mas também em quão longe a política aprendida se desvia da política inicial, medida pela divergência KL. Portanto, investigamos a eficácia de cada algoritmo por sua fronteira de recompensa alcançada e divergência KL da política de referência (KL-Recompensa Fronteira). Na Figura 4 e Figura 5, descobrimos que P3O tem fronteiras estritamente dominantes que PPO e DPO em vários tamanhos de modelo.




Figura 5:
A figura da esquerda exibe a taxa de vitória avaliada pelo GPT-4. A figura da direita apresenta a taxa de vitória com base na comparação direta da recompensa proxy. Apesar da alta correlação entre duas figuras, descobrimos que a taxa de vitória da recompensa deve ser ajustada de acordo com o KL para se alinhar com a taxa de vitória do GPT-4.

Para avaliar diretamente a qualidade das respostas geradas, também realizamos Comparações frente a frente entre cada par de algoritmos no conjunto de dados HH. Usamos duas métricas para avaliação: (1) Recompensao alvo otimizado durante RL on-line, (2) GPT-4como um proxy fiel para a avaliação humana da utilidade da resposta. Para a última métrica, destacamos que estudos anteriores mostram que os julgamentos do GPT-4 se correlacionam fortemente com os humanos, com a concordância humana com o GPT-4 tipicamente semelhante ou maior do que a concordância do anotador inter-humano.

A Figura 5 apresenta os resultados abrangentes da comparação pareada. A classificação média de divergência KL e recompensa desses modelos é DPO > P3O > PPO > SFT. Embora DPO supere marginalmente P3O em recompensa, ele tem uma divergência KL consideravelmente maior, o que pode ser prejudicial à qualidade da geração. Como resultado, DPO tem uma taxa de vitória de recompensa de 49,5% contra P3O, mas apenas 45,4% conforme avaliado pelo GPT-4. Comparado com outros métodos, P3O exibe uma taxa de vitória GPT-4 de 57,0% contra PPO e 69,3% contra SFT. Este resultado é consistente com nossas descobertas da métrica de fronteira KL-Reward, afirmando que P3O poderia se alinhar melhor com a preferência humana do que as linhas de base anteriores.

Conclusão

Nesta postagem do weblog, apresentamos novos insights sobre o alinhamento de grandes modelos de linguagem com preferências humanas por meio do aprendizado por reforço. Propusemos a estrutura Reinforcement Studying with Relative Suggestions, conforme ilustrado na Figura 1. Sob essa estrutura, desenvolvemos um novo algoritmo de gradiente de política – P3O. Essa abordagem unifica os princípios fundamentais da modelagem de recompensa e ajuste fino de RL por meio de treinamento comparativo. Nossos resultados mostram que o P3O supera os métodos anteriores em termos da fronteira KL-Reward, bem como da taxa de vitória do GPT-4.

BibTex

Este weblog é baseado em nosso recente papel e weblog. Se este weblog inspira seu trabalho, considere citá-lo com:

@article{wu2023pairwise,
  title={Pairwise Proximal Coverage Optimization: Harnessing Relative Suggestions for LLM Alignment},
  writer={Wu, Tianhao and Zhu, Banghua and Zhang, Ruoyu and Wen, Zhaojin and Ramchandran, Kannan and Jiao, Jiantao},
  journal={arXiv preprint arXiv:2310.00212},
  12 months={2023}
}

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *