Como a RLHF está transformando a precisão e a eficácia da resposta do LLM


Os modelos de linguagem grande (LLMs) avançaram além do simples preenchimento automático, prevendo a próxima palavra ou frase. Desenvolvimentos recentes permitem que os LLMs entendam e sigam instruções humanas, executem tarefas complexas e até mesmo participem de conversas. Esses avanços são impulsionados pelo ajuste fino de LLMs com conjuntos de dados especializados e aprendizagem por reforço com suggestions humano (RLHF). A RLHF está redefinindo a forma como as máquinas aprendem e interagem com as informações humanas.

O que é RLHF?

RLHF é uma técnica que treina um grande modelo de linguagem para alinhar seus resultados com as preferências e expectativas humanas usando suggestions humano. Os humanos avaliam as respostas do modelo e fornecem classificações, que o modelo utiliza para melhorar seu desempenho. Este processo iterativo ajuda os LLMs a refinar a sua compreensão das instruções humanas e a gerar resultados mais precisos e relevantes. A RLHF desempenhou um papel crítico na melhoria do desempenho de InstruirGPTSparrow, Claude e outros, permitindo-lhes superar os LLMs tradicionais, como o GPT-3.

Vamos entender como funciona o RLHF.

RLHF vs Não-RLHF

Grandes modelos de linguagem foram originalmente projetados para prever a próxima palavra ou token para completar uma frase com base na entrada conhecida como ‘immediate’. Por exemplo, para completar uma instrução, você solicita ao GPT-3 a seguinte entrada:

Incitar: Full a frase “A contribuição humana permite IA sistemas para navegar em cenários complexos e cheios de nuances que IA pode ter dificuldades. Por exemplo, na tributação, os consultores humanos podem …….”

O modelo então completa com sucesso a instrução da seguinte forma:

“A contribuição humana permite IA sistemas para navegar em cenários complexos e cheios de nuances que IA pode ter dificuldades. Por exemplo, na fiscalidade, os consultores humanos podem interpretar leis fiscais complexas, adaptar o aconselhamento a situações específicas dos clientes e aplicar o pensamento crítico a regulamentações ambíguas.”

Como a RLHF está transformando a precisão e a eficácia da resposta do LLM

Perguntando LLM para continuar um immediate

No entanto, espera-se que grandes modelos de linguagem façam mais do que apenas preencher um immediate. Os LLMs são obrigados a escrever histórias, e-mails, poemas, códigos e muito mais.

Exemplos RLHF vs não RLHF

Aqui estão alguns exemplos que mostram a diferença entre não-RLHF LLM (Próximo preditor de token) e RLHF LLM (treinado em suggestions humano).

Saída não RLHF – História

Quando você diz ao GPT-3 para ‘escrever uma história fictícia sobre a princesa Anastasia se apaixonando por um soldado’, um modelo não RLHF gera resultados como:

Incitar: Escreva uma história fictícia sobre a Princesa Anastasia se apaixonando por um soldado.

No entanto, espera-se que grandes modelos de linguagem façam mais do que apenas preencher um immediate. Os LLMs são obrigados a escrever histórias, e-mails, poemas, códigos e muito mais.

Exemplos RLHF vs não RLHF

Aqui estão alguns exemplos que mostram a diferença entre não-RLHF LLM (Próximo preditor de token) e RLHF LLM (treinado em suggestions humano).

Saída não RLHF – História

Quando você diz ao GPT-3 para ‘escrever uma história fictícia sobre a princesa Anastasia se apaixonando por um soldado’, um modelo não RLHF gera resultados como:

Incitar: Escreva uma história fictícia sobre a Princesa Anastasia se apaixonando por um soldado.

O modelo sabe escrever histórias, mas não consegue entender a solicitação porque os LLMs são treinados em scraps de web que estão menos familiarizados com comandos como ‘escrever uma história/e-mail’, seguidos de uma história ou do próprio e-mail. Prever a próxima palavra é fundamentalmente diferente de seguir instruções de forma inteligente.

Saída RLHF – História

Aqui está o que você obtém quando o mesmo immediate é fornecido a um Modelo RLHF treinado no suggestions humano.

Incitar: Escreva uma história fictícia sobre a Princesa Anastasia se apaixonando por um soldado.

Agora, o LLM gerou a resposta desejada.

Saída não RLHF – Matemática

Incitar: O que é 4-2 e 3-1?

O modelo não-RLHF não responde à pergunta e a considera parte de um diálogo de história.

Saída RLHF – Matemática

Dica: O que é 4-2 e 3-1?

O modelo RLHF entende o immediate e gera a resposta corretamente.

Como funciona o RLHF?

Vamos entender como um grande modelo de linguagem é treinado com base no suggestions humano para responder adequadamente.

Etapa 1: começando com modelos pré-treinados

O processo de RLHF começa com um modo de linguagem pré-treinado ou um preditor de próximo token.

Etapa 2: ajuste fino do modelo supervisionado

São criados vários prompts de entrada sobre as tarefas que você deseja que o modelo conclua e uma resposta perfect escrita por humanos para cada immediate. Em outras palavras, um conjunto de dados de treinamento que consiste em pares é criado para ajustar o modelo pré-treinado para gerar respostas semelhantes de alta qualidade.

Etapa 3: Criando um modelo de recompensa por suggestions humano

Esta etapa envolve a criação de um modelo de recompensa para avaliar quão bem o LLM a produção atende às expectativas de qualidade. Como um LLMum modelo de recompensa é treinado em um conjunto de dados de respostas avaliadas por humanos, que servem como a “verdade básica” para avaliar a qualidade da resposta. Com certas camadas removidas para otimizá-lo para pontuação em vez de geração, ele se torna uma versão menor do LLM. O modelo de recompensa recebe a entrada e LLM-gerada como entrada e, em seguida, atribui uma pontuação numérica (uma recompensa escalar) à resposta.

Assim, os anotadores humanos avaliam o LLMresultados gerados classificando sua qualidade com base na relevância, precisão e clareza.

Etapa 4: Otimizando com base na recompensa Aprendizagem por Reforço Política

A etapa ultimate no processo RLHF é treinar uma política RL (essencialmente um algoritmo que resolve qual palavra ou token gerar em seguida na sequência de texto) que aprende a gerar o texto que o modelo de recompensa prevê que os humanos prefeririam.

Em outras palavras, a política de RL aprende a pensar como um ser humano, maximizando o suggestions do modelo de recompensa.

É assim que um modelo sofisticado de linguagem grande como o ChatGPT é criado e ajustado.

Palavras Finais

Os grandes modelos linguísticos fizeram progressos consideráveis ​​nos últimos anos e continuam a fazê-lo. Técnicas como RLHF levaram a modelos inovadores como ChaGPT e Gemini, revolucionando IA respostas em diferentes tarefas. Notavelmente, ao incorporar o suggestions humano no processo de ajuste fino, os LLMs não só são melhores a seguir instruções, mas também estão mais alinhados com os valores e preferências humanas, o que os ajuda a compreender melhor os limites e os propósitos para os quais foram concebidos.

O RLHF está transformando grandes modelos de linguagem (LLMs), melhorando a precisão de seus resultados e a capacidade de seguir instruções humanas. Ao contrário dos LLMs tradicionais, que foram originalmente projetados para prever a próxima palavra ou token, os modelos treinados em RLHF usam suggestions humano para ajustar as respostas, alinhando as respostas com as preferências do usuário.

Resumo: O RLHF está transformando grandes modelos de linguagem (LLMs), melhorando a precisão de seus resultados e a capacidade de seguir instruções humanas. Ao contrário dos LLMs tradicionais, que foram originalmente projetados para prever a próxima palavra ou token, os modelos treinados em RLHF usam suggestions humano para ajustar as respostas, alinhando as respostas com as preferências do usuário.

A postagem Como a RLHF está transformando a precisão e a eficácia da resposta do LLM apareceu primeiro em Datafloq.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *