RLHF est un apprentissage par renforcement à partir du feedback humain. Cet article présentera comment le grand modèle de langage (LLM) est combiné avec RLHF.
L'apprentissage par renforcement est une branche de l'apprentissage automatique qui apprend des stratégies optimales en interagissant avec l'environnement. Les agents choisissent des actions qui affectent les transitions de l'état de l'environnement et sont récompensés en conséquence. Les récompenses sont des signaux de rétroaction permettant à l'agent d'apprentissage par renforcement d'ajuster sa stratégie. Pendant la phase de formation, l'agent ajuste sa stratégie en fonction des récompenses pour maximiser les rendements à long terme.
Par conséquent, il est crucial de concevoir un système de récompense approprié, qui est la clé de l’apprentissage par renforcement. Le RLHF, quant à lui, intègre les commentaires humains et intègre les humains dans le processus de formation pour améliorer l'effet de formation des agents d'apprentissage par renforcement.
Le processus de mise au point de l'apprentissage par renforcement des grands modèles de langage (LLM) comprend généralement trois étapes. Tout d’abord, nous commençons par un modèle de langage pré-entraîné. Étant donné que le LLM nécessite une grande quantité de données d’entraînement, il n’est pas pratique de l’entraîner à partir de zéro avec un feedback manuel. Par conséquent, nous pouvons nous pré-former grâce à un apprentissage non supervisé et utiliser les modèles linguistiques existants pour la génération de résultats. Une fois la pré-formation terminée, l’étape suivante est la phase de mise au point. A ce stade, nous utiliserons des algorithmes d'apprentissage par renforcement pour optimiser le LLM. En interagissant avec l'environnement, LLM peut obtenir des commentaires de l'environnement et optimiser sa sortie en ajustant les paramètres du modèle. La dernière étape est la mise au point ultérieure. Dans cette phase, le LLM interagira avec la tâche spécifique et effectuera les tâches via
Ensuite, en entrant dans la deuxième phase, nous devons créer un modèle de récompense pour le système RL. À ce stade, nous formons un autre modèle d'apprentissage automatique qui prend le texte généré par le modèle principal et génère un score de qualité pour celui-ci. En règle générale, nous utiliserons un autre modèle LLM et le modifierons afin qu'il génère une valeur scalaire au lieu d'une séquence de jetons de texte. Ce score de qualité sera utilisé comme signal de récompense pour guider le modèle principal afin de générer un texte de meilleure qualité.
Afin de former le modèle de récompense, nous devons créer un ensemble de données d'évaluation de la qualité contenant le texte généré par LLM. Chaque exemple de formation se compose d'un indice et de plusieurs résultats générés par le LLM. Ensuite, nous avons demandé à des humains d'évaluer la qualité de ces textes générés. Nous utilisons ensuite ces résultats d'évaluation pour former un modèle de récompense afin de prédire le score du texte généré par LLM. En s'entraînant entre les résultats du LLM et les notes, le modèle de récompense est capable de construire une représentation mathématique des préférences humaines.
Dans la phase finale, nous avons affiné et créé une boucle d'apprentissage par renforcement. Une réplique du LLM maître est utilisée comme agent RL. Sur chaque ensemble de formation, LLM prend plusieurs indices de l'ensemble de données et génère du texte. Le texte est ensuite transmis à un modèle de récompense, qui attribue un score évaluant sa cohérence avec les préférences humaines. Nous mettons ensuite à jour le LLM pour générer des résultats qui obtiennent un score plus élevé sur le modèle de récompense.
Bien qu'il s'agisse d'un cadre général RLHF pour les modèles de langage, différents objectifs de mise en œuvre nécessitent des modifications correspondantes.
Une autre considération pour les modèles de langage dans RLHF est de maintenir un équilibre entre l'optimisation des récompenses et la cohérence du langage. Bien que le modèle de récompense ne soit qu'une approximation imparfaite des préférences humaines, l'agent LLM peut maximiser les récompenses en violant la cohérence syntaxique ou logique, comme dans la plupart des systèmes RL. Pour éviter que cela ne se produise, l'équipe ML conserve une copie du LLM original et l'utilise dans la boucle RL. Ils ont intégré la différence entre la sortie du LLM d'origine et la sortie du LLM formé par RL (divergence KL) en tant que valeur négative dans le signal de récompense pour éviter un écart excessif entre le modèle et la sortie d'origine. Cette stratégie vise à équilibrer la relation entre l’optimisation des récompenses et la cohérence du langage.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!