Apprentissage par Renforcement à partir de Retours Humains

RLHF Intelligence Artificielle

Définition

Une méthodologie d'entraînement qui utilise les préférences humaines pour guider l'ajustement fin des modèles d'IA. Le RLHF entraîne un modèle de récompense à partir de comparaisons humaines des sorties du modèle, puis utilise l'apprentissage par renforcement pour optimiser le modèle d'IA par rapport à ce signal de récompense.