B

Référentiel d'Évaluation

Définition

Un test ou jeu de données standardisé utilisé pour évaluer et comparer les performances des modèles d'IA sur des tâches spécifiques. Les référentiels d'évaluation courants incluent MMLU pour les connaissances, HumanEval pour la génération de code et ImageNet pour la classification d'images.

Terme défini