Définition

Une technique d'optimisation de modèle qui réduit la précision des valeurs numériques utilisées dans les calculs des réseaux de neurones, typiquement de virgule flottante 32 bits à des représentations 16 bits, 8 bits ou même 4 bits. La quantification réduit considérablement la taille du modèle et le temps d'inférence avec une perte de précision minimale.

Terme défini