Tokenisation
T
Tokenisation
Définition
Le processus de découpage du texte en unités plus petites appelées tokens, qui peuvent être des mots, des sous-mots ou des caractères. La tokenisation est la première étape des pipelines de traitement du langage naturel et détermine comment le texte est représenté pour l'entrée du modèle.