En TLN (traitement du langage naturel), la notion de token est plus large que celle de mots. C'est une unité élémentaire qui est utilisé par un modèle
- un réseau de neurones - pour apprendre une tâche. Il peut représenter un mot, une partie de mots, un caractère unique, un signe de ponctuation,
un caractère spécial ou spécifique à un modèle, etc (https://www.legalgpt.eu/comprendre/le-decoupage-des-mots-les-tokens/)