Vale anche la pena notare che la maggior parte degli agenti di codifica al giorno d’oggi non si preoccupa nemmeno di un tokenizzatore accurato come fa Discourse. Stimano semplicemente 4 lettere per token.
cl100k andrà benissimo per la stragrande maggioranza dei casi d’uso su modelli linguistici di grandi dimensioni con tokenizzatori leggermente diversi.