La lunghezza del tuo post sopra secondo alcuni tokenizer:
OpenAI: 45
Mixtral: 52
Gemini: 47
E5: 50
bge-large-en: 49
bge-m3: 50
mpnet: 49
Sembra che Mistral-embed non differisca molto dagli altri. E poiché supporta una finestra di contesto molto ampia di 8k, dovresti sentirti sicuro scegliendo uno qualsiasi e lasciando un po’ di margine limitando la finestra di contesto in Discourse a 7 o 7,5k.