Das ist der Hostname des Rechners, auf dem Sie vLLM ausführen. Es könnte auch mit einer IP-Adresse in der Form http://1.1.1.1:1111 funktionieren, aber ich habe es nicht getestet.
Wir haben ein paar Tokenizer, die uns helfen, die Größe der Prompts zu begrenzen, bevor wir sie an das LLM senden. Wählen Sie denjenigen, der den Ergebnissen des Tokenizers des Modells, das Sie in vLLM ausführen, am nächsten kommt. Eine perfekte Übereinstimmung ist nicht wirklich erforderlich.
Im Zweifelsfall belassen Sie es bei der OpenAI- oder Llama3-Version.