O GPT-4 ou 3.5 não podem ser auto-hospedados.
Alguns LLMs são de código aberto, como o Falcon ou vários modelos baseados em LLaMA (que vêm com questões de licenciamento) podem ser auto-hospedados, mas até hoje todos eles têm desempenho inferior ao GPT 4 ou até mesmo ao 3.5.
Seu cálculo de guardanapo está muito errado, se você for auto-hospedar um LLM, provavelmente desejará uma A100 ou H100, talvez algumas delas… tente pesquisar os preços…