Estimación del costo de habilitar Discourse AI para contenido y búsqueda relacionados

¿Existe algún punto de referencia de costos, lista de verificación o fórmula de estimación que me ayude a comprender el costo único (incrustación masiva) y continuo (incrustación y búsqueda) de habilitar Discourse AI utilizando un LLM basado en la nube?

Para un LLM autoalojado, ¿cuál sería una configuración/costo de servidor típico requerido?

Creo que necesitarías una GPU es mejor con una GPU si quieres autoalojarlo. Consulta cosas como Ollama.

También consulta:

Temas relacionados y búsqueda de IA no usan un LLM.

Es una solicitud por tema para incrustaciones masivas, por lo que la mayoría de los sitios podrán hacerlo utilizando algo como el nivel gratuito de Gemini.

La búsqueda es una solicitud por búsqueda, y es muy probable que quepa en el nivel gratuito.

Dado que este es solo un modelo de incrustación, deberías poder autoalojar Qwen/Qwen3-Embedding-0.6B · Hugging Face usando GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models en un servidor básico de 2 vCPU / 4 GB de RAM sin problemas.

Es más rápido en un servidor con GPU, por supuesto, pero funciona perfectamente en uno sin ella.

1 me gusta