Stima del costo per abilitare Discourse AI per contenuti e ricerche correlate

Esiste un benchmark di costo, un metro di paragone o una formula di stima che mi aiuti a comprendere il costo una tantum (mass embedding) e quello continuativo (embedding e ricerca) per abilitare Discourse AI utilizzando un LLM basato su cloud?

Per un LLM self-hosted, quale sarebbe una tipica configurazione/costo del server richiesto?

Credo che avresti bisogno di una GPU sia meglio con una GPU se vuoi fare l’auto-hosting. Dai un’occhiata a cose come Ollama.

Vedi anche:

Gli argomenti correlati e la ricerca AI non utilizzano un LLM.

È una richiesta per argomento per gli embedding di massa, quindi la maggior parte dei siti dovrebbe essere in grado di farlo utilizzando qualcosa come il livello gratuito di Gemini.

La ricerca è una richiesta per ricerca, e che molto probabilmente può rientrare nel livello gratuito.

Poiché questo è solo un modello di embedding, dovresti essere in grado di eseguire l’host di Qwen/Qwen3-Embedding-0.6B · Hugging Face utilizzando GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models su un sistema base con 2 vCPU / 4 GB di RAM senza problemi.

È più veloce su un server con GPU, ovviamente, ma funziona benissimo anche senza.

1 Mi Piace