Оценка стоимости включения Discourse AI для связанных материалов и поиска

Существует ли какой-либо ориентир по стоимости, эталонный показатель или формула приблизительной оценки, которая помогла бы мне понять разовые затраты (массовое встраивание) и постоянные расходы (встраивание и поиск) при включении Discourse AI с использованием облачной LLM?

Для самостоятельно размещённой LLM какая типичная конфигурация сервера и соответствующие затраты потребуются?

Я считаю, что вам понадобится GPU, но использование GPU предпочтительнее, если вы хотите размещать модель локально. Обратите внимание на такие решения, как Ollama.

Также см.:

Связанные темы и поиск по ИИ не используют LLM.

Для массового создания эмбеддингов требуется один запрос на тему, поэтому большинство сайтов смогут выполнить это, используя, например, бесплатный тариф Gemini.

Поиск требует одного запроса на поиск, что, скорее всего, также уложится в бесплатный тариф.

Поскольку это просто модель для создания эмбеддингов, вы сможете самостоятельно разместить Qwen/Qwen3-Embedding-0.6B · Hugging Face с помощью GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models · GitHub на базовом сервере с 2 vCPU и 4 ГБ ОЗУ без проблем.

Конечно, на сервере с GPU это будет работать быстрее, но модель отлично функционирует и без него.