Schätzung der Kosten für die Aktivierung von Discourse AI für verwandte Inhalte und Suche

Gibt es eine Kostenrichtlinie, einen Maßstab oder eine Schätzformel, die mir hilft, die einmaligen (Massen-Einbettung) und laufenden (Einbettung und Suche) Kosten für die Aktivierung von Discourse AI mit einem Cloud-basierten LLM zu verstehen?

Welche typische Serverkonfiguration/Kosten wären für ein selbst gehostetes LLM erforderlich?

Ich glaube, man bräuchte eine GPU es ist besser mit einer GPU, wenn man selbst hosten möchte. Schauen Sie sich Dinge wie Ollama an.

Siehe auch:

Verwandte Themen und KI-Suche verwenden kein LLM.

Es ist eine Anfrage pro Thema für Massen-Einbettungen, sodass die meisten Websites dies mit etwas wie der Gemini Free-Stufe tun können.

Die Suche ist eine Anfrage pro Suche und passt höchstwahrscheinlich in die kostenlose Stufe.

Da dies nur ein Einbettungsmodell ist, sollten Sie Qwen/Qwen3-Embedding-0.6B · Hugging Face mit GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models auf einem einfachen 2 vCPU / 4 GB RAM problemlos selbst hosten können.

Es ist natürlich schneller auf einem Server mit GPU, läuft aber auch ohne problemlos.

1 „Gefällt mir“