Verwandte Themen und KI-Suche verwenden kein LLM.
Es ist eine Anfrage pro Thema für Massen-Einbettungen, sodass die meisten Websites dies mit etwas wie der Gemini Free-Stufe tun können.
Die Suche ist eine Anfrage pro Suche und passt höchstwahrscheinlich in die kostenlose Stufe.
Da dies nur ein Einbettungsmodell ist, sollten Sie Qwen/Qwen3-Embedding-0.6B · Hugging Face mit GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models auf einem einfachen 2 vCPU / 4 GB RAM problemlos selbst hosten können.
Es ist natürlich schneller auf einem Server mit GPU, läuft aber auch ohne problemlos.