تقدير تكلفة تمكين Discourse AI للمحتوى والبحث ذي الصلة

هل هناك معيار تكلفة أو مقياس أو صيغة تقديرية تساعدني في فهم التكلفة لمرة واحدة (التضمين الجماعي) والتكلفة المستمرة (التضمين والبحث) لتمكين Discourse AI باستخدام نموذج لغوي كبير مستضاف على السحابة؟

بالنسبة للنماذج اللغوية الكبيرة المستضافة ذاتيًا، ما هو تكوين الخادم النموذجي/التكلفة المطلوبة؟

أعتقد أنه ستحتاج إلى وحدة معالجة رسومات من الأفضل استخدام وحدة معالجة رسومات إذا كنت ترغب في الاستضافة الذاتية. تحقق من أشياء مثل Ollama.

انظر أيضًا:

المواضيع ذات الصلة والبحث بالذكاء الاصطناعي لا يستخدمان نموذجًا لغويًا كبيرًا (LLM).

إنها طلب واحد لكل موضوع للتضمينات الجماعية، لذا يجب أن تتمكن معظم المواقع من القيام بذلك باستخدام شيء مثل الطبقة المجانية من Gemini.

البحث هو طلب واحد لكل بحث، والذي من المرجح أن يتناسب مع الطبقة المجانية.

نظرًا لأن هذا مجرد نموذج تضمين، يجب أن تكون قادرًا على استضافة Qwen/Qwen3-Embedding-0.6B · Hugging Face ذاتيًا باستخدام GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models في جهاز أساسي بـ 2 وحدة معالجة مركزية افتراضية / 4 جيجابايت من ذاكرة الوصول العشوائي بسهولة.

إنه أسرع على خادم مزود بوحدة معالجة رسومات، بالطبع، ولكنه يعمل بشكل جيد في خادم بدونه.

إعجاب واحد (1)