أريد إضافة "Chat Bot" جديد وربطه بنموذج لغوي كبير مستضاف ذاتيًا.\nلقد حاولت استخدام حقل "ai hugging face model display name" ويبدو أنه لا يظهر في أي مكان، ربما يجب علي الإشارة إليه في المطالبات المرتبطة بشخصية؟\nلقد حاولت أيضًا "إنشاء" روبوت جديد عبر القائمة المنسدلة "ai bot enable chat bots"، وأي شيء أقوم بإنشائه يظهر في القائمة المنسدلة لروبوت الدردشة باسم " [en.discourse_ai.ai_bot.bot_names.XXXX]" حيث XXXX هو الاسم الذي قدمته.\nأي نصائح حول أي وثائق أو دليل حول كيفية القيام بذلك ستكون موضع تقدير.
هل يمكن لأي شخص تقديم أي اقتراحات أو هل هذا قيد معروف؟
@Roman يعمل على إعادة هيكلة هذا القسم، توقع المزيد من الأخبار في الأسابيع القادمة
لست متأكدًا مما إذا كنت أفسر هذا بشكل صحيح بأنه لا يمكن حاليًا استخدام نموذج لغوي كبير مستضاف ذاتيًا، ولكن هذا سيتغير قريبًا؟
ليس ممكناً في الوقت الحالي، ولكن نأمل خلال أسبوع أو أسبوعين أن يكون هذا يعمل.
شكرا لك. لقد فوجئت لأنه لم يعمل بما أن OpenAI مدعوم. أعتقد أن الكثير من الناس يشغلون نماذجهم اللغوية الكبيرة الخاصة بهم بنقطة نهاية متوافقة مع OpenAI. سأتطلع إلى التحديث في غضون أسبوعين ![]()
من باب الفضول يا @Isambard ما هو تقديرك للتكلفة الشهرية لاستضافة نموذج لغوي كبير محلي قوي بما فيه الكفاية (ما يعادله بالدولار)؟
حوالي 5 دولارات كحد أدنى من تكاليف الكهرباء الإضافية شهريًا لوحدة معالجة الرسومات (GPU) في وضع الخمول - على الرغم من أنه في الواقع، فإن التكلفة الإضافية للنقاش هي صفر نظرًا لأنني أقوم بتشغيل نموذج اللغة الكبير (LLM) بالفعل لأغراض أخرى.
ولكن بالتأكيد، سيكون من الأكثر اقتصادًا للمنتديات الصغيرة والاستخدام المنخفض استخدام نموذج لغوي كبير (LLM) كخدمة. على الرغم من أنه بالنسبة لحجم العرض المستضاف لـ Discourse، أشك في أنه قد يكون من المنطقي الاستضافة داخليًا (وتطوير المعرفة في هذا المجال الذي من المحتمل أن يكون مهمًا).
و 15 ألفًا لـ A100؟
ما هو الطراز الذي تشغله محليًا تحديدًا؟
أنا أقوم بتشغيل عدة أشياء مختلفة. بالنسبة لأمور Discourse، سأقوم بتشغيل نموذج 7B يعتمد على Mistral وتم ضبطه بدقة للمهام. أنا أبحث عن نماذج مختلفة شبيهة بـ BERT لمهام التصنيف وما زلت غير متأكد من التضمينات بعد. هذا يعمل على بطاقة 3090 Ti مستعملة اشتريتها مقابل 700 دولار.
أود الحصول على A100، ولكن بدلاً من ذلك، قمت ببناء نظام منفصل بـ 4 وحدات معالجة رسومات “بتكلفة زهيدة” مقابل 1000 دولار فقط يعمل على Llama 3 70Bq4 بسرعة تزيد عن 20 توكن/ثانية.
بالتأكيد في العديد من الحالات / معظم الحالات سيكون من المنطقي فقط التعامل مع مزود، ومع ذلك، قد يكون من المنطقي القيام بذلك بنفسك إذا:
- تريد أن تتعلم
- تريد أن يكون لديك يقين بالتحكم في نماذجك (حتى لا تفقد الوصول إليها، أو تكون خاضعًا لشركة لاستخدام تضميناتها غير العامة)
- لديك الكثير من المعالجة المجمعة التي ستقوم بها والتي ستكون أرخص للقيام بها داخليًا
- تريد سعة محجوزة وموثوقة (هناك حدود على كل من الطلبات والرموز المتاحة من المزودين) للمعالجة المجمعة.
لقد قمت بقياس أداء 3090 وحصلت على أقصى إنتاجية مستدامة تبلغ حوالي 2600 رمز في الثانية عند تشغيل Llama 3 - 8B FP16. أعيش في منطقة ذات كهرباء باهظة الثمن، ولكن تشغيله بشكل مستمر بحد طاقة يبلغ 285 واط، سيكلف حوالي 0.007 دولار لكل مليون رمز إخراج. أو ما يقرب من 0.01 دولار لكل مليون رمز إذا قمت باستنفاد تكلفة المعدات بالكامل على مدى 3 سنوات.
يقارن هذا بشكل جيد جدًا مع Claude Haiku شريطة أن يكون لديك معدل استخدام معقول.
لقد اكتشفت اكتشافًا مثيرًا للاهتمام: خادم الويب الذي أستضيف عليه منتداي لديه القدرة الكافية لتشغيل نموذج لغوي كبير (LLM) صغير بسرعات متواضعة (6 رموز/ثانية بدون تجميع) حتى بدون وحدة معالجة رسومات (GPU). سيكون هذا مفيدًا للمهام غير المتصلة بالإنترنت/المهام الخلفية.