دليل استضافة ذاتية لـ Discourse AI

قد أرغب - وسأرغب - في الخدمة ولكنها لا تزال في مراحلها الأولى بالنسبة للمنتدى الذي أفكر فيه، لذا لا توجد بيانات كافية للتعامل معها بعد.

بما أنك تلعب بهذه التقنية، هل يمكنك أن تخبرنا ما هو الدور الذي تلعبه العلامات في تدريب الذكاء الاصطناعي؟ لقد بذلت الكثير من الجهد في تجميع مجموعة نصوص أحد منتدياتي لتوليد تسميات يمكن استخدامها بعد ذلك لتصنيف المواضيع ووضع علامات عليها. بينما سار التصنيف بشكل جيد للغاية، فإن تطبيق العلامات يمثل مشكلة بسبب العدد الهائل من المصطلحات المعنية. لا توجد طريقة عملية لتقديمها كلها.

أعتقد أن الذكاء الاصطناعي يمكنه استخدام هذه المصطلحات لتحسين نتائجه الخاصة.

إعجاب واحد (1)

لا يوجد تدريب للنماذج في Discourse اليوم. جميع النماذج المستخدمة حاليًا بواسطة أي من الوحدات مدربة بالفعل.

قد تكون العلامات مفيدة لإضافة سياق في المطالبات لميزات مثل اقتراحات العلامات والمواضيع ذات الصلة، ولكن لم يتم استخدام أي منهما في الوقت الحالي.

إعجابَين (2)

مرحباً @nodomain،

سيقوم Discourse AI الآن بتخزين التضمينات في نفس مثيل قاعدة البيانات الذي نستخدمه لكل شيء آخر. هذا يجعل التثبيت والصيانة أسهل بكثير، وسنقوم تلقائيًا باستيراد التضمينات من قاعدة البيانات القديمة عند التحديث. بعد ذلك، يمكنك الآن إلغاء تشغيل قاعدة البيانات القديمة.

إعجاب واحد (1)

أوه، هذا يفسر المشاكل التي أواجهها الآن مع إعداداتي:

I, [2023-07-18T09:29:11.218667 #1]  INFO -- : > cd /var/www/discourse & su discourse -c 'bundle exec rake db:migrate'
------------------------------خطأ Discourse AI----------------------------------
    يتطلب Discourse AI امتداد pgvector على قاعدة بيانات PostgreSQL.
         قم بتشغيل `./launcher rebuild app` لإصلاحه في تثبيت قياسي.
            بدلاً من ذلك، يمكنك إزالة Discourse AI لإعادة البناء.
------------------------------خطأ Discourse AI----------------------------------

قاعدة بياناتي هي خادم RDS Aurora بدون خادم v2 وبالتالي لا يمكنها استخدام امتداد pgvector. هل هناك فرصة لتكوين السلوك القديم؟

إعجاب واحد (1)

إجابة على نفسي: قد تكون الطريقة الممكنة هي الانتقال إلى خدمة Aurora “غير الخادومية”: What’s New at AWS – Cloud Innovation & News

ومع ذلك، ما زلت مهتمًا بالإجابة على سؤالي.

إعجابَين (2)

هل تستخدم بلا خادم لقاعدة بيانات Discourse الرئيسية أو فقط لقاعدة تضمين البيانات؟ يقوم Discourse AI الآن بتخزين تضمينات البيانات في قاعدة البيانات الرئيسية ويتطلب تمكين امتداد pgvector هناك. وهو متاح على RDS PostgreSQL 13.11 والإصدارات الأحدث. نحن لا نستخدم Aurora في بيئة الإنتاج، فقط RDS PostgreSQL، لذا هذا هو الشيء الوحيد الذي يمكنني أن أوصي به لك.

إعجاب واحد (1)

حسناً بالنسبة لي، شكراً.
ونعم، قاعدة البيانات الرئيسية بدون خادم (serverless) حالياً.

إعجاب واحد (1)

إذًا، هل Amazon RDS PostgreSQL هو الإصدار الذي يتم تعبئته في توزيع Docker؟

RDS هو SaaS من AWS، لا يمكن تعبئته في صورة Docker.

يعمل Discourse AI إما مع إصدار PostgreSQL الذي نعبئه في صورة Docker الخاصة بنا، أو مع Amazon RDS، أو مع أي مثيل PostgreSQL مثبت عليه الامتداد.

مرحباً :waving_hand:
هل يمكنني استخدام “Llama 2” مفتوح المصدر من ميتا للتوصية بالمنشورات لمستخدمي؟
هل لدى أي شخص خبرة مع مثل هذه الأداة؟
شكراً :folded_hands:

إعجاب واحد (1)

هل تقصد التوصية بـ “المواضيع ذات الصلة”؟ في هذه الحالة لا، ليس بعد. لا توجد نماذج تضمين تستند إلى Llama 2 حتى الآن.

تجدر الإشارة إلى أن النماذج التي نقدمها (أحدها مفتوح المصدر والآخر من OpenAI API) جيدة حقًا وأكثر من كافية لتشغيل ميزة المواضيع ذات الصلة.

5 إعجابات

شكرا على الشرح!

إعجاب واحد (1)

هل هناك مستودعات git لصور docker؟

إعجاب واحد (1)

ليس في الوقت الحالي، حيث يتطلب ذلك مني الاحتفاظ بمستودعين منفصلين، أحدهما يحتوي على رمز التطبيق والآخر يحتوي على الأدوات الداخلية لبناء الصور ودفعها إلى مستودعاتنا الداخلية، ولم أتمكن حقًا من إيجاد وقت لإعداد ذلك بشكل صحيح.

رمز واجهة برمجة التطبيقات مرئي بالكامل داخل صورة الحاوية، حتى لو لم تكن هذه أفضل طريقة لتتبعه، على الأقل كل شيء موجود هناك.

3 إعجابات

هل يمكن لأي شخص مشاركة متطلبات الخادم الدنيا والموصى بها بالضبط لمنتدى به زوار عاديون؟ بصراحة، أرغب في تجربته، لكنني لا أعرف من أين أبدأ نظرًا لعدم وجود متطلبات خادم واضحة.

إعجابَين (2)

تحتاج فقط إلى المحاولة بما تراه معقولاً. يبدو أن شيءًا بسعة 16 جيجابايت من ذاكرة الوصول العشوائي هو الحد الأدنى.

بالنسبة لمستخدميك العاديين، ستستخدم خادمًا قياسيًا، على ما أعتقد. :wink:

4 إعجابات

في منتدى الخاص بي، يوجد 200-250 مستخدمًا متصلاً بالإنترنت ويتم إنشاء متوسط 300 منشور يوميًا. لذلك لا يمكن تسميته بالكثير، ولهذا قلت قياسي. أفهم ما تقصده، لكنني أخطط لاستئجار خادم جديد لأن الخادم السحابي الذي أستخدمه حاليًا لا يسمح بالعديد من الترقيات. شكرًا على إجابتك :slight_smile:

إعجابَين (2)

هذا صعب للغاية الإجابة عليه.

على سبيل المثال، إذا كنت ترغب فقط في اللعب بالـ embeddings، فإن خادم $6 الذي يقوم بذلك على وحدة المعالجة المركزية سيكون كافيًا وسيمنحك الوصول إلى ميزة المواضيع المتشابهة.

الآن إذا كنت تريد AIHelper و AIBot، يمكنك:

  • الدفع لكل مكالمة على OpenAI، وستعتمد التكلفة على استخدامك.

  • تشغيل نموذج لغوي مفتوح المصدر على خادم تملكه للخصوصية. نموذج مثل Llama2-70B-Chat سيحتاج إلى خادم يكلف 10 آلاف ~ 25 ألف شهريًا.

  • تشغيل نموذج لغوي مفتوح المصدر على خدمة الدفع بالساعة، يمكنك تشغيل نسخة مكمّاة من Llama2 في نقاط نهاية HuggingFace مقابل 6.50 دولار في الساعة وستنام تلقائيًا بعد 15 دقيقة بدون طلبات.

مجال تعلم الآلة / عمليات تعلم الآلة يتحرك بسرعة، ووحدات معالجة الرسومات نادرة للغاية وتُطلق نماذج جديدة كل يوم. من الصعب التنبؤ، كلنا نجرب.

5 إعجابات

شكرا لك على شرحك المفصل. سأجرب بعد ذلك بمكون إضافي واحد في كل خطوة. أعتقد أنني سأتعلم بالتفصيل حسب الموقف :slight_smile:

إعجابَين (2)

تم تقسيم منشور إلى موضوع جديد: تطبيق Discourse AI على DigitalOcean