لتوليد تسميات توضيحية للصور بالذكاء الاصطناعي على مواقعنا ‘D’، يمكننا إما استخدام الخطط المدفوعة لـ Open_AI (تحتاج إلى الاحتفاظ برصيد ائتماني مسبق في حسابك حتى للبدء)، أو واجهة برمجة تطبيقات Llava Ai المجانية والمفتوحة.
ولكن للحصول على بعض الإرشادات حول كيفية إنشاء مفاتيح واجهة برمجة تطبيقات Llava، كنت أبحث في جوجل لمدة 3 ساعات، ولكن حتى بعد مشاهدة العديد من مقاطع الفيديو، لم أتمكن من الحصول على أي توجيه في الاتجاه الصحيح.
لا يبدو أن واجهة/موقع Llava يحتوي على أي خيار لإنشاء مفاتيح واجهة برمجة التطبيقات المطلوبة مباشرة:
لكنني وجدت أنه ربما ساعدني فقط على التقدم خطوة واحدة. لأنه بينما بالنسبة لـ Google Gemini بمجرد أن ملأت هذا المفتاح في إعدادات D-Site الخاصة بي، بدأ كل شيء يعتمد على Gemini في العمل بشكل مثالي.
ولكن حتى بعد ملء مفتاح Hugging Face API السري هذا (الذي أرشدتني إليه) في إعدادات Disco، فإن Image Captioning يعطي ‘Error 500’ (نفس Image Captioning يعمل بشكل جيد إذا اخترت ‘Open-Ai Gpt4-Vision Preview’ كنموذج Image Captioning).
وأيضًا، لأن Llava يبدو مختلفًا حيث توجد العديد من الحقول الفارغة في إعدادات D-Site المسماة Hugging Face أو Llava (لماذا يستخدمون Llava في مكان واحد و Hugging Face في مكان آخر يضيف أيضًا إلى الارتباك)، فأنا متأكد من أنها لن تكون زائدة عن الحاجة.
لذا، هل يمكنك توجيهي إلى بعض الموارد على الإنترنت، والتي يمكن أن تساعدني في الحصول على قيم لجميع هذه الحقول الفارغة في إعدادات D-Site، أو في تنفيذ هذا بشكل صحيح.
بالنسبة لـ LLaVa، نحن ندعم فقط الاستضافة الذاتية عبر صورة الحاوية ghcr.io/xfalcox/llava:latest في الوقت الحالي.
إذا كان لديك وصول إلى خادم مزود بوحدة معالجة رسومات (GPU) بذاكرة وصول عشوائي للفيديو (VRAM) لا تقل عن 24 جيجابايت، يمكنك استضافته ذاتيًا، وإلا فإنني أوصي بالالتزام بـ GPT-4V.