Für die Generierung von KI-Bildunterschriften auf unseren ‘D’-Websites können wir entweder die kostenpflichtigen Pläne von Open_AI nutzen (Sie müssen sogar einen Vorschuss auf Ihrem Konto haben, um überhaupt beginnen zu können) oder die kostenlose und offene Llava Ai Api.
Aber um Anleitungen zur Generierung von Llava API-Schlüsseln zu erhalten, google ich seit 3 Stunden, aber selbst nach dem Ansehen vieler Videos konnte ich keine richtige Richtung finden.
Die Llava-Oberfläche/Website scheint keine Option zu haben, die benötigten API-Schlüssel direkt zu generieren:
Ich denke, es wäre für die Benutzer sehr wertvoll, wenn es nur einen ‘kleinen Link’ gäbe, der neugierige Benutzer in die richtige Richtung lenken könnte. Ähnlich wie dieser:
Aber ich habe festgestellt, dass es mir vielleicht nur einen Schritt vorwärts geholfen hat. Denn während bei Google Gemini alles, was von Gemini abhing, sofort perfekt funktionierte, sobald ich diesen Schlüssel in meinen D-Site-Einstellungen eingegeben habe.
Aber selbst nachdem ich diesen Hugging Face API Secret Key (zu dem Sie mich geführt haben) in die Disco-Einstellungen eingegeben habe, gibt die Bildunterschrift ‘Error 500’ aus (dieselbe Bildunterschrift funktioniert ok, wenn ich ‘Open-Ai Gpt4-Vision Preview’ als Bildunterschriftsmodell wähle).
Und auch, weil Llava anders zu sein scheint, da es so viele leere Felder in den D-Site-Einstellungen gibt, die Hugging Face oder Llava heißen (warum sie Llava an einer Stelle und Hugging Face an einer anderen verwenden, trägt ebenfalls zur Verwirrung bei), bin ich sicher, dass diese nicht überflüssig sein werden.
Können Sie mir also eine Ressource im Internet nennen, die mir helfen könnte, die Werte für all diese leeren Felder in den D-Site-Einstellungen zu erhalten oder diese ordnungsgemäß zu implementieren?
Für LLaVa unterstützen wir derzeit nur das Self-Hosting über das Container-Image ghcr.io/xfalcox/llava:latest.
Wenn Sie Zugriff auf einen Server mit einer GPU mit mindestens 24 GB VRAM haben, können Sie ihn selbst hosten. Andernfalls empfehle ich, bei GPT-4V zu bleiben.