Для генерации подписей к изображениям с помощью ИИ на наших сайтах «D» мы можем использовать платные тарифы OpenAI (для начала работы даже необходимо иметь определённый остаток кредитов на счёте) или бесплатный и открытый API Llava AI.
Однако, чтобы получить инструкции по созданию ключей API для Llava, я уже три часа ищу в Google, но, несмотря на просмотр множества видео, так и не смог найти чётких направлений.
Интерфейс/веб-сайт Llava, похоже, не предоставляет возможности сразу сгенерировать необходимые ключи API:
Думаю, для пользователей было бы очень ценно, если бы существовала хотя бы «маленькая ссылка», которая могла бы направить любопытных пользователей в нужное русло. Что-то вроде этого:
Однако я обнаружил, что это, возможно, помогло мне продвинуться лишь на один шаг. Дело в том, что с Google Gemini всё заработало сразу, как только я ввёл ключ в настройки D-Site — всё, что зависит от Gemini, начало работать безупречно.
Но даже после ввода этого секретного ключа API Hugging Face (который вы мне указали) в настройках Disco, функция подписей к изображениям выдаёт ошибку 500 (хотя та же функция работает нормально, если выбрать в качестве модели подписей «Open-AI GPT-4-Vision Preview»).
Кроме того, поскольку Llava, похоже, отличается, и в настройках D-Site есть множество пустых полей, названных «Hugging Face» или «Llava» (неясно, почему в одном месте используется Llava, а в другом — Hugging Face, что лишь усиливает путаницу), я уверен, что эти поля не дублируют друг друга.
Можете ли вы направить меня к какому-либо ресурсу в интернете, который помог бы мне получить значения для всех этих пустых полей в настройках D-Site или правильно реализовать эту функциональность?
На данный момент для LLaVa поддерживается только самостоятельное развертывание через образ контейнера ghcr.io/xfalcox/llava:latest.
Если у вас есть доступ к серверу с GPU, имеющим не менее 24 ГБ видеопамяти, вы можете развернуть его самостоятельно. В противном случае мы рекомендуем использовать GPT-4V.