Как ограничить частоту запросов к API векторных представлений? Мне пришлось сбросить модель векторных представлений из-за устаревания старой модели от Gemini, и теперь она пытается сгенерировать новые векторы для всего форума (если я правильно понял ваш другой пост). Проблема в том, что это происходит слишком быстро, и я получаю слишком много отказов с кодом 429 от Gemini. Есть ли способ ограничить скорость? Я нахожусь в пределах лимитов RPD/TPM, но на панели управления Gemini видно, что Discourse обращается к API слишком часто. Буду признателен за любые советы (всё работало отлично, пока мне не пришлось создать новую модель векторных представлений из-за устаревания старой модели Gemini).
Да, для этой конкретной модели он составляет 2048, но вы можете настроить его на меньшее значение, чтобы перестраховаться, поскольку в API Gemini отсутствует параметр автоматического усечения.
Скрытая настройка сайта с именем ai_embeddings_backfill_batch_size. Попробуйте установить значение 50, если ваш провайдер API не справляется с настройками по умолчанию.
Спасибо. Значение было установлено на 50, но ошибок по-прежнему тысячи. Я попробую снизить его до 20 и посмотрю, как это сработает.
Возможно, стоит добавить параметр ai_embeddings_backfill_batch_size на экран конфигурации UX для эмбеддингов, так как это может повлиять на многих пользователей, использующих базовые планы Gemini для небольших сайтов (и, возможно, других провайдеров).
Кстати, похоже, это размер пакета — количество запросов в одном вызове. Возможно, проблема в количестве запросов в минуту (а не в пакете). Есть ли способ ограничить количество запросов на доотгрузку, отправляемых в минуту или в час?
Также нашел это, если это поможет другим пользователям: новые эмбеддинги Gemini имеют проблемы с лимитами, установленными на 0, если они превышены. Есть временное решение — использовать текстовые эмбеддинги или просто подождать немного и посмотреть, решится ли проблема. Тем не менее, я всё ещё считаю, что было бы хорошей идеей добавить в Discourse опцию ограничения количества API-вызовов в минуту для доотгрузок, чтобы избежать этой проблемы изначально.
P.S.: ОЧЕНЬ КРУТО видеть, что Google тоже использует Discourse — интересно, какой ИИ они используют для поиска по форуму