Уточнение конфигурации встраивания API Gemini

RBoy · 15.Октябрь.2025 00:40:25

@Falco 2 Уточнение по поводу векторных представлений (embeddings):

Что означает «Длина последовательности» (Sequence length) в настройках векторных представлений? Имеет ли это отношение к «Лимиту входных токенов» (Input token limit), описанному здесь: https://ai.google.dev/gemini-api/docs/embeddings#model-versions
Как ограничить частоту запросов к API векторных представлений? Мне пришлось сбросить модель векторных представлений из-за устаревания старой модели от Gemini, и теперь она пытается сгенерировать новые векторы для всего форума (если я правильно понял ваш другой пост). Проблема в том, что это происходит слишком быстро, и я получаю слишком много отказов с кодом 429 от Gemini. Есть ли способ ограничить скорость? Я нахожусь в пределах лимитов RPD/TPM, но на панели управления Gemini видно, что Discourse обращается к API слишком часто. Буду признателен за любые советы (всё работало отлично, пока мне не пришлось создать новую модель векторных представлений из-за устаревания старой модели Gemini).

Всё в пределах лимитов частоты запросов:

но получаю много ошибок 429 (слишком много запросов):

Falco · 15.Октябрь.2025 15:36:29

Да, для этой конкретной модели он составляет 2048, но вы можете настроить его на меньшее значение, чтобы перестраховаться, поскольку в API Gemini отсутствует параметр автоматического усечения.

Скрытая настройка сайта с именем ai_embeddings_backfill_batch_size. Попробуйте установить значение 50, если ваш провайдер API не справляется с настройками по умолчанию.

RBoy · 16.Октябрь.2025 02:36:54

Спасибо. Значение было установлено на 50, но ошибок по-прежнему тысячи. Я попробую снизить его до 20 и посмотрю, как это сработает.
Возможно, стоит добавить параметр ai_embeddings_backfill_batch_size на экран конфигурации UX для эмбеддингов, так как это может повлиять на многих пользователей, использующих базовые планы Gemini для небольших сайтов (и, возможно, других провайдеров).

RBoy · 16.Октябрь.2025 03:05:40

Кстати, похоже, это размер пакета — количество запросов в одном вызове. Возможно, проблема в количестве запросов в минуту (а не в пакете). Есть ли способ ограничить количество запросов на доотгрузку, отправляемых в минуту или в час?

Также нашел это, если это поможет другим пользователям: новые эмбеддинги Gemini имеют проблемы с лимитами, установленными на 0, если они превышены. Есть временное решение — использовать текстовые эмбеддинги или просто подождать немного и посмотреть, решится ли проблема. Тем не менее, я всё ещё считаю, что было бы хорошей идеей добавить в Discourse опцию ограничения количества API-вызовов в минуту для доотгрузок, чтобы избежать этой проблемы изначально.

P.S.: ОЧЕНЬ КРУТО видеть, что Google тоже использует Discourse — интересно, какой ИИ они используют для поиска по форуму

Тема		Ответов	Просм.
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	12	601	29.02.2024
Gemini Embeddings Issue After Discourse Update to 3.6.0 Beta 2 Support ai	3	222	14.10.2025
Gemini embedding setting not passing output_dimensionality? Support embedding , ai	3	350	08.10.2025
Ai:embeddings:backfill - Handling OpenAI's 400 Error for Excessive Tokens in Embeddings Bug ai	9	936	15.03.2024
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	204	03.11.2025

Уточнение конфигурации встраивания API Gemini

Связанные темы