Небольшое обновление: нам не удалось настроить прямое подключение к API OpenAI в корпоративном диапазоне IP-адресов. Cloudflare отправлял пакеты RST примерно через 1 мс после установления TLS-соединения.
Поэтому мы развернули шлюз Cloudflare AI как прямую замену URL конечной точки API OpenAI, и он безупречно работает с конфигурацией LLM.
Похоже, что у Cloudflare есть недокументированная политика ограничения скорости для неизвестных диапазонов IP-адресов (то есть не Azure, AWS, GCP и т. д.), которая вступает в силу. Пул из 100 соединений для Embeddings превышал этот лимит.
Кстати, в Cloudflare есть функция аутентифицированного шлюза, которая добавляет специальный токен в заголовок.
Из их документации:
curl https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_id}/openai/chat/completions \
--header 'cf-aig-authorization: Bearer {CF_AIG_TOKEN}' \
--header 'Authorization: Bearer OPENAI_TOKEN' \
--header 'Content-Type: application/json' \
--data '{"model": "gpt-4o" ........
Было бы здорово, если бы в экране конфигурации LLM появилась возможность добавлять заголовки для каждой LLM.
Тогда мы могли бы добавлять ключ и значение cf-aig-authorization для каждой LLM при каждом вызове.
