Como configurar o Discourse AI para uso apenas interno

Estou usando o Discourse AI e o conectei a uma API de LLM externa, juntamente com algumas extensões (que acarretam custos adicionais).

Por causa disso, eu gostaria de configurá-lo para que não use essas extensões e, em vez disso, dependa apenas do próprio LLM como um auxiliar do fórum — para coisas como pesquisa interna, sumarização ou outros recursos que funcionam puramente dentro do fórum.

O principal motivo é reduzir o custo de complementos pagos (por exemplo, pesquisa web externa), então estou procurando orientação sobre como configurar as coisas dessa maneira.

Obrigado.

Editar:

Recebi uma resposta do provedor dizendo que esta solicitação foi cobrada pela pesquisa na web porque a IA citou fontes como BBC e Reuters, entre outras, o que acionou automaticamente o modo de evidência/pesquisa do modelo.

Então, isso significa que isso não está relacionado às configurações do Discourse e não há como desativar esse comportamento do lado do provedor?

Existe alguma solução alternativa para isso?

O provedor sugeriu mudar para um modelo com menos “pensamento” e evitar modelos flash ou instinto, mas isso também significa capacidade reduzida de raciocínio e computação.

**Esta mensagem foi traduzida do tailandês usando uma ferramenta de tradução, então peço desculpas antecipadamente se algo estiver pouco claro ou ligeiramente incorreto.

o que você quer dizer com extensões? presumo que para pesquisa na web?

Eu tenho 2 sites auto-hospedados executando todos os meus recursos do Discourse AI com Gemini no Google Cloud, e estou usando a API do Google Custom Search Engine para o pesquisador da web (100 consultas gratuitas/dia). Eu uso o Gemini 2.5 flash lite para o máximo possível, como resumir e criar gists, 2.5 flash para tradução e os vários outros modelos Gemini para tarefas mais específicas e de raciocínio (como Gemini flash image, por exemplo).

talvez este tópico lhe interesse

2 curtidas

Ah, entendi — obrigado por esclarecer! Sim, eu estava pensando em “extensões” no sentido de pesquisa na web ou recursos extras de IA.

Para minha configuração, estou usando a API MiMo da Xiaomi, que me dá 1000 requisições por mês. Qualquer uso de extensões adicionais conta a mais com base no uso, e infelizmente não posso desativar isso. O provedor mencionou que depende do comprimento e da complexidade do prompt — por exemplo, se eu ou meus usuários inserirem algo como “pesquise as últimas notícias sobre…”, quer isso exista ou não no meu fórum, o modelo fará uma pesquisa na web em paralelo. Eu realmente não tenho controle sobre esses custos extras.

Eu não preenchi nenhuma chave de API do Google Custom Search Engine — eu apenas deixo isso em branco e uso as configurações padrão para o Forum Helper.

Eu estava me perguntando se existe alguma maneira inteligente de lidar com isso? Se eu tentar limitar os créditos no nível do provedor, acabo restringindo todos os modelos que estou executando.

Além disso, desculpe se meu inglês está um pouco difícil de entender — estou usando um tradutor para me comunicar :slightly_smiling_face:

você deve ser capaz de postar no seu idioma nativo aqui, localização de conteúdo e tradução por IA estão ativados.

1 curtida

Obrigado pelas orientações sobre o uso do idioma.

Resumo do problema que estou enfrentando (explicação simples)

  • Estou usando o Discourse AI em um site auto-hospedado.
  • O LLM que estou usando é a API MiMo da Xiaomi, que oferece uma cota de 1000 requisições por mês.
  • O problema é que o uso de certas extensões (como a busca na web) gera custos adicionais com base no uso e não podem ser desativadas pelo provedor.

O provedor explica que:

  • O custo depende do comprimento e da natureza do prompt.
  • Por exemplo, se eu ou um usuário digitar algo como “Pesquisar as últimas notícias sobre…”, independentemente de haver informações no meu fórum, o modelo pode buscar informações na web automaticamente em conjunto.

Isso me faz ter:

  • Dificuldade em controlar os custos, pois são os usuários que digitam os prompts.

Eu não inseri a chave da API do Google Custom Search Engine.

Deixei este campo em branco e estou usando a configuração padrão (default) do Forum Helper.

Se eu tentar limitar o crédito no lado do provedor:

  • Isso limitaria todos os modelos que estão sendo usados.
  • Não é possível limitar apenas um modelo ou um recurso específico.

Este é um exemplo de log que consegui verificar:

Generation details
Model: MiMo-V2-Flash
Model ID: xiaomi/mimo-v2-flash
Provider: Xiaomi

First token latency: 12.77 seconds
Throughput: 1.5 tokens/second
Finish reason: stop
Data policy: No data training | Policy

Tokens:
- Prompt: 38065
- Completion: 20

Web search:
- Results: 5

Costs:
- Subtotal: 0
- Web search cost: 0.02
- Final cost: 0.02

Creator: hidden 
Generation ID: hidden 

Se você está se referindo ao uso de LLM Local, eu ainda não tenho planos de aumentar os gastos. No servidor, isso exige muito processamento para mais de 20 usuários simultaneamente, então este plano não será implementado. Eu gostaria de focar no uso de APIs externas, como Groq ou OpenRouter, que são mais econômicas, e tentar controlar os custos nessa área.

Obrigado pelo suporte.

Eu já encontrei a resposta. Pelos meus testes e observações, a pesquisa na web estava sendo acionada em todos os modelos que usei (ou pelo menos em todos os modelos que tentei), mesmo depois de trocar de modelo. Isso parece ser um problema no lado do provedor.

O problema é que a pesquisa na web se torna um custo oculto indesejado que não consigo controlar adequadamente ou desativar completamente, mesmo quando não é necessária.

Eu já limpei minha conta, cancelei o serviço com este provedor e agora estou procurando um provedor diferente.

Obrigado novamente.