Come configurare Discourse AI per uso solo interno

Sto utilizzando Discourse AI e l’ho collegato a un’API LLM esterna, insieme ad alcune estensioni (che comportano costi aggiuntivi).

Per questo motivo, vorrei configurarlo in modo che non utilizzi tali estensioni, ma si affidi solo all’LLM stesso come aiuto per il forum, per cose come la ricerca interna, la sintesi o altre funzionalità che funzionano puramente all’interno del forum.

Il motivo principale è ridurre il costo dei componenti aggiuntivi a pagamento (ad esempio, la ricerca web esterna), quindi sto cercando indicazioni su come configurare le cose in questo modo.

Grazie

Modifica:

Ho ricevuto una risposta dal fornitore che afferma che questa richiesta è stata addebitata per la ricerca web perché l’IA ha citato fonti come BBC e Reuters, tra le altre, il che ha innescato automaticamente la modalità di prova/ricerca del modello.

Quindi, questo significa che non è correlato alle impostazioni di Discourse e non c’è modo di disabilitare questo comportamento dal lato del fornitore?

C’è qualche soluzione alternativa per questo?

Il fornitore ha suggerito di passare a un modello con meno “pensiero” ed evitare i modelli flash o instinct, ma ciò significa anche una ridotta capacità di ragionamento e calcolo.

Questo messaggio è stato tradotto dal tailandese utilizzando uno strumento di traduzione, quindi mi scuso in anticipo se qualcosa non è chiaro o leggermente errato.

cosa intendi per estensioni? Immagino per la ricerca web?

Ho 2 siti self-hosted che eseguono tutte le mie funzionalità di Discourse AI con Gemini su Google Cloud, e sto usando Google Custom Search Engine API per il ricercatore web (100 query gratuite/giorno). Uso Gemini 2.5 flash lite per il più possibile, come riassunti e gisti, 2.5 flash per la traduzione, e i vari altri modelli Gemini per compiti più specifici e di ragionamento (ad esempio, Gemini flash image).

forse questo argomento potrebbe interessarti

2 Mi Piace

Ah, ho capito, grazie per aver chiarito! Sì, pensavo a “estensioni” nel senso di ricerca web o funzionalità AI aggiuntive.

Per la mia configurazione, sto utilizzando l’API MiMo di Xiaomi, che mi fornisce 1000 richieste al mese. Qualsiasi utilizzo di estensioni aggiuntive viene conteggiato in più in base all’utilizzo, e sfortunatamente non posso disattivarlo. Il fornitore ha menzionato che dipende dalla lunghezza e dalla complessità del prompt: ad esempio, se io o i miei utenti inseriamo qualcosa come “cerca le ultime notizie su…”, che esista o meno sul mio forum, il modello eseguirà una ricerca web in parallelo. Non ho alcun controllo su quei costi aggiuntivi.

Non ho inserito alcuna chiave API di Google Custom Search Engine: lascio semplicemente quel campo vuoto e utilizzo le impostazioni predefinite per Forum Helper.

Mi chiedevo se ci fosse un modo intelligente per gestire questo? Se provo a limitare i crediti a livello di fornitore, finisce per limitare tutti i modelli che sto eseguendo.

Inoltre, scusate se il mio inglese è un po’ difficile da seguire, sto usando un traduttore per comunicare :slightly_smiling_face:

dovresti essere in grado di pubblicare nella tua lingua madre qui, la localizzazione dei contenuti e la traduzione automatica sono abilitate.

1 Mi Piace

Grazie per il consiglio sull’uso della lingua.

Riepilogo del problema che sto riscontrando (spiegato in modo semplice)

  • Utilizzo Discourse AI su un sito web self-hosted.
  • L’LLM utilizzato è MiMo API di Xiaomi, che fornisce una quota di 1000 richieste al mese.
  • Il problema è che l’utilizzo di alcune estensioni (come la ricerca web) comporta costi aggiuntivi in base all’utilizzo e non possono essere disattivate dal fornitore.

Il provider spiega che:

  • I costi dipendono dalla lunghezza e dalla natura del prompt.
  • Ad esempio, se io o un utente scriviamo “Cerca le ultime notizie su…”, indipendentemente dal fatto che l’informazione sia presente nel mio forum, il modello potrebbe cercare automaticamente informazioni dal web in parallelo.

Questo mi porta a:

  • Avere difficoltà a controllare i costi perché sono gli utenti a digitare i prompt.

Non ho inserito la chiave API di Google Custom Search Engine.

Ho lasciato questo campo vuoto e sto utilizzando le impostazioni predefinite (default) di Forum Helper.

Se provo a limitare il credito dal lato del provider:

  • Limiterà tutti i modelli che sto utilizzando.
  • Non è possibile limitare solo modelli o funzionalità specifiche.

Ecco un esempio di log che ho potuto controllare:

Generation details
Model: MiMo-V2-Flash
Model ID: xiaomi/mimo-v2-flash
Provider: Xiaomi

First token latency: 12.77 seconds
Throughput: 1.5 tokens/second
Finish reason: stop
Data policy: No data training | Policy

Tokens:
- Prompt: 38065
- Completion: 20

Web search:
- Results: 5

Costs:
- Subtotal: 0
- Web search cost: 0.02
- Final cost: 0.02

Creator: hidden 
Generation ID: hidden 

Se intendi utilizzare un LLM locale, non ho ancora intenzione di aumentare le spese. Sul server richiede molta elaborazione per più di 20 utenti contemporaneamente, quindi questo piano non verrà implementato. Vorrei concentrarmi sull’utilizzo di API esterne, come groq, openrouter, che sono più economiche e cercare di controllare i costi in questa parte.

Grazie per il supporto.

Ho già trovato la risposta. Dai miei test e osservazioni, la ricerca web veniva attivata su ogni modello che utilizzavo (o almeno su ogni modello che ho provato), anche dopo aver cambiato modello. Questo sembra essere un problema lato fornitore.

Il problema è che la ricerca web diventa un costo nascosto indesiderato che non posso controllare o disattivare completamente, anche quando non è necessaria.

Ho già svuotato il mio account, annullato il servizio con questo fornitore e ora sto cercando un fornitore diverso.

Grazie ancora.