Questa è una guida destinata all’esecuzione delle proprie istanze dei servizi che alimentano i moduli di Discourse AI.
Introduzione
Se si desidera utilizzare Discourse AI sulla propria istanza self-hosted, potrebbe essere necessario eseguire anche i servizi complementari per i moduli che si desidera abilitare.
Ogni modulo ha uno o più servizi complementari necessari, e tali servizi utilizzano più CPU / GPU / spazio su disco rispetto a Discourse stesso, quindi tieni presente che questo non è consigliato per persone non familiari con l’amministrazione di server Linux e Docker.
Riassunto / AI Helper / AI Bot
Embeddings
Sentiment
Esecuzione in produzione
Potrebbe essere opportuno posizionare questo servizio dietro un reverse proxy per abilitare funzionalità come il bilanciamento del carico, TLS, controlli di integrità, limiti di frequenza, ecc. quando si esegue su un sito live.
Dopo che il servizio è attivo e in esecuzione, configura il modulo per connettersi al dominio in cui è in esecuzione il servizio utilizzando l’impostazione del sito appropriata e quindi abilita il modulo.
Composer Helper funziona solo con le API OpenAI o Anthropic per ora, quindi funzionerà perfettamente in situazioni self-hosted a condizione che tu disponga di una di quelle API.
La riassuntivazione richiede un servizio di classificazione locale? O funzionerà solo con una chiave API di OpenAI se si utilizza il modello ChatGPT3.5? L’ho attivato ma non lo vedo nei topics.
Secondo Discourse AI - Summarization puoi usarlo con OpenAI configurando la chiave OpenAI (cosa che hai già fatto), selezionando uno dei modelli GPT come modello di riassunto e abilitando il modulo di riassunto.
Il pulsante di riassunto viene visualizzato solo per i topic con più di 50 risposte al momento, ma lo abiliteremo presto per tutti i topic.
Puoi condividere alcune richieste di esempio? Attualmente sto cercando di configurarlo in un AWS ASG su un’istanza EC2 e non riesco a farlo funzionare; vedo solo 400 bad request nei log di Discourse.
Inoltre, un URL di controllo di integrità sarebbe fantastico, / restituisce un errore 404.
Il riassunto funziona già con le API di OpenAI e Anthropic, quindi ti darà capacità multilingue. Potrebbe essere necessario fare un po’ di hacking per tradurre il prompt in modo che rimanga più ancorato alla lingua dell’argomento.
@Falco Saresti così gentile da fornire un esempio di configurazione del server che disponga di ‘abbondante CPU / GPU / disco’ e possa eseguire l’IA self-hosted accanto a un forum Discourse medio?
Vorrei vederlo anch’io, per favore. Inoltre, considerando il requisito di risorse, sarebbe meglio (possibile, più conveniente?) scaricare i servizi AI companion su un VPS separato?
Dipende dai modelli e dai moduli esatti di Discourse AI che si desidera eseguire. Ad esempio, il modulo di tossicità utilizza 5 GB e quello NSFW utilizza 1 GB di RAM. Lo spazio su disco è simile, e CPU/GPU vengono utilizzati per l’inferenza, quindi le tue esigenze dipendono dal numero di richieste al secondo che ti aspetti di avere.
1 utente utilizza in media circa 100 parole (o token) al giorno per ciascun modulo AI
Esecuzione di tutti e 6 i moduli AI
0,0008 * 6 = 0,0048
Costo mensile totale per utente: 0,0048 * 30 = 0,144
I requisiti minimi del server per l’auto-hosting sono circa:
16 GB di RAM libera, 32 preferiti
CPU da 3,5 GHz o superiore e 8 core o più
SSD da 100 GB
Il server a costo più basso che soddisfa questi requisiti su Digital Ocean è:
RAM da 16 GB
8 vCPU Intel Premium (oltre 3,5 GHz)
Larghezza di banda: 6.000 GiB
SSD: 2x 200 GiB
Costo mensile: 244,00 $
Quindi, l’auto-hosting di ChatGPT4 sarà più conveniente rispetto all’utilizzo del suo servizio API quando Discourse avrà circa 2.000 utenti attivi al mese.
Con un arrotondamento piuttosto approssimativo e generoso. Ti sembra corretto @Falco
Alcuni LLM sono open source come Falcon o vari modelli basati su LLaMA (che presentano problemi di licenza) possono essere auto-ospitati, ma finora sono tutti inferiori a GPT 4 o persino a 3.5.
Il tuo calcolo approssimativo lì è completamente sbagliato, se hai intenzione di auto-ospitare un LLM, probabilmente vorrai una A100 o una H100, magari alcune di esse… prova a cercare i prezzi su Google…
Comunque, proverò a contribuire con qualcosa e tornerò per aggiornarlo quando avrò dei dati utente da confrontare.
Ecco i calcoli che ho eseguito per l’utilizzo dell’API di ChatGPT3.5 con i moduli sopra, basati sulla vaga supposizione che un utente attivo medio in un mese generi in media 100 parole per esecuzione:
Costi API ChatGPT3.5
$0,0003 per 100 parole in un’esecuzione
1 utente attivo genera in media circa 100 parole al giorno su ciascun modulo AI
Costo mensile medio per plugin/componente AI: 0,009
6 = $0,054
Ciò si traduce in un costo mensile totale per utente per tutti e 6 i plugin di $0,054 se vengono eseguiti su ChatGPT3.5.
Grazie. I prezzi attuali sono riportati qui per chiunque si chieda cosa sia un g4dn.xlarge. Spero che tu possa pubblicare dati di utilizzo a un certo punto in modo da poter avere un’idea dei costi reali.