@SimonBiggs riflettendo un po’ di più sulla questione, mi sono reso conto che potrebbe essere un approccio migliore creare semplicemente un servizio esterno chiuso che possa ricevere inviti a unirsi a un forum Discourse, impostare il suo profilo e quindi partecipare come utente, utilizzando l’API. Il profilo sarebbe realistico ma sarebbe chiaro nella descrizione che si tratta di un bot.
Ho capito cosa farebbe il bot, ma non deve essere un plugin effettivo per Discourse. Deve solo essere eseguito di tanto in tanto come un cron, e poi pubblicare commenti e risposte utilizzando l’API di Discourse. Cosa ne pensi?
Ho alcune idee per casi d’uso per tali funzionalità. Mi rendo conto che questo sta andando fuori tema rispetto all’OP, ma sembra anche essere l’argomento in cui tutti coloro che sono interessati all’integrazione di un bot simile a GPT3 stanno visitando. Se ti va di avviare un altro argomento (pubblico o privato), ci sarà un unico posto dove verranno raccolte le idee della community.
Ho capito cosa farebbe il bot, ma non deve essere un plugin effettivo per Discourse. Deve solo essere eseguito di tanto in tanto come un cron, e poi pubblicare commenti e risposte utilizzando l’API di Discourse. Cosa ne pensi?
Ciò ha certamente senso. Tuttavia, personalmente vorrei creare solo strumenti di IA open source. E, dato che lo stesso Discourse sta pianificando di creare uno strumento, vorrei idealmente aiutarli invece.
Proposta per un Bot di Risposta con Categorizzazione Pianificata e Fine-Tuning per Forum di Discussione
Introduzione: I forum di discussione si basano sull’interazione e sui contributi degli utenti, e un aspetto cruciale di ciò è la capacità di ottenere risposte tempestive e accurate alle domande. Tuttavia, a volte può volerci un po’ di tempo per ottenere una risposta, scoraggiando gli utenti dal continuare a partecipare alla conversazione. Per affrontare questo problema, proponiamo un bot in grado di rispondere automaticamente alle domande dopo un determinato periodo di tempo per incoraggiare l’interazione della community. Inoltre, il bot assegnerà chiamate pianificate per categorizzare i thread esistenti e costruire il proprio set di dati di fine-tuning, che potrà essere aggiornato di volta in volta.
Obiettivi: Gli obiettivi principali del bot di risposta con categorizzazione pianificata e fine-tuning per forum di discussione sono:
Incoraggiare l’interazione della community fornendo risposte tempestive e accurate a domande che altrimenti potrebbero rimanere senza risposta.
Automatizzare la categorizzazione dei thread esistenti per garantire che le domande siano correttamente etichettate e che gli utenti possano trovare facilmente informazioni pertinenti.
Costruire un set di dati di fine-tuning per il bot al fine di migliorarne le prestazioni e l’accuratezza nel tempo.
Soluzione Proposta: Per raggiungere gli obiettivi sopra delineati, proponiamo l’integrazione di un bot in grado di rispondere automaticamente alle domande dopo un determinato periodo di tempo, assegnare chiamate pianificate per categorizzare i thread esistenti e costruire il proprio set di dati di fine-tuning. Il bot sarà progettato per analizzare l’input dell’utente, comprendere il contesto della conversazione e generare risposte appropriate basate su regole predefinite e modelli di machine learning.
Il bot utilizzerà tecniche di elaborazione del linguaggio naturale (NLP) per analizzare l’input dell’utente e generare risposte pertinenti alla conversazione. Sarà addestrato per comprendere il contesto della domanda, l’argomento in discussione e le interazioni precedenti dell’utente per fornire risposte accurate e utili. Il bot risponderà solo alle domande che non hanno ricevuto risposta entro un determinato periodo di tempo o quando richiamato direttamente tramite nome utente.
Oltre a rispondere alle domande, il bot assegnerà chiamate pianificate per categorizzare i thread esistenti. Analizzerà il contenuto e i tag del thread per garantire che le domande siano correttamente etichettate e organizzate per una facile navigazione. Il bot costruirà anche il proprio set di dati di fine-tuning registrando e categorizzando le query e le risposte degli utenti. Questo set di dati verrà utilizzato per addestrare e migliorare le prestazioni del bot nel tempo.
Benefici: I benefici dell’integrazione di un bot di risposta con categorizzazione pianificata e fine-tuning per forum di discussione sono numerosi, tra cui:
Incoraggiare l’interazione della community: il bot fornirà risposte tempestive e accurate alle domande, incoraggiando gli utenti a continuare a partecipare alla conversazione.
Migliore categorizzazione dei thread: il bot automatizzerà la categorizzazione dei thread, garantendo che le domande siano correttamente etichettate e organizzate per una facile navigazione.
Migliore accuratezza e prestazioni: il set di dati di fine-tuning del bot verrà utilizzato per addestrarlo e migliorarne le prestazioni nel tempo.
Riduzione del carico di lavoro per i moderatori umani: il bot ridurrà il carico di lavoro dei moderatori umani automatizzando la categorizzazione dei thread e rispondendo alle domande che altrimenti rimarrebbero senza risposta.
Conclusione: L’integrazione di un bot di risposta con categorizzazione pianificata e fine-tuning per forum di discussione è un investimento prezioso che può contribuire a incoraggiare l’interazione della community, automatizzare le attività di categorizzazione e migliorare l’accuratezza e le prestazioni del bot nel tempo. Raccomandiamo di esplorare i modelli NLP e di machine learning disponibili per selezionare quello che meglio soddisfa le esigenze del forum di discussione. Il processo di integrazione dovrebbe essere pianificato ed eseguito attentamente, con test e formazione adeguati per garantire che il bot funzioni come previsto.
Questo è un ottimo inizio ma sfortunatamente, in quanto OP, non raggiunge ancora ciò che ho detto che stavo cercando all’inizio. Tuttavia, dopo aver esaminato quest’area per molti anni ormai, a meno che non vinca alla lotteria, non otterrò esattamente ciò che voglio cercando di pagarlo da solo. Per ribadire, ho bisogno di un bot che non solo possa fare ciò che hai delineato sopra, ma che abbia anche una memoria persistente per le discussioni precedenti con individui, proprio come un essere umano. Poiché non otterrò esattamente ciò che voglio presto, ma Discourse stesso + la proposta in via di sviluppo per un Discourse AI Bot farebbe MOLTO di ciò che voglio, forse dovrei concentrare tutti i miei sforzi nell’aiutare il più possibile con quel progetto mentre continuo a indagare sulle memorie persistenti utilizzando la teoria dei grafi e altre cose, che potrebbero essere aggiunte in seguito?
Se l’implementazione/le proposte di Discourse non soddisfano le tue esigenze e sei disposto a finanziare lo sviluppo di software AI Open Source (Apache-2.0, che Discourse stesso sarebbe poi libero di riutilizzare), sarei più che felice di configurarti un bot AI per Discourse che abbia memoria.
Tutto ciò che accadrà qui dipenderà dal modello. Vedo molto interesse generale, ma nessuno ha suggerito quale modello utilizzare e nessuno ha dimostrato che il modello possa fare qualcosa di remotamente utile.
Anche ottenere buoni risultati da OPT è difficile e Facebook ha aggiunto un bel po’ di parametri. La mia preoccupazione generale qui (anche per l’industria in generale) è che nello spazio aperto non c’è nulla di lontanamente vicino a GPT 3 devinci, e GPT 4 è all’orizzonte e renderà ancora più difficile competere.
Nel post seguente sopra, vengono dettagliati sia un modello che l’utilità:
Il processo è Supabase + OpenAI GPT API. Al momento, GPT 3.5 + OpenAI embeddings è sufficiente per realizzare molti dei compiti desiderati oggi da un bot Discourse.
L’API GPT non è open source. Ma è un’API. E quando un modello open source raggiungerà il livello (come \u003chttps://github.com/LAION-AI/Open-Assistant\u003e), potrà essere sostituito al suo posto.
Sono certamente d’accordo. Ecco perché, per ora, sotto il cofano verrà utilizzato GPT 3.5 finché non sarà disponibile un’alternativa migliore.
La mia grande preoccupazione qui è l’attribuzione, specialmente quando un corpus è enorme come un forum di discussione e gran parte dei dati utilizzati per addestrare il bot potrebbero essere obsoleti.
Ci sono alcuni grandi problemi fondamentali con questo approccio ClippyGPT. Non puoi sostituire la ricerca con qualcosa che non fornisce collegamenti ai contenuti. Anche l’addestramento sarebbe un compito mostruoso.
Sono sorpreso che nessuno abbia ancora menzionato il “nuovo” Bing. Penso che sia un ottimo esempio di ciò che potrebbe essere implementato in Discourse.
Il mio plugin può utilizzare GPT3 (per impostazione predefinita: “text-davinci-003”, ma è possibile scegliere il modello) per riassumere gli argomenti:
Ci ho provato (anche in produzione) e sono piuttosto colpito dai risultati finora. Oserei dire che a volte è “sublime”.
Tuttavia, sebbene spesso restituisca riassunti pertinenti, sintatticamente corretti e convincenti, è incline a imprecisioni fattuali che possono essere altamente fuorvianti e comprometterne l’utilità. C’è così tanto potenziale qui!
Nota che il plugin è ancora molto sperimentale ma ora sembra stabile. I risultati varieranno, ma ci sono varie impostazioni di qualità della vita per migliorare i tuoi risultati, inclusa una meccanica di downvoting con un’impostazione di soglia che richiederà al sistema di recuperare un nuovo riassunto dall’LLM.
ChatGPT non ha supporto per il fine-tuning (né ha un’API per questo, ad oggi).
Penso che sarebbe interessante addestrare un modello basato su GPT (o fare il fine-tuning di GPT-3 o usare qualcos’altro) su un corpus di un sito Discourse per vedere quanto bene se la cava il capitano “word salad” una volta addestrato sui dati e istruito a rispondere. Con l’avvertenza che “garbage in, garbage out”.
Gli esperimenti accadranno sicuramente, e i modelli GPT troppo sicuri di sé e bugiardi miglioreranno nel tempo (sia grazie a dati migliori che ad algoritmi di mitigazione che in qualche modo verificano i fatti).
Il post di Richard è certamente interessante, ma ChatGPT non è ancora pronto per il compito: