Sono un esperto di machine learning, ma non di Discourse. Tuttavia, lo uso molto e mi piace davvero.
Uno strumento che ritengo molto potente sarebbe uno script da eseguire (interagendo con l’API) in grado di:
Analizzare l’uso dei tag e assegnare automaticamente i tag ai topic basandosi sui dati. Ad esempio, se un tag in uso è “ricetta” e alcuni topic sono etichettati con “ricetta”, un algoritmo di machine learning potrebbe identificare altri post che dovrebbero essere contrassegnati con “ricetta”.
Esaminare i topic per proporre nuovi tag e assegnarli automaticamente ai topic pertinenti.
Credo che la corretta implementazione di questa soluzione dovrebbe essere in Python, separata dall’effettiva implementazione di Discourse. Con un buon design del software, l’NLP e il ML sarebbero distinti dal codice che interagisce con Discourse. Interagendo con Discourse tramite l’API, si permetterebbe lo sviluppo di codice ML arbitrario e la creazione di un pacchetto Python open source con contributi dalla comunità ML, essenzialmente indipendentemente dalla distribuzione di Discourse. Un’interfaccia solida potrebbe anche abilitare l’applicazione del ML alla gestione dei forum Discourse in altri modi.
Quindi, sono interessato a sviluppare una prima versione del ML/NLP per implementare un assegnatore automatico di tag e rendere questa una libreria open source.
Ci sono sviluppatori di Discourse familiari con l’API che sarebbero interessati ad aiutare con la componente di comunicazione di Discourse di questo progetto/libreria? Questa è una componente critica del team che manca. Abbiamo bisogno di qualcuno in grado di farlo prima di poter iniziare.
Ci sono altri accademici/esperti che vorrebbero partecipare allo sviluppo del ML/NLP?
Consiglierei di fare affidamento sui webhook: consumeresti il webhook dalla tua app Python e reagiresti ad esso utilizzando la nostra API.
Sono curioso di vedere come andrà.
Un’altra area che potrebbe essere interessante è l’uso di word2vec o di qualche tipo di conversione da frase a vettore per determinare la somiglianza degli argomenti in Support… molte domande vengono poste molte volte in modi diversi, e mettere insieme le informazioni può essere molto utile.
@samamorgan, puoi scrivere del codice per un’interfaccia che importi (tramite API) le informazioni di Discourse in Neo4j? Si scopre che è possibile farlo senza alcun codice Python. Neo4j dispone di un’interfaccia per farlo. Consulta gli esempi di Twitter e StackExchange:
Se hai un progetto in mente, inizia un repository git e delinea il processo. Sarò felice di unirmi e contribuire quando il tempo lo consente, se ne fornisci il collegamento qui.