Ciao,
Sono nuovo qui, quindi scusa se sto martellando un cavallo morto.
Concordo con @sam sul fatto che ci sia un burrone, ma d’altro canto la tecnologia di topic modeling è ormai piuttosto matura e esistono strumenti pronti all’uso molto efficaci. Un mio recente progetto ha analizzato circa 5 milioni di titoli e abstract di brevetti; analizzare un ordine di grandezza di migliaia di argomenti sul mio splendido nuovo sito Discourse sito sarebbe un gioco da ragazzi. Inoltre, la mia comunità potrebbe avere l’energia per renderlo possibile.
Dagli esperti: vorrei un consiglio su se dovrei pensare a progettare un plugin o se dovrei intervenire direttamente sul codice sorgente di Discourse (che ho scaricato da GitHub).
Ho trovato questo riguardo all’estrazione di argomenti da un forum Discourse con Python, ma non sono ancora riuscito a farlo funzionare. Una soluzione simile dovrebbe permettermi di estrarre i dati offline, costruire il modello e renderlo caricabile per successive query.
La maggior parte degli strumenti migliori è in Python, a titolo di informazione…