Oi,
Sou novo por aqui, então desculpe se estou batendo em porta fechada.
Concordo com @sam de que há um caminho sem saída, mas, por outro lado, a tecnologia de modelagem de tópicos está bastante madura hoje em dia, e existem ferramentas prontas muito boas. Um projeto recente meu analisou cerca de 5 milhões de títulos e resumos de patentes; analisar ordens de milhares de tópicos no meu novo e brilhante site Discourse site seria um bolo de chocolate. Além disso, minha comunidade pode ter energia para fazer isso acontecer.
Dos especialistas: Gostaria de conselhos sobre se devo pensar em projetar um plugin ou se devo pensar em mexer no código-fonte do Discourse (que baixei do GitHub)?
Encontrei isso sobre raspagem de tópicos do Discourse com Python, mas ainda não consegui fazer funcionar. Algo assim permitiria que eu baixasse os dados offline, construísse o modelo e o carregasse para consultas posteriores.
A maioria das boas ferramentas está em Python, só para constar…