Hola,
Soy nuevo aquí, así que disculpa si estoy insistiendo en algo ya resuelto.
Estoy de acuerdo con @sam en que hay un camino complejo, pero por otro lado, la tecnología de modelado de temas es bastante madura hoy en día y existen herramientas listas para usar muy buenas. Un proyecto reciente mío analizó aproximadamente 5 millones de títulos y resúmenes de patentes; analizar del orden de miles de temas en mi nuevo y brillante sitio de Discourse sitio sería pan comido. Además, mi comunidad podría tener la energía necesaria para hacerlo realidad.
A los expertos: Me gustaría recibir consejos sobre si debería pensar en diseñar un plugin o si debería modificar el código fuente de Discourse (que he descargado de GitHub).
Encontré esto sobre cómo extraer temas de un foro de Discourse con Python, pero aún no he logrado que funcione. Algo similar debería permitirme extraer los datos de forma offline, construir el modelo y cargarlo para consultas posteriores.
Por cierto, la mayoría de las buenas herramientas están en Python.