大家好,
我是新来的,如果我在重复老生常谈,先说声抱歉。
我同意 @sam 的观点,这里确实有个“深坑”,但另一方面,主题建模技术现在已经相当成熟,市面上也有现成的优秀工具。我最近的一个项目分析了约 500 万份专利标题和摘要;在我新搭建的 Discourse 社区 站点 上分析成千上万个主题简直是小菜一碟。而且,我的社区成员也有意愿推动这件事落地。
想请教各位专家:我是否应该考虑开发一个插件?还是应该直接修改 Discourse 的源代码(我已从 GitHub 下载)?
我找到了这篇关于用 Python 抓取 Discourse 论坛主题的帖子 链接,但尚未成功运行。类似的方法应该能让我将数据拉取到本地,构建模型,以便后续查询加载。
顺便提一下,大多数优秀的工具都是基于 Python 的……