swamidass
(S Joshua Swamidass)
1
我是机器学习领域的专家,但对 Discourse 平台本身并不熟悉。不过,我一直大量使用 Discourse,并且非常喜欢它。
我认为一个非常强大的工具是:编写一个脚本(通过与 API 交互)来实现以下功能:
-
分析标签使用情况,并基于数据自动为话题添加标签。例如,如果某个标签是“食谱”,且已有部分话题被标记为“食谱”,机器学习算法可以识别出其他也应标记为“食谱”的帖子。
-
分析话题内容,提出新标签建议,并自动为相关话题添加这些标签。
我认为正确的实现方式应使用 Python,并且独立于 Discourse 的核心实现。通过良好的软件设计,可以将自然语言处理(NLP)和机器学习(ML)模块与与 Discourse 交互的代码分离开来。通过 API 与 Discourse 交互,可以支持开发任意 ML 代码,并构建一个开源的 Python 包,让机器学习社区能够独立于 Discourse 发行版进行贡献。此外,一个良好的接口还可能支持以其他方式将 ML 应用于 Discourse 论坛管理。
因此,我有意开发一个初始版本的 ML/NLP 模块来实现自动标签功能,并将其作为开源库发布。
是否有熟悉 Discourse API 的开发者愿意协助完成该项目/库中与 Discourse 通信相关的部分?这是目前团队中缺失的关键环节。在我们正式启动之前,需要有人负责这部分工作。
此外,是否有其他学者或专家希望参与 ML/NLP 的开发工作?
swamidass
(S Joshua Swamidass)
2
sam
(Sam Saffron)
3
我建议在此处利用 Webhooks,您可以从 Python 应用中消费这些 Webhooks,并通过我们的 API 做出响应。
很期待看到实际效果如何。
另一个值得关注的方向是使用 word2vec 或某种将句子转换为向量的方法,以识别 Support 频道中的话题相似性。许多问题常以不同方式被反复提出,将相关信息整合起来会大有裨益。
@swamidass 听起来是个有趣的项目!如果是开源的,我很乐意加入并提供帮助。
swamidass
(S Joshua Swamidass)
7
@samamorgan,你能否编写一些接口代码,通过 API 将 Discourse 信息导入到 Neo4j?原来这无需任何 Python 代码即可完成。Neo4j 提供了相应的接口来实现这一功能。请参考 Twitter 和 StackExchange 的示例:
以下内容也相关:
如果你心中已有项目构想,不妨先创建一个 Git 仓库并梳理流程。如果你在此处分享链接,我很乐意在时间允许的情况下加入并贡献力量。
swamidass
(S Joshua Swamidass)
9