我想知道,随着 LLM 的最新进展,是否可以浏览用户帖子和阅读历史记录,为他们提供推荐信息流?
这对我们以问答为中心的用例来说将是一个很棒的功能。我们有许多不同的类别,用户(同事)非常活跃,并且有大量非常有用的信息,但他们根本看不到。一个好的推荐列表将帮助我们的一些用户在他们试图解决的问题上 领先 一步。
我想我们理想中的功能是,根据用户已经表现出兴趣的工具和对话,列出他们正在讨论的常见、重要和热门的错误。
我想知道,随着 LLM 的最新进展,是否可以浏览用户帖子和阅读历史记录,为他们提供推荐信息流?
这对我们以问答为中心的用例来说将是一个很棒的功能。我们有许多不同的类别,用户(同事)非常活跃,并且有大量非常有用的信息,但他们根本看不到。一个好的推荐列表将帮助我们的一些用户在他们试图解决的问题上 领先 一步。
我想我们理想中的功能是,根据用户已经表现出兴趣的工具和对话,列出他们正在讨论的常见、重要和热门的错误。
如果您愿意分享该网站的链接,请告知。
作为一名一直在使用 Discourse AI 功能(其中许多功能在我公开发布之前就已经在使用)的用户,我渴望了解更多关于您网站的信息。了解您提到的具体细节将使我能够为 Discourse AI 做出更明智的推荐,同时考虑到您平台的独特之处。
我很想分享,但可惜这是一个大型企业内部实例 ![]()
不过,我可以或许给您一些我们正在做什么的思路。
本质上,它就像一个内部的Stackoverflow,我们在这里分享公司和行业特定的问题,例如“如何配置这个的代理?”或者“我在Google上找不到Bug123的任何结果,还有其他人解决过这个问题吗?”
我们的类别是工具特定的,例如:
目前,如果我阅读/回复Gitlab类别中关于与其他工具(如Kubernetes)集成的主题,我不会收到有关相关主题的通知。因此,如果Kubernetes类别中有一个非常有用的帖子,我可能要很久以后才能看到。我必须自己找到它,或者订阅正确的通知。
我们的大多数用户将不会有好的通知设置:
推荐列表将按需提供潜在有用信息,只需单击一下。本质上是“根据您最近的兴趣,这里有一些可能对您有帮助的主题”。可以根据用户的搜索历史、热门话题、他们参与的话题中的常用关键词等来构建。因此,如果他们从不访问“糟糕的IBM产品”类别,那么该类别中的任何内容都不会被推荐,除非它碰巧触及了他们已经非常感兴趣的内容,例如Gitlab。
我在该网站顶部提供了一个“每日精选”AI摘要,每12小时更新一次,并从过去2天的帖子中提取内容。
该解决方案是专有的,并未包含在公开插件中,但它展示了这一概念。
是的,它确实容易出错!![]()
我一直想让它链接内容……更新:已完成,只需要GPT 4 Turbo和一些提示工程。GPT 3.5无法应对如此程度的指令。
我看到了你那漂亮的打卡机,但我有一个基于Web的票务系统,它不支持markdown ![]()
谢谢,我还没见过这个。如果情况对我们有利,这可能会有帮助,但遗憾的是,它似乎不符合我们目前的限制(我之前忘了提
)。
这些限制基本上就是为什么推荐主题列表对我们来说是个好解决方案:不生成内容,不使用聊天,不使用私信。
这将是一种提供每日摘要的有趣方式。正如你所说,超链接绝对是一个很棒的功能。你有没有考虑过根据用户独特的兴趣集来定制它?是什么让这种方法比依赖现有的每日摘要更有吸引力?
如果能高效地做到这一点,那将是一个非常好的主意……
我怀疑这才是这个请求真正具有挑战性的部分,但同时也蕴含着巨大的价值。
大多数内容托管平台都有某种形式的定制推荐系统,如果Discourse将来不朝着这个方向发展,我会感到惊讶。这比Spotify/Youtube等平台更容易实现,因为所有内容都是基于文本的,消除了图像/声音到对象/文本/概念翻译之间的错误层。
长话短说。
在第一个帖子中,请更跳出思维定势地考虑这个请求。虽然你有很多必须满足的有效限制,但这并不意味着没有可能存在更好的解决方案。
关于相关话题的题外话,我必须说,这几天我看到了成千上万个相关话题,并注意到这个
值得关注的事情。
在审查了英文网站(OpenAI)的许多相关话题帖子后,我开始注意到西班牙语主题倾向于被归为一类,并怀疑如果它们首先被翻译成英文,每个帖子都会有不同的向量,从而与其他帖子聚集在一起。
噩梦 ![]()
我们仍在完善该功能(计划下周公布),但我们的新“使用 AI 生成定期报告”完全契合您的愿景:
生成 meta.discourse.org 的每日摘要
列出关键统计数据,如热门用户以及帖子/话题数量
列出约 10 个有趣的新话题,并简要总结当天的活动
列出约 10 个有趣的老话题,这些话题在当天获得了显著的活动量
列出 @team 组的活动摘要,并内联链接到他们发布的话题
数据来源:所有陈述必须始终附带论坛讨论的链接
Markdown 用法:使用 粗体、斜体、> 引用和 链接 增强可读性
链接:使用 https://meta.discourse.org/t/-/TOPIC_ID/POST_NUMBER 进行直接引用
用户提及:使用 @USERNAME 引用用户
添加大量话题链接:力争在报告中至少链接到 30 个话题。如果必须插入链接,话题 ID 对最终用户毫无意义,请使用 参考 或更好的方式将其嵌入到 句子 中
分类和标签:使用 #TAG 和 #CATEGORY 格式来标注标签和分类
bug 话题对我来说超级重要,请务必优先处理它们,如果您发现任何分类错误的 bug,也请随时突出显示。不要提及内容是否已正确分类。
在提供话题摘要时,请以段落形式呈现,例如:
实验性管理员侧边栏导航 - @martin 引入了实验性管理员侧边栏导航,引发了关于其设计和功能的讨论。像 @packman 和 @Don 这样的用户对缺失条目和移动显示问题提供了反馈,@martin 已确认并正在考虑用于未来更新。阅读更多。
推荐话题列表 - @Tris20 建议在顶部菜单添加推荐话题列表,利用大语言模型(LLM)的进步来根据用户的兴趣定制内容。对话随着 @EricGT、@merefield 等人的贡献而展开,讨论了个性化内容推荐的潜力和挑战。阅读更多。
Discourse 十周年 - @Judy_Hawkins 和 @Quercus 等用户分享了他们对各个 Discourse 社区的感激之情,这些社区影响了他们的生活,庆祝该平台成立十周年。阅读更多。
位置插件 - @Don 报告了位置插件的问题,@merefield 迅速回应,表示愿意调查该问题。阅读更多。
限制用户编辑导航栏 - @Yola 寻求帮助以限制用户编辑导航栏,@JammyDodger 澄清该功能旨在进行个性化定制。@pfaffman 和 @LOCOSP 提供了隐藏编辑按钮的 CSS 解决方案。阅读更多。
上传文件错误 - @Vladimir_P 在上传文件时遇到错误,@JammyDodger 和 @blake 予以解决,最终实施了修复。阅读更多。
创建和安装插件 - @Gaurav_Kumar_Sandan 询问如何在主页上创建和安装插件,@JammyDodger 和 @pfaffman 提供了关于主题组件和插件安装的指导。阅读更多。
DiscoTOC - 自动目录 - @digitaldominica 和 @Arkshine 等用户讨论了 DiscoTOC 组件的问题,这些问题在 Discourse 更新后得到解决。阅读更多。
插件中的自定义用户设置 - @pirhoo 寻求关于从插件创建自定义用户字段的建议,@merefield 提供了资源以协助该过程。阅读更多。
账单详情位置 - @Teresations 需要帮助查找托管在 Communiteq 上的 Discourse 的账单详情,@awesomerobot 和 @RGJ 提供了帮助,指向控制面板。阅读更多。
表情符号行高调整反馈 - @sam 和 @tynaut 讨论了表情符号行高调整对用户状态样式的影响,@tynaut 确认了聊天功能的修复,并正在寻找帖子/消息的解决方案。阅读更多。
使用 FILTER 汇总数据 - @JammyDodger 分享了一个使用 FILTER 函数的 SQL 查询,根据活动摘要偏好对用户数据进行分段,并详细解释了查询的各个组成部分。阅读更多。
沟通风格作为用户个人资料的一部分 - @Saif 和 @simon 讨论了在用户个人资料中实施情感分析以评估沟通风格的潜力和担忧。阅读更多。
回车换行,Shift+Enter 提交聊天消息 - @meglio 提议更改聊天输入行为的配置,得到 @Jagster 和 @Moin 等用户的支持,使多段落消息发送更加用户友好。阅读更多。
无法批准包含投票的用户首帖 - @Firepup650 报告了一个问题,即包含投票的用户首帖因权限错误而无法被批准。阅读更多。
出站通知邮件失败 - @managenet 在尝试更改附件大小限制后遇到了出站通知邮件问题。阅读更多。
无法重建应用,卡在提取某一层 - @LOCOSP 在重建过程中遇到 Docker 层提取问题,寻求如何强制重新拉取文件的建议。阅读更多。
Discourse Launcher / Docker 是否使用本地 Postgresql 和 Redis 服务器? - @dalu74 询问 Discourse 是否使用主机的 Postgresql 和 Redis 安装,@hello-smile6 对此进行了澄清。阅读更多。
如需更多详细信息和讨论,请访问 meta.discourse.org。
具体来说,您可以释放一些此类自动化报告,以挖掘有趣的内容。
由于您可以控制上下文大小、报告涵盖的天数等,因此在这里拥有极致的控制权。
不过请注意,这需要 GPT-4 turbo 才能良好运行,Anthropic Claude 虽然拥有大上下文窗口,但其生成的结果未能令我印象深刻。
您可能已经知道这一点,但为了让其他人了解,我还是在此说明,因为这可能并不显而易见。
如果您可以访问 Discourse AI 机器人,它可以在右上角找到
![]()
然后使用“论坛助手”角色,您还可以尝试在“自定义说明”中使用不同的指令来生成“定期报告”。换句话说,您可以使用“论坛助手”来快速原型化报告。
作为有幸在开发过程中提供反馈的人,我可以告诉您,“自定义说明”对于获得期望的结果至关重要。在上面的示例中,我可以清楚地看到 Sam 为您根据初始请求生成的报告变体添加了以下内容:
希望对您有帮助。
遗憾的是,这个自定义指令太难了,即使是 GPT 4 也无法完成,不过好消息是其他部分都运行得相当好。
我喜欢它的外观,虽然我不确定我是否完全理解其功能。它看起来像是生成了与 Digest 类似的东西。我相当喜欢这种新格式的信息。
我从响应中没有看到的是,它是否可以提供自定义摘要。我是在某处错过了吗?是否可以根据用户的个人兴趣为用户生成这个?
为了让这些想法更具体,这大致是我所设想的:
伪代码
user_interests = main_interests + recent_interests
Recommended_list = Match(recent_topics with user_interests)
Recommended_list = Recommended_list.sort_by_match_strength()
我得出的一个有趣结论是,我们的日报(现在已在 meta 上为 TL3 接线)
人们最喜欢的人工智能驱动的功能是,对某个主题从 X 日到 Y 日的变化进行简单的 1 段式回顾。
与其让大型语言模型阅读整个语料库并创建这样的报告,不如我们保留一个“片段缓存”,例如,我们按主题存储段落:
| 主题 ID | 日期范围摘要 | 非常简短的摘要 |
|---|---|---|
| 2343 | 12-1 → 12-9 | … |
这样我们就可以为每个用户构建自定义摘要。因此,我们基本上将此分解为多个问题:
识别有趣的主题 → 传统编程(关注的标签/类别,或基于活动的“后台”关注 - 排除已读)
回顾主题 → 人工智能驱动的功能
这有几个优点。它的扩展性非常好,摘要可以更准确,因为上下文量大大减少,并且上下文泄露和幻觉的风险也更小。
我一直在思考这个想法的一个变体。与其考虑由标签或类别关联的主题,不如根据它们的语义相似性来考虑。虽然并非所有语义相关的主题都能整齐地形成一个球体,但将其视为球体是有帮助的。想象一个以单个主题开始的球体;随着更多主题的添加,球体膨胀,但一段时间后它的大小是有限的。然而,随着球体的增长,即使在达到完全尺寸后,也可以在球体内添加更多主题。将其想象成天空中 烟花表演,随着时间的推移,快速的爆炸代表了具有不同语义相似性的主题的添加。这个类比有助于我更好地理解这个概念。我对那些快速的爆炸以及那些长时间逗留和闪烁的爆炸特别感兴趣。如果有人能对此进行可视化表示,那么选择语义中心并量身定制一段关于它的段落将会很棒。
当使用 Show Full Post 时,这个主题会显示语义相关主题的真实图像。
编辑
这是一个更接近我想象的可视化效果。

图片来自这里
在很多方面,这就像是为 Discourse 寻找“算法”(https://github.com/twitter/the-algorithm)。
有许多因素可以构成挑选有趣内容的“算法”:
我必须说实话,这是我第一次听说“算法”,但是的,它与我的想法非常吻合。我需要进一步研究,但我预计我不会不同意你的看法。 ![]()
2023年11月21日
ChatGPT 3.5
你
什么是推特“算法”?
ChatGPT
推特的算法是指社交媒体平台用来确定向用户展示哪些内容在他们的时间线和信息流中的复杂数学规则和流程。该算法旨在根据用户的兴趣、互动历史和其他因素来策划和个性化用户看到的内容。推特的算法多年来不断发展,但总体目标是向用户展示最相关、最吸引人的推文,同时促进用户在平台上的互动和留存。
可能影响推特算法的关键组成部分和因素包括:
需要注意的是,推特会定期更新和改进其算法,以改善用户体验,并解决与错误信息和有害内容传播有关的问题。用户还可以通过调整设置、静音账户或使用列表和“优先显示最佳推文”等功能来进一步自定义其信息流,从而对自己的时间线进行一些控制。
我非常喜欢这个。它感觉像是“关注”的无提醒版本,这正是我们想要的。最让我印象深刻的是,我在阅读这种格式时感觉付出的认知努力很少!我真的迫不及待想读更多这样的内容!
我的想法对吗?这到目前为止只在 Meta 上尝试过吗?我非常想知道它将如何处理一个可能包含更晦涩信息的技术论坛。
我在一个技术论坛上也试过了,效果很好,可以开始使用了,下周会添加一些正式的文档