集成类似GPT3的机器人?

@Festinger 我回复了,也许你错过了我的邮件?请查看 1 月 17 日的邮件:

@SimonBiggs 经过对问题进行更多思考,我意识到一个更好的方法可能是创建一个封闭的外部服务,该服务可以接收加入 Discourse 论坛的邀请,设置其个人资料,然后使用 API 作为用户参与。个人资料将是真实的,但在描述中会清楚说明这是一个机器人。

我想到了这个机器人会做什么,但它不一定是一个真正的 Discourse 插件。它只需要偶尔作为 cron 运行,然后使用 Discourse API 发表评论和回复。你怎么看?

我有一些关于此类功能用例的想法。我意识到这偏离了 OP 的主题,但似乎也是所有对集成类似 GPT3 的机器人感兴趣的人都在访问的主题。如果您愿意开始另一个话题(公开或私密),那么社区的想法将有一个收集的地方。 :slightly_smiling_face:

1 个赞

那将是极好的,因为我们专门的 AI 团队的第一个时期是收集和分类有关可能功能的想法。

3 个赞

“> 我想出了这个机器人该怎么做,但它不一定需要是 Discourse 的实际插件。它只需要偶尔作为 cron 运行一次,然后使用 Discourse API 发布评论和回复。你觉得怎么样?

这当然说得通。但是,我个人只想制作开源人工智能工具。而且,考虑到 Discourse 本身正计划制作一个工具,我理想情况下会想帮助他们。”

1 个赞

Answering Bot with Scheduled Categorization and Fine-Tuning for Discourse Forums Proposal

Introduction: Discourse forums rely on user engagement and contributions, and a crucial aspect of this is the ability to get timely and accurate answers to questions. However, sometimes it may take a while for a response, discouraging users from continuing to participate in the conversation. To address this, we propose a bot that can automatically answer questions after a specific time frame to encourage community engagement. Additionally, the bot will allocate scheduled calls to categorize existing threads and build its own fine-tuning dataset, which can be updated from time to time.

Objectives: The primary objectives of the answering bot with scheduled categorization and fine-tuning for discourse forums are to:

  1. Encourage community engagement by providing timely and accurate answers to questions that may otherwise remain unanswered.
  2. Automate the categorization of existing threads to ensure that questions are correctly tagged, and users can easily find relevant information.
  3. Build a fine-tuning dataset for the bot to improve its performance and accuracy over time.

Proposed Solution: To achieve the objectives outlined above, we propose integrating a bot that can automatically answer questions after a specific time frame, allocated scheduled calls to categorize existing threads, and build its fine-tuning dataset. The bot will be designed to analyze user input, understand the context of the conversation, and generate appropriate responses based on predefined rules and machine learning models.

The bot will use natural language processing (NLP) techniques to analyze user input and generate responses that are relevant to the conversation. It will be trained to understand the context of the question, the topic being discussed, and the user’s previous interactions to provide accurate and helpful answers. The bot will only respond to questions that have not been answered within a specific time frame or when summoned by a username directly.

In addition to answering questions, the bot will allocate scheduled calls to categorize existing threads. It will analyze the thread’s content and tags to ensure that questions are correctly tagged and organized for easy navigation. The bot will also build its fine-tuning dataset by recording and categorizing user queries and responses. This dataset will be used to train and improve the bot’s performance over time.

Benefits: The benefits of integrating an answering bot with scheduled categorization and fine-tuning for discourse forums are numerous, including:

  1. Encouraging community engagement: The bot will provide timely and accurate answers to questions, encouraging users to continue participating in the conversation.
  2. Improved categorization of threads: The bot will automate the categorization of threads, ensuring that questions are correctly tagged and organized for easy navigation.
  3. Improved accuracy and performance: The bot’s fine-tuning dataset will be used to train and improve its performance over time.
  4. Reduced workload for human moderators: The bot will reduce the workload of human moderators by automating the categorization of threads and answering questions that would otherwise go unanswered.

Conclusion: Integrating an answering bot with scheduled categorization and fine-tuning for discourse forums is a valuable investment that can help encourage community engagement, automate categorization tasks, and improve the accuracy and performance of the bot over time. We recommend exploring the available NLP and machine learning models to select the one that best meets the needs of the discourse forum. The integration process should be planned and executed carefully, with proper testing and training to ensure that the bot performs as intended.

引言: Discourse 论坛依赖于用户参与和贡献,而及时准确地回答问题是其中的关键方面。然而,有时回答可能需要一段时间,这会阻碍用户继续参与对话。为了解决这个问题,我们提出一个机器人,它可以在特定时间后自动回答问题,以鼓励社区参与。此外,该机器人将分配计划好的调用来对现有主题进行分类,并构建自己的微调数据集,该数据集可以不时更新。

目标: 带有计划分类和微调功能的 Discourse 论坛问答机器人的主要目标是:

  1. 通过及时准确地回答可能无人问津的问题来鼓励社区参与。
  2. 自动对现有主题进行分类,以确保问题被正确标记,并且用户可以轻松找到相关信息。
  3. 为机器人构建微调数据集,以随着时间的推移提高其性能和准确性。

解决方案: 为实现上述目标,我们建议集成一个机器人,该机器人可以在特定时间后自动回答问题,分配计划好的调用来对现有主题进行分类,并构建其微调数据集。该机器人将能够分析用户输入,理解对话的上下文,并根据预定义的规则和机器学习模型生成适当的响应。

该机器人将使用自然语言处理(NLP)技术来分析用户输入并生成与对话相关的响应。它将接受训练,以理解问题的上下文、正在讨论的主题以及用户之前的互动,从而提供准确有用的答案。该机器人仅响应在特定时间范围内未得到回答的问题,或当直接通过用户名召唤时。

除了回答问题外,该机器人还将分配计划好的调用来对现有主题进行分类。它将分析主题的内容和标签,以确保问题被正确标记和组织,以便于导航。该机器人还将通过记录和分类用户查询和响应来构建其微调数据集。此数据集将用于训练和改进机器人随时间的性能。

优势: 为 Discourse 论坛集成带有计划分类和微调功能的问答机器人的好处是多方面的,包括:

  1. 鼓励社区参与:机器人将及时准确地回答问题,鼓励用户继续参与对话。
  2. 改进主题分类:机器人将自动对主题进行分类,确保问题被正确标记和组织,以便于导航。
  3. 提高准确性和性能:机器人将使用其微调数据集来随着时间的推移训练和改进其性能。
  4. 减轻人工版主的工作量:机器人将通过自动对主题进行分类和回答本应无人回答的问题来减轻人工版主的工作量。

结论: 为 Discourse 论坛集成带有计划分类和微调功能的问答机器人是一项有价值的投资,它可以帮助鼓励社区参与,自动化分类任务,并随着时间的推移提高机器人的准确性和性能。我们建议探索可用的 NLP 和机器学习模型,以选择最能满足 Discourse 论坛需求的模型。集成过程应经过仔细规划和执行,并进行适当的测试和培训,以确保机器人按预期运行。

4 个赞

这是一个很好的开始,但不幸的是,作为 OP,它仍然没有实现我最初所说的目标。然而,在研究这个领域多年之后,除非我中彩票,否则我无法通过自己付费来获得我想要的东西。重申一下,我需要一个机器人,它不仅能做你上面概述的事情,还能对与个人的先前讨论有持久的记忆——就像人类一样。既然我很快就得不到我想要的东西了,但 Discourse 本身 + 正在开发的 Discourse AI Bot 提案将实现我想要的很多功能,也许我应该将我所有的精力都投入到尽可能多地帮助这个项目,同时继续研究使用图论和其他东西的持久记忆——这些以后可以添加?

如果 Discourse 的实现/提案不能满足你的需求,并且你愿意资助开源 AI 软件(Apache-2.0,Discourse 自己可以重新利用)的开发,我很乐意为你设置一个具有记忆功能的 Discourse AI 机器人。

这里的一切都将取决于模型。我看到了很多普遍的兴趣,但没有人建议使用哪个模型,也没有人证明该模型能做任何有用的事情。

即使是让 OPT 产生好的结果也很困难,而且 Facebook 还添加了相当多的参数。我在这里(也对整个行业)普遍的担忧是,在开放领域,没有什么能与 GPT 3 devinci 相提并论,而 GPT 4 即将到来,这将使竞争更加困难。

4 个赞

在上面的帖子中,详细介绍了模型及其有用性:

该过程是 Supabase + OpenAI GPT API。目前,GPT 3.5 + OpenAI 嵌入足以完成当今 Discourse 机器人所需的许多任务。

GPT API 不是开源的。但它是一个 API。当开源模型赶上来时(例如 https://github.com/LAION-AI/Open-Assistant),可以将其替换。

我当然同意。这就是为什么目前,在后台将使用 GPT 3.5,直到有更好的替代方案可用。

我在这里最大的担忧是归因,特别是当语料库像 Discourse 论坛那样庞大,并且用于训练机器人的大量数据可能已过时时。

这种 ClippyGPT 方法存在一些根本性的重大问题。你不能用不提供内容链接的东西来取代搜索。训练这个也将是一项艰巨的任务。

2 个赞

也许最好私信您,以便更好地讨论这个想法的细节。 .

嗨 Phil,

我也在悉尼时区(Wagga Wagga)。我的电子邮件地址是 me@simonbiggs.net。我们来安排一个视频通话时间吧?

此致,
Simon

哇!我 2015 年从悉尼搬到了考拉!- 几天前我开车经过你附近,去了霍尔布鲁克又回来!

你今天剩下的时间有空吗?

说到悉尼… :wink:

我很惊讶没有人提到“新”必应。我认为这是 Discourse 中可以实现的绝佳示例。

愿意为此提供一些财政支持 :slight_smile:

1 个赞

我的插件可以使用 GPT3(默认:“text-davinci-003”,但您可以选择模型)来总结主题:

我已经试过了(甚至在生产环境中),到目前为止,结果给我留下了深刻的印象。我甚至可以说它有时“妙不可言”。

然而,虽然它经常返回相关、语法正确且令人信服的摘要,但它容易出现事实错误,这些错误可能具有高度误导性并损害其有用性。不过,这里有巨大的潜力!

请注意,该插件仍处于实验阶段,但现在似乎已稳定。结果会有所不同,但有各种生活质量设置可以改善您的结果,包括一个带有阈值设置的降级机制,该机制会提示系统从 LLM 检索新摘要。

3 个赞

这也很顺利:

7 个赞

我认为 ChatGPT 在常见问题解答和文档方面会很棒。请看 Richard Millington 的这项研究:

5 个赞

ChatGPT 目前不支持微调(截至今天,它也没有相应的 API)。

我认为,在 Discourse 网站语料库上训练一个基于 GPT 的模型(无论是微调 GPT-3 还是使用其他模型)会很有趣,看看在用数据训练并教会它响应后,“胡言乱语队长”(captain word salad)的表现如何。当然,前提是“垃圾进,垃圾出”。

实验肯定会发生,而且过度自信的撒谎 GPT 模型(由于更好的数据和某种程度的事实核查的缓解算法)会随着时间的推移而变得更好。

Richard 的帖子确实很有趣,但 ChatGPT 目前还没有准备好胜任这项任务:

相比之下,例如 Bing 会根据相当新的搜索结果进行微调。

5 个赞

Goodspeed I Bubble Buddy I Bubble FAQs 上似乎发布了类似的东西。

我不确定 https://forum.bubble.io/ 的内容是否也被用作种子。

1 个赞