如何添加一个连接到自托管 LLM 的新聊天机器人?

我想添加一个新的“聊天机器人”并将其链接到自托管的 LLM。
我曾尝试使用“ai hugging face model display name”字段,但它似乎没有出现在任何地方,也许我需要在与 persona 相关的提示中引用它?
我还尝试通过“ai bot enable chat bots”下拉菜单“创建”一个新的机器人,但我创建的任何内容都会在聊天机器人下拉菜单中显示为“ [en.discourse_ai.ai_bot.bot_names.XXXX]”,其中 XXXX 是我提供的名称。
任何关于如何做到这一点的文档或指南的提示都将不胜感激。

有人能提供任何建议吗,或者这是一个已知限制?

@Roman 正在重构这一部分,预计未来几周会有更多消息。

3 个赞

我不确定我的理解是否正确,目前无法使用自托管的 LLM,但这种情况很快就会改变?

目前还无法实现,但希望在一到两周内能够实现。

谢谢。我本来以为它应该能用,因为 OpenAI 是受支持的。我认为很多人会运行他们自己的、具有 OpenAI 兼容接口的大型语言模型。我期待两周后的更新 :slight_smile:

1 个赞

顺便问一下 @Isambard,你估计每月托管一个足够强大的本地 LLM 需要花费多少美元?

每月 GPU 闲置时至少会增加 5 美元的额外电费——尽管实际上,由于我已经将 LLM 用于其他目的,因此对于 discourse 来说,增量成本为零。

但对于小型论坛和低使用量来说,使用 LLM 作为服务肯定更经济。不过,对于 Discourse 的托管产品规模而言,我怀疑内部托管(并在此领域积累可能很重要的知识)可能是有意义的。

1 个赞

A100 15k 呢?

您在本地运行的是哪个模型?

1 个赞

我正在运行几个不同的东西。对于 Discourse 相关的内容,我将运行一个基于 Mistral 的 7B 模型,并针对这些任务进行了微调。我正在研究各种类似 BERT 的模型用于分类任务,并且尚未决定使用哪种嵌入。这运行在一台我花了 700 美元购买的二手 3090 Ti 上。

我希望能有一台 A100,但取而代之的是,我以“低成本”花了 1000 美元构建了一个独立的 4 GPU 系统,该系统以超过 20 tok/s 的速度运行 Llama 3 70Bq4。

当然,在许多/大多数情况下,直接使用供应商会更明智,但是,如果您满足以下条件,自己动手可能更合适:

  • 您想学习
  • 您想对您的模型拥有确定的控制权(这样您就不会失去对它们的访问权限,或者受制于某个公司来使用他们不公开的嵌入)
  • 您需要进行大量的批量处理,在内部处理会更便宜
  • 您想要为批量处理保留和可靠的容量(供应商提供的请求和可用 token 数量都有限制)
4 个赞

我测试了 3090,在运行 Llama 3 - 8B FP16 时,每秒的最大持续吞吐量约为 2600 个 token。我居住在一个电费昂贵的地区,但以 285W 的功率限制持续运行,每百万输出 token 的成本约为 0.007 美元。或者,如果将设备成本在 3 年内完全折旧,每百万 token 的成本约为 0.01 美元。

与 Claude Haiku 相比,这相当有利,前提是您的利用率合理。

2 个赞

我有一个有趣的发现:我托管论坛的 Web 服务器即使没有 GPU,也足以以适度的速度(不批处理时为 6 tok/s)运行小型 LLM。这对于离线/后台任务很有用。

1 个赞