隆重推出 Discourse AI

给那些想知道什么是向量数据库的人

注意:这来自一家商业向量数据库供应商,但它仍然是我所知的最佳入门介绍,并且是OpenAI使用的相同向量数据库。

要理解关于 Transformer 模型,向量意味着什么,请观看这个技术 YouTube 视频

4 个赞

我们在 discourse-ai 中使用 https://github.com/pgvector/pgvector,但从长远来看,我们也在考虑其他想法,例如 weaviate / elastic / milvus。

Pinecone 是 Discourse 的用户 :hugs: https://community.pinecone.io/

11 个赞

@sam,是的,我们确实是快乐的 Discourse 用户,而且正如你提到的,GPT-4 最常见的搭配之一就是用于你所说的确切用例——请参阅我们主页上的徽标+引言。我们可以帮你做一个 POC 吗?

8 个赞

当然,我将把你和 @Falco 连接起来,你们可以讨论一下。

我认为 discourse-ai 也附带一个 pinecone 适配器会很棒,这可以大大减少我们平台自助托管者的摩擦。

7 个赞

看来您已经对培训成本进行了研究,但我想根据 OpenAI 的微调指南分享我的理解。如果我正确理解了 https://platform.openai.com/docs/guides/fine-tuning,他们建议将 Ada 用于分类任务,并为每个类别提供 100 个示例。在这种情况下,我们将总共有 200 个示例(垃圾邮件和非垃圾邮件)。假设平均示例包含 500 个 token,那么在 Ada 上培训的总 token 数为 500 * 200 = 100,000 个 token,培训费用为 0.04 美元。如果您改用 Davinci,费用将为 3.00 美元。

我猜想定价可能是针对单步或单轮培训的,但我在他们的网站上找不到更详细的信息。如果您有任何见解或我有所误解,请告诉我。

2 个赞

正如我之前提到的,那些成本是针对我业务的我的用例。我的训练和使用是 Davinci,而不是 Ada,所以在那里成本要高出 75 倍。我们还在实际使用中最大化每个请求的 token 数量。

我不确定 Sam/Falco 在他们的用例中具体会考虑什么——只是笼统地说,大规模微调可能会很昂贵!

2 个赞

祝贺 @sam@Falco 发布!

我很乐意支持 Discourse 对 Weaviate 的评估!:clap:

7 个赞