DeepSeek 最近发布了他们的开源推理模型“R1”(以及一个 API),该模型在性能上与 OpenAI 的 o1 相当,但成本却与 GPT-4o-mini 差不多。它确实非常出色且实用,尤其是考虑到其成本,但目前在 LLM 设置页面中尚不支持。![]()
omfg 我怎么没想到……谢谢哥们 ![]()
我得到了一个 API 并按照 @Falco 的描述进行了连接,调整了提示词,得到了惊人的响应。确实很棒。不幸的是,我随后阅读了他们的隐私政策和服务条款,他们会使用、共享并拥有你所做的一切。公司位于中国。不幸的是,尽管它很棒,但出于隐私原因,我认为我不能在社区中使用它。
有什么关于可以在 Discourse 中使用 API 密钥的开源模型的建议吗?GPT4o 和 Mini 都很棒,但这些推理模型确实很吸引人。
这是一个很好的观点。幸运的是,R1 是完全开源的,有人对其进行微调以去除中文(即删除过滤器/审查等)只是时间问题。然后,我怀疑它将成为各种云提供商(bedrock、groq 等)上的主要模型。目前,除了 o1 之外,没有其他模型能与之媲美。实际上,根据基准测试,R1 在某些方面甚至略有优势。
@MachineScholar 感谢您开启这个话题以及您的评估。我对这个新的人工智能世界感到有些不知所措。我正在指导一名实习生,他正在为我们实施和分析人工智能成本。您能大致地、通俗地解释一下成本差异吗?
目前,我们正在运行以下大型语言模型:
- Claude 3.5 Haiku
- Claude 3.5 Sonnet
- Gemini 1.5 Flash
- GPT-4 Omni
我正在考虑实施 DeepSeek R1,因为另一名实习生今天非常称赞它在特定编程任务上比 GPT-o4 和 o1 更好。
两名实习生都是计算机科学家,而且他们年轻,所以对新技术的热情毫不缺乏。 ![]()
另外,如果我的 Discourse 论坛有公开数据,我是否需要担心 DeepSeek 的隐私服务条款?我想,如果它很好而且能为我省钱,为什么不呢?但显然,我不想损害社区。
嘿!很高兴能帮到你 ![]()
截至今日,每 100 万个 token 的成本从低到高排列如下:
Gemini 1.5 Flash
输入:$0.075
输出:$0.30
Claude 3.5 Haiku
输入:$0.80
输出:$4.00
Claude 3.5 Sonnet
输入:$3.00
输出:$15.00
GPT-4o
输入:$2.50
输出:$10.00
DeepSeek-R1
输入:$0.55
输出:$2.19
这里的 token 价格没有考虑 prompt caching,它可以大幅降低成本。此外,AI 社区似乎普遍认为 Claude 3.5 Sonnet 在代码生成方面比 OpenAI 的模型更稳定,尽管我认为它们的质量经常在两者之间摇摆。
尽管如此,DeepSeek-R1 显然是这里的赢家,它不仅性价比最高,而且总体上也是最好的。Chatbot Arena Leaderboard 也支持这一点,它的排名高于 o1:
昨天 DeepSeek 遭受了严重的网络攻击,这可能是导致其 API 无法使用的原因,但我刚刚再次测试过,现在它已经可以正常工作了。我还就那个问题开了一个帖子
至于隐私,DeepSeek 在其政策中明确指出,数据存储在中国(这完全违反了欧盟法律等),而且众所周知,中国共产党可以访问中国的所有公司数据。但如果这些都是公开数据,那又有什么关系呢,毕竟你的网站理论上也可以被抓取/挖掘。
幸运的是,这个模型是完全开源的,LLM 提供商也意识到了这一点。例如,fireworks.ai 已经提供了这个模型,尽管我认为他们定价过高,输入 8.00 美元/输出 8.00 美元。所以 DeepSeek API 确实非常经济实惠。
在我的社区中,我使用 GPT-4o-mini 配合 RAG(强制它在回复前阅读相关主题,以提供更具事实性/帮助性的答案)和严格的提示工程。它从未让我失望,而且价格非常便宜,输入 0.15 美元/输出 0.60 美元。但我不太信任它来编写代码——这肯定最好留给 o1-mini 或 DeepSeek-R1。通常,我社区中使用的 token 中有 1/3 到 1/2 的 token 被缓存(你可以在 /admin/plugins/discourse-ai/ai-usage 中看到),这进一步降低了我的成本,因为缓存的 token 便宜 50%。
因此,如果我的社区每天使用 200 万个输入 token 和 10 万个输出 token,我的大致成本是:
每日输入成本:约 0.22 美元
每日输出成本:约 0.06 美元
…乘以 30 天 = 每月约 6.60 美元的输入和约 1.8 美元的输出 = 8.40 美元。
这甚至还不够一顿午餐的钱。
这基本上又是一篇元帖子,但我用关于锻炼和减肥的问题测试了 DeepSeek。我得到了一个非常糟糕的答案,里面充斥着幻觉。这与其他我听到的经历一致。
所以,价格标签只是故事的一部分。你为这个价格得到什么也是重要的一部分。
啊,是的,这确实是个好观点。我忘了这一点,因为我几乎从不单独使用大型语言模型(LLM),而是在搜索知识/信息时使用检索增强生成(RAG)或其他形式的信息注入。R1 在与“批判性思维”进行头脑风暴时对我来说表现出色。但这都需要出色的提示工程。
需要说明的是:R1 从一开始就接受了面向推理的强化学习训练,因此它简单的内部“信息检索”可能会因为“过度思考”而产生幻觉。但我还没有完全阅读他们的研究论文,所以这只是我的直觉,请姑且听之。
R1 也很容易被越狱 ![]()
我也收到了一些不连贯的回复。我能够有意地利用它来创建几个好的训练示例,我将它们放入了 RAG 文本文件中,用于一些特定的目的。肯定还没有准备好投入实际使用。希望 OpenAI 能发布一个更具成本效益的推理模型供我们使用。
@MachineScholar 我想衷心感谢您提供的成本分析,并帮助我理解这一切。我自己对所有新信息感到有些不知所措,但年轻的计算机科学实习生们似乎像海绵一样吸收信息。他们可能比我快 8 倍……
我有一个实习生正在为两个不同的 Discourse 社区开发 AI 插件。我们支付实习生报酬,但他们很便宜,而且肯定充满热情。主要从事 AI 工作的是加州大学计算机科学专业的实习生,我经常想,在一个年轻群体中,未来如此清晰地属于他们去创造,校园里的讨论会是什么样的?
我还想知道您自己的研究环境是怎样的?您似乎深度参与了这项技术。这是一个多么棒的参与时机。太令人兴奋了。
我可能会在我下一个问题中开启一个新话题。实习生正在为 AI 机器人实现 Google 自定义搜索和 GitHub Token 访问。我不太确定这些是什么。但是,我希望 AI 机器人能够访问 GitHub 存储库来查找文档……我不确定什么可行。我也不知道 Discourse AI 插件是否使用了检索增强生成(RAG)。
关于 DeepSeek R1 与 o1 的功效,另一位实习生在与我谈论使用 Web 应用 UI(使用 ChatGPT Plus)为他们的 CS 项目使用它。所以,测试非常不正式,但一位实习生对 DeepSeek 的热情很高。
实际从事 AI 实现的实习生对 LLM 之间的差异一直更为谨慎。到目前为止,他们主要提供成本和使用情况表,对使用差异的评论有限。我们将向社区提供所有 LLM,并请他们进行评估。所以,实习生此时保持低调的意见是很聪明的。
再次感谢您在我旅程中的帮助。
Deepseek 正在深入影响整个人工智能界、商业和企业界。
他们在各个方面都做到了“少即是多”。您可以搜索他们的技术差异,我在 Reddit 上找到了相关信息,因为我不同意他们的政策,但您可以在那里找到。
他们的耐心和在没有风险投资数十亿美元的情况下就能做得更好的能力令我印象深刻。OpenAI 对许多国家来说都非常昂贵,而这不应该是互联网或我们数字时代的意义所在。
当然,CPC(中国共产党)直接参与其中,但如今破碎的西方法律和政府几乎没有区别。
该模型像 OpenAI 一样被审查(天安门事件或加沙),但其性能非常好,成本仅为旧的通用成本的 1/10-20。
我认为这对用户和技术来说是件好事。旧的服务需要改变他们的方法,或者让人们自己选择。
我很高兴我能帮上忙!
是的,如今身处计算机科学领域意味着必须能够极其快速地适应和学习。有时确实很累。我猜想加州的创新型校园正处于前沿。我熟悉加州大学的许多实验室,它们正在进行智能和认知方面的尖端研究。
我目前拥有一家自己的公司,在那里我开发智能教育技术,并且我还Работаю 在一个小型人工智能实验室,在那里我们正试图构建一个原型心智,然后为它找到一些商业用例。在不久的将来,我将开始我自己的研究实验室,专注于我自己的细分研究兴趣,即智能太空探索系统。人工智能世界确实都非常令人兴奋——这是真的——但我的内心有时也希望这一切能慢下来,这样我就不必一直追赶了,哈哈!
Google Custom Search 和 GitHub Token 访问分别允许 AI Bot 访问 Google 搜索和 GitHub(用于编程相关事务)。此外,Discourse AI Bot 在阅读论坛中的主题或帖子时确实会执行 RAG。它会阅读然后使用该文本作为额外上下文,以便生成更具信息量的文本。
确实,你的实习生知道如何跟上潮流是件好事,但他们也要记住,大型语言模型总是被过度炒作,因为这对市场有利。大型语言模型开发者有动力将其炒作起来。不过,我承认,这些系统随着时间的推移确实越来越令人印象深刻。
@oppman 如果您有任何需要,随时可以给我发私信!我们都在一起!
This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

